Em formação

Mesclar vários arquivos de sequência .ab1 em um único arquivo FASTA?

Mesclar vários arquivos de sequência .ab1 em um único arquivo FASTA?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Tenho vários arquivos .ab1 gerados a partir do Chromas. Quero mesclar todos eles em um único arquivo de sequência FASTA. Como posso fazer isso de forma automatizada?

Observe que não tenho o Chromas instalado (os arquivos foram gerados por outra pessoa). Estou usando o Linux, portanto, ferramentas de linha de comando de código aberto são as preferidas.


Em geral, você deve usar um algoritmo de chamada de base para gerar as sequências do cromatograma e não convertê-lo diretamente em fasta (Cortesia: Sven [SEQanswers] ) Conforme mencionado no link, phred e TraceTuner são softwares de chamada de base populares que podem gerar uma saída fasta.

O software mencionado por The Nightman pode ser usado para converter.ab1para fasta. Você também pode tentar este módulo BioPython chamado abifpy. Você pode ler facilmente cada.ab1, usando um script python, e escrever as sequências no formato fasta como um único arquivo.

Combinar vários fasta é bastante trivial. Você pode usargatocomo mencionado por outros.


DNA Baser tem um conversor de lote abi para fasta aqui. Depois que os arquivos forem convertidos em arquivos .fa, eles podem ser concatenados em UNIX / MAC usandocat * fa> output.fa


Possibilidades típicas que vêm à mente são os programas disponíveis em EMBOSS e Staden. No entanto, a questão de como acessar os dados de sequência armazenados em arquivos .ab1 foi feita em Biostars várias vezes, então eu sugiro que você dê uma olhada nas várias respostas lá para opções que são adequadas para seu ambiente e caso de uso, veja Biostars procure "ab1".


Como combinar vários arquivos em um arquivo?

Tenho vários arquivos (n = 86.000) com uma coluna cada e quero combiná-los todos em um arquivo com 86.000 colunas.

Eu tentei o seguinte comando

Isso não pareceu funcionar porque havia 86.000 para combinar, então eu dividi meus arquivos em várias pastas, cada uma delas contendo mais de 15.000 arquivos, mas isso não funcionou

O formato do meu único arquivo é o seguinte (tem 16.000 linhas)

Qual é o bug no código?


Mesclar vários arquivos de sequência .ab1 em um único arquivo FASTA? - Biologia

Formato de arquivo Multi-Multi-FASTA / Q

As sequências de DNA e proteínas são freqüentemente armazenadas no formato FASTA [1-4]. Atualmente, colocamos várias sequências em um arquivo FASTA, mas originalmente o arquivo FASTA deveria conter apenas uma única sequência. Um arquivo com várias sequências foi denominado "Multi-FASTA".

Agora, e se você quiser combinar não apenas várias sequências, mas vários arquivos FASTA em um único arquivo? Você poderia usar tar, mas o arquivo .tar resultante é binário e não é compatível com ferramentas de processamento FASTA. Simplesmente concatenar os arquivos individuais juntos perderia os nomes dos arquivos.

Daí esta proposta de formato de arquivo Multi-Multi-FASTA. É um arquivo FASTA, em que os cabeçalhos de sequência podem ter um sufixo opcional "& gtfilename". Portanto, o cabeçalho completo da sequência se parece com "& gtsequence name & gtfilename". Tal cabeçalho indica que este e todas as sequências subsequentes pertencem ao arquivo "nomedoarquivo". Isso permite desconstruir um arquivo Multi-Multi-FASTA de volta para arquivos FASTA individuais.

É importante ressaltar que o arquivo Multi-Multi-FASTA pode ser processado com ferramentas compatíveis com FASTA. Ele pode ser compactado com compressores específicos do FASTA, pesquisado com ferramentas de pesquisa de homologia, etc. Quando necessário, pode ser desconstruído de volta aos arquivos FASTA originais.

O mesmo princípio pode ser usado para combinar vários arquivos FASTQ em um único arquivo Multi-Multi-FASTQ. Para dados FASTQ, "@" é o separador padrão, então o nome marcado se parece com: "@ readname @ filename".

O roteiro mumu.pl neste repo está a implementação de referência. Ele permite compactar e descompactar um arquivo Multi-Multi-FASTA / Q.

Pré-requisitos: git (para download), perl. Por exemplo, para instalar no Ubuntu: sudo apt install git perl. No Mac OS, pode ser necessário instalar as ferramentas de linha de comando Xcode.

Baixando e instalando:

Ou apenas coloque o mumu.pl script onde você precisa.

Empacotando vários arquivos em um arquivo Multi-Multi-FASTA / Q

mumu.pl 'data / *. fa' & gtall.mfa - Combine todos os arquivos .fa no diretório "data", armazene o resultado em um arquivo "all.mfa".

mumu.pl --dir data '* .fa' & gtall.mfa - O mesmo, mas entra no diretório "data" primeiro. Os nomes de arquivos armazenados na saída não terão parte do diretório.

mumu.pl --dir data --sep '& lt' '* .fa' & gtall.mfa - Use '& lt' como separador entre o nome da sequência e o nome do arquivo na saída.

mumu.pl --dir data --all '* .fa' & gtall.mfa - Adiciona o nome do arquivo a todos os nomes de sequência. Por padrão, apenas a primeira sequência de cada arquivo é marcada com o nome do arquivo.

mumu.pl --stdin & ltlist.txt & gtall.mfa - Empacote os arquivos listados em "list.txt" em "all.mfa".

mumu.pl --fastq --dir lê '* .fq' & gtall.mfq - Combina arquivos FASTQ em um único arquivo Multi-Multi-FASTQ.

mumu.pl '* .fa' & gtall.fa - Não faça isso! "all.fa" será contado como um dos arquivos de entrada, potencialmente sobrecarregando seu espaço de armazenamento.

mumu.pl --dir data --no-ext --cmd "unnaf ''"' * .naf '& gtall.mfa - Descompacte arquivos formatados em NAF e empacote seus dados em" all.mfa ".

Descompactando um arquivo Multi-Multi-FASTA / Q

mumu.pl --unpack all.mfa - Descompacta "all.mfa" em arquivos individuais.

mumu.pl --unpack --dir 'new' all.mfa - Cria o diretório "novo", insere-o e descompacta "all.mfa".

mumu.pl --unpack --sep '& lt' all.mfa - Descompacta o arquivo onde "& lt" foi usado como separador entre o nome da sequência e o nome do arquivo.

mumu.pl --unpack --dir 'novo' all.mfa --cmd "ennaf -22 -o '.naf '"- Descompacte" all.mfa ", compacte cada arquivo descompactado com ennaf no vôo.

Por que não colocar o nome do arquivo primeiro, como "& gtfilename & gtsequence name"?
O motivo é que, em muitos casos, os nomes de sequência começam com o número de acesso. Colocar o nome do arquivo no final mantém a compatibilidade com ferramentas de software que lêem apenas o número de acesso e ignoram o resto do nome.

Posso repetir o "& gt" no nome da sequência?
Por padrão, o nome da sequência e o nome do arquivo são separados pelo caractere "& gt", pelo motivo de esse caractere não ser normalmente encontrado em nomes de sequência. No entanto, algumas ferramentas podem ter problemas com um segundo "& gt" em uma linha. Nesses casos, é possível usar outro caractere, usando --sep '?' opção. Naturalmente, ao usar um separador personalizado, ele deve ser especificado nas etapas de embalagem e desembalagem.

Observe que o separador não precisa ser um único caractere. Você pode usar qualquer string, desde que o lado da descompactação a conheça e possa fornecê-la ao comando de descompactação.

Todas as sequências devem ser marcadas com nomes de arquivo ou apenas a primeira sequência de cada arquivo?
Isso depende do cenário de uso. Se o fluxo de trabalho envolver a reordenação ou filtragem de sequências, pode ser necessário marcar cada sequência. Por outro lado, se todas as sequências forem retidas, marcar apenas a primeira sequência por arquivo será mais compacto. O formato e a implementação suportam ambos os casos.

E se os arquivos FASTA a serem combinados estiverem localizados em vários diretórios?
Não há problema, a parte do nome do arquivo do arquivo Multi-Multi-FASTA pode incluir o caminho para o arquivo, como este: "& gtsequence name & gtfull / path / to / file". Quaisquer caminhos de arquivo fornecidos para o comando de empacotamento serão registrados no arquivo empacotado. Durante a descompactação, os diretórios serão criados automaticamente.

Qual extensão de nome de arquivo deve ser usada para arquivos Multi-Multi-FASTA / Q?
As extensões ".mfa" e ".mfq" podem ser usadas para arquivos Multi-Multi-FASTA e Multi-Multi-FASTQ, respectivamente. Alternativamente, qualquer uma das extensões FASTA e FASTQ usuais podem ser usadas (".fa", ".fasta", ".fna", ".fq", ".fastq", etc).

Devo compactar * .fa ou '* .fa'?
A maneira mais recomendada e robusta é usar a cotação: '* .fa'. Tentar mesclar * .fa resulta no shell expandindo a máscara e fornecendo todos os nomes de arquivos como argumentos para o mumu.pl roteiro. Normalmente pode funcionar bem, mas algum dia você tentará compactar um diretório com milhares de arquivos, o que pode estourar o tamanho máximo de argv do seu sistema. Ao citar a máscara ('* .fa'), a expansão da máscara ocorre dentro do mumu.pl script, onde o limite é determinado pela RAM disponível e, portanto, um número muito maior de arquivos pode ser processado com segurança.

Que tal preservar as permissões, proprietário e carimbo de data / hora dos arquivos compactados?
Atualmente estes não são suportados, mas em princípio o formato pode ser estendido para acomodar essas informações, se houver interesse suficiente nisso.

Ele pode empacotar um diretório de arquivos FASTA recursivamente?
O formato não tem problemas com o armazenamento de toda a árvore de diretórios. A ferramenta atual não possui modo recursivo, mas pode ler a lista de arquivos a serem compactados do stdin, possibilitando o empacotamento recursivo. Por exemplo, aqui está como você pode compactar um diretório inteiro usando achar comando:
localizar DATASET -tipo f -nome '* .fna' | mumu.pl --stdin | ennaf -22 -o DATASET.mfa.naf

Ele sobrescreve os arquivos existentes durante a descompactação?
Por padrão, não. Adicione a opção --overwrite para sobrescrever os arquivos existentes.

Um arquivo malicioso pode colocar arquivos fora do diretório de destino durante a descompactação?
Não. Todos os caminhos absolutos são convertidos em relativos e todos os '..' nos caminhos são ignorados durante a descompactação. Ele só pode descer na árvore de diretórios, não subir.

Os arquivos compactados com gzip podem ser descompactados instantaneamente e os dados extraídos compactados?
sim. --cmd. opção permite especificar um comando que será executado em cada arquivo individual processado (durante a embalagem e descompactação). Isso permite descompactar os arquivos imediatamente antes de compactar seus dados. Ele também permite compactar (ou de outra forma processar) cada arquivo extraído durante a descompactação.

Compactando genomas relacionados

Suponha que temos um conjunto de genomas relacionados, por exemplo, 1.697 genomas de Helicobacter pylori. Não compactados, eles ocupam 2,8 GB no formato FASTA. Compactado um a um usando o gzip resulta em um conjunto de arquivos de 804 MB. Um compressor melhor, como o naf, reduz o tamanho para 675 MB. No entanto, os genomas ainda permanecem em 1.697 arquivos separados.

Vamos tentar as duas formas mais comuns de agrupar os arquivos - zip e tar.gz: obtemos arquivos de 767 e 803 MB, respectivamente. Embora agora tenhamos um único arquivo, conveniente para compartilhar ou mover, o tamanho ainda é grande. Além disso, acessar os dados da sequência agora requer a desconstrução do arquivo em arquivos individuais.

Um compressor mais forte pode compactar o arquivo tar em um arquivo menor. Mas a necessidade de restaurar os arquivos originais antes de trabalhar com eles permanecerá.

Agora, e se combinarmos os genomas em um arquivo Multi-Multi-FASTA e, em seguida, compactarmos com naf? Obtemos um arquivo que é apenas 80 MB - 10 vezes menor e fácil de enviar pela rede.

É importante ressaltar que as sequências formatadas em FASTA contidas neste arquivo podem ser acessadas simplesmente descompactando e canalizando os dados para uma ferramenta compatível com FASTA. Isso significa que muitas análises podem ser realizadas sem descompactar o arquivo e sem armazenar 1.697 arquivos no sistema de arquivos. Somente quando necessário, iremos desconstruir o arquivo em arquivos FASTA individuais.

Comprimindo:
mumu.pl --dir 'Helicobacter' 'Helicobacter pylori *' | ennaf -22 --text -o 'Hp.mfa.naf'

Descompactando e desempacotando:
unnaf 'Hp.mfa.naf' | mumu.pl --unpack --dir 'Helicobacter'

Compactando arquivos já compactados

Suponha que você tenha um conjunto de genomas que já estão compactados um a um (por exemplo, usando o formato NAF). Agora você gostaria de empacotá-los e compactá-los em um único arquivo. A maneira mais simples é descompactar os genomas primeiro, mas então você teria que armazenar todos os enormes dados descompactados. O ideal é que você prefira que a descompressão ocorra em tempo real ao compactar as sequências. Usando a opção --cmd, isso pode ser feito em uma única etapa:

mumu.pl --dir 'Helicobacter' --no-ext --cmd "unnaf ''"' Helicobacter pylori * .naf '| ennaf -22 --text -o' Hp.mfa.naf '

Também é possível desempacotar o arquivo resultante de volta diretamente em genomas compactados individualmente:

unnaf 'Hp.mfa.naf' | mumu.pl --unpack --dir 'Helicobacter' --cmd "ennaf -22 -o '.naf '"

David J. Lipman, William R. Pearson (1985) "Pesquisas de similaridade proteína rápidos e sensíveis" Ciência, 22 de março de 1985, 227 (4693), 1435-1441.

William R. Pearson, David J. Lipman (1988) "Ferramentas aperfeiçoadas para comparação de sequência biológica" Proc. Natl. Acad. Sci. EUA, Abril de 1988, 85 (8), 2444-2448.

Hongen Zhang (2016) "Visão geral dos formatos de dados de sequência" Métodos em Biologia Molecular, 1 de janeiro de 2016, 1418, 3-17.

Peter J.A. Cock, Christopher J. Fields, Naohisa Goto, Michael L. Heuer, Peter M. Rice (2010) "O formato de arquivo Sanger FASTQ para sequências com pontuações de qualidade e as variantes Solexa / Illumina FASTQ" Nucleic Acids Res., Abril de 2010, 38, 1767-1771.

Kirill Kryukov, Mahoko Takahashi Ueda, So Nakagawa, Tadashi Imanishi (2019) "O Nucleotide Archival Format (NAF) permite a compressão eficiente sem perda de referência de sequências de DNA" Bioinformática, 35(19), 3826-3828.

Kirill Kryukov, Mahoko Takahashi Ueda, So Nakagawa, Tadashi Imanishi (2020) "Banco de dados de benchmark de compressão de sequência (SCB) - uma avaliação abrangente de compressores sem referência para sequências formatadas em FASTA" GigaScience, 9 (7), giaa072.

Tim Hulsen, Saumya S. Jamuar, Alan R. Moody, Jason H. Karnes, Orsolya Varga, Stine Hedensted, Roberto Spreafico, David A. Hafler, Eoin F. McKinney (2019) "Do Big Data à Medicina de Precisão" Fronteiras na medicina, 1 de março de 2019, 6, 34.

Wei Shen, Shuai Le, Yan Li, Fuquan Hu (2016) "SeqKit: um kit de ferramentas multiplataforma e ultrarrápido para manipulação de arquivos FASTA / Q" PLoS One, 5 de outubro de 2016, 11 (10), e0163962.

Ola Spjuth, Erik Bongcam-Rudloff, Johan Dahlberg, Martin Dahlo, Aleksi Kallio, Luca Pireddu, Francesco Vezzi, Eija Korpelainen (2016) "Recomendações sobre e-infraestruturas para sequenciamento de próxima geração" GigaScience, 2016, 5, 26.

Morteza Hosseini, Diogo Pratas, Armando J. Pinho (2016) "Uma pesquisa sobre métodos de compressão de dados para sequências biológicas" Em formação, 14 de outubro de 2016, 7, 56.

Mikel Hernaez, Dmitri Pavlichin, Tsachy Weissman, Idoia Ochoa (2019) "Compressão de dados genômicos" Annu. Rev. Biomed. Data Sci. 2019, 2, 19-37.


Resumo

O sequenciamento massivamente paralelo (MPS) tornou-se uma técnica padrão em biologia molecular, cuja aplicação se espalhou da análise do genoma humano para a de praticamente todos os outros organismos. O MPS requer que os genomas de referência sejam realizados e, em alguns casos, vários genomas precisam ser tratados como uma única unidade para realizar a análise genética. As sequências de ácido nucleico são normalmente armazenadas em arquivos “fasta”, que podem conter vários genomas (“multi-fasta”). Embora seja possível converter um arquivo multi-fasta em uma única sequência usando comandos de computador específicos, o arquivo resultante não acompanhará os limites das sequências originais, tornando difícil determinar a qual genoma lido obtido do MPS pertence. Neste estudo, apresentamos misturar-se, um script de shell que pode ser usado para criar um genoma de referência personalizado ao mesclar arquivos multi-fasta enquanto fornece uma lista de limites dos genomas individuais que podem ser usados ​​para análise posterior.


Todos os programas de exemplo que vimos até agora produziram saída direta para a tela. Isso é ótimo para explorar novos recursos e ao trabalhar em programas, porque permite que você veja o efeito das alterações no código imediatamente. No entanto, tem algumas desvantagens ao escrever código que podemos usar na vida real.

A saída de impressão na tela só funciona bem quando não há muito dela. É ótimo para programas curtos e mensagens de status, mas rapidamente se torna incômodo para grandes quantidades de saída. Alguns terminais lutam com grandes quantidades de texto ou, pior, têm uma capacidade de rolar para trás limitada, que pode fazer com que o primeiro bit da saída desapareça. Não é fácil pesquisar na saída que está sendo exibida no terminal, e longas linhas tendem a se quebrar. Além disso, para muitos programas, queremos enviar bits diferentes de saída para arquivos diferentes, em vez de ter tudo despejado no mesmo lugar.

Mais importante ainda, a saída do terminal desaparece quando você fecha o programa do terminal. Para pequenos programas como os exemplos nestas páginas, isso não é um problema - se você quiser ver a saída novamente, basta executar o programa novamente. Se você tem um programa que requer algumas horas para ser executado, essa não é uma boa opção.

Abrindo arquivos para gravação

Na seção anterior, vimos como abrir um arquivo e ler seu conteúdo. Também podemos abrir um arquivo e gravar alguns dados nele, mas temos que usar a função open () de uma maneira ligeiramente diferente. Para abrir um arquivo para escrita, usamos uma versão de dois argumentos da função open (), onde o segundo argumento é uma string curta que descreve o que queremos fazer com o arquivo. Este segundo argumento pode ser "r" para leitura, "w" para escrita ou "a" para anexar. Se deixarmos o segundo argumento (como fizemos para todos os exemplos acima), Python usa o padrão, que é "r" para leitura.

A diferença entre "w" e "a" é sutil, mas importante. Se abrirmos um arquivo que já existe usando o modo "w", iremos sobrescrever o conteúdo atual com quaisquer dados que escrevermos nele. Se abrirmos um arquivo existente com o modo "a", ele adicionará novos dados ao final do arquivo, mas não removerá nenhum conteúdo existente. Se ainda não existir um arquivo com o nome especificado, "w" e "a" se comportam de forma idêntica - ambos criarão um novo arquivo para conter a saída.

Muitas funções e métodos Python têm esses argumentos opcionais. Para os fins destas páginas, só os mencionaremos quando forem diretamente relevantes para o que estamos fazendo. Se você quiser ver todos os argumentos opcionais para um determinado método ou função, o melhor lugar para procurar é a documentação oficial do Python - consulte a página anterior para obter detalhes.

Depois de abrir um arquivo para escrita, podemos usar o método write () de arquivo para escrever algum texto nele. write () funciona muito como print () - leva um único argumento de string - mas em vez de imprimir a string na tela, ele a grava no arquivo.

Veja como usamos open () com um segundo argumento para abrir um arquivo e escrever uma única linha de texto nele:

Como a saída está sendo gravada no arquivo neste exemplo, você não verá nenhuma saída na tela se executá-la. Para verificar se o código funcionou, você terá que executá-lo e, em seguida, abrir o arquivo out.txt em seu editor de texto e verificar se o conteúdo é o que você espera.

Lembre-se de que com write (), assim como com print (), podemos usar qualquer string como argumento. Isso também significa que podemos usar qualquer método ou função que retorne uma string. Os itens a seguir estão perfeitamente OK:


Terminação de cadeia fluorescente e eletroforese capilar

A radioatividade é perigosa e indesejável de se trabalhar, por isso foram desenvolvidos terminadores de cadeia com etiquetas fluorescentes. Este método sintetiza uma série de fitas de DNA que são especificamente fluorescentes na terminação que é passada por um sistema de eletroforese capilar. Conforme os fragmentos de DNA passam por um laser e detector, os diferentes sinais fluorescentes atribuídos a cada ddNTP são identificados e geram um cromatograma para representar a sequência. Terminadores de cadeia fluorescentes agora são usados ​​em reações e passam por um pequeno capilar. Os menores fragmentos passam primeiro e são detectados para revelar um cromatograma.

Cromatogramas fluorescentes são usados ​​para pontuar a terminação da cadeia de nucleotídeos. A amplitude de cada pico corresponde à força ou certeza da chamada de nucleotídeo. Os arquivos de cromatograma são geralmente fornecidos junto com o arquivo de sequência com a extensão * .ab1 enquanto os arquivos de sequência são fornecidos como um arquivo de texto no fasta formato. Mais sobre esses arquivos podem ser encontrados aqui. Os arquivos ab1 são extremamente importantes para analisar quando há ambigüidade ou erros de sequenciamento. Esses arquivos ab1 também podem ser usados ​​para atribuir uma pontuação de qualidade na chamada de base.

Quando há muita ambigüidade no sinal devido a vários picos, você frequentemente encontrará um N no lugar de um dos 4 nucleotídeos (A, T, C e G).

Este vídeo (fonte: www.yourgenome.org CC-BY) ilustra o mecanismo de terminação de cadeia fluorescente e eletroforese capilar.


Mesclar vários arquivos de sequência .ab1 em um único arquivo FASTA? - Biologia

Pesquisas de banco de dados: BLAST, NetBLAST, PsiBLAST, HMMER, etc.

Descoberta de padrão: MEME, Motifs, FindPattern

Ferramentas úteis: FrameSearch, FrameAlign, etc.

O Wisconsin Package GCG é um pacote de software que contém mais de 130 ferramentas de análise de sequência. Foi desenvolvido pelo Genetics Computer Group em Madison e agora é mantido e distribuído pela Accelrys. Ele pode ser acessado remotamente de qualquer computador em rede. Existem três interfaces diferentes para acessar GCG:

SeqLab: interface gráfica X-windows

SeqWeb: interface do navegador da web e (http://gcg.ucr.edu)

Todos os três aplicativos são instalados no servidor UNIX cache.ucr.edu, onde compartilham os mesmos bancos de dados de sequência. As instruções para configurar uma conta podem ser encontradas em nossa página GCG. Este workshop focará no SeqLab, uma vez que é a interface GCG mais poderosa e versátil.

Para executar o SeqLab de um PC, você precisa configurar o X-win32 (para Mac OS X: X11, configuração) e o PuTTY de acordo com a página de configuração. Para transferir arquivos entre sua máquina local e o servidor GCG, recomendo usar WinSCP (para Mac OS X: Fugu). Mais ajuda sobre problemas de configuração pode ser encontrada em nossa página GCG.

B. Iniciando SeqLab e Command-Line GCG

Faça login em cache.ucr.edu (chug.ucr.edu) usando PuTTY (X11 no Mac OS X)

$ seqlab & amp (& quot & amp & quot inicia em segundo plano)

Inicie a linha de comando GCG (pode ser em adição ao SeqLab):

Ajuda: No SeqLab você encontra documentos de ajuda clicando no menu Ajuda da janela dos diferentes aplicativos. Na linha de comando, você pode abrir esses arquivos de ajuda com o comando & quotgenhelp & quot ou & quotgenmanual & quot. Para obter ajuda para programas específicos, basta digitar seu nome entre esses comandos. Informações adicionais podem ser encontradas no (Manual GCG Online, usr: genhelp, pwd: version102). A ajuda geral no UNIX pode ser encontrada na mesma página no Guia do Usuário.

C. Usando o diretório de trabalho

A janela Working Directory é um dos componentes mais importantes do SeqLab. Nesta janela, você especifica o diretório onde o SeqLab grava os arquivos de saída. Lembre-se, no GCG você geralmente cria em cada sessão muitos arquivos de saída. Não usar esse recurso pode criar uma grande confusão em sua conta.

Para acessar esta função, vá para:

Opções - & gt Preferências - & gt Diretório de trabalho

Navegue até o diretório que deseja usar digitando seu caminho na janela Filtro e, em seguida, pressione Enter. Um clique duplo nos dois pontos & quot .. & quot no campo Diretórios leva você ao próximo diretório superior.

Novos diretórios podem ser criados digitando seus nomes na caixa de texto Seleção e clicando em OK. Uma ferramenta conveniente para criar e gerenciar novos diretórios é o WinSCP.

SeqWeb os usuários podem copiar seus arquivos na linha de comando de /usr/local/seqweb/2.0.2/seqweb/html/user/your_account_name/ work / em seu diretório inicial.

D. Trabalhando com a janela SeqLab principal

A janela da Lista Principal é a ferramenta de gerenciamento de projeto do SeqLab que permite organizar os dados projeto por projeto. Aqui e no Editor (s. Abaixo) você seleciona as sequências que deseja analisar com as diferentes ferramentas disponíveis no GCG. Você pode alternar entre o Editor e a Lista Principal no menu Modo (3).

Arquivo: carregar e salvar projetos

Editar: edita itens na Lista Principal e Editor

Funções: selecione ferramentas de software GCG

Opções: diretório de trabalho e dispositivos gráficos

Windows: acesse o gerenciamento de tarefas, visualização de arquivos de rastreamento e recursos de sequência

Lista: arquivo de lista atualmente carregado. Não tem nada a ver com o diretório de trabalho.

Modo: alterna entre Editor e Lista Principal

Atributos: ácido nucleico (N), proteína (P), desconhecido (*), direto (+), reverso (-), comprimento, etc.

Item da lista: nomes de arquivo (caminho)

Display: selecione entre diferentes modos de cores

Barra de ícones: Cortar (corta e copia a área selecionada), Copiar, Colar, Proteger (define proteções), Informações (exibe informações na sequência)

Opções: Overstrike (substitui & amp e exclui no cursor), Inserir (insere e exclui no cursor) e Verificar (verificação de redigitação com aviso sonoro)

Wrap: alternar entre display empacotado e desembrulhado

Inverter: alternar o fundo e a coloração dos caracteres

Barra de navegação: indica posição, coluna, orientação, etc.

E. Editando e anotando sequências

As funções comuns de edição e pesquisa de sequência podem ser encontradas no menu Editar:

selecione os arquivos de sequência ou áreas de sequência que você deseja

vá para o menu Editar e selecione Reverter, Encontrar, Traduzir, etc.

Um recurso interessante do SeqLab é que ele permite que você execute essas operações em muitas sequências ao mesmo tempo, em vez de fazê-las uma a uma, como é o caso na maioria dos outros editores de sequência.

Para adicionar anotações a uma sequência ou alinhamento, você pode fazer isso dentro das sequências (consulte Recursos da sequência) ou em uma linha de comentário separada. Para adicionar uma linha de comentário, selecione na janela Editor Arquivo - & gt Nova sequência - & gt Texto. Uma nova linha aparece, que pode ser movida na sequência de sua escolha usando os botões copiar e colar. Mude para o modo Inserir e adicione seus comentários. Todas as alterações podem ser salvas no formato RSF.

Nota: Para criar e editar sequências a partir da linha de comando, você pode usar o SeqEd, que é um editor de sequência interativo adicional no GCG.

F. Importando e exportando sequências

Existem três maneiras principais de importar sequências para o GCG:

Mudar na janela principal para o modo Editar

Arquivo - & gt Importar - & gt Selecione a sequência e clique em OK - & gt Especifique o tipo de sequência.

Para salvar a sequência no formato GCG, selecione a sequência no modo Editar - & gt Arquivo - & gt Salvar como - & gt & ltname.seq & gt

Importação de alinhamentos MSF (alinhamentos formatados em FASTA podem ser importados via importação em lote):

Mudar da janela principal para o modo de lista principal

Arquivo - & gt Adicionar Sequências de - & gt Arquivos de Sequência - & gt Selecione o alinhamento e clique em OK.

Importação em lote (importa sequências únicas também):

Para importar muitas sequências em uma única operação, elas precisam estar em um arquivo concatenado. Se você os tiver em arquivos separados, poderá combiná-los com a função & quotcat & quot na linha de comando: $ cat * .seq & gt batch.seq

Funções - & gt Importação / Exportação - & gt & ltselect formato & gt - & gt navegue até seu arquivo e dê ao novo arquivo de lista um nome como * .list


As sequências formatadas GCG são salvas como arquivos separados em seu diretório de trabalho. Cada arquivo recebe o nome de seu ID de sequência, que está em um arquivo FastA com o texto atrás de & quot & gt & quot.

Se suas sequências estiverem em um formato diferente, você pode reformatá-las na linha de comando:

Existem duas possibilidades para exportar sequências do GCG:

As sequências e alinhamentos que foram modificados no Editor podem ser exportados para o formato MSF ou GenBank selecionando-os no Editor e escolhendo Arquivo - & gt Exportar - & gt & ltselecionar formato & gt.

Para exportar sequências para o formato FastA e Staden, selecione as sequências na Lista principal e escolha Funções - & gt Importar / Exportar - & gt & ltselecionar formato & gt. Ao selecionar FastA como formato de saída, você tem a opção (em Opções) de exportar cada sequência para um arquivo separado ou para um arquivo de lote FastA. O último geralmente é o preferido se você deseja importar seus arquivos posteriormente para outros bancos de dados.

G. Arquivos de rastreamento, montagem e mapeamento

Importar arquivos de rastreamento (formato ABI e SCF)

Selecione os arquivos de sequência no Editor - & gt no menu do Windows, escolha Rastreios. As sequências podem ser editadas no Editor e as alterações aparecerão no Visualizador de rastreamento.

As alterações podem ser salvas no formato rsf (arquivos de sequência rica), que contém as sequências editadas e as informações de rastreamento em um arquivo.

Devido a restrições de tempo, o workshop fornecerá apenas um breve resumo das diferentes ferramentas de montagem de sequência disponíveis no GCG.

Montar: concatena arquivos de sequência na ordem de entrada

O & quotGel. As ferramentas & quot estão interligadas e precisam ser usadas na sequência especificada:

GelStart: cria um novo projeto de montagem de fragmento

GelEnter: adiciona sequências especificadas ao projeto de montagem

GelMerge: monta sequências no projeto de montagem em contigs

GelAssemble: permite visualizar e editar os contigs montados por GelMerge:

selecione FAS na janela GelAssemble

para cima e para baixo para selecionar o contig, CTRL & ampK para carregar o contig

mova o cursor com as setas e digite as alterações

para salvar as alterações, mude com CTRL e ampD para o modo de comando, digite WRite ou Sair e pressione Enter.

Para obter detalhes, leia a ajuda do GelAssemble / Modo de comando

GelView: exibe a estrutura de contigs no projeto de montagem

GelDisassemble: divide todos os contigs em seus fragmentos originais

Prim e seleciona primers oligonucleotídicos para uma sequência de DNA modelo. Você pode permitir que ele use para o design todo o modelo ou use uma lista de seus primers.

O mapa exibe os locais de restrição enzimática acima de ambas as fitas de DNA, juntamente com traduções de proteínas abaixo do DNA (ver fig. Abaixo).

MapPlot exibe sites de restrição graficamente.

MapSort lista, por tamanho, os fragmentos de digestão de enzimas de restrição simples ou múltiplas.

O PlasmidMap lê o arquivo do MapSort (executado com o parâmetro de linha de comando -PLAsmid) para desenhar mapas do plasmídeo.

Os recursos de anotação, como íntrons, domínios e informações estruturais de bancos de dados públicos e pessoais, podem ser exibidos graficamente na janela Editar, escolhendo no menu Exibir as opções Recursos Coloração ou Recursos Gráficos.

Para exibir recursos de sequências não alinhadas em um alinhamento Pileup, faça o seguinte no Editor:

Carregue as sequências anotadas no Editor

Crie um alinhamento múltiplo com Pileup

Adicione o arquivo MSF recém-criado do Output Manager ao Editor. Quando solicitado, escolha & quot sobrescrever as sequências existentes & quot. Seu alinhamento será carregado no editor e as anotações das sequências não alinhadas serão transportadas de maneira adequada.

Realce o arquivo de sequência ou a área de sequência na janela Editar e, a seguir, escolha no menu do Windows a opção Recursos e forneça na janela resultante suas informações de anotação. Os símbolos gráficos podem ser escolhidos nas subjanelas Editar e Adicionar.

Os recursos podem ser personalizados no arquivo feature.cols, que precisa ser localizado no diretório de onde você inicia o SeqLab (/ home / user /). Para mover este arquivo para lá, digite na linha de comando $ fetch feature.cols. Use seu editor favorito para modificar este arquivo de acordo com suas preferências.

I. Imprimir e exportar gráficos

A maneira mais fácil de imprimir gráficos ou integrá-los a outros aplicativos gráficos é salvá-los no formato PostScript e transferir o arquivo resultante para o seu computador local, onde você pode modificá-lo e imprimi-lo no Ghostview, um software gratuito que pode ser baixado de esta página: http://www.cs.wisc.edu/

ghost / index.htm. Ao fazer isso pela primeira vez, você deve habilitar o formato PostScript no SeqLab em Opções - & gt Dispositivos gráficos - & gt Linguagem: PostScript

a) Para imprimir sequências e alinhamentos em um arquivo:

visualize-os no Editor - & gt Arquivo - & gt Imprimir

na janela Imprimir, selecione PostScript no campo Formato de saída e Arquivo no campo Destino.

b) Para imprimir gráficos de outros aplicativos GCG, como PepPlot:

clique em Imprimir no canto esquerdo desta janela

digite um nome de arquivo no campo Porta ou Arquivo.

J. Visão geral dos programas GCG

A maioria dos programas GCG podem ser acessados ​​através da opção Funções na Barra de Menu da janela principal, que fornece acesso a 111 ferramentas diferentes de análise de sequência atualmente. Este workshop pode fornecer apenas uma breve introdução a uma pequena seleção desta enorme coleção de programas GCG.

For an efficient job and database management, please make yourself familiar with the following functions in the Windows menu: Job Manager , Output Manager and Database Browser .

- Lookup identifies sequence database entries by name, accession number, author, organism, keyword, title, reference, feature, definition, length, or date. The output is a list file of sequences, which can be used to load all specified sequences into the Main List or Editor .

- BLAST searches local nucleic acid or protein databases. This important function will be introduced in the next paragraph (K).

- NetBLAST searches NCBI's database online.

- FastA does a Pearson and Lipman search for similarity between a query sequence and a group of sequences of the same type. For nucleotide searches, FastA may be more sensitive than BLAST.

- SSearch does a rigorous Smith-Waterman search for similarity between a query sequence and a group of sequences of the same type (nucleic acid or protein). This may be the most sensitive method available for similarity searches. Compared to BLAST and FastA, it can be very slow.

- PSI-BLAST: Position specific iterative BLAST (PSI-BLAST) refers to a feature of BLAST in which a profile (or position specific scoring matrix, PSSM) is constructed (automatically) from a multiple alignment of the highest scoring hits in an initial BLAST search. The PSSM is generated by calculating position-specific scores for each position in the alignment. Highly conserved positions receive high scores and weakly conserved positions receive scores near zero. The profile is used to perform a second (etc.) BLAST search and the results of each "iteration" used to refine the profile. This iterative searching strategy results in increased sensitivity.

- HMMER can be used to perform sensitive database searching using statistical descriptions of a sequence family's consensus. Related software packages are PSI-BLAST and SAM. A very nice user guide on HMMER can be found on Sean Eddy's home page (http://hmmer.wustl.edu/).

HmmerAlign aligns multiple sequences to a profile HMM. It can be used to create alignments of large numbers of sequences. HmmerBuild builds a profile HMM from a given multiple sequence alignment. HmmerCalibrate determines appropriate statistical significance parameters for a profile HMM prior to doing database searches. HmmerConvert converts HMMER profile HMMs to other formats. HmmerEmit generates sequences probabilistically from a profile HMM. HmmerPfam searches a profile HMM database with a sequence. HmmerSearch searches a sequence database with a profile HMM.

- Pileup creates a multiple alignment of unaligned sequences. The alignment is written to a MSF file which can be imported into many alignment editing tools, such as GeneDoc.

- MEME finds conserved motifs in a group of unaligned sequences .

- Motifs looks for sequence motifs by searching through proteins for patterns defined by PROSITE.

- FindPatterns looks for patterns defined by the user .

Protein Analysis: Browse through the different protein analysis tools to identify which ones may be useful for your work.

- PeptideStructure makes secondary structure predictions including alpha, beta, coil, turn, antigenicity, flexibility, hydrophobicity and surface probability. A very useful exercise on predicting structure and antigenicity of peptides can be found on this page: http://mcf.ahc.umn.edu/Tutorials.htmls/minitutor6.html

- FrameSearch searches a group of protein sequences for similarity to one or more nucleotide query sequences, or searches a group of nucleotide sequences for similarity to one or more protein query sequences. For each sequence comparison, the program finds an optimal alignment between the protein sequence and all possible codons on each strand of the nucleotide sequence. Optimal alignments may include reading frame shifts.

- FrameAlign creates an optimal alignment of the best segment of similarity (local alignment) between a protein sequence and the codons in all possible reading frames on a single strand of a nucleotide sequence. Optimal alignments may include reading frame shifts.

- BackTranslate backtranslates an amino acid sequence into a nucleotide sequence. The output helps you identify areas with fewer ambiguities that might be candidates for synthetic probes.

K. Large-scale Sequence Analysis: BLAST Example

Many sequence analyses in GCG can be performed in a batch pipeline. The sequence search tools FASTA and BLAST are just two of many of those "batch" applications, which query sequences databases that are installed locally on cache.ucr.edu. The application NetBLAST allows you to perform online searches against sequence databases on the NCBI server, but it is limited to one sequence submission at a time.

To run many BLAST and FASTA searches at once on cache.ucr.edu, you must first select the sequences of your choice in the Main List or Editor. For selecting sequences you have several options:

Select individual sequences in Main List or Editor

Select a database or DataSet (see below) in Main List or Editor

Select a list file of "sequence pointers" the Main List or Editor

To start the BLAST search with the selected sequences, you choose Functions -> Database Sequence Searching -> BLAST. In the open BLAST window you need to select whether you want to search a nucleotide/protein database (defines use of BLASTN, BLASTX, TBLASTN, TBLASTX) and the Search Set (specifies database). Under Options you set the search parameters:

here you normally want to reduce the number of sequence hits from the default of 500 (which is a waste of storage space) to a much smaller number

under Format for Alignments you have the choice between many options: standard, XML, tab delimited, etc. Some of these options can often simplify the downstream data parsing.

usage of filters and masks

scoring matrix: default is BLOSUM62, you have the option to change to BLOSUM45, 80, and PAM30, 70 by clicking on Specify Scoring Matrix

Note: When you perform batch operations in GCG, the software names the output after the sequence/query ID#s and their file extensions correspond to the name of the search tool. Example: gi343848.tblastx.

For parsing of BLAST result, you can try to use on the command line our Perl script "blastParse" or this simple Perl one-liner:

perl -ne 'print if (/Query=/ ? ($c=1) : (--$c > 0)) print if (/End of List/ ? ($d = 9) : (--$d > 0))' input.blast > output.parse

List files are a very efficient way to perform analyses of specific sets of sequences. Since they contain only pointers to the sequences, they can save you a lot of storage space (no duplication of large sequence data) and allow very quick selections of defined sequence groups to perform various analyses simultaneously. For instance, one can quickly create a list file for thousands of sequences in a spread sheet program and submit it to the sequence search tools of your choice. The format of a list file looks like this:

One way of creating a list file is to select the sequences of your choice in the Man List window and then save it as *.list under File -> Save List As.

An alternative and often more flexible way of creating list files is to use a spread sheet program or WordPad on your local machine (use file extension *.list). To import a list file into the Main List, there are two options:

File -> Open List -> select *.list file

File -> Add Sequences From -> Sequence Files -> select *.list file

Note: List files with more than 2000 sequences cannot be expanded (viewed) in the Main List .

In addition to specifying query sequences, certain SeqLab application allow you to specify database records that will be used for a search or analysis. Programs that accept user-defined search sets are FastA , FindPatterns, FrameSearch, Overlap, ProfileSearch, SSearch and StringSearch . In all these programs you specify the search set by clicking on the Search Set button of the individual application, which opens a search set builder window. Note: Each application uses its own search set.

N. Creating Personal Sequence Databases with DataSet

To add your personal sequences to the Database Browser , you need to use the application DataSet . For this you first switch to the appropriate working directory (see C.), then you sel ect your sequences or their list file in the Main List window, and choose: Functions -> Utilities -> Databases Utilities -> DataSet . You will be prompted with a dialog window where you assign a name and then press Run . This will add the following three files to your current working directory: *.header, *.ref and *.seq. When finished you should see your personal database in the Database Browser.

Note: A DataSet is different from a BLASTable database, which is explained in the next paragraph.

O. Creating BLASTable Sequence Databases

Create a new directory where you want to store your BLASTable databases and make it your working directory (see C.). Then you select the sequences that you wish to create a BLASTable set from, and choose: Functions -> Utilities -> Databases Utilities -> GCGtoBLAST.

You will be presented with a dialog window that allows you to assign a name to the set. Enter a name and press Run . This operation creates five new files in your current working directory: *.phr, *.pin, *.psd, *.psi and *.psq. All sequence data are contained in this file structure. To save storage space, you can now delete the initial sequence files. Searching the database that you created requires that you first access the Wisconsin Package from the command line so that you can properly modify a configuration file, which is necessary to add a reference to your new BLASTable database to the BLAST database Search Set menu. To do this you would do the following from the UNIX command line after starting the Wisconsin Package there:

$ pico blast.sdbs (if you don't know how to use the pico editor you can update this text file in WordPad)

At the end of the file, add a line like: /path/db-base-name p my own blast database

Here are some notes for editing this line:

Substitute the actual full path to your newly created database for /path/

Substitute the base filename (the name you entered for the BLAST database when you created it) for db-base-name

The second column should be "p" for a protein database and "n" for a nucleotide database

To BLAST against your personal databases, your working directory needs to be the highest level in your home directory (this is a bug in our installation).

Within WinSCP: Create the following directories within the master directory Exercises: Seq, Pep, Database and Analysis. Use these directories to organize the work of the following exercises.

Within SeqLab: Create the same directory structure with the working director manager in SeqLab (see C.).

Import trace files: Download the trace files 09.ab1 & 13.ab1, import them into SeqLab, view trace plus text sequences, export the latter into FASTA or GenBank format and view them with WordPad on your local machine.

Import single sequences: Run in your web browser query "P450 & hydroxylase & acid & human [orgn]" against the NCBI Protein Database. Save the first ten proteins in FASTA and GenBank formats and import them one-by-one into SeqLab. Create alignment with Pileup .

Batch import: Import entire proteome of Halobacterium spec. from ftp://ftp.ncbi.nih.gov/genbank/genomes/Bacteria/Halobacterium_sp/AE004437.faa.

Import alignments: Create multiple alignment of sequences from 2.2. using MultAlin. Import alignment in MSF and FASTA formats.

Export: Export in single and batch sequence modes. Export alignment in MSF format.

In sequence: view imported sequence from 2.2. in Editor, display and add features.

In alignment: run Pileup with Lookup list file from 4.1. and transfer alignment annotations into Editor and find heme binding cystein residue, export alignment and view it in GeneDoc (only on PC).

Database searches: Lookup, FASTA, SSearch, BLAST, HMMER

Lookup : run query "CYPIII (All text) & P450 (Def)" in Lookup against SwissProt database.

SSearch, FASTA, BLAST and PSI-BLAST : query with one of these sequences the SwissProt database using SSearch, BLAST and FASTA.

HMMER : Align sequences from 4.1. Retrieve and align remote homologs from SwissProt database with HMMER: HmmerBuild, HmmerCalibrate, HmmerSearch and HmmerAlign.

Create BLASTable database

Create BLASTable database for proteome from Halobacterium spec. (imported under 2.3.).

Motifs : Use Motifs to find PROSITE patterns in protein alignment from 2.2., find pattern with Edit/Find and highlight it in all sequences at once using the Feature function.

FindPattern : find out how many sequences in the SwissProt database share this pattern using FindPattern .

Consensus and FitConsensus : retrieve the corresponding nucleotide sequences, align them, calculate consensus sequence with Consensus and query with it a small nucleotide database using FitConsensus .

MEME and MotifSearch : use MEME to find conserved motifs in your set of unaligned nucleotide sequences. Use the resulting MEME profiles to query a small nucleotide database with MotifSearch .

PAUP : use PaupSearch to generate a bootstrapped tree from alignment under 2.2. Edit tree with PaupDisplay , Treeview (local) and PowerPoint.

Distance Matrix : calculate distance matrix for alignment using Distances and plot its tree with Display .

Molecular tools: Primer design, backtranslate

Primer design : Design primers that amplify the longest ORFs of the two sequences from 2.1.

Restriction map : generate restriction map for one of the sequences from 1.1. usando Map .


Reading FASTA files in python3: Tut2

This is the second video tutorial about Python 3 for Biologists, the absolute beginner course. In this lecture, I talk about a method to read fasta files and extract valuable information from the file. One valuable piece of information is the CDS (coding sequence). For that I use several methods to clean the DNA sequence and then find the index values of the CDS. Finally extract the CDS.

Video taken from the channel: Shad Arf


Run AmpliMERGE

Your use of any of these tools is at your own risk. We do not give any representation or warranty nor assume any liability or responsibility for the data nor the results posted (whether as to their accuracy, completeness, quality or otherwise). Access to these data is available free of charge for ordinary use in the course of research. By visiting the site, you accept our use of cookies and you accept that your data and results will be stored in our server.


Guide to editing sequences with Chromas and BioEdit

Chromas has the advantage the you can save all of your chromatograms which can subsequently be used in any other programs unlike Sequencher which saves everything in a project file which cannot be opened by anything else. If I loose my sequence alignment, at least all my chromatograms with the correct edits are still there to rebuild it from. BioEdit can also edit chromatograms, but I find Chromas to be nicer. MEGA also has an alignment editor, but I ve not really used it very much.

Double click on the chromatogram file (usually has the extension ab1). This opens the file in Chromas (see below under installation notes if some other program opens it instead of Chromas). The chromatograms come off the machine with all bases in upper case. I usually make all of my edits as lower case bases as it makes it easier to identify where I have made edits. When I am done I save the chromatogram and export the data to a line file (which is saved with a .seq extension). Alternatively, you can go edit, copy sequence, FASTA format and paste that into BioEdit. One trick I find useful later is to always edit your sequences from the same starting base (unless the starts are all messy), as it makes sequence alignment much easier later.

I ve always used the free Chromas version, Chromas Lite, but there are two other versions with more features that are fairly cheap. http://www.technelysium.com.au/chromas.html Each of the commercial versions have a free 60 day trial should you wish to try them.

Aligning sequences with BioEdit

I use BioEdit to align sequences as it is free and has some handy features. The most annoying aspect is that you have to manually align up each sequence and manually create a consensus sequence (which commercial programs like Sequencher and Geneious are very good at). Aside from that limitation (which isn t as bad as it might sound once you learn a few tricks), I really like its features. It is the only program I know of that allows you to edit, search and replace, and paste over the sequence title names independent of your sequences. I use this feature on nearly every dataset I create. As far as I can tell there is no difference between saving your file as a BioEdit formatted file versus as a fasta file. I would recommend saving everything in fasta format since that is the format I use in order to convert the data to another format or to another person (who probably doesn t have a copy of BioEdit).

One quirk of BioEdit is that if you double click a data file it will open in a new copy of BioEdit, not in an existing one. The regular copy and paste features work between copies of the program, but copying and pasting sequences does not. If you need to copy and paste between copies of the program select the sequences, go Edit, Copy Sequences to clipboard (FASTA Format). In the other copy of BioEdit I usually go File, New from Clipboard. I then select those sequences (control-shift-a), cut (control-shift-c) or copy them (control-a) and paste them (control-s) to the desired BioEdit file. The reason why I paste them to a new file first is that importing from the clipboard (File, Import from Clipboard) will place them at the bottom of your file, which is usually not where I want them be.

Once I have edited all of my chromatograms I copy the .seq files into an empty directory. Open BioEdit from the start menu. Note that I have changed or set many menu short cuts (see BioEdit stuff to change after installation below) to make things quicker, thus these instructions are based on these changes. Create a new BioEdit file. To import .seq files exported from Chromas go File, Import, Sequence alignment file, browse to the correct directory, change file type to all, and select the files (.seq) exported from Chromas (in the open file box it often helps to change the view type to details, then click on type to group them all together). If you wish to keep them in the same order as they are in your directory then click on the bottom sequence file first, then click on the top one while holding the shift key. Make sure your mode is set to edit and insert. It helps if you edit the sequences to start from the same base prior to importing them, that way if you do multiple sequences they are already mostly aligned. And save frequently! There is no auto save function.

I usually import all the forwards and reverses into a new BioEdit file. I first group all the forwards together, then all the reverses. I manually align them and check for obvious missing bases and either correct them or add a gap to preserve the alignment. Before trying to merge the forwards and reverses together, reverse the first reverse sequence (Sequence, Nucleic Acid, Reverse Compliment or control-shift-r) and align it to your forward sequence (usually I have to delete a few bases). Once that is aligned, reverse it back to its original orientation and trim / add to all of the reverse sequence ends so that they are the same length as the first sequence (you can draw a box to select the bases at the end, then hit delete). Then reverse compliment all of them and they should be perfectly aligned relative to the forwards. (otherwise when you reverse compliment them they will all need to be realigned). Note that this works best with coding sequences without indels as every sequence is an identical length, it is all a bit trickier with different length sequences. In that case I try and get them close, but each individual one many require adjustment. Once I am happy with that I ready to create what will become the consensus sequences. I copy all the forwards to a new BioEdit file, select the sequence titles (Edit, Select All Sequences, control-shift-a) and copy them to clipboard (Edit, Copy Sequences, control-a), make the new BioEdit file active and paste them in (Edit, Paste Sequences, control-s). I copy the sequence titles to the clipboard (Edit, Copy sequence titles). I paste these into Microsoft Word and use search and replace to get rid of extra details. My sequence names look like this, PU26226.NVCann.1.Glu31. I trim off the sequence number (search for PU^#^#^#^#^#. and replace with nothing), change the primer name (search for .Glu31 and replace with .cons), that gives me NVCann.1.cons as the sequence name. Select them all (control-a), copy to clipboard (control-c), go back to BioEdit, to paste these names over the existing ones. Go Edit, Paste Over Titles. Now your BioEdit file has all the forwards and reverses, with the .cons sequences in another file. Now comes the painful part as you have to drag and/or cut and paste them all together such that you have the forward, then reverse, then consensus for each individual next to one another. It helps to also have additional individuals from the same population all next to one another too. To correct the consensus sequence I copy and paste the sequences from a population (or individual, group, etc.) to a new BioEdit file. Change the view type (on the lower toolbar (3rd) of the alignment window), select the third colored button from the left (says Shade identities and similarities when you hold the mouse over it). This highlights any columns that have different bases. Depending on how well your reverse sequences overlap with your forwards, scroll right until they overlap with good sequences. Select all the reverse sequences and cut them. This will allow you to see any base pairs that are different in the clean forwards. I check any unique differences by opening the chromatogram. Undo the cut of the reverses (Edit, Undo or control-z) (note that this only works if you haven t made any other edits, otherwise you have to paste them at the bottom and drag them back up to the correct place). Now scroll right again and look for any bases that need checking. Eventually the forwards will start to be a poor match to the reverses. At that point I finish my consensus sequence. I select a point in the reverse, then select sequence to the end (Edit, Select to End, control-e). Copy it (control-c). Now place the cursor in the same place in the consensus sequence. Hit control-e to select to the end, hit delete, move right one base then paste (control-c). Repeat for each consensus. Just be sure to select to end from a different location each time to reduce the chances of pasting the wrong reverse into your consensus. Now I select all the forward sequences and cut them and scroll right to check for any bases changes that need to be checked. Then I undo the cut, select all the sequences (Edit, Select All Sequences, control-shift-a), copy them (control-a--note that copy and pasting sequences is different to any other copy and paste action). Go back to your BioEdit file with all your sequences (which should still have the original sequences highlighted), paste the sequences (control-s), then delete the selected sequences (control-d), thus replacing the newly edited ones and removing the originals. Hit save (control-shift-s) and repeat for each group of sequences. At the end of this phase you have done two data checks, one when you edited your original chromatogram, second when you checked any unique base pair changes.

For each gene within a dataset I usually have this file with the forward, reverse and consensus. I then create a second file which has only the .cons sequences. The .cons sequences can then be trimmed to the target length and then they are ready to convert to the appropriate data file format for analysis. I always keep the BioEdit file with all forwards, reverses and consensus sequences so that if I double check stuff later it is easier to find the relevant chromatograms (I can tell what sequence is from where by the sequence name). I usually add more forwards and reverses to my existing BioEdit files since they are already setup and aligned correctly, otherwise you ll end up with many different, but similar versions of your files and it will be difficult to know which is the correct, most complete version.

All of that probably sounds very confusing, once you have carefully worked through it a couple of times it becomes very easy.

Importing data for phylogenetic analysis

In BioEdit, clean up all the ends and get things to the base pairs you want to analyze. It can be helpful to make sure any missing bases are labeled with an n, only use a - for indels so that you can easily distinguish which is which.

If I wished to create a MEGA files I would select all sequences (control-a), go Edit, copy sequences to clipboard (Fasta format). Open an existing MEGA file in Word. Remove the existing sequences (from the first sequence hit control-shift-end, then hit delete), then paste in the ones you just copied. Do a search for > and replace them with # (MEGA files require each sequence start with #). Note how many replacements it does, this is the number of samples. Enter that information in the header of the MEGA file. Figure out how many base pairs are present (in BioEdit, go to the last base and select it and look at the number). Enter that information in the header of the MEGA file. Save the file as text only and make sure it has the correct file extension (.meg). If the program sticks the .txt on the end manually change it in File Explorer.

Double click the MEGA file and MEGA will open the file and check and report any errors in the data file that are usually easily fixed either in MEGA s editor or in Word/BioEdit (make sure you correct it in the original dataset too, otherwise you ll get the same error next time you export your data). Then I run a NJ analysis to see what is going on with the dataset. I usually set Gaps / Missing data to pairwise deletion, otherwise it excludes all positions that have any ambiguous bases.

Chromas and BioEdit installation notes

When you first install BioEdit and Chromas, the default will be that BioEdit opens the chromatogram files. To fix this, right click on a chromatogram, select properties, it should say opens with BioEdit, hit change, browse to the Chromas executable, select it, choose always open with this program, hit ok. Now when you double click on a chromatogram it will open in Chromas.

BioEdit stuff to change after installation

BioEdit lets you modify just about anything that it does relative to menus and keyboard short cuts as well as the default settings for displaying data. Once you set your preferences on one machine you can copy the bioedit.ini file to any other machine to transfer them. You can download my bioedit.ini file here and save it to your BioEdit directory (rename your existing copy to something else in case you run into any problems). These are my preferences, you can use these or change them whatever you prefer. I hate menus, so anything that I can use the keyboard for I tend to change it. Much editing in BioEdit requires extensive repetitive actions, so using the menus will rather slow. To change settings first create a new alignment (File, New Alignment) or open an existing file. Next go View, Customize Menu Shortcuts. Select the value you wish to change, hit the value on the keyboard and that will reset it.

These are the changes I make.

Save, change to Control+Shift+s

Cut sequences, change to Control+Shift+c

Copy sequences, change to Control+a

Paste sequences, change to Control+s

Delete sequences, change to Control+d

Select all sequences, change to Control+Shift+a

Select to end sequences, change to Control+e

Select to beginning sequences, change to Control+b

Go to Options, Preferences

Under include (far left), select N, move it to don t include.

Go to Options, Color Table

I change all the ambiguous bases to yellow as that makes it much easier to see them.

On the lower toolbar (3rd) of the alignment window, select the first solidly colored button. This changes the way the sequences are displayed.

On the middle toolbar (2nd) in the alignment window change mode to edit, change box next to it to insert.

Go View, save options as default. If you don t hit this option then all of the changes are lost. Close BioEdit, reopen your files and the settings should all be saved.