Em formação

Muito poucas transcrições de Oases do assembler do transcriptoma

Muito poucas transcrições de Oases do assembler do transcriptoma


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Estou tentando executar o Oases para montagem do transcriptoma. O resultado está longe do esperado, então gostaria de perguntar se estou executando da maneira certa. Obrigado.

Aqui está o meu comando em execução:

python scripts / oases_pipeline.py -m 25 -M 29 -o output -d "-strand_specific -shortPaired data / reads.fa" -p "-min_trans_lgth 100 -ins_length 300"

Minha biblioteca é específica para fitas e termina em pares com comprimento de 67 pb. As leituras são embaralhadas como:

> 0 (left_mate_forwarded) ACTC…> 1 (right_mate_reverse_complemented) TATA…

Tenho algumas transcrições, mas estão longe das transcrições anotadas, também longe do resultado de Trinity. O contig mais longo de Oases é de ~ 2500bp (vs. ~ 10000bp de botões de punho e ~ 6000bp de Trinity). O valor N50 também é baixo. Ele relata apenas 20 contigs que cobrem o comprimento total de algumas transcrições de Cufflinks (totalmente ~ 4000), enquanto o Trinity relata ~ 650.

O conjunto de dados que estou usando é um subconjunto de S. pombe. Isso importa?

Alguém poderia me ajudar a apontar se há algo errado aqui?


TraRECo: uma abordagem gananciosa com base em assembler de transcriptoma de novo com correção de erro de leitura usando matriz de consenso

Os desafios ao desenvolver um bom montador de transcriptoma de novo incluem como lidar com erros de leitura e repetições de sequência. Quase todos os montadores de novo utilizam um gráfico de Bruijn, com o qual a complexidade cresce linearmente com o tamanho dos dados, enquanto sofre de erros e repetições. Embora seja possível corrigir os erros inspecionando a estrutura topológica do gráfico, esta não é uma tarefa fácil quando há muitos ramos. Duas direções de pesquisa são para melhorar a confiabilidade do gráfico ou a precisão da busca do caminho e, neste estudo, nos concentramos na primeira.

Resultados

Apresentamos o TraRECo, uma abordagem gananciosa para montagem de novo que emprega construção de grafos ciente de erros. Na abordagem proposta, construímos contigs por alinhamento de leitura direta dentro de uma margem de distância e realizamos uma pesquisa de junção para construir gráficos de emenda. Ao fazer isso, um contig de comprimento eu foi representado por um 4 × eu matriz (chamada de matriz de consenso), em que cada elemento era a contagem de base das leituras alinhadas até o momento. Uma sequência representativa foi obtida tomando a maioria em cada coluna da matriz de consenso a ser usada para o alinhamento de leitura posterior. Uma vez que os gráficos de splicing foram obtidos, usamos o IsoLasso para encontrar caminhos com uma profundidade de leitura perceptível. Os experimentos usando leituras reais e simuladas mostram que o método proporcionou melhoria considerável na sensibilidade e desempenho moderadamente melhor ao comparar sensibilidade e precisão. Isso foi conseguido pela construção de grafo ciente de erros usando a matriz de consenso, com a qual as leituras com erros se tornaram utilizáveis ​​para a construção do grafo (caso contrário, eles poderiam ter sido eventualmente descartados). Isso melhorou a qualidade das informações de profundidade de cobertura usadas na etapa de busca de caminho subsequente e, finalmente, a confiabilidade do gráfico.

Conclusões

A montagem de novo é usada principalmente para explorar isoformas não descobertas e deve ser capaz de representar o máximo de leituras possível de maneira eficiente. Nesse sentido, o TraRECo nos fornece uma alternativa potencial para melhorar a confiabilidade do gráfico, embora a carga computacional seja muito maior do que a k-mer na abordagem do gráfico de Bruijn.


Conjunto do transcriptoma De Novo

Resumo
Antecedentes Kiwis [Actinidia deliciosa (A Chev) Liang et Ferguson] é uma trepadeira subtropical da família Actinidiaceae nativa da China. Esta espécie possui um genoma alohexaplóide (de pais diplóides e autotetraplóides) contido em 174 cromossomos produzindo uma fruta carnuda e climatérica chamada kiwi. Atualmente não há muitas informações genômicas e transcriptômicas sobre esta espécie. Neste contexto de baixo conhecimento molecular, o objetivo principal deste trabalho é construir um conjunto de transcriptoma de novo tecido-específico, gerando uma análise de expressão diferencial entre esses tecidos específicos para obter um novo banco de dados útil para um melhor conhecimento do crescimento vegetativo, floral e de frutas em diferentes estados fenológicos de Actinidia deliciosa cv. ‘Hayward’.

Resultados No presente estudo, analisamos diferentes transcriptomas inteiros de broto, folha, botão de flor, flor e fruto em 4 estágios de desenvolvimento (7,50,120 e 160 dias após a floração DAF) em kiwis usando RNA-seq. Sequenciamos vinte e quatro bibliotecas, obtendo 604.735.364 leituras que foram montadas usando o software Trinity. A primeira versão do transcriptoma de Actinidia deliciosa de novo continha 142.025 contigs (x̅ = 1.044pb, N50 = 1.133pb). CEGMA e BUSCO foram utilizados para avaliação da qualidade da montagem, obtendo-se cerca de 90,0% (35,1% parcial) e mais de 85,0% (18,3% parcial) dos genes ultraconservados para eucariotos e plantas, respectivamente. A anotação foi realizada com BLASTx contra o banco de dados de proteínas TAIR10 e encontramos uma proporção de anotação de 35,6% (50.508), deixando 64,4% (91.517) da montagem de contigs sem anotação.

Conclusões Esses resultados representam um transcriptoma de referência para kiwis alohexaplóide, gerando um banco de dados de genes de Actinidia deliciosa relacionados ao desenvolvimento de folhas, flores e frutos. Assim, o presente estudo fornece uma informação de alto valor, identificando mais de 20.000 genes exclusivos incluindo todas as comparações de tecidos, que estão associados a proteínas envolvidas em diferentes processos biológicos e funções moleculares. A montagem e refinação do transcriptoma, bem como a avaliação da métrica de montagem, implicou uma qualidade suficiente para ser uma base de dados putativa desta espécie e foi encontrado um elevado número de proteínas ultraconservadas. Com relação ao transcriptoma, cerca de 65% dos contigs não corresponderam a nenhuma proteína. Portanto, futuras anotações funcionais serão necessárias para se obter um melhor conhecimento do desenvolvimento específico do tecido.


SEQUENCIAÇÃO E ESCOLHA DE ANÁLISE

A escolha da tecnologia de sequenciamento e a abordagem para análise de dados são essenciais para o sucesso de um experimento. Todas as três tecnologias de sequenciamento mencionadas produzem um grande volume de dados de alta qualidade, mas cada uma tem aplicações práticas específicas. O sequenciamento Illumina e SOLiD produz conjuntos de dados curtos, mas de alta profundidade. Para o sequenciamento Illumina, o usuário pode selecionar atualmente o comprimento das leituras na faixa de 36 nt a 150 nt que podem ser sequenciadas de uma extremidade de um fragmento de DNA (leituras de extremidade única) ou de ambas as extremidades de um fragmento de DNA ( leituras emparelhadas). Leituras mais longas e leituras emparelhadas são normalmente selecionadas em projetos de montagem de novo, mas leituras mais curtas às vezes são escolhidas para alinhamento a um genoma de referência. A pontuação de confiança para uma determinada base em uma sequência diminui à medida que o comprimento da leitura aumenta, o que pode atrapalhar o alinhamento e a análise posterior. Os dados de leituras de sequenciamento Illumina são representados como sequência de nucleotídeos real e a análise pode prosseguir diretamente para o alinhamento de um genoma de referência ou para montagem de novo.

No sistema SOLiD, o usuário pode escolher atualmente comprimentos de leitura de 35 nt a 75 nt no formato de extremidade única ou em pares. O sistema SOLiD sequencia duas bases por vez (portanto, há 16 combinações possíveis para consultar), e qualquer base única deve ser sequenciada duas vezes para identificar a sequência verdadeira em uma única posição. Este método foi pensado para melhorar a identificação de erros de sequenciamento na análise pós-sequenciamento. No entanto, para pesquisadores sem um genoma de referência, esse sistema de codificação de 2 bases é uma desvantagem, porque a sequência resultante é numericamente codificada e não será imediatamente reconhecível por um biólogo. É somente por meio de análises subsequentes que a relevância biológica de uma leitura de sequenciamento SOLiD é restaurada. Normalmente as leituras SOLiD são alinhadas em seu formato codificado de 2 bases (denominado formato de "espaço de cor") para um genoma de codificação de 2 bases para converter a sequência de volta ao espaço de nucleotídeos, mas sem um genoma de referência pode exigir informática adicional para fazer sentido do sequenciamento. A conversão direta de leituras de sequenciamento é possível, mas não recomendada porque todas as bases que seguem um único erro no espaço de cores criarão erros em todas as bases subsequentes de uma leitura. O leitor deve consultar o site do fabricante para obter uma explicação mais detalhada sobre a codificação dupla. Se um pesquisador em um sistema não modelo escolher usar o sistema SOLiD, o genoma de um parente próximo pode ser a opção mais direta para a análise posterior.

A distribuição do comprimento de leitura dos sistemas Illumina e SOLiD é muito uniforme, e a maioria das leituras tem exatamente o comprimento solicitado pelo pesquisador. No sequenciamento 454 da Roche, as leituras têm uma distribuição de comprimento de sequência mais ampla e as leituras 454 também são codificadas no espaço normal de nucleotídeos. A maioria das 454 leituras agora tem mais de 500 nt, com um modo em torno de 700 nt e um comprimento máximo acima de 1000 nt. As longas leituras do sequenciador 454 normalmente resultam em montagens de transcriptoma de alta qualidade, mas esses conjuntos de dados têm profundidade muito menor por dólar gasto em sequenciamento. A análise de dados de leitura curta de alta profundidade são fundamentalmente diferentes da análise de leituras longas de baixa profundidade e, portanto, os recursos computacionais e as abordagens de análise diferem muito dependendo da escolha da plataforma. Em parte, essas diferenças estão enraizadas na preparação da biblioteca.


Métodos

Material vegetal

Açafrão (C. sativus L.) As plantas foram coletadas de uma fazenda aberta de uma vila situada na cidade de Pampore, distrito de Pulwama, Jammu e Caxemira, Índia. Diferentes tecidos, incluindo cormo, tépala, folha, estigma e estame foram colhidos das plantas e imediatamente congelados em nitrogênio líquido e armazenados a -80 ° C até uso posterior.

Isolamento de RNA e sequenciamento de transcriptoma

O RNA total dos tecidos acima foi isolado em três réplicas biológicas usando o reagente TRI (Sigma Life Science, EUA). A quantidade e a qualidade do RNA total foram determinadas por espectrofotômetro Nanodrop (Thermo Fisher Scientific) e Bioanalyzer (tecnologias Agilent, Cingapura). A pureza do RNA total foi verificada estimando a taxa de absorbância em 260/280 e 260/230 e o número de integridade do RNA (RIN). A qualidade do RNA total isolado de tecidos de cormo e estigma não atendeu ao padrão mínimo para sequenciamento Illumina. Portanto, modificamos o protocolo padrão para obter melhor qualidade de RNA, que incluiu a lavagem do pellet de RNA com NaCl 5 M (2–3 vezes) antes de dissolver em água livre de RNase. O RNA total de alta qualidade (260/280, 1,8-2,0 260/230 & gt 2,0 RIN & gt 7,5) reunido em quantidade igual a partir das três réplicas biológicas para cada amostra foi usado para o sequenciamento do transcriptoma usando a plataforma Illumina para gerar pares longos de 100 nt leituras finais. Para obter dados limpos de alta qualidade para de novo montagem, verificação de qualidade rigorosa foi realizada para remover leituras de baixa qualidade e corte do adaptador usando nosso NGS QC Toolkit interno (v2.3) 42.

De novo montagem do transcriptoma

Leituras de alta qualidade foram reunidas em contigs usando vários assemblers de leitura curta comumente usados, como Velvet (v1.2.01) 43, Oases (v0.2.04) 44, ABySS (v1.2.6) 45, SOAPdenovo (v1.04) 46 , CLC Genomics Workbench (v4.7.2) e Trinity (v2012-05-18) 47. A montagem do transcriptoma foi realizada usando duas abordagens diferentes, conforme descrito anteriormente 48. Na primeira abordagem (melhor k-mer estratégia), leituras de alta qualidade foram montadas em k-mer length 39-99 usando Velvet, Oases, ABySS e SOAPdenovo, enquanto os softwares CLC Genomics Workbench e Trinity foram usados ​​nos parâmetros padrão. Na segunda abordagem (aditiva k-mer seguido por TGICL), uma estratégia de duas etapas foi empregada para a montagem. Em primeiro lugar, contigs gerados para todos k-mers pelo respectivo montador foram mesclados e a redundância foi removida usando a ferramenta CD-HIT. Em seguida, o conjunto não redundante de contigs foi montado usando o conjunto TGICL (v2.0) 49 com comprimento de sobreposição mínimo de 40 e identidade máxima de 90. Análise de conteúdo de GC de C. sativus o transcriptoma foi realizado usando script perl interno.

Anotação funcional

Para atribuir a função putativa a cada transcrição de C. sativus, a pesquisa de similaridade usando BLASTX 50 foi realizada contra Arabidopsis e proteomas de arroz seguido por bancos de dados NCBI não redundantes e UniRef90 com um E-valor de corte de ≤10 −5 para encontrar a melhor correspondência significativa para cada transcrição. Os termos do GOSlim foram atribuídos a cada C. sativus transcrito sob a função molecular, processo biológico e categorias de componentes celulares, comparando a sequência com proteínas de Arabidopsis. Da mesma forma, a classificação do C. sativus transcrições em diferentes categorias funcionais foram realizadas usando o banco de dados KOG. Identificação de famílias de FT em C. sativus O transcriptoma foi realizado com base no perfil do modelo oculto de Markov (HMM) (obtido do banco de dados PFAM ou gerado a partir dos alinhamentos de domínio conservado), pesquisa usando critérios fornecidos no banco de dados de fatores de transcrição de plantas (http: //plntfdb.bio.uni-potsdam .de / v3.0 /) conforme descrito anteriormente 21.

Identificação de SSRs

C. sativus O transcriptoma foi verificado quanto à presença de sequências de repetição simples (SSRs) usando MISA (MicroSAtellite) nos parâmetros padrão 51. O número mínimo de unidades de repetição para di-nucleotídeo foi seis, enquanto para tri-, tetra-, penta- e hexa-nucleotídeo, o número mínimo de unidades de repetição foi mais de cinco nos critérios de pesquisa.

Análise de expressão diferencial de genes

Para estimar o padrão de expressão de cada transcrição em diferentes amostras de tecido, leituras de alta qualidade de cada amostra foram mapeadas na montagem final do transcriptoma usando CLC Genomics Workbench. Um máximo de duas incompatibilidades foram permitidas para mapeamento. As contagens de leitura foram normalizadas calculando o número de leituras por quilobase por milhão (RPKM) para cada transcrição em tecido individual. A análise da expressão diferencial do gene foi realizada usando o software DESeq (v1.10.1) 52 com base na distribuição binomial negativa. UMA P-valor de corte de ≤ 0,05 juntamente com alteração de pelo menos duas vezes foi usado para identificar a expressão diferencial significativa dos transcritos. O mapa de calor mostrando padrões de expressão específicos de tecido (log2 alteração dobrada) para as transcrições envolvidas em várias vias foram geradas por meio do TIGR MultiExperiment Viewer (MeV, v4.8).

Análise PCR em tempo real

Para análise de PCR em tempo real, os primers específicos do gene (Tabela S5) foram projetados usando o software Primer Express (v3.0) (Applied Biosystems, EUA). Os PCRs em tempo real foram realizados em três réplicas biológicas independentes e três réplicas técnicas para cada réplica biológica de cada amostra de tecido, conforme relatado anteriormente 53. Ubiquitina foi usado como um gene de controle interno para normalização.

Disponibilidade de dados

Os dados de sequência gerados neste estudo foram depositados no Gene Expression Omnibus com o número de acesso GSE65103. Os dados de montagem do transcriptoma, anotação funcional, SSRs e expressão gênica foram disponibilizados na página da web do Transcriptoma Saffron (http://nipgr.res.in/mjain.html?page=saffron).


Fundo

Os transcriptomas agora podem ser estudados por meio de sequenciamento. No entanto, na ausência de um genoma de referência, a montagem de novo continua sendo uma tarefa desafiadora. A principal dificuldade certamente vem do fato de que as leituras de sequenciamento são curtas e as sequências repetidas dentro dos transcriptomas podem ser mais longas do que as leituras. Obviamente, esse problema de leitura curta / repetição longa não é específico do sequenciamento do transcriptoma. É um problema antigo que existe desde os primeiros algoritmos para montagem do genoma. Embora a causa dos problemas repetidos em ambos os contextos sejam semelhantes, eles também possuem algumas características que são específicas para cada um. Na montagem do genoma, as repetições tendem a ser mais longas e presentes em mais cópias. Na montagem do transcriptoma, as repetições estão localizadas dentro dos genes e tendem a ser mais curtas e em menos cópias. No entanto, neste último caso, a cobertura não pode ser aplicada para discriminar contigs que correspondem a repetições, como pode ser em genômica usando, e. Estatística A de Myers [6, 7], uma vez que a cobertura de um gene não reflete apenas seu número de cópias no genoma, mas também e principalmente seu nível de expressão. Alguns genes são altamente expressos e, portanto, altamente cobertos, enquanto a maioria dos genes é mal expressa e, portanto, mal coberta. Essas especificidades complicam a aplicação de uma estratégia de resolução de repetição genômica ao contexto transcriptômico.

Inicialmente, pensava-se que as repetições não seriam um grande problema no RNA-seq, uma vez que estão principalmente em íntrons e regiões intergênicas. No entanto, a verdade é que muitas regiões que são consideradas intergênicas são transcritas [8] e os íntrons nem sempre já estão separados quando o mRNA é coletado para ser sequenciado [9]. Repetições, especialmente elementos transponíveis, estão, portanto, muito presentes em amostras reais e causam grandes problemas na montagem do transcriptoma, se não forem tratadas adequadamente.

A maioria, senão todos os atuais montadores de transcriptomas de leitura curta são baseados em gráficos de Bruijn. Entre os mais conhecidos estão Oases [3], Trinity [2] e, em menor grau, Trans-Abyss [10] e IDBA-tran [11]. Comum a todos eles é a falta de um modelo claro e explícito para repetições em dados de RNA-seq. As heurísticas são, portanto, usadas para tentar lidar de forma eficiente com as repetições. Por exemplo, em Oásis, vértices curtos são pensados ​​para corresponder a repetições e, portanto, não são usados ​​para a montagem de genes. Eles são adicionados em uma segunda etapa, o que esperançosamente faz com que genes que compartilham repetições não sejam montados juntos. No Trinity, não há tentativa de lidar com repetições modelando-as explicitamente. O primeiro módulo do Trinity, Inchworm, tentará montar o contig mais coberto que esperançosamente corresponde à transcrição alternativa mais abundante. Em seguida, os exons alternativos são colados a essa transcrição principal para formar um gráfico de splicing. A última etapa é enumerar todas as transcrições alternativas. Se repetições estiverem presentes, sua alta cobertura pode ser interpretada como um link altamente expresso entre duas transcrições não relacionadas. No geral, os transcritos montados podem ser quiméricos ou emendados em muitos sub-transcritos.

No método que desenvolvemos anteriormente, KisSplice, que é um montador de transcriptoma local [12], as repetições são menos problemáticas, uma vez que o objetivo não é montar transcrições completas. Em vez disso, o KisSplice visa encontrar variantes nos transcriptomas (SNPs, indels e splicings alternativos). No entanto, como relatamos em [12], KisSplice não foi capaz de lidar com grandes porções de um gráfico de Bruijn contendo subgráficos associados a sequências altamente repetidas, por ex. elementos transponíveis, os chamados componentes complexos Biconnected.

Aqui, tentamos atingir três objetivos: (1) dar uma formalização clara da noção de repetições com alto número de cópias em dados de RNA-seq, (2) aplicá-lo na montagem do transcriptoma local, dando uma maneira prática de enumerar as bolhas que são perdidos por causa de tais repetições, e (3) aplique-o na montagem do transcriptoma global, mostrando que a topologia do subgrafo em torno de uma transcrição pode dar algumas dicas sobre seu nível de confiança. Lembre-se de que estamos em um contexto de novo, então assumimos que nem um genoma / transcriptoma de referência nem um banco de dados de repetições conhecidas, por exemplo, RepBase [13], estão disponíveis.

Primeiro, apresentamos formalmente um modelo para representar repetições de alto número de cópias e exploramos suas propriedades para inferir que os subgráficos associados à repetição em um gráfico de de Bruijn contêm poucos arcos compressíveis. Porém, mostramos que o problema de identificar, em um grafo de de Bruijn, um subgrafo correspondente a repetições de acordo com tal caracterização é NP-completo. Portanto, é improvável que exista um algoritmo de tempo polinomial.

Em segundo lugar, mostramos que no caso específico de uma montagem local de eventos de splicing alternativo (AS), usando uma estratégia baseada na caracterização do arco compressível, podemos implicitamente evite tais subgráficos. Mais precisamente, é possível encontrar as estruturas (ou seja, bolhas) correspondentes a eventos AS em um gráfico de Bruijn que não estão contidos em um subgrafo associado à repetição (ver Fig. 3 para um exemplo). Embora tenha havido grandes esforços na literatura para resolver as repetições, quase não houve exploração sobre como evitá-las. Isso é explicado pelo fato de que a maioria dos esforços na montagem se concentra na montagem do genoma completo e do transcriptoma, em que evitar repetições não é uma opção, e o desempenho de um montador pode ser reduzido para quão bem ele resolve as repetições. No entanto, em nosso caso, evitar a repetição pode ser uma técnica eficaz. Na verdade, este fato foi confirmado por nossos experimentos, onde usando dados de RNA-seq simulados humanos, mostramos que o novo algoritmo melhora significativamente a sensibilidade do KisSplice, ao mesmo tempo que melhora sua precisão. Além disso, comparamos nosso algoritmo a dois dos melhores montadores de transcriptoma, ou seja, Trinity [2] e Oases [3], na tarefa específica de chamar eventos AS, e mostramos que nosso algoritmo é mais sensível do que ambas as ferramentas, embora também seja mais preciso. Além disso, nossos resultados mostram que a vantagem de usar o novo algoritmo proposto neste trabalho é mais evidente quando os dados de entrada contêm alto conteúdo de pré-mRNA ou os eventos AS de interesse derivam de genes altamente expressos. Além disso, damos uma indicação da utilidade do nosso método em dados reais.

Terceiro, mostramos que o método descrito também pode ser aplicado no contexto da montagem do transcriptoma de comprimento total. Apresentamos uma medida baseada no modelo proposto para identificar transcrições de baixa confiança, que são aquelas que atravessam regiões complexas no Gráfico de Bruijn. Dentro dessas partes complexas do gráfico geradas por repetições, qualquer montador terá que escolher o (s) caminho (s) “correto (s) entre os muitos presentes. Esta escolha não é simples e pode levar a soluções incorretas (por exemplo, transcrições quiméricas ou truncadas). Portanto, é importante ser capaz de identificar as transcrições provenientes de regiões tão complexas para saber que a solução apresentada não é a única e, além disso, pode não ser a correta. Comparamos nossa medida com dois métodos de última geração para avaliação de transcriptoma de novo, a saber Rsem-Eval [4] e TransRate [5], para a tarefa específica de identificar transcritos quiméricos em conjuntos de dados reais e simulados. Mostramos que nossa medida fornece bons resultados apesar de usar apenas a topologia do grafo, e não de cobertura, nem de leitura de informações. Os resultados obtidos sugerem que explorar a topologia do subgrafo em torno de uma transcrição, informação atualmente desconsiderada pelos métodos de avaliação do transcriptoma, pode ser útil para inferir algumas das propriedades da transcrição, como nível de confiança, qualidade, dureza de montagem, etc. Portanto, nossa medida pode melhorar o estado da arte dos métodos de avaliação do transcriptoma de novo, uma vez que é capaz de capturar erros de montagem perdidos por essas ferramentas.

Preliminares

Seja ( Sigma ) um alfabeto de tamanho fixo ( sigma ). Aqui sempre assumimos ( Sigma = ). Dada uma sequência (string) (s in Sigma ^ * ), deixe |s| denotam seu comprimento, s[eu] a euo elemento de s, e s[eu, j] a substring (s [i] s [i + 1] ldots s [j] ) para qualquer (1 le i & ltj le | s | ).

UMA k-mer é uma sequência (s in Sigma ^ k ). Dado um número inteiro k e um conjunto S de sequências, cada uma de comprimento (n ge k ), nós definimos período(S, k) como o conjunto de todos os distintos k-mers que aparecem como uma substring em S.

Definição 1

Dado um conjunto de sequências (leituras) (R subseteq Sigma ^ * ) e um inteiro k, definimos o gráfico de Bruijn direcionado (G_k (R) = (V, A) ) onde (V = span (R, k) ) e ((u, v) em A ) se e somente se (u [2, k] = v [1, k-1] ).

Dado um grafo direcionado (G = (V, A) ) e um vértice (v in V ), denotamos seu bairro de fora (resp. na vizinhança) por (N ^ + (v) = ) (resp. (N ^ - (v) = )), e seu grau superior (resp. em grau por (d ^ + (v) = | N ^ + (v) | ) ( (d ^ - (v) = | N ^ - (v) | )). Um simples) caminho ( pi = s leadsto t ) em G é uma sequência de vértices distintos (s = v_0, ldots, v_l = t ) tal que, para cada (0 le i & lt l ), ((v_i, v_) ) é um arco de G. Se o gráfico for ponderado, ou seja, houver uma função (w: A rightarrow Q _ < ge 0> ) associando um peso a cada arco no gráfico, então o comprimento de um caminho ( pi ) é a soma dos pesos dos arcos percorridos e é denotado por (| pi | ).

Um arco ((u, v) in A ) é chamado compressível if (d ^ + (u) = 1 ) e (d ^ - (v) = 1 ). A intuição por trás desta definição vem do fato de que cada caminho que passa você também deve passar v. Portanto, deve ser possível “comprimir” ou contrair este arco sem perder nenhuma informação. Observe que o grafo de Bruijn comprimido [2, 3] comumente usado por montadores transcriptômicos é obtido a partir de um grafo de Bruijn substituindo, para cada arco compressível (você, v), os vértices você, v por um novo vértice x, onde (N ^ - (x) = N ^ - (u) ), (N ^ + (x) = N ^ + (v) ) e o rótulo é a concatenação do k-mer de você e a k-mer de v sem a parte sobreposta (ver Fig. 1).

Exemplo de arco compressível em um gráfico de Bruijn. uma O arco (CTG, TGA) é o único arco compressível no gráfico de Bruijn dado ( (k = 3 )). b O gráfico de Bruijn comprimido correspondente


Conclusões

Usando uma abordagem proteômica e transcriptômica integrada, revelamos diferenças no proteoma do fígado dos NMRs de vida longa em comparação com os GPs de vida curta. Confirmamos uma forma preferencial de utilização de ácidos graxos para alimentar a respiração em RMNs, refletindo uma composição distinta de suas mitocôndrias. Além disso, identificamos uma assinatura progressiva de envelhecimento que se manifesta no fígado de NMRs em nível molecular. Curiosamente, grupos funcionalmente relacionados de proteínas, incluindo enzimas das vias de desintoxicação, foram afetados de forma semelhante pelo envelhecimento em amostras de RMN e de fígado humano. Isso sublinha uma ligação direta entre os processos de envelhecimento dessas duas espécies. Resta ser demonstrado se as vias afetadas pelo envelhecimento influenciam o estado de saúde de NMRs antigos e limitam sua expectativa de vida, como mostramos ser o caso do nematóide C. elegans.


RESULTADOS

Precisão da previsão do gene em transcrições de referência

Usamos GeneMarkS-T, Prodigal, TransDecoder e ESTscan para prever genes codificadores de proteínas em transcrições "completas", bem como "parciais" de A. thaliana, D. melanogaster, M. musculus e S. pombe (consulte a seção ‘Materiais e Métodos’). O número de genes previstos em um conjunto de transcrições depende do comprimento mínimo do gene selecionado (mgl) Nós mudamos mgl como um parâmetro de limite de 90 a 480 bp (com etapas de 30 bp). Para cada conjunto de predições, calculamos Sn e Sp com base na anotação da transcrição e traçamos a dependência de Sn em 1 - Sp (Figuras 2 e 3). Nestes gráficos, que se parecem com curvas de características de operação do receptor (ROC), os pontos superiores direitos foram obtidos para mgl igual a 90 bp. Não mostramos gráficos para ESTscan, pois não fomos capazes de alcançar um desempenho alto o suficiente (ou seja, para camundongos, tivemos Sn = 0,53 e Sp = 0,54). Acreditamos que o autotreinamento melhoraria o desempenho do ESTscan. Na ausência de tal opção, fomos forçados a selecionar um dos modelos predefinidos disponíveis, por exemplo, o modelo humano para análise de transcrições de camundongos.

Gráficos de sensibilidade de predição de gene (Sn) como funções de especificidade de predição de gene (1 - Sp) para TransDecoder, Prodigal e GeneMarkS-T determinado em conjuntos de teste de transcritos de referência "completos" de A. thaliana, D. melanogaster, M. musculus e S. pombe. Aplicamos as três ferramentas em ambos os modos de fio cego e de fio informado (S). Para construir as curvas, geramos conjuntos de genes previstos com comprimento mínimo controlado pelo mgl limite (ver texto). Enquanto o mgl os valores aumentaram de 90 para 480 bp (com passo de 30 bp) e os valores de Sn diminuíram.

Gráficos de sensibilidade de predição de gene (Sn) como funções de especificidade de predição de gene (1 - Sp) para TransDecoder, Prodigal e GeneMarkS-T determinado em conjuntos de teste de transcritos de referência "completos" de A. thaliana, D. melanogaster, M. musculus e S. pombe. Aplicamos as três ferramentas em ambos os modos de fio cego e de fio informado (S). Para construir as curvas, geramos conjuntos de genes previstos com comprimento mínimo controlado pelo mgl limite (ver texto). Enquanto o mgl os valores aumentaram de 90 para 480 bp (com passo de 30 bp) e os valores de Sn diminuíram.

O mesmo que na Figura 2 para os testes em transcrições de referência "parciais" simuladas de A. thaliana, D. melanogaster, M. musculus e S. pombe. As transcrições "parciais" foram feitas aparando as sequências em ambas as extremidades 5 ′ e 3 ′ das transcrições "completas" (ver o texto para a lógica deste método). As três ferramentas foram utilizadas em ambos os modos de fio cego e de fio informado (S).

O mesmo que na Figura 2 para os testes em transcrições de referência "parciais" simuladas de A. thaliana, D. melanogaster, M. musculus e S. pombe. As transcrições "parciais" foram feitas aparando as sequências em ambas as extremidades 5 ′ e 3 ′ das transcrições "completas" (ver o texto para a lógica deste método). As três ferramentas foram utilizadas em ambos os modos de fio cego e de fio informado (S).

Para transcrições "completas", as versões de fita cega e específica de fita do GeneMarkS-T demonstraram desempenho significativamente melhor do que as outras ferramentas (Figura 2). Em experimentos com transcrições "parciais" (Figura 3), o Prodigal e o TransDecoder se aproximaram em desempenho do GeneMarkS-T. O melhor (Sn + Sp) / 2 que vimos para GeneMarkS-T, Prodigal e TransDecoder quando o mgl os valores foram 150, 210 e 270 bp, respectivamente. A adição de informações sobre a fita de RNA e, portanto, o uso das versões (S) das três ferramentas de localização de genes aumentaram os valores de Sp (Figuras 2 e 3).

Variação significativa no conteúdo de G + C em M. musculus e D. melanogaster transcrições (de 0,31 a 0,76 em camundongos e de 0,27 a 0,63 em mosca) foi imediatamente identificado por GeneMarkS-T, que agrupou as transcrições em três caixas de conteúdo G + C com bordas definidas automaticamente (Tabela S1). O autotreinamento foi feito separadamente para as transcrições em cada um dos três grupos. Na etapa de predição, os parâmetros do algoritmo usados ​​para uma determinada transcrição foram escolhidos em relação ao conteúdo G + C da transcrição. Esta abordagem produziu melhores valores de Sn do que na ausência de agrupamento (Tabela S1).

Estudamos como a precisão da previsão depende do volume de transcrições no treinamento. Para esses experimentos, amostramos aleatoriamente vários conjuntos de transcrições com o mesmo volume. Se o volume fosse maior que 600 kb, GeneMarkS-T e Prodigal atingiam um platô com desempenho estável e (Sn + Sp) / 2 valor próximo a 96% para GeneMarkS-T e 94% para Prodigal (Figura 4). A precisão do TransDecoder teve um padrão semelhante de mudança com o platô em 91% alcançado no volume de 1 Mb. Uma redução para 100 kb produziu desempenho inferior, mas ainda decente: 90% para GeneMarkS-T e Prodigal e 80% para TransDecoder. O volume mínimo de sequência necessário para o Prodigal era de 20 kb, enquanto o limite do GeneMarkS-T era ainda mais baixo. Abaixo de 50 kb, o GeneMarkS-T muda automaticamente para o uso de modelos heurísticos de regiões de codificação de proteínas cujos parâmetros podem ser determinados para um fragmento de sequência tão curto quanto 400 bp (15).

Dependência de (Sn + Sp) / 2 das três ferramentas de predição de genes no tamanho do conjunto de treinamento de D. melanogaster transcrições (o eixo X mostra o tamanho total do conjunto, escala logarítmica). Sets of transcripts of the same size were sampled randomly 50 times from the whole set of reference transcripts. o mgl value that achieved best overall (Sn + Sp)/2 was tool specific (150 bp for GeneMarkS-T, 210 bp for Prodigal and 270 bp for TransDecoder).

Dependence of (Sn + Sp)/2 of the three gene prediction tools on the size of training set of D. melanogaster transcripts (X axis shows the total set size, log scale). Sets of transcripts of the same size were sampled randomly 50 times from the whole set of reference transcripts. o mgl value that achieved best overall (Sn + Sp)/2 was tool specific (150 bp for GeneMarkS-T, 210 bp for Prodigal and 270 bp for TransDecoder).

In some transcripts GeneMarkS-T predicted several coding regions (with mgl 300 bp). We observed such outcomes in 2.5% of A. thaliana transcripts, 9.4% of S. pombe, 6.0% of D. melanogaster and 20.4% of M. musculus. In the supposed absence of operons such outcomes are possible for three reasons. First, additional predictions could have no connection to carrying genetic code, i.e. pure false positives. Second, a transcript could come from a locus where splicing mechanism generates alternative isoforms. For instance, protein-coding exons related to one isoform could appear outside the protein coding region related to another isoform (e.g. Figure 5A). Third, a transcript could overlap adjacent genes located in the complementary strand. Particularmente, S. pombe, a species not known for ubiquitous alternative splicing, has short intergenic regions and long UTRs that may overlap adjacent genes (e.g. Figure 5B). Not surprisingly, for S. pombe we observed a significant gain of accuracy after switching to strand-specific versions of the three gene finders (Figures 2 and 3).

Diagrams of two typical events when more than one coding region is predicted in a transcript. We show pre-spliced transcripts: genomic sequences are shown as grey bars exons defined by annotation are shown as wider bars (green colour—UTR, dark green—CDS) predicted protein-coding exons are shown as red bars. (UMA) Two transcripts are originated from the same location of D. melanogaster genome (NM_001275246.1 and NM_206418.3). The FP prediction (the downstream gene in complementary strand) is a part of the coding region of alternative isoform of CapaR gene. (B) The 5′ UTR of S. pombe transcript NM_001020436.2 overlaps with another transcript NM_001020437.2 originated from complementary strand. This transcript topology leads to two predictions in transcript NM_001020436.2: one in the direct strand (FP) as well as one in the complementary strand (TP). The figures were made with the NCBI RefSeq sequence viewer.

Diagrams of two typical events when more than one coding region is predicted in a transcript. We show pre-spliced transcripts: genomic sequences are shown as grey bars exons defined by annotation are shown as wider bars (green colour—UTR, dark green—CDS) predicted protein-coding exons are shown as red bars. (UMA) Two transcripts are originated from the same location of D. melanogaster genome (NM_001275246.1 and NM_206418.3). The FP prediction (the downstream gene in complementary strand) is a part of the coding region of alternative isoform of CapaR gene. (B) The 5′ UTR of S. pombe transcript NM_001020436.2 overlaps with another transcript NM_001020437.2 originated from complementary strand. This transcript topology leads to two predictions in transcript NM_001020436.2: one in the direct strand (FP) as well as one in the complementary strand (TP). The figures were made with the NCBI RefSeq sequence viewer.

If multiple predictions were generated in a transcript GeneMarkS-T selected the one with the maximum log-odd score. This approach produced 93% success rate in selecting the ‘true’ coding region for A. thaliana, 74% for D. melanogaster, 98% for M. musculus and 62% for S. pombe.

Prediction of translation initiation site

To assess the accuracy of TIS prediction by GeneMarkS-T, Prodigal and TransDecoder we used 1392 reference transcripts of M. musculus (with annotated coding regions longer than 300 bp). The TIS annotation in these transcripts was validated by Ribo-seq experiments (see ‘Materials and Methods’ section). GeneMarkS-T was run in three modes: (i) with default settings (ii) with search for the Kozak motif switched off and iii/ with mandatory prediction of complete CDS.

GeneMarkS-T with default settings correctly predicted 68.5% starts in genes where the reading frame was correctly predicted (and, therefore, the 3′ end of the gene). This was higher accuracy in comparison with the two other tools (Table 2). All three tools revealed a tendency to extend the 5′ end of the coding region beyond the 5′ end of the transcript. Notably, TransDecoder adopts the ‘longest-ORF’ rule and selects the 5′-most AUG (with respect to the in-frame stop codon) as the translation initiation site. In comparison, GeneMarkS-T had the largest fraction of TIS predictions located downstream from the 5′-most AUGs. Use of the Kozak motif was responsible for improving Sn of GeneMarkS-T by about 10% (Table 2). Prohibiting predictions of incomplete coding regions would boost the TIS identification accuracy of GeneMarkS-T to 95.0%, however, use of this option is limited to transcripts that are known to be 5′ end complete.

Numbers of protein-coding regions predicted correctly (TP) and incorrectly (FP) by GeneMarkS-T, Prodigal and TransDecoder in D. melanogaster ‘concordant’ transcripts (selected as described in text)

Transcripts built by . No. of transcripts . GeneMarkS-T . Prodigal . TransDecoder .
. . TP . FP . TP . FP . TP . FP .
Cufflinks 7222 7162607098 232 7046 432
Augusto 9444 9423219383 246 9332 480
Exonerate 6971 6953186940 190 6915 454
Velvet 7344 71461987096 312 7030 429
Oases 13 869 13 76910013 659 347 13 598 582
Transcripts built by . No. of transcripts . GeneMarkS-T . Prodigal . TransDecoder .
. . TP . FP . TP . FP . TP . FP .
Cufflinks 7222 7162607098 232 7046 432
Augusto 9444 9423219383 246 9332 480
Exonerate 6971 6953186940 190 6915 454
Velvet 7344 71461987096 312 7030 429
Oases 13 869 13 76910013 659 347 13 598 582

Predictions shorter than the tool-specific mgl (150 bp for GeneMarkS-T, 210 bp for Prodigal and 270 bp for TransDecoder) were filtered out. Bold font highlights best results in a particular row (the largest TP and the smallest FP).

Transcripts built by . No. of transcripts . GeneMarkS-T . Prodigal . TransDecoder .
. . TP . FP . TP . FP . TP . FP .
Cufflinks 7222 7162607098 232 7046 432
Augusto 9444 9423219383 246 9332 480
Exonerate 6971 6953186940 190 6915 454
Velvet 7344 71461987096 312 7030 429
Oases 13 869 13 76910013 659 347 13 598 582
Transcripts built by . No. of transcripts . GeneMarkS-T . Prodigal . TransDecoder .
. . TP . FP . TP . FP . TP . FP .
Cufflinks 7222 7162607098 232 7046 432
Augusto 9444 9423219383 246 9332 480
Exonerate 6971 6953186940 190 6915 454
Velvet 7344 71461987096 312 7030 429
Oases 13 869 13 76910013 659 347 13 598 582

Predictions shorter than the tool-specific mgl (150 bp for GeneMarkS-T, 210 bp for Prodigal and 270 bp for TransDecoder) were filtered out. Bold font highlights best results in a particular row (the largest TP and the smallest FP).

Several ribosome profiling studies ( 12, 23–24) raised concerns about the frequent presence of alternative TIS's located both upstream and downstream of annotated TIS's confirmed by Ribo-seq experiments. However, a recent publication ( 25) indicated that reports of alternative TIS in many cases are likely to be artefacts therefore, the confidence in the Ribo-seq experimental validation of annotated TIS's remains high.

Gene prediction with heuristic models (case for meta-transcriptomics)

To model gene prediction in a metatranscriptome we used the same set of mouse transcripts G + C content of individual transcripts in this set ranged from 27 to 63%. To run GeneMarkS-T on a given transcript we used parameters derived as functions of a single variable, the transcript G + C content. We did not continue the training, assuming that the given transcript is the only sequence from an unknown genome. This assumption is relevant for a typical metatranscriptome. The method of inference of these functions was described earlier for short metagenomics sequences ( 7, 15). We used the functions that reflect dependence of oligonucleotide composition of protein coding regions on G + C content of the sequence the functions were derived for a set of complete prokaryotic genomes ( 15). The results are surprisingly good (last row in Table 2) with correct prediction of 82.4% of genes (1147 out of 1193) also 54.9% of starts were correctly predicted in comparison with 68.6% correct starts predicted with full training of the model.

Model training and gene predictions for transcripts reconstructed from RNA-Seq

A comprehensive assessment of the accuracy of transcript reconstruction from RNA-Seq reads was conducted in the RGASP competition ( 3). We used in this study transcripts reconstructed in ( 3) by Cufflinks, Augustus, Exonerate, Velvet and Oases ( 18–22). It was shown that assembled transcripts frequently contain errors and only a subset of all transcripts could be fully recovered ( 3). Observed average lengths of assembled transcripts were shorter than that of reference transcripts, particularly the average lengths of the de novo assemblies made by Oases and Velvet (Supplementary Figure S1A). Would the errors present in transcript assemblies affect self-training of GeneMarkS-T? To address this question we trained GeneMarkS-T on five sets of D. melanogaster transcripts assembled by the five tools mentioned above. The trained models were used in GeneMarkS-T to predict genes in reference transcripts of D. melanogaster. We observed almost no difference between any of the five graphs of Sn versus 1 − Sp for gene prediction with models trained on D. melanogaster assembled transcripts and the graph depicting Sn versus 1 − Sp for gene prediction with the D. melanogaster model trained on reference transcripts (Figure 6). Thus, GeneMarkS-T training was shown to be robust with respect to use of assembled transcripts instead of ‘ideal’ reference transcripts.

Plots of gene prediction accuracy in D. melanogaster reference transcripts built for GeneMarkS-T trained on sets of different types. The models were trained either on the set of D. melanogaster reference transcripts or on the sets of transcripts assembled by the five transcript assembly tools. Predictions made in reference transcripts were compared with annotation.

Plots of gene prediction accuracy in D. melanogaster reference transcripts built for GeneMarkS-T trained on sets of different types. The models were trained either on the set of D. melanogaster reference transcripts or on the sets of transcripts assembled by the five transcript assembly tools. Predictions made in reference transcripts were compared with annotation.

To assess performance of gene prediction methods in assembled transcripts we used the same five sets of assembled D. melanogaster transcrições. First, we mapped the assembled transcripts to the corresponding reference transcripts ( 3) to detect and evaluate the differences. We used the results to divide the set of assembled transcripts into three groups: ‘concordant’, ‘conflicting’ and ‘not-aligned’ (see ‘Materials and Methods’ section and Supplementary Figure S2). Many assembled D. melanogaster transcripts fell into ‘conflicting’ category (from 17 to 47%, depending on the tool, see Supplementary Figure S3, ‘A’ bars) Cufflinks, Exonerate and Oases produced larger numbers of ‘conflicting’ transcripts than Augustus and Velvet. Multiple protein-coding regions were predicted more frequently in the ‘conflicting’ transcripts than in the ‘concordant’ transcripts (Supplementary Figure S4). Note, that for GeneMarkS-T events of prediction of multiple coding regions were registered prior to selecting ‘reported’ predictions with highest log-odd score. We have illustrated the distribution of events (multiple, single, none predictions) for GeneMarkS-T (Supplementary Figure S4). The distributions of the same events for the two other gene prediction tools show similar patterns (Table S2). Thus, all the tools predict single coding regions in ‘concordant’ assemblies with higher frequencies than in ‘conflicting’ ones.

To make unambiguous comparison of accuracy of gene prediction in ‘concordant’ transcripts we had to select the sets where gene finders make single gene predictions. As such surrogate sets we chose sets of ‘concordant’ assemblies where GeneMarkS-T predicted single protein-coding regions. Annotation of protein coding regions in these assembled transcripts was accomplished by transfer of the reference transcript annotation. In all the five test sets, GeneMarkS-T generated the largest number of TPs and the fewest number of FPs (Table 3).

In the sets of assembled transcripts where GeneMarkS-T predicted multiple coding regions we have observed high fractions of ‘conflicting’ transcripts (e.g. 90%, for the set of Cufflinks assembled transcripts). Thus, predicting multiple coding regions was an indicator of a higher chance for the transcript to be in the ‘conflicting’ category and to carry some discrepancies in the transcript assembly. Still, this observation should be taken with a caveat that multiple coding regions could appear in the ‘concordant’ transcript encoding alternative isoforms (as illustrated in Figure 5).

Very short coding regions are rare and are rarely predicted. Therefore, if an assembled transcript (complete or incomplete) is short it is likely that no gene will be predicted. Indeed, we observed that the gene finding tools did not predict genes in many transcripts assembled by the de novo methods Velvet and Oases (Supplementary Figure S3). Notably, many of these transcripts were too short (Supplementary Figure S1A).


RESULTADOS

Accuracy of gene prediction in reference transcripts

We used GeneMarkS-T, Prodigal, TransDecoder and ESTscan to predict protein-coding genes in ‘complete’ as well as ‘partial’ transcripts of A. thaliana, D. melanogaster, M. musculus e S. pombe (see ‘Materials and Methods’ section). The number of genes predicted in a set of transcripts depends on the selected minimum gene length (mgl) We have changed mgl as a threshold parameter from 90 to 480 bp (with 30 bp steps). For each set of predictions we computed Sn and Sp based on the transcript annotation and plotted the dependence of Sn on 1 − Sp (Figures 2 and 3). In these plots, which look similar to receiver operating characteristic (ROC) curves, the top right points were obtained for mgl equal to 90 bp. We do not show plots for ESTscan as we were not able to achieve high enough performance (i.e. for mouse we had Sn = 0.53 and Sp = 0.54). We believe that self-training would improve ESTscan performance. In the absence of such an option we were forced to select one of the available pre-defined models, e.g. the human model for analysis of mouse transcripts.

Plots of gene prediction sensitivity (Sn) as functions of gene prediction specificity (1 − Sp) for TransDecoder, Prodigal and GeneMarkS-T determined on test sets of ‘complete’ reference transcripts of A. thaliana, D. melanogaster, M. musculus e S. pombe. We applied the three tools in both strand blind and strand informed (S) modes. To build the curves we generated sets of predicted genes with minimal length controlled by the mgl threshold (see text). Enquanto o mgl values increased from 90 to 480 bp (with 30 bp step) the Sn values decreased.

Plots of gene prediction sensitivity (Sn) as functions of gene prediction specificity (1 − Sp) for TransDecoder, Prodigal and GeneMarkS-T determined on test sets of ‘complete’ reference transcripts of A. thaliana, D. melanogaster, M. musculus e S. pombe. We applied the three tools in both strand blind and strand informed (S) modes. To build the curves we generated sets of predicted genes with minimal length controlled by the mgl threshold (see text). Enquanto o mgl values increased from 90 to 480 bp (with 30 bp step) the Sn values decreased.

Same as in Figure 2 for the tests on simulated ‘partial’ reference transcripts of A. thaliana, D. melanogaster, M. musculus e S. pombe. The ‘partial’ transcripts were made by trimming sequences on both 5′ and 3′ end of the ‘complete’ transcripts (see text for rational of this method). The three tools were used in both strand blind and strand informed (S) modes.

Same as in Figure 2 for the tests on simulated ‘partial’ reference transcripts of A. thaliana, D. melanogaster, M. musculus e S. pombe. The ‘partial’ transcripts were made by trimming sequences on both 5′ and 3′ end of the ‘complete’ transcripts (see text for rational of this method). The three tools were used in both strand blind and strand informed (S) modes.

For ‘complete’ transcripts, both strand-blind and strand-specific versions of GeneMarkS-T demonstrated significantly better performance than the other tools (Figure 2). In experiments with ‘partial’ transcripts (Figure 3) Prodigal and TransDecoder came closer in performance to GeneMarkS-T. The best (Sn + Sp)/2 we saw for GeneMarkS-T, Prodigal and TransDecoder when the mgl values were 150, 210 and 270 bp, respectively. Adding information on RNA strand and thus use of the (S) versions of the three gene finding tools, increased the Sp values (Figures 2 and 3).

Significant variation in G + C content in M. musculus e D. melanogaster transcripts (from 0.31 to 0.76 in mouse and from 0.27 to 0.63 in fly) was immediately identified by GeneMarkS-T which grouped the transcripts into three G + C content bins with automatically defined borders (Table S1). Self-training was done separately for transcripts in each of the three clusters. In the prediction step, algorithm parameters used for a given transcript were chosen with respect to the transcript G + C content. This approach produced better Sn values than in the absence of clustering (Table S1).

We studied how prediction accuracy depends on the volume of transcripts in training. For these experiments we sampled randomly several sets of transcripts with the same volume. If the volume was larger than 600 kb, GeneMarkS-T and Prodigal reached a plateau with steady performance and (Sn + Sp)/2 value close to 96% for GeneMarkS-T and 94% for Prodigal (Figure 4). Accuracy of TransDecoder had a similar pattern of change with the plateau at 91% reached at the volume of 1 Mb. A decrease to 100 kb produced lower but still decent performance: 90% for GeneMarkS-T and Prodigal, and 80% for TransDecoder. The minimum volume of sequence required for Prodigal was 20 kb while the GeneMarkS-T limit was even lower. Below 50 kb GeneMarkS-T automatically switches to use of heuristic models of protein-coding regions whose parameters could be determined for a sequence fragment as short as 400 bp ( 15).

Dependence of (Sn + Sp)/2 of the three gene prediction tools on the size of training set of D. melanogaster transcripts (X axis shows the total set size, log scale). Sets of transcripts of the same size were sampled randomly 50 times from the whole set of reference transcripts. o mgl value that achieved best overall (Sn + Sp)/2 was tool specific (150 bp for GeneMarkS-T, 210 bp for Prodigal and 270 bp for TransDecoder).

Dependence of (Sn + Sp)/2 of the three gene prediction tools on the size of training set of D. melanogaster transcripts (X axis shows the total set size, log scale). Sets of transcripts of the same size were sampled randomly 50 times from the whole set of reference transcripts. o mgl value that achieved best overall (Sn + Sp)/2 was tool specific (150 bp for GeneMarkS-T, 210 bp for Prodigal and 270 bp for TransDecoder).

In some transcripts GeneMarkS-T predicted several coding regions (with mgl 300 bp). We observed such outcomes in 2.5% of A. thaliana transcripts, 9.4% of S. pombe, 6.0% of D. melanogaster and 20.4% of M. musculus. In the supposed absence of operons such outcomes are possible for three reasons. First, additional predictions could have no connection to carrying genetic code, i.e. pure false positives. Second, a transcript could come from a locus where splicing mechanism generates alternative isoforms. For instance, protein-coding exons related to one isoform could appear outside the protein coding region related to another isoform (e.g. Figure 5A). Third, a transcript could overlap adjacent genes located in the complementary strand. Particularmente, S. pombe, a species not known for ubiquitous alternative splicing, has short intergenic regions and long UTRs that may overlap adjacent genes (e.g. Figure 5B). Not surprisingly, for S. pombe we observed a significant gain of accuracy after switching to strand-specific versions of the three gene finders (Figures 2 and 3).

Diagrams of two typical events when more than one coding region is predicted in a transcript. We show pre-spliced transcripts: genomic sequences are shown as grey bars exons defined by annotation are shown as wider bars (green colour—UTR, dark green—CDS) predicted protein-coding exons are shown as red bars. (UMA) Two transcripts are originated from the same location of D. melanogaster genome (NM_001275246.1 and NM_206418.3). The FP prediction (the downstream gene in complementary strand) is a part of the coding region of alternative isoform of CapaR gene. (B) The 5′ UTR of S. pombe transcript NM_001020436.2 overlaps with another transcript NM_001020437.2 originated from complementary strand. This transcript topology leads to two predictions in transcript NM_001020436.2: one in the direct strand (FP) as well as one in the complementary strand (TP). The figures were made with the NCBI RefSeq sequence viewer.

Diagrams of two typical events when more than one coding region is predicted in a transcript. We show pre-spliced transcripts: genomic sequences are shown as grey bars exons defined by annotation are shown as wider bars (green colour—UTR, dark green—CDS) predicted protein-coding exons are shown as red bars. (UMA) Two transcripts are originated from the same location of D. melanogaster genome (NM_001275246.1 and NM_206418.3). The FP prediction (the downstream gene in complementary strand) is a part of the coding region of alternative isoform of CapaR gene. (B) The 5′ UTR of S. pombe transcript NM_001020436.2 overlaps with another transcript NM_001020437.2 originated from complementary strand. This transcript topology leads to two predictions in transcript NM_001020436.2: one in the direct strand (FP) as well as one in the complementary strand (TP). The figures were made with the NCBI RefSeq sequence viewer.

If multiple predictions were generated in a transcript GeneMarkS-T selected the one with the maximum log-odd score. This approach produced 93% success rate in selecting the ‘true’ coding region for A. thaliana, 74% for D. melanogaster, 98% for M. musculus and 62% for S. pombe.

Prediction of translation initiation site

To assess the accuracy of TIS prediction by GeneMarkS-T, Prodigal and TransDecoder we used 1392 reference transcripts of M. musculus (with annotated coding regions longer than 300 bp). The TIS annotation in these transcripts was validated by Ribo-seq experiments (see ‘Materials and Methods’ section). GeneMarkS-T was run in three modes: (i) with default settings (ii) with search for the Kozak motif switched off and iii/ with mandatory prediction of complete CDS.

GeneMarkS-T with default settings correctly predicted 68.5% starts in genes where the reading frame was correctly predicted (and, therefore, the 3′ end of the gene). This was higher accuracy in comparison with the two other tools (Table 2). All three tools revealed a tendency to extend the 5′ end of the coding region beyond the 5′ end of the transcript. Notably, TransDecoder adopts the ‘longest-ORF’ rule and selects the 5′-most AUG (with respect to the in-frame stop codon) as the translation initiation site. In comparison, GeneMarkS-T had the largest fraction of TIS predictions located downstream from the 5′-most AUGs. Use of the Kozak motif was responsible for improving Sn of GeneMarkS-T by about 10% (Table 2). Prohibiting predictions of incomplete coding regions would boost the TIS identification accuracy of GeneMarkS-T to 95.0%, however, use of this option is limited to transcripts that are known to be 5′ end complete.

Numbers of protein-coding regions predicted correctly (TP) and incorrectly (FP) by GeneMarkS-T, Prodigal and TransDecoder in D. melanogaster ‘concordant’ transcripts (selected as described in text)

Transcripts built by . No. of transcripts . GeneMarkS-T . Prodigal . TransDecoder .
. . TP . FP . TP . FP . TP . FP .
Cufflinks 7222 7162607098 232 7046 432
Augusto 9444 9423219383 246 9332 480
Exonerate 6971 6953186940 190 6915 454
Velvet 7344 71461987096 312 7030 429
Oases 13 869 13 76910013 659 347 13 598 582
Transcripts built by . No. of transcripts . GeneMarkS-T . Prodigal . TransDecoder .
. . TP . FP . TP . FP . TP . FP .
Cufflinks 7222 7162607098 232 7046 432
Augusto 9444 9423219383 246 9332 480
Exonerate 6971 6953186940 190 6915 454
Velvet 7344 71461987096 312 7030 429
Oases 13 869 13 76910013 659 347 13 598 582

Predictions shorter than the tool-specific mgl (150 bp for GeneMarkS-T, 210 bp for Prodigal and 270 bp for TransDecoder) were filtered out. Bold font highlights best results in a particular row (the largest TP and the smallest FP).

Transcripts built by . No. of transcripts . GeneMarkS-T . Prodigal . TransDecoder .
. . TP . FP . TP . FP . TP . FP .
Cufflinks 7222 7162607098 232 7046 432
Augusto 9444 9423219383 246 9332 480
Exonerate 6971 6953186940 190 6915 454
Velvet 7344 71461987096 312 7030 429
Oases 13 869 13 76910013 659 347 13 598 582
Transcripts built by . No. of transcripts . GeneMarkS-T . Prodigal . TransDecoder .
. . TP . FP . TP . FP . TP . FP .
Cufflinks 7222 7162607098 232 7046 432
Augusto 9444 9423219383 246 9332 480
Exonerate 6971 6953186940 190 6915 454
Velvet 7344 71461987096 312 7030 429
Oases 13 869 13 76910013 659 347 13 598 582

Predictions shorter than the tool-specific mgl (150 bp for GeneMarkS-T, 210 bp for Prodigal and 270 bp for TransDecoder) were filtered out. Bold font highlights best results in a particular row (the largest TP and the smallest FP).

Several ribosome profiling studies ( 12, 23–24) raised concerns about the frequent presence of alternative TIS's located both upstream and downstream of annotated TIS's confirmed by Ribo-seq experiments. However, a recent publication ( 25) indicated that reports of alternative TIS in many cases are likely to be artefacts therefore, the confidence in the Ribo-seq experimental validation of annotated TIS's remains high.

Gene prediction with heuristic models (case for meta-transcriptomics)

To model gene prediction in a metatranscriptome we used the same set of mouse transcripts G + C content of individual transcripts in this set ranged from 27 to 63%. To run GeneMarkS-T on a given transcript we used parameters derived as functions of a single variable, the transcript G + C content. We did not continue the training, assuming that the given transcript is the only sequence from an unknown genome. This assumption is relevant for a typical metatranscriptome. The method of inference of these functions was described earlier for short metagenomics sequences ( 7, 15). We used the functions that reflect dependence of oligonucleotide composition of protein coding regions on G + C content of the sequence the functions were derived for a set of complete prokaryotic genomes ( 15). The results are surprisingly good (last row in Table 2) with correct prediction of 82.4% of genes (1147 out of 1193) also 54.9% of starts were correctly predicted in comparison with 68.6% correct starts predicted with full training of the model.

Model training and gene predictions for transcripts reconstructed from RNA-Seq

A comprehensive assessment of the accuracy of transcript reconstruction from RNA-Seq reads was conducted in the RGASP competition ( 3). We used in this study transcripts reconstructed in ( 3) by Cufflinks, Augustus, Exonerate, Velvet and Oases ( 18–22). It was shown that assembled transcripts frequently contain errors and only a subset of all transcripts could be fully recovered ( 3). Observed average lengths of assembled transcripts were shorter than that of reference transcripts, particularly the average lengths of the de novo assemblies made by Oases and Velvet (Supplementary Figure S1A). Would the errors present in transcript assemblies affect self-training of GeneMarkS-T? To address this question we trained GeneMarkS-T on five sets of D. melanogaster transcripts assembled by the five tools mentioned above. The trained models were used in GeneMarkS-T to predict genes in reference transcripts of D. melanogaster. We observed almost no difference between any of the five graphs of Sn versus 1 − Sp for gene prediction with models trained on D. melanogaster assembled transcripts and the graph depicting Sn versus 1 − Sp for gene prediction with the D. melanogaster model trained on reference transcripts (Figure 6). Thus, GeneMarkS-T training was shown to be robust with respect to use of assembled transcripts instead of ‘ideal’ reference transcripts.

Plots of gene prediction accuracy in D. melanogaster reference transcripts built for GeneMarkS-T trained on sets of different types. The models were trained either on the set of D. melanogaster reference transcripts or on the sets of transcripts assembled by the five transcript assembly tools. Predictions made in reference transcripts were compared with annotation.

Plots of gene prediction accuracy in D. melanogaster reference transcripts built for GeneMarkS-T trained on sets of different types. The models were trained either on the set of D. melanogaster reference transcripts or on the sets of transcripts assembled by the five transcript assembly tools. Predictions made in reference transcripts were compared with annotation.

To assess performance of gene prediction methods in assembled transcripts we used the same five sets of assembled D. melanogaster transcrições. First, we mapped the assembled transcripts to the corresponding reference transcripts ( 3) to detect and evaluate the differences. We used the results to divide the set of assembled transcripts into three groups: ‘concordant’, ‘conflicting’ and ‘not-aligned’ (see ‘Materials and Methods’ section and Supplementary Figure S2). Many assembled D. melanogaster transcripts fell into ‘conflicting’ category (from 17 to 47%, depending on the tool, see Supplementary Figure S3, ‘A’ bars) Cufflinks, Exonerate and Oases produced larger numbers of ‘conflicting’ transcripts than Augustus and Velvet. Multiple protein-coding regions were predicted more frequently in the ‘conflicting’ transcripts than in the ‘concordant’ transcripts (Supplementary Figure S4). Note, that for GeneMarkS-T events of prediction of multiple coding regions were registered prior to selecting ‘reported’ predictions with highest log-odd score. We have illustrated the distribution of events (multiple, single, none predictions) for GeneMarkS-T (Supplementary Figure S4). The distributions of the same events for the two other gene prediction tools show similar patterns (Table S2). Thus, all the tools predict single coding regions in ‘concordant’ assemblies with higher frequencies than in ‘conflicting’ ones.

To make unambiguous comparison of accuracy of gene prediction in ‘concordant’ transcripts we had to select the sets where gene finders make single gene predictions. As such surrogate sets we chose sets of ‘concordant’ assemblies where GeneMarkS-T predicted single protein-coding regions. Annotation of protein coding regions in these assembled transcripts was accomplished by transfer of the reference transcript annotation. In all the five test sets, GeneMarkS-T generated the largest number of TPs and the fewest number of FPs (Table 3).

In the sets of assembled transcripts where GeneMarkS-T predicted multiple coding regions we have observed high fractions of ‘conflicting’ transcripts (e.g. 90%, for the set of Cufflinks assembled transcripts). Thus, predicting multiple coding regions was an indicator of a higher chance for the transcript to be in the ‘conflicting’ category and to carry some discrepancies in the transcript assembly. Still, this observation should be taken with a caveat that multiple coding regions could appear in the ‘concordant’ transcript encoding alternative isoforms (as illustrated in Figure 5).

Very short coding regions are rare and are rarely predicted. Therefore, if an assembled transcript (complete or incomplete) is short it is likely that no gene will be predicted. Indeed, we observed that the gene finding tools did not predict genes in many transcripts assembled by the de novo methods Velvet and Oases (Supplementary Figure S3). Notably, many of these transcripts were too short (Supplementary Figure S1A).


Arquivo adicional 1:

Includes 12 supporting figures and four supporting tables. A description of each is given within the file.

Additional file 2:

Performance of four transcriptome assemblers on the Edgren dataset. A table of which true positive breakpoint sequences were assembled by Trinity, Oases, TransABySS and SOAPdenovo-Trans on the Edgren dataset. Oases assembled the highest number of true positive breakpoints with 31.

Additional file 3:

Fusion genes in the BT-474, SK-BR-3, KPL-4 and MCF-7 cell lines. A list of the true positive fusion genes used in the validation of JAFFA on the Edgren and ENCODE dataset, along with a list of the probable true positives, and the fusion calls from JAFFA, FusionCatcher, SOAPfuse, defuse and TopHat-Fusion.

Additional file 4:

Fusion genes in the glioma dataset. A list of the true positive fusion genes, probable true positives and results from JAFFA, SOAPfuse, defuse and TopHat-Fusion for the gliomas dataset.

Additional file 5:

JAFFA commands. This script provides commands to reproduce the results from JAFFA and other tools shown in the manuscript.


Assista o vídeo: Asembler #6: Piszemy Hello World! (Outubro 2022).