Em formação

Análise estatística de mutações entre códons

Análise estatística de mutações entre códons


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Estou procurando uma abordagem estatística para mutações entre códons. Por exemplo, uma tabela 64 * 64 (64 * 63 na verdade), que contém a possibilidade de mutação de um códon para outro códon (CCA para CAA ou CGG ... por exemplo).

Existe algum artigo, banco de dados ou outro que forneça tal tabela?

Por favor, comente se minha pergunta não estiver completamente clara. Eu pesquisei, mas não encontrei uma resposta para esta pergunta no Google Scholar.


DETECÇÃO E RASTREIO DE MUTAÇÃO

Mutações são alterações genéticas adquiridas em células germinativas ou não germinativas (somáticas). As mutações podem estar presentes como uma inserção, exclusão ou alteração de par de bases nas regiões de codificação ou não, resultando em mutações silenciosas, sem sentido ou sem sentido. Em alguns casos, uma mutação ocorre no limite íntron-exon, interrompendo o splicing normal do transcrito. A análise de mutação baseada no sequenciamento de Sanger, a triagem de mutação e o ressequenciamento de exon envolvem amplificação por PCR de alto volume e sequenciamento para descobrir essas mutações.

A análise de mutação e as técnicas de triagem podem ser usadas como sua fonte primária para detecção de mutação ou como uma confirmação de sequenciamento de próxima geração e resultados de microarray. Não importa a aplicação, utilize a experiência da GENEWIZ em direcionar regiões genômicas de DNA com ensaios robustos e específicos.


Resumo

A análise estatística de acoplamento (SCA) é um método para analisar vários alinhamentos de sequência que foi usado para identificar grupos de resíduos co-evolutivos denominados "setores". O método aplica a análise espectral a uma matriz obtida pela combinação de informações de correlação com conservação de sequência. Foi afirmado que os setores de proteínas identificados por SCA são funcionalmente significativos, com diferentes setores controlando diferentes propriedades bioquímicas da proteína. Aqui, reconsideramos os dados experimentais disponíveis e notamos que envolve quase exclusivamente proteínas com um único setor. Mostramos que, neste caso, a conservação de sequência é o fator dominante em SCA e pode ser usada sozinha para fazer previsões funcionais estatisticamente equivalentes. Portanto, sugerimos mudar o foco experimental para proteínas para as quais SCA identifica vários setores. Correlações em alinhamentos de proteínas, que se mostraram informativas em uma série de estudos independentes, seriam menos dominadas pela conservação de sequência.


Resultados

Visão geral do desenho do estudo

Nossa análise incluiu 33 algoritmos (relatados em 29 estudos) que poderiam priorizar ou categorizar mutações SNV que resultam em alterações de aminoácidos. Para avaliar de forma robusta o desempenho de diferentes algoritmos, empregamos cinco conjuntos de dados de referência diferentes: (i) os padrões de agrupamento de mutações em estruturas 3D de proteínas (ii) anotação de literatura baseada em OncoKB [5], um banco de dados de conhecimento amplamente utilizado na comunidade de pesquisa do câncer ( iii) os efeitos das mutações de TP53 em sua atividade de transcrição alvo (iv) os efeitos de mutações de câncer na formação de tumor em experimentos de xenoenxerto e (iv) anotação funcional com base em ensaios de viabilidade celular in vitro desenvolvidos por nosso grupo. Esses conjuntos de dados de referência representam diferentes características das mutações do driver em relação às mutações do passageiro e são altamente complementares entre si, garantindo assim uma avaliação abrangente. Dados os casos positivos (condutor) e negativos (passageiro) definidos em cada conjunto de dados de referência, com base em pontuações numéricas para cada algoritmo, empregamos curvas de área sob a curva (AUC) das características de operação do receptor (ROC) para avaliar o desempenho preditivo, que é uma medida comum independente do valor limite em cada algoritmo. Além disso, comparamos previsões categóricas de algoritmos diferentes com rótulos verdadeiros em cada análise de benchmark (Tabela 1, Arquivo adicional 1).

A Tabela 1 mostra os caracteres dos 33 algoritmos que avaliamos neste estudo. Entre eles, seis algoritmos foram desenvolvidos especificamente para prever as mutações do driver do câncer, e os outros foram projetados para prever o impacto funcional de um SNV em geral. Embora não tenham sido desenvolvidos para identificar os condutores do câncer, os algoritmos não específicos do câncer, como SIFT e Polyphen2, têm sido amplamente usados ​​para priorizar mutações em pesquisas relacionadas ao câncer. Além disso, 16 são algoritmos de conjunto que usam as pontuações de outros algoritmos publicados como entrada (Fig. 1a). Esses algoritmos empregam uma variedade de informações como recursos para construir modelos preditivos: 10 usam os recursos relacionados ao contexto de sequência, como tipos de alteração de nucleotídeos e localizações de ilhas CpG, 9 contêm recursos de proteína, como alterações de domínio e aminoácidos 24 consideram a conservação evolutiva e 6 incluem informações epigenômicas (Fig. 1a). Para estudar as correlações de diferentes algoritmos, compilamos e calculamos as pontuações dos 33 algoritmos para

710.000 mutações únicas detectadas no projeto de sequenciamento de exoma completo TCGA em 33 tipos de câncer pelo Multi-Center Mutation-Calling in Multiple Cancer (MC3), [12, 35]. Em seguida, quantificamos suas semelhanças de pontuação usando as correlações de classificação de Spearman em todas essas mutações e descobrimos que as pontuações do algoritmo mostraram correlações positivas gerais (Fig. 1b). Na árvore baseada em dissimilaridade (Fig. 1b), os algoritmos derivados do mesmo estudo foram sempre agrupados como Eigen-PC e Eigen [32], SIFT4G [31] e SIFT [21], e MetaLR e MetaSVM [36 ], o que é esperado uma vez que foram construídos de forma semelhante.

Resumo de recursos e inter-correlações entre algoritmos. uma Com base nos recursos incluídos, cada algoritmo foi rotulado como usando pontuação de conjunto, contexto de sequência, recurso de proteína, conservação ou informação epigenômica. Os algoritmos treinados em dados de mergulhadores com câncer ou propostos para identificar motoristas de câncer são rotulados como específicos do câncer. b Esquerda: padrão de agrupamento hierárquico de 33 algoritmos com base em

710.000 mutações somáticas TCGA corretas, um mapa de calor de triângulo exibe o coeficiente de correlação de classificação de Spearman entre quaisquer dois algoritmos

Referência 1: padrões de agrupamento de mutações nas estruturas 3D da proteína

O impacto funcional de uma mutação específica depende muito de sua localização na estrutura da proteína 3D. Mutações funcionais ou de driver tendem a formar clusters de pontos de acesso espaciais. Nos últimos anos, vários algoritmos computacionais foram desenvolvidos para detectar clusters de mutação no espaço 3D da proteína, que são capazes de detectar mutações raras com impactos funcionais validados. A partir desta perspectiva, construímos um conjunto de dados de referência com base nos padrões de clustering 3D de mutação. Empregamos quatro algoritmos de cluster espacial (HotMAPs [37], 3DHotSpots [38], HotSpot3D [39] e e-Driver3D [9]) para prever pontos de mutação putativos. Definimos a pontuação de consenso como o número das quatro ferramentas que previram que cada mutação estaria dentro de um cluster 3D (Fig. 2a). Encontramos um forte enriquecimento de mutações com uma alta pontuação de consenso em genes de câncer conhecidos (ou seja, censo de genes de câncer [CGC]) (p & lt 2,2 × 10 −16, teste exato de Fisher, consulte a seção "Métodos" Arquivo adicional 2).

Avaliação usando um conjunto de dados de referência com base no padrão de agrupamento 3D de mutação. uma Visão geral do processo de avaliação. Usamos quatro algoritmos computacionais para detectar se as mutações estão localizadas dentro dos hotspots estruturais 3D da proteína, cada algoritmo com um voto. O número de votos foi definido como a pontuação do grupo de consenso. Uma mutação com uma pontuação ≥ 2 e em um gene de câncer (ou seja, consenso do gene do câncer) foi considerada como um caso positivo, e uma mutação com uma pontuação de 0 e em um gene não canceroso foi considerada um caso negativo. b Curvas ROC e pontuações AUC correspondentes para os 10 algoritmos principais. c Boxplots que mostram as diferenças de AUC entre dois grupos de algoritmos com ou sem determinados recursos. p o valor é baseado no teste de soma de postos de Wilcoxon. d Sensibilidade e especificidade de cada algoritmo calculada usando o valor de pontuação mediana como o limite para fazer previsões binárias. Barras de erro, média ± 2SD

Para compilar o conjunto de benchmark, a partir do

710k mutações TCGA, designamos mutações com uma pontuação de consenso alta (≥ 2) em um gene de câncer conhecido como candidatos a driver (casos positivos, n = 1429) e selecionou aleatoriamente o mesmo número de mutações com uma pontuação de consenso de 0 em genes não cancerígenos como candidatos a passageiros (casos negativos, n = 1429). Em seguida, avaliamos o desempenho dos 33 algoritmos usando curvas ROC. Descobrimos que o desempenho de diferentes algoritmos variava muito, e o escore AUC variou de 0,64 a 0,97, com um valor médio de 0,79 (Fig. 2b Arquivo adicional 3). Seis algoritmos tiveram uma pontuação de AUC de & gt 0,9, incluindo CTAT-câncer [12], CanDrA [7], CHASM [8], DEOGEN2 [11], FATHMM-câncer [14] e MVP [26]. Para confirmar nossos resultados, geramos outro conjunto negativo de mesmo tamanho de mutações CGC com uma pontuação de consenso de 0, repetimos a avaliação e encontramos uma forte correlação de AUCs entre as duas avaliações (correlação de Pearson, r = 0,97 Arquivo adicional 4). Em termos de comparação baseada em grupo (Fig. 2c), os algoritmos específicos do câncer tiveram um desempenho muito melhor do que os algoritmos gerais (média de AUC 92,2% vs. 79,0%, teste de soma de classificação de Wilcoxon, p = 1,6 × 10 −4), e as pontuações de conjunto mostraram pontuações de AUC mais altas do que outras (AUC média de 84,3% vs. 78,7%, teste de soma de classificação de Wilcoxon, p = 0.015).

Para avaliar o desempenho das previsões binárias, calculamos a precisão, a sensibilidade, a especificidade, o PPV e o NPV (consulte a seção “Métodos” Arquivo adicional 5). Na análise, selecionamos aleatoriamente 1000 positivos e 1000 negativos para construir os conjuntos de benchmark e usamos o valor de pontuação mediana de cada algoritmo como o limite para fazer previsões binárias. O processo foi repetido 100 vezes para estimar a média e o desvio padrão para cada métrica. CanDrA apresentou a maior precisão geral (média = 0,91), seguido por CTAT-câncer, CHASM, DEOGEN2 e FATHMM-câncer. A sensibilidade e especificidade para CanDrA, CTAT-câncer, CHASM, DEOGEN2 e FATHMM-câncer consistentemente classificados entre os primeiros (Fig. 2d). Alguns algoritmos, como MutationTaster2 [24], Integrated_fitCons [18], GenoCanyon [17] e LRT [19], tinham sensibilidades e especificidades muito desequilibradas. Além disso, calculamos as mesmas métricas para os 17 algoritmos com as previsões categóricas padrão (consulte a seção “Métodos” Arquivo adicional 6). CanDrA e DEOGEN2 mostraram a maior precisão. Os resultados nesta seção fornecem uma visão geral de como os algoritmos distinguem mutações agrupadas no espaço 3D daquelas isoladas nas estruturas das proteínas.

Referência 2: anotação baseada na literatura

Os efeitos funcionais de mutações específicas têm sido um tema importante na pesquisa do câncer ao longo de décadas. Portanto, a literatura é um recurso rico para definir o papel das mutações somáticas no desenvolvimento do câncer. OncoKB é uma base de conhecimento de oncologia de precisão amplamente utilizada, guiada por especialistas, em que os efeitos funcionais de mutações somáticas em & gt 400 genes associados ao câncer foram classificados em quatro categorias (oncogênicos, provavelmente oncogênicos, provavelmente neutros e inconclusivos) com base em seus aspectos biológicos e os efeitos oncogênicos e a significância prognóstica e preditiva relatada na literatura [5].

Com base na anotação OncoKB, realizamos duas comparações para a avaliação do algoritmo: (i) oncogênico (casos positivos) vs. provavelmente neutro (casos negativos) (773 vs. 497) e (ii) oncogênico + provavelmente oncogênico (casos positivos) vs. provavelmente neutro (casos negativos) (2327 vs. 497) (Fig. 3a). As duas comparações produziram resultados altamente consistentes em termos de pontuações AUC (correlação de Pearson r = 0,90 Fig. 3b). As prováveis ​​mutações oncogênicas reduziram as pontuações gerais da AUC, provavelmente devido a anotações inconsistentes da literatura para essas mutações. Os 10 principais algoritmos na primeira comparação tinham AUCs muito próximos, variando de 0,71 a 0,75 (Fig. 3b Arquivo adicional 7). Não observamos diferenças significativas para comparações baseadas em grupos (arquivo adicional 8). Para previsões binárias, calculamos a precisão, sensibilidade, especificidade, PPV e NPV (arquivo adicional 9), usando 400 positivos e 400 negativos selecionados aleatoriamente (consulte a seção “Métodos”). PROVEAN [29], VEST4 [34] e MPC [22] tiveram os maiores valores de precisão (0,69, 0,69 e 0,68 respectivamente PROVEAN, VEST4, MPC, REVEL [30], FATHMM-câncer, CTAT-população [12] os principais em sensibilidade e especificidade (Fig. 3c). Além disso, calculamos as mesmas métricas para os 17 algoritmos com as previsões categóricas padrão (consulte a seção "Métodos" Arquivo adicional 10). DEOGEN2 mostrou a melhor precisão (média = 0,70). Esses resultados fornecem insights sobre como os algoritmos predizem as mutações do driver com base em evidências baseadas na literatura.

Avaliação usando um conjunto de dados de referência com base na anotação OncoKB. uma Visão geral do processo de avaliação. O banco de dados OncoKB classifica as mutações em quatro categorias: oncogênica, provavelmente oncogênica, provavelmente neutra e inconclusiva. Consideramos "provavelmente neutro" como casos negativos e consideramos apenas mutações "oncogênicas" ou ambas as mutações "oncogênicas" e "provavelmente oncogênicas" como casos positivos. b Gráficos de barras mostrando as pontuações AUC dos 33 algoritmos nas duas comparações. A cor vermelha é para oncogênica mais provavelmente oncogênica versus provavelmente neutra, e verde é para oncogênica versus provavelmente neutra. c Sensibilidade e especificidade de 33 algoritmos. Barras de erro, média ± 2SD

Referência 3: Efeitos das mutações TP53 na transativação do gene alvo

TP53 é o gene mutado com mais frequência em cânceres humanos, e o banco de dados IARC TP53 compila vários tipos de informações sobre as variantes do gene TP53 [40]. Os mutantes TP53 foram avaliados funcionalmente com base nos níveis de transativação medianos, medidos como porcentagem da atividade de tipo selvagem, de 8 alvos TP53 (WAF1, MDM2, BAX, h1433s, AIP1, GADD45, NOXA e P53R2). Construímos um conjunto de dados de referência selecionando mutações TP53 com nível de transativação ≤ 50% como casos positivos e todos os outros como casos negativos.

Os cinco principais algoritmos, ordenados pelas pontuações AUC, foram CHASM, CTAT-câncer, CTAT-população, DEOGEN2 e VEST4 (Fig. 4b Arquivo adicional 11). Embora alguns algoritmos tenham uma AUC de

50%, a maioria dos 33 algoritmos estavam acima de 80% (arquivo adicional 11). Deve-se notar que CanDrA, FATHMM-câncer e FATHMM-doença parecem ser específicos do gene, já que todas as mutações TP53 foram previstas como condutores. Suspeitamos que essas ferramentas fornecem intrinsecamente pontuações muito altas para mutações em genes de câncer bem conhecidos. Em termos de comparações baseadas em grupo (arquivo adicional 12), os algoritmos que usaram informações epigenômicas tiveram AUCs significativamente mais baixas do que outros (teste de soma de classificação de Wilcoxon, p = 0,02) algoritmos específicos do câncer mostraram-se marginalmente significativos do que os outros algoritmos (teste de soma de classificação de Wilcoxon, p = 0,08). Calculamos as precisões usando pontuações medianas como o limite para fazer previsões binárias para cada algoritmo e descobrimos que seu desempenho variava consideravelmente entre os algoritmos. CHASM foi o mais preciso (AUC média = 0,88) seguido por CTAT-câncer e CTAT-população (arquivo adicional 13). MetaSVM teve a menor precisão (média = 0,44). Vários algoritmos, incluindo Integrated_fitCons, LRT e SIFT, mostraram classificações muito desequilibradas de sensibilidade e especificidade (Fig. 4c), devido ao fato de que esses algoritmos fornecem as mesmas pontuações para a maioria das mutações neste conjunto de dados de referência. CHASM, CTAT-câncer, CTAT-população, VEST4 e DEOGEN2 tiveram boas sensibilidades e especificidades. Para os 15 algoritmos que receberam cortes recomendados em seus estudos originais, calculamos as mesmas cinco métricas de desempenho com base em seus cortes explícitos (consulte a seção “Métodos” Arquivo adicional 14). Estes resultados apresentam uma visão informativa de quão bem os algoritmos distinguem drivers de mutação TP53 putativos que tiveram um alto impacto na atividade de transcrição alvo dos passageiros.

Avaliação usando um conjunto de dados de referência com base nos efeitos de transativação de mutações TP53. uma Visão geral do processo de avaliação. A atividade transcricional específica do promotor foi medida para 8 alvos da proteína p53. Mutações com atividade de transcrição mediana ≤ 50% foram usadas como casos positivos e outras como casos negativos. b Gráfico ROC e pontuações AUC para os 10 algoritmos principais. c Sensibilidade e especificidade de 33 algoritmos. Barras de erro, média ± 2SD

Referência 4: Ensaios de formação de tumor in vivo

Um estudo recente empregou um ensaio de formação de tumor in vivo para avaliar sistematicamente a oncogenicidade de um grande número de alelos mutantes curados de tumores & gt 5000 [41]. No ensaio, as linhas de células HA1E-M que expressam de forma estável o alelo mutante individual foram injetadas em camundongos. Os alelos mutantes que formaram qualquer tumor & gt 500 mm 3 por 130 dias foram considerados mutações oncogênicas e, portanto, usados ​​como casos positivos em nosso estudo, e todos os outros alelos foram usados ​​como casos negativos (Fig. 5a). Com base na anotação funcional de tais 71 mutações (45 positivos vs. 26 negativos), avaliamos os 33 algoritmos. Cinco algoritmos, incluindo CHASM, PROVEAN, PrimateAI [28] e REVEL, tiveram uma pontuação AUC de & gt 70% (Fig. 5b Arquivo adicional 15), enquanto seis algoritmos foram & lt 60%. Algoritmos específicos para câncer não superaram outros (arquivo adicional 16), e não houve diferenças significativas para outras comparações baseadas em grupo também.

Avaliação usando um conjunto de dados de referência com base na formação de tumor in vivo. uma Visão geral do processo de avaliação. As linhas de células que expressam alelos mutantes com estabilidade foram injetadas em camundongos. Mutações que pudessem formar qualquer tumor maior que 500 mm 3 por 130 dias foram consideradas mutações funcionais e usadas como positivas, e outras mutações foram usadas como negativas. b Gráfico ROC e pontuações AUC para os 10 algoritmos principais. c Sensibilidade e especificidade de 33 algoritmos. Barras de erro, média ± 2SD

Usando as pontuações medianas como limiares, comparamos as previsões categóricas com os rótulos verdadeiros. PROVEAN teve a maior precisão (0,72), seguido por PrimateAI e CHASM (arquivo adicional 17). A maioria dos algoritmos tinha classificações equilibradas em sensibilidade e especificidade (Fig. 5c). No entanto, MutationTaster2, GenoCanyon e LRT foram os três primeiros em sensibilidade, mas tiveram as especificidades mais baixas. Isso ocorre porque esses três algoritmos deram as mesmas pontuações para a maioria das mutações nesta análise de benchmark. As saídas categóricas, fornecidas diretamente por 17 algoritmos como saídas, mostraram PROVEAN a maior precisão (precisão média = 0,71 Arquivo adicional 18). Os resultados nesta seção forneceram insights sobre como esses algoritmos foram capazes de diferenciar mutações de câncer com potencial de formação de tumor daquelas que provavelmente conduzem a formação de tumor.

Referência 5: Ensaios de viabilidade celular in vitro

Uma consequência funcional comum de uma mutação driver é conferir um crescimento preferencial ou vantagem de sobrevivência para a célula, e este efeito pode ser avaliado diretamente por ensaios celulares. Recentemente, desenvolvemos uma abordagem de biologia de sistemas para testar os efeitos funcionais das mutações em uma base individual usando um sistema in vitro [42]. Resumidamente, geramos clones de estrutura de leitura aberta com mutação de expressão em código de barras (ORF) por uma abordagem HiTMMoB [43] e, em seguida, testamos os efeitos de ORFs mutados em células Ba / F3 dependentes de IL-3 (uma linha celular de leucemia sensível, frequentemente usado na triagem de drogas) e células MCF10A dependentes de EGF e insulina (uma linha celular epitelial da mama não tumorigênica) em paralelo usando uma abordagem lentiviral, com contrapartes do tipo selvagem, bem como controles experimentais negativos e positivos. Com base nos efeitos sobre a viabilidade celular nos dois modelos de células, geramos uma anotação funcional de consenso para cada mutação testada com base em uma lógica de "porta OU". Mutações com efeitos detectáveis ​​(ou seja, ativação, inativação, inibição e não inibição) são consideradas como candidatos a motorista (casos positivos), enquanto aqueles sem um efeito notável (ou seja, neutro) são considerados passageiros. Usando essa abordagem, nosso estudo recente [42] relatou a anotação funcional de um grande número de mutações somáticas. Para aumentar a robustez de nossa avaliação, selecionamos outro

200 mutações do pool de mutações TCGA, realizaram os mesmos ensaios de viabilidade celular e obtiveram as anotações funcionais informativas de 164 mutações (arquivo adicional 19). Realizamos a avaliação do algoritmo usando três conjuntos de dados anotados em experimentos: (i) o conjunto de dados publicado (797 no total positivo vs. negativo: 321 vs. 476), (ii) o novo conjunto de dados (164 no total positivo vs. negativo: 55 vs. . 109), e (iii) o conjunto de dados combinado (961 no total positivo vs. negativo: 376 vs. 585) (Fig. 6a Arquivo adicional 19).

Avaliação usando um conjunto de dados de referência com base na viabilidade celular in vitro. uma Visão geral do processo de avaliação. Para cada mutação, realizamos ensaios de viabilidade celular em duas linhas celulares "informantes", Ba / F3 e MCF10A. As chamadas de consenso foram inferidas integrando os efeitos funcionais observados em Ba / F3 e MCF10A. Consideramos mutações ativadoras, inativadoras, inibitórias e não inibitórias como casos positivos, enquanto mutações neutras foram consideradas negativas. b As curvas ROC dos 33 algoritmos com base em um conjunto combinado de mutações publicadas (Ng et al. [42]) e mutações geradas recentemente neste estudo. c Gráficos de barras mostrando as pontuações AUC dos 33 algoritmos nos três conjuntos de dados: novos dados funcionais (vermelho), dados funcionais publicados (verde) e o conjunto combinado (azul). d Boxplots que mostram as diferenças de AUC entre dois grupos de algoritmos com ou sem determinados recursos. p os valores são baseados no teste de soma de postos de Wilcoxon. d Sensibilidade e especificidade de 33 algoritmos. Barras de erro, média ± 2SD

Descobrimos que o poder preditivo de diferentes algoritmos variava muito. Com base no conjunto de dados publicado, os três principais algoritmos foram CTAT-câncer (AUC = 77,0%), CHASM (AUC = 75,4%) e CanDrA (AUC = 72,9%) (Fig. 6b Arquivo adicional 20A). Com base no novo conjunto de dados, os três principais algoritmos foram PrimateAI (AUC = 81,4%), REVEL (AUC = 77,6%) e CTAT-câncer (AUC = 77,5%) (Fig. 6b Arquivo adicional 20B). Com base no conjunto de dados combinado, os algoritmos principais foram CTAT-câncer (AUC = 77,1%), CHASM (AUC = 75,7%) e PrimateAI (AUC = 74,0%), enquanto alguns algoritmos tiveram uma pontuação AUC perto de 0,5 (Fig 6b Arquivo adicional 20C). O novo conjunto de dados geralmente resultou em pontuações de AUC mais altas do que o conjunto de dados publicado, com as maiores diferenças observadas para doença FATHMM [13], MetaLR e MetaSVM (diferença de AUC = 0,21, 0,14 e 0,14, respectivamente). Essas diferenças podem ser devido às características intrínsecas dos conjuntos de mutação de referência.

Usamos o conjunto de dados combinado para análises downstream. Em comparações baseadas em grupo, os algoritmos específicos do câncer foram significativamente melhores do que os outros (AUC média de 72,0% vs. 63,5%, teste de soma de classificação de Wilcoxon, p = 7 × 10 −4). Os três principais algoritmos pela precisão geral foram CTAT-câncer (média = 0,70), PrimateAI (média = 0,70) e CHASM (média = 0,69) (arquivo adicional 21). Todos os três algoritmos estavam entre os melhores em termos de sensibilidade e especificidade (Fig. 6d). Para os 17 algoritmos com previsões categóricas padrão, calculamos as mesmas métricas usando o mesmo conjunto de benchmark (arquivo adicional 22). Os três algoritmos principais foram PrimateAI, PROVEAN e DEOGEN2. Como esses dados experimentais (especialmente os novos dados) foram gerados independentemente do desenvolvimento do algoritmo, esses resultados fornecem uma avaliação valiosa de quão bem os algoritmos identificam mutações condutoras com efeito na viabilidade celular in vitro.

Avaliação geral

Nas seções acima, avaliamos o desempenho de diferentes algoritmos usando cinco critérios diferentes. Cada benchmark usa uma fonte de informação independente para definir candidatos a mutação de motorista e passageiro. Os casos positivos e os casos negativos incluídos em cada conjunto de dados de referência são bastante distintos. Para os casos positivos, o padrão de agrupamento 3D, anotação OncoKB, transativação de mutações TP53, ensaios de formação de tumor in vivo e ensaios de viabilidade celular in vitro continham 56,1%, 68,1%, 46,4%, 15,6% e 54,5% de mutações únicas, respectivamente ( Fig. 7a). As porcentagens de negativos únicos foram ainda maiores (Fig. 7b).

Avaliação geral. uma, b O resumo sobreposto de positivo (uma) e casos negativos (b) nos cinco conjuntos de dados de referência. c Correlações das classificações de desempenho dos 33 algoritmos com base nos cinco conjuntos de dados de referência. d Um mapa de calor mostrando a classificação dos 33 algoritmos com base em cada conjunto de dados de referência. As classificações são rotuladas apenas para os cinco algoritmos principais. Vermelho, ranks mais altos, e branco, ranks mais baixos. Os recursos dos 33 algoritmos são mostrados na parte superior, indicados por cores (cinza, não e preto, sim)

As cinco análises de referência mostraram uma boa consistência geral: a maior correlação de Spearman de pontuações AUC foi observada entre o ensaio de viabilidade celular in vitro e os padrões de agrupamento 3D (Fig. 7c). Curiosamente, apesar da diversidade dos dados de benchmark usados, observamos uma grande convergência em alguns algoritmos de alto desempenho (Fig. 7d, os cinco algoritmos principais destacados para cada benchmark). CHASM e CTAT-cancer ficaram entre os 5 melhores por quatro vezes, mas não estavam entre os melhores no benchmark OncoKB e DEOGEN2 e PrimateAI ficaram entre os 5 melhores por três vezes, incluindo OncoKB. Alguns outros, incluindo VEST4, PROVEAN, MPC, CanDrA, REVEL, CATA-população e FATHMM-câncer, classificados entre os 5 primeiros em um ou dois benchmarks. Exceto para CTAT-câncer e REVEL que foram baseados exclusivamente em preditores publicados, os algoritmos de melhor desempenho empregam uma ampla gama de recursos, incluindo pontuações publicadas, contexto de sequência, recursos de proteína e conservação. Coletivamente, CHASM, CTAT-cancer, DEOGEN2 e PrimateAI podem representar a melhor escolha para prever as mutações do driver do câncer.


Análise em nível de população de mutações evoluídas subjacentes a melhorias na hemicelulose vegetal e fermentação de celulose por Clostridium phytofermentans

Fundo: A complexidade das paredes das células vegetais cria muitos desafios para a decomposição microbiana. Clostridium phytofermentans, uma bactéria anaeróbia isolada do solo da floresta, se decompõe diretamente e utiliza muitos carboidratos da parede celular da planta. O objetivo desta pesquisa é compreender as restrições nas taxas de decomposição de plantas por Clostridium phytofermentans e identificar os mecanismos moleculares que podem superar essas limitações.

Resultados: A evolução experimental por meio de transferências seriais repetidas durante o crescimento exponencial foi usada para selecionar genótipos de C. phytofermentans que crescem mais rapidamente em celobiose, celulose e xilana. Para identificar as mutações subjacentes, uma média de 13.600.000 leituras emparelhadas foram geradas por população, resultando em ∼300 vezes a cobertura de cada local no genoma. Mutações com frequências alélicas de 5% ou mais podem ser identificadas com confiança estatística. Muitas mutações estão em genes relacionados a carboidratos, incluindo as regiões promotoras de glicosídeos hidrolases e substituições de aminoácidos em proteínas de transporte ABC envolvidas na captação de carboidratos, sensores de transdução de sinal que detectam carboidratos específicos, proteínas que afetam a exportação de enzimas extracelulares e reguladores de especificidade desconhecida . A modelagem estrutural das proteínas do complexo transportador ABC sugere que mutações nesses genes podem alterar o reconhecimento de carboidratos por proteínas de ligação a substratos e a comunicação entre a face intercelular da transmembrana e as proteínas de ligação ATPase.

Conclusões: A evolução experimental foi eficaz na identificação de restrições moleculares na taxa de fermentação de hemicelulose e celulose e selecionada para ganho putativo de mutações de função que normalmente não aparecem em telas genéticas moleculares tradicionais. Os resultados revelam novas estratégias para desenvolver e desenvolver microrganismos para um crescimento mais rápido em carboidratos vegetais.

Declaração de conflito de interesse

Concorrência de interesses: Qteros não teve nenhum papel no desenho do estudo, coleta e análise de dados, decisão de publicar ou preparação do manuscrito. O financiamento da Qteros não alterou a adesão dos autores a todas as políticas PLOS ONE sobre o compartilhamento de dados e materiais.

Bonecos

Figura 1. Representação esquemática do adaptativo ...

Figura 1. Representação esquemática do processo de evolução adaptativa a partir de um fundador isogênico.

Figura 2. Crescimento, utilização de celobiose e etanol ...

Figura 2. Crescimento, utilização da celobiose e produção de etanol de populações adaptadas à celobiose e o fundador.

Figura 3. Crescimento e produção de etanol de ...

Figura 3. Crescimento e produção de etanol de populações adaptadas à xilana e o fundador.

Figura 4. Formação do principal produto de fermentação por ...

Figura 4. Formação do principal produto de fermentação por populações adaptadas à celulose e fundador após 10 dias ...

Figura 5. Genes e regiões intergênicas onde ...

Figura 5. Genes e regiões intergênicas onde múltiplas mutações foram detectadas.

Pontos de acesso de mutação que eram ...

Figura 6. Modelos de homologia sugerem que ...

Figura 6. Modelos de homologia sugerem que as mutações selecionadas em uma proteína de ligação ao transportador ABC ...

Figura 7. A modelagem de homologia sugere que um ...

Figura 7. A modelagem de homologia sugere que uma mutação selecionada em um domínio transmembrana do transportador ABC ...

Figura 8. Localização de SNPs em Cphy ...

Figura 8. Localização de SNPs em linhas adaptadas à celulose Cphy 3212.

Figura 9. Visão geral da detecção de carboidratos, sacarificação ...

Figura 9. Visão geral dos sistemas de detecção, sacarificação e transporte de carboidratos com a localização aproximada de ...


Conclusões

Oferecemos uma análise abrangente do genoma da mutagênese somática em células humanas. Nosso modelo de mutagênese basal oferece uma compreensão aprimorada da perda inevitável da integridade do genoma e das forças de proteção que neutralizam esse processo, incluindo o nicho de células-tronco e o reparo de DNA. A descoberta de exposições mutagênicas específicas do tipo de célula e consequências sobre o destino da célula no rim são uma prova de princípio que apóia a importância de compreender os processos mutacionais ativos em células humanas saudáveis ​​para entender o câncer. Os dados WGS de genomas individuais constituem uma ferramenta preciosa para atingir o objetivo, pois permitem a análise da porção não codificadora do genoma. No geral, nossa classificação abrangente de processos mutagênicos apresenta uma nova perspectiva para avanços clínicos na prevenção de câncer e doenças relacionadas à idade.


Conteúdo

Desde que as primeiras sequências da proteína insulina foram caracterizadas por Fred Sanger em 1951, os biólogos vêm tentando usar esse conhecimento para compreender a função das moléculas. [2] [3] Ele e as descobertas de seus colegas contribuíram para o sequenciamento bem-sucedido do primeiro genoma baseado em DNA. [4] O método usado neste estudo, que é chamado de “método Sanger” ou sequenciamento Sanger, foi um marco no sequenciamento de moléculas de fita longa, como o DNA. Esse método acabou sendo usado no projeto do genoma humano. [5] De acordo com Michael Levitt, a análise de sequência nasceu no período de 1969–1977. [6] In 1969 the analysis of sequences of transfer RNAs was used to infer residue interactions from correlated changes in the nucleotide sequences, giving rise to a model of the tRNA secondary structure. [7] In 1970, Saul B. Needleman and Christian D. Wunsch published the first computer algorithm for aligning two sequences. [8] Over this time, developments in obtaining nucleotide sequence improved greatly, leading to the publication of the first complete genome of a bacteriophage in 1977. [9] Robert Holley and his team in Cornell University were believed to be the first to sequence an RNA molecule. [10]


Reconhecimentos

This work was supported by NIH grants 3R01MH101814-02S1, HHSN26820100029C, and 5U01HG006569. We would like to thank the Geuvadis Consortium, the GTEx Consortium, the members of the Lappalainen lab, the former GSA group at the Broad, and the bioinformatics team of the New York Genome Center. The Genotype-Tissue Expression (GTEx) Project was supported by the Common Fund of the Office of the Director of the National Institutes of Health (commonfund.nih.gov/GTEx). Additional funds were provided by the NCI, NHGRI, NHLBI, NIDA, NIMH, and NINDS. Donors were enrolled at Biospecimen Source Sites funded by NCISAIC-Frederick, Inc. (SAIC-F) subcontracts to the National Disease Research Interchange (10XS170), Roswell Park Cancer Institute (10XS171), and Science Care, Inc. (X10S172). The Laboratory, Data Analysis, and Coordinating Center (LDACC) was funded through a contract (HHSN268201000029C) to The Broad Institute, Inc. Biorepository operations were funded through an SAIC-F subcontract to Van Andel Institute (10ST1035). Additional data repository and project management were provided by SAIC-F (HHSN261200800001E). The Brain Bank was supported by a supplement to University of Miami grant DA006227. Statistical Methods development grants were made to the University of Geneva (MH090941), the University of Chicago (MH090951 and MH090937), the University of North Carolina - Chapel Hill (MH090936) and to Harvard University (MH090948).


Molecular dynamics and mutational analysis of a channelopathy mutation in the IIS6 helix of Ca V 1.2

A channelopathy mutation in segment IIS6 of Ca(V)1.4 (I745T) has been shown to cause severe visual impairment by shifting the activation and inactivation curves to more hyperpolarized voltages and slowing activation and inactivation kinetics. A similar gating phenotype is caused by the corresponding mutation, I781T, in Ca(V)1.2 (midpoint of activation curve (V(0.5)) shifted to -37.7 +/- 1.2 mV). We show here that wild-type gating can partially be restored by a helix stabilizing rescue mutation N785A. V(0.5) of I781T/N785A (V(0.5) = -21.5 +/- 0.6 mV) was shifted back towards wild-type (V(0.5) = -9.9 +/- 1.1 mV). Homology models developed in our group (see accompanying article for details) were used to perform Molecular Dynamics-simulations (MD-simulations) on wild-type and mutant channels. Systematic changes in segment IIIS6 (M1187-F1194) and in helix IIS6 (N785-L786) were studied. The simulated structural changes in S6 segments of I781T/N785A were less pronounced than in I781T. A delicate balance between helix flexibility and stability enabling the formation of hydrophobic seals at the inner channel mouth appears to be important for wild-type Ca(V)1.2 gating. Our study illustrates that effects of mutations in the lower part of IIS6 may not be localized to the residue or even segment being mutated, but may affect conformations of interacting segments.

Bonecos

Structural details and location of…

Structural details and location of I781 hotspot in the open Ca v 1.2…

Backbone angles of wild-type and…

Backbone angles of wild-type and mutant channels. (A) Backbone angle (ψ) of position…

Structural consequences of mutations on…

Structural consequences of mutations on pore helix stability revealed by MD simulations. (A)…

Pore helices of I781T/N785A and…

Pore helices of I781T/N785A and I781T/N785G double mutants. (A) Ribbon presentation of the…

Changes in hydrophobic-hydrophobic helix interactions.…

Changes in hydrophobic-hydrophobic helix interactions. (A) Ribbon presentation of pore forming S6 segments…

Functional analysis of Ca V…

Functional analysis of Ca V 1.2 mutants in positions I781 and N785. Averaged…

Evidence for membrane localization of…

Evidence for membrane localization of mutant N785A. Transiently transfected ts-A201 cells expressing wild-type…


Computational modeling of protein mutant stability: analysis and optimization of statistical potentials and structural features reveal insights into prediction model development

Fundo: Understanding and predicting protein stability upon point mutations has wide-spread importance in molecular biology. Several prediction models have been developed in the past with various algorithms. Statistical potentials are one of the widely used algorithms for the prediction of changes in stability upon point mutations. Although the methods provide flexibility and the capability to develop an accurate and reliable prediction model, it can be achieved only by the right selection of the structural factors and optimization of their parameters for the statistical potentials. In this work, we have selected five atom classification systems and compared their efficiency for the development of amino acid atom potentials. Additionally, torsion angle potentials have been optimized to include the orientation of amino acids in such a way that altered backbone conformation in different secondary structural regions can be included for the prediction model. This study also elaborates the importance of classifying the mutations according to their solvent accessibility and secondary structure specificity. The prediction efficiency has been calculated individually for the mutations in different secondary structural regions and compared.

Resultados: Results show that, in addition to using an advanced atom description, stepwise regression and selection of atoms are necessary to avoid the redundancy in atom distribution and improve the reliability of the prediction model validation. Comparing to other atom classification models, Melo-Feytmans model shows better prediction efficiency by giving a high correlation of 0.85 between experimental and theoretical Delta Delta G with 84.06% of the mutations correctly predicted out of 1538 mutations. The theoretical Delta Delta G values for the mutations in partially buried beta-strands generated by the structural training dataset from PISCES gave a correlation of 0.84 without performing the Gaussian apodization of the torsion angle distribution. After the Gaussian apodization, the correlation increased to 0.92 and prediction accuracy increased from 80% to 88.89% respectively.

Conclusão: These findings were useful for the optimization of the Melo-Feytmans atom classification system and implementing them to develop the statistical potentials. It was also significant that the prediction efficiency of mutations in the partially buried beta-strands improves with the help of Gaussian apodization of the torsion angle distribution. All these comparisons and optimization techniques demonstrate their advantages as well as the restrictions for the development of the prediction model. These findings will be quite helpful not only for the protein stability prediction, but also for various structure solutions in future.


Assista o vídeo: analise estatística - Correlação (Dezembro 2022).