Em formação

Transferindo Odds Ratios para outro SNP com LD alto?

Transferindo Odds Ratios para outro SNP com LD alto?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Tenho Odds Ratios (OR) para um alelo de risco específico em um SNP (vou chamá-lo de SNP1). Esse SNP infelizmente não foi genotipado em meus dados, mas não quero jogá-lo fora. Eu pesquisei o SNP no LDLink e outro SNP (vou chamá-lo de SNP2) está em alto desequilíbrio de ligação com SNP1 (R2 = 0,94).

Como transfiro o OR do alelo SNP1 para o alelo SNP2 correspondente?

Eu sei que é algo semelhante a log (OR) * sqrt (R2), mas não tenho certeza. Alguém poderia esclarecer se esta é a fórmula correta?


A assinatura genômica de variantes associadas ao traço

Estudos de associação de todo o genoma identificaram milhares de variantes SNP associadas a centenas de fenótipos. Para a maioria das associações, as variantes causais e os mecanismos moleculares subjacentes à patogênese permanecem desconhecidos. A exploração das anotações funcionais subjacentes de loci associados a traços lançou alguma luz sobre seus papéis potenciais na patogênese. No entanto, existem algumas deficiências dos métodos usados ​​até o momento, que podem prejudicar os esforços para priorizar as variantes para análises futuras. Aqui, apresentamos e aplicamos novos métodos para identificar rigorosamente as classes de anotação que mostram o enriquecimento ou esgotamento das variantes associadas ao traço, levando em consideração as associações subjacentes devido à co-localização de diferentes anotações funcionais e desequilíbrio de ligação.

Resultados

Avaliamos o enriquecimento e o esgotamento de variantes em classes de anotação disponíveis publicamente, como regiões gênicas, características regulatórias, medidas de conservação e padrões de modificações de histonas. Usamos a regressão logística para construir um modelo multivariado que identificou as anotações funcionais mais influentes para o status de associação de características de variantes significativas do genoma. SNPs associados a todas as anotações enriquecidas foram 8 vezes mais prováveis ​​de serem variantes associadas a características do que SNPs anotados com nenhuma delas. As anotações associadas ao estado da cromatina juntamente com o conhecimento prévio da existência de uma expressão local QTL (eQTL) foram os fatores mais importantes no modelo final de regressão logística. Surpreendentemente, apesar do uso difundido de conservação evolutiva para priorizar variantes para estudo, encontramos apenas um enriquecimento modesto de SNPs associados a características em regiões conservadas.

Conclusão

Estabelecemos odds ratios de anotações funcionais com maior probabilidade de conter SNPs significativamente associados a características, com o objetivo de priorizar acertos de GWAS para estudos posteriores. Além disso, estimamos a influência relativa e combinada das diferentes anotações genômicas, o que pode facilitar métodos de priorização futuros, adicionando informações substanciais.


Introdução

O câncer de mama é uma doença parcialmente hereditária. Mutações em vários genes de alta penetrância, incluindo BRCA1 [1, 2], BRCA2 [3] e outros [4] estão associados a alto risco de câncer de mama entre as portadoras e explicam uma fração da herdabilidade. Estudos de associação do genoma (GWAS) identificaram mais de 180 polimorfismos de nucleotídeo único (SNPs) comuns associados ao risco de câncer de mama [5,6,7,8,9,10,11,12,13,14,15,16, 17,18,19,20]. A maioria desses SNPs foi identificada em populações de ancestrais europeus e do Leste Asiático, embora alguns SNPs únicos tenham sido identificados em populações afro-americanas [21] e em populações latinas [22, 23].

Vários estudos GWAS identificaram SNPs em 6q25 que estão associados ao risco de câncer de mama [13, 18, 20, 23,24,25,26,27] e densidade mamográfica [23, 27,28,29,30]. O relatório inicial identificou um SNP na região intergênica entre ESR1 e CDCC170 em uma população do Leste Asiático [24]. O locus foi então confirmado em outras populações e várias variantes adicionais foram identificadas [11, 18, 25, 26, 31]. Mais recentemente, um mapeamento preciso e abordagem funcional neste locus identificou cinco variantes comuns distintas associadas ao risco de diferentes subtipos de câncer de mama [27].

As populações hispânicas / latinas são o segundo maior grupo étnico nos EUA [32] e ainda não foram estudadas na GWAS [33]. Os latinos são uma população de ascendência mista com contribuições ancestrais europeias, indígenas americanas e africanas [34,35,36,37]. Como não há grandes estudos sobre o câncer de mama em populações indígenas americanas, estudos em latinos podem identificar novas variantes associadas ao câncer de mama que são exclusivas ou substancialmente mais comuns nessa população. Anteriormente, usamos uma abordagem de mapeamento de mistura para pesquisar loci de suscetibilidade ao câncer de mama nas latinas e identificamos uma grande região em 6q25 onde a ascendência indígena americana foi associada com a diminuição do risco de câncer de mama [22]. Posteriormente, identificamos um SNP (rs140068132) que era comum (frequência de alelo menor

0.1) apenas em latinas com ascendência indígena americana e foi associado com risco substancialmente menor de câncer de mama, particularmente câncer de mama negativo para receptor de estrogênio (RE), e com densidade mamográfica mais baixa [23]. No entanto, a variante que identificamos não explica completamente o risco associado à ancestralidade específica do locus em 6q25 nas Latinas, sugerindo que outras variantes podem ser responsáveis ​​por esse risco. Decidimos mapear e identificar variantes adicionais em 6q25 associadas ao risco de câncer de mama entre as latinas.


Resultados

Visão geral dos métodos

Deixar y ser o risco de uma doença na escala logit, x ser um fator de risco em unidades de desvio padrão (DP) e z ser o genótipo de um SNP (codificado como 0, 1 ou 2). A estimativa de MR do efeito causal do fator de risco na doença 9 é ( hat b_ = hat b_/ hat b_) , Onde b zy é o efeito de z sobre y na escala logit (logaritmo da razão de chances, logOR), b zx é o efeito de z sobre x, e b xy é o efeito de x sobre y livre de confusão de fatores não genéticos (observe que b xy pode ser interpretado aproximadamente como logOR veja abaixo). SMR é uma abordagem de MR flexível e poderosa que é capaz de estimar e testar a significância de b xy usando as estimativas de b zx e b zy de amostras independentes 17. Se houver vários SNPs independentes (ou quase independentes) associados a x e o efeito de x sobre y é causal, então todo o x-SnPs associados terão um efeito sobre y Através dos x (Fig. 1a). Nesse caso, b xy em qualquer um dos xespera-se que SNPs associados sejam idênticos na ausência de pleiotropia 13,16,22, pois todos os efeitos SNP sobre y são mediados por x (Fig. 1b). Portanto, maior poder estatístico pode ser alcançado integrando as estimativas de b xy de todo o x-SnPs associados usando uma abordagem de mínimos quadrados generalizados (GLS) (métodos). O método GSMR implementa essencialmente a análise SMR para cada instrumento SNP individualmente e, em seguida, integra o b xy estimativas de todos os instrumentos SNP por GLS, contabilizando a variação de amostragem em ambos ( hat b_) e ( hat b_) para cada SNP e o LD entre SNPs. É importante observar que, de acordo com uma das premissas básicas do MR 9, apenas os SNPs fortemente associados ao fator de risco devem ser usados ​​como instrumentos para análises de MR incluindo o GSMR. Demonstramos usando simulações (Nota Complementar 1) que, se usarmos SNPs independentes que estão associados com a exposição em P & lt 5 × 10 −8, não há inflação nas estatísticas de teste do GSMR sob a hipótese nula de que b xy = 0 (Suplementar Fig. 1a), que a estimativa de b xy pelo GSMR é imparcial sob a hipótese alternativa de que b xy≠ 0 (Tabela Suplementar 1), e que b xy aproximadamente igual a logOR (onde OR é o efeito do fator de risco na doença em estudo observacional sem confusão) (Fig. 2 suplementar). O GSMR contabiliza LD se os instrumentos SNP não forem totalmente independentes. Isso é demonstrado pela simulação de que na presença de LD a estatística de teste está bem calibrada sob o valor nulo (Fig. Suplementar 1b) e que a estimativa de b xy é imparcial sob a alternativa (Tabela Suplementar 1). Em comparação com os métodos existentes que usam dados resumidos para fazer inferência causal 12,13,16,18, o GSMR é mais poderoso, conforme demonstrado pela simulação (Fig. Suplementar 3) porque o GSMR é responsável pela variação de amostragem em ambos ( hat b_) e ( hat b_) enquanto as outras abordagens assumem que b zx é estimado sem erros.

Aproveitando vários instrumentos genéticos independentes (z) para testar a causalidade. Mostrado no painel uma é um exemplo esquemático de que, se uma exposição (x) tem um efeito sobre um resultado (y), quaisquer instrumentos (SNPs) associados causalmente com x terá um efeito sobre y, e o efeito de x sobre y (b xy) em qualquer um dos SNPs deve ser idêntico. Isso é ainda ilustrado em um exemplo de brinquedo no painel b que sob um modelo causal, para os SNPs associados com x, o efeito estimado de z sobre y ( ( hat b_)) deve ser linearmente proporcional ao efeito estimado de z sobre x ( ( hat b_)) e a razão entre os dois é uma estimativa do efeito de mediação de x sobre y, ou seja, ( hat b_ = hat b_/ hat b_)

A pleiotropia é um importante fator de confusão potencial que pode enviesar a estimativa e frequentemente resulta em uma estatística de teste inflada em uma análise de RM 9,10,13,19. Propomos um método (denominado HEIDI-outlier) para detectar SNPs pleiotrópicos nos quais as estimativas de b xy são significativamente diferentes do esperado sob um modelo causal e remova-os da análise GSMR (Métodos). O poder de detectar um SNP pleiotrópico depende dos tamanhos de amostra dos conjuntos de dados GWAS e do desvio de ( hat b_) estimado no SNP pleiotrópico do modelo causal. Demonstramos por simulação com base em um modelo causal com pleiotropia que o poder do HEIDI-outlier é alto, especialmente quando os efeitos pleiotrópicos são grandes (Suplementar Fig. 4a). Certamente existem outliers pleiotrópicos (por exemplo, aqueles com efeitos muito pequenos) não detectados por HEIDI-outlier. No entanto, esses efeitos pleiotrópicos não detectados não parecem distorcer a estimativa do GSMR (Fig. Suplementar 4b), em contraste com um pequeno viés na estimativa da regressão de Egger (MR-Egger), que é considerada livre de confusão da pleiotropia 13. Nossos resultados de simulação também mostram que a estimativa GSMR de b xy não é significativamente diferente de zero em um modelo pleiotrópico sem efeito causal na presença ou ausência de LD (Tabela Suplementar 2).

Nós ainda desenvolvemos um método aproximado (chamado mtCOJO URLs) que requer apenas dados resumidos para conduzir uma análise GWAS para um fenótipo condicional a vários fenótipos covariáveis ​​(Métodos). O objetivo do desenvolvimento deste método é estimar o efeito de um fator de risco na doença, ajustando para outros fatores de risco (Métodos Nota complementar 2 Suplementar Fig. 5), o que ajuda a inferir se o efeito marginal do fator de risco na doença depende de outros fatores de risco e para prever o efeito conjunto de vários fatores de risco sobre a doença. É de notar que mtCOJO é livre de viés devido ao efeito ambiental ou genético compartilhado entre o fenótipo e a covariável, conforme descrito em Aschard et al. 23 (Fig. 6 complementar).

Os efeitos de sete fatores de risco para a saúde em doenças comuns

Aplicamos os métodos para testar associações causais entre sete fatores de risco à saúde e doenças comuns usando dados de vários grandes estudos. Os fatores de risco são IMC, relação cintura-quadril ajustada para IMC (WHRadjBMI), colesterol HDL (HDL-c), LDL-c, triglicerídeos (TG), pressão arterial sistólica (PAS) e pressão arterial diastólica (PAD) . Escolhemos esses fatores de risco devido à disponibilidade de dados GWAS em nível de resumo de grandes amostras (n = 108.039–322.154) (Tabela complementar 3). Acessamos dados de IMC, WHRadjBMI, HDL-c, LDL-c e TG do GWAS publicado 24,25,26, e dados de SBP e DBP do subgrupo do UK Biobank (UKB) 27 com dados genotipados divulgados em 2015. Nós SNPs selecionados em um nível de significância de todo o genoma (PGWAS & lt 5 × 10 –8) usando o algoritmo de aglutinação (r 2 limiar = 0,05 e tamanho da janela = 1 Mb) implementado no PLINK 28 (Métodos). Observe que o método GSMR é responsável pelo LD restante não removido pela análise de agrupamento. Havia m = 84, 43, 159, 141, 101, 28 e 29 SNPs para IMC, WHRadjBMI, HDL-c, LDL-c, TG, SBP e DBP, respectivamente, após aglutinação. Esses instrumentos SNP são quase independentes, conforme demonstrado pela distribuição das pontuações LD calculadas a partir dos instrumentos para cada característica (Fig. 7 suplementar). Incluímos apenas na análise os SNPs quase independentes para a facilidade de comparação direta dos resultados do GSMR com aqueles de outros métodos que não levam em conta LD (por exemplo, MR-Egger). O resultado da nossa simulação sugere que o ganho de potência ao incluir SNPs no LD é limitado (Fig. 8 suplementar). Além disso, embora a abordagem GSMR seja responsável pelo LD, a inclusão de muitos SNPs em LD moderado a alto frequentemente resulta no V matriz sendo não invertível (Métodos).

Os dados GWAS de nível resumido para as doenças foram calculados a partir de dois estudos independentes baseados na comunidade com genótipos SNP de nível individual, ou seja, a Pesquisa de Epidemiologia Genética sobre Saúde e Envelhecimento do Adulto 29 (GERA) (n = 53.991) e o subgrupo de UKB 27 (n = 108.039). Incluímos na análise 22 doenças comuns, conforme definido nos dados do GERA, e adicionamos um fenótipo adicional relacionado à comorbidade, contando o número de doenças que afetam cada indivíduo (ou seja, contagem de doenças) como um índice bruto para medir o estado geral de saúde de um individual (Tabela Complementar 4). Realizamos análises de associação de todo o genoma dos 23 fenótipos da doença no GERA e no UKB separadamente (Métodos). Avaliamos a heterogeneidade genética de uma doença entre as duas coortes por uma correlação genética (rg) análise usando a abordagem de regressão de pontuação LD bivariada (LDSC) 30. As estimativas de rg em todas as doenças variou de 0,75 a 0,99 com uma média de 0,91 (Tabela complementar 4), sugerindo fortes sobreposições genéticas para as doenças entre as duas coortes. Portanto, meta-analisamos os dados das duas coortes para maximizar o poder usando a abordagem de meta-análise de variância inversa 31. Porque OR está livre de viés de averiguação em um estudo de caso-controle, o tamanho do efeito (logOR) de um SNP na doença na população em geral pode ser aproximado por aquele de um estudo de caso-controle assumindo essa doença no estudo de caso-controle é definido de forma semelhante à da população em geral. Portanto, o GSMR pode ser aplicado a dados com efeitos SNP sobre o fator de risco de um estudo de base populacional e efeitos SNP sobre a doença de um estudo de caso-controle verificado, e o efeito causal estimado do fator de risco sobre a doença deve ser interpretado como aquele na população em geral. Portanto, incluímos nos dados de resumo da análise para 11 doenças de estudos de caso-controle publicados (n = 18.759–184.305) (Tabela complementar 5). Os efeitos SNP estimados e erros padrão (SE) para degeneração macular relacionada à idade (AMD) não estavam disponíveis nos dados resumidos 32, que foram estimados a partir de z-estatísticas usando uma abordagem aproximada (Nota complementar 3).

Aplicamos a abordagem HEIDI-outlier para remover SNPs que mostraram efeitos pleiotrópicos tanto no fator de risco quanto na doença, significativamente desviados de um modelo causal (Métodos). As correlações LD entre SNPs de pares foram estimadas a partir dos dados de Risco de Aterosclerose em Comunidades (ARIC) 33 (n = 7703 indivíduos não relacionados) imputados a 1000 Genomas (1000G) 34. Usando os grandes conjuntos de dados descritos acima, identificamos a partir de análises GSMR 45 associações causais significativas entre fatores de risco e doenças (Dados Suplementares 1 Fig. 2). Controlamos a taxa de erro familiar (FWER) em 0,05 pela correção de Bonferroni para 231 testes (PGSMR limiar = 2,2 × 10 −4). Para comparação de métodos, também realizamos as análises com MR-Egger 13 e os métodos de Pickrell et al. 16 (Dados Complementares 2).

Associações causais putativas entre sete fatores de risco modificáveis ​​e doenças comuns. São mostrados os resultados das análises GSMR com dados de doenças uma a partir de uma meta-análise de dois estudos baseados na comunidade (GERA e UKB) e b de estudos independentes de caso-controle publicados. As cores representam os tamanhos de efeito (medidos por odds ratio, ORs) de fatores de risco sobre doenças, vermelho para efeitos de risco e azul para efeitos de proteção. Os efeitos significativos após a correção para 231 testes (PGSMR & lt 2,2 × 10 −4) são rotulados com ORs (P-valores). Os efeitos nominalmente significativos (PGSMR & lt 0,05) são identificados com “*”

Obesidade e doenças comuns

Os resultados das análises dos dados baseados na comunidade mostraram que o IMC teve efeitos de risco em T2D (odds ratio, OR = 3,29), doença hipertensiva (OR = 1,85), dermatofitose (ou seja, tinha) (OR = 1,67), doenças vasculares periféricas ( PVD) (OR = 1,59), osteoartrite (OR = 1,50), dislipidemia (OR = 1,37), asma (OR = 1,35) e DCV (OR = 1,30). Os efeitos de risco do IMC em DM2, DCV e doença hipertensiva foram confirmados por RCT 35 (Dados Suplementares 1), fornecendo validação de prova de princípio. A interpretação de OR(IMC → T2D) = 3,29 é aquela pessoa cujo IMC é 1 DP (DP = 3,98 para o IMC em homens europeus correspondendo a

(

8% nos EUA). É interessante notar que a estimativa de b xy no TCF7L2 locus fortemente desviado daqueles em outros loci (Fig. 3), sugerindo que o TCF7L2 SNP tem efeitos pleotrópicos no IMC e T2D. o TCF7L2 O SNP foi detectado como um outlier pelo método HEIDI-outlier e removido da análise GSMR.Além disso, o efeito de risco do IMC na asma está de acordo com o resultado de um estudo recente de RM (usando um escore de alelo genético ponderado como instrumento) de que IMC mais alto aumenta o risco de asma infantil 36. Além disso, identificamos um efeito protetor do IMC contra a osteoporose (OR = 0,68), consistente com as associações observadas em estudos anteriores 37,38. O efeito de risco estimado do IMC em T2D nos dados da comunidade (OR = 3,29) foi semelhante ao dos dados de caso-controle (OR = 3,12, Fig. 2b e Dados Suplementares 1). Também observamos um forte efeito de risco do IMC na doença arterial coronariana (DAC) nos dados de caso-controle (OR = 1,70), em linha com o efeito de risco do IMC nas DCV (OR = 1,30) nos dados da comunidade.

Análise GSMR para testar o efeito do IMC em T2D com e sem filtragem dos outliers pleiotrópicos. Mostrado em uma e b são os gráficos de tamanhos de efeito e associação P-valores de todos os instrumentos genéticos de GWAS para IMC vs. aqueles para T2D. Mostrado em c é o enredo de b xy vs. GWAS P-valor do IMC em cada variante genética. Mostrado em d, e, e f são os gráficos para os instrumentos após os outliers pleiotrópicos serem removidos pela abordagem HEIDI-outlier (consulte Métodos para obter detalhes da abordagem HEIDI-outlier). Barras de erro em uma e d representam os erros padrão. As linhas tracejadas em b e e representam o limite GWAS P-valor de 5 × 10 −8. As coordenadas em b, c, e, e f são truncados em 50 para melhor apresentação gráfica

Excesso de peso é um fator de risco para resultados gerais de saúde, conforme indicado por seu efeito de risco na contagem de doenças ( ( hat b_ = 0,41 )) nos dados da comunidade. A questão é então como b xy pois a contagem de doenças deve ser interpretada. Mostramos na Fig. 9 suplementar que a estimativa de b xy para o estado da doença (um fenótipo dicotômico para indicar se um indivíduo é afetado por qualquer uma das 22 doenças) foi muito semelhante ao da contagem de doenças. Embora o status da doença e a contagem de doenças sejam dois fenótipos distintos e a análise da contagem de doenças seja mais poderosa, para facilitar a interpretação, b xy para a contagem de doenças pode ser aproximadamente interpretado como logOR para o status da doença. Portanto, ( hat b_ = 0,41 ) para a contagem de doenças é aproximadamente equivalente a OR = 1,51 para o estado da doença, o que significa que um aumento do IMC em 1 DP aumentará a probabilidade de ser afetado por qualquer uma das 22 doenças por um fator de

1,5. Além disso, descobrimos que os efeitos de WHRadjBMI e IMC sobre a doença foram amplamente concordantes (Fig. 10a Suplementar, Nota Suplementar 4).

Níveis de colesterol sérico e doenças comuns

O LDL-c é um conhecido fator de risco causal para DAC, confirmado por ECR 6,7. Descobrimos que o LDL-c teve um efeito de risco significativo sobre dislipidemia (OR = 3,36) e DCV (OR = 1,22) nos dados da comunidade, e CAD (OR = 1,50) nos dados de caso-controle (Fig. 2). TG teve um efeito de risco significativo sobre dislipidemia (OR = 2,09), doença hipertensiva (OR = 1,24) e DCV (OR = 1,14) nos dados da comunidade e DAC (OR = 1,33) nos dados de caso-controle (Fig. 2 ) Os efeitos do TG nas doenças foram amplamente consistentes com os do LDL-c (Suplementar Fig. 10b), apesar da modesta correlação fenotípica entre as duas características (r p = 0,19 nos dados ARIC). Tanto o LDL quanto o TG tiveram efeitos de risco significativos na contagem de doenças nos dados da comunidade (Fig. 2).

Houve outro exemplo em que a abordagem HEIDI-outlier detectou fortes efeitos devido à pleiotropia. O efeito do LDL-c na doença de Alzheimer (DA) foi altamente significativo sem filtragem de outlier HEIDI (OR = 1,35 e PGSMR = 7,8 × 10 −16) (Fig. 4). A análise de outlier HEIDI sinalizou 16 SNPs, 12 dos quais estão localizados no APOE região do gene (LD r 2 entre esses SNPs & lt 0,05) e todos tiveram efeitos altamente significativos tanto no LDL-c quanto no AD. A exclusão desses SNPs torna o teste de GSMR mais conservador porque se houver uma relação causal verdadeira de LDL-c aumentado com AD, então o teste de GSMR deve permanecer significativo com base na evidência de outros SNPs associados a LDL-c. Na verdade, após a remoção dos 16 SNPs pleiotrópicos, o efeito estimado do LDL-c na DA não foi significativo (OR = 1,03, PGSMR = 0,47). No entanto, os múltiplos sinais pleiotrópicos agrupados no APOE locus merecem uma investigação mais aprofundada (Fig. 11 suplementar).

Análise GSMR para testar o efeito do LDL-c na doença de Alzheimer (DA) com e sem outliers pleiotrópicos. Mostrado em uma e b são os gráficos de tamanhos de efeito e associação P-valores do conjunto original de instrumentos de GWAS para LDL-c vs. aqueles para AD. Mostrado em c é o enredo de b xy vs. GWAS P-valor de LDL-c em cada variante genética. Mostrado em d, e, e f são os gráficos para os instrumentos após os outliers pleiotrópicos serem removidos pela abordagem HEIDI-outlier (consulte Métodos para obter detalhes da abordagem HEIDI-outlier). Barras de erro em uma e d representam os erros padrão. As linhas tracejadas em b e e representam o limite GWAS P-valor de 5 × 10 −8. As coordenadas em b, c, e, e f são truncados em 50 para melhor apresentação gráfica

Identificamos um efeito protetor significativo de LDL-c contra T2D (OR = 0,84, PGSMR = 1,1 × 10 −4) nos dados de caso-controle, o que pode explicar a observação de um estudo anterior de que a redução do LDL-c usando a terapia com estatina está associada a um risco ligeiramente aumentado de T2D 39. A estimativa não foi significativa nos dados da comunidade (provavelmente devido à falta de energia), mas em uma direção consistente (OR = 0,95, PGSMR = 0,08). Dada a forte correlação genética entre os dois conjuntos de dados T2D (rg = 0,98, SE = 0,062) conforme estimado pela análise bivariada LDSC 30, nós meta-analisamos os dois conjuntos de dados usando a abordagem de variância inversa e realizamos a análise GSMR para reestimar o efeito do LDL-c em T2D usando o Dados de meta-análise T2D. O tamanho do efeito foi altamente significativo (OR = 0,88, PGSMR = 3.0 × 10 −7 ).

As consequências do HDL-c nos resultados de saúde são controversas 40. Estudos observacionais sugerem que o HDL-c está associado a um risco reduzido para DAC 41, enquanto estudos genéticos mostram que o efeito do HDL-c sobre DAC não é condicional significativa ao LDL-c e TG 20,21. Descobrimos que HDL-c teve efeitos protetores contra T2D (OR = 0,83), doença hipertensiva (OR = 0,88), DCV (OR = 0,88) e contagem de doenças (OR = 0,94) nos dados da comunidade, e T2D (OR = 0,81 ) e CAD (OR = 0,84) nos dados de caso-controle. No entanto, nenhum desses efeitos permaneceu condicionante significativo sobre os outros fatores de risco, sugerindo que os efeitos marginais do HDL-c nas doenças são dependentes dos outros fatores de risco (veja abaixo os detalhes dos resultados das análises condicionais). O efeito do HDL-c na dislipidemia é negativo ( ( hat b_ = - 0,21 ) e OR = 0,81), o que é óbvio porque um dos critérios diagnósticos para dislipidemia é um nível anormalmente baixo de HDL-c. Além disso, houve um efeito de risco altamente significativo (OR = 1,36) de HDL-c na degeneração macular relacionada à idade (DMRI) nos dados de caso-controle, consistente com o resultado de um estudo recente de RM 42. As associações entre lipídios e DMRI são controversas e os resultados de diferentes estudos observacionais são inconsistentes 43. Nossos resultados apóiam as observações de que o HDL-c elevado está associado ao aumento do risco de DMRI 43,44,45. Deve-se notar que LDL-c e TG também pareceram estar associados à DMRI antes da filtragem de valores discrepantes HEIDI, mas os efeitos não foram significativos após a filtragem de valores discrepantes HEIDI (Suplementar Fig. 12), implicando que a associação observada entre LDL-c ( ou TG) e DMRI em estudos epidemiológicos 43 pode ser devido à pleiotropia.

Pressão arterial e doenças comuns

Identificamos efeitos de risco significativos da PAS em doenças hipertensivas (OR = 4,38), dislipidemia (OR = 1,50), DCV (OR = 1,40) e contagem de doenças (OR = 1,43) nos dados da comunidade, e DAC (OR = 1,73) em os dados de controle de caso. Os resultados para PAS e PAD foram altamente concordantes (Fig. 2 Fig. 10c suplementar). O efeito de risco da pressão arterial na DAC é conhecido por ser causal, conforme confirmado por ECR 46,47. Observe que o poder da análise GSMR para a pressão arterial provavelmente seria limitado, dado o pequeno número de instrumentos usados ​​(m & lt 30).

Efeitos condicionais dos fatores de risco nas doenças

Identificamos (a partir das análises acima) 45 associações causais significativas entre fatores de risco à saúde e doenças (Fig. 2). Como os fatores de risco não são independentes, procuramos ainda estimar o efeito de um fator de risco no ajuste de uma doença para outros fatores de risco. Para fazer isso, primeiro investigamos as associações causais entre os fatores de risco. Detectamos 19 associações significativas pela análise GSMR entre os 7 fatores de risco em um FWER de 0,05 (PGSMR & lt 1,2 × 10 −3) (Fig. 13 complementar). Por exemplo, o IMC teve um efeito negativo significativo no HDL-c ( ( hat b_ = - 0,29 )), e efeitos positivos no TG ( ( hat b_ = 0,28 )) e DBP ( ( hat b_ = 0.15) ).

Desenvolvemos uma abordagem chamada mtCOJO (URLs de análise condicional e conjunta com base em multitraços) para realizar uma análise GWAS para um condicionamento de características em outras características usando dados resumidos de GWAS (Métodos Suplementares Fig. 5). Em seguida, executamos novamente a análise GSMR usando os dados de resumo GWAS ajustados da análise mtCOJO (métodos). A análise mtCOJO requer as estimativas de b xy dos fatores de risco covariáveis ​​no fator de risco alvo e doença, rg entre os fatores de risco covariáveis, herdabilidade baseada em SNP ( (h _ << mathrm>> ^ 2 )) para os fatores de risco covariáveis ​​e covariância de amostragem entre os efeitos SNP estimados a partir de amostras potencialmente sobrepostas, todas as quais podem ser calculadas a partir de dados resumidos (Métodos, Tabelas Suplementares 7–10). Dados os resultados GSMR semelhantes entre IMC e WHRadjBMI e entre PAS e PAD (Fig. 10 suplementar), não incluímos PAD e WHRadjBMI na análise condicional para evitar correção excessiva.

Os resultados das análises condicionais foram amplamente consistentes com os das análises não condicionais (Fig. 5 Tabela Suplementar 11), sugerindo que a maioria dos efeitos marginais são independentes dos outros fatores de risco analisados ​​neste estudo. Condicionado sobre os outros fatores de risco, PAS, LDL-c e IMC foram os três principais fatores de risco para DAC, o IMC ainda era um grande fator de risco para T2D e o efeito protetor do LDL-c em T2D permaneceu praticamente inalterado (Fig. Suplementar 14 ) Mostramos acima que as análises de GSMR identificaram efeitos protetores significativos de HDL-c contra DCV, DAC, T2D e hipertensão (Fig. 15 suplementar). No entanto, todos os efeitos tornaram-se condicionantes não significativos nas covariáveis ​​(ou seja, IMC, LDL-c, TG e SBP), sugerindo que os efeitos marginais do HDL-c nas doenças não são independentes das covariáveis ​​devido ao bidirecional associações causais entre HDL-c e os outros fatores de risco, conforme ilustrado na Fig. Suplementar 13. É difícil distinguir se os efeitos do HDL-c nas doenças são mediados ou impulsionados pelas covariáveis ​​(Fig. Suplementar 16) por causa do complicada rede de associação entre fatores de risco e doenças (Fig. 14 complementar). No entanto, pode haver uma exceção, ou seja, a associação entre HDL-c e DMRI, pois HDL-c é o único risco que apresentou efeito significativo na DMRI (OR = 1,36 com PGSMR = 5,9 × 10 −16) e o tamanho do efeito permaneceu praticamente inalterado e condicionamento altamente significativo nas covariáveis ​​(OR condicional = 1,36 com PGSMR = 5,1 × 10 −13). Concluímos que o HDL-c é provavelmente um fator de risco direto para DMRI e o tamanho do efeito é independente dos fatores de risco covariáveis ​​analisados ​​neste estudo.

GSMR vs. GSMR condicional. São mostrados os resultados das análises GSMR comparados com aqueles das análises GSMR condicionais. Na análise de GSMR condicional, o tamanho do efeito de cada fator de risco na doença foi estimado condicionando os outros fatores de risco (consulte Métodos para obter detalhes do método condicional). “Comunidade”: dados GWAS da doença de uma meta-análise dos dois estudos baseados na comunidade. “Caso-controle”: dados GWAS da doença de estudos independentes publicados caso-controle. Em cinza estão as associações que não passam no P-valor limite 2,2 × 10 −4 na análise condicional

Dadas as estimativas de análises condicionais de GSMR (Fig. 5 Tabela Suplementar 11), poderíamos usar uma abordagem aproximada para calcular o efeito agregado de vários fatores de risco em uma doença, ou seja, ( log left (<< mathrm>> right) = < sum> <[x_i log left (<< mathrm> _i> right)]> ). Aqui está um exemplo hipotético. Se todos os fatores de risco aumentarem em 1 DP (ou seja,

19 mm Hg para PAS), teríamos um risco aumentado de

2,3 vezes para T2D (e 1,01-0,17), e 4,5 vezes para CAD (e 0.41+0.47+0.14+0.48 ).

Efeitos de outros fenótipos em doenças

Tendo identificado uma série de associações causais entre sete fatores de risco modificáveis ​​e doenças comuns, procuramos testar se havia associações causais entre outros fenótipos e doenças. Incluímos na análise duas características, altura 48 e anos de escolaridade 49 (EduYears), para as quais havia um grande número de instrumentos devido ao grande tamanho da amostra de GWAS. Selecionamos 811 e 119 SNPs quase independentes de significância do genoma (GWS) para altura e EduYears, respectivamente, usando a análise de agrupamento (Métodos). O limiar PGSMR após a correção de Bonferroni foi de 7,6 × 10 −4 corrigindo para 66 testes. O grande número de instrumentos para altura nos deu potência suficiente para detectar um pequeno efeito (Fig. 6 Tabela complementar 12 Nota complementar 5).

Efeitos da altura e nível de escolaridade em doenças comuns. São mostrados os resultados das análises GSMR com dados de doenças uma de uma meta-análise dos estudos GERA e UKB e b de estudos independentes de caso-controle publicados. As cores representam os tamanhos de efeito (medidos por odds ratio, ORs) de fatores de risco sobre doenças, vermelho para efeitos de risco e azul para efeitos de proteção. Os efeitos significativos após a correção para vários testes (PGSMR & lt 7,6 × 10 −4) são rotulados com ORs (P-valores). Os efeitos nominalmente significativos (PGSMR & lt 0,05) são identificados com “*”

Nossos resultados também mostraram que EduYears teve efeito protetor contra quase todas as doenças (Fig. 6 e Tabela Complementar 12). Ele mostrou efeito protetor contra PVD (OR = 0,54), doenças hipertensivas (OR = 0,62), T2D (OR = 0,64), dislipidemia (OR = 0,71) e DCV (OR = 0,73) nos dados da comunidade, e AR (OR = 0,44), AD (OR = 0,61) e CAD (OR = 0,63) nos dados de caso-controle. Ele também mostrou efeito protetor significativo na contagem de doenças (OR = 0,74), sugerindo que o nível de escolaridade é protetor para os resultados gerais de saúde. O efeito protetor do EduYears contra a DA é consistente com a associação observada em estudos epidemiológicos 50. Por outro lado, no entanto, EduYears mostrou um forte efeito de risco no transtorno do espectro do autismo (OR = 2,30) (Nota complementar 6), que não é influenciado por valores discrepantes de SNP (Fig. Complementar 17) e consistente com uma estimativa positiva de correlação genética (r g = 0,28, SE = 0,038) a partir de uma análise de regressão de pontuação LD bivariada 30.

Análise reversa de GSMR

É importante observar que as associações causais identificadas nas análises do GSMR acima provavelmente não serão explicadas pela causalidade reversa por duas razões. Em primeiro lugar, os indivíduos usados ​​no GWAS para fatores de risco eram independentes dos indivíduos usados ​​no GWAS para doenças (a única exceção era que o conjunto de dados GWAS de pressão arterial fazia parte dos dados GWAS de doenças de base comunitária). Em segundo lugar, se as associações apresentadas acima são impulsionadas por causalidade reversa, esperaríamos ver fortes sinais de associação dos instrumentos com as doenças, o que não é o caso, conforme demonstrado na Fig. Suplementar. 18, uma ideia não muito diferente da análise de assimetria que foi usado para inferir causalidade em um estudo anterior 16,22. No entanto, é interessante investigar as mudanças nos fatores de risco após o desenvolvimento das doenças. Para fazer isso, selecionamos instrumentos para doenças a partir dos dados GWAS da doença (ou seja, GWS SNPs para a doença, portanto, os instrumentos usados ​​na análise GSMR reversa eram distintos daqueles usados ​​na análise GSMR direta). A taxa de falsos positivos do GSMR reverso é bem calibrada, conforme demonstrado pela simulação sob o valor nulo de que não há efeito reverso (Fig. 19 suplementar). Realizamos uma análise GSMR reversa dos fatores de risco e doenças para os quais havia uma associação significativa na análise GSMR direta acima (Nota Complementar 7). Identificamos 10 efeitos reversos significativos (ou seja, o efeito da doença no fator de risco) nos dados da comunidade e 4 nos dados de caso-controle em um FWER de 0,05 (Preverso-GSMR & lt 1,0 × 10 −3) (Tabela complementar 13). As estimativas dos efeitos reversos foram muito pequenas em comparação com as dos efeitos diretos. Para evitar um teste de baixa potência, limitamos a análise reversa do GSMR a doenças com mais de 10 instrumentos. Dado o fato de que algumas das pequenas estimativas de efeitos reversos foram altamente significativas (Tabela Suplementar 13), é improvável que a grande diferença no tamanho do efeito estimado entre as análises direta e reversa seja devido à falta de poder na análise reversa . Além disso, confirmamos por simulação que a estimativa de GSMR de b xy é imparcial, independentemente do tamanho da amostra para a exposição (Fig. 20 Suplementar). Curiosamente, houve dois casos em que os efeitos diretos e reversos estimados estavam em direções opostas, ou seja, ( hat b_<>> para < mathrm> 2 < mathrm>)> = 1,19 ) e ( hat b_<>> 2 < mathrm> para < mathrm>)> < mathrm <= >> -0,07 left (

> right) ) ( hat b_<>> para < mathrm>)> = 0,32 ) e ( hat b_<>> para < mathrm>)> = - 0,03 ) ( left (

> right) ), o que significa que embora o IMC seja um fator de risco para as duas doenças, os pacientes que desenvolveram as doenças podem tender a perder peso.


2 Pré-processamento de dados

  • Arquivos .ped e.map: O arquivo .ped contém informações sobre cada participante do estudo, incluindo ID da família, ID do participante, ID do pai, ID da mãe, sexo, fenótipo e o genótipo completo digitado. Aqui, cada SNP é bi-alélico (ou seja, apenas dois nucleotídeos são observados em qualquer SNP entre os participantes do estudo) e codificados como um par de nucleotídeos (A, C, T ou G).Notavelmente, a ordenação do par não é informativa, no sentido de que os primeiros alelos listados para cada um dos dois SNPs não estão necessariamente no mesmo cromossomo. O arquivo.map contém uma linha para cada SNP com rsNumber (SNP) e cromossomo (chr) e coordenada (BPPos) correspondentes com base na construção do genoma atual.
  • Arquivos .bim, .bed e.fam: O arquivo.bim contém as mesmas informações que o arquivo.map, bem como os dois alelos observados em cada SNP (A1 e A2) do arquivo.ped. Ele contém uma linha para cada SNP e seis colunas, contendo informações para o número do cromossomo, rsNumber, distância genética, identificador de posição, alelo 1 e alelo 2. O arquivo.bed contém uma versão binária dos dados do genótipo. Este é o maior dos três arquivos porque contém todos os SNP no estudo, bem como o genótipo neste SNP para cada indivíduo. O arquivo.fam contém as informações de identificação do participante, incluindo uma linha para cada indivíduo e seis colunas, correspondendo às mesmas colunas descritas para o arquivo .ped com exceção dos dados do genótipo. Observe que nem todas essas colunas contêm informações exclusivas. Ou seja, em um estudo de base populacional de indivíduos não relacionados, ‘número de identificação da família’ e ‘número de identificação individual’ serão iguais.
  • Arquivo de dados clínicos: Um arquivo ascii.txt ou.csv adicional está normalmente disponível, que inclui dados clínicos sobre cada sujeito do estudo. As linhas desse arquivo representam cada assunto e as colunas correspondem às covariáveis ​​e fenótipos disponíveis. Pode haver redundâncias neste arquivo e nos dados contidos nas colunas rotuladas como ‘sexo’ e ‘fenótipo’ no arquivo.fam.

2.1 Leitura e formatação de dados em R (etapa 1)

No exemplo de dados fornecido, as informações do genótipo estão disponíveis para 861.473 SNPs digitados em n = 1401 indivíduos com dados fenotípicos disponíveis.

Conforme ilustrado na Figura 1, depois de ler o genótipo e as informações clínicas, estamos prontos para prosseguir com as próximas etapas do pré-processamento de dados GWA. Isso envolve dois estágios de filtragem dos dados, nos níveis de SNP e de amostra, respectivamente. Cada um deles é descrito em mais detalhes nos textos seguintes, acompanhado pelo código R apropriado para implementação. Observamos novamente que a ordem da análise pode variar dependendo se uma única análise GWA está sendo realizada (conforme descrito neste documento) ou se o analista está preparando os resultados para serem incorporados em uma meta-análise maior que requer harmonização de dados em vários estudos. No último caso, as seguintes etapas de filtragem (etapas 2, 3 e 4) podem ser excluídas ou realizadas centralmente após a análise (etapas 7 e 8) à medida que os dados de nível de resumo são combinados entre os estudos.

2.2 Filtragem de nível de polimorfismo de nucleotídeo único - parte 1 (etapa 2)

  • Filtragem de nível SNP: taxa de chamada. A taxa de chamadas para um determinado SNP é definida como a proporção de indivíduos no estudo para os quais as informações SNP correspondentes não estão ausentes. No exemplo a seguir, filtramos usando uma taxa de chamada de 95%, o que significa que retemos SNPs para os quais há menos de 5% dados ausentes. Pontos de corte mais rigorosos (por exemplo, menos de 5%) podem ser empregados em configurações de amostra menores.
  • Filtragem de nível SNP: frequência de alelo menor (MAF). Um grande grau de homogeneidade em um determinado SNP entre os participantes do estudo geralmente resulta em poder inadequado para inferir uma relação estatisticamente significativa entre o SNP e a característica em estudo. Isso pode ocorrer quando temos um MAF muito pequeno, de modo que a grande maioria dos indivíduos tem duas cópias do alelo principal. Aqui, removemos SNPs para os quais o MAF é menor que 1%. Em alguns casos, configurações de amostra particularmente pequenas, um ponto de corte de 5% é aplicado.

No exemplo de dados fornecido, filtramos 203.287 SNPs com base na taxa de chamada & lt0.95 e / ou MAF & lt0.01.

2.3 Filtragem em nível de amostra (etapa 3)

  • Filtragem de nível de amostra: taxa de chamada. Semelhante à filtragem de nível de SNP com base na taxa de chamadas, excluímos indivíduos que estão perdendo dados de genótipo em mais de uma porcentagem predefinida dos SNPs digitados. Esta proporção de falta entre SNPs é conhecida como taxa de chamada de amostra, e aplicamos um limite de 95%. Ou seja, indivíduos que não possuem dados de genótipo por mais de 5% dos SNPs digitados são removidos. É criado um novo objeto de genótipo SnpMatrix de dimensão reduzida, que incorpora este filtro.
  • Filtragem em nível de amostra: heterozigosidade. A heterozigosidade se refere à presença de cada um dos dois alelos em um determinado SNP dentro de um indivíduo. Espera-se que isso ocorra sob HWE com probabilidade 2 ∗p∗(1 − p), Onde p é a frequência do alelo dominante nesse SNP (assumindo um SNP bi-alélico). Excesso de heterozigosidade entre SNPs digitados dentro de um indivíduo pode ser uma indicação de baixa qualidade da amostra, enquanto heterozigosidade deficiente pode indicar endogamia ou outra subestrutura nessa pessoa 23. Assim, amostras com coeficiente de endogamia |F|=(1 − O/E) & gt 0,10 são removidos, onde O e E são respectivamente as contagens observadas e esperadas de SNPs heterozigotos em um indivíduo. Observe que calculamos as contagens esperadas para cada indivíduo com base nos SNPs observados para aquele indivíduo.

Filtragem em nível de amostra: relacionamento críptico, duplicatas e identidade de gênero. Os estudos de coorte baseados na população são frequentemente limitados a indivíduos não relacionados, e a abordagem de modelagem linear generalizada descrita na etapa 7 (análise de associação de SNPs digitados) posteriormente assume a independência entre os indivíduos. Uma discussão mais aprofundada de estruturas de dados alternativas e ferramentas de análise associadas é fornecida na Seção 6. Importante, em estudos de coorte regionais (por exemplo, estudos de coorte baseados em hospitais) de doenças complexas, indivíduos da mesma família podem ser recrutados involuntariamente. Uma medida comum de parentesco (ou duplicação) entre pares de amostras é baseada na identidade por descendência (IBD). Um coeficiente de parentesco IBD maior que 0,10 pode sugerir parentesco, duplicatas ou mistura de amostras. Normalmente, o indivíduo de um par relacionado com menor taxa de chamada de genótipo é removido. Notamos que a identidade de gênero também pode ser verificada nesta fase para confirmar que o gênero auto-relatado é consistente com os cromossomos X e Y observados, no entanto, no exemplo de dados fornecido, os cromossomos sexuais não estão disponíveis e, portanto, um exemplo de filtragem identidade de gênero não é fornecida.

Começamos aplicando a poda de desequilíbrio de ligação (LD) usando um valor limite de 0,2, que elimina um grande grau de redundância nos dados e reduz a influência de artefatos cromossômicos 6. Esta etapa de redução de dimensão é comumente aplicada antes da análise IBD e PCA, aplicada nos textos seguintes para filtragem de ancestralidade e resulta em grande economia computacional.

Isso reduz o número de SNPs de 658.186 no final da etapa 2 para 72.812. Em seguida, calculamos as distâncias IBD de pares para pesquisar a relação da amostra. É utilizada uma estratégia que remove iterativamente os sujeitos com o maior número de coeficientes de parentesco de parentesco & gt0,1.

Em nosso exemplo, nenhuma das amostras é filtrada com base no coeficiente de parentesco IBD & gt0,10.

Filtragem em nível de amostra: ancestralidade. PCA é uma abordagem para visualizar e classificar indivíduos em grupos de ancestrais com base em sua composição genética observada. Fazemos isso por duas razões: primeiro, raça e etnia autorrelatadas podem diferir de grupos de indivíduos baseados exclusivamente em informações genéticas e, segundo, a presença de um indivíduo que não parece pertencer a um grupo racial / étnico pode ser sugestiva de um erro de nível de amostra. Observe que usamos o subconjunto de 72.812 SNPs após a poda LD (etapa 3-c) como a entrada para o PCA. Uma estratégia alternativa para a poda LD de primeiro estágio, que também melhora a eficiência computacional, é a análise 'enraizada no HapMap', que envolve primeiro a execução de PCA em um painel de referência, por exemplo, HapMap ou 1000 Genomes e, em seguida, projetar a amostra do estudo no espaço resultante. Esta abordagem não é apresentada aqui, mas pode ser implementada com as funcionalidades existentes do software INference for Gwas (KING) baseado em parentesco 24.

Nenhuma amostra adicional é filtrada com base na inspeção visual dos gráficos de PCA. Novamente, esperamos isso, pois os dados PennCATH fornecidos são pré-filtrados.

2.4 Filtragem de nível de polimorfismo de nucleotídeo único - parte 2 (etapa 4)

Filtragem de nível SNP: HWE. As violações de HWE podem ser uma indicação da presença de subestrutura da população ou a ocorrência de um erro de genotipagem. Embora nem sempre sejam distinguíveis, é uma prática comum presumir um erro de genotipagem e remover SNPs para os quais o HWE é violado. Se o status de controle de caso estiver disponível, limitamos essa filtragem à análise de controles, pois uma violação nos casos pode ser uma indicação de associação. As partidas de HWE são geralmente medidas em um determinado SNP usando um χ 2 teste de adequação entre os genótipos observados e esperados. Removemos SNPs para os quais a estatística de teste HWE tem um correspondente p-valor inferior a 1 × 10 −6 nos controles.

Filtramos 1.296 SNPs adicionais com base em HWE p & lt 1 × 10 -6 em controles CAD. Isso resulta em 656.890 SNPs digitados a serem considerados na análise de associação.


Métodos

Processamento de dados

Para harmonizar o conjunto de variantes genéticas em todos os quatro conjuntos de dados, imputamos os genótipos de todos os indivíduos nos quatro estudos usando o 1000G Fase 3 v5 como um painel de referência comum (Michigan Imputation Server [54]). Após a imputação, apenas as variantes genéticas não duplicadas com pontuação INFO maior do que 0,9 foram retidas. Filtramos as variantes com Hardy-Weinberg Equilibrium (HWE) p valores abaixo de 10-5, com taxa de genótipo ausente superior a 5% e com frequência de alelo menor abaixo de 5% usando PLINK v1.9 [55]. Usamos o conjunto restante de variantes em todas as análises subsequentes, a menos que indicado de outra forma. Para excluir indivíduos atípicos, calculamos os componentes principais do genótipo (PCs) usando smartpca [56]. Cinco outliers no conjunto de dados DICE foram identificados e removidos das análises downstream.

Para quantificar os níveis de expressão gênica, usamos Kallisto [57] e somamos as estimativas de transcrição por milhão (TPM) de todas as isoformas de GENCODE 19 [58] para obter um TPM em nível de gene. O TPM no nível do gene foi então escalado e quantil-quantil normalizado conforme descrito antes [17]. Os componentes principais da expressão gênica foram calculados usando a função prcomp em R. Para quantificar o splicing de RNA, as leituras de RNA-seq foram alinhadas ao gnomo de referência hg19 usando STAR 2.6.0 [59] com a anotação GENCODE 19. Para evitar o mapeamento de leituras com viés alélico, usamos WASP [60] conforme implementado no STAR 2.6.0, fornecendo os dados de genótipo correspondentes. Esta é uma etapa importante, pois encontramos um aumento substancial no número de QTL de splicing falso positivo devido ao viés alélico no mapeamento de leitura. Na verdade, quando as leituras representam diferentes alelos mapeados para diferentes regiões do genoma, o mapeamento de QTL será suscetível a identificar associações espúrias entre os alelos e ler a cobertura nessas regiões genômicas [23]. Junções exon-exon foram extraídas usando RegTools [61], e agrupadas e quantificadas usando LeafCutter [23]. Como esperado, observamos que o número de junções exon-exon identificadas em cada amostra está positivamente correlacionado com a profundidade de sequenciamento no consórcio DICE (Figura S1). Para harmonizar a quantificação para o uso de junção de splicing em todos os tipos de células e conjuntos de dados em todos os 18 tipos de células imunes, os clusters foram mesclados e a união mesclada foi usada para recalcular o uso de íntrons em todas as amostras.

Análise MashR no conjunto de dados DICE

Para quantificar o compartilhamento de eQTLs e sQTLs no conjunto de dados DICE, seguimos o fluxo de trabalho fornecido pelos autores do MashR (https://github.com/stephenslab/gtexresults) que foi descrito anteriormente em [19]. Resumidamente, os erros padrão dos tamanhos de efeito QTL foram calculados a partir da saída nominal FastQTL, que foram usados ​​junto com os tamanhos de efeito como a entrada para purê. Para quantificar a estrutura de correlação dos testes nulos, 30% de todos os testes foram amostrados aleatoriamente (referido como o conjunto “aleatório”). Para obter um conjunto confiável de QTLs para cada característica (gene ou íntron), o SNP com o menor P-valor em todos os SNPs testados e todos os tipos de células foram extraídos para cada recurso. Isso resultou em uma matriz característica por amostra de tamanhos de efeito e seus erros padrão sem valores ausentes chamados de conjunto "forte". Para eQTLs, incluímos todos os genes codificadores de proteínas. Para sQTLs, incluímos todos os íntrons. Matrizes de covariâncias baseadas em dados foram calculadas a partir do conjunto “forte”. Em seguida, construímos um purê modelo usando o conjunto “aleatório” com o modo de efeitos de troca (EE) para estimar os antecedentes. Este modelo foi então aplicado ao conjunto "forte" para calcular os tamanhos de efeito médios posteriores (purê tamanhos de efeito). QTLs significativos após purê análise foram pares característica-SNP com taxa de sinal falso local (LFSR) abaixo de 0,05, como sugerido por [19]. O nível de compartilhamento de QTLs foi quantificado como compartilhamento geral e compartilhamento em pares. No geral, o compartilhamento foi determinado como o número de tipos de células em que um determinado recurso tem um QTL regulatório (LFSR & lt0,05). O compartilhamento de pares foi quantificado por magnitude e por sinal. A divisão por magnitude entre dois tipos de células corresponde à proporção de QTLs que é significativa em um dos tipos de células e os tamanhos de efeito médios posteriores diferem em não mais do que duas vezes. Compartilhamento por sinal entre dois tipos de células corresponde à proporção de QTLs que foi significativa em um dos tipos de células e tinha o mesmo sinal. Os 15 tipos de células em DICE foram agrupados em 6 grupos de células com base no compartilhamento de eQTL por magnitude (ver Fig. 2b).

Caracterização de QTLs regulatórios

Para calcular a distância entre eQTLs e seus genes-alvo, definimos o promotor de cada gene como a região 2000 bp a montante e 500 bp a jusante de TSS. Testamos o enriquecimento de eQTLs em elementos regulatórios do Ensembl Regulatory Build e o consenso ATAC-seq pico definido de Calderon et al. [41]. Classificamos todos os picos de ATAC-seq para serem um intensificador ou um promotor com base em se eles se sobrepõem a qualquer região do promotor (2000 bp a montante e 500 bp a jusante de TSS). O número observado e esperado de QTLs sobrepostos com cada característica foi estimado usando o comando fenrich do QTLtools [62], e as razões de probabilidade de enriquecimento foram calculadas fornecendo esse número ao teste exato de Fisher em R. Validamos eQTLs de DICE em outros conjuntos de dados usando π1 estatísticas [63], estratificando eQTLs por seus níveis de compartilhamento em seis grupos de células estimados por purê (específico: em um intermediário de grupo de células: 2–5 grupos de células compartilhados: 6 grupos de células). Os intervalos de confiança de 95% de π1 foi estimado usando 1000 bootstraps (ou seja, reamostrando eQTLs DICE com substituição).

Colocalização

COLOC As análises de colocalização foram realizadas entre eQTLs / sQTLs e 72 estatísticas resumidas de GWAS disponíveis publicamente para 11 doenças autoimunes (14 estudos), a saber, artrite reumatóide (AR) [64], doença de Crohn (CD) [27, 30], colite ulcerativa (UC ) [27, 30], doença inflamatória intestinal (IBD) [27, 30], alergia e eczema (AE) [65], asma, febre do feno e eczema (alergia para abreviar) [66], dermatite apoptótica (ApD) [ 67], asma [68, 69], lúpus eritematoso sistêmico (LES) [70] e esclerose múltipla [71]. Também coletamos 36 GWAS para características relacionadas ao sangue [72], 11 GWAS relacionadas às funções cardíacas e ao sistema circulatório [73] e várias outras características, incluindo diabetes tipo 2 (T2D) [74], doença de Alzheimer (DA) [75] , Doença de Parkinson (DP) [76], taxa de filtração glomerular estimada (eTFG) [77], altura [78] e sobrevida ao câncer de mama [79] e outros cânceres / neoplasias [73]. Consideramos os 14 GWAS autoimunes e 36 GWAS relacionados ao sangue como GWAS imune, e os restantes 22 GWAS como GWAS não imunes.

Para avaliar a co-localização entre os loci GWAS e QTLs, primeiro identificamos as variantes principais de GWAS e sua região de flanco na qual a co-localização deveria ser testada. Especificamente, todas as variantes disponíveis nas estatísticas de resumo GWAS foram classificadas por p-valores em ordem crescente. Começando pela variante com o menor p-valor (variante principal), as variantes dentro da janela de 500 Kb em ambos os lados da variante principal foram removidas. Isso resultou em um locus GWAS de 1 Mbp para análise de co-localização. O mesmo procedimento foi então aplicado à próxima variante mais significativa entre as variantes restantes, até que nenhuma variante com p valor abaixo de 10 -7 foi deixado. A região HLA (Chr6: 25–35 Mb) foi excluída da co-localização. Apenas GWAS com mais de 10 loci identificados foram incluídos em nossa análise. Para cada locus GWAS identificado acima, a co-localização foi testada apenas se abrigasse um QTL regulatório com distribuição beta permutada p valor abaixo de 0,01 (bpval & lt0,01), conforme relatado por FastQTL na janela de 1 Mb que flanqueia o SNP GWAS principal. Priors padrão foram usados ​​para COLOC. Definimos PP4 & gt0.75 como o limite para co-localização. A proporção de colocalização foi calculada como a proporção de loci colocalizados entre todos os loci identificados em um GWAS.

Os resultados da colocalização foram visualizados usando uma função adaptada de LocusCompare [80]. Para um determinado locus, o SNP com a maior probabilidade posterior de COLOC foi definido como o SNP co-localizado. r 2 em relação ao SNP colocalizado foram calculados a partir dos genótipos no estudo QTL. Para visualizar o sQTL na forma de um gráfico Sashimi [81], primeiro agrupamos os indivíduos por seus genótipos e, em seguida, extraímos as leituras de RNA-seq mapeadas para o cluster que contém o intron a ser visualizado. Para tornar a cobertura comparável entre diferentes genótipos, escalamos a cobertura de leitura pelo número de indivíduos que carregam cada genótipo usando o argumento scaleFactor em bamCoverage do Deeptools [82] ao gerar arquivos bigWig. A cobertura foi então visualizada usando pyGenomeTracks [83].

Os dados Cis-eQTL do eQTLGen [43] foram obtidos diretamente do site (https://eqtlgen.org/cis-eqtls.html). Também baixamos frequências de alelos de 26.609 amostras de eQTLGen (excluindo o Framingham Heart Study), que foram usadas em nossa análise de co-localização. É importante notar que o conjunto de dados DGN também está incluído na meta-análise eQTLGen, mas não altera a interpretação de nenhuma de nossas análises.

HyPrColoc Os pares de genes GWAS testados em HyPrColoc foram selecionados da mesma forma que COLOC. Definimos PP & gt0.25 como o limite para co-localização, conforme recomendado pelos autores [52].

Validação de co-localização específica de células imunes para características não imunes Nós validamos a co-localização de 14 características não imunes (11 relacionadas ao coração, DA, DP e sobrevivência ao câncer de mama) em células imunes DICE usando os eQTLs GTEx V7. Primeiro, escolhemos vários tecidos em GTEx que são mais relevantes para cada característica GWAS.Para características relacionadas ao coração, escolhemos tecidos do coração e do sistema circulatório (Artéria - Aorta, Artéria - Coronária, Artéria - Tibial, Coração - Apêndice Atrial, Coração - Ventrículo Esquerdo). Para DA e PD, incluímos os 13 tecidos cerebrais (Cérebro - Amígdala, Cérebro - Córtex cingulado anterior (BA24), Cérebro - Caudado (gânglios da base), Cérebro - Hemisfério cerebelar, Cérebro - Cerebelo, Cérebro - Córtex, Cérebro - Córtex frontal (BA9), Cérebro - Hipocampo, Cérebro - Hipotálamo, Cérebro - Nucleus accumbens (gânglios da base), Cérebro - Putamen (gânglios da base), Cérebro - Medula espinhal (cervical c-1), Cérebro - Substantia nigra). Para a sobrevivência ao câncer de mama, foram utilizados tecidos adiposos e tecido mamário (Adiposo - Subcutâneo, Adiposo - Visceral (Omentum), Mama - Tecido Mamário). Em seguida, identificamos todos os pares de gene-SNP colocalizados para esses 14 GWAS em DICE e extraímos seus P valores de GTEx eQTLs nos tecidos relevantes, bem como de DICE eQTLs em todos os tipos de células imunes. Dado que uma grande proporção de eQTLs são compartilhados em DICE, agrupamos os 15 tipos de células imunológicas em 6 grupos, atribuindo os menores P valor de todos os tipos de células dentro de um determinado grupo para esse grupo para cada gene. Usamos a correção de Bonferroni para ajustar P valores para testes múltiplos. Finalmente, calculamos o par gene-SNP de proporção que ajustou P valor abaixo de 0,05 em DICE, mas não em tecidos GTEx.

Caracterizações de loci GWAS não localizados Restringimos esta análise aos loci dos 14 GWAS autoimunes que não colocalizaram com a em BLUEPRINT QTL. Todos os genes foram classificados em quatro categorias: genes com um eQTL co-localizado em um locus GWAS, genes que são os mais próximos de um locus GWAS, genes que estão mais próximos de um locus GWAS não localizado e todos os genes restantes. Comparamos o nível de expressão do gene nos três tipos de células BLUEPRINT separadamente. Os valores do nível de expressão do gene para os três tipos de células foram combinados e plotados na Fig. 5a. Também obtivemos a pontuação do domínio Enhancer (EDS) [39] e "fração de ligação superior esperada / observada perda de função" (LOEUF) [40] para todos os genes disponíveis e comparamos a distribuição de EDS e LOEUF nas quatro categorias acima .

Para testar o enriquecimento de loci não localizados em picos de ATAC-seq em células imunes estimuladas, construímos uma tabela de contingência contando o número de loci não localizados e co-localizados que se sobrepõem a picos de ATAC-seq estimulados e não estimulados, respectivamente. Em seguida, testamos a hipótese de que os loci não localizados eram mais altamente enriquecidos em regiões de cromatina aberta estimuladas em comparação com loci colocalizados usando o teste exato de Fisher. Estimamos o intervalo confidencial de 95% das estimativas por bootstrapping de loci GWAS não localizados 1000 vezes com substituição.

Raciocinamos que os efeitos regulatórios de muitos loci GWAS não localizados podem ser pequenos demais para serem detectados devido ao pequeno tamanho das amostras. Para testar essa possibilidade, verificamos eQTLs apenas em loci GWAS não localizados. Resumidamente, extraímos testes de QTL no SNP principal de loci não localizados. Os pares locus-gene GWAS que já foram testados no COLOC, mas não colocalizaram, foram filtrados. Uma vez que é comum que um SNP principal seja associado a muitos genes, ajustamos o P valores por número de genes testados em cada loci usando a correção de Bonferroni e escolheu o gene com o menor P valor. Em seguida, calculamos a proporção de genes com P valor abaixo de 0,05. Esta análise foi aplicada a cada GWAS autoimune em cada tipo de célula no conjunto de dados BLUEPRINT.

Coleta e análise de amostras de RA

Coleta de amostra e experimento CUT & ampTag Todas as amostras clínicas foram obtidas no Hospital Xijing. Amostras de sangue periférico e líquido sinovial foram coletadas de 6 pacientes com AR no Departamento de Imunologia Clínica do Hospital Xijing. Todos os pacientes com AR preencheram os critérios revisados ​​do American College of Rheumatology de 1987 e os critérios de classificação da artrite reumatóide ACR 2010 [84], e suas características clínicas são mostradas no Arquivo Adicional 1: Tabela S7. Além disso, foram coletadas amostras de sangue periférico de 4 indivíduos saudáveis. Todas as amostras de sangue e líquido sinovial foram submetidas a centrifugação em gradiente em meio de separação de linfócitos (MP Biomedicals, 0850494) para isolamento de células mononucleares, as quais foram criopreservadas para experimentos posteriores.

As células mononucleares criopreservadas foram descongeladas em RPMI / FBS a 10%, lavadas uma vez em solução salina tamponada com fosfato estéril (PBS Beyotime, ST476) e coradas com os seguintes anticorpos em PBS por 30 min: anti-CD3-APC / Cy7 (Biolegend, 300426), anti-CD4-PE / Cy7 (Biolegend, 357410), anti-CD8-Percp / Cy5.5 (Biolegend, 301032), anti-CD25-PE / CF594 (BD Horizon, 562525), anti-CD19-FITC (Biolegend, 302206) e anti-CD14-APC (Biolegend, 301808). Células T CD4 + (CD3 +, CD4 +, CD8 -), células T CD8 + (CD3 +, CD4 -, CD8 +), T reg células (CD3 +, CD4 +, CD8 -, CD25 +), células B (CD3 -, CD19 +) e monócitos (CD3 -, CD14 +) foram classificados por FACSAria III (BD Pharmingen, San Diego, EUA) diretamente em tampão de lavagem para CUT & ampTag, com um máximo de 1 × 10 5 células para cada tipo de célula. Fizemos o perfil de H3K27ac (abcam ab4729) para cada tipo de célula seguindo o protocolo padrão CUT & ampTag (https://www.protocols.io/view/bench-top-cut-amp-tag-z6hf9b6) [21]. As amostras foram processadas em lotes diferentes e garantimos a inclusão de pelo menos um indivíduo saudável e um paciente com AR em cada lote para minimizar os efeitos do lote que se alinham com as diferenças biológicas nas quais estamos interessados.

Análise de dados CUT & ampTag As bibliotecas de DNA foram submetidas a sequenciamento de extremidades pareadas (PE) de 150 pb. As leituras de sequenciamento foram alinhadas ao genoma de referência humano hg19 usando Bowtie 2 [45] com parâmetros –local –muito sensível-local –no-unal –no-misto –não-discordante –fred33 –minins 10 –maxins 700. Leituras alinhadas foram filtradas usando Samtools com -F 1804 -f 2 -q 30 [85]. Amostras com menos de 2M de leituras foram excluídas das análises subsequentes. Arquivos BAM filtrados para amostras que têm o mesmo status de doença (saudável / RA), tipo de tecido (PBMC / SF) e tipo de célula foram mesclados. A cobertura de leitura foi calculada usando bamCoverage em janela de 10 bp normalizada por RPKM [82]. Os picos do H3K27ac foram chamados a partir dos arquivos BAM mesclados usando MACS2 com parâmetros –formato BAMPE –broad –broad-cutoff 0.1 –qvalue 0.1 –extsize 146 [46]. Raciocinamos que os picos de chamada de arquivos BAM mesclados aumentam a relação sinal-ruído. Para gerar um conjunto de picos de consenso, combinamos todos os picos usando mesclagem de bedtools [86], resultando em 90.412 picos. Em seguida, contamos o número de fragmentos sobrepostos ao pico de consenso definido em cada amostra usando featureCounts [87].

A análise de pico diferencial foi realizada usando limma [88]. Calculamos o log2CPM médio em amostras com o mesmo estado de doença, tipo de tecido e tipo de célula. Este log2CPM médio foi usado apenas para filtrar nossos picos com baixas contagens de fragmentos. Picos com log2CPM médio abaixo de 2 em todos os grupos foram excluídos da análise diferencial. Em seguida, os fatores de normalização foram calculados a partir dos picos restantes usando o método TMM e as contagens em cada amostra convertidas para log2CPM. Como as amostras foram processadas em lotes diferentes, usamos o ComBat para ajustar os lotes, incluindo o status da doença, tipo de tecido e tipo de célula como nossa variável de interesse. Construímos uma matriz de contraste comparando RA SF versus RA PBMC, RA SF versus Healthy PBMC e RA PBMC versus Healthy PBMC em cada um, e aplicamos o método de tendência. Os picos diferenciais foram definidos como log2-fold-change (log2 (FC)) maior que 1 ou menor que -1, e FDR abaixo de 0,1.

Nós sobrepomos os picos de H3K27ac regulados positivamente em amostras de RA com loci RA GWAS não localizados. Primeiramente, fizemos um mapeamento preciso das estatísticas resumidas de RA GWAS usando SuSiE [51]. O mapeamento fino foi realizado em cada locus que usamos em nossa análise de colocalização. Fornecemos GWAS Z-scores, matriz de correlação de genótipo de CEU e GBR do Projeto Genoma 1000 como o painel de referência e o tamanho da amostra do painel de referência para a função susie_rss.

Estimamos o enriquecimento da herdabilidade do SNP de RA em nossos picos de H3K27ac usando Stratified LD Score Regression (S-LDSC) [5]. Usamos picos MACS2 de arquivos BAM mesclados, que foram estendidos em 500 bp em ambos os lados. Para reproduzir a análise de herdabilidade de Calderon et al. [41], usamos os picos MACS2 compartilhados pelos autores.


Projetos de estudo para enriquecimento ou priorização de variantes raras

Projetos de estudo que exploram características únicas de diferentes populações têm sido usados ​​para aumentar o poder em estudos de associação de alelos raros e de baixa frequência. Um exemplo notável são os isolados de população, que fornecem designs de estudo poderosos para genética médica devido a uma série de características vantajosas. Por exemplo, variantes de importância médica que são raras em populações não consanguíneas podem ser encontradas em frequências mais altas em populações isoladas devido a eventos anteriores de gargalo, deriva genética ou adaptação e seleção [43, 112], aumentando o poder de detectar associações com fenótipos medicamente importantes [ 113, 114].

Um caso particularmente interessante de variação rara são as variantes que levam à inativação da proteína correspondente. Essas chamadas variantes de perda de função (LoF) incluem variantes previstas para levar à terminação prematura da proteína (variantes de parada-ganho ou variantes de truncamento de proteína) e polimorfismos de inserção ou deleção que afetam a sequência de códons geral da proteína ( frameshift INDELS) ou alterar o splicing pré-mRNA de exons essenciais (variantes essenciais do local de splice). As variantes de LoF fornecem ferramentas poderosas para entender o impacto de "nocautear" genes humanos, semelhantes aos experimentos de nocaute de gene comumente conduzidos em organismos modelo [115]. A compreensão das consequências fenotípicas e clínicas de transportar alelos LoF, particularmente quando eles são transportados no estado homozigoto (isto é, nocaute completo), mostrou fornecer insights cruciais na identificação de novos genes de doenças e vias drogáveis ​​[116,117,118]. Além disso, estudos de variantes de LoF em alvos de drogas estabelecidos, quando realizados por um indivíduo de outra forma saudável, fornecem evidências para a segurança da modulação desse alvo específico para reduzir o risco de doença. O conjunto de dados de 60.706 indivíduos coletados pelo Exome Aggregation Consortium (ExAC) pode ajudar na filtragem de candidatas a variantes causadoras de doenças e na descoberta de variantes humanas de "nocaute" em genes que codificam proteínas [119].

Os esforços para descobrir essas mutações são aumentados em populações com altas taxas de homozigose, por exemplo, em populações com tradição de casamento consanguíneo e onde essas variantes ocorrem com mais frequência em um estado homozigoto. Analisando amostras do estudo PROMIS, verificou-se que 961 genes foram completamente inativados em pelo menos um participante. Combinado com informações de fenótipo ricas, isso permitiu a descoberta de associações genótipo-fenótipo de importância clínica, como a associação de APOC3 com níveis plasmáticos de apolipoproteína C-III ausentes [120]. Outro estudo previu o LoF em 781 genes após analisar 3.222 adultos da herança do Paquistão Britânico com alta relação parental [121]. Os genomas inteiros de 2636 islandeses, juntamente com a imputação de 101.584 islandeses genotipados e faseados com chips, começaram a permitir estudos de nocautes raros de genes humanos completos na população islandesa. Os autores também estão planejando caracterizar a maioria das variantes homozigotas de LoF na população islandesa e realizar a fenotipagem sob medida dos portadores [122]. Uma advertência dessa abordagem é que as consequências funcionais das variantes de sequência são tipicamente anotadas bioinformaticamente com base em anotações de transcrição genéricas (por exemplo, com base na consequência mais deletéria entre todas as transcrições anotadas). As variantes de LoF podem, portanto, não levar à inativação de proteínas em um contexto biologicamente relevante, o que pode ser devido à redundância do gene, ou à heterozigosidade, ou a variantes genuínas que não interrompem a função do gene, ou a variantes que são ativas apenas em certos tecidos. isoformas específicas (ou raras) [112, 115]. Assim, esforços extensos e meticulosos de acompanhamento são necessários para validar as consequências previstas dessas variantes.


Resultados: impacto LD na potência

Os dados de simulação consistiram em 1200 conjuntos de dados sintéticos, correspondendo a 4 blocos LD × 3 tamanhos de efeito × 100 conjuntos de dados caso-controle retrospectivos com 1000 indivíduos em cada coorte. As herdabilidades estimadas h 2 são apresentados na Tabela 3 e estão todos abaixo h 2 = 0,10. Estes foram calculados de acordo com a fórmula subsequente (4), na qual Geu representa as nove combinações de genótipos de dois locus subjacentes g1×g2, e os resultados imediatamente das tabelas de penetrância calculadas anteriormente para cada tamanho de efeito (como a Tabela 2 foi uma instância para β3= 0,90 tamanho do efeito e resulta em h 2 =0.083):

Além disso, a Tabela 4 mostra que apenas 1 SNP está em LD moderado a forte com o locus causal DSL 1 (r 2 limiar de 0,75), enquanto 60 SNPs estão em LD muito baixo com DSL 1 (r 2 limiar de 0,20). LD moderado a forte com DSL 2 A, B, C e D é observado para 98, 107, 78 e 24 SNPs (em r 2 de 0,75), respectivamente. O número de SNPs de tag (e, portanto, a probabilidade de captura do sinal) aumenta com a diminuição r 2 limiar. Por exemplo, para um limite de 0,45, são obtidos respectivamente 2, 114, 110, 80 e 48 SNPs de tag para DSL 1, DSL 2 A, B, C e D.

As sensibilidades de sinal estimadas de MB-MDR para detectar a interação puramente epistática simulada (DSL 1, DSL 2), para diferentes cenários de posição DLS 2 (DSL 2 A, DSL 2 B, DSL 2 C, DSL 2 D), três epistasias tamanhos de efeito e cinco esquemas de poda LD antes da análise MB-MDR são apresentados na Fig. 5, para a sensibilidade do sinal definida via r 2 ≥0,45-etiquetagem e na Fig. 6 para etiquetagem determinada por r 2 ≥0,20. As sensibilidades exatas estimadas são exibidas nos painéis inferiores das figuras mencionadas. Observe que as estimativas de sensibilidade exata não dependem das definições de bloco. Todas as estimativas estão tabuladas na Tabela 5. As seguintes observações são feitas:

Para todos os cenários de tamanho de efeito de epistasia e localização de DSL 2, bem como definição de bloco SNP de tag e poda em diferentes r 2 valores variando de 0,20 a 0,75, a sensibilidade do sinal é sempre maior do que a sensibilidade exata.

Além disso, quando nenhuma poda é realizada (portanto, todos os pares SNP são selecionados para epistasia, independentemente das correlações entre SNPs), a sensibilidade exata é menor do que a sensibilidade do sinal.

As sensibilidades exatas diminuem drasticamente quando a poda é aplicada. Os piores resultados são obtidos para os cenários A e C, para os quais o DSL 2 correspondente pode ser considerado como residente no limite de um (sub) bloco LD. Os resultados são apenas ligeiramente melhores para o cenário D. No caso de ambos os DSLs estarem localizados em cromossomos diferentes, as estimativas de sensibilidade exata variam de 0,10 a 0,18 (configuração D, consulte a Fig. 1). Em contraste, as estimativas de sensibilidade exatas no caso de DSL 2 estar localizado no meio de um intervalo de bloco LD de 0,16-0,64, novamente dependendo do tamanho do efeito epistático e limite de poda LD (configuração B, ver Fig. 2).

A sensibilidade do sinal pode ser melhorada ainda mais pela redução do SNP definido por meio de poda. Em geral, quanto mais poda LD estiver envolvida, maior será a sensibilidade do sinal. Qualquer que seja a definição de bloco de tag SNP usada, poda muito pesada em r 2 de 0,20 dá de longe a sensibilidade de sinal mais baixa. Para todos os locais considerados DSL 2, pouca energia (sensibilidade do sinal) é perdida pela poda mais abaixo de 0,75 para 0,60, retendo mais SNPs. Para definir C, o poder equilibra-se em torno de 0,50 quando uma poda mais extensa é feita em r 2 de 0,50 em vez de 0,60, que é semelhante a jogar uma moeda e altamente inaceitável (ver Fig. 5).

Não há padrões claros em relação ao aumento do tamanho do efeito de epistasia levando a um aumento da sensibilidade exata ou do sinal.

Sensibilidades de MB-MDR para detectar interação epistática pura de dois loci em 4 configurações em três tamanhos de efeito e com diferentes níveis de poda LD: Sensibilidades de sinal (painel superior) e sensibilidades exatas (painel inferior) são exibidas em diferentes limiares de poda LD (dados não sintonizados ou poda LD em 0,75, 0,60, 0,50 e 0,20). Sensibilidades de sinal determinadas com subconjuntos de SNP de tag em LD r 2 ≥0,45 com SNPs causais

Sensibilidades de MB-MDR para detectar interação epistática pura de dois loci em 4 configurações em três tamanhos de efeito e com diferentes níveis de poda LD: Sensibilidades de sinal (painel superior) e sensibilidades exatas (painel inferior) são exibidas em diferentes limiares de poda LD (dados não sintonizados ou poda LD em 0,75, 0,60, 0,50 e 0,20). Sensibilidades de sinal determinadas com subconjuntos de SNP de tag em LD r 2 ≥0,20 com SNPs causais


Afiliações

Instituto de Esporte, Exercício e Vida Ativa (ISEAL), Victoria University, Melbourne, Austrália

Sarah Voisin, David J Bishop e Nir Eynon

Departamento de Turismo e Recreação, Academia de Educação Física e Esporte, Gdansk, Polônia

Pawel Cieszczyk e Zbigniew Jastrzebski

Universidade Estadual de Cultura Física de Ural, Chelyabinsk, Rússia

Vladimir P Pushkarev, Dmitry A Dyatlov, Boris F Vashlyayev e Vladimir A Shumaylov

Faculdade de Cultura Física e Promoção da Saúde, Universidade de Szczecin, Szczecin, Polônia

Pawel Cieszczyk, Agnieszka Maciejewska-Karlowska e amp Marek Sawczuk

Departamento de Biologia Celular, Faculdade de Biologia, Universidade de Szczecin, Szczecin, Polônia

Murdoch Childrens Research Institute, The Royal Children’s Hospital, Melbourne, Austrália

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Autor correspondente


Contribuições do autor

S.S.V., T.O.B., L.G., R.E.P., T.E.K., A.R.S. e M.D.R escreveram o manuscrito. SSV, TOB, LG, REP, TEK, ARS, MDR, J.-LR, JDB, JPL, YB, BDM, Di.A., Da.A., RA, KB, GC, KC, JHC, J.- PD, NPD, IF-C., PF, MG, TG, GFG, BG, PAG, WH, LH, E.-YK, H.-SK, MK, MTML, RM, JM, DMR, ES, MS, JGS , JMS-M., JMtB., DT, MV, JW, M.-SW, RW e SW projetou a pesquisa.S.V., T.B., L.G., J.-L.R., J.L., Y.B., T.K., A.S. e M.R. realizaram a pesquisa. S.S.V., T.O.B., L.G., R.E.P., T.E.K., A.R.S., M.D.R., J.-L.R., J.D.B., J.P.L., Y.B. e B.D.M. analisou os dados.

Nome do arquivo Descrição
Imagem cpt1911-sup-0001-FigS1.tifTIFF, 17,3 MB
Imagem cpt1911-sup-0002-FigS2.tifTIFF, 16,6 MB
Imagem cpt1911-sup-0003-FigS3.tifTIFF, 16,6 MB
Imagem cpt1911-sup-0004-FigS4.tifTIFF, 16,6 MB
cpt1911-sup-0005-TableS1.xlsxapplication / excel, 9,2 KB
cpt1911-sup-0006-TableS2.xlsxapplication / excel, 9,1 KB
cpt1911-sup-0007-TableS3.xlsxapplication / excel, 11,5 KB
cpt1911-sup-0008-TableS4.xlsxapplication / excel, 11,8 KB
cpt1911-sup-0009-TableS5.xlsxapplication / excel, 11,5 KB
cpt1911-sup-0010-TableS6.xlsxapplication / excel, 11,8 KB
cpt1911-sup-0011-TableS7.xlsxapplication / excel, 11,7 KB
cpt1911-sup-0012-TableS8.xlsxapplication / excel, 14,7 KB
Documento cpt1911-sup-0013-TextS1.docxWord, 12,1 KB

Observação: O editor não é responsável pelo conteúdo ou funcionalidade de qualquer informação de suporte fornecida pelos autores. Quaisquer dúvidas (que não sejam de conteúdo ausente) devem ser direcionadas ao autor correspondente do artigo.


Assista o vídeo: Odds Ratio by Daratha (Outubro 2022).