Em formação

As interações gene-gene podem resultar na expressão gênica?

As interações gene-gene podem resultar na expressão gênica?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Estou construindo um projeto sobre Inferir Redes Reguladoras de Genes usando algoritmos ARACNE e PCA-CMI, e a entrada para esses algoritmos é retirada do desafio DREAM3.

O formato dos dados de entrada é mostrado na imagem.

Agora, de acordo com o que estudei, uma Matriz de Expressão Gênica tem suas linhas representam genes, colunas representam amostras como tecidos ou condições experimentais e os números em cada célula referem-se ao nível de expressão de um determinado gene na amostra particular.

E essa expressão gênica é o processo no qual a informação de um gene é sintetizada para obter produtos gênicos. O processo de expressão gênica é que ele passa por um processo de transcrição onde um fator de transcrição se liga ao gene e, em seguida, resulta na formação do produto do gene.

Mas os dados de entrada aparentemente mostram interações gene-gene.

Como resultado disso, estou extremamente confuso.

Qualquer tipo de ajuda seria muito apreciada. Obrigado.


Não sei nada sobre seus algoritmos. Mas tentarei explicar o formato dos dados que foram fornecidos a você. Não conheço a sua formação em Biologia, por isso assumirei que não é a sua área de especialização e farei algumas simplificações do assunto.

O que é expressão gênica?
Para entender o que é uma expressão gênica, você precisa entender o que é um gene:

Um gene é uma sequência no DNA (composta por 4 bases A, T, C e G) que pode ser transcrita por uma proteína, no seu contexto diremos que sempre começa com um códon inicial (um códon é um tripleto de DNA bases) e pare com um códon de parada. Geralmente tem cerca de mil bases. A transcrição lhe dará um RNA, e esse RNA pode ser traduzido (observe a diferença com transcrito) em uma proteína totalmente nova.

Agora, a expressão do gene é uma medida da quantidade de RNA do gene que você está procurando. Em uma célula, você pode ter cerca de 10000-100000 cópias desse RNA; a contagem bruta não é realmente estável, pois você pode extrair duas ou três células e isso mudará sua "expressão". Na maioria das vezes, normalizamos a contagem pela contagem de um monte de genes conhecidos chamados genes de manutenção. A particularidade desses genes é que sua expressão é bastante estável.

Os números que você tem são uma proporção entre as cópias de RNA do gene de interesse e as cópias de RNA de um gene estável (em termos de expressão).

O que significa G1 (- / -) e wt?

Normalmente, quando nós (biólogos) chamamos uma amostrawtIsso significatipo selvagem, em outras palavras, um indivíduo normal. G1 (- / -) significa que esta amostra é de um indivíduo com o gene G1 inativo (poderia ser obtido por modificação genética).

O que é uma interação gene-gene?
Primeiro, um exemplo de interação: vamos imaginar um gene codificando um intensificador (booster) da transcrição. a presença desse gene permite que outro gene seja expresso na célula, se esse gene não estiver presente ou não for transcrito, o outro gene também não será expresso.

Como podemos ver a interação aí?

Vejamos a linha um, o controle (indivíduo normal), vemos que G4 (coluna) está quase não expresso (0,07). Em condições normais, esse gene não é expresso. Agora vamos olhar para o mutante G1 (- / -) e G6 (- / -), vemos que a expressão de G4 está aumentando (0,37; 0,23) em comparação com o controle (wt). Podemos supor que G1 e G6 atuam como inibidores do gene G4.


A resposta curta é sim, claro que existem interações gene-gene. Não tenho certeza de qual seria o objetivo do experimento se não houvesse.


Gene2vec: representação distribuída de genes com base na co-expressão

As descrições funcionais existentes dos genes são categóricas, discretas e, principalmente, por meio de processo manual. Neste trabalho, exploramos a ideia de incorporação de genes, representação distribuída de genes, no espírito da incorporação de palavras.

Resultados

De um modo puramente orientado por dados, treinamos uma representação vetorial de 200 dimensões de todos os genes humanos, usando padrões de coexpressão de genes em 984 conjuntos de dados dos bancos de dados GEO. Esses vetores capturam parentesco funcional de genes em termos de recuperação de vias conhecidas - o produto interno médio (similaridade) de genes em uma via é 1,52 vezes maior que o de genes aleatórios. Usando t-SNE, produzimos um mapa de coexpressão de genes que mostra as concentrações locais de genes específicos de tecido. Também ilustramos a utilidade dos vetores de genes incorporados, carregados de informações ricas sobre padrões de coexpressão de genes, em tarefas como a previsão da interação gene-gene.

Conclusões

Propusemos um método de aprendizado de máquina que utiliza a coexpressão de genes em todo o transcriptoma para gerar uma representação distribuída de genes. Além disso, demonstramos a utilidade de nossa distribuição ao prever a interação gene-gene com base apenas nos nomes dos genes. A representação distribuída de genes pode ser útil para mais aplicações de bioinformática.


Usando o aprendizado de máquina para medir a relação entre genes: um modelo multifuncional

Medir a relação condicional entre um par de genes é uma técnica fundamental e ainda um desafio significativo na biologia computacional. Tal parentesco pode ser avaliado por semelhanças de expressão gênica enquanto sofre altas taxas de falsas descobertas. Enquanto isso, outros tipos de recursos, por exemplo, semelhanças baseadas em conhecimento prévio, só são viáveis ​​para medir o relacionamento global. Neste artigo, propomos um novo modelo de aprendizado de máquina, denominado Multi-Features Relatedness (MFR), para medir com precisão a relação condicional entre um par de genes, incorporando semelhanças de expressão com semelhanças baseadas em conhecimento prévio em um critério de avaliação. MFR é usado para prever interações gene-gene extraídas dos bancos de dados COXPRESdb, KEGG, HPRD e TRRUST pela validação cruzada de 10 vezes e verificação de teste, e para identificar interações gene-gene coletadas dos bancos de dados GeneFriends e DIP para verificação adicional. Os resultados mostram que o MFR atinge os maiores valores de área sob a curva (AUC) para identificar interações gene-gene nos conjuntos de dados de desenvolvimento, teste e DIP. Especificamente, ele obtém uma melhoria de 1,1% em média de precisão para detecção de pares de genes com semelhanças de alta expressão e semelhanças baseadas em conhecimento prévio em todos os conjuntos de dados, comparando com outros modelos lineares e métodos de análise de coexpressão. Em relação à construção de redes de genes de câncer e predição de função gênica, o MFR também obtém resultados com mais significâncias biológicas e maior acurácia de predição média do que outros modelos e métodos comparados. Um site do modelo MFR e conjuntos de dados relevantes podem ser acessados ​​em http://bmbl.sdstate.edu/MFR.

Declaração de conflito de interesse

Os autores declaram não haver interesses conflitantes.

Figuras

Fluxo de trabalho do modelo MFR. Cinco…

Fluxo de trabalho do modelo MFR. Cinco etapas estão no fluxo de trabalho, incluindo ( eu…

Estrutura do modelo MFR.…

Estrutura do modelo MFR. O modelo é baseado em SVM e usa…

( UMA ) ROCs de nove modelos ou métodos para identificar interações gene-gene ...

ROCs de nove modelos ou métodos para identificar interações gene-gene no (...

Prevê-se que as vias metabólicas ...

Prevê-se que as vias metabólicas sejam diretamente influenciadas pelo aumento de glutamina e glutamato ...

Número de vias metabólicas previstas ...

Número de vias metabólicas que se prevê serem diretamente influenciadas pelo aumento de glutamina e ...

Porcentagens de correspondência de L0 e L1 ...

Porcentagens de genes selecionados correspondentes a L0 e L1 nos nove genes metabólicos KEGG ...


Resultados e discussão

A integração de novos genes em redes GGI é um processo evolutivo gradual

Um desafio técnico para examinar o papel de novos genes na evolução de redes de genes é detectar redes GGI confiáveis ​​em sua distribuição global. Considerando o crescimento técnico atual e a avaliação de métodos e dados que revelam GGI, construímos e analisamos três tipos diferentes de dados na tentativa de identificar redes GGI robustas (consulte Métodos): as interações proteína-proteína humana (hPPIs), o gene humano co- redes de expressão (hGC) e as interações proteína-proteína de camundongo (mPPIs).

A segunda linha de dados que usamos para investigar a correlação entre a evolução do novo gene, como investigamos extensivamente anteriormente, e a evolução das redes GGI, conforme revelado por três bancos de dados diferentes acima, são os tempos de divergência de vertebrados mais bem resolvidos, apoiados pela paleontologia, evolutiva do organismo análise e evolução molecular, e a árvore filogenética de vertebrados resolvida de forma mais confiável ao longo de décadas de estudos extensivos sobre espécies de vertebrados [2, 13]. Esses dados forneceram estimativas excelentes para as idades de novos genes, compreendendo os gerados por duplicação baseada em DNA, duplicação baseada em RNA e de novo origem durante a evolução dos vertebrados na linhagem para humanos e camundongos, como identificamos anteriormente na comparação comparativa do genoma.

Primeiramente, investigamos a correlação entre as idades dos genes e suas características topológicas nas redes GGI descritas nas quatro bases de dados que construímos. Notavelmente, todos esses tipos de dados de rede GGI revelaram taxas e padrões altamente semelhantes de novos genes integrados nas redes. Portanto, vamos nos concentrar em humanos para apresentação e discussão dos resultados enquanto apresentamos as descobertas relevantes no genoma do camundongo.

Analisamos primeiro a rede de interações proteína-proteína humana (hPPIs), explorando e modificando um conjunto de dados de interações de proteínas experimentais integrativas [14] (com o limite de pontuação de confiança de 0,68, consulte Métodos). A rede PPI humana reconstruída revelou uma estrutura topológica aproximadamente sem escala [15] com um expoente de grau de 1,49 que define uma distribuição de potência-lei de conectividade (ou graus) (arquivo adicional 1: Figura S1 e arquivo adicional 2: Tabela S1) . Em seguida, rotulamos o gene (equivalente à sua proteína codificada) de idade de cada nó na rede PPI, determinado por um índice de idade para os genes que se originaram em cada período de evolução ao longo da filogenia bem resolvida de vertebrados (Fig. 1a e b ), que foram recuperados de um banco de dados amplamente utilizado [2, 13] (Ver Métodos). A análise da rede PPI acima indicou uma correlação significativa e forte (teste de regressão polinomial, R 2 = 0,8834, Fig. 2a) entre as idades dos genes e sua conectividade (ou grau, isto é, número de parceiros interagindo) na rede PPI, revelando um processo evolutivo gradual no qual novos genes são integrados na rede PPI, que ecoou o procedimento evolutivo de novas estruturas gênicas [16]. Essa descoberta sugere que ao longo da evolução dos vertebrados houve um processo não robusto e rápido, inesperado pelo pensamento convencional, no qual novos genes foram integrados às redes GGI. Durante este processo de 370 milhões de anos (MY, ramo 1-12, Fig. 1a) que examinamos, observamos que 5.710 novos genes foram integrados nas redes GGI. Além disso, esse processo apresentou um padrão evolutivamente significativo: os novos genes começaram, em uma idade jovem, a se integrar em redes para formar ramos novos e menos conectados, porém, com o decorrer do tempo evolutivo, à medida que os genes envelhecem, adquiriram mais interação links.

Diagrama esquemático para mostrar a integração da rede de novos genes originários de vários ramos filogenéticos para humanos. uma Árvore filogenética de vertebrados em direção a humanos junto com ramos e tempos de divergência em milhões de anos a partir do presente (myr). O número de genes originados em cada ramo filogenético também foi listado. b Um subgráfico da rede PPI humana para mostrar a incorporação de novos genes de diferentes épocas de origem

Padrões topológicos da rede GGI de genes humanos relacionados aos seus tempos de divergência. uma Distribuição da conectividade da rede PPI (número de interações) para genes de diferentes ramos filogenéticos. b Distribuição de genes de diferentes ramos filogenéticos de outra conectividade de rede PPI reconstruída com um limite mais estrito. c Distribuição da intermediação média (baseada em log10) dentro de cada grupo de genes na rede PPI. d Distribuição de conectividade de rede de GC (co-expressão gênica) para genes de diferentes ramos filogenéticos. As barras de erro mostram o erro padrão da média para cada grupo de genes, e a linha tracejada indica a correlação de regressão polinomial entre as centralidades da rede (ou seja, conectividade, intermediação) dos genes e seus tempos de divergência. Os números próximos a cada ponto de dados são atribuições de ramos filogenéticos para cada grupo de genes. O tempo de divergência de cada grupo de idade do gene foi atribuído como o ponto de tempo médio para cada ramo e o ramo mais antigo (ramo 0) é arbitrariamente definido como 500 myr

Para evitar possível viés criado pelo limite de pontuação de confiança escolhido para a reconstrução da rede PPI humana, reanalisamos uma nova rede PPI humana usando um corte mais rigoroso (com pontuação de confiança mínima de 0,77, consulte Métodos e arquivo adicional 2: Tabela S1) e encontramos o mesmo padrão evolutivo (teste de regressão polinomial, R 2 = 0,7909, Fig. 2b). A conclusão baseada na conectividade é ainda suportada pela análise de outro parâmetro estatístico que descreve as centralidades da rede de genes, isto é, Entre, que mediu a importância de um nó conectando todos os outros nós (teste de regressão polinomial, R 2 = 0,9021, Fig. 2c). Com base na rede PPI humana reconstruída a partir de um recurso de curadoria manual experimental diferente (ver métodos e arquivo adicional 3: Figura S2A), ou seja, Human Protein Reference Database (HPRD) [17], a mesma conclusão foi tirada conforme descrito acima (arquivo adicional 3: Figura S2B).

Para uma análise mais rigorosa dos tipos de dados GGI independentes, analisamos outra rede GGI humana referida como rede de co-expressão gênica (hGC) (ver métodos e arquivo adicional 3: Figura S2C e D), refletindo as correlações do perfil de expressão gênica em uma série de tecidos humanos [18]. O mapeamento das posições topológicas de novos genes em humanos na rede GC revelou uma correlação semelhante entre as idades e a conectividade dos genes (teste de regressão polinomial, R 2 = 0,6527, Fig. 2d), revelando a mesma tendência evolutiva de novos genes começando com baixa conectividade e evoluindo para hubs altamente conectados. Além disso, também exploramos os padrões evolutivos da rede PPI humana com base em outro conjunto de dados de idade do gene [19] (arquivo adicional 4: Figura S3A), que estimou as idades dos genes no genoma humano com base na distribuição filogenética independente e distante. Um mesmo padrão evolutivo de novos genes foi mostrado (arquivo adicional 4: Figura S3B), e foi ainda demonstrado que nossa conclusão era independente dos conjuntos de dados de datação por idade do gene. Assim, diferentes dados de GGI, ou seja, dados de PPI e GC, e dados de datação de idade de genes diferentes, todos apoiaram as mesmas conclusões relatadas acima.

Além disso, aplicamos um protocolo semelhante à análise das redes GGI de mouse reconstruídas a partir de dados PPI de mouse (mPPIs), integrando a maioria dos conjuntos de dados de interação experimental online disponíveis (arquivo adicional 5: Tabela S2). A análise integrativa das informações de idade do gene de camundongo [13] (arquivo adicional 6: Figura S4A) e dados topológicos PPI (arquivo adicional 6: Figura S4B) levam à mesma conclusão (teste de regressão polinomial, R 2 = 0,6232, Arquivo adicional 6: Figura S4C) determinado pelas análises de rede GGI humana. Esses dados sugerem que uma integração gradual de novos genes nas redes GGI é um processo evolutivo compartilhado em linhagens de primatas e roedores de mamíferos.

Dada a observação de que a aquisição de interações genéticas é um procedimento gradual dependente do tempo, investigamos ainda se esse processo ocorria a uma taxa constante. Nosso resultado mostrou que novos genes podem estabelecer parceiros de ligação em uma alta taxa (interações adquiridas por milhão de anos) no estágio inicial de sua origem. Depois disso, a taxa caiu drasticamente e, finalmente, estabilizou (Fig. 3a eb), sugerindo que a aquisição de papéis biológicos de novos genes é um processo rápido durante a evolução inicial, mas à medida que os genes envelhecem, o espectro de funções é diversificado em um taxa muito mais baixa. Aproveitando a alta cobertura dos dados de PPI humanos (arquivo adicional 2: Tabela S1), subsequentemente nos concentramos na análise dos padrões de evolução topológica e funcional de novos genes com base em nossa primeira rede PPI humana construída.

Taxa média de evolução de parceiros de ligação (interações / myr) para genes de diferentes ramos filogenéticos com base na rede PPI humana (uma) e rede PPI de mouse (b) A linha tracejada indica a correlação de regressão de potência entre as taxas de evolução das interações dos genes e seus tempos de divergência. Os números próximos a cada ponto de dados são atribuições de ramos filogenéticos para cada grupo de genes. O tempo de divergência de cada grupo de idade do gene é atribuído como o ponto de tempo médio para cada ramo. E o branch mais antigo (branch 0) é arbitrariamente definido como 500 myr

Para melhor visualizar o processo de integração, mapeamos os genes nas redes GGI de mamíferos com base em sua conectividade, onde genes altamente conectados constituíam o núcleo da rede PPI humana e genes com baixa conectividade estavam localizados na periferia da rede (Fig. 4) , que revelou uma correlação clara entre a idade do gene e a localização nas redes GGI de mamíferos. Surpreendentemente, descobriu-se que uma pequena fração de genes jovens evoluiu para o núcleo da rede, enquanto a maioria dos genes de origem recente, especialmente genes específicos de primatas (ramo 8-12, Fig. 1a), estão localizados nas regiões externas da rede . À medida que a idade dos genes aumenta, eles tendem a aparecer com mais frequência no núcleo mais densamente conectado da rede.

Localizações de genes na rede PPI em relação aos seus tempos de divergência. As localizações de rede de genes são classificadas em cinco camadas distintas de acordo com a classificação de centralidades de grau. Especificamente, os genes que possuem os 20% superiores de centralidades de grau são atribuídos ao núcleo da rede (genes com conectividade muito alta) e aqueles com os 20% inferiores de centralidades de grau na periferia da rede (genes com conectividade muito baixa). A mesma regra é aplicada para a atribuição das três camadas intermediárias da rede. O eixo x mostra os ramos filogenéticos para cada grupo de genes, e o eixo y indica a categorização dos genes de acordo com as especificações acima, e o eixo z exibe a porcentagem de genes dentro de cada faixa etária localizada nas categorias correspondentes

Novos genes gradualmente adquirem papéis de função pleiotrópica e essencial

Como a maioria das características biológicas surgem das complexas interações entre os numerosos componentes da célula [4], a integração de novos genes na rede GGI pode indicar o surgimento de novas funções para esses novos genes. Além disso, a evolução gradual de mais interações nas redes GGI pode sinalizar o processo de novos genes adquirindo funções pleiotrópicas. Esta hipótese poderia ser indiretamente confirmada pela forte correlação de conectividade de genes e seus tempos de divergência (Fig. 2a) e uma forte correlação linear entre a conectividade de genes e sua amplitude de expressão em ambos os níveis de expressão de RNA (teste de correlação linear de Pearson, R 2 = 0,9384, Fig. 5a) e nível de expressão de proteína (teste de correlação linear de Pearson, R 2 = 0,9457, Fig. 5b). Assim, pode sugerir que novos genes gradualmente evoluem padrões de expressão mais amplos e, portanto, adquirem funções pleiotrópicas, à medida que evoluem gradualmente mais parceiros de ligação (Fig. 2a), e genes com mais parceiros de ligação tendem a ter padrões de expressão mais amplos (Fig. 5a eb) .

Amplitudes de expressão de genes em relação à conectividade da rede PPI e tempos de divergência. uma Número médio de tecidos com expressão de genes com várias conectividade de rede PPI com base em dados de nível de expressão de RNA-seq. b Número médio de tecidos com expressão de genes com várias conectividade de rede PPI com base em dados de nível de expressão de proteína. As barras de erro mostram o erro padrão da média para cada grupo de genes, e a linha contínua indica a correlação de regressão linear entre a conectividade de rede dos genes e sua amplitude de expressão. c Número médio de tecidos com expressão de genes de diferentes ramos filogenéticos com base em dados de nível de expressão de RNA-seq. d Número médio de tecidos com expressão de genes de diferentes ramos filogenéticos com base em dados de nível de expressão de proteínas. A linha tracejada indica a correlação de regressão polinomial entre os tempos de divergência dos genes e suas amplitudes de expressão. A atribuição de ramos é rotulada perto de cada ponto de dados. A atribuição de idade para cada ramo segue a Fig. 1

Para verificar essa hipótese de forma direta, computamos e comparamos os padrões de expressão dos tecidos para genes ao longo de diferentes ramos filogenéticos. Nossos resultados mostraram que os genes gradualmente desenvolveram padrões de expressão de tecido mais amplos no nível de expressão de mRNA a partir de dados de RNA-seq [20] (teste de correlação de regressão polinomial, R 2 = 0,96538, Fig. 5c), que indica a aquisição de funções pleiotrópicas mais fortes. Pode-se discordar do papel do mRNA como o executor de funções biológicas, nossa análise em dados de perfil de expressão de proteínas [20] chegou à mesma conclusão (teste de regressão polinomial, R 2 = 80038, Fig. 5d). Em linha com o processo de integração topológica da rede de novos genes (Figs. 2a e 4), nossos resultados mostraram um processo gradual para que novos genes evoluam papéis de função pleiotrópica, refletido pelos padrões de expressão do tecido. Essas descobertas também sugerem restrições funcionais em novos genes originários [21], uma vez que eles geralmente apresentam padrões de expressão muito estreitos e específicos [22], como a expressão de testículo [23].

Uma característica crítica das redes sem escala é a existência de nós hub, ou nós altamente conectados [24]. Os nós de hub são componentes essenciais em várias redes [25], e estão sujeitos a forças evolutivas concentradas que moldam as estruturas da rede para resultar em funções essenciais [3, 26]. Para explorar a contribuição de novos genes na remodelagem da rede GGI, investigamos as distribuições percentuais de genes hub (com graus de interação não menores que 6) originários de diferentes ramos filogenéticos na rede PPI humana. Os dados revelaram uma forte correlação entre a idade dos genes e as frações dos genes hub (teste de correlação de regressão polinomial, R 2 = 0,8016, Fig. 6a). Em particular, encontramos uma alta proporção de genes hub (16%) surgindo no ramo humano-específico originado mais recentemente (Branch 12, Fig. 1a), e esse número aumentou gradualmente com a idade dos genes, chegando a cerca de 53% para o genes originários mais antigos (ramo 0, genes que surgem antes da divisão dos vertebrados, Fig. 1a). Esse fenômeno indica o processo gradual de novos genes evoluindo para centros de rede e remodelando as redes de interação de genes originais.

Fração de genes topologicamente e funcionalmente essenciais para grupos de genes de diferentes tempos de divergência. uma Fração de genes hub na rede PPI dentro de grupos de genes de diferentes tempos de divergência. Genes hub são definidos como genes com conectividade de rede maior do que o nível médio (grau de interação & gt = 6). A atribuição de ramos é rotulada perto de cada ponto de dados. A atribuição de idade para cada ramo segue a Fig. 1. A linha tracejada indica a correlação de regressão polinomial entre os tempos de divergência dos genes e as frações dos genes hub. b Fração de genes essenciais em relação à conectividade da rede PPI. A linha contínua indica a correlação de regressão linear entre a conectividade de rede PPI de genes e as frações de genes essenciais dentro de cada grupo de genes. c Fração de genes essenciais na rede PPI dentro de grupos de genes de diferentes tempos de divergência. A linha tracejada indica a correlação de regressão polinomial entre os tempos de divergência dos genes e as frações dos genes essenciais

Foi relatado que existe uma relação entre as características topológicas do gene e as funções biológicas [26, 27]. Mais especificamente, genes com alta conectividade de rede tendem a ser funcionalmente essenciais [26] (Fig. 6b). Dada a observação acima de que novos genes gradualmente evoluem muitas interações para se tornarem centros de rede, é razoável inferir que a aquisição de essencialidade funcional para novos genes em genomas humanos pode seguir um processo evolutivo gradual. Por meio da coleta e análise meticulosa de fontes de dados de essencialidade do gene humano (arquivo adicional 7: Tabela S3, consulte Métodos), exploramos a relação entre a essencialidade do gene e o tempo de origem (Fig. 6c). Foi inesperado que uma proporção de genes recém-originados, especialmente genes que surgiram após o ramo 6 (aproximadamente 80 milhões de anos atrás), tenham desenvolvido funções essenciais, embora mais genes originados de períodos mais antigos sejam funcionalmente essenciais, e a fração de genes essenciais aumente com o decorrer do tempo evolutivo. Juntamente com as observações acima mencionadas da topologia da rede, nossa análise demonstrou uma tendência clara de que novos genes humanos gradualmente evoluem para serem topologicamente centrais e funcionalmente essenciais, e adquirem a capacidade de remodelar as redes GGI.

Descobriu-se que genes centrais específicos para humanos têm funções potenciais de desenvolvimento do cérebro

O notável desenvolvimento do cérebro em espécies da linhagem de primatas, especialmente em humanos, é uma marca registrada decisiva que os diferencia de outros organismos [28]. Estudos recentes relataram papéis importantes de novos genes na evolução de importantes características relacionadas ao cérebro humano. Por exemplo, foi detectado que um excesso de genes jovens (isto é, específicos de primatas) no genoma humano são recrutados no desenvolvimento inicial do cérebro humano [2] funções de fortalecimento potencial da conexão de neorons do cérebro por SRGAP2 [29, 30] o funções da pele e do cérebro por CHRFAM7A [31, 32]. Investigamos ainda mais a correlação dos genes jovens em humanos que têm evidências de funcionamento no desenvolvimento do cérebro com suas estruturas topológicas nas redes GGI.

Por meio da análise integrativa dos dados de padrão de expressão cerebral desses genes jovens [2] e suas características topológicas de rede com base em dados de rede PPI humana, não encontramos viés significativo nas porcentagens de genes hub (com graus de interação mínimo de 6) entre três diferentes categorias de expressão cerebral de genes jovens (teste exato de Fisher, Feto vs. Adulto: P valor = 0,435, adulto vs. imparcial: P valor = 0,3323, Fig. 7). Em outras palavras, genes jovens com conectividade de rede diversa contribuem igualmente durante os estágios iniciais e finais do desenvolvimento do cérebro humano.

Comparação de topologias de rede PPI para genes jovens com diversos padrões de expressão cerebral. Esta figura mostra a distribuição percentual de genes hub jovens e genes não hubs jovens em diferentes categorias de padrões de expressão cerebral. A diferença de significância estatística foi calculada usando o teste exato de Fisher

Mais intrigantemente, quatro genes específicos da linhagem humana (os genes que se originaram apenas na linhagem humana desde sua divergência e, portanto, existem apenas no genoma humano), genes centrais com evidências de expressão clara no cérebro humano foram encontrados (arquivo adicional 8: Tabela S4). Como não havia nenhuma pista direta na literatura sobre suas funções no desenvolvimento cerebral desses quatro genes, conduzimos um estudo de 'culpa por conexão' para investigar as evidências relatadas para os papéis na função cerebral de seus parceiros de ligação direta por curadoria manual de estudos iniciais (Arquivo adicional 9: Tabela S5). Por exemplo, CCT4, uma subunidade de chaperonina contendo TCP1, foi relatado como estando envolvido com o desenvolvimento de um distúrbio de mau funcionamento do cérebro - doença de Alzheimer [33], e também foi mostrado que CCT4 (gene id: 10575) é um parceiro direto de interação de um do gene hub jovem - FAM86B2 (gene id: 653333, Fig. 8). Coletivamente, descobrimos que 62,5% (10 de 16) e 53,3% (8 de 15) dos parceiros de ligação da primeira camada para dois dos quatro genes centrais, que eram tendenciosos para o cérebro do feto, foram confirmados como envolvidos no desenvolvimento do cérebro (Fig. 8 e arquivo adicional 9: Tabela S5). Enquanto para os outros dois genes hub imparciais, 24,4% (10 de 41) e 50% (3 de 6) foram comprovados para funcionar no desenvolvimento do cérebro na literatura anterior (Fig. 8 e arquivo adicional 9: Tabela S5). Como genes com funções semelhantes tendem a estar dentro do mesmo cluster de rede [34], essa evidência sugere que esses quatro genes hub específicos da linhagem humana também podem estar com funções associadas no desenvolvimento do cérebro humano.

Genes centrais específicos da linhagem humana e seus parceiros de ligação de primeiro nível. Esta figura ilustra dois genes hub específicos da linhagem humana polarizados do cérebro do feto (em cima) e dois genes hub específicos da linhagem humana não tendenciosos (abaixo) e seus parceiros de interação direta da rede PPI humana. Os genes polarizados no cérebro do feto (azul), cérebro adulto (vermelho) e não tendenciosos (laranja) entre o feto e o cérebro adulto são marcados. Genes (em círculos quadrados) delineados no retângulo verde tracejado foram relatados como tendo algumas funções relacionadas ao desenvolvimento do cérebro na literatura anterior

Múltiplos mecanismos conduzem a evolução da rede GGI humana

A propriedade mais significativa de redes complexas, incluindo redes biológicas, é a distribuição de grau de lei de potência [24] (Arquivo adicional 1: Figura S1), ou o chamado recurso sem escala. Seguindo o modelo Barabasi-Albert (BA) clássico [35], este modelo de fixação preferencial também foi aplicado para explicar a característica livre de escala das redes biológicas [36], que afirma que novos genes originários tendem a interagir com nós bem conectados . No entanto, o maior desafio para este modelo são as características distintivas das redes biológicas - a duplicação como a fonte dominante de evolução da rede [37]. Portanto, outro modelo biologicamente motivado, denominado modelo de duplicação-divergência, foi proposto [38, 39], que é responsável tanto pela duplicação do gene quanto pela perda subsequente de interações herdadas. No entanto, a aquisição de novos links, exceto interações herdadas, não foi considerada neste modelo.

Para abordar essa questão de um aspecto evolutivo, definimos genes específicos de primatas (ramo 8-12 como mostrado na Fig. 1a) como genes jovens e genes que se originaram antes deste período de tempo como genes antigos. Entre esses genes jovens, 95% deles foram criados a partir de mecanismos baseados em duplicação (tanto de duplicação de nível de DNA quanto de duplicação de nível de RNA) (Arquivo adicional 10: Figura S5), o que está de acordo com o argumento clássico de que a duplicação é o fonte dominante de evolução [37]. Consequentemente, esses genes jovens herdaram em média 27% de parceiros de ligação de seus genes parentais (Fig. 9a), o que é estatisticamente maior (18 vezes) do que os pares de genes aleatórios (Fig. 9b). Esta descoberta indicou a herança de parceiros de interação de novos genes de suas cópias parentais [5]. Exploramos ainda mais o padrão de genes jovens para estabelecer novos parceiros de ligação, removendo essas interações compartilhadas com seus genes parentais. Diferente do padrão em leveduras [10], descobrimos que os genes jovens tendem a preferir como novos padrões de ligação os genes com alta centralidade topológica (testes de Qui-quadrado, Grau: P valor & lt2.2e-16 Betweenness: P valor & lt2.2e-16, Fig. 10a) e idade avançada (teste exato de Fisher, P valor = 0,001247, Fig. 10b), iluminando um processo de enriquecimento cada vez mais rico [35] para que novos genes desenvolvam novos links. Assim, nossos resultados indicam a relevância biológica do modelo de duplicação-divergência, e também mostram o apego preferencial para adquirir novos links para novos genes originários. Esta descoberta forneceu dados empíricos e uma nova perspectiva para o desenvolvimento de novos modelos evolutivos de redes biológicas no futuro.

Herança de parceiros de ligação para genes jovens baseados em duplicação (genes específicos de primatas). uma O status de herança para pares de genes duplicados "reais" no contexto de redes PPI. b O status de herança para pares de genes aleatórios no contexto de redes PPI. Os números dentro dos círculos mostram a conectividade de rede PPI média para genes parentais ou genes filhos, e as porcentagens indicam as frações de parceiros de ligação comuns compartilhados por genes parentais e genes filhos

Apego preferencial a novos parceiros de ligação de genes jovens (genes específicos de primatas) após a remoção das interações compartilhadas com seus genes parentais. uma Preferência em centralidades de rede (grau e intermediação) para novos parceiros de interação de genes jovens. As centralidades são classificadas e divididas em três níveis - alta, moderada e baixa, cada uma com o mesmo número de genes. b Preferência dos genes jovens para os tempos de divergência de novos parceiros de ligação. O número antes da barra indica o número "real" de parceiros vinculados, enquanto o número depois é da expectativa aleatória

No presente estudo, relatamos um processo de integração gradual de novos genes em redes GGI ancestrais (Fig. 2). Uma pergunta intrigante a se fazer é quais mecanismos estão subjacentes à evolução dessas novas redes integradas de genes, ou por que os novos genes são geralmente menos centrais nessas redes GGI. Com base nesses dados, primeiro, propusemos que a evolução da nova rede conduzida por genes em humanos é um processo limitado por mutação devido ao pequeno tamanho efetivo da população [40]: já que é um processo dependente do tempo para novos genes serem adaptados o genoma e as redes GGI, estabelecendo novos parceiros de ligação.

Além disso, novos genes originários foram encontrados para ser particularmente mais curto no comprimento da proteína (arquivo adicional 11: Figura S6A) [10], e, conseqüentemente, poderia fornecer apenas uma superfície de interação limitada para potenciais parceiros de interação [41]. Do ponto de vista da evolução, os genes gradualmente desenvolvem proteínas com comprimento maior para obter mais interações, à medida que envelhecem, na verdade desempenhando um papel como um fator mecanicista não dominante. No entanto, descobrimos que o menor comprimento da proteína não foi um fator importante para determinar os links, pois observamos os mesmos padrões para os conjuntos de dados de comprimentos de proteína controlados (arquivo adicional 11: Figura S6B). Além disso, novos genes também foram encontrados para serem expressos em menos tecidos (Fig. 5c e d) e níveis de expressão mais baixos (Arquivo adicional 11: Figura S6C), enquanto genes com padrões de expressão mais amplos (Fig. 5a eb) e níveis de expressão mais elevados (Arquivo adicional 11: Figura S6D) tendem a ter mais interações. Mecanicamente, as restrições tanto na amplitude de expressão (Fig. 5c e d) e níveis de expressão (Arquivo adicional 11: Figura S6C) de novos genes emergentes só poderiam permitir que eles se conectassem com genes expressos nos mesmos tecidos com espaço de ligação limitado, que além disso, impedi-los de se tornarem nós altamente conectados da rede. No entanto, após serem normalizados por nível de expressão e amplitude, descobrimos que, dados os mesmos níveis de expressão e amplitude, os genes antigos ainda desenvolveram significativamente mais links do que genes jovens (Arquivo adicional 11: Figura S6E e F). Além disso, com base na análise anterior (Fig. 10), os genes mais antigos altamente conectados fornecem aos novos genes mais opções para desenvolver novas vias para funções vantajosas. Portanto, concluímos que, além dos elementos mecanísticos, como comprimentos de proteínas e níveis de expressão que podem desempenhar um papel mecanicista limitado, o tempo evolutivo com a preferência de enriquecimento e enriquecimento de novos parceiros de ligação contribuiu significativamente para o surgimento da evolução observada. padrões de redes GGI que são impactados por forças evolutivas de seleção natural e mutação.

Apesar da restrição geral de novos genes para adquirir parceiros de ligação (Fig. 2), ainda encontramos uma fração de novos genes, especialmente genes jovens (genes específicos de primatas, ramo 8-12, Fig. 1a), podem desenvolver interações rapidamente e esmagar no núcleo da rede (Fig. 4). É tentador perguntar qual "efeito de aptidão" [42] facilita a aquisição rápida de parceiros de ligação para esses novos genes. Para resolver esse problema, exploramos as características da sequência de proteínas desses genes hub jovens (com graus de interação mínimos de 6) e genes não hubs jovens. Apesar dos genes hub jovens serem ligeiramente mais curtos em comprimento de proteína, eles foram encontrados com proporções maiores de baixa complexidade e regiões desordenadas intrínsecas do que genes não hubs jovens (arquivo adicional 12: Tabela S6). As regiões de baixa complexidade e desordem estrutural criam mais flexibilidade e adaptabilidade para ligar parceiros distintos [41, 43]. Portanto, essas características intrínsecas benéficas conferem a esses genes alta afinidade para adquirir rapidamente novas interações, tornando-se, portanto, hubs de rede.


Materiais e métodos

As cepas, genótipos e medidas de expressão gênica foram as da ref. 7. Nós mesclamos marcadores adjacentes altamente correlacionados, para obter um total de 526 marcadores (25). Para nossa análise, normalizamos a média dos dados de expressão de 0 e variância 1. Para os estágios 1 e 2 do nosso algoritmo, usamos apenas os dados dos 1.733 genes que apresentaram variação significativa (SD & gt0,25) em seu nível de expressão. Categorias GO de www.yeastgenome.org com genes & gt5 foram usadas para a avaliação da função biológica.Os sítios de ligação de fator de transcrição putativos foram obtidos em http://fraenkel.mit.edu/yeast_map_2006.

Algoritmo GOLPH.

GOLPH é um procedimento de várias etapas para identificar ligações multilocus e pares de loci em interação. Descrevemos resumidamente o algoritmo, adiando a explicação detalhada para Texto SI. Duas características principais do GOLPH permitem a capacidade de identificar ligações múltiplas. Em primeiro lugar, o GOLPH permite a identificação de interações específicas do alelo nas quais os QTL secundários são específicos para o alelo no locus primário. Isso está em contraste com um QTL secundário que contribui independentemente do alelo no locus primário. Nosso modelo pode ser escrito como expressão y ∼ linha de base + machado + αpor + (1 - α)cZ, α = 1 para X = BY e α = 0 para X = RM, onde X é o locus primário, e Y e Z são 2 loci secundários.

Em segundo lugar, está o uso da modularidade: em vez de procurar QTLs interagentes em cada gene de forma independente, agrupamos genes em módulos com base nos pontos de acesso identificados para cada um. Esta etapa aumenta muito o número de ligações detectadas e reduz artefatos de medição e ruído.

Estágio 1.

O primeiro estágio de nossa análise aplica a análise genética clássica (2, 28) para procurar a ligação de características de expressão gênica a um locus primário. Para cada gene e marcador, usamos um Welch's t teste de estatística (29) e teste de permutação com um corte rigoroso para avaliar a significância da ligação, com pontos de corte de 0,05 para o t teste P valor e 10 −5 para o teste de permutação. Como os genes ligados a um marcador também podem ter sinais de ligação em marcadores vizinhos, mesclamos pequenos picos com picos proximais maiores em pontos críticos cromossômicos. Após a fusão dos picos, identificamos 44 locus hotspots que se ligam a pelo menos 5 genes para o estágio 2.

Etapa 2.

Para cada um dos 44 módulos identificados no estágio 1 e cada gene que se liga a eles, particionamos os segregantes com base na herança (BY ou RM) no locus primário e testamos da mesma forma cada subgrupo para outros loci secundários. Este processo foi realizado de forma independente para o alelo BY ou RM no locus primário. Loci secundários são considerados significativos se Welch t teste P & lt0.05 e P & lt10 −4. Cada ligação secundária detectada define um iQTL representado como uma árvore de decisão. A árvore resultante pode ter divisões secundárias no lado BY (direito), no lado RM (esquerdo) ou em ambos. Como os loci próximos se ligam a conjuntos de genes sobrepostos, mesclamos módulos iQTL semelhantes (consulte Texto SI) Depois de remover os módulos que têm & lt5 genes, obtivemos 91 módulos iQTL.

Etapa 3.

Como discutido acima, GOLPH usa a modularidade da expressão gênica para ganhar poder adicional. Semeiamos nossa pesquisa com o iQTL detectado usando critérios altamente rigorosos no estágio 2, garantindo que os loci selecionados provavelmente exerçam influência regulatória causal nos transcritos de genes. Examinamos as árvores de regulação uma a uma e avaliamos todos os 4.338 genes em nosso conjunto para aquele módulo. Cada árvore envolve 2 testes independentes, dependendo da estrutura da árvore. Para cada módulo, geramos uma distribuição de P valores em todos os 4.338 genes independentemente para cada um dos 2 testes acima. Um gene é atribuído ao módulo usando uma taxa de descoberta falsa em todo o genoma (FDR) de 1% (30) para ambos os testes. Conseqüentemente, nosso limite é adaptável ao número de genes e à força do sinal de ligação para cada locus, portanto, um grande número de sinais fracos que apontam para o mesmo locus aumentam a significância.

Módulo de anotação.

Para anotar biologicamente os módulos resultantes, calculamos o enriquecimento hipergeométrico para todos os módulos contra todas as anotações e realizamos uma correção de FDR para várias hipóteses independentes. Nós consideramos valores de Pcorrigido & lt 0,005 para ser significativo.

Informações adicionais.

Para visualização e análise interativas de todos os módulos iQTL construídos, geramos um arquivo formatado para visualização com nossa ferramenta de análise interativa GENATOMY. *


A variabilidade RE revela milhares de domínios cis-regulatórios

Para estudar a coordenação de ERs, medimos sistematicamente a correlação interindividual entre os picos de cromatina localizados dentro de uma janela deslizante abrangendo 250 picos. Isso revelou uma correlação generalizada que decai rapidamente com a distância, varia ligeiramente entre os pares de ensaio e mostra especificidade de tipo de célula aumentada em longo intervalo (Fig. 1A e Fig. S10). É importante ressaltar que essa correlação não é específica para esses dados porque também a observamos em um conjunto de dados independente para neutrófilos do projeto Blueprint (24) (fig. S11), com um grau de concordância relativamente bom (fig. S12). A correlação forma domínios bem delimitados que chamamos de domínios regulatórios cis (CRDs) (Fig. 1B) (19) Produzimos um conjunto de chamadas de todo o genoma de CRDs usando um algoritmo baseado em agrupamento hierárquico que agrupa iterativamente picos de cromatina em CRDs com base em seus níveis de correlação (23) Isso reagrupou 40,9% (n = 111.005) e 16,6% (n = 45.062) dos picos de cromatina em 12.583 e 10.442 CRDs em LCLs e fibroblastos, respectivamente.

(UMA) Mapa de todo o genoma das correlações interindividuais quadradas entre picos de cromatina próximos (tons de azul). Os maiores cromossomos (chr) são divididos em várias linhas. (B) Visão ampliada da área em caixa em (A), uma região que abrange 2.000 picos de cromatina no cromossomo 4. A correlação interindividual (tons de azul) é dada no contexto de contatos Hi-C (com escala entre 0 e 1 tons de vermelho). As chamadas CRD são mostradas com triângulos pretos e as localizações genômicas dos TADs e CRDs na região são mostradas com intervalos em vermelho e azul, respectivamente. Mbp, pares de megabases.

No caso de LCLs, CRDs capturam atividade coordenada em 13.872 (57,7%) e 55.059 (40,5%) dos promotores e potenciadores putativos, uma vez que os picos de cromatina são colapsados ​​em REs não sobrepostos (fig. S13A). Em média, um CRD contém 5,6 REs, mas isso varia substancialmente (44,6% com 2 REs e 14,2% com & gt10 REs fig. S13B). Como resultado, os CRDs nos ajudam a estudar a coordenação potenciador-promotor (fig. S14A): Um promotor, em média, coordena com 7,8 potenciadores [mediana (md) = 4, desvio padrão (sd) = 11,5], enquanto um potenciador com 1,9 promotores (md = 1, sd = 2,1 fig. S14B) está em linha com as estimativas anteriores (25) Apenas 46,2% dos promotores coordenam com seu intensificador mais próximo (fig. S14C), confirmando que os intensificadores não devem ser atribuídos aos promotores com base apenas na proximidade. Além disso, os intensificadores tendem a se localizar em um ou outro lado dos promotores, como sugerido pelo enriquecimento de promotores nas fronteiras CRD (fig. S14D).

A análise dos efeitos específicos do alelo (ASE) nos picos da cromatina revela que a coordenação entre os REs ocorre de uma maneira específica do haplótipo (17, 23) Na verdade, descobrimos que REs distintos tendem a exibir coordenação de atividade haplotípica quando pertencem aos mesmos CRDs (fig. S15). Isso mostra que a coordenação entre ERs descobertos em nível populacional ocorre em cis e é observada em nível individual usando ASE. O mapeamento de CRDs usando dados populacionais é, por natureza, dependente do tamanho da amostra. Portanto, subamostramos os dados LCL em grupos de 50 indivíduos para avaliar nosso poder de descoberta e descobrimos que 317 amostras LCL fornecem um poder razoável: A saturação é alcançada em termos de número de CRDs descobertos, enquanto mais amostras delimitariam melhor seu conteúdo de pico de cromatina (fig. S16).

No geral, a correlação interindividual entre os picos da cromatina é capaz de revelar a atividade coordenada de uma grande fração de REs no genoma, uma coordenação que ocorre dentro de milhares de CRDs e define a maneira pela qual os efeitos genéticos afetam o panorama cis-regulatório dos genes.


Resultados

Os resultados de nosso estudo são consistentes com a previsão de que espécies mais distantemente relacionadas são mais divergentes em seus padrões de expressão gênica. A expressão do gene foi positivamente correlacionada para todos os pares de espécies, muitas vezes de forma bastante forte (observe que todas as medidas GES foram & gt0, Fig. 1). No entanto, a magnitude dessas correlações positivas tendeu a diminuir à medida que a PD entre os pares de espécies aumentou (P1, Fig. 1a, ρ = −0 · 27, P = 0 · 02). Embora estivéssemos principalmente interessados ​​na expressão gênica entre as espécies quando elas estavam interagindo, as espécies também podem diferir na expressão gênica intrinsecamente (ou seja, na monocultura), ou podem diferir na forma como regulam para cima ou para baixo a expressão gênica na bicultura em relação à monocultura (estimado como a alteração da dobra do log no TPM, 'logFC'). Portanto, também testamos como o PD estava relacionado ao GES de espécies cultivadas em monocultura e ao GES de logFC. Observamos a mesma tendência geral entre PD e GES, independentemente de observarmos o GES em monoculturas de pares de espécies (Fig. 1b, ρ = −0 · 35, P = 0 · 07), o GES do logFC de espécies cultivadas como biculturas (ρ = −0 · 28, P = 0 · 01), ou a similaridade de expressão de apenas os genes candidatos na bicultura (ρ = −0 · 21, P = 0 · 07) ou monocultura (ρ = −0 · 18, P = 0 · 36). Este conjunto de análises indica que, independentemente das condições em que a expressão gênica foi medida, ou a estimativa particular de expressão gênica que foi usada, espécies mais distantemente relacionadas tiveram maiores diferenças em seus padrões de expressão gênica do que espécies mais estreitamente relacionadas.

Ao contrário da nossa segunda previsão, quando as espécies eram mais semelhantes na expressão gênica (valores mais altos de GES), a competição entre elas era mais fraca (Fig. 2 painéis superiores), e para outras espécies as interações facilitadoras tornaram-se mais comuns (Fig. 2 painéis inferiores) . O aumento do GES foi associado a um declínio nos coeficientes de interação estimados a partir de modelos Lotka-Volterra ajustados à dinâmica da população (correlação de classificação de Spearman de GES e αeu j para: C. acicularis Fig. 2a, ρ = −0 · 72, P & lt 0 · 01, T. mínimo Fig. 2b, ρ = −0 · 49, P = 0·04, Selenastrum capricornutum Fig. 2c, ρ = −0 · 45, P = 0 · 05, e S. punctulatum Fig. 2d, ρ = −0 · 79, P & lt 0,01, correlações não significativas não mostradas). Essa tendência também foi apoiada quando investigamos o GES em todo o transcriptoma para espécies cultivadas separadamente em monocultura, ou quando investigamos o GES de genes candidatos em bicultura ou em monocultura (Tabela 1). Isso indica mais uma vez que, independentemente de considerarmos uma grande parte do transcriptoma ou apenas um conjunto de genes supostamente importantes nas interações entre espécies, e independentemente de termos investigado a expressão gênica na bicultura ou na monocultura, espécies com padrões genéticos mais semelhantes expressão tendia a mostrar competição mais fraca e, em alguns casos, facilitação. Ao todo, 13 das 14 correlações significativas entre GES e força de interação foram negativas, o que é significativamente maior do que o esperado ao acaso (χ 2 = 10,29, P & lt 0 · 01).

Correlação de expressão de espécie / gene Todos os genes em bicultura Todos os genes em monocultura Genes candidatos em bicultura Genes candidatos em monocultura
Chlorella sorokiniana 0·11 −0·25 -0 · 47a uma A correlação é significativa em P ≤ 0·05.
-0 · 52a uma A correlação é significativa em P ≤ 0·05.
Closteriopsis acicularis -0 · 72a uma A correlação é significativa em P ≤ 0·05.
-0 · 76a uma A correlação é significativa em P ≤ 0·05.
0·21 0·37
Cosmarium turpinii 0·23 0·16 0·42 0 · 59a uma A correlação é significativa em P ≤ 0·05.
Pandorina charkowiensis −0·27 −0·14 −0 · 44a uma A correlação é significativa em P ≤ 0·05.
−0·29
Scenedesmus acuminatus −0·26 -0 · 45a uma A correlação é significativa em P ≤ 0·05.
−0·35 -0 · 69a uma A correlação é significativa em P ≤ 0·05.
Selenastrum capricornutum -0 · 45a uma A correlação é significativa em P ≤ 0·05.
0·009 0·22 −0·15
Staurastrum punctulatum -0 · 72a uma A correlação é significativa em P ≤ 0·05.
−0·31 −0·009 -0 · 38b b A correlação é significativa com 0,05 & lt P & lt 0 · 1.
Tetraedro mínimo -0 · 49a uma A correlação é significativa em P ≤ 0·05.
-0 · 41b b A correlação é significativa com 0,05 & lt P & lt 0 · 1.
-0 · 55a uma A correlação é significativa em P ≤ 0·05.
0·07
  • uma A correlação é significativa em P ≤ 0·05.
  • b A correlação é significativa com 0,05 & lt P & lt 0 · 1.

Ao contrário da nossa terceira previsão, descobrimos que o GES também foi associado a uma maior probabilidade de coexistência entre pares de espécies. Isso é ilustrado na Fig. 3, que mostra pares de espécies em que uma ou ambas as espécies tinham um coeficiente de interação negativo (pontos vermelhos), indicando que pelo menos uma espécie se beneficiou da presença de outra espécie (ou seja, facilitação). A similaridade de expressão gênica foi um preditor significativo de ambas as probabilidades de interações de espécies positivas (β = 9 · 60, P = 0 · 005), bem como a probabilidade de coexistência (β = 9 · 36, P = 0·006).

Em vez de ser codificado por similaridade nos níveis de expressão em vários genes, é possível que as forças de interação sejam determinadas pela expressão de genes individuais funcionalmente importantes. Na verdade, quando investigamos se os níveis de expressão de cada gene candidato em particular estavam correlacionados com as forças de interação de cada espécie individual entre as biculturas, descobrimos que quase todas as famílias de genes candidatos estavam negativamente correlacionadas com a magnitude dos coeficientes de interação de pelo menos um dos as oito espécies (Tabela 2). Das 32 correlações significativas entre a expressão gênica e a força de interação das espécies, 30 foram negativas, o que é significativamente maior do que o esperado do acaso (Tabela 2, χ 2 = 24,5, P & lt 0 · 0001). Este resultado indica que a expressão de genes candidatos tendeu a ser negativamente associada com as forças de interação das espécies em geral, indicando competição mais fraca e facilitação mais frequente. Quando consideramos as correlações entre a expressão de famílias de genes candidatos e RDeus para espécies individuais (Tabela S2), 52 de 56 correlações significativas e marginalmente não significativas foram positivas (χ 2 = 41 · 14, P & lt 0,01), indicando novamente que a similaridade da expressão do gene candidato foi geralmente associada a uma competição mais fraca e facilitação mais frequente. Descobrimos que os níveis de expressão de todas as famílias de genes candidatos, exceto nitrito redutase e cobalamina, foram preditores significativos de RDeu através de espécies e combinações de espécies (Fig. 4, Tabela S2). Tanto a frequência de superprodução (RDeu & gt 1) e a frequência de facilitação (αeu j & lt 0) aumentaram conforme os níveis de expressão das famílias de genes candidatos aumentaram (duas colunas mais à esquerda na Fig. 4).

Gene / família de genes Clorela Closteriopsis Cosmarium Pandorina Scenedesmus Selenastrum Staurastrum Tetraedro
1. Anidrase carbônica −0·21 −0·12 −0·08 −0·16 0·25 -0 · 71a uma Significativo em P ≤ 0·05.
N / D 0·14
2. Glutamato semialdeído aminetransferase N / D −0·21 0·11 N / D -0 · 72a uma Significativo em P ≤ 0·05.
-0 · 51a uma Significativo em P ≤ 0·05.
0·003 −0·12
3. Permease de ferro 0·28 0·26 N / D −0·23 -0 · 46a uma Significativo em P ≤ 0·05.
−0·58 N / D 0·17
4. Complexo de colheita de luz AB 0 · 59a uma Significativo em P ≤ 0·05.
0·01 0·02 −0·10 −0·36 −0·28 -0 · 66a uma Significativo em P ≤ 0·05.
0·06
5. Proteína reguladora de assimilação de nitrogênio 0·18 0·25 N / D N / D −0·21 N / D N / D 0·13
6. Nitrato redutase 0·15 0·19 0·24 −0·30 −0·74 -0 · 52a uma Significativo em P ≤ 0·05.
-0 · 46a uma Significativo em P ≤ 0·05.
−0·06
7. Transportador de nitrato -0 · 63a uma Significativo em P ≤ 0·05.
0·24 0·23 0·12 0·15 -0 · 45a uma Significativo em P ≤ 0·05.
-0 · 50a uma Significativo em P ≤ 0·05.
0·39
8. Nitrito redutase 0·19 N / D 0·35 -0 · 560a uma Significativo em P ≤ 0·05.
N / D -0 · 50a uma Significativo em P ≤ 0·05.
-0 · 53a uma Significativo em P ≤ 0·05.
−0·37
9. Transportador de nitrito 0·01 0·05 0·26 −0·16 0·04 -0 · 51a uma Significativo em P ≤ 0·05.
N / D 0·16
10. Proteína reguladora de nitrogênio −0·01 0·24 0·22 −0·14 −0·19 -0 · 42b b A correlação é marginalmente não significativa com 0,05 & lt P & lt 0 · 1.
−0·01 0·04
11. Transportador de fosfato −0·11 0·06 0·17 −0·15 -0 · 47a uma Significativo em P ≤ 0·05.
-0 · 53a uma Significativo em P ≤ 0·05.
−0·05 0·13
12. Biotina, vitamina B7 0·23 0·09 0·20 −0·21 0·01 -0 · 65a uma Significativo em P ≤ 0·05.
0·08 0·21
13. Cobalamina, vitamina B12 0·01 −0·21 0·08 -0 · 38b b A correlação é marginalmente não significativa com 0,05 & lt P & lt 0 · 1.
-0 · 77a uma Significativo em P ≤ 0·05.
-0 · 60a uma Significativo em P ≤ 0·05.
-0 · 46a uma Significativo em P ≤ 0·05.
−0·00
14. Tiamina, vitamina B1 0·08 0·14 0·12 −0·20 -0 · 80a uma Significativo em P ≤ 0·05.
-0 · 57a uma Significativo em P ≤ 0·05.
-0 · 43b b A correlação é marginalmente não significativa com 0,05 & lt P & lt 0 · 1.
−0·10
15. Glicose 0·30 0·11 0·19 −0·22 -0 · 47a uma Significativo em P ≤ 0·05.
-0 · 45b b A correlação é marginalmente não significativa com 0,05 & lt P & lt 0 · 1.
−0·25 0·18
16. Manose -0 · 63a uma Significativo em P ≤ 0·05.
0·22 0·12 N / D −0 · 48a uma Significativo em P ≤ 0·05.
-0 · 68a uma Significativo em P ≤ 0·05.
−0·20 0·16
17. Succinato 0,41b b A correlação é marginalmente não significativa com 0,05 & lt P & lt 0 · 1.
0·10 0·14 −0·33 0·23 −0·28 0·02 −0·10
  • uma Significativo em P ≤ 0·05.
  • b A correlação é marginalmente não significativa com 0,05 & lt P & lt 0 · 1.

Finalmente, para identificar outros genes e famílias de genes potenciais que podem se correlacionar com as forças de interação das espécies, procuramos genes cujos padrões de expressão foram regulados diferencialmente em espécies que vivenciam diferentes tipos de interações.Nós referenciamos essas famílias de genes regulados de forma diferente contra o banco de dados de anotações GO e encontramos 28 anotações GO do Processo Molecular (nível 3). A maioria dessas funções gênicas foram reguladas diferencialmente da mesma maneira (tanto para cima como para baixo), independentemente de a espécie ter experimentado competição ou facilitação, ou se experimentou super ou subprodução (Fig. S3, os sinais de mais e menos são pretos e ligados do mesmo lado da linha zero). Isso sugere que a maioria dos genes expressos diferencialmente não foram regulados de forma contrastante de uma maneira diferente em espécies que experimentam diferentes tipos de interações de espécies, ou seja, competição ou facilitação. No entanto, seis das 28 anotações de função molecular foram reguladas para cima quando as espécies experimentaram competição e subprodução, mas foram reguladas para baixo quando as espécies experimentaram facilitação e super cedência, ou vice-versa (as anotações estão em negrito na legenda da Fig. S3, e são indicadas por sinais vermelhos de mais e menos estando em lados opostos da linha zero). Como essas anotações GO foram reguladas de forma contrastante entre espécies que experimentam diferentes tipos de interações, essas funções gênicas podem estar envolvidas na determinação da força de interação das espécies. Espécies que experimentam facilitação e superprodução tendem a regular as funções do gene geralmente associadas à transcrição (por exemplo, moléculas de ligação de DNA / RNA) e metabolismo de energia (Fig. S3, anotação GO # 17, # 26 e # 27). Mais especificamente, as anotações para esses termos GO, usando o portal AmiGO2 (amigo.geneontology.org) e restringindo os resultados da pesquisa apenas àqueles derivados de Viridiplantae e com evidências experimentais para a função do gene, incluíam ribulose-1,5-bisfosfato carboxilase / oxigenase, uma enzima chave no ciclo de Calvin, assim como a piruvato desidrogenase quinase e a succinato-CoA ligase, enzimas envolvidas na produção de acetil-CoA e no ciclo do ácido cítrico. Em contraste, as espécies que experimentam competição e subprodução tendem a regular os genes associados ao transporte molecular, tanto dentro da célula quanto através das membranas celulares (Fig. S3, anotações GO # 7, # 21 e # 22). Por exemplo, os termos GO 0022857 e 0022892 (Fig. S3, # 21 e # 22) identificados como altamente abundantes em culturas que experimentam interações ecológicas negativas (competição ou densidade insuficiente) continham anotações para nitrato, amônio, açúcar, silício, magnésio e outros transportadores de metal.


Fundo

A análise integrativa de dados multi-ômicos para encontrar biomarcadores ou características de vias altamente associadas ao câncer tem recebido atenção considerável [1,2,3,4,5,6]. Considerando a rica informação contida em dados multimômicos, muitos estudos têm investigado as inter-relações entre múltiplos dados meta-dimensionais para melhor interpretação e análise biológica [7,8,9,10,11,12]. Para entender a interação entre os diferentes tipos de recursos genômicos, é necessária modelagem e análise mais sofisticadas. Em particular, as relações causais entre os dados de expressão gênica e a metilação do DNA foram amplamente estudadas [13,14,15,16]. Para a análise conjunta da expressão gênica e dos dados de metilação no câncer, as informações da via e do subtipo têm se mostrado especialmente úteis [17,18,19]. Neste estudo, abordamos o problema da análise integrada dirigida por vias de expressão gênica e dados de metilação no câncer.

Para combinar as informações da via em análise genômica e previsão do câncer, vários métodos de inferir a atividade da via foram propostos [20,21,22,23,24]. Por exemplo, a média e a mediana dos valores de expressão dos genes membros da via podem ser usados ​​para a classificação precisa do câncer [24]. Em [20], o método de inferência da atividade da via de genes responsivos à condição (os genes membros da via cuja expressão combinada mostra um poder discriminativo ideal para o fenótipo da doença) foi proposto para incorporar informações da via na classificação precisa da doença. Abordagens de inferência de atividade de via usando inferência probabilística têm sido usadas para combinar vários tipos de dados ômicos e uma melhor classificação do câncer [21,22,23]. No entanto, esses métodos baseados em vias existentes simplesmente assumem as vias como o conjunto de genes e ignoraram a importância topológica dos genes centrais na rede de vias que podem estar altamente associados a doenças. A este respeito, Liu, et al. propuseram um método de inferência de via baseado em passeio aleatório dirigido (DRW) para identificar os genes e vias topologicamente importantes, ponderando os genes na rede de vias [25]. Como este método DRW original tinha como alvo um único perfil de dados de expressão gênica, abordagens recentes têm se concentrado na integração de vários tipos de dados, por exemplo, expressão gênica e dados de metabólitos [26]. A caminhada aleatória direcionada em um gráfico de metabólito de gene (DRW-GM) foi realizada guiada por informações de via e identificou genes diferenciais importantes e vias de risco no câncer de próstata.

Neste estudo, propomos uma abordagem baseada em DRW em um gráfico gene-gene integrado, especialmente redefinido para a expressão gênica e dados de metilação, a fim de extrair importantes vias e características gênicas para a previsão de sobrevivência. Primeiro, construímos um gráfico gene-gene integrado adicionando bordas entre a expressão gênica e os recursos de metilação, bem como bordas dentro de cada perfil. Na construção do gráfico gene-gene integrado, consideramos duas abordagens: uma que adiciona bordas bidirecionais entre as características de expressão e metilação do mesmo gene que possui ambos os perfis, e outra que considera apenas as interações anticorrelacionadas entre a expressão e a metilação dados. Para as arestas dentro de cada perfil único, adotamos o gráfico de interação baseado em caminhos do estudo anterior [25]. DRW é então realizado, o que produz os valores de peso de ambas as características de expressão e metilação. Os pesos iniciais dos nós de expressão gênica são medidos por DESeq2 [27], que é um método para análise de expressão gênica diferencial em dados de contagem de ensaios de sequenciamento de alto rendimento. Os nós de característica de metilação são inicialmente ponderados usando um t-teste entre dois fenótipos. Usando a saída do DRW, um perfil de atividade do caminho é calculado. Em resumo, o DRW integrativo (iDRW) em um gráfico definido sobre a expressão gênica e recursos de metilação transforma o perfil combinado de expressão gênica e dados de metilação em um único perfil de via. Para extrair ainda mais características importantes da via, aplicamos um autoencoder denoising (DA) [28] à matriz de perfil da via. DA provou ser eficaz na seleção de recursos robustos contra ruído de entrada e extração de vias ou genes relacionados ao câncer mais específicos [29,30,31]. Os recursos resultantes são validados em uma tarefa de previsão de sobrevivência de pacientes com câncer de mama. As vias topologicamente significativas e os genes membros das vias também são identificados e analisados. O processo geral da abordagem proposta é ilustrado na Fig. 1.

Visão geral do método de previsão de sobrevivência baseado em via integrativa proposto

Os recursos da via selecionados com nosso esquema são baseados na expressão gênica e recursos de metilação, bem como nas interações entre os dois. Esses recursos de via extraídos são eficazes para melhorar o desempenho de previsão quando comparados ao perfil baseado em gene ou outros métodos conduzidos por via. Também revelamos que o método iDRW com um autoencoder de denoising seleciona vias ou genes mais específicos do câncer em comparação com aquele selecionado diretamente pelo método iDRW.


Discussão

O IMC é uma característica altamente complexa causada pela interação mal caracterizada entre fatores genéticos e ambientais, com estimativas de herdabilidade superiores atingindo 70% 2. Compreender como os sinais de todo o genoma com tamanhos de efeito pequenos contribuem para o IMC em um nível molecular tem se mostrado difícil. Delinear os mecanismos biológicos subjacentes a esses sinais é crucial para entender melhor o desenvolvimento da obesidade e seus distúrbios cardiometabólicos concomitantes. Neste estudo, realizamos o promotor Capture Hi-C (pCHi-C) em adipócitos brancos humanos primários (HWA) para identificar genes expressos em tecido adiposo correlacionados ao IMC que estão sob regulação genética em cis por variantes que interagem fisicamente com os promotores do gene. Por meio de nosso método de integração de GWAS, cis-Análises de eQTL, interações cromossômicas e replicação robusta dos dados de GTEx e TwinsUK, fomos capazes de identificar 42 genes candidatos para pesquisas futuras de obesidade.

Na ausência de informações do DHS dos adipócitos, usamos os dados do DHS de todos os tecidos no projeto ENCODE e Roadmap Epigenomics para marcar as regiões da cromatina aberta nas interações cromossômicas dos adipócitos 8. Apesar desse comprometimento metodológico, nossos resultados demonstram que as variantes nessas regiões explicam uma parcela significativa (4,6%) da herdabilidade de cis–Expressão regulada no tecido adiposo subcutâneo humano. Mesmo que a porcentagem total de variantes dentro da interseção das regiões da cromatina aberta e locais de looping cromossômico dos adipócitos seja pequena (0,23%), o enriquecimento implica que esses SNPs são funcionalmente relevantes para a biologia dos adipócitos e a regulação gênica em cis.

O enriquecimento de motivos de ligação ao TF para CEBPB e PPARG em interações cromossômicas encontradas em adipócitos, mas não em células CD34 +, confirma que os circuitos reguladores identificados aqui são relevantes para a biologia adiposa. Esses dois TFs já foram mostrados anteriormente para ocupar locais regulatórios compartilhados. Além de ser uma proteína de ligação potenciadora, que está em concordância com sua presença em locais de interação cromossômica, CEBPB demonstrou preceder a ligação de PPARG em muitos locais regulatórios 25, sugerindo que CEBPB primes as regiões regulatórias para a ligação do mestre adiposo regulador PPARG.

Um de nossos loops cis-eQTL variantes é um proxy LD restrito (r 2 = 0,98) para um SNP GWAS de derivação de IMC regional (rs16951275) 2. As técnicas típicas de mapeamento fino, como sobreposição de marcas de histonas, varreduras de motivo de fator de transcrição ou pesquisas eQTL, não necessariamente revelam o mecanismo por meio do qual um SNP pode funcionar. Refinamos o sinal GWAS de 64 para 16 LD SNPs dentro de um TraseiroFragmento III que interage com o MAP2K5 promotor por sobreposição cis-eQTLs, o mapa de interação promotor-intensificador e a correlação expressão-IMC. O principal candidato, rs4776984, aumentou a ligação à proteína nuclear HWA de uma forma específica de alelo em nosso experimento EMSA e está dentro das marcas de histona repressora H3K27me3 e H3K9me3 em dados de núcleos adiposos ENCODE. Estudos recentes têm sugerido que os elementos repressores funcionam por meio de interações de looping de maneira semelhante aos elementos potenciadores 6,26, o que se alinha bem com a correlação negativa entre a expressão de MAP2K5 e nível de IMC.

A região no MAP2K5 locus, exibindo ligação aumentada para o alelo alternativo para rs4776984, contém motivos previstos para a proteína de interação de looping, CTCF e outros TFs (Tabela Suplementar 8). Não encontramos evidências de ligação de CTCF em rs4776984 em nossos experimentos de EMSA supershift e de ligação de proteína. No entanto, um experimento supershift pode permanecer negativo, mesmo na presença de verdadeira ligação ao TF, se um complexo, em vez de um único TF sozinho, for necessário para a ligação ao TF 20. Além disso, usando a análise DeepSEA, confirmamos o potencial de ligação diferencial de TF no sítio variante rs4776984 entre todos os laços possíveis cis-eQTLs no MAP2K5 locus. Digno de nota, uma vez que DeepSEA identificou vários TFs como ligantes potenciais do sítio rs4776984 de uma forma específica de alelo, estudos futuros que testam um conjunto maior de TFs são necessários para identificar o TF real que se liga a este sítio. Postulamos que a ligação do TF neste local de interação levaria a um mecanismo de looping repressivo, neste caso alterando MAP2K5 expressão em adipócitos.

MAP2K5 é um membro da cascata de sinalização de ERK5 MAP quinase, e a importância da sinalização de ERK5 no tecido adiposo foi demonstrada anteriormente em Erk5 camundongos knock-out, que apresentam aumento da adiposidade 27. Isso sugere que as mudanças na sinalização de ERK5 em adipócitos podem ser relevantes para a obesidade humana. MAP2K5 é um ativador forte e específico de ERK5 na cascata de sinalização de ERK5 MAP quinase 28, apoiando um estudo mais aprofundado de MAP2K5 em conexão com o aumento da adiposidade.

O intrônico ORMDL3 A variante de GWAS rs8076131 está associada ao colesterol de lipoproteína de alta densidade (HDL-C) 15 e é a única cis-SNP eQTL no TraseiroFragmento III que interage com o ORMDL3 promotor em nossos dados de pCHi-C de adipócitos. ORMDL3 é um regulador negativo da síntese de esfingolipídeos que são produzidos em resposta à obesidade e características metabólicas relacionadas, como inflamação e resistência à insulina 21,22, e que interferem em importantes vias de sinalização associadas a essas características 22. Corroborando isso, mostramos que ORMDL3 expressão está negativamente correlacionada com o IMC, e o cis-eQTL e a variante de risco rs8076131 diminui ORMDL3 expressão, potencialmente através de uma mudança na interação cromossômica entre o intensificador e o promotor de ORMDL3, como foi mostrado anteriormente para este local intensificador 29.

Descobrimos que o metabólito GWAS SNP, rs3784671, é um looping cis-eQTL variante associada aos níveis de expressão do LACTB gene. Embora esta variante seja um cis-eQTL para LACTB tanto em nosso estudo quanto na coorte adiposa GTEx, está dentro do promotor para o APH1B gene, para o qual não é um cis-eQTL em nosso estudo. Através da sobreposição de tecido adiposo cisdados -eQTL e dados de pCHi-C de adipócitos, estabelecemos que rs3784671 não atua através do adjacente APH1B gene e filtrou o 35 cis-eQTL variantes para LACTB até uma única variante, rs3784671. Essa variante está negativamente associada aos níveis de succinilcarnitina, um metabólito positivamente correlacionado com o IMC em duas coortes independentes, KORA e TwinsUK, anteriormente 23. A succinilcarnitina é uma molécula na via do metabolismo do butanoato, o butanoato tem sido implicado na antiinflamação, na proteção contra a obesidade e no aumento dos níveis de leptina 30. Além disso, como a variante de succinilcarnitina GWAS rs3784671 é um eQTL para LACTB, associado a um aumento em LACTB expressão, postulamos que LACTB a expressão aumenta a succinilcarnitina. Isso está de acordo com um estudo com camundongos que mostra que o metabolismo do butanoato é reduzido em Lactb camundongos transgênicos 24. Notavelmente, suporte para LACTB como um gene causal para obesidade deriva de estudos funcionais usando a superexpressão transgênica de Lactb em camundongos, resultando em um aumento na razão massa gorda / massa magra 24,31. Embora a função do LACTB na gordura não tenha sido totalmente elucidada, esses estudos sugerem que uma redução na LACTB função e, por sua vez, um aumento no metabolismo do butanoato e diminuição dos níveis de succinilcarnitina são benéficos para o tratamento da obesidade. Mais estudos moleculares no nível da proteína são, no entanto, necessários para determinar a função de ORMDL3 e LACTB em conexão com a obesidade.

Nós identificamos um proxy LD perfeito para um SNP GWAS metabólico que está dentro de um TraseiroFragmento III que regula o ACADS gene e interage com seu promotor. ACADS é uma proteína mitocondrial que catalisa a primeira etapa da via de beta-oxidação dos ácidos graxos. A função mitocondrial adequada é fundamental para a função adiposa e a homeostase energética. Além dos conjuntos de dados de RNA-seq adiposo METSIM e TwinsUK usados ​​em nosso estudo, um estudo anterior identificou ACADS ao buscar sistematicamente por genes super e subexpressos em tecido adiposo obeso versus magro 32. Além disso, todos os 3 conjuntos de dados mostram uma correlação negativa consistente entre ACADS expressão e IMC, em apoio à sua função mitocondrial bem estabelecida. A interação cis-O SNP eQTL e GWAS, rs12310161, está localizado dentro das marcas de histonas potenciadoras nos núcleos adiposos e na linha celular do fígado HepG2, com o alelo alternativo exibindo um efeito positivo na expressão gênica, em linha com ele sendo um alelo protetor. Curiosamente, esta variante cai dentro de um pico de ChIP-seq do fator 4 de transcrição do domínio TEA (TEAD4) nas células HepG2. TEAD4 a expressão é regulada pelo receptor alfa ativado do proliferador de peroxissoma (PPARα) 33, o principal regulador da beta-oxidação das vias de ácidos graxos no fígado e no tecido adiposo marrom. Juntos, esses resultados sugerem que a interação cis-O eQTL e o metabólito GWAS SNP, rs12310161, funcionam dentro de um intensificador para aumentar ACADS expressão e beta-oxidação de ácidos graxos mitocondriais no tecido adiposo.

Como os experimentos de pCHi-C foram realizados em HWA primário, podemos nos concentrar nas interações cromossômicas físicas diretamente em adipócitos humanos entre todos os tipos de células presentes no tecido adiposo. Os adipócitos desempenham funções adiposas centrais, incluindo lipogênese e lipólise. Uma investigação mais aprofundada dos genes adiposos, que estão sob cis a regulação genética via looping cromossômico para os promotores e estão correlacionados com o IMC, é provável que forneça uma visão muito necessária sobre os processos celulares que contribuem para a obesidade. Nossos dados fornecem 38 novos genes candidatos, incluindo alguns genes funcionalmente relevantes para a adiposidade, como LPIN1 34 e AKR1C3 35, que até agora não foram destacados pela GWAS para IMC ou características metabólicas relacionadas à obesidade. Postulamos que a identificação de alguns desses 38 candidatos como genes GWAS de obesidade pode exigir estudos de GWA muito maiores, enquanto outros podem representar genes que respondem à obesidade no tecido adiposo humano. Nossa análise do looping cis-eQTLs para outras características GWAS correlacionadas com o IMC, como metabólitos e lipídios séricos, levaram à identificação de três genes metabólicos GWAS adicionais relacionados à obesidade. Reconhecemos que o cérebro e outros tecidos provavelmente são responsáveis ​​por alguns dos sinais de IMC GWAS e que as variantes de GWAS podem atuar por meio de outros mecanismos, como trans regulamentação e splicing alternativo, que justificam investigações futuras. Embora os quatro loops cis-eQTL variantes identificadas nos loci GWAS em nosso estudo representam os SNPs da tag GWAS (como é o caso no ORMDL3 e LACTB loci) ou eles estão em LD perfeito ou quase perfeito com o SNP GWAS (r 2 = 1,0 no ACADS locus e r 2 = 0,98 no MAP2K5 locus), reconhecemos que as variantes de loop nem sempre são as mais fortes cisSNPs -eQTL nestes loci e, portanto, mapeamento fino adicional é necessário para elucidar totalmente todos os reguladores funcionais cisVariantes -eQTL.

O estudo atual usa a integração de dados genômicos e funcionais de vários níveis para melhorar a compreensão dos sinais moleculares do genoma subjacentes à obesidade. Os sinais de GWAS freqüentemente caem em regiões regulatórias não codificantes do genoma, e o (s) gene (s) afetado (s) freqüentemente permanecem obscuros. Da mesma forma, a estrutura LD local frequentemente impede a identificação e caracterização funcional do SNP eQTL real, embora o gene alvo eQTL seja conhecido.Através da integração de dados genômicos de multicamadas em um tipo de célula humana funcionalmente relevante e tecido e replicação nas coortes GTEx e TwinsUK, mostramos que os DHSs nas regiões cromossômicas em interação são enriquecidos por motivos TF específicos de tecido e explicamos uma proporção significativa do herdabilidade da expressão gênica em cis. Além disso, identificamos LACTB, ACADS, ORMDL3, e MAP2K5 como genes relacionados à obesidade em humanos e fornecem um conjunto de 38 genes candidatos não GWAS para estudos futuros em obesidade.


Validade biológica da rede de genes com base na relevância da interação gene-gene

Nos últimos anos, as redes de genes se tornaram uma das ferramentas mais úteis para modelar processos biológicos. Muitos algoritmos de rede de genes de inferência foram desenvolvidos como técnicas para extrair conhecimento de dados de expressão de genes. Garantir a confiabilidade das relações gênicas inferidas é uma tarefa crucial em qualquer estudo para provar que os algoritmos usados ​​são precisos. Normalmente, este processo de validação pode ser realizado utilizando conhecimentos biológicos prévios. As vias metabólicas armazenadas no KEGG são uma das fontes de conhecimento mais amplamente utilizadas para analisar as relações entre os genes. Este artigo apresenta uma nova metodologia, GeneNetVal, para avaliar a validade biológica de redes de genes com base na relevância das interações gene-gene armazenadas nas vias metabólicas KEGG. Portanto, uma conversão completa da via KEGG em uma rede de associação de genes e uma nova distância de correspondência com base na relevância da interação gene-gene são propostas. O desempenho do GeneNetVal foi estabelecido com três experimentos diferentes. Primeiramente, nossa proposta é testada em uma análise ROC comparativa. Em segundo lugar, é apresentado um estudo de aleatoriedade para mostrar o comportamento do GeneNetVal quando o ruído é aumentado na rede de entrada. Finalmente, é mostrada a capacidade do GeneNetVal de detectar a funcionalidade biológica da rede.

1. Fundo

O processo de modelagem que ocorre em organismos vivos é um dos principais objetivos da bioinformática [1–4]. Redes de genes (GNs) se tornaram uma das abordagens mais importantes para descobrir quais relações gene-gene estão envolvidas em um processo biológico específico.

Uma GN pode ser representada como um gráfico onde genes, proteínas e / ou metabólitos são representados como nós e suas relações como bordas [1].

É importante observar que os GNs podem variar substancialmente, dependendo do modelo de arquitetura usado para inferir a rede. Esses modelos podem ser categorizados em quatro abordagens principais, de acordo com Hecker et al. [1]: correlação [5, 6], lógica [7–9], baseada em equações diferenciais e redes Bayesianas [10, 11]. Essas abordagens têm sido amplamente utilizadas em bioinformática. Por exemplo, Rangel et al. [12] usaram modelagem linear para inferir a ativação de células T a partir de dados de expressão gênica temporal, ou Faith et al. [13] adaptou a correlação e as redes bayesianas para desenvolver um método para inferir as interações regulatórias de Escherichia coli.

Uma vez gerado um modelo, é muito importante garantir a confiabilidade do algoritmo para demonstrar sua eficácia. A qualidade do (s) algoritmo (s) pode ser medida aplicando os chamados dados sintéticos [14] e / ou usando conhecimento biológico prévio [15]. Abordagens de dados sintéticos podem ser usadas para analisar o desempenho do algoritmo de inferência GN, enquanto um estudo de validade biológica é suportado por dados reais.

Os métodos de dados sintéticos produzem um conjunto de dados artificiais de acordo com uma rede previamente conhecida. Os valores da expressão gênica simulada são armazenados em um conjunto de dados e usados ​​como entrada para o algoritmo de inferência GN. Finalmente, o desempenho do algoritmo é testado comparando os dois GNs. Atualmente, este processo pode ser realizado utilizando diferentes ferramentas como GeneNetWeaver [16] ou SynTReN [17].

Embora essa abordagem seja comumente usada para comparar algoritmos de inferência, ela não pode reproduzir totalmente as características internas de processos biológicos reais. Esta desvantagem significa que não são adequados para a validação dos modelos inferidos, do ponto de vista biológico.

Para resolver este problema, uma comparação com o conhecimento biológico anterior foi proposta [18, 19]. Atualmente, há vários repositórios biológicos diferentes disponíveis, onde a enciclopédia de genes e genomas de Kyoto (KEGG) é um dos mais amplamente usados ​​para analisar relações entre genes [20, 21]. As vias metabólicas de KEGG contêm conhecimento sobre diferentes processos biológicos. Essas vias são representadas como um gráfico onde os nós representam genes, enzimas ou compostos (ou seja, carboidratos, lipídios e aminoácidos) e as bordas codificam relações, reações ou interações entre os nós. Os caminhos contidos no banco de dados KEGG representam o conhecimento real da interação molecular e redes de reação para metabolismo, processamento de informações genéticas, processamento de informações ambientais, processos celulares e doenças humanas. Eles fornecem informações estruturadas úteis para validação de rede de genes. Por exemplo, C. Li e H. Li [15] usaram as vias de transcrição KEGG para realizar uma análise de rede dos dados de microarray de glioblastoma, ou Ko et al. [22] testaram uma nova abordagem de rede bayesiana usando relações gene-gene armazenadas em KEGG. Nessa linha, propomos um framework de validação de GN baseado em uma comparação direta entre uma rede de genes e as vias KEGG [23].

As abordagens acima mencionadas, doravante chamadas de uso clássico de KEGG, apresentam três deficiências principais: (a) nem todas as informações biológicas são utilizadas, (b) apenas as relações gene-gene fortes são consideradas e (c) o conhecimento biológico atual não é completo.

As relações gene-gene são normalmente consideradas apenas por abordagens de validação de GN baseadas em vias metabólicas. Portanto, todas as outras informações biológicas fornecidas pelas vias são ignoradas, como as relações gene-composto ou composto-composto (ver Tabela 1). Por exemplo, Wei e Li [24] usaram apenas interações gene-gene humano armazenadas nas vias KEGG ao realizar estudos de simulação, excluindo relações gene-composto e composto-composto. Ou Zhou e Wong [25] usaram a relação entre pares de genes KEGG (principalmente PPrel e ECrel) para estudar conjuntos de dados de interação proteína-proteína.

Além disso, as abordagens atuais de validação de GN não são totalmente precisas, pois consideram apenas relações fortes entre genes (interações diretas gene-gene), deixando relações mais fracas de lado [4].

Além disso, o uso de conhecimentos biológicos prévios pode apresentar outra lacuna importante, as limitações atuais dos bancos de dados biológicos. Conforme descrito por Dougherty e Shmulevich [2], o conhecimento biológico tem algumas limitações intrínsecas no sentido de que dependem inerentemente da natureza do conhecimento científico. Outros são contingentes dependendo do estado atual de conhecimento, incluindo tecnologia. Os métodos de validação atuais usam esses bancos de dados biológicos para classificar os relacionamentos inferidos como verdadeiros ou falsos positivos. Devido ao problema intrínseco dos bancos de dados biológicos, não é possível argumentar que esses falsos positivos sejam na verdade causados ​​por uma má previsão dos métodos de inferência ou por conhecimento incompleto.

Este artigo propõe uma nova metodologia, GeneNetVal, para analisar a validade biológica de uma rede de genes, utilizando a informação biológica armazenada no KEGG, ponderando as relações gene-gene. GeneNetVal usa diferentes tipos de relações contidas nas vias KEGG (gene-gene, gene-composto e composto-composto), realizando uma conversão completa e exaustiva de uma via em uma rede de genes. A rede obtida será usada como padrão ouro em comparação com a rede de entrada. Além disso, uma nova distância de correspondência é proposta. Essa medida, baseada na relevância da interação gene-gene, leva em consideração o conceito de relações fracas entre um par de genes para apresentar um conjunto de índices não determinísticos com diferentes níveis de acurácia. Assim, não aceitamos ou recusamos categoricamente uma relação gene-gene, mas um valor ponderado é atribuído de acordo com a distância desses genes na via. Por meio desses valores geramos uma nova medida de validade da rede de genes e mitigamos o problema do conhecimento biológico incompleto.

2. Métodos

Nesta seção, a metodologia GeneNetVal e também os métodos utilizados para realizar os experimentos serão apresentados. Esses métodos serão usados ​​na seção Resultados e Discussão.

2.1. Metodologia GeneNetVal

Como já afirmado, a metodologia de duas etapas proposta, GeneNetVal, é baseada nas vias metabólicas KEGG e resumida na Figura 1. Na primeira etapa, é realizada uma conversão completa de uma via metabólica em uma rede de associação de genes. Na segunda etapa, a validade biológica de uma GN é determinada. Para fazer isso, uma nova distância de correspondência entre as redes é usada.


Uma representação esquemática da metodologia GeneNetVal. Na primeira etapa, as informações do organismo são extraídas do banco de dados KEGG. Cada um dos M vias metabólicas são processadas para obter M redes de genes. Na segunda etapa, M são realizadas avaliações da rede de entrada. Observe que os resultados apresentados foram obtidos aplicando nossa abordagem no nível 1.
2.1.1. Etapa um: das vias metabólicas às redes de associação de genes

O banco de dados KEGG armazena conhecimento sobre muitos organismos diferentes, mas precisamos apenas das informações pertencentes à rede a serem analisadas. Portanto, apenas as vias metabólicas KEGG para o mesmo organismo da rede de entrada são consideradas. Isso é representado na Figura 1, onde todas as vias do organismo

Essas vias são convertidas em redes de associação de genes onde todos os tipos de relações de vias (ver Tabela 1), incluindo gene-gene (PPrel, ECrel e GErel), gene-composto (PCrel) e composto-composto, são usados.

Como afirmado anteriormente, uma via metabólica é composta por diferentes tipos de nós (genes ou outros compostos), enquanto os genes são usados ​​apenas em redes de genes. Essa diferença mostra que a comparação direta entre eles não é confiável com base nas informações que contêm elementos diferentes. Essa diferença é superada aumentando o nível de abstração das vias. Concretamente, cada via é convertida em uma rede de associação de genes, o mais alto nível de abstração para a reconstrução dos processos de regulação gênica, conforme descrito por Martínez-Ballesteros et al. [30]. Este processo de conversão é representado na Figura 2 e explicado a seguir.


O exemplo de conversão mais simples. Na primeira subetapa, os nós compostos e a direção das arestas do relacionamento são removidos. Na segunda subetapa, novos relacionamentos de associação são estabelecidos.

Em primeiro lugar, todos os nós compostos apresentados na via são removidos. No entanto, os nós de genes são conservados junto com suas relações de influência (bordas não diretas), sejam eles PPrel, ECrel ou GErel. Os relacionamentos PCrel, composto-composto e outros são processados ​​de maneiras diferentes.

Os nós compostos localizados entre dois genes carregam informações de um gene para outro. Eles agem como uma ponte entre os genes, portanto, esses dois nós gênicos devem estar relacionados. Com base nisso, após a remoção dos nós compostos, novas relações gene-gene não direcionadas serão criadas. Essas relações são estabelecidas entre cada par de genes que foram previamente associados ao mesmo nó composto.

A Figura 2 mostra o processo de conversão de “Caminho M” (Figura 1) para uma rede de genes em detalhes. Por exemplo, genes

estão associados a um nó composto no caminho, mas não há relacionamento direto entre eles. No entanto, as informações pertencentes a essa influência indireta gene-gene devem ser levadas em consideração para que uma nova relação de influência entre os genes seja criada. Da mesma forma, uma relação é gerada entre genes

A conversão apresentada na Figura 2 é um exemplo simples: os caminhos costumam ser mais complexos. Em uma via, vários genes estão provavelmente relacionados ao mesmo nodo composto, ou os compostos químicos são transferidos por dois ou mais genes / enzimas. Esses dois casos devem ser considerados para realizar uma conversão exaustiva. No primeiro tipo, vários genes de alguma forma interagem com o mesmo composto (substrato de uma reação química, produto, etc.). Essas informações biológicas são preservadas criando novos relacionamentos (ver Figura 3 (a)). No segundo grupo, os genes responsáveis ​​pela transferência dos compostos deveriam estar relacionados na nova GN, pois na verdade eles interagem com os compostos químicos simultaneamente. Portanto, novas relações entre esses genes são incluídas (ver Figura 3 (b)).


onde três genes estão conectados ao mesmo composto. No processo de conversão em uma rede de genes, novas relações entre esses genes são criadas. (b) mostra um fragmento do

2.1.2. Segunda Etapa: Validade Biológica

Na segunda etapa, as vias metabólicas são utilizadas como conhecimento biológico para avaliar a rede de entrada. Normalmente, a literatura aplica uma metodologia de pontuação [1, 27, 29] para avaliar um modelo inferido usando o conhecimento prévio, seja ele sintético ou biológico. Com base nesta ideia e na noção das relações fortes e fracas em GNs [4], os autores desenvolveram uma nova medida para avaliar a validade de uma rede de entrada que é baseada na relevância das interações gene-gene armazenadas em KEGG .

representam os nós dos gráficos e representam as bordas (relações gene-gene). A validade do gráfico de entrada (), de acordo com a informação biológica da via

representado no gráfico, é medido como a diferença entre os dois gráficos em determinado nível de distância.

Definição 1 (Nível). Deixe um gráfico e dois nós

. O nível de relacionamento entre é calculado como o número de arestas entre nós e em.

Por exemplo, na Figura 4, o relacionamento entre os nós e em tem um nível de

porque existem duas arestas entre esses nós.


Um exemplo de comparação usando nível 1 e nível 2. Exemplos de acerto1 e Hit2 são apresentados. Os nós roxos e suas relações são podados para esta avaliação específica porque eles não pertencem à via metabólica.

Definição 2 (Acertos no nível l

)). O número de arestas onde o nível entre os nós diretamente conectados é

pode ser encontrada na Figura 4, onde a aresta entre os genes e representa ae a aresta entre e é. Obviamente, quanto maior a distância entre os nós, menor a relevância da relação avaliada. Assim, a nova distância de correspondência fornece dois índices ponderados por meio da comparação com o nível selecionado.

Definição 3. Acessos cumulativos no nível

, pode ser definido como a soma ponderada das arestas inferidas corretamente no nível em, de acordo com as informações apresentadas em. Considerar

onde denota a soma das arestas que foram corretamente inferidas ponderadas por sua relevância na rede com a distância (nível).

A Figura 4 apresenta um exemplo de cálculo de e.

Definição 4. Falhas cumulativas no nível,

, pode ser definido como o número de arestas inferidas incorretas no nível em

é o número de arestas em. Assim, denota o número de arestas que não foram inferidas corretamente na rede com distância (nível).

A Figura 4 mostra um exemplo de cálculo de

e . No nível, o gráfico apresenta uma falha cumulativa por causa dos genes e, que estão diretamente conectados em e têm uma distância de em. Como a interação entre e é fraca (nível de acerto), o valor do nível de falha cumulativo é

. Assim, a medida de validade pode ser definida.

Definição 5. A validade (medida GeneNetVal) do gráfico de acordo com o nível,

, é definido como a proporção de arestas inferidas corretamente no nível em. Considerar

Essa medida varia entre e, onde é o valor de validade mais baixo e o mais alto. A medida de validade estima a razão de correção de em relação a.

A validade biológica é obtida como a proporção de predição positiva de acordo com os acertos e falhas cumulativos. Esta é a principal medida obtida por nossa metodologia para avaliar a qualidade de uma GN.

2.2. Estudo ROC

Uma análise de características de operação do receptor (ROC) será apresentada na seção Resultados. O objetivo deste estudo é comparar o desempenho de diferentes abordagens de validade de rede de genes, avaliando redes reais contra redes aleatórias (sem sentido biológico). As três redes serão utilizadas no experimento, tentativa de englobar a regulação de um grande número de processos funcionais em leveduras. Portanto, assumimos que essas redes contêm significado biológico de cada processo funcional descrito nas vias KEGG (são redes funcionalmente complexas).

Portanto, a avaliação dessas redes deve produzir resultados de validade relevantes para cada uma das vias consideradas. Em contraste, a validade biológica das redes aleatórias deve produzir resultados ruins porque, na verdade, elas não devem conter significado biológico.

Um limite de validade (T) foi usado para decidir se a rede de entrada tem informações relevantes para cada caminho selecionado. T denota o valor mínimo de validade para uma rede com um caminho específico a ser considerado como valor válido. A fim de gerar a curva ROC para cada experimento, usamos diferentes T valores (de a). Uma matriz de confusão é obtida para cada iteração. Se o valor de validade obtido para uma via excede o T valor, a rede de entrada é classificada como positiva (verdadeiro positivo ou falso positivo, dependendo se a rede de entrada é uma rede real ou uma rede aleatória). Se o valor obtido for inferior, a rede de entrada é descrita como negativa (verdadeiro negativo ou falso negativo). Com essa ideia, para cada iteração os índices são calculados para a matriz de confusão.

Portanto, é possível calcular matrizes de confusão e valores de taxas de positivos verdadeiros (TPR) e taxas de falsos positivos (FPR) para desenhar a curva.

A Figura 5 fornece um exemplo de brinquedo mostrando todo o processo (apenas para uma rede aleatória). Oferece uma comparação entre os resultados obtidos por uma rede real e os resultados obtidos por uma rede aleatória. Com os valores de validade obtidos para ambas as redes (Figura 5 (a)), diferentes matrizes de confusão foram geradas de acordo com diferentes limiares, apenas limiares neste exemplo (Figura 5 (b)). Assim, para cada iteração é possível obter os valores de TPR e FPR (Figura 5 (c)). Com esses valores, a curva ROC é finalmente representada (Figura 5 (d)).


Representação de um exemplo de brinquedo para o estudo ROC realizado. (a) representa o processo GeneNetVal, onde são obtidos os valores de validade para ambas as redes. Em (b) as matrizes de confusão são obtidas. Os valores de TPR e FPR são apresentados em (c). Finalmente, a curva ROC é representada em (d).

É importante notar que os resultados apresentados na Figura 6 são valores médios para uma amostra de redes aleatórias.


(aleatório
(b) Sem escala
(c) Aleatório
(d) Sem incrustações
(e) Aleatório
(f) Sem incrustações
(aleatório
(b) Sem escala
(c) Aleatório
(d) Sem incrustações
(e) Aleatório
(f) Sem incrustações Análise ROC de nossa metodologia usando algumas redes de levedura. Para esta análise, foram utilizadas duas topologias diferentes: topologia aleatória pura e topologia sem escala.
2.3.Seleção da descrição funcional com GeneNetVal

A funcionalidade específica da rede de entrada pode ser estudada de acordo com o armazenamento de informações do processo biológico em uma via KEGG específica. Uma via metabólica representa um modelo de um processo biológico específico. Diferentes conjuntos de genes estão envolvidos em diferentes vias. Isso deve ser considerado se uma avaliação funcional da rede de entrada for realizada. Se uma via contém um conjunto de genes, esse conjunto é anotado para a função biológica da via. Portanto, qualquer informação da rede de entrada que não pertença ao processo biológico específico não será levada em consideração para esta validação. Observe que essas relações não devem ser consideradas uma falha porque, na verdade, não há informações para classificar a validade das interações dos genes na rede de entrada que não estão presentes nas vias metabólicas.

Este processo de poda, que é descrito no Algoritmo 1, envolve a remoção de qualquer borda da rede de entrada se os genes correspondentes não estiverem presentes na via específica. A rede de entrada sofrerá uma poda diferente para cada caminho. Por meio dessa poda, a rede de entrada pode ser avaliada de forma independente para cada processo. Um exemplo dessa poda é mostrado na Figura 4 onde as bordas roxas são removidas para a comparação com o caminho.

Após a poda, as comparações com cada caminho mostrarão a medida de validade. A funcionalidade descrita pela via com maior valor de (medida GeneNetVal) será a funcionalidade que melhor se ajusta à rede de entrada. Um valor alto significa que a rede de entrada descreve total ou parcialmente a funcionalidade descrita por aquela via metabólica específica.

diferentes comparações foram realizadas na Figura 1, onde o maior valor foi gerado pela rede de genes extraída de “

Também é possível que a rede de entrada contenha informações sobre mais de um processo biológico específico. Alternativamente, os processos biológicos são geralmente inter-relacionados (por exemplo, o ciclo celular e a meiose). Um exemplo dessa situação na Figura 1 pode ser a comparação entre a rede de genes de “” e a rede de entrada. Nesse caso, poderiam ser considerados os maiores valores da medida de validade, para determinar quais processos são mais bem descritos.

3 Resultados e discussão

O desempenho de nossa proposta foi testado por meio de três experimentos usando diferentes tipos de redes. Primeiramente nossa proposta foi comparada com o uso clássico do KEGG. Foi realizada uma análise ROC de diferentes níveis de distância de GeneNetVal e medida de precisão. O comportamento do método proposto com diferentes níveis de ruído é testado no segundo experimento. Finalmente, a capacidade do GeneNetVal de detectar a funcionalidade biológica codificada em uma rede de entrada é analisada no terceiro experimento.

3.1. Análise ROC

A análise ROC foi realizada para mostrar a melhoria alcançada por nossa abordagem sobre aqueles que consideram apenas relações diretas gene-gene [24, 25], junto com sua robustez contra informações sem significado biológico (ver Seção 2.2).

A análise ROC tem sido amplamente utilizada na literatura [31, 32] porque é capaz de pontuar o desempenho de classificadores e rankers como um trade-off entre uma taxa de verdadeiro positivo e uma taxa de falso positivo. Adicionalmente, é apresentada a área sob a curva ROC (AUC), pois fornece informações sobre o nível de aleatoriedade da abordagem.

Para este estudo, três redes de genes de levedura complexas e contrastantes com diferentes tipos de relações de genes foram utilizadas. Uma rede de interação proteína-proteína foi usada por Batada et al. [33] na análise de proteínas altamente conectadas em uma rede (hubs). A rede resultante da seleção das interações proteína-proteína e proteína-DNA do banco de dados do genoma de Saccharomyces (SGD) [34] fornece um acesso completo ao Saccharomyces cerevisiae (levedura) sequência genômica. E, por fim, a rede foi apresentada por Lee et al. [35] (YeastNet v.2) que combina proteína-proteína, proteína-DNA, coexpressão, conservação filogenética e informações da literatura.

Para cada rede de entrada explicada acima, duas topologias diferentes de redes aleatórias foram consideradas: aleatória pura e sem escala. Esta última topologia é usada uma vez que as redes biológicas geralmente a seguem [36, 37].

O tamanho da amostra para cada rede de entrada e topologia foi calculado com um intervalo de confiança de 95% para uma população infinita de redes [38]. Portanto, um tamanho de amostra de 385 redes aleatórias foi usado. Redes puramente aleatórias foram projetadas para ter o mesmo nó e tamanho de borda da rede de entrada, mas as relações gene-gene foram geradas aleatoriamente. Redes sem escala foram geradas usando a biblioteca de código aberto JGraphT, com os mesmos nós também. Para usar as informações armazenadas no KEGG, extraímos os arquivos KGML das vias de levedura usando a API KEGG.

Os resultados da análise são representados na Figura 6, onde cada linha representa o estudo de uma rede de entrada diferente. A coluna à esquerda na figura representa o estudo para topologia aleatória pura e a mais à direita mostra a topologia sem escala. Cada gráfico contém cinco linhas que codificam o comportamento de GeneNetVal considerando os níveis de distância de um a quatro e a medida de precisão [30, 39] para o uso clássico de KEGG. No total, foram realizadas mais de 11.000 avaliações (3 redes de entrada × 2 topologias × 5 medidas / níveis × 385 redes).

As curvas ROC mostram que os resultados das três redes seguem um padrão semelhante para ambas as topologias. Particularmente notável é a distância entre o ponto (1, 1) e aquele acima. FPR é 1 para um limite igual a zero (consulte a Seção 2.2 para obter mais detalhes), mas representa um valor muito baixo para o próximo ponto de verificação (limite = 0,01). Isso pode ser devido ao fato de que o uso do KEGG como padrão ouro é muito eficaz na detecção de interações sem significado biológico.

Para alguns níveis, as linhas não começam no ponto (0, 0) (Figuras 6 (b) e 6 (d)). Isso ocorre porque algumas vias KEGG não contêm muitas interações (por exemplo, a via contém apenas), de modo que uma rede aleatória pode conter essas relações gênicas em um determinado nível de distância.

Em relação aos valores obtidos para a área sob a curva (AUC), é importante observar que quanto maior é o número de tipos de relacionamentos considerados na rede, melhor é o desempenho da metodologia. Os melhores resultados são obtidos pela rede de Lee [35], que combina quatro tipos diferentes de relacionamentos. O segundo melhor resultado é gerado usando SGD, enquanto a rede da Batada apresenta o pior resultado. Isso faz sentido, uma vez que as vias KEGG coletam dados biológicos de várias fontes de contraste.

Comparando o uso clássico do KEGG com o nível 1 de nossa proposta, que só difere na forma como as informações das vias são gerenciadas, é possível argumentar que a conversão proposta produz uma melhora significativa na AUC. O nível 1 produz melhores resultados em todos os casos. Por exemplo, o valor de AUC de 0,88 é aumentado para 0,92 em SGD para topologia sem escala (Figura 6 (d)). Além disso, é possível melhorar a AUC aumentando o nível de distância na comparação. O melhor resultado é mostrado pelo nível 2, enquanto os níveis 3 e 4 têm desempenho pior do que os níveis 1 e 2.

Os resultados apresentados mostram que GeneNetVal é capaz de detectar relações gênicas com e sem significado biológico. Além disso, a metodologia apresenta uma melhora significativa em relação à abordagem clássica (precisão) para todos os níveis estudados. Em particular, o melhor desempenho é obtido pelo nível 2 para todos os experimentos.

Por fim, apesar de os bancos de dados biológicos serem fontes de informação essenciais para a avaliação dos resultados obtidos em qualquer estudo, eles apresentam algumas limitações. Essas limitações são intrínsecas a todas elas, no sentido de que dependem inerentemente da natureza do conhecimento científico outras são contingentes, dependendo do estado atual do conhecimento, incluindo a tecnologia [2, 40]. Essas limitações podem incluir rótulos incorretos de eventos ou entidades, direções incorretas nos relacionamentos, ausência de associações e outras ambigüidades. Consequentemente, o desempenho de métodos anteriores baseados em conhecimento pode ser afetado por essas limitações, incluindo nossa abordagem. Em particular, GeneNetVal pode ser afetado por rótulos de eventos ou entidades incorretos e também pela ausência de associação nas vias metabólicas em termos de má classificação das relações (acerto ou falha incorreta). Apesar disso, vale ressaltar que as abordagens clássicas também são afetadas pelos problemas apresentados acima. Nesse sentido, GeneNetVal apresenta um desempenho mais robusto do que as abordagens clássicas, uma vez que o uso de relacionamentos indiretos ameniza esses problemas. Esta afirmação é apoiada pelos resultados apresentados nesta análise ROC, onde GeneNetVal tem um desempenho melhor do que a abordagem clássica, embora as mesmas bases de dados (contendo as mesmas lacunas) sejam utilizadas em ambos os métodos.

3.2. Estudo de aleatoriedade

Apesar de na seção de análise ROC ter sido mostrado que GeneNetVal distingue melhor redes reais de redes aleatórias do que uma abordagem clássica extraída da literatura, nesta seção será mostrado o comportamento da metodologia para a inclusão progressiva de ruído.

Concretamente, realizamos o estudo para todas as redes de leveduras apresentadas anteriormente no artigo (redes Batada, Lee e SGD). Essas redes de entrada foram alteradas, aumentando a aleatoriedade em seus relacionamentos genéticos. Assim, em um processo de loop composto por 10 iterações, os relacionamentos aleatórios adicionados às redes aumentaram em 10% a cada iteração. Da mesma forma, 10% dos relacionamentos originais foram removidos. Para evitar viés, isso foi feito 385 vezes (tamanho da amostra com um intervalo de confiança de 95% assumindo uma população infinita de redes aleatórias) [38]. Portanto, 15.360 (385 redes × 10 iterações × 4 redes originais) diferentes redes aleatórias foram analisadas.

De acordo com os resultados apresentados na seção de análise ROC, o valor de validade nível 2 foi considerado neste experimento. Como padrão ouro, usamos a via (ciclo celular de levedura), uma vez que é uma das vias mais estudadas da levedura [41-43]. As médias dos resultados estão resumidas na Figura 7.


Resultados do estudo de aleatoriedade de GeneNetVal usando nível 2. Para este estudo, usamos diferentes redes de levedura versus via Sce04111.

A Figura 7 apresenta a evolução dos valores de validade para as redes de leveduras. Pode-se observar que os diferentes valores de validade seguem um comportamento semelhante. Esse comportamento verifica se a perda de informações relevantes nas redes é progressiva, e aumenta à medida que a aleatoriedade é aumentada nelas também. Esses resultados mostram que nosso método é capaz de detectar a perda de informação com o aumento da aleatoriedade nas redes.

3.3. Um estudo funcional: redes de ciclo celular de levedura

Nesta seção, algumas redes de leveduras bem conhecidas são usadas para provar a utilidade de nossa abordagem, detectando a funcionalidade biológica específica, conforme descrito na Seção 2.3. Essas redes foram produzidas aplicando diferentes abordagens de inferência de redes de genes para o mesmo microarray de ciclo celular de levedura de série temporal [44]. Concretamente, as redes foram geradas aplicando as abordagens de rede apresentadas por Nariai et al. [26], que é obtido por meio de um algoritmo baseado em Bayesian Bulashevska e Eils [28] que é outro algoritmo baseado em Bayesian Ponzoni et al. [29] cujo algoritmo denominado GRNCORP é baseado em uma otimização combinatória e finalmente a rede apresentada por Gallo et al. [27] (chamado GRNCORP2) que é uma melhoria de desempenho do GRNCORP.

Para este estudo, todas as informações armazenadas no KEGG foram reunidas em uma única rede complexa. Esta rede global (rede global KEGG, KGN) é gerada de acordo com o conhecimento acumulado em cada rede de associação de genes gerada a partir de Saccharomyces cerevisiae caminhos. O objetivo do KGN é realizar uma avaliação global das diferentes redes para decidir se as redes contêm conhecimento biológico ou não. Especificamente, a avaliação foi realizada com o nível 2, de acordo com os resultados obtidos na seção de análise ROC. Para comparar as redes de genes, apenas as relações entre os genes contidos na rede de entrada e KGN foram consideradas. Não é possível estabelecer a qualidade dessas interações, porque KEGG não contém informações para verificar se as interações gene-gene são biologicamente relevantes ou não.

Na Tabela 2, são mostradas as linhas KGN, os resultados da avaliação global. Vale ressaltar que duas das quatro redes obtêm melhores resultados de validade com o KGN devido à inclusão de um maior número de relações indiretas ().