Análise de associação da estrutura genômica de doenças complexas em uma coorte de Salvador: Ferramentas Estatísticas Aline Carvalho da Silva1 Gustavo Nunes de Oliveira Costa3 Jackson Santos da Conceicao 3 Rosemeire Leovigildo Fiaccone2 Leila Denise A. F. Amorim2 Mauricio L. Barreto3 1. Introdução Estudos de varredura genômica têm sido importante para um melhor entendimento da base genética de muitas doenças complexas uma vez que se baseiam no estudo simultâneo de vários polimorfismos sendo possível investigar a associação entre os mesmos e as referidas doenças. Contudo, nem todas as doenças apresentam padrões de herança bem definidos e simples como os postulados por Mendel. As doenças complexas são um exemplo de não estarem ligadas a apenas um lócus gênico e não apresentarem apenas fatores genéticos como causa do fenótipo. Após o sequenciamento do genoma, temos a oportunidade de “olhar” cuidadosamente para essas regiões e apontar para uma coleção de alterações que podem explicar a origem de características clínicas importantes em muitas dessas doenças. Acredita-se que muitos genes (variantes genéticas) têm participação no sistema de regulação do status da doença, e assim cada vez mais a ciência tem necessitado de ferramentas estatísticas que apresentem uma visão mais global do fenômeno, pois é necessário conhecer a totalidade das informações fornecidas. Em estudos de genética populacional uma das primeiras análises é explorar as relações entre as frequências alélicas entre e intra lócus. Quando temos dois alelos em um único lócus, a associação é verificada através do conceito de equilíbrio de HardyWeinberg. Já a associação entre dois alelos em lócus diferentes é verificada pelo teste de desequilíbrio de ligação. Entretanto na presença de múltiplos lócus se faz necessário 1. Bolsista de Iniciação Científica do CNPq/UFBA 2. Departamento de Estatística/ UFBA 3. Instituto de Saúde Coletiva/ UFBA analisar e visualizar simultaneamente essa associação através de procedimentos adequados como as técnicas de estatística multivariada. A ideia é estabelecer uma ligação da área de Genética, Epidemiologia e Estatística para realizar o controle de qualidade e verificar presença de ancestralidade de forma a explorar os conceitos de genética, desenhos de estudos epidemiológicos e as ferramentas estatísticas exploratórias e multivariadas para análise de dados genéticos. 2. Material e Métodos Com o avanço tecnológico, os estudos de varredura genômica (genome-wide em inglês) vêm se destacando não somente pela sua complexidade, como também pelo volume de informação gerada pela possibilidade de leitura de um grande número de polimorfismo de única base ( SNPs), o que, consequentemente, fornece dados multivariados. A estrutura dos dados num problema multivariado sempre poderá ser representada na forma matricial, onde nas linhas são representados os indivíduos sobre os quais foram coletados os dados e nas colunas, as variáveis medidas sobre esses indivíduos, no caso os SNPs. Entretanto, para analisar dados genéticos uma série de etapas e/ou procedimentos é necessária como controle da qualidade, analise uniloco, avaliação do efeito do confundimento devido a estratificação genética da população, alta dimensionalidade do espaço das variáveis preditoras na modelagem estatística. 2.1 Controle da Qualidade Como em qualquer análise estatística, a qualidade dos dados é um dos fatores decisivos que define a validade dos resultados. O controle de qualidade dos dados se refere aos procedimentos exploratórios utilizados para avaliar o desempenho genotípico das amostras. Como pode haver erros de genotipagem, entrada de DNA, falhas nas hibridações dos chips de DNA, é de grande importância que esta etapa seja realizada. Particularmente, nos estudos de varredura genômica, o controle da qualidade pode ser realizado no nível do indivíduo ou do SNP. Segundo a literatura (Teo, 2008) o controle de qualidade pode ser visto como um conjunto de métodos de limpeza de SNPs onde é possível estabelecer comparação entre determinados procedimentos. Com exemplo, temos a exclusão de SNP com menor frequência alélica (MAF) inferior a 1%. O MAF refere-se à frequência com que os alelos menos comuns ocorrem em uma determinada população. Essa medida é normalmente utilizada para filtrar os dados uma vez que a não exclusão desses polimorfismo de única base (SNPs) compromete o poder de detecção de associação entre SNPs e doença de interesse , por exemplo. O critério de exclusão varia de acordo com o tamanho da amostra e normalmente são utilizados valores de MAF entre 1 e 5% (Ziegler, Konig e Thompson, 2008). Outro critério e a verificação do equilíbrio de Hardy-Weinberg. Tal critério permite comparar a própria estrutura genética de uma população ao longo do tempo com a estrutura genética que seria esperada se a população estivesse em equilíbrio de Hardy-Weinberg (ou seja, não evoluísse). Sendo as frequências genotípicas tão diferentes das que seriam esperadas em equilíbrio, podemos assumir que um ou mais dos pressupostos do modelo estão sendo violados e consequentemente tais SNP são excluídos. 2.2 Avaliações do confundimento Os estudos envolvendo milhares de marcadores, como é o caso estudos de varredura genômica, a questão de confundimento pode gerar problemas, como por exemplo, o aumento da taxa de falsos positivos. Esta inflação pode surgir, principalmente por desvios sistemáticos devido ao desenho de estudo (estratificação). Quando uma amostra de indivíduos consiste em vários subgrupos distintos que não se cruzam, é dito que a amostra apresenta subestrutura ou estratificação, e este tem sido o problema mais citado para não replicação de resultados em estudos de associação genética. Assim, duas circunstâncias devem ser observadas nesses estudos: Se a diferença na prevalência da doença é dada entre casos e controles; Se aparecem variações na frequência alélica entre os grupos. Se esses dois cenários forem reais, existe o problema denominado de estratificação populacional. Em geral, a forma mais eficiente de controlar o problema de estratificação é via delineamento experimental. Entretanto, se o fator confundidor for desconhecido, utiliza-se decomposição espectral de matrizes. Na literatura diversos métodos para corrigir o problema de estratificação populacional em estudos de associação genética vêm sendo propostos como o controle genômico (CG), associação estruturada, análise de componentes principais (ACP) e a regressão logística ou a combinação dos mesmos. Entretanto, esses métodos possuem limitações. Price et al. (2006) propuseram um método dividido em três etapas: na primeira, utiliza-se componentes principais aos dados genótipos de forma a reduzir a dimensão dos dados sem alterar a variabilidade genotípica. Numa segunda etapa, ajusta-se um modelo de regressão utilizando como preditoras os escores ortogonais produzidos na primeira etapa. E a última etapa é utilizar um fator de correção genoma-wide robusto nas associações observadas. Nesse trabalho, o método de análise de componentes principais será utilizado como ferramenta para lidar com o problema em questão. 2.3 Análises de Associação Na análise uniloco, um dos testes mais utilizados é o teste de qui-quadrado, o qual diz se as frequências são diferentes o bastante para afirmar que há associação ou não. O teste Qui-quadrado de Pearson é computacionalmente vantajoso, mas se baseia na teoria assintótica. Alternativamente, métodos computacionais intensivos podem ser considerados como métodos de reamostragem (bootstrapping) paramétrica, ou testes baseados em aleatorização como os testes permutacionais. Um exemplo clássico é o teste exato de Fisher. O teste permutacional (TP) utiliza distribuições empíricas, geradas via alocações aleatórias das unidades experimentais aos tratamentos (grupos). Tais distribuições empíricas são utilizadas para testar hipóteses sobre os parâmetros de interesse. 2.4 Aplicação Neste projeto foi estudada uma abordagem de controle da qualidade bem como o procedimento de análise de componentes principais para o tratamento de estratificação populacional em um conjunto de dados reais oriundo do projeto EPIGEN cujo objetivo geral é determinar a estrutura genômica e a ancestralidade de participantes de três coortes brasileiras de base populacional. Em particular, iremos trabalhar com os dados de um estudo conduzido em Salvador em 2005, cidade que tem mais de 2,5 milhões de habitantes, cujo interesse e identificar os fatores de risco associados a asma e doenças alérgicas em cerca de 1400 crianças participantes do projeto “Social Changes, Asthma and Allergy in Latin America (SCAALA)”. Foram genotipados pelo menos pelo menos 2.5 milhões de SNPs distribuídos ao longo dos 23 cromossomos do genoma humano, utilizando painéis comerciais HumanOmni2.5-8 BeadChip Kit (www.illumina.com). A maior parte destes SNPs foi selecionada a partir dos SNPs presentes no projeto 1000 genomes (http://www.1000genomes.org/). 3. Resultados e Discussão No controle de qualidade após utilizar diversos pontos de corte optou-se por manter uma significância de 10-4 para o equilíbrio de HW. Dessa forma, 10.338 SNPs foram eliminados por esse critério. Considerou-se uma taxa de genotipagem (call rate) de 90% e MAF de 1%, o que eliminou 358.53 SNPs. A taxa de genotipagem por individuo foi considerada também e apenas um individuo da população estava em desacordo com este critério. Após todos esse passos do controle de qualidade, mantevese 1.881.799 SNPs. Para avaliação da ancestralidade, encontrou-se 256 mil SNPs compatíveis com as populações testes presentes no HAPMAP e a análise de componentes principais foi realizada com essa quantidade. O primeiro componente discriminou a população africana da população brasileira (SCAALA) e dos outros (europeus e orientais). O segundo componente discriminou a população europeia e orientais, mas não foi possível discriminar populações africanas da brasileira (gráficos não apresentados nesse resumo). Nas análises de associação foi utilizada a correção de Bonferroni para múltiplas exposições, além do teste permutacional com 1000 permutações. Nenhum dos SNPs foi associado com Asma. Também não encontramos associação dentro do modelos genotípicos como o aditivo, dominante e recessivo. Até o momento esses resultados são parciais e outros procedimentos estatísticos serão utilizados. 5. Biobliografia FOULKES, A. Applied Statistical Genetics with R: For Population-based Association Studies (Use R). [S.l.]: Springer, 2009. 252 p. TEO, Y. Y. Commom statistical issues in genome-wide association studies: a review on power, data quality control, genotipe calling and population structure. Current opinion in Lipidology, v. 19, p. 133-143, April 2008 ZIEGLER, A.; KÖNIG, I.; THOMPSON, J. Biostatistical aspects of genome wide association studies. Biometrical Journal, v. 50, p. 8-28, December 2008. ZIEGLER, A., KONIG, I. R. (2006). A statistical approach to genetic epidemiology. WileyVch, Weinheim.