Análise de associação da estrutura genômica de doenças complexas em
uma coorte de Salvador: Ferramentas Estatísticas
Aline Carvalho da Silva1
Gustavo Nunes de Oliveira Costa3
Jackson Santos da Conceicao 3
Rosemeire Leovigildo Fiaccone2
Leila Denise A. F. Amorim2
Mauricio L. Barreto3
1. Introdução
Estudos de varredura genômica têm sido importante para um melhor
entendimento da base genética de muitas doenças complexas uma vez que se baseiam
no estudo simultâneo de vários polimorfismos sendo possível investigar a associação
entre os mesmos e as referidas doenças. Contudo, nem todas as doenças apresentam
padrões de herança bem definidos e simples como os postulados por Mendel. As
doenças complexas são um exemplo de não estarem ligadas a apenas um lócus gênico e
não apresentarem apenas fatores genéticos como causa do fenótipo. Após o
sequenciamento do genoma, temos a oportunidade de “olhar” cuidadosamente para
essas regiões e apontar para uma coleção de alterações que podem explicar a origem de
características clínicas importantes em muitas dessas doenças. Acredita-se que muitos
genes (variantes genéticas) têm participação no sistema de regulação do status da
doença, e assim cada vez mais a ciência tem necessitado de ferramentas estatísticas que
apresentem uma visão mais global do fenômeno, pois é necessário conhecer a totalidade
das informações fornecidas.
Em estudos de genética populacional uma das primeiras análises é explorar as
relações entre as frequências alélicas entre e intra lócus. Quando temos dois alelos em
um único lócus, a associação é verificada através do conceito de equilíbrio de HardyWeinberg. Já a associação entre dois alelos em lócus diferentes é verificada pelo teste
de desequilíbrio de ligação. Entretanto na presença de múltiplos lócus se faz necessário
1. Bolsista de Iniciação Científica do CNPq/UFBA
2. Departamento de Estatística/ UFBA
3. Instituto de Saúde Coletiva/ UFBA
analisar e visualizar simultaneamente essa associação através de procedimentos
adequados como as técnicas de estatística multivariada.
A ideia é estabelecer uma ligação da área de Genética, Epidemiologia e
Estatística para realizar o controle de qualidade e verificar presença de ancestralidade de
forma a explorar os conceitos de genética, desenhos de estudos epidemiológicos e as
ferramentas estatísticas exploratórias e multivariadas para análise de dados genéticos.
2. Material e Métodos
Com o avanço tecnológico, os estudos de varredura genômica (genome-wide
em inglês) vêm se destacando não somente pela sua complexidade, como também pelo
volume de informação gerada pela possibilidade de leitura de um grande número de
polimorfismo de única base ( SNPs), o que, consequentemente, fornece dados
multivariados. A estrutura dos dados num problema multivariado sempre poderá ser
representada na forma matricial, onde nas linhas são representados os indivíduos sobre
os quais foram coletados os dados e nas colunas, as variáveis medidas sobre esses
indivíduos, no caso os SNPs. Entretanto, para analisar dados genéticos uma série de
etapas e/ou procedimentos é necessária como controle da qualidade, analise uniloco,
avaliação do efeito do confundimento devido a estratificação genética da população, alta
dimensionalidade do espaço das variáveis preditoras na modelagem estatística.
2.1 Controle da Qualidade
Como em qualquer análise estatística, a qualidade dos dados é um dos fatores
decisivos que define a validade dos resultados. O controle de qualidade dos dados se
refere aos procedimentos exploratórios utilizados para avaliar o desempenho genotípico
das amostras. Como pode haver erros de genotipagem, entrada de DNA, falhas nas
hibridações dos chips de DNA, é de grande importância que esta etapa seja realizada.
Particularmente, nos estudos de varredura genômica, o controle da qualidade pode ser
realizado no nível do indivíduo ou do SNP. Segundo a literatura (Teo, 2008) o controle
de qualidade pode ser visto como um conjunto de métodos de limpeza de SNPs onde é
possível estabelecer comparação entre determinados procedimentos. Com exemplo,
temos a exclusão de SNP com menor frequência alélica (MAF) inferior a 1%. O MAF
refere-se à frequência com que os alelos menos comuns ocorrem em uma determinada
população. Essa medida é normalmente utilizada para filtrar os dados uma vez que a
não exclusão desses polimorfismo de única base (SNPs) compromete o poder de
detecção de associação entre SNPs e doença de interesse , por exemplo. O critério de
exclusão varia de acordo com o tamanho da amostra e normalmente são utilizados
valores de MAF entre 1 e 5% (Ziegler, Konig e Thompson, 2008). Outro critério e a
verificação do equilíbrio de Hardy-Weinberg. Tal critério permite comparar a própria
estrutura genética de uma população ao longo do tempo com a estrutura genética que
seria esperada se a população estivesse em equilíbrio de Hardy-Weinberg (ou seja, não
evoluísse). Sendo as frequências genotípicas tão diferentes das que seriam esperadas em
equilíbrio, podemos assumir que um ou mais dos pressupostos do modelo estão sendo
violados e consequentemente tais SNP são excluídos.
2.2 Avaliações do confundimento
Os estudos envolvendo milhares de marcadores, como é o caso estudos de
varredura genômica, a questão de confundimento pode gerar problemas, como por
exemplo, o aumento da taxa de falsos positivos. Esta inflação pode surgir,
principalmente por desvios sistemáticos devido ao desenho de estudo (estratificação).
Quando uma amostra de indivíduos consiste em vários subgrupos distintos que não se
cruzam, é dito que a amostra apresenta subestrutura ou estratificação, e este tem sido o
problema mais citado para não replicação de resultados em estudos de associação
genética. Assim, duas circunstâncias devem ser observadas nesses estudos:
Se a diferença na prevalência da doença é dada entre casos e controles;
Se aparecem variações na frequência alélica entre os grupos.
Se esses dois cenários forem reais, existe o problema denominado de
estratificação populacional. Em geral, a forma mais eficiente de controlar o problema de
estratificação é via delineamento experimental. Entretanto, se o fator confundidor for
desconhecido, utiliza-se decomposição espectral de matrizes. Na literatura diversos
métodos para corrigir o problema de estratificação populacional em estudos de
associação genética vêm sendo propostos como o controle genômico (CG), associação
estruturada, análise de componentes principais (ACP) e a regressão logística ou a
combinação dos mesmos. Entretanto, esses métodos possuem limitações. Price et al.
(2006) propuseram um método dividido em três etapas: na primeira, utiliza-se
componentes principais aos dados genótipos de forma a reduzir a dimensão dos dados
sem alterar a variabilidade genotípica. Numa segunda etapa, ajusta-se um modelo de
regressão utilizando como preditoras os escores ortogonais produzidos na primeira
etapa. E a última etapa é utilizar um fator de correção genoma-wide robusto nas
associações observadas. Nesse trabalho, o método de análise de componentes principais
será utilizado como ferramenta para lidar com o problema em questão.
2.3 Análises de Associação
Na análise uniloco, um dos testes mais utilizados é o teste de qui-quadrado, o
qual diz se as frequências são diferentes o bastante para afirmar que há associação ou
não. O teste Qui-quadrado de Pearson é computacionalmente vantajoso, mas se baseia
na teoria assintótica. Alternativamente, métodos computacionais intensivos podem ser
considerados como métodos de reamostragem (bootstrapping) paramétrica, ou testes
baseados em aleatorização como os testes permutacionais. Um exemplo clássico é o
teste exato de Fisher. O teste permutacional (TP) utiliza distribuições empíricas, geradas
via alocações aleatórias das unidades experimentais aos tratamentos (grupos). Tais
distribuições empíricas são utilizadas para testar hipóteses sobre os parâmetros de
interesse.
2.4 Aplicação
Neste projeto foi estudada uma abordagem de controle da qualidade bem como
o procedimento de análise de componentes principais para o tratamento de estratificação
populacional em um conjunto de dados reais oriundo do projeto EPIGEN cujo objetivo
geral é determinar a estrutura genômica e a ancestralidade de participantes de três
coortes brasileiras de base populacional. Em particular, iremos trabalhar com os dados
de um estudo conduzido em Salvador em 2005, cidade que tem mais de 2,5 milhões de
habitantes, cujo interesse e identificar os fatores de risco associados a asma e doenças
alérgicas em cerca de 1400 crianças participantes do projeto “Social Changes, Asthma
and Allergy in Latin America (SCAALA)”. Foram genotipados pelo menos pelo menos
2.5 milhões de SNPs distribuídos ao longo dos 23 cromossomos do genoma humano,
utilizando painéis comerciais HumanOmni2.5-8 BeadChip Kit (www.illumina.com). A
maior parte destes SNPs foi selecionada a partir dos SNPs presentes no projeto 1000
genomes (http://www.1000genomes.org/).
3. Resultados e Discussão
No controle de qualidade após utilizar diversos pontos de corte optou-se por
manter uma significância de 10-4 para o equilíbrio de HW. Dessa forma, 10.338 SNPs
foram eliminados por esse critério. Considerou-se uma taxa de genotipagem (call rate)
de 90% e MAF de 1%, o que eliminou 358.53 SNPs. A taxa de genotipagem por
individuo foi considerada também e apenas um individuo da população estava em
desacordo com este critério. Após todos esse passos do controle de qualidade, mantevese 1.881.799 SNPs. Para avaliação da ancestralidade, encontrou-se 256 mil SNPs
compatíveis com as populações testes presentes no
HAPMAP e a análise de
componentes principais foi realizada com essa quantidade. O primeiro componente
discriminou a população africana da população brasileira (SCAALA) e dos outros
(europeus e orientais). O segundo componente discriminou a população europeia e
orientais, mas não foi possível discriminar populações africanas da brasileira (gráficos
não apresentados nesse resumo). Nas análises de associação foi utilizada a correção de
Bonferroni para múltiplas exposições, além do teste permutacional com 1000
permutações. Nenhum dos SNPs foi associado com Asma. Também não encontramos
associação dentro do modelos genotípicos como o aditivo, dominante e recessivo. Até o
momento esses resultados são parciais e outros procedimentos estatísticos serão
utilizados.
5. Biobliografia
FOULKES, A. Applied Statistical Genetics with R: For Population-based Association
Studies (Use R). [S.l.]: Springer, 2009. 252 p.
TEO, Y. Y. Commom statistical issues in genome-wide association studies: a review on
power, data quality control, genotipe calling and population structure. Current opinion
in Lipidology, v. 19, p. 133-143, April 2008
ZIEGLER, A.; KÖNIG, I.; THOMPSON, J. Biostatistical aspects of genome wide
association studies. Biometrical Journal, v. 50, p. 8-28, December 2008.
ZIEGLER, A., KONIG, I. R. (2006). A statistical approach to genetic epidemiology.
WileyVch, Weinheim.
Download

Análise de associação da estrutura genômica de doenças