Método de estimação do Coeficiente de Endogamia e das proporções alélicas em dados de CNVs (Copy Number Variations) Silvana Schneider1, Maíra Ribeiro Rodrigues2 e Denise Duarte1 1. Introdução Copy Number Variation (CNV) são segmentos de DNA que apresentam variações do número de cópias de uma sequência (gene). Tais segmentos podem variar de um kilobase a três megabases de tamanho (Feuk et al., 2006). Alguns genes possuem uma variação do número de cópias de 0 a 14 cópias, como, por exemplo, o gene CCL3L1 (Gonzalez et al., 2005). Inúmeras pesquisas já identificaram a associação de variações no número de cópias de alguns genes com diversas doenças genéticas complexas, tais como o lúpus, artrite reumatoide e diabetes do tipo 1 (revisão encontrada em Mills et al. (2011) e Santhosh et al. (2011). Os métodos disponíveis para a identificação de CNVs são capazes de descrever apenas o número total de cópias de um gene, deixando subjacente o número de cópias por cromossomo. Essa limitação se estende para estudos populacionais de CNVs (Zuccherato, 2012). Para inferir as proporções alélica e genotípica em dados do número de cópias de determinado gene, foi desenvolvido por Gaunt et al. (2010) um programa chamado CoNVEM (CNV Allele Frequency Estimation by Expectation Maximization), baseado no Algoritmo EM (Expectation-Maximization) para determinar a proporção alélica em dados haploides de CNV, supondo que os dados estão em Equilíbrio de Hardy-Weinberg (EHW). Neste trabalho propomos a inclusão do Coeficiente de Endogamia, quando os dados não estão em Equilíbrio de Hardy-Weinberg. Esse Coeficiente é formalmente definido como a probabilidade de dois genes de um indivíduo qualquer, em um determinado lócus, serem cópias de um mesmo gene ancestral (Lange, 2002). Na estimação deste coeficiente será necessário usarmos a abordagem da função de verossimilhança perfilada. Utilizamos os cálculos na obtenção da proporção alélica do número de cópias do gene CCL3L1. A amostra é composta por três populações nativas americanas: Shimaa e Monte Carmelo, do grupo étnico Matsiguenga, e Ashaninka do grupo étnico Ashaninka, e pelos Quechua e Europeus tipados por Field et al., (2009). 1. Departamento de Estatística, UFMG. Email: [email protected] 2. Departamento de Biologia Geral, Instituto de Ciências Biológicas, UFMG 2. Método Os alelos haplotípicos são denotados por hk e hl, onde k e l representam o número de cópias em cada cromossomo; j é o número total de cópias (fenótipo) observado; k e l não são observados diretamente, porém sabe-se que k+l=j, logo hk varia de ho até hj, e hj varia de ho até hk; f denota o coeficiente de endogamia; pk é a probabilidade do alelo hk. O genótipo homozigoto (hk, hk) tem probabilidade fp k + (1 − f ) pk2 , onde pk é a probabilidade dos alelos serem cópias de um mesmo gene ancestral hk e pk2 é a probabilidade de dois genes não serem cópias de um mesmo gene ancestral, e (1 − f )2 p k pl é a probabilidade do genótipo heterozigoto (hk, hl) (Lange, 2002). Como as proporções alélicas p0, p1,..., ph e o parâmetro f são desconhecidos inicializa-se com os valores p0( 0 ) , p1( 0 ) , p2( 0 ) ,..., ph( 0 ) . Sendo assim a porção genotípica na g-ésima iteração, composta pelos haplótipos k e l, dada por: ~ (g) P f f ( g ) p k( g ) + (1 − f ( g ) ) p k2 ( g ) , k = l ( hk , hl ) = . (g) (g) (g) (1 − f ) 2 p k pl , k ≠ l (1) Se f=0 os dados seguem o Equilíbrio de Hardy-Weinberg, e os cálculos equivalem aos utilizados no programa ConVEM (Gaunt et al, 2010). A probabilidade do j-ésimo fenótipo observado é dada pela soma de todos os possíveis genótipos que podem ser encontrados no j-ésimo fenótipo, ou seja: Pf(jg ) f ( g ) p (j g/ 2) + (1 − f ( g ) ) p (j g/ 2) 2 , j = 0 j / 2−1 f ( g ) p (j g/ 2) + (1 − f ( g ) ) p (j g/ 2) 2 + ∑ (1 − f ( g ) )2 pk( g ) p (j −g k) , j : par k =0 = . j −1 2 (g) (g) (g) (1 − f )2 pk p j −k , j : ímpar ∑ k =0 (2) Sabe-se que a função densidade dos fenótipos segue uma distribuição Multinomial dada por: n! n jmáximo P= × P0n0 × P1n1 × ... × Pjmáximo (3) n0 ! n1!...n jmáximo ! onde jmáximo é o valor do fenótipo mais alto e nj é o número de indivíduos com o fenótipo j. Com base nas equações anteriores pode-se obter a função de verossimilhança conjunta de f e p, sendo p o vetor de todas as proporções alélicas, é dada por: L( f , p ) = jmáximo n! n ( Pf(jg ) ) j ∏ n0 ! n1!...n jmáximo ! j =0 (4) Para resolvermos a função de verossimilhança conjunta de f e p, vamos utilizar o método da verossimilhança perfilada. Nesta verrosimilhança, para valores fixos de p a Estimativa de Máxima Verossimilhança de f é geralmente uma função de p. A verossimilhança perfilada é então tratada como uma verossimilhança normal, e tendo-se o valor da estimativa de f , volta-se nas equações (1) e (2) para calcular a proporção genotípica na g-ésima iteração. E, através do método do Algoritmo EM (Demspetr, 1977) tem-se então no Passo E a estimativa para o número de indivíduos com o genótipo (hk, hl), dada por: Ε(nk ,l | Y , p (g) ) = nj × Pfˆ( g ) (hk , hl ) (g) fˆ P = n × Pfˆ( g ) (hk , hl ), Y = n - n k,l . (5) j No Passo M as estimativas para o número de indivíduos, nk,l , são substituídas por nk,l (g) , considerando-se as proporções genotípicas obtidas por: ~ Pfˆ (hk , hl ) = (g) n j P fˆ (hk , hl ) n Pfˆ (g) . j (6) E, a proporção alélica é então obtida por: ^ ( g +1) p fˆ t = 1 m j δ it Pfˆ (hk ,hl ) ( g ) . ∑∑ j 2 j =0 k =0 (7) onde δ it indica o número de vezes que o alelo t aparece no genótipo i = (hkhl) e m é o valor do fenótipo máximo. O algoritmo se reinicia até haver convergência, quando a diferença entre a proporção alélica estimada atual e anterior for inferior a 0,00000001 ou haver no máximo 10.000 iterações. 3. Aplicações a dados reais O número de cópias do gene CCL3L1 foi medido na amostra composta pelos Ashaninka (n=142, pois nos demais indivíduos foram medidos somente outros genes), Shimaa (n=89), Monte Carmelo (n=24), Quechua (n=120). Para avaliar o número de cópias do gene CCL3L1 também contamos com uma amostra da população Europeia (n=4266), tipados por Field et al. (2009). As proporções alélicas obtidas através da equação (8), após a convergência e considerando-se Coeficiente de Endogamia f=0, para as cinco populações encontram-se na Tabela 1. Tabela 1: Proporção alélica estimada para cada população, supondo Coeficiente de Endogamia f=0. Proporção alélica estimada para as populações amostradas. Alelo Ashaninka Shimaa Monte Carmelo Quechua Europeus h0 0,00000 0,00000 0,00000 0,00000 0,13162 h1 0,48501 0,31490 0,54514 0,32204 0,74574 h2 0,37609 0,60615 0,24306 0,58469 0,11829 h3 0,09559 0,07895 0,21180 0,08234 0,00348 h4 0,03984 0,00000 0,00000 0,00558 0,00087 h5 0,00348 0,00000 0,00000 0,00535 0,00000 h6 0,00000 0,00000 0,00000 0,00000 0,00000 h7 0,00000 0,00000 0,00000 0,00000 0,00000 O Teste da Razão de Verossimilhança (TRV) na comparação entre europeus e Quéchuas foi 392,11; na comparação entre as populações europeia e Monte Carmelo o TRV=61,51; na comparação entre europeus e Shimaa, TRV =298,11; na comparação entre europeus e Ashaninka o TRV=336,47. Nas quatro comparações, comparando-se com χ 92 = 16,919 rejeita-se a hipótese de que as populações possam ser consideradas iguais. Incluindo-se o Coeficiente de Endogamia, f, obtivemos as estimativas para o Coeficiente: população Ashaninka f = 6,26x10-5 [4,79e-05; 0,0579]; na população europeia f=0,0072865 [6,07e-05; 0.034]; na população Monte Carmelo f=0,2825013 [5,79e-05; 0,652]; na população Quéchua f=0,0130045 [6,41e-05; 0,118]; e na população Shimma f=6,26x10-5 [4,89e-05; 6,61e-05]. A estatística do TRV, para a população Monte Carmelo, na comparação entre a verossimilhança sob f=0 e a verossimilhança sob f=0,2825013 resulta em 5,338; para a população europeia temos a estatística de teste do TRV igual a 7,861; e para a população Quéchua é igual a 2,516, nos três casos comparando-se com 1 χ 02 + 1 χ12 = 2,42075 (Self and 2 2 Liang, 1987) rejeita-se a hipótese de que o Coeficiente de Endogamia seja zero. 4. Considerações Finais Apesar da intensa pesquisa na área da Genética sobre CNVs, ainda há a necessidade de elaborar ferramentas estatísticas para se avaliar estes dados. Tanto em situações onde as proporções alélicas desconhecidas estão em Equilíbrio de Hardy-Weinberg (EHW) quanto em situações onde estão em desequilíbrio. Tendo em vista essa necessidade, propomos um programa, que chamamos de CNVice, capaz de estimar as proporções alélicas e genotípicas quando a população está em EHW e quando não está. Também propomos as estimativas individuais e estimativas condicionadas na informação dos pais. Considerando-se o gene CCL3L1 das populações Shimaa, Monte Carmelo e Ashaninka, quando comparadas com a população Europeia, apresentam uma diferença significativa na distribuição das proporções alélicas, ressaltando assim a diferença entre as populações nativas e a Europeia. Também podemos observar um moderado Coeficiente de Endogamia para a população Monte Carmelo, talvez devido ao fato de ser uma população nativa com baixo índice de miscigenação (Zuccherato, 2012). Referências Bibliográficas DEMPSTER, A. P., LAIRD, N. M., RUBIN D.B. Maximum likelihood from incomplete data via the EM algorithm. J R Stat Soc, Series B, v. 39, p.1–38, 1977. FEUK L., CARSON A.R., SCHERER S.W. Structural variation in the human genome. Nature Rev Genetic, v. 7, n.2, p.85-97, 2006. FIELD, S. F., HOWSON, J. M. M., MAIER, L. M., WALKER, S., WALKER, N. M., SMYTH, D. J., et al. Experimental aspects of copy number variant assays at CCL3L1. Nature America, v. 15, n. 10, 2009. GAUNT, T. R.; RODRIGUEZ, S.; GUTHRIE, P. A. I. e DAY, Ian N.M.An Expectation– Maximization Program for Determining Allelic Spectrum from CNV Data (CoNVEM). Human Mutation, v. 31, n. 4, p. 414–420, 2010. GONZALEZ, E. et al. The influence of CCL3L1 gene-containing segmental duplications on HIV-1/AIDS susceptibility. Science, v. 307, n. 5714, p. 1434-40, 2005. LANGE, K. Mathematical and Statistical Methods for Genetic Analysis. Ed. Springer, 2ª ed. Capítulo 3, p. 42-43, 2002. MILLS, R., WALTER K., STERWART C., HANDSAKER R., CHEN K., ALKAN C., et al. Mapping CN variation by population-scale genome sequencing. Nature 470(7332):59-65, 2011. SANTHOSH G., CAMPBELL C. D. and EICHLER E.E.. Human Copy Number Variation and Complex Genetic Disease. Annual Review of Genetics, Vol. 45: 203-226, 2011. SELF S.G. and LIANG K-Y. Asymptotic Properlies of Maximum Likelihood Estimators and Likelihood Ratio Tests Under Nonstandard Conditions. Journal of the American Statistical Association, 82(398) 605-610, 1987. ZUCCHERATO L. W. Estrutura populacional e diversidade de variações em número de cópias (CNVs) de genes do sistema imune em populações nativas da América do Sul. Tese de doutorado, UFMG, 2012.