Método de estimação do Coeficiente de Endogamia e das
proporções alélicas em dados de CNVs (Copy Number Variations)
Silvana Schneider1,
Maíra Ribeiro Rodrigues2
e Denise Duarte1
1. Introdução
Copy Number Variation (CNV) são segmentos de DNA que apresentam variações do
número de cópias de uma sequência (gene). Tais segmentos podem variar de um kilobase a
três megabases de tamanho (Feuk et al., 2006). Alguns genes possuem uma variação do
número de cópias de 0 a 14 cópias, como, por exemplo, o gene CCL3L1 (Gonzalez et al.,
2005). Inúmeras pesquisas já identificaram a associação de variações no número de cópias de
alguns genes com diversas doenças genéticas complexas, tais como o lúpus, artrite reumatoide
e diabetes do tipo 1 (revisão encontrada em Mills et al. (2011) e Santhosh et al. (2011). Os
métodos disponíveis para a identificação de CNVs são capazes de descrever apenas o número
total de cópias de um gene, deixando subjacente o número de cópias por cromossomo. Essa
limitação se estende para estudos populacionais de CNVs (Zuccherato, 2012).
Para inferir as proporções alélica e genotípica em dados do número de cópias de
determinado gene, foi desenvolvido por Gaunt et al. (2010) um programa chamado CoNVEM
(CNV Allele Frequency Estimation by Expectation Maximization), baseado no Algoritmo EM
(Expectation-Maximization) para determinar a proporção alélica em dados haploides de CNV,
supondo que os dados estão em Equilíbrio de Hardy-Weinberg (EHW).
Neste trabalho propomos a inclusão do Coeficiente de Endogamia, quando os dados
não estão em Equilíbrio de Hardy-Weinberg. Esse Coeficiente é formalmente definido como a
probabilidade de dois genes de um indivíduo qualquer, em um determinado lócus, serem
cópias de um mesmo gene ancestral (Lange, 2002). Na estimação deste coeficiente será
necessário usarmos a abordagem da função de verossimilhança perfilada. Utilizamos os
cálculos na obtenção da proporção alélica do número de cópias do gene CCL3L1. A amostra
é composta por três populações nativas americanas: Shimaa e Monte Carmelo, do grupo
étnico Matsiguenga, e Ashaninka do grupo étnico Ashaninka, e pelos Quechua e Europeus
tipados por Field et al., (2009).
1. Departamento de Estatística, UFMG. Email: [email protected]
2. Departamento de Biologia Geral, Instituto de Ciências Biológicas, UFMG
2. Método
Os alelos haplotípicos são denotados por hk e hl, onde k e l representam o número de
cópias em cada cromossomo; j é o número total de cópias (fenótipo) observado; k e l não são
observados diretamente, porém sabe-se que k+l=j, logo hk varia de ho até hj, e hj varia de ho
até hk; f denota o coeficiente de endogamia; pk é a probabilidade do alelo hk.
O genótipo homozigoto (hk, hk) tem probabilidade fp k + (1 − f ) pk2 , onde pk é a
probabilidade dos alelos serem cópias de um mesmo gene ancestral hk e pk2 é a probabilidade
de dois genes não serem cópias de um mesmo gene ancestral, e (1 − f )2 p k pl é a
probabilidade do genótipo heterozigoto (hk, hl) (Lange, 2002). Como as proporções alélicas
p0, p1,..., ph
e o parâmetro f são desconhecidos inicializa-se com os valores
p0( 0 ) , p1( 0 ) , p2( 0 ) ,..., ph( 0 ) . Sendo assim a porção genotípica na g-ésima iteração, composta pelos
haplótipos k e l, dada por:
~ (g)
P
f
 f ( g ) p k( g ) + (1 − f ( g ) ) p k2 ( g ) , k = l
( hk , hl ) = 
.
(g)
(g) (g)
 (1 − f ) 2 p k pl , k ≠ l
(1)
Se f=0 os dados seguem o Equilíbrio de Hardy-Weinberg, e os cálculos equivalem aos
utilizados no programa ConVEM (Gaunt et al, 2010).
A probabilidade do j-ésimo fenótipo observado é dada pela soma de todos os possíveis
genótipos que podem ser encontrados no j-ésimo fenótipo, ou seja:
Pf(jg )

f ( g ) p (j g/ 2) + (1 − f ( g ) ) p (j g/ 2) 2 , j = 0

j / 2−1
 f ( g ) p (j g/ 2) + (1 − f ( g ) ) p (j g/ 2) 2 + ∑ (1 − f ( g ) )2 pk( g ) p (j −g k) , j : par

k =0
=
.
j −1
2

(g)
(g) (g)
(1 − f )2 pk p j −k , j : ímpar
∑

k =0


(2)
Sabe-se que a função densidade dos fenótipos segue uma distribuição Multinomial dada por:
n!
n jmáximo
P=
× P0n0 × P1n1 × ... × Pjmáximo
(3)
n0 ! n1!...n jmáximo !
onde jmáximo é o valor do fenótipo mais alto e nj é o número de indivíduos com o fenótipo j.
Com base nas equações anteriores pode-se obter a função de verossimilhança conjunta
de f e p, sendo p o vetor de todas as proporções alélicas, é dada por:
L( f , p ) =
jmáximo
n!
n
( Pf(jg ) ) j
∏
n0 ! n1!...n jmáximo ! j =0
(4)
Para resolvermos a função de verossimilhança conjunta de f e p, vamos utilizar o
método da verossimilhança perfilada. Nesta verrosimilhança, para valores fixos de p a
Estimativa de Máxima Verossimilhança de f é geralmente uma função de p. A
verossimilhança perfilada é então tratada como uma verossimilhança normal, e tendo-se o
valor da estimativa de f , volta-se nas equações (1) e (2) para calcular a proporção genotípica
na g-ésima iteração. E, através do método do Algoritmo EM (Demspetr, 1977) tem-se então
no Passo E a estimativa para o número de indivíduos com o genótipo (hk, hl), dada por:
Ε(nk ,l | Y , p
(g)
) = nj ×
Pfˆ( g ) (hk , hl )
(g)
fˆ
P
= n × Pfˆ( g ) (hk , hl ), Y = n - n k,l .
(5)
j
No Passo M as estimativas para o número de indivíduos, nk,l , são substituídas por
nk,l
(g)
, considerando-se as proporções genotípicas obtidas por:
~
Pfˆ (hk , hl ) =
(g)
n j P fˆ (hk , hl )
n
Pfˆ
(g)
.
j
(6)
E, a proporção alélica é então obtida por:
^
( g +1)
p fˆ t
=
1 m j
δ it Pfˆ (hk ,hl ) ( g ) .
∑∑
j
2 j =0 k =0
(7)
onde δ it indica o número de vezes que o alelo t aparece no genótipo i = (hkhl) e m é o valor do
fenótipo máximo. O algoritmo se reinicia até haver convergência, quando a diferença entre a
proporção alélica estimada atual e anterior for inferior a 0,00000001 ou haver no máximo
10.000 iterações.
3. Aplicações a dados reais
O número de cópias do gene CCL3L1 foi medido na amostra composta pelos
Ashaninka (n=142, pois nos demais indivíduos foram medidos somente outros genes), Shimaa
(n=89), Monte Carmelo (n=24), Quechua (n=120). Para avaliar o número de cópias do gene
CCL3L1 também contamos com uma amostra da população Europeia (n=4266), tipados por
Field et al. (2009). As proporções alélicas obtidas através da equação (8), após a convergência
e considerando-se Coeficiente de Endogamia f=0, para as cinco populações encontram-se na
Tabela 1.
Tabela 1: Proporção alélica estimada para cada população, supondo Coeficiente de Endogamia f=0.
Proporção alélica estimada para as populações amostradas.
Alelo
Ashaninka
Shimaa
Monte Carmelo
Quechua
Europeus
h0
0,00000
0,00000
0,00000
0,00000
0,13162
h1
0,48501
0,31490
0,54514
0,32204
0,74574
h2
0,37609
0,60615
0,24306
0,58469
0,11829
h3
0,09559
0,07895
0,21180
0,08234
0,00348
h4
0,03984
0,00000
0,00000
0,00558
0,00087
h5
0,00348
0,00000
0,00000
0,00535
0,00000
h6
0,00000
0,00000
0,00000
0,00000
0,00000
h7
0,00000
0,00000
0,00000
0,00000
0,00000
O Teste da Razão de Verossimilhança (TRV) na comparação entre europeus e
Quéchuas foi 392,11; na comparação entre as populações europeia e Monte Carmelo o
TRV=61,51; na comparação entre europeus e Shimaa, TRV =298,11; na comparação entre
europeus e Ashaninka o TRV=336,47. Nas quatro comparações, comparando-se com χ 92 =
16,919 rejeita-se a hipótese de que as populações possam ser consideradas iguais.
Incluindo-se o Coeficiente de Endogamia, f, obtivemos as estimativas para o
Coeficiente: população Ashaninka f = 6,26x10-5 [4,79e-05; 0,0579]; na população europeia
f=0,0072865 [6,07e-05; 0.034]; na população Monte Carmelo f=0,2825013 [5,79e-05; 0,652];
na população Quéchua f=0,0130045 [6,41e-05; 0,118]; e na população Shimma f=6,26x10-5
[4,89e-05; 6,61e-05].
A estatística do TRV, para a população Monte Carmelo, na comparação entre a
verossimilhança sob f=0 e a verossimilhança sob f=0,2825013 resulta em 5,338; para a
população europeia temos a estatística de teste do TRV igual a 7,861; e para a população
Quéchua é igual a 2,516, nos três casos comparando-se com 1 χ 02 + 1 χ12 = 2,42075 (Self and
2
2
Liang, 1987) rejeita-se a hipótese de que o Coeficiente de Endogamia seja zero.
4. Considerações Finais
Apesar da intensa pesquisa na área da Genética sobre CNVs, ainda há a necessidade
de elaborar ferramentas estatísticas para se avaliar estes dados. Tanto em situações onde as
proporções alélicas desconhecidas estão em Equilíbrio de Hardy-Weinberg (EHW) quanto em
situações onde estão em desequilíbrio. Tendo em vista essa necessidade, propomos um
programa, que chamamos de CNVice, capaz de estimar as proporções alélicas e genotípicas
quando a população está em EHW e quando não está. Também propomos as estimativas
individuais e estimativas condicionadas na informação dos pais.
Considerando-se o gene CCL3L1 das populações Shimaa, Monte Carmelo e
Ashaninka, quando comparadas com a população Europeia, apresentam uma diferença
significativa na distribuição das proporções alélicas, ressaltando assim a diferença entre as
populações nativas e a Europeia. Também podemos observar um moderado Coeficiente de
Endogamia para a população Monte Carmelo, talvez devido ao fato de ser uma população
nativa com baixo índice de miscigenação (Zuccherato, 2012).
Referências Bibliográficas
DEMPSTER, A. P., LAIRD, N. M., RUBIN D.B. Maximum likelihood from incomplete data
via the EM algorithm. J R Stat Soc, Series B, v. 39, p.1–38, 1977.
FEUK L., CARSON A.R., SCHERER S.W. Structural variation in the human genome.
Nature Rev Genetic, v. 7, n.2, p.85-97, 2006.
FIELD, S. F., HOWSON, J. M. M., MAIER, L. M., WALKER, S., WALKER, N. M.,
SMYTH, D. J., et al. Experimental aspects of copy number variant assays at CCL3L1.
Nature America, v. 15, n. 10, 2009.
GAUNT, T. R.; RODRIGUEZ, S.; GUTHRIE, P. A. I. e DAY, Ian N.M.An Expectation–
Maximization Program for Determining Allelic Spectrum from CNV Data (CoNVEM).
Human Mutation, v. 31, n. 4, p. 414–420, 2010.
GONZALEZ, E. et al. The influence of CCL3L1 gene-containing segmental duplications on
HIV-1/AIDS susceptibility. Science, v. 307, n. 5714, p. 1434-40, 2005.
LANGE, K. Mathematical and Statistical Methods for Genetic Analysis. Ed. Springer, 2ª
ed. Capítulo 3, p. 42-43, 2002.
MILLS, R., WALTER K., STERWART C., HANDSAKER R., CHEN K., ALKAN C., et al.
Mapping CN variation by population-scale genome sequencing. Nature 470(7332):59-65,
2011.
SANTHOSH G., CAMPBELL C. D. and EICHLER E.E.. Human Copy Number Variation
and Complex Genetic Disease. Annual Review of Genetics, Vol. 45: 203-226, 2011.
SELF S.G. and LIANG K-Y. Asymptotic Properlies of Maximum Likelihood Estimators and
Likelihood Ratio Tests Under Nonstandard Conditions. Journal of the American Statistical
Association, 82(398) 605-610, 1987.
ZUCCHERATO L. W. Estrutura populacional e diversidade de variações em número de
cópias (CNVs) de genes do sistema imune em populações nativas da América do Sul.
Tese de doutorado, UFMG, 2012.
Download

P - RBras