Evidência de Recombinação em
Alpha-Papilomavírus Humano
Abordagens Computacionais
Guilherme Carvalho Leal
O Papilomavírus
• Vírus de DNA dupla-fita circular
• Infecta mamíferos e aves (HPV, BPV..)
• Célula hospedeira: melanócito
• Tem variedades carcinogênicas que
causam carcinoma no trato genital
[HPV: 0,5M casos/ano; 274k mortes/ano]
O Papilomavírus
O Papilomavírus
• 100+ tipos de HPV conhecidos hoje
• Possibilidade de recombinação?
– Viabilidade de linhagens ”engineered“
– Surgimento de variações do HPV16
– Grande pluralidade de tipos de HPV
– Freqüente co-infecção por 2+ tipos
Recombinação
• Dois alelos (um de cada gene) que
estão associados em duas regiões de
uma mesma seqüência de DNA
tornam-se dissociados
• Um dos dois alelos é substituído por
algum outro alelo encontrados no
mesmo locus em uma segunda
molécula de DNA.
Recombinação
• Força-chave que dirige a evolução dos
genomas
• Combinações de alelos são associadas
a doenças genéticas e a resistências a
drogas em patógenos
• Logo, não deve ser negligenciada
Recombinação
• 2 tipos clássicos
Recombinação em HPV
• Angulo, Carvajal-Rodríguez (2007)
– Estimativas de recombinação de diferentes
genes (E6, E7, L1 e L2) em diferentes grupos
• GI: 14 tipos de alto risco mais comuns, n=14seqs
• GII: 6 tipos de baixo risco, n=8seqs
• GIII: 3 tipos de baixo risco e 5 de risco
desconhecido, n=12seqs
• HPV16: n=8seqs
[clustering por critérios filogenéticos, epidemiológicos e clínicos]
Recombinação em HPV
• Mas como estimar a
taxa de recombinação?
– Phylogenetics-based methods
– Substitution-based methods
– Model-based methods
Evolução dos Estimadores
• Coalescent likelihood estimators
– 1996-2001: full-likelihood methods
usavam toda a informação contida nos dados
(IMPRATICÁVEL!)
Evolução dos Estimadores
– 2001 em diante: pseudolikelihood methods.
“aproximar a full-likelihood, em vez de computá-la”
• Hudson (2001): composite-likelihood estimator
(CLE). Analisa os sítios divergentes par a par
• McVean, Awadalla & Fearnhead (2002)
Extensão do CLE de Hudson.
LDhat (package) > pairwise (program)
Evolução dos Estimadores
• McVean, Awadalla & Fearnhead (2002)
Assumem um modelo com:
- 2 alelos por locus
- mutação reversível e simétrica
- taxa de mutação por geração:homogênea nos sítios
Ou seja:
- somente sítios c/ exatos 2 alelos são considerados
- a identidade desses alelos (A, C, G ou T) é perdida
Testes com diversos modelos de evolução revelaram
que esse método é robusto somente para pequenos
“misspecifications” do modelo de mutação.
LDhat
• Ldhat (McVean, 2002): pacote de programas
escrito em C para a análise de recombinação
em dados de genética populacional
– Programa-chave: pairwise
pairwise
• Entrada
– conjunto de alelos divergentes alinhados
– a localização de cada alelo divergente
– a taxa de mutação da população, θ = 4Nμ
(N=tamanho efetivo da população;
μ=taxa de mutação por sítio por geração)
pairwise
• Processamento
– Estima a “coalescence likelihood” em cada par
divergente, tratando-os separadamente.
– Pares divergentes são agrupados por
equivalência, reduzindo a qtd de dados
– Likelihood Permutation Test (LPT)
pairwise
- Estima a taxa de recombinação ρ
ρ = 4Ner (diploid species) ou
ρ = 2Ner (haploid species)
Ne = effective population size
r = genetic map distance
r = dS
d= physical distance
S= per site rate of recombination
pairwise
**Sites file**
4 10 2
>GenotypeA
122110?000
>GenotypeB
1111201100
>GenotypeC
011111?112
>GenotypeD
2112210100
**locs file**
10 1200 L
1 57 180 187 223 250 438 509 878 1034
Evolução dos Estimadores
• Entretanto...
– O método de McVean (2002) é limitado
quanto à realidade biológica.
• Exemplo: HIV1
– Modelo de substituição GTR (General Time
Reversible)
– Variação entre as taxas de mutação dos
diferentes sítios
– População muito instável
– Sofre importantes pressões seletivas
Evolução dos Estimadores
• Carvajal-Rodríguez, Crandall & Posada (2006)
– Testaram o pairwise sob modelos
mais complexos e realísticos
– Liberaram algumas das restrições a fim de
aumentar a robustez do estimador.
kpairwise
kpairwise
• As mudanças no kpairwise
– Leva em conta todos os sítios;
não só aqueles com 2 alelos
– A taxa de mutação pode ser variável entre sítios
– Modelo de substituição com 6 taxas para as mudanças
entre os 4 nucleotídeos (A, C, G e T) em vez de uma
única taxa entre dois estados inespecíficos (1 e 0)
– Modelos populacionais que levam em conta diferentes
padrões de crescimento, seleção e subdivisão
kpairwise
• Consideravelmente mais lento que o pairwise
– O número de combinações alélicas diferentes é bem
maior → enumeração e tabelamento menos eficientes
– Mesmo assim, um sistema de tabelamento guarda os
likelihoods para um dado θ, os parâmetros da
substituição de nucleotídeos, o número de seqüências
e uma grade de valores ρ. Cada vez que o algoritmo é
rodado, procura-se os dados de que se precisa nas
tabelas; se não encontrados, eles são calculados e
então armazenados.
kpairwise
• Ainda passível de significativas subestimações
da taxa de recombinação no caso de:
–
–
–
–
Crescimento exponencial
Seleção direcional
Estruturas populacionais
Amostragem não-contemporânea
HIV1
• Logo, novos estimadores de recombinação, mais
sofisticados, são necessários.
Recombinação em HPV
• Resultados
– Gene com taxa de recombinação mais
alta: E6
– Gene com sinal de recombinação no
maior número de grupos: L2
Recombinação em HPV
• Discussão
– A evidência de recombinação em HPV é
importante porque pode sugerir equívocos em
filogenias baseadas nos genes em questão
– Novos tipos recombinantes podem estar sendo
gerados constantemente
Links
• McVean’s LDhat
– http://www.stats.ox.ac.uk/~mcvean/LDhat/
• Carvajal-Rodríguez’s kpairwise
– http://darwin.uvigo.es/software/kpairwise.html
Download

Evidência de Recombinação em Alpha