Evidência de Recombinação em Alpha-Papilomavírus Humano Abordagens Computacionais Guilherme Carvalho Leal O Papilomavírus • Vírus de DNA dupla-fita circular • Infecta mamíferos e aves (HPV, BPV..) • Célula hospedeira: melanócito • Tem variedades carcinogênicas que causam carcinoma no trato genital [HPV: 0,5M casos/ano; 274k mortes/ano] O Papilomavírus O Papilomavírus • 100+ tipos de HPV conhecidos hoje • Possibilidade de recombinação? – Viabilidade de linhagens ”engineered“ – Surgimento de variações do HPV16 – Grande pluralidade de tipos de HPV – Freqüente co-infecção por 2+ tipos Recombinação • Dois alelos (um de cada gene) que estão associados em duas regiões de uma mesma seqüência de DNA tornam-se dissociados • Um dos dois alelos é substituído por algum outro alelo encontrados no mesmo locus em uma segunda molécula de DNA. Recombinação • Força-chave que dirige a evolução dos genomas • Combinações de alelos são associadas a doenças genéticas e a resistências a drogas em patógenos • Logo, não deve ser negligenciada Recombinação • 2 tipos clássicos Recombinação em HPV • Angulo, Carvajal-Rodríguez (2007) – Estimativas de recombinação de diferentes genes (E6, E7, L1 e L2) em diferentes grupos • GI: 14 tipos de alto risco mais comuns, n=14seqs • GII: 6 tipos de baixo risco, n=8seqs • GIII: 3 tipos de baixo risco e 5 de risco desconhecido, n=12seqs • HPV16: n=8seqs [clustering por critérios filogenéticos, epidemiológicos e clínicos] Recombinação em HPV • Mas como estimar a taxa de recombinação? – Phylogenetics-based methods – Substitution-based methods – Model-based methods Evolução dos Estimadores • Coalescent likelihood estimators – 1996-2001: full-likelihood methods usavam toda a informação contida nos dados (IMPRATICÁVEL!) Evolução dos Estimadores – 2001 em diante: pseudolikelihood methods. “aproximar a full-likelihood, em vez de computá-la” • Hudson (2001): composite-likelihood estimator (CLE). Analisa os sítios divergentes par a par • McVean, Awadalla & Fearnhead (2002) Extensão do CLE de Hudson. LDhat (package) > pairwise (program) Evolução dos Estimadores • McVean, Awadalla & Fearnhead (2002) Assumem um modelo com: - 2 alelos por locus - mutação reversível e simétrica - taxa de mutação por geração:homogênea nos sítios Ou seja: - somente sítios c/ exatos 2 alelos são considerados - a identidade desses alelos (A, C, G ou T) é perdida Testes com diversos modelos de evolução revelaram que esse método é robusto somente para pequenos “misspecifications” do modelo de mutação. LDhat • Ldhat (McVean, 2002): pacote de programas escrito em C para a análise de recombinação em dados de genética populacional – Programa-chave: pairwise pairwise • Entrada – conjunto de alelos divergentes alinhados – a localização de cada alelo divergente – a taxa de mutação da população, θ = 4Nμ (N=tamanho efetivo da população; μ=taxa de mutação por sítio por geração) pairwise • Processamento – Estima a “coalescence likelihood” em cada par divergente, tratando-os separadamente. – Pares divergentes são agrupados por equivalência, reduzindo a qtd de dados – Likelihood Permutation Test (LPT) pairwise - Estima a taxa de recombinação ρ ρ = 4Ner (diploid species) ou ρ = 2Ner (haploid species) Ne = effective population size r = genetic map distance r = dS d= physical distance S= per site rate of recombination pairwise **Sites file** 4 10 2 >GenotypeA 122110?000 >GenotypeB 1111201100 >GenotypeC 011111?112 >GenotypeD 2112210100 **locs file** 10 1200 L 1 57 180 187 223 250 438 509 878 1034 Evolução dos Estimadores • Entretanto... – O método de McVean (2002) é limitado quanto à realidade biológica. • Exemplo: HIV1 – Modelo de substituição GTR (General Time Reversible) – Variação entre as taxas de mutação dos diferentes sítios – População muito instável – Sofre importantes pressões seletivas Evolução dos Estimadores • Carvajal-Rodríguez, Crandall & Posada (2006) – Testaram o pairwise sob modelos mais complexos e realísticos – Liberaram algumas das restrições a fim de aumentar a robustez do estimador. kpairwise kpairwise • As mudanças no kpairwise – Leva em conta todos os sítios; não só aqueles com 2 alelos – A taxa de mutação pode ser variável entre sítios – Modelo de substituição com 6 taxas para as mudanças entre os 4 nucleotídeos (A, C, G e T) em vez de uma única taxa entre dois estados inespecíficos (1 e 0) – Modelos populacionais que levam em conta diferentes padrões de crescimento, seleção e subdivisão kpairwise • Consideravelmente mais lento que o pairwise – O número de combinações alélicas diferentes é bem maior → enumeração e tabelamento menos eficientes – Mesmo assim, um sistema de tabelamento guarda os likelihoods para um dado θ, os parâmetros da substituição de nucleotídeos, o número de seqüências e uma grade de valores ρ. Cada vez que o algoritmo é rodado, procura-se os dados de que se precisa nas tabelas; se não encontrados, eles são calculados e então armazenados. kpairwise • Ainda passível de significativas subestimações da taxa de recombinação no caso de: – – – – Crescimento exponencial Seleção direcional Estruturas populacionais Amostragem não-contemporânea HIV1 • Logo, novos estimadores de recombinação, mais sofisticados, são necessários. Recombinação em HPV • Resultados – Gene com taxa de recombinação mais alta: E6 – Gene com sinal de recombinação no maior número de grupos: L2 Recombinação em HPV • Discussão – A evidência de recombinação em HPV é importante porque pode sugerir equívocos em filogenias baseadas nos genes em questão – Novos tipos recombinantes podem estar sendo gerados constantemente Links • McVean’s LDhat – http://www.stats.ox.ac.uk/~mcvean/LDhat/ • Carvajal-Rodríguez’s kpairwise – http://darwin.uvigo.es/software/kpairwise.html