Métodos Filogenéticos Distância: Seleciona a árvore que melhor representa as distâncias entre os pares de organismos observados Máxima verossimilhança: Seleciona a árvore com maior probabilidade de ter gerado os dados observados Parcimônia: Seleciona a árvore que infere o menor número de substituições (eventos mutacionais) Comparação de seqüências de aminoácidos Seqüência 1 Seqüência 2 leu arg phe cys ser ser arg Seqüência 1 Seqüência 2 leu arg phe cys ser ser arg Seqüência Seqüência Seqüência Seqüência Seqüência Seqüência leu leu leu leu leu leu Medição de divergência de seqüência leu phe cys ser ser arg Seqüências de aa de cadeias alfa de hemoglobina No. de Taxa : 6 Gaps/Dados ausentes : Deleção completa Método de distância : AA corrigida Poisson No. de Sítios : 140 d : Estimativa leu gap phe cys ser ser arg 1 2 3 4 5 6 arg gap gap arg arg arg phe cys ser ser phe cys ser phe phe cys ser phe ile cys ser ser ile cys ala ser phe cys ile ser [1] Homem [2] Cavalo [3] Vaca [4] canguru [5] Salamandra [6] Carpa arg arg arg arg arg arg Homem Cavalo Vaca Canguru Salam Carpa 2 3 4 5 4 5 6 Considere o nt na 2a posição da αglobin2 Alu1 t time units α = Taxa de substituição de nt, assumido como constante 6 0.13 0.23 0.20 0.64 0.60 0.64 0.65 0.62 0.71 0.75 - 3 0.13 0.23 0.20 0.64 0.60 0.64 0.65 0.62 0.71 0.75 - Common ancestor of human and orang. 0.1 1 0.13 0.13 0.21 0.57 0.66 2 O modelo de Jukes-Cantor de substituição de nucleotídeos Divergência pode ser usada para se agrupar [1] Homem [2] Cavalo [3] Vaca [4] canguru [5] Salamandra [6] Carpa 1 0.13 0.13 0.21 0.57 0.66 Matriz infinitesimal A human (now) Q= A G C T -3α α α G α α -3α C α α α -3α T α α α α α -3 α 1 O modelo de 2 parâmetros de Kimura para mudança de nucleotídeos A A c G a C b T b G a c b b C b b c a T b b a c c Taxas de transição: Horizontal: a Diagonal e vertical: b Self: c = −a −2b A a G b b b C a c c T c Métodos de Filogenia Molecular • Métodos de Distância • Matriz de diferenças (ou semelhanças) • Agrupamento UPGMA • não permite taxas de evolução diferentes • Agrupamentos Vizinhos Neighbor Joining (Saitou e Nei, 1987) permite taxas de evolução diferentes nos ramos Similaridade vs. relacionamento evolutivo Similar: ser semelhante (uma constatação) Relacionado: Ter genes idênticos por descendência uma inferência histórica Dois taxa podem ser mais similares do que taxas relacionados 6 1 3 1 5 1 Taxon C Taxon A Taxon D Taxon B C é mais similar a A (d=3) do que a B (d=7), embora C e B sejam mais relacionados Medição de divergência de seqüência “Taxa não são relacionados porque são similares, eles são similares por serem relacionados” Métodos Filogenéticos Distância: Seleciona a árvore que melhor representa as distâncias entre os pares de organismos observados Máxima verossimilhança: Seleciona a árvore com maior probabilidade de ter gerado os dados observados Parcimônia: Seleciona a árvore que infere o menor número de substituições (eventos mutacionais) 2 Máxima Verossimilhança • Maximum likelihood procura obter o modelo mais provável de ter gerado os dados obtidos através do cálculo de várias verossimilhanças • Tenta reconstruir a filogenia a partir de um modelo explícito de evolução que pode ser testado • Por envolver um trabalho computacional intenso, mesmo modelos simples podem se tornar inviáveis e é o mais lento dos métodos filogenéticos Métodos Filogenéticos Obtendo uma filogenia a partir de caracteres Distância: Seleciona a árvore que melhor representa as distâncias entre os pares de organismos observados Máxima verossimilhança: Seleciona a árvore com maior probabilidade de ter gerado os dados observados Mandíbula Pulmão Taxon Lampreia Perca Salamandra Lagarto Crocodilo Pombo Rato Chimpanzé + + + + + + + + + + + + + Unhas ou garras + + + + + Caráter derivado Penas Pelos + - + + Gls mamárias + + Coração de 4 câmaras + + + + Parcimônia: Seleciona a árvore que infere o menor número de substituições (eventos mutacionais) 3 Uma filogenia simples Árvores filogenéticas Grupo externo Lampreia Parafilético Perca Mandíbula Salamandra Pulmões Polifilético Lagarto Unhas ou garras Crocodilo Penas Monofilético Pombo Coração de 4 câmaras Rato Pelo, glândulas mamárias Chimpanzé Tempo evolutivo relativo Eventos antigos Eventos recentes Dobzhansky & Sturtevant (1936): Árvore de inversão para Drosophila pseudoobscura (A) e D.persimilis (B) Grupo externo Uma linhagem proximamente relacionada ao grupo focal Taxa Monofilético inclui todos os descendentes de um ancestral comum Taxa Parafilético inclui alguns, mas não todos, os descendentes Taxa Polifilético inclui membros com mais de um ancestral comum mais recente Máxima parcimônia A navalha de Occam Q uando propositio verificatur pro rebus,si duae res sufficiuntad eius veritatem , superfluum estponere tertiam Quando uma coisa se mostra verdade, se duas coisas são suficiente para demonstrar esta verdade, uma terceira é supérflua Pluralitas non estponenda sine necessitate Pluralidade não deve ser inferida a menos que necessariamente William de Occam (1300-1349) Máxima parcimônia A essência da Máxima Parcimônia (MP): A navalha de Occam A árvore que assume o menor número de mudanças é preferida “Teorias devem ser tão sim ples quanto possível,m as não as m ais sim ples” NÃO cremos que evolução seja sempre parcimoniosa, mas sim que os caracteres que escolhemos evoluem de tal forma que a máxima parcimônia oferece o melhor modelo para se recuperar as relações filogenéticas corretas. Albert Einstein (1879-1955) A melhor árvore é a que requer o menor número de substituições Comprimento da árvore se torna o nosso critério: escolha a árvore mais curta! 4 Parcimônia na prática Caracteres A T B a x C a D E Árvore 1 Árvore 2 G T T T T 1 1 G G T T T 2 1 G G T T T 2 1 G G G T T 1 1 Árvore 2 Árvore 1 1 2 3 4 5 A G T T G Comprimento G da árvore 7 1 2 6 B D C A E B C D E Destas 2 árvores, a 2 tem o menor comprimento logo é a mais parcimoniosa Ambas requerem alguma homoplasia Parcimônia pode ser inconsistente • Felsenstein (1978) criou um modelo simples com 4 taxa e uma mistura de ramos curtos e longos • Neste modelo a parcimônia irá produzir uma árvore errada A B Model tree p p q C q q A Rates or Branch lengths p >> q Parsimony tree C Wrong B D Ramos longos são atraídos mas a similaridade é homoplástica D • Mais dados não resolverão melhor a árvore, pelo contrário, portanto parcimônia é estatisticamente inconsistente • Este problema é comum a quase todos métodos filogenéticos e um dos maiores impecilhos à inferência filogenética Floresta pode ser habitada por vários “local minima” e ilhas de árvores subótimas Métodos de consenso estrito (Strict consensus) Adição aleatória de taxa Duas árvores fundamentais A Falha Sucesso Branch Swapping Branch Swapping B C D E F B A G C E D F G Falha Comprimento Branch Swappingda árvore A B C D E F G Local Minimum GLOBAL MINIMUM Local Minima Árvore de consenso estrito 5 Métodos de consenso por redução Consenso da regra da maioria 2 Árvores fundamentais (Majority rule consensus) A 3 Árvores fundamentais A B C D E F G B A E C D F A G B C E D F B D C F E G A G B C D E F G A BCDE F G B A C E D F 66 Árvore consenso estrito Completamente não resolvida 66 66 Min = 430 Max = 927 Real data 95% cutoff Randomly permuted Má Consenso estrito Enviesamento da distribuição de comprimentos de árvores HIVLI paciente F-y paciente F-x paciente D-y paciente D-x LC03-y LC35 LC02-y LC02-x paciente A-y Dentista-y paciente C-y paciente E-y paciente A-x paciente B-x Dentista com HIV paciente B-y • Estudos com dados aleatórios (e filogeneticamente não informativos) mostram que a distribuição tende a ser normal Árvores filogenéticas paciente C-x Medida da qualidade dos dados Boa 3 MPTs L = 792 CI = 0.543 RI = 0.272 PTP = 0.68 PC-PTP = 0.737 Não significativamente diferente do aleatório Ochromonas Symbiodinium Prorocentrum Loxodes Tetrahymena Tracheloraphis Spirostomum Euplotes Gruberia LC03-x Passa Teste Rejeita a hipótese nula 1 MPT L = 618 CI = 0.696 RI = 0.714 PTP = 0.01 PC-PTP = 0.001 Significantemente não aleatório Ochromonas Symbiodinium Prorocentrum Loxodes Tracheloraphis Spirostomum Gruberia Euplotes Tetrahymena paciente E-x Freqüência Não passa o teste Testes de Randomização das Matrizes Ciliate SSUrDNA Dentista X Estrutura de testes de randomização • Rejeita a hipótese nula se mais do que 5% de permutações aleatórias tiverem medidas tão boas ou melhores do que os dados reais Árvore reduzida de consenso estrito Táxon G é excluído paciente G-y Árvore consenso da regra da maioria (majority-rule) Árvore mais curta F E 66 100 Números indicam a freqüência de clados nas árvores fundamentais Número de árvores D C G LC09 B paciente G-x A Número de árvores Comprimento da árvore Árvore mais curta Comprimento da árvore • Em contraste, dados filogeneticamente informativos produzem uma distribuição enviesada, com poucas árvores mais curtas Freeman and Herron, 1998 6 Qual a confiança que a árvore está correta? Bootstrapping (não-paramétrico) Investigando hipóteses filogenéticas Vários métodos têm sido propostos que estabelecem valores numéricos a ramos internos em árvores que têm o intuito de prover uma medida do grau de suporte daqueles ramos e dos grupos correspondentes: · métodos de reamostragem de caracteres -bootstrap e jackknife · análises de decaimento (decay index) · Testes de randomização adicionais Bootstrap Dados originais com n caracteres. Bootstrapping Análise original, p.ex. MP, ML, NJ. Ceus Aus 1 C C T T Aus Beus Ceus Deus Retire n caracteres aleatoriamente com substituição. Repita m Aus vezes. Beus Ceus Deus 2 G G G A 2 G G G A 3 A G G A 3 A G G A 13 A A A G 4 C C C C 8 G G G G 5 G G G G 3 A G G A 6 G G G A 19 G G T T 7 T T C T 14 T T T A 8 G G G G 6 G G G A 9 G A T A 20 A G A G 10 T T C C 20 A G A G 11 C C T C 7 T T C T 12 T T C C 1 C C T T 13 A A A G 9 G A T A 14 T T T A 11 C C T C 15 A G A C 17 A A A A 16 C C C T 10 T T C C 17 A A A A 6 G G G A • Bootstrapping é uma técnica estatística moderna que usa reamostragem dos dados para se determinar o erro amostral ou intervalo de confiança para algum parâmetro estimado 18 C C A T 14 T T T A 19 G G T T 8 G G G G 20 A G A G 16 C C C T Dados originais Beus Repita análise original em cada um dos dados pseudo-replicados. Aus Aus Aus BeusAus Beus Beus Aus Beus Aus Beus Beus Deus Ceus Ceus Ceus Ceus Deus Ceus Deus Deus Ceus Deus Deus Deus m pseudo-réplicas, cada uma com n characters. Avalie os resultads das m análises. Aus Ceus 75% Beus Taxa A B C D Outgp 1 R R Y Y R 2 R R Y Y R Caracteres 3 4 5 6 7 Y Y Y Y Y Y Y Y Y Y Y Y Y R R R R R R R R R R R R Dados reamostrados 8 Y Y R R R Taxa A B C D Outgp 1 R R Y Y R 2 R R Y Y R Caracteres 2 5 5 6 6 R Y Y Y Y R Y Y Y Y Y Y Y R R Y R R R R R R R R R 8 Y Y R R R Reamostre os caracters aleatoriamente, com substituição, para criar várias réplicas bootstrap do mesmo tamanho que os dados originais - analise cada conjunto de dados replicado D A B C B C D A 1 2 8 7 6 1 2 5 4 3 5 5 8 6 6 A B C D 96% 2 1 Sumarize os resultados das múltiplas análises através de uma árvore consenso da maioria. Proporções de boostrap são a freqüênfcia com que cada grupo é encontrado nas análises dos dados replicados 66% 2 Outgroup Deus Bootstrapping - um exemplo Outgroup Outgroup Bootstrapping - dados aleatórios Ciliate SSUrDNA - bootstrap de parcimônia Ochromonas (1) 59 Symbiodinium (2) 100 Prorocentrum (3) Euplotes (8) 84 Tetrahymena (9) 96 100 Loxodes (4) 71 Ochromonas Symbiodinium Prorocentrum Loxodes Tracheloraphis Spirostomumum Euplotes Tetrahymena Gruberia 16 59 26 71 16 21 Ochromonas Symbiodinium Prorocentrum Loxodes Spirostomumum Tetrahymena Euplotes Tracheloraphis Gruberia Consenso da maioria (com componentes da minoria) Tracheloraphis (5) 100 100 Consenso da Maioria Spirostomum (6) Gruberia (7) Wim de Grave et al. Fiocruz bioinformatics training course Wim de Grave et al. Fiocruz bioinformatics training course 7 O que os valores de bootstrap significam? Limitações do Bootstrap • Valores de Bootstrap não seguem comportamento estatístico padrão • Valores de Bootstrap de 95% são na verdade próximos de 100% de confiança no ramo • Valores de Bootstrap de 75% são próximos aos 95% de confianca • Valores de Bootstrap de 60% são muito mais baixos • Pelo fato de estarmos reamostrando de dados existentes, não podemos ter pseudoreplicados com colunas não observadas nos dados originais • Pode levar a superestimativas de valores de bootstrap para ramos particulares Suporte do Ramo (Bremer 1988, 1994) = “Decay Index” ou índice de decaimento de Donoghue et al. 1992) O número de passos adicionais que devem ser adicionados para descobrir um cladograma que não tenha o grupo em questão Análise de Decaimento Dados de Ciliados SSUrDNA Dados permutados Ochromonas Ochromonas +27 Symbiodinium Symbiodinium +1 Prorocentrum Prorocentrum +1 +45 Loxodes +3 Loxodes Tracheloraphis Tetrahymena Spirostomum Tracheloraphis +8 +15 Gruberia Spirostomum +10 Euplotes Euplotes +7 Tetrahymena Gruberia Análise de Decaimento • Na análise de parcimônia, uma forma de se determinar suporte para um grupo é verificar se este grupo ocorre em árvores um pouco menos parcimoniosas • A diferença entre uma árvore mais curta incluindo o grupo e a mais curta que não inclua o grupo é o índice de decaimento. • Equivale ao número de passos a mais que a árvore terá por não ter um grupo Índices de Decaimento • Geralmente quanto maior o decaimento, maior o suporte relativo para o grupo • Como boostrap, decaimento pode não ser confiável, se dados não são confiáveis • Ao contrário de bootstrap, dados não estão em escala (0100) sendo menos claro o que é um índice de decaimento aceitável • Magnitude do decaimento e bootstrap estão geralmente correlacionados • Apenas grupos que são encontrados em todas árvores mais parcimoniosas tem decaimento > zero 8 Decaimento vs valores de Bootstrap Outros métodos de confiança na árvore • Jackknifing – remove seqüências individuais ou partes do alinhamento • Bootstrap Paramétrico – dados construídos baseados em um modelo evolutivo específico • Testes de likelihood ratio – compara a verossimilhança de duas (ou mais) árvores rivais Valores de Bootstrap 100 90 80 70 60 = Monocotiledôneas (Davis 1995) 50 40 30 20 10 0 = Josiini (Miller et al. 1997) 0 5 10 15 Índice de Decaimento 20 25 O que é um “bom” método? • Eficiência • Poder • Consistência – Tempo para se achar a/uma solução – Taxa de convergência/ quantos dados precisam Desempenho em dados simulados 1 1 0.9 0.9 0.8 0.8 0.7 0.7 0.6 0.6 0.5 0.5 0.4 0.4 0.3 0.3 UPGMA, Kimura NJ, percentage Parsimony, unifo – Converge na solução “correct” a medida que dados são acrescidos • Robustês • Falsificabilidade Freqüência de inferências corretas – Performance quando pressupostos são violados – Rejeição do modelo quando inadequado Lakes invariants UPG M A,Kim ura M L,Kim ura 0.2 Parsim onny,uniform NJ,Kim ura Parsim ony,weighted Parsimony, weighted NJ, Kimura ML, Kimura 0.2 0.1 0.1 0 0 10 100 1000 10000 100000 10 100 1000 10000 100000 Comprimento da seqüência 0.30 e 0.05 respectivamente Todos 0.50 Prós e contras de alguns métodos O que pode dar errado? • Distância, como UPGMA e Neighbor-joining + Rápido + Modelos podem ser usados quando transformando em distância - Informação é perdida quando transformando em distância par a par - Uma árvore será gerada, mas não teremos medida de quão boa para se comparar com outras hipóteses • Parcimônia + Filosoficamente atraente – Navalha de Occam + Permite estudo de evolução de caracteres particulares - Pode ser inconsistente - Pode ser lento de se computar • Máxima verossimilhança • Erros amostrais – medidos, p.ex., pelo bootstrap • Erros sistemáticos (métodos inconsistentes) – Testes de adequação dos modelos usados • Realidade – Uma árvore pode ser um modelo infiel da história real – Informação foi perdida por mudanças evolutivas subseqüentes • Árvores de genes vs. árvores de espécies + Baseado em modelo - Baseado em modelo - MUITO lento de se computar 9 Sorteamento incompleto de linhagens t Hibridação introgressiva Iinhagens ancestrais Iinhagens ancestrais 0 A B Tempo de Geração B A t * f Espécie A Espécie B Iinhagens atuais Métodos de Reconstrução de árvores: • • • O que pode dar errado? – medidos, p.ex., pelo bootstrap • Erros sistemáticos (métodos inconsistentes) – Testes de adequação dos modelos usados • Realidade – Uma árvore pode ser um modelo infiel da história real – Informação foi perdida por mudanças evolutivas subseqüentes • Árvores de genes vs. árvores de espécies J. C. Avise: Phylogeography: the history and formation of species O que está errado com esta árvore? • Erro amostral mínimo (em cada seqüência) • Árvore estimada por um método consistente Iinhagens atuais • Erros amostrais Uma ou mais (talvez várias) árvores podem descrever os dados. Árvores igualmente parcimoniosas/prováveis podem não ser consistentes. Árvores de genes e árvores de espécies: uma árvore de gene pode não ser necessariamente refletir uma árvore da espécie. Canis Espécie B Gadus A árvore esperada Mus Árvore da espécie 100 100 Duplicação gênica “Árvore dos genes 10 Ortólogos Canis Mus O que foi estudado... Ortólogos Gadus Gadus Mus Canis Canis Gadus Mus Parálogos Duas cópias (parálogas) presentes nos genomas 11