Revisão de conceitos relacionados à inferência filogenética. Visão geral dos métodos empregados Almir R. Pepato O problema Para cada conjunto de terminais podemos imaginar um número de hipóteses filogenéticas expressas por árvores não-enraizadas, definido pela fórmula: Os métodos de inferência filogenéticas são os que permitem a escolha, dentre todas essas hipóteses, daquela que consideramos a que melhor representa as relações de ancestralidade dentre os terminais em consideração. Representando filogenias Ramos: Árvore não enraizada Número de árvores não enraizadas: Cada árvore que antecede a árvore com i terminais possui 2i-5 ramos, assim ela produz : Árvores. Exemplo: N= (2i-3)= 7 Representando filogenias Árvores enraizadas: Apresentam informação temporal. Há muito mais, já que podemos inserir a raiz em qualquer nó. No exemplo: Representando filogenias (((A, B), (C, D)), E); Bipartições ou splits Representando filogenias L5 L3 L6 L1 L7 L2 L7 L2 L5 L6 L4 L8 L3 L4 Árvore aditiva: A distância entre qualquer par de OTUs é a soma dos comprimentos de ramo que as separam. Comprimentos de ramos estimados de maneira independente. Portanto devem ser calculados N= (2i-3)= 7 Ramos. L1 Árvore ultramétrica: Todas as OTU equidistantes da raiz. Ramos a serem calculados: (i-1)=4 Pois: L1=L2+L4+L8 L4+L8 = L3+L5 L5 = L6 L7=L8 O problema Número de clados Enraizada Não-enraizada 2 1 1 3 3 1 4 15 3 5 105 15 6 954 105 7 10,395 954 8 135,135 10,395 9 2,027,025 135,135 10 34,459,425 2,027,025 Métodos de inferência A- Algoritmos- Uma série de passos que conduzem à árvore filogenética. A1-Análises de agrupamento (UPGMA) A2- Neighbour Joining B- Critérios de Otimização – Emprega uma função objetiva para comparar as hipóteses filogenéticas. B1- Máxima Parcimônia B2- Máxima Verossimilhança B3- Evolução Mínima B4- Mínimos Quadrados C- Inferência Bayesiana - Avalia a probabilidade posterior dos clados formados pelos terminais sob consideração. Parcimônia De forma independente, Luca CavalliSforza e Anthony Edwards em 1963 e Camin e Sokal em 1965 chegaram a parcimônia como critério para otimização de cladogramas em caso de conflito entre caracteres (homoplasia) William de Ockham (1288-1347 ou 1348) “entia non sunt multiplicanda praeter necessitatem” Parcimônia Função objetiva da parcimônia: Parcimônia Parcimônia de Fitch G C Premissas: Caracteres não polarizados e não ordenados. Todas as mudanças de caráter com o mesmo custo. A 1- Para cada terminal atribua um estado de caráter conforme a matriz à sua disposição. Estabeleça arbitrariamente uma raiz (ela não muda o comprimento da árvore). A C Parcimônia de Fitch A C C G Visite um nó interno para o qual se conhece o conjunto de caracteres Sk para os dois descendentes (Si, Sj) imediatos. Assinale a ele um conjunto de valores Sk conforme as regras: Y A- Se então , nesse caso deve-se acrescentar 1 ao comprimento da árvore; 1 X B- Se então nesse caso não se acrescenta nada ao comprimento da árvore. 1 A Z Comprimento: 3 0 W 1 Generalizando... Parcimônia de Sankoff A C G T A 0 1 1 1 A 0 C 1 0 1 1 B 1 0 G 1 1 0 1 C 2 1 0 T 1 1 1 0 D 3 2 1 Parcimônia de Fitch A B C D A 0 1 2 3 B 1 0 1 2 C 2 1 0 1 D 3 2 1 0 Parcimônia de Wagner, caracteres ordenados: A-B-C-D A B C D 0 Parcimônia de Dollo, caracteres ordenados: A-B-C-D As matrizes de Sankoff permitem que o procedimento apresentado para a parcimônia de Fitch seja generalizado para outras situações. Generalizando... Parcimônia de Sankoff Métodos de distância Algorítmos de agrupamento (não otimizam uma função): 1-UPGMA (Árvores ultramétricas) 2-Neighbour Joining 3- Neighbourliness 4- “Transformed distance method” Evolução Mínima: Otimiza a função (busca a árvore que oferece a melhor nota): UPGMA OTU A B C D OTU (AB) C D A B C dAB dAC dAD dBC DBD DCD (AB) C d(AB)C d(AB)D dCD D D A raiz é posta em: Transformed distance method OTU A B A B C 10/3 13/3 13/3 C “Relação de vizinhança” Dada uma árvore aditiva, vale a condição dos quatro pontos: d(a,c) + d(b,d) < d(a,b) + d(c,d) = d(a,d) + d(b,c) 3.7+3.2 < 2.9+5.6 = 3.9+4.6 6.9 < 8.5 = 8.5 Neighbor-Joining Passo a passo: 1- Começamos com uma matriz de distância relacionando n OTUs. 2- Uma nova matriz é calculada (Matriz Q). Nessa matriz a separação de cada par de terminais é ajustada com base na sua divergência média desde todos os outros terminais. 3- Agrupe dois terminais ao acaso: Neighbor-Joining 4- Calcule o comprimento da árvore sabendo que: Distância do par de membros ao novo nó: Distância dos demais OTUs ao novo nó: Neighbor-Joining 5- Determine o comprimento para todas as combinações de duas OTUs. Escolha a que minimiza o comprimento da árvore. 6- Recalcule a matriz de distâncias de considerando os dois terminais escolhidos como um único táxon. 7- Repita o processo até obter uma árvore completamente resolvida. Neighbor-Joining Mínimos Quadrados Mínimos Quadrados OTU A B C D A B C dAB dAC dAD dBC DBD DCD D Algoritmos de busca B Árvore inicial, três espécies ao acaso. C 1 A Adiciona-se o próximo táxon (D) (três árvores): E para um número maior de Impraticável B D C D B terminais!!!!! E E E E A 2b D 2c A E E E Adiciona-se o quinto táxon(E) (15 árvores).... E C B C 2a E E E A E Stepwise addition B Árvore inicial, três espécies ao acaso. C 1 A Adiciona-se o próximo táxon (D) (três árvores): A ordem B D C os terminais C D que são acrescidos B em Bda busca. determina o resultado D C 2a 2b A 2c A A E E Escolhe-se a melhor árvore e adiciona-se o quinto táxon(E) (5 árvores).... Star-tree decomposition A ordem em que são agrupados os terminais determina o resultado da busca. Mais lento que o anterior: as árvores tem sempre o mesmo número de terminais. Nearest-neighbor interchanges (NNI) Subtree pruning and regrafting (SPR) Tree bisection and reconnection (TBR) Algoritmos de Busca Novas Tecnologias Ratchet: Desenhado para maximizar o número de pontos iniciais e reduzir o tempo gasto na procura a partir de cada ponto inicial e assim examinar mais ilhas de árvores. Perturba os dados mudando o peso a eles atribuído. Tree fusing (TF): Troca de sub-grupos idênticos entre árvores diferentes. Sectorial Seaches (SS): Tipo especial de avaliação de rearranjo, que necessita de uma árvore como ponto inicial. Seleciona diferentes setores da árvore e os re-analisa separadamente. Se uma configuração melhor é encontrada, ela é substituída na árvore inicial. Novas Tecnologias Tree Drifting (DFT): Soluções sub-ótimas são aceitas durante o rearranjo, com uma certa probabilidade. A probabilidade de aceitar uma solução sub-ótima depende da Relative Fit Difference (RFD) e a diferença de comprimento entre a nova e a velha solução. RFDAB = (F–C)/F F = Soma das diferenças de passos nas duas árvores (A e B) que melhor ajusta (fit) a árvore A C = Soma dos caracteres que melhor ajustam (fit) a árvore B Índices Índice de consistência (CI)- É a medida de quão bem um caráter ajusta-se a uma topologia. É calculado dividindo-se o menor número possível de passos do caráter pelo número de passos observados ao longo da topologia. Ou então é uma medida de homoplasia de uma árvore, sendo dado por: CI = Número total de mudanças de estado esperado dada a matriz de dados X 100/ Número de passos na árvore CI= 6*100/7 = 85,7 Índices Índices Índice de retenção (RI): RI = Número máximo de passos na árvore – número de mudanças de estado na árvore X 100/número máximo de passos na árvore – número de mudanças de estado nos dados Suporte Bootstrap Suporte Bootstrap Suporte Suporte de Bremer: Quanta homoplasia é necessária para derrubar um clado? Ex: A menor árvore que NÃO tem o clado (A C) é dois passos mais longa que a árvore apresentada. Problemas com a Parcimônia Qual método empregar? Huelsenbeck et al., 1996 Qual método empregar? Huelsenbeck et al., 1996 O uso da distância para inferência filogenética 1- Há perda de informação com a conversão da matriz de caracteres em matriz de distâncias. 2- O comprimento dos ramos de uma árvore de distância não são independentes, mas calculados em relação aos demais. Assim mesmo que as distâncias sejam corrigidas com o emprego de modelos estocásticos, elas serão sub-estimativas. Qualquer “problema” relacionado a um dos ramos (mudança na frequência das bases, ramo especialmente longo) será propagado ao longo de toda a filogenia. Substituições multiplas Distância genética p difere da distância aparente D, devido às substituições múltiplas.