Revisão de conceitos relacionados à
inferência filogenética. Visão geral
dos métodos empregados
Almir R. Pepato
O problema
Para cada conjunto de terminais podemos
imaginar um número de hipóteses filogenéticas
expressas por árvores não-enraizadas, definido
pela fórmula:
Os métodos de inferência filogenéticas são os
que permitem a escolha, dentre todas essas
hipóteses, daquela que consideramos a que
melhor representa as relações de
ancestralidade dentre os terminais em
consideração.
Representando filogenias
Ramos:
Árvore não enraizada
Número de árvores
não enraizadas:
Cada árvore que
antecede a árvore com
i terminais possui 2i-5
ramos, assim ela
produz :
Árvores. Exemplo:
N= (2i-3)= 7
Representando filogenias
Árvores enraizadas:
Apresentam informação temporal.
Há muito mais, já que podemos inserir a raiz em
qualquer nó.
No exemplo:
Representando filogenias
(((A, B), (C, D)), E);
Bipartições ou splits
Representando filogenias
L5
L3
L6
L1
L7
L2
L7
L2
L5
L6
L4
L8
L3
L4
Árvore aditiva: A distância entre qualquer par
de OTUs é a soma dos comprimentos de ramo
que as separam.
Comprimentos de ramos estimados de
maneira independente. Portanto devem ser
calculados
N= (2i-3)= 7
Ramos.
L1
Árvore ultramétrica: Todas as OTU
equidistantes da raiz. Ramos a
serem calculados: (i-1)=4
Pois: L1=L2+L4+L8
L4+L8 = L3+L5
L5 = L6
L7=L8
O problema
Número de
clados
Enraizada
Não-enraizada
2
1
1
3
3
1
4
15
3
5
105
15
6
954
105
7
10,395
954
8
135,135
10,395
9
2,027,025
135,135
10
34,459,425
2,027,025
Métodos de inferência
A- Algoritmos- Uma série de passos que conduzem à árvore filogenética.
A1-Análises de agrupamento (UPGMA)
A2- Neighbour Joining
B- Critérios de Otimização – Emprega uma função objetiva para comparar as
hipóteses filogenéticas.
B1- Máxima Parcimônia
B2- Máxima Verossimilhança
B3- Evolução Mínima
B4- Mínimos Quadrados
C- Inferência Bayesiana - Avalia a probabilidade posterior dos clados formados
pelos terminais sob consideração.
Parcimônia
De forma independente, Luca CavalliSforza e Anthony Edwards em 1963 e
Camin e Sokal em 1965 chegaram a
parcimônia como critério para otimização
de cladogramas em caso de conflito entre
caracteres (homoplasia)
William de Ockham (1288-1347 ou 1348)
“entia non sunt multiplicanda praeter
necessitatem”
Parcimônia
Função objetiva da parcimônia:
Parcimônia
Parcimônia de Fitch
G
C
Premissas: Caracteres não polarizados e
não ordenados. Todas as mudanças de
caráter com o mesmo custo.
A
1- Para cada terminal atribua um estado
de caráter conforme a matriz à sua
disposição.
Estabeleça arbitrariamente uma raiz (ela
não muda o comprimento da árvore).
A
C
Parcimônia de Fitch
A
C
C
G
Visite um nó interno para o qual se
conhece o conjunto de caracteres
Sk para os dois descendentes (Si, Sj)
imediatos. Assinale a ele um
conjunto de valores Sk conforme as
regras:
Y
A- Se
então
,
nesse caso deve-se acrescentar 1
ao comprimento da árvore;
1
X
B- Se
então
nesse caso não se acrescenta nada
ao comprimento da árvore.
1
A
Z
Comprimento: 3
0
W
1
Generalizando... Parcimônia de Sankoff
A
C
G
T
A
0
1
1
1
A
0
C
1
0
1
1
B
1
0
G
1
1
0
1
C
2
1
0
T
1
1
1
0
D
3
2
1
Parcimônia de Fitch
A
B
C
D
A
0
1
2
3
B
1
0
1
2
C
2
1
0
1
D
3
2
1
0
Parcimônia de Wagner,
caracteres ordenados:
A-B-C-D
A
B
C
D
0
Parcimônia de Dollo,
caracteres ordenados:
A-B-C-D
As matrizes de Sankoff permitem
que o procedimento apresentado
para a parcimônia de Fitch seja
generalizado para outras situações.
Generalizando... Parcimônia de Sankoff
Métodos de distância
Algorítmos de agrupamento (não otimizam uma função):
1-UPGMA (Árvores ultramétricas)
2-Neighbour Joining
3- Neighbourliness
4- “Transformed distance method”
Evolução Mínima:
Otimiza a função (busca a árvore que oferece a melhor nota):
UPGMA
OTU
A
B
C
D
OTU
(AB)
C
D
A
B
C
dAB
dAC
dAD
dBC
DBD
DCD
(AB)
C
d(AB)C
d(AB)D
dCD
D
D
A raiz é posta em:
Transformed distance method
OTU
A
B
A
B
C
10/3
13/3
13/3
C
“Relação de vizinhança”
Dada uma árvore aditiva, vale a condição dos quatro
pontos:
d(a,c) + d(b,d) < d(a,b) + d(c,d) = d(a,d) + d(b,c)
3.7+3.2 < 2.9+5.6 = 3.9+4.6
6.9 < 8.5 = 8.5
Neighbor-Joining
Passo a passo:
1- Começamos com uma matriz de distância relacionando n OTUs.
2- Uma nova matriz é calculada (Matriz Q). Nessa matriz a separação de cada
par de terminais é ajustada com base na sua divergência média desde
todos os outros terminais.
3- Agrupe dois terminais ao acaso:
Neighbor-Joining
4- Calcule o comprimento da árvore sabendo que:
Distância do par de membros ao novo nó:
Distância dos demais OTUs ao novo nó:
Neighbor-Joining
5- Determine o comprimento para todas as combinações de duas OTUs. Escolha a que
minimiza o comprimento da árvore.
6- Recalcule a matriz de distâncias de considerando os dois terminais escolhidos como um
único táxon.
7- Repita o processo até obter uma árvore completamente resolvida.
Neighbor-Joining
Mínimos Quadrados
Mínimos Quadrados
OTU
A
B
C
D
A
B
C
dAB
dAC
dAD
dBC
DBD
DCD
D
Algoritmos de busca
B
Árvore inicial,
três espécies ao
acaso.
C
1
A
Adiciona-se o próximo táxon (D) (três árvores):
E para um número maior de
Impraticável
B
D
C
D
B
terminais!!!!!
E
E
E
E
A
2b
D
2c
A
E
E E
Adiciona-se o quinto táxon(E) (15 árvores)....
E
C
B
C
2a
E
E
E
A
E
Stepwise addition
B
Árvore inicial,
três espécies ao
acaso.
C
1
A
Adiciona-se o próximo táxon (D) (três árvores):
A ordem
B
D
C os terminais
C
D que são acrescidos
B em
Bda busca.
determina o resultado
D
C
2a
2b
A
2c
A
A
E E
Escolhe-se a melhor árvore e adiciona-se o quinto táxon(E) (5
árvores)....
Star-tree decomposition
A ordem em que são agrupados os terminais
determina o resultado da busca. Mais lento que
o anterior: as árvores tem sempre o mesmo
número de terminais.
Nearest-neighbor interchanges (NNI)
Subtree pruning and regrafting (SPR)
Tree bisection and reconnection (TBR)
Algoritmos de Busca
Novas Tecnologias
Ratchet:
Desenhado para maximizar o número de pontos iniciais e reduzir o tempo gasto na
procura a partir de cada ponto inicial e assim examinar mais ilhas de árvores. Perturba
os dados mudando o peso a eles atribuído.
Tree fusing (TF):
Troca de sub-grupos idênticos entre árvores diferentes.
Sectorial Seaches (SS):
Tipo especial de avaliação de rearranjo, que necessita de uma árvore como ponto
inicial. Seleciona diferentes setores da árvore e os re-analisa separadamente. Se uma
configuração melhor é encontrada, ela é substituída na árvore inicial.
Novas Tecnologias
Tree Drifting (DFT):
Soluções sub-ótimas são aceitas durante o rearranjo, com uma certa probabilidade. A
probabilidade de aceitar uma solução sub-ótima depende da Relative Fit Difference
(RFD) e a diferença de comprimento entre a nova e a velha solução.
RFDAB = (F–C)/F
F = Soma das diferenças de passos
nas duas árvores (A e B) que
melhor ajusta (fit) a árvore A
C = Soma dos caracteres que
melhor ajustam (fit) a árvore B
Índices
Índice de consistência (CI)- É a medida de quão bem um caráter ajusta-se a uma
topologia. É calculado dividindo-se o menor número possível de passos do
caráter pelo número de passos observados ao longo da topologia. Ou então é
uma medida de homoplasia de uma árvore, sendo dado por:
CI = Número total de mudanças de estado esperado dada a matriz de dados X
100/ Número de passos na árvore
CI= 6*100/7 = 85,7
Índices
Índices
Índice de retenção (RI):
RI = Número máximo de passos na árvore – número de mudanças de estado na
árvore X 100/número máximo de passos na árvore – número de mudanças de
estado nos dados
Suporte
Bootstrap
Suporte
Bootstrap
Suporte
Suporte de Bremer:
Quanta homoplasia é
necessária para derrubar um
clado?
Ex: A menor árvore que NÃO
tem o clado (A C) é dois passos
mais longa que a árvore
apresentada.
Problemas com a Parcimônia
Qual método empregar?
Huelsenbeck et al., 1996
Qual método empregar?
Huelsenbeck et al., 1996
O uso da distância para inferência
filogenética
1- Há perda de informação com a conversão da matriz de caracteres em
matriz de distâncias.
2- O comprimento dos ramos de uma árvore de distância não são
independentes, mas calculados em relação aos demais. Assim mesmo
que as distâncias sejam corrigidas com o emprego de modelos
estocásticos, elas serão sub-estimativas. Qualquer “problema”
relacionado a um dos ramos (mudança na frequência das bases, ramo
especialmente longo) será propagado ao longo de toda a filogenia.
Substituições multiplas
Distância genética p difere da distância aparente D, devido às substituições múltiplas.
Download

Número de passos na árvore