Métodos Filogenéticos
Distância: Seleciona a árvore que melhor representa as
distâncias entre os pares de organismos observados
Máxima verossimilhança: Seleciona a árvore com maior
probabilidade de ter gerado os dados observados
Parcimônia: Seleciona a árvore que infere o menor número
de substituições (eventos mutacionais)
Comparação de seqüências de aminoácidos
Seqüência 1
Seqüência 2
leu arg phe cys ser ser arg
Seqüência 1
Seqüência 2
leu arg phe cys ser ser arg
Seqüência
Seqüência
Seqüência
Seqüência
Seqüência
Seqüência
leu
leu
leu
leu
leu
leu
Medição de divergência de seqüência
leu phe cys ser ser arg
Seqüências de aa de cadeias alfa de hemoglobina
No. de Taxa : 6
Gaps/Dados ausentes : Deleção completa
Método de distância : AA corrigida Poisson
No. de Sítios : 140
d : Estimativa
leu gap phe cys ser ser arg
1
2
3
4
5
6
arg
gap
gap
arg
arg
arg
phe cys ser ser
phe cys ser phe
phe cys ser phe
ile cys ser ser
ile cys ala ser
phe cys ile ser
[1] Homem
[2] Cavalo
[3] Vaca
[4] canguru
[5] Salamandra
[6] Carpa
arg
arg
arg
arg
arg
arg
Homem
Cavalo
Vaca
Canguru
Salam
Carpa
2
3
4
5
4
5
6
Considere o nt na 2a posição da αglobin2 Alu1
t time units
α = Taxa de substituição de nt,
assumido como constante
6
0.13 0.23 0.20 0.64 0.60 0.64 0.65 0.62 0.71 0.75 -
3
0.13 0.23 0.20 0.64 0.60 0.64 0.65 0.62 0.71 0.75 -
Common
ancestor of
human and orang.
0.1
1
0.13
0.13
0.21
0.57
0.66
2
O modelo de Jukes-Cantor de
substituição de nucleotídeos
Divergência pode ser usada para se agrupar
[1] Homem
[2] Cavalo
[3] Vaca
[4] canguru
[5] Salamandra
[6] Carpa
1
0.13
0.13
0.21
0.57
0.66
Matriz infinitesimal
A
human (now)
Q=
A
G
C
T
-3α
α
α
G
α
α
-3α
C
α
α
α
-3α
T
α
α
α
α
α
-3 α
1
O modelo de 2 parâmetros de Kimura
para mudança de nucleotídeos
A
A c
G
a
C
b
T
b
G a
c
b
b
C b
b
c
a
T b
b
a
c
c
Taxas de transição:
Horizontal: a
Diagonal e vertical: b
Self: c = −a −2b
A
a
G
b
b
b
C
a
c
c
T
c
Métodos de Filogenia Molecular
• Métodos de Distância
• Matriz de diferenças (ou semelhanças)
• Agrupamento UPGMA
• não permite taxas de evolução diferentes
• Agrupamentos Vizinhos
Neighbor Joining (Saitou e Nei, 1987)
permite taxas de evolução diferentes nos ramos
Similaridade vs. relacionamento evolutivo
Similar: ser semelhante (uma constatação)
Relacionado: Ter genes idênticos por descendência
uma inferência histórica
Dois taxa podem ser mais similares do que taxas relacionados
6
1
3
1
5
1
Taxon C
Taxon A
Taxon D
Taxon B
C é mais similar a A (d=3)
do que a B (d=7), embora C
e B sejam mais
relacionados
Medição de divergência de seqüência
“Taxa não são relacionados porque são
similares, eles são similares por serem
relacionados”
Métodos Filogenéticos
Distância: Seleciona a árvore que melhor representa as
distâncias entre os pares de organismos observados
Máxima verossimilhança: Seleciona a árvore com maior
probabilidade de ter gerado os dados observados
Parcimônia: Seleciona a árvore que infere o menor número de
substituições (eventos mutacionais)
2
Máxima Verossimilhança
• Maximum likelihood procura obter o modelo mais
provável de ter gerado os dados obtidos através do
cálculo de várias verossimilhanças
• Tenta reconstruir a filogenia a partir de um modelo
explícito de evolução que pode ser testado
• Por envolver um trabalho computacional intenso,
mesmo modelos simples podem se tornar inviáveis e é
o mais lento dos métodos filogenéticos
Métodos Filogenéticos
Obtendo uma filogenia a partir de caracteres
Distância: Seleciona a árvore que melhor representa as
distâncias entre os pares de organismos observados
Máxima verossimilhança: Seleciona a árvore com maior
probabilidade de ter gerado os dados observados
Mandíbula Pulmão
Taxon
Lampreia
Perca
Salamandra
Lagarto
Crocodilo
Pombo
Rato
Chimpanzé
+
+
+
+
+
+
+
+
+
+
+
+
+
Unhas ou
garras
+
+
+
+
+
Caráter derivado
Penas
Pelos
+
-
+
+
Gls
mamárias
+
+
Coração de 4
câmaras
+
+
+
+
Parcimônia: Seleciona a árvore que infere o menor número
de substituições (eventos mutacionais)
3
Uma filogenia simples
Árvores filogenéticas
Grupo externo
Lampreia
Parafilético
Perca
Mandíbula
Salamandra
Pulmões
Polifilético
Lagarto
Unhas ou
garras
Crocodilo
Penas
Monofilético
Pombo
Coração de 4
câmaras
Rato
Pelo, glândulas
mamárias
Chimpanzé
Tempo evolutivo relativo
Eventos antigos
Eventos recentes
Dobzhansky & Sturtevant (1936): Árvore
de inversão para Drosophila pseudoobscura
(A) e D.persimilis (B)
Grupo externo Uma linhagem proximamente relacionada ao grupo focal
Taxa Monofilético inclui todos os descendentes de um ancestral comum
Taxa Parafilético inclui alguns, mas não todos, os descendentes
Taxa Polifilético inclui membros com mais de um ancestral comum mais recente
Máxima parcimônia
A navalha de Occam
Q uando propositio verificatur pro rebus,si
duae res sufficiuntad eius veritatem ,
superfluum estponere tertiam
Quando uma coisa se mostra verdade, se duas coisas são suficiente
para demonstrar esta verdade, uma terceira é supérflua
Pluralitas non estponenda sine necessitate
Pluralidade não deve ser inferida a menos que necessariamente
William de Occam (1300-1349)
Máxima parcimônia
A essência da Máxima Parcimônia (MP):
A navalha de Occam
A árvore que assume o menor número de mudanças é preferida
“Teorias devem ser tão sim ples
quanto possível,m as não as
m ais sim ples”
NÃO cremos que evolução seja sempre parcimoniosa,
mas sim que os caracteres que escolhemos evoluem de tal
forma que a máxima parcimônia oferece o melhor modelo
para se recuperar as relações filogenéticas corretas.
Albert Einstein (1879-1955)
A melhor árvore é a que requer o menor número de substituições
Comprimento da árvore se torna o nosso critério:
escolha a árvore mais curta!
4
Parcimônia na prática
Caracteres
A
T B
a
x C
a D
E
Árvore 1
Árvore 2
G
T
T
T
T
1
1
G
G
T
T
T
2
1
G
G
T
T
T
2
1
G
G
G
T
T
1
1
Árvore 2
Árvore 1
1 2 3 4 5
A
G
T
T
G Comprimento
G da árvore
7
1
2
6
B
D
C
A
E
B
C
D
E
Destas 2 árvores, a 2 tem o menor comprimento logo é a
mais parcimoniosa
Ambas requerem alguma homoplasia
Parcimônia pode ser inconsistente
• Felsenstein (1978) criou um modelo simples com 4 taxa e uma
mistura de ramos curtos e longos
• Neste modelo a parcimônia irá produzir uma árvore errada
A
B
Model tree
p
p
q
C
q
q
A
Rates or
Branch lengths
p >> q
Parsimony tree
C
Wrong
B
D
Ramos longos são
atraídos mas a
similaridade é
homoplástica
D
• Mais dados não resolverão melhor a árvore, pelo contrário,
portanto parcimônia é estatisticamente inconsistente
• Este problema é comum a quase todos métodos filogenéticos e
um dos maiores impecilhos à inferência filogenética
Floresta pode ser habitada por vários “local
minima” e ilhas de árvores subótimas
Métodos de consenso estrito
(Strict consensus)
Adição aleatória de taxa
Duas árvores fundamentais
A
Falha
Sucesso
Branch
Swapping
Branch Swapping
B
C
D
E
F
B
A
G
C
E
D
F
G
Falha
Comprimento
Branch Swappingda árvore
A
B
C
D
E
F
G
Local
Minimum
GLOBAL
MINIMUM
Local
Minima
Árvore de consenso estrito
5
Métodos de consenso por redução
Consenso da regra da maioria
2 Árvores fundamentais
(Majority rule consensus)
A
3 Árvores fundamentais
A
B
C
D
E
F
G
B
A
E
C
D
F
A
G
B
C
E
D
F
B
D
C
F
E
G
A
G
B
C
D
E
F
G
A BCDE F G
B
A
C
E
D
F
66
Árvore consenso estrito
Completamente não resolvida
66
66
Min = 430
Max = 927
Real data
95% cutoff
Randomly
permuted
Má
Consenso estrito
Enviesamento da distribuição de
comprimentos de árvores
HIVLI
paciente F-y
paciente F-x
paciente D-y
paciente D-x
LC03-y
LC35
LC02-y
LC02-x
paciente A-y
Dentista-y
paciente C-y
paciente E-y
paciente A-x
paciente B-x
Dentista com HIV
paciente B-y
• Estudos com dados aleatórios
(e filogeneticamente não
informativos) mostram que a
distribuição tende a ser normal
Árvores filogenéticas
paciente C-x
Medida da qualidade dos dados
Boa
3 MPTs
L = 792
CI = 0.543
RI = 0.272
PTP = 0.68
PC-PTP = 0.737
Não significativamente
diferente do aleatório
Ochromonas
Symbiodinium
Prorocentrum
Loxodes
Tetrahymena
Tracheloraphis
Spirostomum
Euplotes
Gruberia
LC03-x
Passa
Teste
Rejeita a hipótese nula
1 MPT
L = 618
CI = 0.696
RI = 0.714
PTP = 0.01
PC-PTP = 0.001
Significantemente não aleatório
Ochromonas
Symbiodinium
Prorocentrum
Loxodes
Tracheloraphis
Spirostomum
Gruberia
Euplotes
Tetrahymena
paciente E-x
Freqüência
Não passa
o teste
Testes de Randomização das Matrizes
Ciliate SSUrDNA
Dentista X
Estrutura de testes de randomização
• Rejeita a hipótese nula se mais do que 5% de permutações
aleatórias tiverem medidas tão boas ou melhores do que
os dados reais
Árvore reduzida de consenso estrito
Táxon G é excluído
paciente G-y
Árvore consenso da regra da maioria (majority-rule)
Árvore
mais curta
F
E
66
100
Números indicam a freqüência de
clados nas árvores fundamentais
Número de árvores
D
C
G
LC09
B
paciente G-x
A
Número de árvores
Comprimento da árvore
Árvore
mais curta
Comprimento da árvore
• Em contraste, dados
filogeneticamente informativos
produzem uma distribuição
enviesada, com poucas árvores
mais curtas
Freeman and Herron, 1998
6
Qual a confiança que a árvore está correta?
Bootstrapping (não-paramétrico)
Investigando hipóteses filogenéticas
Vários métodos têm sido propostos que estabelecem valores
numéricos a ramos internos em árvores que têm o intuito de
prover uma medida do grau de suporte daqueles ramos e dos
grupos correspondentes:
· métodos de reamostragem de caracteres
-bootstrap e jackknife
· análises de decaimento (decay index)
· Testes de randomização adicionais
Bootstrap
Dados originais
com n caracteres.
Bootstrapping
Análise original,
p.ex. MP, ML, NJ.
Ceus
Aus
1
C
C
T
T
Aus
Beus
Ceus
Deus
Retire n caracteres
aleatoriamente com
substituição.
Repita m
Aus
vezes.
Beus
Ceus
Deus
2
G
G
G
A
2
G
G
G
A
3
A
G
G
A
3
A
G
G
A
13
A
A
A
G
4
C
C
C
C
8
G
G
G
G
5
G
G
G
G
3
A
G
G
A
6
G
G
G
A
19
G
G
T
T
7
T
T
C
T
14
T
T
T
A
8
G
G
G
G
6
G
G
G
A
9
G
A
T
A
20
A
G
A
G
10
T
T
C
C
20
A
G
A
G
11
C
C
T
C
7
T
T
C
T
12
T
T
C
C
1
C
C
T
T
13
A
A
A
G
9
G
A
T
A
14
T
T
T
A
11
C
C
T
C
15
A
G
A
C
17
A
A
A
A
16
C
C
C
T
10
T
T
C
C
17
A
A
A
A
6
G
G
G
A
• Bootstrapping é uma
técnica estatística moderna
que usa reamostragem dos
dados para se determinar o
erro amostral ou intervalo
de confiança para algum
parâmetro estimado
18
C
C
A
T
14
T
T
T
A
19
G
G
T
T
8
G
G
G
G
20
A
G
A
G
16
C
C
C
T
Dados originais
Beus
Repita análise original em
cada um dos dados
pseudo-replicados.
Aus
Aus
Aus
BeusAus
Beus
Beus
Aus
Beus
Aus
Beus
Beus
Deus
Ceus
Ceus
Ceus
Ceus
Deus
Ceus
Deus
Deus
Ceus
Deus
Deus
Deus
m pseudo-réplicas, cada
uma com n characters.
Avalie os
resultads das m
análises. Aus
Ceus
75%
Beus
Taxa
A
B
C
D
Outgp
1
R
R
Y
Y
R
2
R
R
Y
Y
R
Caracteres
3 4 5 6 7
Y Y Y Y Y
Y Y Y Y Y
Y Y Y R R
R R R R R
R R R R R
Dados reamostrados
8
Y
Y
R
R
R
Taxa
A
B
C
D
Outgp
1
R
R
Y
Y
R
2
R
R
Y
Y
R
Caracteres
2 5 5 6 6
R Y Y Y Y
R Y Y Y Y
Y Y Y R R
Y R R R R
R R R R R
8
Y
Y
R
R
R
Reamostre os caracters aleatoriamente, com substituição,
para criar várias réplicas bootstrap do mesmo tamanho que
os dados originais - analise cada conjunto de dados
replicado
D
A
B
C
B
C
D
A
1
2
8
7
6
1
2
5
4
3
5
5
8
6
6
A
B
C
D
96%
2
1
Sumarize os resultados das
múltiplas análises através de
uma árvore consenso da
maioria. Proporções de
boostrap são a freqüênfcia
com que cada grupo é
encontrado nas análises dos
dados replicados
66%
2
Outgroup
Deus
Bootstrapping - um exemplo
Outgroup
Outgroup
Bootstrapping - dados aleatórios
Ciliate SSUrDNA - bootstrap de parcimônia
Ochromonas (1)
59
Symbiodinium (2)
100
Prorocentrum (3)
Euplotes (8)
84
Tetrahymena (9)
96
100
Loxodes (4)
71
Ochromonas
Symbiodinium
Prorocentrum
Loxodes
Tracheloraphis
Spirostomumum
Euplotes
Tetrahymena
Gruberia
16
59
26
71
16
21
Ochromonas
Symbiodinium
Prorocentrum
Loxodes
Spirostomumum
Tetrahymena
Euplotes
Tracheloraphis
Gruberia
Consenso da maioria (com componentes da minoria)
Tracheloraphis (5)
100
100
Consenso da Maioria
Spirostomum (6)
Gruberia (7)
Wim de Grave et al. Fiocruz bioinformatics training course
Wim de Grave et al. Fiocruz bioinformatics training course
7
O que os valores de bootstrap
significam?
Limitações do Bootstrap
• Valores de Bootstrap não seguem comportamento
estatístico padrão
• Valores de Bootstrap de 95% são na verdade
próximos de 100% de confiança no ramo
• Valores de Bootstrap de 75% são próximos aos
95% de confianca
• Valores de Bootstrap de 60% são muito mais
baixos
• Pelo fato de estarmos reamostrando de
dados existentes, não podemos ter
pseudoreplicados com colunas não
observadas nos dados originais
• Pode levar a superestimativas de valores de
bootstrap para ramos particulares
Suporte do Ramo
(Bremer 1988, 1994)
= “Decay Index” ou índice de decaimento de
Donoghue et al. 1992)
O número de passos adicionais que devem ser
adicionados para descobrir um cladograma que não
tenha o grupo em questão
Análise de Decaimento
Dados de Ciliados SSUrDNA
Dados permutados
Ochromonas
Ochromonas
+27
Symbiodinium
Symbiodinium
+1
Prorocentrum
Prorocentrum
+1
+45
Loxodes
+3
Loxodes
Tracheloraphis
Tetrahymena
Spirostomum
Tracheloraphis
+8
+15
Gruberia
Spirostomum
+10
Euplotes
Euplotes
+7
Tetrahymena
Gruberia
Análise de Decaimento
• Na análise de parcimônia, uma forma de se determinar
suporte para um grupo é verificar se este grupo ocorre em
árvores um pouco menos parcimoniosas
• A diferença entre uma árvore mais curta incluindo o grupo
e a mais curta que não inclua o grupo é o índice de
decaimento.
• Equivale ao número de passos a mais que a árvore terá por
não ter um grupo
Índices de Decaimento
• Geralmente quanto maior o decaimento, maior o suporte
relativo para o grupo
• Como boostrap, decaimento pode não ser confiável, se
dados não são confiáveis
• Ao contrário de bootstrap, dados não estão em escala (0100) sendo menos claro o que é um índice de decaimento
aceitável
• Magnitude do decaimento e bootstrap estão geralmente
correlacionados
• Apenas grupos que são encontrados em todas árvores mais
parcimoniosas tem decaimento > zero
8
Decaimento vs valores de Bootstrap
Outros métodos de confiança na árvore
• Jackknifing – remove seqüências individuais ou
partes do alinhamento
• Bootstrap Paramétrico – dados construídos baseados
em um modelo evolutivo específico
• Testes de likelihood ratio – compara a
verossimilhança de duas (ou mais) árvores rivais
Valores de Bootstrap
100
90
80
70
60
= Monocotiledôneas
(Davis 1995)
50
40
30
20
10
0
= Josiini
(Miller et al. 1997)
0
5
10
15
Índice de Decaimento
20
25
O que é um “bom” método?
• Eficiência
• Poder
• Consistência
– Tempo para se achar a/uma solução
– Taxa de convergência/ quantos dados precisam
Desempenho em dados simulados
1
1
0.9
0.9
0.8
0.8
0.7
0.7
0.6
0.6
0.5
0.5
0.4
0.4
0.3
0.3
UPGMA, Kimura
NJ, percentage
Parsimony, unifo
– Converge na solução “correct” a medida que dados
são acrescidos
• Robustês
• Falsificabilidade
Freqüência de
inferências corretas
– Performance quando pressupostos são violados
– Rejeição do modelo quando inadequado
Lakes invariants
UPG M A,Kim ura
M L,Kim ura
0.2
Parsim onny,uniform
NJ,Kim ura
Parsim ony,weighted
Parsimony,
weighted
NJ, Kimura
ML, Kimura
0.2
0.1
0.1
0
0
10
100
1000
10000
100000
10
100
1000
10000
100000
Comprimento da seqüência
0.30 e
0.05 respectivamente
Todos 0.50
Prós e contras de alguns métodos
O que pode dar errado?
• Distância, como UPGMA e Neighbor-joining
+ Rápido
+ Modelos podem ser usados quando transformando em distância
- Informação é perdida quando transformando em distância par a par
- Uma árvore será gerada, mas não teremos medida de quão boa para se
comparar com outras hipóteses
• Parcimônia
+ Filosoficamente atraente – Navalha de Occam
+ Permite estudo de evolução de caracteres particulares
- Pode ser inconsistente
- Pode ser lento de se computar
• Máxima verossimilhança
• Erros amostrais
– medidos, p.ex., pelo bootstrap
• Erros sistemáticos (métodos inconsistentes)
– Testes de adequação dos modelos usados
• Realidade
– Uma árvore pode ser um modelo infiel da história real
– Informação foi perdida por mudanças evolutivas
subseqüentes
• Árvores de genes vs. árvores de espécies
+ Baseado em modelo
- Baseado em modelo
- MUITO lento de se computar
9
Sorteamento incompleto de
linhagens
t
Hibridação introgressiva
Iinhagens ancestrais
Iinhagens ancestrais
0
A
B
Tempo de Geração
B
A
t
*
f
Espécie A
Espécie B
Iinhagens atuais
Métodos de Reconstrução de árvores:
•
•
•
O que pode dar errado?
– medidos, p.ex., pelo bootstrap
• Erros sistemáticos (métodos inconsistentes)
– Testes de adequação dos modelos usados
• Realidade
– Uma árvore pode ser um modelo infiel da história real
– Informação foi perdida por mudanças evolutivas
subseqüentes
• Árvores de genes vs. árvores de espécies
J. C. Avise: Phylogeography:
the history and formation of species
O que está errado com esta árvore?
• Erro amostral mínimo
(em cada seqüência)
• Árvore estimada por
um método consistente
Iinhagens atuais
• Erros amostrais
Uma ou mais (talvez
várias) árvores podem
descrever os dados.
Árvores igualmente
parcimoniosas/prováveis
podem não ser
consistentes.
Árvores de genes e árvores
de espécies: uma árvore
de gene pode não ser
necessariamente refletir
uma árvore da espécie.
Canis
Espécie B
Gadus
A árvore esperada
Mus
Árvore da espécie
100
100
Duplicação gênica
“Árvore dos genes
10
Ortólogos
Canis
Mus
O que foi estudado...
Ortólogos
Gadus Gadus
Mus
Canis
Canis
Gadus
Mus
Parálogos
Duas cópias (parálogas) presentes nos genomas
11
Download

No Slide Title