Métodos de distância e modelos
de evolução molecular
Almir R. Pepato
Distância genética
Distância genética p difere da distância aparente D, devido às substituições múltiplas (D é
menor ou igual).
Distância genética
Distância genética p difere da distância aparente D, devido às substituições múltiplas.
Modelos de substituição
•usuários de computador ligados à Internet
•clientes chegando ao caixa de um supermercado
•acidentes com automóveis em uma determinada
estrada
•Número de carros que chegam a um posto de
gasolina
•Número de falhas em componentes por unidade
de tempo
•Número de requisições para um servidor em um
intervalo de tempo t
•Número de peças defeituosas substituídas num
veículo durante o primeiro ano de vida
Siméon Denis Poisson
« Recherches sur la
probabilité des jugements
en matière criminelle et en
matière civile » de 1837
Modelos de substituição
Premissas:
1- As substituições são eventos discretos
2- A incidência de uma substituição não está
relacionada à ocorrência passada de outras
substituições (Processo de Markov)
Modelos de substituição
Suponha que um sítio tenha em alguma posição
uma adenina. Qual é a probabilidade desse sítio ter
uma adenina depois de um tempo δt, dada uma
taxa de substituição α idêntica para todos os tipos
de substituição e frequência idêntica de 25% para
as quatro bases?
E depois de mais um tempinho δt? Dois cenários:
T=0
A
T= δt A Não A
T= 2δt A
Andrey KolmogorovSydney Chapman
A
A
Podemos generalizar essa
equação para:
Modelos de substituição
Até agora, racionamos a respeito de um processo que
corre em tempos discretos, mas podemos imaginar
que δt tende a zero, de forma que temos o valor
instantâneo de PA(t) através do cálculo diferencial:
Andrey KolmogorovSydney Chapman
Que se resolve em:
Modelos de substituição
Para os dois cenários delineados acima, temos:
Andrey KolmogorovSydney Chapman
Que se aplica, já que as taxas são as mesmas,
para todos os nucleotídeos. São essas as
probabilidades que devemos contabilizar para
cada sítio de um alinhamento ao longo dos
ramos de uma árvore.
Modelos de substituição
Soma zero...
A matriz Q para o JC69 é:
Para as probabilidades temos:
Soma um...
Estimativa corrigida da distância
Podemos estimar a grandeza µt partir dos dados empíricos, na verdade, a partir da
distância observada p. Considere I(t) a identidade entre duas sequências:
K= número de substituições por sítio desde o tempo de divergência de duas
sequências.
Exemplos numéricos
Seq1 /Seq2 = 5 nts de diferença*
Seq1/Seq3 = 50 nts de diferença*
*Todas as sequências alinhadas com 100 nts.
Modelos de substituição
Até agora tratamos de um caso bastante específico: Supomos que todas as bases
ocorriam na mesma proporção e que as taxas de substituição eram iguais para
todas elas.
Note que a matriz de taxas acima pressupõe que a taxa de evolução não mude com
o tempo e que a frequência relativa das bases se mantenha estacionária. Além disso,
todos os modelos que discutiremos são reversíveis, ou seja:
Modelos de substituição

A
G




A
G

C
Jukes-Cantor




C

T
Felsenstein


C

T
K2P



G
G



A

A
T


C

A

G


C
T



T
HKY
Com ajuda do nosso
amigo Poisson,
podemos estender o
raciocínio para todos
os outros modelos.
Violando as premissas...
Uma das
premissas feitas
nos modelos
acima é de que
todos os sítios
estejam
evoluindo na
mesma taxa, algo
bastante raro nas
sequências reais.
Variação de taxa entre os sítios
Para entender como considerar taxas distintas pode alterar as estimativas de
substituição ao longo do tempo, suponha que duas sequências com 100 nucs cada
apresentem 15 substituições e considere as estimativas para dois casos:
1- Sequência com dois grupos de nucleotídeos, um dos quais invariante que inclui
20 nucs e o outro evoluindo sob JC69.
2- Sequência com uma única taxa de evolução para todos os sítios evoluindo sob
JC69.
Variação de taxa entre os sítios
Além de distribuições de
categorias discretas , podemos
modelar a variação de taxas
entre sites utilizando
distribuições contínuas. A mais
usada, devido a sua capacidade
de prever o comportamento de
dados empíricos é a
distribuição Gama:
Variação de taxa entre os sítios
1- Quando a as taxas de substituição são
idênticas em todos os sítios o número de
substituições seguirá a distribuição de
Poisson, mas se as taxas são distribuídas
usando uma distribuição gama, seguirá
uma distribuição binomial negativa. Isso
é utilizado para testar a utilidade de
incorporar o parâmetro α e para inferir
seu valor.
2-Na prática, a curva determinada por α
é aproximada com algumas categorias
discretas e não tratada de maneira
contínua. A segunda alternativa é muito
difícil de computar.
Violando as premissas...
Genes codificantes: As substituições sinônimas e não sinônimas evoluem de
maneira diferente (correlação de sítios).
Violando as premissas...
Modelos de substituição
Os modelos podem ir além:
1- Podem incluir variação na taxa de
evolução entre os sítios.
2- Um certo número de sítios invariáveis.
3- Frequência de bases não estacionária.
4- Covariação entre os sítios.
Métodos algoritmos
Transforma-se a matriz de
caracteres em uma matriz
de distâncias (aqui entra
tudo que estudamos até
agora!!!!!!!)
UPGMA
UPGMA= Unweighted Pair Group Method with Arithmetic Mean
UPGMA
UPGMA
Neighbor-Joining
Neighbor-Joining
Evolução Mínima
Aquifex
0.217
Bacillus
1
0.217
Bacillus
0.119 0.058
0.152
0.053
0.081 0.012
ruber
Aquifex
Deinococc
Thermus
2
0.119
0.057
0.017 0.056
0.079
ruber
Critério de otimização = minimizar a soma do comprimento dos ramos
Comparando as duas árvores:
Árvore #
1
2
ME-score 0.68998 0.69163
Thermus
0.145
Deinococc
O uso da distância para inferência
filogenética
1- Há perda de informação com a conversão da matriz de caracteres em
matriz de distâncias.
2- O comprimento dos ramos de uma árvore de distância não são
independentes, mas calculados em relação aos demais. Assim mesmo
que as distâncias sejam corrigidas com o emprego de modelos
estocásticos, elas serão sub-estimativas. Qualquer “problema”
relacionado a um dos ramos (mudança na frequência das bases, ramo
especialmente longo) será propagado ao longo de toda a filogenia.
Download

Métodos geométricos (de distância) e modelos de evolução molecular