Métodos de distância e modelos de evolução molecular Almir R. Pepato Distância genética Distância genética p difere da distância aparente D, devido às substituições múltiplas (D é menor ou igual). Distância genética Distância genética p difere da distância aparente D, devido às substituições múltiplas. Modelos de substituição •usuários de computador ligados à Internet •clientes chegando ao caixa de um supermercado •acidentes com automóveis em uma determinada estrada •Número de carros que chegam a um posto de gasolina •Número de falhas em componentes por unidade de tempo •Número de requisições para um servidor em um intervalo de tempo t •Número de peças defeituosas substituídas num veículo durante o primeiro ano de vida Siméon Denis Poisson « Recherches sur la probabilité des jugements en matière criminelle et en matière civile » de 1837 Modelos de substituição Premissas: 1- As substituições são eventos discretos 2- A incidência de uma substituição não está relacionada à ocorrência passada de outras substituições (Processo de Markov) Modelos de substituição Suponha que um sítio tenha em alguma posição uma adenina. Qual é a probabilidade desse sítio ter uma adenina depois de um tempo δt, dada uma taxa de substituição α idêntica para todos os tipos de substituição e frequência idêntica de 25% para as quatro bases? E depois de mais um tempinho δt? Dois cenários: T=0 A T= δt A Não A T= 2δt A Andrey KolmogorovSydney Chapman A A Podemos generalizar essa equação para: Modelos de substituição Até agora, racionamos a respeito de um processo que corre em tempos discretos, mas podemos imaginar que δt tende a zero, de forma que temos o valor instantâneo de PA(t) através do cálculo diferencial: Andrey KolmogorovSydney Chapman Que se resolve em: Modelos de substituição Para os dois cenários delineados acima, temos: Andrey KolmogorovSydney Chapman Que se aplica, já que as taxas são as mesmas, para todos os nucleotídeos. São essas as probabilidades que devemos contabilizar para cada sítio de um alinhamento ao longo dos ramos de uma árvore. Modelos de substituição Soma zero... A matriz Q para o JC69 é: Para as probabilidades temos: Soma um... Estimativa corrigida da distância Podemos estimar a grandeza µt partir dos dados empíricos, na verdade, a partir da distância observada p. Considere I(t) a identidade entre duas sequências: K= número de substituições por sítio desde o tempo de divergência de duas sequências. Exemplos numéricos Seq1 /Seq2 = 5 nts de diferença* Seq1/Seq3 = 50 nts de diferença* *Todas as sequências alinhadas com 100 nts. Modelos de substituição Até agora tratamos de um caso bastante específico: Supomos que todas as bases ocorriam na mesma proporção e que as taxas de substituição eram iguais para todas elas. Note que a matriz de taxas acima pressupõe que a taxa de evolução não mude com o tempo e que a frequência relativa das bases se mantenha estacionária. Além disso, todos os modelos que discutiremos são reversíveis, ou seja: Modelos de substituição A G A G C Jukes-Cantor C T Felsenstein C T K2P G G A A T C A G C T T HKY Com ajuda do nosso amigo Poisson, podemos estender o raciocínio para todos os outros modelos. Violando as premissas... Uma das premissas feitas nos modelos acima é de que todos os sítios estejam evoluindo na mesma taxa, algo bastante raro nas sequências reais. Variação de taxa entre os sítios Para entender como considerar taxas distintas pode alterar as estimativas de substituição ao longo do tempo, suponha que duas sequências com 100 nucs cada apresentem 15 substituições e considere as estimativas para dois casos: 1- Sequência com dois grupos de nucleotídeos, um dos quais invariante que inclui 20 nucs e o outro evoluindo sob JC69. 2- Sequência com uma única taxa de evolução para todos os sítios evoluindo sob JC69. Variação de taxa entre os sítios Além de distribuições de categorias discretas , podemos modelar a variação de taxas entre sites utilizando distribuições contínuas. A mais usada, devido a sua capacidade de prever o comportamento de dados empíricos é a distribuição Gama: Variação de taxa entre os sítios 1- Quando a as taxas de substituição são idênticas em todos os sítios o número de substituições seguirá a distribuição de Poisson, mas se as taxas são distribuídas usando uma distribuição gama, seguirá uma distribuição binomial negativa. Isso é utilizado para testar a utilidade de incorporar o parâmetro α e para inferir seu valor. 2-Na prática, a curva determinada por α é aproximada com algumas categorias discretas e não tratada de maneira contínua. A segunda alternativa é muito difícil de computar. Violando as premissas... Genes codificantes: As substituições sinônimas e não sinônimas evoluem de maneira diferente (correlação de sítios). Violando as premissas... Modelos de substituição Os modelos podem ir além: 1- Podem incluir variação na taxa de evolução entre os sítios. 2- Um certo número de sítios invariáveis. 3- Frequência de bases não estacionária. 4- Covariação entre os sítios. Métodos algoritmos Transforma-se a matriz de caracteres em uma matriz de distâncias (aqui entra tudo que estudamos até agora!!!!!!!) UPGMA UPGMA= Unweighted Pair Group Method with Arithmetic Mean UPGMA UPGMA Neighbor-Joining Neighbor-Joining Evolução Mínima Aquifex 0.217 Bacillus 1 0.217 Bacillus 0.119 0.058 0.152 0.053 0.081 0.012 ruber Aquifex Deinococc Thermus 2 0.119 0.057 0.017 0.056 0.079 ruber Critério de otimização = minimizar a soma do comprimento dos ramos Comparando as duas árvores: Árvore # 1 2 ME-score 0.68998 0.69163 Thermus 0.145 Deinococc O uso da distância para inferência filogenética 1- Há perda de informação com a conversão da matriz de caracteres em matriz de distâncias. 2- O comprimento dos ramos de uma árvore de distância não são independentes, mas calculados em relação aos demais. Assim mesmo que as distâncias sejam corrigidas com o emprego de modelos estocásticos, elas serão sub-estimativas. Qualquer “problema” relacionado a um dos ramos (mudança na frequência das bases, ramo especialmente longo) será propagado ao longo de toda a filogenia.