Uma Visão Geral Sobre
Reconstrução Filogenética
André Ricardo
– [email protected]
Marlus Barbosa
– [email protected]
Agenda
 Filogenia
 Uso da filogenia em pesquisa biológica
 Etapas da análise filogenética
 Problemas de pesquisa em filogenia molecular
 Métodos de reconstrução de árvores filogenéticas
 Conclusão
Filogenia
Uso Da Filogenia
 Utilizações diversas e crescentes:
 Estudo comparativo.
 Testar hipóteses biogeográficas.
 Inferir informações “extintas”.
 Rastrear evolução de doenças.
 Casos criminais.
Análise Filogenética,
como é feita na prática?
Etapas:
Projeto Do Estudo
 Amostragem:
 Taxon, Tamanho, Geografia, Presença de amostra.
 Características:





Não-recombinável (mitocôndrias, cloroplastos).
De única cópia genética.
Prontamente amplificável (PCR).
Facilmente seqüenciados.
Boa velocidade de evolução.
Etapas:
Coleta De Organismos
Etapas:
Laboratorial
Etapas:
Alinhamento Múltiplo
Etapas:
Reconstrução Filogenética (1/8)
 Modelos estocásticos:
 Jukes-Cantor (JC).
 General Time Reversible (GTR).
 Padrão de evolução:
 Início na raiz,
 Evolução sobre a árvore.

Mudança de estados.
Etapas:
Reconstrução Filogenética (2/8)
 Freqüência de evolução:
Etapas:
Reconstrução Filogenética (3/8)
 Modelo JC:
 “Se um sítio muda seu estado, ele muda com igual
probabilidade para os outros estados”.
Etapas:
Reconstrução Filogenética (4/8)
 Modelo GTR:
 Reversível no tempo.
 Mudança de estado,

Matriz de substituição 4x4.
Etapas:
Reconstrução Filogenética (5/8)
 Métodos:
 Distância dos pares.

Tempo polinomial; rápida e prática.
 Maximum Parsimony (MP), Maximum Likelihood (ML).
 Markov Chain Monte Carlo (MCMC).
Etapas:
Reconstrução Filogenética (6/8)
 Método MP:
 Entrada: conjunto S de seqüências, de tamanho k, em
um alinhamento múltiplo.
 Saída: árvore T, cujas folhas são referenciadas por S, e
com seqüências adicionais, todas de tamanho k,
referenciando os nós internos de T, que minimiza a
fórmula:
 NP-hard.
Etapas:
Reconstrução Filogenética (7/8)
 Método ML:
 Entrada: Conjunto S de seqüências de mesmo tamanho,
e um valor B.
 Saída: Uma árvore modelo (T,p), de modo que
Pr[S|T,p] >= B, senão falha.
 NP-hard.
Etapas:
Reconstrução Filogenética (8/8)
 Método MCMC:
 “Random walk”.
 A saída não é uma árvore.

Distribuição de probabilidade.
Etapas:
Suporte à Avaliação
 Qual a melhor reconstrução?
 Medida de Confiabilidade.
 Arestas.



Data-mining.
Abordagem combinatória.
Abordagem estatística.
Suporte à Avaliação:
Abordagem Combinatória
 Técnica do consenso:
 Conjunto de melhores árvores.

Inicialmente igualmente confiáveis.
 Inferência da melhor árvore.

Bipartição induzida de arestas.
Suporte à Avaliação:
Abordagem Estatística (1/2)
 The Bootstrap:
 Reamostragem.
 “Árvore Bootstrap”.
 Comparação com a árvore reconstruída:

Armazenamento de informações sobre as arestas.
Suporte à Avaliação:
Abordagem Estatística (2/2)
 The Jackknife:
 Remoção aleatória de sítios.
 Reconstrução.
 MCMC:
 Freqüência de cada árvore visitada.
Problemas De Pesquisa Em
Filogenia Molecular
Problemas De Pesquisa:
Análise De Performance Algorítmica
 Simulação:
 Escolha de um modelo estocástico de evolução.
 Seqüência de tamanho qualquer.


Evolução sobre a árvore T.
Adição de outras sequências nas folhas.
 Método de reconstrução.

Reconstrução da árvore T’.
 Comparação T versus T’.
Problemas De Pesquisa:
Reconstrução Filogenética (1/3)
 Buscas heurísticas para MP e ML:
 Baseadas em hill-climbing.


Máximo local.
Fuga do máximo local: The Ratchet.
 Tempo impraticável.
Problemas De Pesquisa:
Reconstrução Filogenética (2/3)
 MP:
Por que MP é tão bom?
Problemas De Pesquisa:
Reconstrução Filogenética (3/3)
 ML:
Comparar possíveis scores.
Problemas De Pesquisa:
Alinhamento Múltiplo (MSA)
Nenhum critério atingiu aceitação geral...
Problemas De Pesquisa:
Filogenia em Larga-escala
 Métodos NP-hard
 Conjunto das melhores árvores
 Dados desconhecidos
 MSA complicado
Aspectos De Reconstrução De
Árvores Filogenéticas (1/2)
 Árvores:
 Topologia.
 Distância entre nós.
 Raiz.
Aspectos De Reconstrução De
Árvores Filogenéticas (2/2)
 Entradas:
 Características discretas (matriz de estados).
 Dados numéricos comparativos (matriz de distâncias).
 Características contínuas.
Problema Da Filogenia Perfeita
(1/3)
 Dados um conjunto de objetos e um conjunto de
características, temos uma matriz de estados.
 Problemas ao se criar uma filogenia:
 Convergência ou evolução paralela.
 Reversões.
 Para evitar isso, na árvore T desejada, queremos
que, para cada estado de uma característica, o
conjunto de todos os nós que possuem essa
característica forme uma subárvore.
Problema Da Filogenia Perfeita
(2/3)
 Computacionalmente difícil.
 Mas pode ser simplificado em casos especiais:
 Características binárias.
 Duas características.
Problema Da Filogenia Perfeita
(3/3)
Filogenia Com Matrizes De
Distância (1/7)
 Dois problemas:
 Dada uma matriz de distâncias, construir uma árvore
com arestas com peso, onde cada folha seja apenas um
objeto da matriz e tal que as distâncias entre duas folhas
correspondam às distâncias dadas na matriz.
 Esse problema exige que as distâncias na matriz sejam
aditivas, uma condição pouco comum. Daí surge o
segundo problema:
 Construir a árvore com duas matrizes, que servirão como
limites superior e inferior das distâncias entre os objetos.
Filogenia Com Matrizes De
Distância (2/7)
 Árvores aditivas.
 Matriz de entrada precisa ser um espaço métrico aditivo.
 O algoritmo consiste em calcular a árvore para dois
objetos (uma aresta) e a partir daí acrescentar outros
objetos.
Filogenia Com Matrizes De
Distância (3/7)
Filogenia Com Matrizes De
Distância (4/7)
 O problema com árvores aditivas é que distâncias dois
a dois sempre possuem incertezas.
 Utilizar duas matrizes.
 Limites inferior e superior.
 Árvores ultramétricas:
 Árvores enraizadas, tais que o comprimento de todos os
caminhos raiz-folha seja igual.
Filogenia Com Matrizes De
Distância (5/7)
 Minimum Spanning Tree (MST).
 Calcular Cut-Weights para cada aresta.
 Construir a árvore propriamente.
Filogenia Com Matrizes De
Distância (6/7)
Filogenia Com Matrizes De
Distância (7/7)
Métodos Supertree (1/5)
 Tentam estimar a história evolucionária de um
conjunto através das histórias dos seus
subconjuntos.
 “Tree of Life”.
 Recomendado para problemas de larga escala e
com dados faltando.
 Meta análises.
 Supermatrizes.
 Métodos supertree podem ser usados como parte
de uma estratégia dividir e conquistar.
Métodos Supertree (2/5)
 Compatibilidade de árvores.
 Refinamento.
 Compatibilidade.
 Problema: dado um conjunto de árvores, cada um sobre um
conjunto de características, encontrar uma árvore que
refine todas as árvores do conjunto.
 Problema NP-hard.
 Caso em que as árvores são enraizadas: tempo
polinomial.
 Infelizmente, as entradas para o problema tendem a não ser
compatíveis.
Métodos Supertree (3/5)
Métodos Supertree (4/5)
 Matrix Representation Parsimony (MRP).
 Método que lida com incompatibilidades nas entradas.
 Cria uma matriz para cada árvore, concatena todas as
matrizes e analisa a matriz concatenada com o método
de máxima parsimônia.
 Apesar de ser bom na teoria, sua aplicação prática é
pouco clara.
Métodos Supertree (5/5)
 Existem outros métodos que lidam com árvores que
contém erros.
 Consenso estrito de Gordon e DCM.
 Apesar do potencial dos métodos pouco se sabe sobre
seu funcionamento com dados reais.
Reconstrução De Filogenias
Genômicas
 Ao invés de analisar seqüências, analisa genomas
completos.
 Modificações genômicas e análises mais profundas.
 Modelos estatísticos pouco desenvolvidos.
 Computacionalmente muito mais complexo.
Conclusões
 Métodos de reconstrução filogenéticas apresentam
desafios profundos e complexos.
 Compreender aspectos como dados e métodos e como
os biólogos usam filogenias pode ser crucial.
Download

Introdução à Reconstrução de Árvores Filogenéticas