Artur Lira – [email protected] Thiago Rocha – [email protected] Contexto Reconstrução Filogenética Por DNA Por ordem dos genes. Maximum Parsimony Breakpoint Analysis GRAPPA Impactos Na Biologia Computacional Conclusão Referências Filogenia hipóteses de relações evolutivas(relações filogenéticas) entre diferentes espécies. Representação em árvore Orangotango Gorila Chimpanzé Humano Reconstrução Filogenética Processo de inferir as relações evolutivas de um determinado conjunto de espécies a partir de conhecimentos em genética. ▪ Seqüenciamento de DNA ▪ Ordem dos genes (Whole Genome Based Phylogeny Reconstruction) Cada espécie é representada por sua seqüência genética Assume-se que cada caractere tem o potencial de evoluir Substituições A <-> T <-> G <-> C AAGACTT AAGGCCT AGGGCAT AGGGCAT -2 106 anos TGGACTT TAGCCCT TAGCCCA -3 106 anos TAGACTT AGCACTT AGCACAA AGCGCTT -1 106 anos Atualmente Nós da árvore são permutações dos genes da espécie 1 –5 3 4 -2 -6 ou 6 2 -4 –3 5 –1 A A C D X B E Y E Z C F B D W F 1 2 3 4 5 6 7 8 9 10 3 –8 –7 –6 –5 -4 9 10 8 10 • Inversão 1 2 • Transposição 1 2 3 9 4 5 6 7 • Transposição Invertida 1 2 3 9 -8 –7 –6 –5 –4 10 Raras mudanças genômicas Baixa freqüência de eventos evolutivos se comparado com substituições nas seqüências de DNA. ▪ Evoluções muito profundas podem ser inferidas com maior fidelidade Problemas NP-Hard N° de árvores possíveis é gigantesco ▪ (2x-5)!! = 3 * 5 * 7 * ... * (2x-5), onde x = n° de espécies Anos para se resolver maioria dos conjuntos de espécies estudados. Resultado não necessariamente é um ótimo global. Ótimo local Score Ótimo global Árvores Filogenéticas Busca minimizar (a partir de um critério) o número de pontos de mutação necessário para explicar as relações evolutivas entre as espécies. Definição: Dado um conjunto S de strings de mesmo comprimento e alfabeto, encontre uma árvore T como folhas sendo elementos de S e todos os nós internos strings de mesmo comprimento e alfabeto de S, de forma que tal árvore minimize o somatório dos comprimentos das arestas. ACT GTA ACA ACT GTT ACA GTT GTA ACA GTA ACT GTT ACT GTT 2 GTT GTA 1 2 GTA ACA ACA GTT ACT ACA ACT 1 3 3 MP score = 7 MP score = 5 ACA ACT GTA ACA GTA 2 1 1 MP score = 4 Melhor Opção GTT GTA A 2 X 3 B C 2 E Y 5 Z 2 J 6 2 2 C 3 D MP score = 27 2 2 W B E K 3 L 2 2 2 F 2 D MP score = 19 E 2 P 2 B A 2 F 2 A Q 1 R 2 2 1 2 2 D MP score = 16 Melhor Opção S B 2 M F Breakpoint: Dois genomas G e G’ com o mesmo conjunto de genes Existe um breakpoint em (gi , gj) de G se e somente se: ▪ (gi , gj) e (-gj , -gi) não aparecem em G’ Breakpoint Distance (BD) Número de breakpoints entre dois genomas Mediana de 3 genomas O genoma que minimiza o BD entre 3 genomas A partir de 3 permutações com sinal A, B e C, encontre uma quarta permutação D que: Minimize a soma das distâncias d(A;D) + d(B;D) + d(C;D) NP hard A D C B Implementação desenvolvida em 1997 por Sankoff e Blanchette Lida com dados simples e específicos Organismos com apenas um cromossomo ou organelas com um único cromossomo. Cada cromossomo representado por uma ordem orientada de genes Enumera todas as (2n-5)!! árvores de n nós. Utiliza redução de MPB para TSP (Travelling Salesman Problem) Representação de cada gene por um par de cidades conectadas por uma aresta. Complexidade computacional é exponencial para qualquer número de genomas. • Estima-se 200 anos para amostra de 13 genomas com 105 genes cada num único processador. Para cada árvore T do conjunto de árvores Inicialmente defina um nó para cada permutação Repita Para cada nó interno v com vizinhos A,B,C Resolva a MPB A B, C que gera D Se colocar D em v melhora o score da árvore T, altere a árvore e marque v como visitado. enquanto existir um nó interno de T não visitado Genome Rearrangement Analysis under Parsimony and other Phylogenetic Algorithms Bernard M.E. Moret, David A. Bader, Tandy Warnow ▪ University of New Mexico http://www.cs.unm.edu/~moret/GRAPPA/ Segue a idéia de BPAnalysis, mas com otimizações: Re-Engenharia Paralelismo Heurísticas semelhantes ao hill-climbing e Maximum Parsimony que busquem solucionar problemas NPHard de forma otimizada Identificação de gargalos na implementação Exemplos: a. loop unrolling, reduzindo o tempo de execução em um fator maior que 6. b. Reuso de Memória alocada. c. Métodos mais eficientes para cálculo de distâncias entre genomas em tempo polinomial. Eficiente geração paralela das árvores de BPAnalysis Cada processador manipula uma fração das árvores. Divide-To-Conquer Possibilidade de “pausar” o processamento. Aumento de desempenho na ordem de 1 milhão. Cache Sensitivo a. BPAnalysis: 60MB b. GRAPPA: 1.8MB Princípio de Localidade a. BPAnalysis: pobre localidade região de alta localidade em 12MB b. GRAPPA : boa localidade, região de alta localidade em 600KB Teste com plantas aquáticas da família Campanulaceae 13 genomas, 105 genes cada 1997: BPAnalysis : 200 anos em um único processador (est.) 2000: GRAPPA v1.1 usando o “512-processor Los Lobos Supercluster machine”: 2 minutos. Melhoria em fator de 200.000 por processador. 2003: GRAPPA v2: 2 minutos em um único processador. Melhoria num fator de 1 bilhão. Implementação mais eficiente que BPAnalysis Redução do tempo de análise em média de 2 anos para um dia. Redução de custos na pesquisa e desenvolvimento de drogas. Reconstrução Filogenética abre um novo e complexo campo de pesquisa na biologia computacional Problemas complexos que demandam algoritmos de alta performance e grande escala para serem solucionados. SETUBAL, J. C.; MEIDANIS, J. C. Introduction to Computational molecular biology. 1° ed. Thomson. 1997. GRAPPA. Disponível em: http://www.cs.unm.edu/~moret/GRAPPA/ A High-Performance Computational Tool For Phylogeny Reconstruction From Gene-Order Data. Disponível em: http://www.cs.unm.edu/~moret/botsoc.pdf. Último acesso: 9 Jan 2008 MORET, B. M. E. ; WYMAN, S. ; BADER, A. B. ; WARNOW, T.; YAN, M. Phylogenies from Gene Order Data: A Detailed Study of Breakpoint Analysis (2001). Disponível em: http://citeseer.ist.psu.edu/466513.html . Último acesso: 9 Jan 2008 Artur Lira – [email protected] Thiago Rocha – [email protected]