Enumeração de Soluções de
Distância de Rearranjo e
Alinhamento de Sequências
utilizando Eventos de Rearranjo
Christian Baudet
Zanoni Dias (Orientador)
Instituto de Computação – Unicamp
Campinas, 05 de Setembro de 2008
Roteiro

Motivação

Conceitos

Descrição do Projeto

Estágio no Exterior

Cronograma de Atividades
Motivação

Importância da pesquisa genômica

Rearranjo de genomas

Mecanismos de evolução
Rearranjo de Genomas

Eventos de rearranjos
Transformam o genoma das espécies
 Grande influência na evolução
 Espécies próximas

 Diferenças
na ordem dos genes
Reversões
 Transposições
 Translocações

Reversões

Inversão na direção de um trecho do
cromossomo:
Reversões

Permutações não orientadas
Problema NP-Completo (Caprara, 1999)
 Berman, Hannehalli e Karpinski, 2002

 Algoritmo

de aproximação com fator 1.375
Permutações orientadas

Tempo polinomial
 O(n4)
– Hannenhalli e Pevzner, 1995
 O(n2) – Bergeron, 2001

Apenas cálculo de d()
 O(n)
– Bader, Moret e Yan, 2001
Transposições

Troca de posições entre dois blocos
consecutivos no cromossomo:
Transposições

Ordenação por transposições


Problema em aberto
Bafna e Pevzner, 1995
Primeiro algortimo de aproximação
 O(n2) e fator 1.5


Christie, 1996


Block-interchange – Algoritmo O(n2)
Elias e Hartman, 2005

Algoritmo de aproximação com fator 1.375
Translocações

Trocas entre prefixos/sufixos de dois
cromossomos diferentes:
Translocações

Permutações não orientadas
Problema em aberto
 Kececioglu e Ravi, 1995

 Algoritmo

de aproximação com fator 2
Permutações orientadas
O(n3) – Hannehalli, 1996
 O(n2) – Wang et al., 2005
 Apenas cálculo de distância de translocação

 O(n)
– Li et al., 2002
Enumeração de Soluções de
Distância de Reversão

Braga et al.
The Solution Space of Sorting by Reversals
(2007)
 Exploring the Solution Space of Sorting by
Reversals, with Experiments and an
Application to Evolution (2008)


Enumeração de todas as soluções

Utilização do conceito de traces
Traces

Relação de equivalência


Classes de equivalências


Se ρ e θ são reversões e não se sobrepõem,
então ρθ e são θρ equivalentes
Relação acima é aplicada às soluções do
problema de distância de reversão
Traces têm a propriedade de “compactar” o
enorme conjunto de soluções

Resultados mais representativos
Traces – Forma Normal

Decomposição: s = u1|...|um




Todo par de elementos da sub-palavra ui comutam
entre si
Para todo elemento ρ de uma sub-palavra ui (i > 1),
existe ao menos um elemento θ da palavra ui-1 tal
que ρ e θ não comutam
Toda palavra ui é uma palavra crescente não vazia
com relação à ordem lexográfica induzida por A
Teorema – Cartier e Foata, 1969

Todo trace possui uma única forma normal
Enumeração de Soluções de
Distância de Reversão

Siepel, 2003



Algoritmo iterativo


Optimal i-sequence : s= ρ1 ρ2... ρi
 d( ρ1 ρ2... ρi) = d() – i
Obtém todas optimal 1-sequences em tempo O(n3)
Calcular todas i-sequences a partir de todas as
(i-1)-sequences
Braga et al. 2007

Calcular todos i-traces a partir de todos os
(i-1)-traces
Enumeração de Soluções de
Distância de Reversão

Braga et al. 2007 e 2008
Algoritmo que enumera todos os traces das
soluções do problema de distância de
reversão
 Algoritmo exponencial

 Altas
complexidades de tempo e de espaço
 Limitado a permutações pequenas (n < 20)

Adição de restrições biológicas para reduzir
o espaço de soluções
Alinhamento de Sequências
com Reversões

Vellozo et. al


Alignment with Non-overlapping Inversions
in O(n3)-Time (2006)
Alinhamento de sequências
Inversões que não se sobrepõem
 Complexidade de tempo O(n3)
 Complexidade de espaço O(n2)

Alinhamento de Sequências
com Reversões

Grafo de edição
Alinhamento de Sequências
com Reversões

Grafo de edição estendido
Alinhamento de Sequências
com Reversões


Alinhamento de Sequências
com Reversões

Matriz B


Cada célula (i,j) mantém o peso do caminho
ótimo de (0,0) até (i,j)
Diversas matrizes e vetores auxiliares
Alinhamento de Sequências
com Reversões

Vellozo et. al, 2006

Algoritmo utiliza espaço quadrático

Não utiliza pontuação afim

Peso de reversão constante
Projeto

Enumeração de Soluções

Aplicar o algoritmo ao gênero Wolbachia

Reduzir consumo de memória

Combinar conceitos: Traces + Transposição
 Algoritmo
de aproximação de fator 1.375
para o problema de distância de transposição
Projeto

Alinhamento com eventos de rearranjo

Estender algoritmo para utilização de
pontuação afim

Função que penalize as reversões conforme
os seus tamanhos

Transposição
 Algoritmo
que realize alinhamento utilizando
eventos de transposição
Estágio no exterior

Estágio em Lyon – França
Professora Marie-France Sagot
 Grupo BAMBOO-BAOBAB
 Visita em Fevereiro/2007


Braga e Vellozo trabalham no laboratório

Intercâmbio com pessoas familiarizadas com
os problemas que serão abordados no
projeto
Cronograma
Disciplinas
2. Revisão Bibliográfica
3. Visita ao grupo BAOBAB
4. Preparação para o Exame de
Qualificação Específico
1.
Cronograma
5.
6.
Aplicar algoritmo de enumeração de
soluções de distância de reversão ao
gênero Wolbachia
Incorporação de pontuação afim ao
algoritmo de alinhamento de sequências
com reversões
Cronograma
7.
Estágio no Exterior
Redução de consumo de memória do
algoritmo de enumeração
b. Redução de consumo de memória do
algoritmo de alinhamento
c. Adição de função de peso para as
reversões ao algoritmo de alinhamento
a.
Cronograma
Algoritmo de alinhamento de sequências
usando transposições
9. Algoritmo de enumeração de soluções de
distância de transposição
10. Conclusão da escrita da tese
11. Defesa
12. Entrega da versão final
8.
Download

SlidesPropostaChristian - Instituto de Computação