Algoritmos para Problemas de Geometria Molecular
Sessão de Otimização
Felipe Fidalgo
[email protected]
Carlile Lavor
[email protected]
Instituto de Matemática, Estatística e Computação Cientíca
Universidade Estadual de Campinas
1
Introdução
As proteínas formam uma classe importante de moléculas. São codicadas nos genes e produzidas nas células
por um processo chamado de tradução. Essas, depois de formadas, é que atuarão nas mais variadas funções de
nosso organismo como determinação de caracteristicas hereditárias, transporte de nutrientes e metabólitos,
composição das células, entre outros.
Em relação à geometria protéica, a maioria das proteínas naturais têm estruturas tridimensionais especícas que estão intimamente ligadas às suas funções biológicas. Dessa forma, a determinação da estrutura
geométrica tornou-se um passo importante para a compreensão das propriedades biológicas de todas as proteínas [1].
Neste trabalho, analisamos um algoritmo da literatura para o Molecular Distance Geometry Problem
(MDGP) e propomos um novo algoritmo que mantém a qualidade das soluções obtidas pelo anterior, apresentando ganhos em termos de eciência computacional.
O MDGP consiste em determinar as posições dos átomos de uma molécula, no espaço tridimensional, a
partir de um conjunto de distâncias entre eles. As proteínas são uma boa motivação para o trabalho, já que
sua estrutura geométrica é de grande importância.
Podemos dividir este problema em duas classes: a primeira contém aqueles com conjunto completo de
distâncias, isto é, todas as distâncias são conhecidas, e a segunda contém aqueles com conjunto arbitrário de
distâncias, ou seja, onde na maioria das vezes o conjunto de distâncias é incompleto.
Os problemas da primeira classe podem ser resolvidos em tempo polinomial. Os que estão na segunda
são NP-difíceis. A classe que mais nos interessa é a segunda, porque abrange uma quantidade maior de casos
práticos.
Tal problema tem uma importante aplicação em biologia molecular e bioquímica e, em particular, na
determinação e predição da estrutura de proteínas [5].
Descrevemos dois métodos neste trabalho, sendo o segundo a nossa proposta para resolver o problema.
Ambos são baseados na resolução de sistemas lineares. Ao nal, comparamos a ecácia e o tempo de execução
deles.
2
Molecular Distance Geometry Problem (MDGP)
I = {1, ..., n}. Queremos determinar as coordenadas
x1 , ..., xn , onde xi = (xi,1 , xi,2 , xi,3 ), xi,k ∈ R (k = 1, 2, 3), indica a posição do átomo i
3
em R , para cada i ∈ I , usando um conjunto S de pares (i, j), com i, j ∈ I , para os quais conhecemos
a distância di,j ∈ R entre eles. Então, dadas as distâncias di,j entre os átomos i e j , as coordenadas das
posições x1 , ..., xn dos n átomos são solução do sistema não-linear de equações
Sejam
n
o número de átomos em uma dada molécula e
de tais átomos,
kxi − xj k = di,j ,
1
(i, j) ∈ S.
(1)
Logo, o problema é determinar tais soluções de modo eciente. Tal problema é chamado de Molecular
Distance Geometry Problem (MDGP).
Na prática, os valores das distâncias podem não ser exatos, isto é, eles podem conter erros. De forma
mais geral, os dados conhecidos para o MDGP podem ser cotas superiores (ui,j ) e inferiores (li,j ) para as
distâncias
di,j
de modo que
li,j ≤ kxi − xj k ≤ ui,j ,
(i, j) ∈ S.
(2)
Neste trabalho, apenas os casos onde as distâncias são dadas exatamente serão considerados.
As distâncias entre muitos dos pares de átomos em uma proteína podem ser determinadas a partir de
um certo conhecimento em Química usando, por exemplo, comprimentos e ângulos de ligações e, também,
experimentos de Ressonância Magnética Nuclear (RMN) [1]. Se conseguirmos obter um conjunto de distâncias
inter-atômicas sucientemente grande, então a estrutura de tal proteína pode ser determinada via resolução
de um MDGP [2].
A partir deste modelo, seguem dois métodos para lidar com sua resolução a m de determinar a estrutura
molecular desejada.
2.1
Algoritmo Iterativo de Determinação Geométrica
O primeiro método a ser descrito é o Algoritmo Iterativo de Determinação Geométrica (originalmente publicado como Geometric Buildup Algorithm ) apresentado por Dong e Wu em [3].
Iterativamente, para cada átomo ainda indeterminado,
xi , encontramos quatro átomos, a saber x1 , x2 , x3 , x4 ,
já posicionados cujas distâncias entre quaisquer dois deles sejam conhecidas e que sejam não-coplanares em
R3 . Logo, podemos denir o sistema linear




2
2
(kx1 k − kx2 k ) − (d2i,1 − d2i,2 )
(x2 − x1 )T


−2 (x3 − x1 )T  · xi = (kx1 k2 − kx3 k2 ) − (d2i,1 − d2i,3 )
T
2
2
(x4 − x1 )
(kx1 k − kx4 k ) − (d2i,1 − d2i,4 )
(3)
xi .
na incógnita
A matriz dos coecientes deste sistema é não-singular e, assim, o mesmo tem solução única.
2.2
Algoritmo T
O segundo método é a proposta que temos neste trabalho, apresentada em [4]. A estrutura deste tem muitas
das características do anterior. A principal modicação está no modo como se obtém o sistema linear a partir
do sistema não-linear.
A cada iteração, temos um átomo indeterminado, digamos
xj .
Encontramos, também, quatro átomos
cujas distâncias entre quaisquer pares dentre eles sejam conhecidas, não-coplanares e determinados cujas
coordenadas são
Assim,
xj
x1 , x2 , x3 , x4 .
integra a solução do sistema linear

1
1
−2 
1
1
onde
tj = −
kxj k
2



2
d2j,1 − kx1 k
xT1  2
2
tj
xT2 
dj,2 − kx2 k 

=

,
xT3  xTj
d2j,3 − kx3 k2 
2
xT4
d2 − kx4 k
j,4
é um termo de controle da solução.
As matrizes dos coecientes destes sistemas também são não-singulares. Desta forma, os sistemas lineares
deste método geram soluções únicas. Este sistema tem vantagens teóricas e computacionais, descritas em [4].
2
Referências
a edição, Freeman and Company, 1993.
[1] T. Creighton: Proteínas: estruturas e propriedades moleculares , 2
[2] G. Crippen and T. Havel: Distance Geometry and Molecular Conformation , John Wiley and Sons, 1988.
[3] Q. Dong and Z. Wu: A geometric build-up algorithm for solving the molecular distance geometry problem
with sparse distance data , Journal of Global Optimization, Volume 26, p. 321 - 333, 2003.
[4] F. Fidalgo and C. Lavor Algoritmos para Problemas de Geometria Molecular , Dissertação de Mestrado,
IMECC - UNICAMP, 2011.
[5] Z. Wu and D. Wu: An updated geometric build-up algorithm for solving the molecular distance geometry
problems with sparse distance data , Journal of Global Optimization, Volume 37, p. 661 - 673, 2007.
3
Download

Algoritmos para Problemas de Geometria Molecular