Aplicação de Algoritmos Evolutivos
em Problemas de Atracamento Molecular e
Predição de Estruturas de Proteínas
Laurent E. Dardenne
GMMSB – www.gmmsb.lncc.br
Laboratório Nacional de Computação Científica - LNCC/MCT
5ª Escola Luso-Brasileira de Computação Evolutiva
LABORATÓRIO
NACIONAL DE
COMPUTAÇÃO
CIENTÍFICA
Linhas Principais de Pesquisa
•
Desenvolvimento de metodologias
computacionais para a predição de
estruturas de proteínas;
•
Programa: GAPF e GAHP;
•
Portais: MHOLline e Profrager;
•
Bionanotecnologia e
Proteínas.
•
Desenvolvimento de metodologias de
docking receptor-ligante;
•
Programa : DockThor;
•
Portal: DockThor;
•
Planejamento de Fármacos.
Engenharia de
VLSPADKTNVKAAWGKVGAHAGEYGAEALER
MFLSFPTTKTYFPH
Proteínas
 Proteína do grego “o mais importante”;
 Uma única célula: cerca de 9.000 proteínas;
 Corpo humano: cerca de 100.000 proteínas;
 Funções
• Proteínas Estruturais
• Proteínas Transportadoras
• Proteínas de Defesa (anticorpos)
• Proteínas Nutrientes
• Enzimas
• Regulação (hormônios)
• Sinalização celular
• ...
AMINOÁCIDOS
Fonte:
http://www.detectingde
sign.com/images/Abiog
enesis/Amino Acid
Chart.jpg
Proteínas
Sequências de resíduos formam peptídeos que podem se organizar em
estruturas secundárias, que por sua vez organizam-se tridimensionalmente
(3D) para formar as proteínas.
Fonte:
Baseado em
http://www.icrm.cnr.it/COLOMBO/f
olding5.GIF
Proteínas: Estrutura Terciária
(3D)
Hélice alfa
Folha beta
loops
Estruturas secundárias da
cadeia polipeptídica
•
A estrutura nativa de uma proteína é determinada pela sua
sequência de aminoácidos (dogma de Anfinsen);
•
A função de uma proteína está diretamente associada à sua
estrutura tridimensional.
PREDIÇÃO AB INITIO DE ESTRUTURAS DE PROTEÍNAS
VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPH
Objetivo : Predizer estruturas de proteínas à partir da sequência de aminoácidos
“sem” utilizar quaisquer informações advindas de experimentos estruturais.
Predição de Estruturas de Proteínas Ab Initio
O problema pode ser dividido em dois
sub-problemas (desafios)
1. Desenvolvimento de algoritmos eficientes e
robustos para investigar a hipersuperfície de
energia de enovelamento de uma proteína.
2. Desenvolvimento de uma função de energia
acurada capaz de descrever e identificar
corretamente conformações nativas de proteínas.
Busca Conformacional – Graus de Liberdade
PSI
PHI
Omega
Ligação Peptídica
Cadeia Lateral
Comprimentos e ângulos de ligação são usualmente mantidos fixos.
Modelo – Função Energia
•
O modelo deve descrever as princiapis forças envolvidas no processo de
enovelamento : G = H - TS (Gibbs Free Energy)
-TΔS
Conformational
Entropy
ΔH
Internal Interactions
-TΔS
Hydrophobic Effect
ΔG
“Protein folding”
–
–
–
–
–
Efeito Hidrofóbico (efeitos solvente)
Ligações hidrogênio
Interações Eletrostáticas e de van der Waals
Efeitos entrópicos conformacionais
...
Uso de funções energia
simplificadas (viáveis
computacionalmente)
10
Algoritmos Genéticos
•
Algoritmos Genéticos são métodos computacionais inspirados na genética de
populações biológicas naturais
•
Trabalham sobre uma Codificação da solução (i.e., cromossomos)
•
Empregam uma População de indivíduos (i.e., cromossomos)
•
Utilizam regras de transição Probabilísticas
•
Não requerem informações sobre a derivada da função a otimizar
Modelos de Proteínas Implementados
 Hidrofóbico-Polar (HP)
Modelo simplificado utilizado para desenvolver algoritmo de otimização - Programa
GAHP (registro INPI) - Tese doutorado Fábio Lima Custódio - Programa desenvolvido
em C++ com ~40 mil linhas.
 All-Atom
Modelo completo com todos os átomos da proteína visando predição de estruturas de
proteínas e engenharia de proteínas (proteínas modificadas e não existente na natureza)
- Programa GAPF (registro INPI )
Tese doutorado Fábio Lima Custódio e dissertação de mestrado Gregório Kappaun
(atualmente doutorado)
 Coarse-Grained
Modelo parcialmente simplificado (cadeias laterais dos aa´s) visando predição de
estruturas de proteínas - Programa GAPF - Tese doutorado Priscila Capriles Goliatt
 Modelagem Utilizando Fragmentos
Modelo introduz informação experimental visando predição de estruturas de proteínas Programa GAPF e PROFRAGER (registro LNCC) - dissertação de mestrado e tese de
Doutorado Raphael Trevizani e IC Karina Baptista (atualmente doutorado)
Modelo Hidrofóbico-Polar (HP)
•
O modelo HP é baseado na observação que
a força hidrofóbica é a principal força que
determina a conformação nativa de uma
proteína globular
•
A sequencia de aminoácidos é abstraida em
uma sequência de resíduos de aminoácidos
hidrofóbicos (H) e polares (P).
•
As conformações de um sequência HP são
restritas em uma rede/látice 3D.
•
A energia de uma conformação é bem
definida. É calculada como o número de
contatos topológicos entre aminoácidos
hidrofóbicos (H) que não são vizinhos na
sequência 1D.
¹Dill, K.A. Biochemistry, 24 (H985), H5PH.
VREIDDPSRLKEWEERVNDIRI
HPPHPPHPPHPPHPPHPPHPPH
Modelo HP
VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPH
HHPHHPPPPHPHHHHPHHHPHHPPHHPHHPPHHHPHHPPPPPHHP
HP Model
O Modelo HP – Algoritmo Genético
• Um indivíduo (cromossomo) é representado por um vetor onde cada gene
representa uma direção absoluta com relação ao próximo monômero na
sequência.
• Dois ou mais monômeros em um mesmo sítio é considerado uma colisão.
• Estruturas com colisões são descartadas, isto é, a busca é feita apenas pelo
espaço das configurações válidas.
2
4
0
1
5
3
H
P
P
H
P
P
H
P
P
H
5
1
4
1
2
0
4
0
5
Modelo HP - AG - Operadores
1. Crossover de dois pontos.
2. Crossover de múltiplos pontos.
3. Mutação de segmentos.
4. Mutação pontual com busca.
5. Movimento local mínimo.
6. Movimento de alça.
Modelo HP - AG - Operadores
Movimento Local:
Envolve bases consecutivas
L S S L L L S
L S L S L L S
Modelo HP - AG - Operadores
Movimento Local:
Envolve bases consecutivas
(Regiões compactas)
L S S L L L S
L S L S L L S
Modelo HP - AG - Operadores
Movimento de alça:
O mesmo princípio do movimento local, apenas a troca é feita por bases distantes.
L S S L L L S
L L S L L S S
Modelo HP - AG - Operadores
Movimento de alça:
O mesmo princípio do movimento local, apenas a troca é feita por bases distantes.
L S S L L L S
L L S L L S S
Modelo HP – AG
Operadores - parâmetros
•
•
Como escolher a probabilidade de aplicação de seis
operadores diferentes?
Um algoritmo genético adaptativo.
– A probabilidade de um operador proporcionalmente às
melhorias que ele gera na melhor energia da população.
– Operadores que são utilizados muitas vezes sem trazer
melhorias têm sua probabilidade reduzida.
•
É feita uma roleta para a escolha do operador a ser
aplicado.
•
A escolha dos pais é aleatória.
21
AG – Múltiplos Mínimos
•O
modelo HP é muito degenerado (Estudos com seqüências de
comprimento 48 estimaram de 103 a 106 mínimos globais com contatos
H-H diferentes).
• No modelo atomista a função objetivo também é altamente
degenerada, isto é, existem muitas estruturas diferentes, mas com
energias próximas.
• No modelo atomista devido às simplificações no modelo a estrutura de
menor energia não é necessariamente a estrutura de relevância
biológica.
• Como manter a diversidade na população para explorar
simultaneamente diferentes regiões de baixa energia no espaço de
busca?
AG – Múltiplos Mínimos
23
AG – Múltiplos Mínimos
• De Jong observando o desempenho de seu AG na F5 concluiu
que a maneira natural de lidar com a situação era usar o
conceito de nicho¹.
– Na natureza, indivíduos com nichos semelhantes competem.
– Em nichos mais densamente povoados, a pressão seletiva é
muito maior do que em nichos menos povoados.
• Cada novo indivíduos deve ocupar
o lugar de outro na população pai.
• A posição na população agora
está condicionada à similaridade
entre o novo indivíduo e os indivíduos
da população parental.
¹Goldberg, David E. Genetic algorithms in search, optimization, and machine learning. Reading Addison-Wesley 1989 412 p
Algoritmo Genético “Steady-State”
População de
Indivíduos
Novos
Indivíduos
seleção
crossover
mutação
inserção
AG – Múltiplos Mínimos
• A estratégia é colocar para competir aqueles indivíduos mais próximos.
– O critério de comparação é o fenótipo – estrutura terciária.
– O critério de competição é a energia.
• No modelo HP, a comparação é feita pela posição dos monômeros
hidrofóbicos.
No modelo atomista, utilizamos o mesmo critério, os enovelamentos
explorados são diferenciados pela estrutura do seu núcleo hidrofóbico.
• RMSD da posição dos resíduos hidrofóbicos.
2 rij  rij0 
N
RMSD 
i 1
ji
N( N  1)
2
N = número de resíduos hidrofóbicos
26
Diferentes núcleos hidrofóbicos
Seqüências de comprimento 48
• Foram concebidas propositadamente para serem difíceis.
• Foram lançadas como um desafio para os métodos existentes de
otimização do modelo HP.
• Resultam em estruturas extremamente compactas.
– Dada a natureza discreta do
modelo, é muito difícil realizar
movimentos, em estruturas
compactas, que não perturbem
demasiadamente a estrutura ou
gerem configurações inválidas.
– Mesmo sendo muito compactas,
existe um número muito grande de
estruturas diferentes.
³K. Yue, K. Fiebig, P. Thomas, H.S. Chan, E. Shakhnovich and K. Dill. A test of
lattice protein folding algorithms. Proc. Natl. Acad. Sci. V 91. 1994. Chemistry.
Modelo HP – Parâmetros de Execução
• Realizamos para cada seqüência, com cada conjunto de
parâmetros, 50 execuções.
• Permitimos um máximo de 2.000.000 de avaliações de
função.
• Em todas as execuções a probabilidade inicial dos
operadores foi distribuída igualmente.
• População de 500 indivíduos.
Resultados – comprimento 48
Modelo HP – Outras Sequencias Estudadas
• Seqüências obtidas da literatura que foram estudadas com outros
AG e com outros algoritmos.
• 10 seqüências de comprimento 64 que foram estudadas por dois
AG¹ e métodos híbridos.
• 5 seqüências de comprimento variável (48 – 136) que foram
estudadas por métodos de Monte Carlo².
¹A. Patton, W. Punch and E. Goodman. A standard GA approach to native protein conformation prediction.
Proc Incl Conf on Genetic Algorithms. pp 574-581. 1995.
²Toma, L. & Toma, S. Contact interactions method: A new algorithm for protein folding simulations. Protein Science. 5:147-153 1996
Resultados
Seqüência /
comprimento
Melhor
resultado
Média 50
rodadas
Melhor
conhecido
1 / 64
2 / 64
3 / 64
4 / 64
5 / 64
6 / 64
7 / 64
8 / 64
9 / 64
10 / 64
1 / 46
2 / 58
3 / 103
4 / 124
5 / 136
31
36
44
39
40
33
28
36
38
31
35
42
50
63
70
28,50
33,18
41,88
36,02
37,96
31,52
26,70
33,72
36,32
28,90
33,04
40,04
46,58
58,12
62,22
28
32
40
36
38
31
27
35
35
27
34
42
49
58
65
Resultados – comprimento 64
Número de Avaliações utilizadas para chegar ao mínimo
conhecido da literatura.
Número de estruturas
2500
2000
1500
1000
500
0
44
•
42
40
38
36
34
32
30
28
26
24
22
20
18
16
14
12
10
8
6
4
2
0
Número de estruturas distintas nas populações finais depois de 50 rodadas.
Seqüência 3, comprimento 64. Melhor energia descrita: 38, nova melhor energia: 44.
A multiple minima genetic algorithm for protein structure prediction
Fabio Lima Custodio, Helio J.C. Barbosa, Laurent Emmanuel Dardenne
Applied Soft Computing , 15: 88-99, 2014
Modelo HP – Sequência 136
52 contatos HH
70 contatos HH
35
Programas: Hypofold e GAHP
Custódio, Fábio Lima; Barbosa, Helio J. C.; Dardenne, Laurent E. Genet. Mol. Biol., 2004.
GAPF -
Programa para predição de estruturas de proteínas por primeiros
princípios utilizando Algoritmos Genéticos
VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPH
GAPF - Modelo Atomístico – Função de Energia
•
GROMOS96¹ Classical Force Field1:

qi q j 
 C12 i, j  C6 i, j 

E   K n 1  coskn n   n     12 


6
rij
4 0 r rij 
n
i, j 
 rij

N
N
–
–
–
–
–
Proper-dihedral Potential
Lennard-Jones Potential
Coulomb Potential
Sigmoidal dielectric function (r)
Resíduo carregados são neutralizados
•
+ Termo de Solvatação2:



free
free


2
2
2G j
2Gi
 ref
 d ij
 d ij
Esolv   Gi    3
e Vj 
e Vi 
3
i
j 
2
2

2
2

4


r
4


r
i
ij
j
ij



¹W.F. van Gunsteren. et al, Computer Phys. Communications 91 (1995) 305-319
2Karplus,
M. et al, Prot. Struct. Funct. Genet. 35, 133 (1999)
r
Estudo comparativo de
modelos de solvatação:
Dissertação de mestrado
Gregório Kappaun - LNCC
38
Modelo Atomista – Representação
(Cromossomo)
•
Representação dos ângulos torsionais (coordenadas internas)
•
Comprimentos e ângulos de ligação mantidos fixos.
•
Cromossomo: a estrutura da proteína é representadad por um
vetor que armazena os ângulos torsionais do esqueleto
peptídico (phi,psi, omega) e os ângulos diedrais das cadeias
laterais ( 1, 2, 3 e 4 ) (codificação real).
39
AG – Crowding Strategy - Multiple Solutions

At the insertion step each new individual has to compete with the
most similar individual in the parental population
Parental population
Genetic
operators
New individuals
insertion
At the insertion step:
Comparative criterion: 3D structure - DME of CA (alpha carbons)

Competitive criterion: the energy
DME- Distance Matrix Error
Modelo Atomista - Resultados
• Poli-alaninas: 18ALA e 23ALA.
– Total de 500,000 avaliações de função.
– População de 50 indivíduos.
– Constante dielétrica = 2.
– Terminais neutralizados.
– 30 runs.
• Com os terminais neutralizados, o mínimo global de energia é uma
estrutura em alfa-hélice, que foi encontrada em 100% das rodadas
(RMSD < 1,0 Å).
• Ao final das rodadas, a população final continha uma ou mais
estruturas em alfa-hélice e outras estruturas compactas que
diferiam do mínimo global em aproximadamente 10 Kcal/mol.
41
Modelo Atomista – Resultados - PoliAla
• Poli-alaninas: 18ALA e 23ALA.
– Terminais carregados.
– Usando uma função dielétrica sigmoidal.
• Forte atração eletrostática entre o carboxi-terminal (-) e a amina
terminal (+)
• Com os terminais carregados, o mínimo global de energia é uma
estrutura compacta com partes em alfa-hélice, mas com os
terminais próximos. Essa estrutura foi encontrada em 100% das
rodadas.
• A população final de todas as rodadas continha uma ou mais
estruturas em alfa-hélice (RMSD < 1.0 Å).
42
Resultados
Best RMSD from 30 runs, calculated for backbone atoms (C, CA, N).
PDBID
18ALA
23ALA
1AMB
1L2Y
1VII
1BBL
1FYJ
1E0G
1E0N
1E0L
N. of Residues
Class
18
alpha
23
alpha
28
alpha
29
alpha
36
alpha
36
alpha
48
alpha
48
alpha + beta
27
beta
37
beta
N. Atoms
111
141
305
198
389
355
566
500
299
410
RMSD (Å)‫‏‬
< 1.00
< 1.00
1.39
3.04
3.38
4.26
4.56
5.73
5.56
6.76
* The number of atoms is for structures modeled under the GROMOS96 force field
Modelo Atomista – Resultados - Trp-Cage (1L2Y)
(20 aa)
Exp.
Menor energia
RMSD (CA) = 3.3 Angstroms
44
Modelo Atomista – Resultados - Toxina (1WQC)
(26 aa)
Exp.
Menor energia
RMSD (CA) = 3.3 Angstroms
Mínimo Local
RMSD (CA) = 3.0 Angstroms
45
1VII - Villin Headpiece (36 aa)
Exp.
RMSD = 3.38 Angstroms
Local Minimum
46
1E0G - LysM Domain (48 aa)
Exp.
RMSD = 5.73 Angstroms
Local Minimum
47
Results GAPFCG – BETA3S
Strucuture diversity obtained with the coarse-grained model
Best energy structure found
Figure. The free energy surface of Beta3s and assigned conformational states.
In this study Beta3s was folded by molecular dynamics (MD) simulation and
intermediate conformational ensembles were identified
From:
Krivov SV, Muff S, Caflisch A, Karplus M: J Phys Chem B 2008, 112:8701-8714
Ferrara P, Caflisch A: Proc Natl Acad Sci USA 2000, 97:10780-10785.
Marai et al. PMC Biophysics 2010, 3:8
Metodologias de Docking Receptor-Ligante
Possuem dois grandes objetivos (desafios):
1. Prever corretamente a geometria de ligação ligante-receptor.
2. Prever corretamente as constantes de afinidade ligantereceptor.
Qual o melhor?
Projeto DockThor
 Objetivos:
◦ Desenvolvimento de uma metodologia de docking receptor-ligante para
a predição acurada do modo de ligação de ligantes altamente flexíveis.
◦ Distribuição gratuita do programa para a comunidade acadêmica (uso
gratuito via portal web e distribuição do código fonte).
◦ Criação de um portal para “Triagem Virtual” de ligantes em larga
escala.
 Equipe:
◦
◦
◦
◦
◦
•
◦
Laurent E. Dardenne - GMMSB – LNCC
Helio J. Correa Barbosa – GMMSB - LNCC
Camila S. de Magalhães – Doutora - GMMSB -UFRRJ
Isabella Alvim – Doutoranda – GMMSB - LNCC
Diogo Marinho - Mestre - GMMSB – LNCC
Eduardo Krempser – Doutorando - GMMSB - LNCC
Lucas Vizani – IC – GMMSB - LNCC
LABORATÓRIO
NACIONAL DE
COMPUTAÇÃO
CIENTÍFICA
Projeto DockThor (2002-2013)
Primeira Versão do programa (2006)
- Tese de Doutorado Camila S. de Magalhães (ciência da computação)
- Dissertação de Mestrado Thaís Gaudêncio (biologia)
- Dissertação de Mestrado Reinaldo Belline (matemática)
Segunda Versão do programa (2012- Registro INPI)
- Dissertação de Mestrado Diogo Marinho Almeida (ciência da computação)
Portal Web DockThor (2013)
- Tese de Doutorado (em andamento) Isabella Alvim Guedes (farmácia)
Pós-graduação em Modelagem Computacional - LNCC
Nível 6 – Comitê Interdisciplinar da CAPES
DockThor - Programa de Docking Receptor-Ligante Baseado
em Algoritmos Genéticos e uso de Grades de Energia
Objetivo: Prever o modo e
afinidade de ligação de ligantes
no sítio ativo de enzimas e
receptores proteicos.
Registro INPI - 13318-3
 Algoritmo Genético de Múltiplas Soluções
 Tratamento de Ligantes Altamente Flexíveis
 Implementação em C++
 Campo de Força MMFF94S
 Parametrização automática do ligante e
do receptor
DOCKING NA REDE
Valores do potencial eletrostático e do
potencial de Lenard-Jones são pré
calculados (armazenados) em cada ponto
da malha.
NpontosN Pr oteína
 
j
i 1
   12  ' 6 
 ij  
  ij 
4ij    
rij  
 rij 







q ip 

D(rij ) rij 

80
Valor da Constante Dieletrica Efetiva - D(R)
75
3
6
4
Z Axis
2
7
8
65
60
55
50
45
40
35
30
2
D(R)=D - [ (D-Di) / 2) * (A + 2 * A + 2) * exp(-A) ]
D=78
Di=4
A=s*R
s=0.395
25
20
15
10
5
0
0
1
1
2
70
5
10
15
20
25
30
R (Angstroms)
3
Função dielétrica efetiva sigmoidal
5
0
0
0
1
1
2
YA
X
s
Axi
xis 2
3
  V(LJ)
N Ligante
j1

3
q lj V(PE)

Indexação dos oito pontos de um célula
da rede utilizados para realizar uma
interpolação trilinear.
Algoritmo Genético para Docking Receptor-Ligante
(Tese de Doutorado/LNCC – Camila Silva de Magalhães)
O
HO
N
HO
N
OH
OH
Cromossomo
Strutura 3D
X Y Z U1 U2 U3 R A1 ... AN
Translacional
Rotacional
Conformacional
Docking Rígido
Docking Flexível
Projeto DockThor (nova versão 2010-2013)
Multiple –Solution Genetic Algorithm :
 Steady-Steaty (non generational GA);
 Two steps initial population generation: (1) Random initial population and
(2) After 30% of the allowed energy evaluations, the population is
clustered and redistributed based on the position of the lowest energy
clusters found;
 Without Lennard-Jones Damping
 Five genetic operators with adaptative probabilities;
 Without hybridization (local serach);
 Linear tournament decrease (0.6 to 0.1);
 MRTS tournament strategy with a phenotypic insertion criterion;
 MMFF94 based score function (receptor and ligand).
Implementation Features:
 C++ implementation (source code was completely rewriten);
 Energy grid construction using multi-core (using openmp).
Program Features:

Automatic MMFF94 atom types assignment and ligand/protein topology
construction;
 Possibility of inserting co-factors, waters and metals.
 Highthrougput screening option

Algoritmo Genético – Docking Receptor-Ligante
(Tese de Doutorado/LNCC – Camila Silva de Magalhães 2006)
O
HO
N
HO
Structura 3D
N
OH
OH
Cromossomo
X Y Z U1 U2 U3 R A1 ... AN
Translacional
Rotacional
Conformacional
Múltiplas soluções
(diversidade útil)
de Magalhaes CS, Barbosa HJC, Dardenne LE, GENETICS AND MOLECULAR BIOLOGY 27 (4): 605-610 DEC 2004
de Magalhaes CS, Barbosa HJC, Dardenne LE, LECTURE NOTES IN COMPUTER SCIENCE 3102: 368-379 Part 1 2004
Objetivo: Obter Vários Modos de Ligação Ligante/Proteína
de Magalhaes CS, Barbosa HJC, Dardenne LE, GENETICS AND MOLECULAR BIOLOGY 27 (4): 605-610 DEC 2004
de Magalhaes CS, Barbosa HJC, Dardenne LE, LECTURE NOTES IN COMPUTER SCIENCE 3102: 368-379 Part 1 2004
Algoritmo Genético
RTS Modificado
“Restricted Tournament Selection”
•
Manutenção de diversidade útil
•
Os novos indivíduos gerados (NEW) são inseridos na população da seguinte maneira:
INDIVÍDUO 1
(MELHOR)
INDIVÍDUO 2
W1
INDIVÍDUO 3
Indivíduos são
selecionados
aleatoriamente
INDIVÍDUO 4
...
INDIVÍDUO N
(PIOR)
Indivíduos são
selecionados
aleatoriamente
If DIST(CWorse,NEW) < DIST(CBetter,NEW)
then NEW substitui CWorse
else If RMSD(CBetter,NEW) > 2.0 Å
Rank of NEW
W2
...
Entre eles,
CBetter é o
mais
próximo do
NEW
Entre eles,
CWorse é o
mais
próximo do
NEW
then NEW substituiCWorse
else NEW é descartado
de Magalhaes CS, Barbosa HJC, Dardenne LE, GENETICS AND MOLECULAR BIOLOGY 27 (4): 605-610 DEC 2004
de Magalhaes CS, Barbosa HJC, Dardenne LE, LECTURE NOTES IN COMPUTER SCIENCE 3102: 368-379 Part 1 2004
DockThor Project
• MMFF94 (Merck Molecular Force Field)
•
Halgren TA J. Comp. Chem., 17(5-6): 490{519, 1996
Class II force field; parametrization using ab initio quantum
calculations; 99 atom types; well defined parameters for more than 20
chemical families and for frequently occuring combinations of
functional groups (all atom force field).
(vdW)
* Master Thesis Diogo Marinho - LNCC
qi  qi0   Ki
REDOCKING
HIV1/DMP cristal de
referência
DMP
HIV1/NEL cristal de
referência
NEL
INDINAVIR
HO
N
N
OH
NH
N
O
HN
O
CH3
H3C
CH3
E: -62.5 kcal/mol – RMSD 0.14 Å
E: -39.1 kcal/mol – RMSD 11.84 Å
E: -54.7 kcal/mol – RMSD 3.54 Å
DMP
SAQUINAVIR
(14)
(15)
INDINAVIR
NELFINAVIR
(14)
(12)
RITONAVIR
(20)
HIV1 inhibitor structural formulas. Bonds considered as flexible are marked by curved arrows.
A
D
B
C
E
Conformações de Menor Energia do Ligante :
Dockthor (vermelho), Estruturas Experimentais (verde).
RMSD
(A) DMP = 1.5Å; (B) IND = 0.6Å, (C) NEL = 0.4Å, (D) RIT = 1.3Å; (E) SAQ = 0.8Å.
A
B
C
D
Other binding modes: Simmetrically Inverted Conformations:
The conformations found by the Dockthor program are shown in red, whereas the crystal structures are
shown in green; (A) IND; (B) NEL ; (C) RIT ; (D) SAQ.
Análise Comparativa – Docking Programs
Versão 5.1 (site: http://www.ccdc.cam.ac.uk/products/life_sciences/gold/)
Versão 5.5.211 (site: http://www.schrodinger.com – Schrödinger Suite 2009)‫‏‬
‫‏‬
Análise Comparativa
(Dockthor, GOLD, GLIDE e AutoDock VINA)
Expanded Test Set - Redocking Experiments
- 110 receptor-ligand complexes: the overall test set covers a
wide range of different protein families (including relevant drug
or agrochemicals targets like kinases, phosphodiesterases,
nuclear receptors, …) and ligands with distinct chemical
properties (75 Complexes from do Astex Therapeutics, Ltd ).
- Part of the complexes also present in the test sets used by 4
docking programs : GOLD, FLExX, DOCK and AUTODOCK
Sucess = Best Energy solution with RMSD ≤ 2.0 Å
(from experimental conformation)
Análise Comparativa
(Dockthor, GOLD, GLIDE e AutoDock VINA)
Estudos de redocking
Conjunto Teste (115 complexos receptor-ligante - Astex Therapeutics, Ltd )
Sucesso = Melhor solução com RMSD ≤ 2.0 Å
(com relação à conformação experimental)
Análise Comparativa
(Dockthor, GOLD, GLIDE e AutoDock VINA)
Estudo comparativo – 110 complexos[1]
GOLD:ChemScore
83,6%
DockThor
Sucesso:
RMSD ≤ 2.0Å
(melhor energia)
GOLD:ChemPLP
GOLD:GoldScore
Glide
Vina
72,0% 74,0% 76,0% 78,0% 80,0% 82,0% 84,0% 86,0%
[1] Conjunto Astex Diverse + 35 complexos.
Taxa de sucesso em experimentos de redocking; 30 execuções independentes
RMSD = 2,44Å
Portal DockThor
Um Servidor Web Gratuito para Docking Proteína-Ligante
INPI Software Registration Number 13318-3
www.dockthor.lncc.br
[email protected]
Portal DockThor
Um Servidor Web Gratuito para Docking Proteína-Ligante
www.dockthor.lncc.br
• Parametrização automática do ligante e do
receptor utilizando um mesmo campo de
força (MMFF94S);
• Reconstrução automática de
laterais de resíduos de aminoácidos;
cadeias
• Escolha de estados de protonação de
resíduos de aminoácidos ;
• Adição automática de hidrogênios para o
ligante;
• Próxima versão permitirá receptores não
proteicos (DNA, RNA, moléculas menores, ...)
Portal DockThor
Um Servidor Web Gratuito para Docking Proteína-Ligante
www.dockthor.lncc.br
• Não há necessidade de registro de usuários;
• Cálculos (apenas um ligante por vez) são
realizados utilizando a plataforma de
computação
de
alto-desempenho
do
SINAPAD;
• Resultado é comunicado via email (link de
acesso para página de resultados);
• Análises e visualização dos resultados são
realizadas no próprio portal;
Parâmetros do docking
Arquivos
de entrada
Visualizar
grade de
energia
Análise dos resultados
Análise dos resultados
Estatísticas de Uso
878 visitas únicas
~439 jobs
Prever o modo
de ligação
experimental
Programas de Docking no Mundo
Current Medicinal Chemistry, 2013, Vol. 20, No. 18
Perspectivas - Computação Evolutiva
• Novas metaheurísticas (algoritmos mais rápidos);
• Algoritmos que explorem bem os vários nichos de soluções
(multimodalidade associada a um espaço de alta dimensão)
Flexibilidade do Receptor
(Configurações Representativas da Flexibilidade do Receptor e
Diversos Modos de Ligação do Inibidor)
GMMSB - LNCC
Laurent Emmanuel Dardenne (LNCC)
Helio José Correa Barbosa (LNCC)
Fábio Lima Custódio (LNCC)
André Da Motta Sales Barreto (LNCC)
Camila Silva de Magalhães (UFRJ)
Priscila Capriles Goliatt (Doutora - UFJF)
Raphael Trevizani (Doutorando)
Diogo Marinho Almeida (Douotorando - UFPA)
Isabella Alvim (Doutoranda)
Gregório Kappaun Rocha (Doutorando)
Eduardo Krempser (Doutorando)
Karina B. dos Santos (Doutoranda)
Paulo Werdt (Mestrando)
Lucas Vizani (Iniciação Científica)
Frederico (Iniciação Científica)
Ana Luiza Karl (Iniciação Científica)
www.gmmsb.lncc.br
LABORATÓRIO
NACIONAL DE
COMPUTAÇÃO
CIENTÍFICA
Financial support
CNPq : Project N. 307062/2010-4
FAPERJ grant - Cientista Jovem do Nosso
Estado - E-26/102.443/2009)
INCT-INOFAR
Pós-Graduação em
Modelagem Computacional do LNCC
LABORATÓRIO
NACIONAL DE
COMPUTAÇÃO
CIENTÍFICA
( Conceito 6 na Área Interdisciplinar da CAPES )
Linhas de Pesquisa
 Computação Científica
 Controle e filtragem de sistemas
dinâmicos
 Modelagem computacional de
circulação e transporte
 Modelagem computacional de
problemas de equilíbrio
 Bioinformática
 Biologia computacional
 Modelagem molecular de sistemas
biológicos
Inscrições abertas à partir de 1 de agosto
www.lncc.br
 Petróleo
 Medicina assistida por computação
Escola de Modelagem Molecular em Sistemas Biológicos
7
EMMSB 2014
(18 a 22 de agosto 2014)
www.emmsb.lncc.br
Download

Aplicação de Algoritmos Evolutivos em Problemas de Atracamento