UNIVERSITE PARIS 7 – DENIS DIDEROT
UNIVERSIDADE FEDERAL DO RIO DE JANEIRO
oix
Ecole doctorale Biochimie et Biologie Moléculaire B2M
Instituto de Biofísica Carlos Chagas Filho
Paulo Ricardo BATISTA
Estudo da flexibilidade da protease do HIV-1 por modelagem e
dinâmica Molecular: análise dos modos normais e dos modos consenso.
TÍTULO:
Étude de la flexibilité de la protéase du VIH-1 par modélisation et
dynamique moléculaire : analyse des modes normaux et des modes
consensus
TITRE:
Thèse dirigée par David PERAHIA et
Pedro Geraldo PASCUTTI
Soutenue le 14 avril 2009
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
UNIVERSITE PARIS 7 – DENIS DIDEROT
UNIVERSIDADE FEDERAL DO RIO DE JANEIRO
Ecole doctorale Biochimie et Biologie Moléculaire B2M
Instituto de Biofísica Carlos Chagas Filho
DOCTORAT
En Analyse de Génomes et Modélisation Moléculaire
DOUTORADO
Em Ciências Biológicas (Biofísica)
Paulo Ricardo BATISTA
Estudo da flexibilidade da protease do HIV-1 por modelagem e
dinâmica molecular: análise dos modos normais e dos modos consensos.
TÍTULO:
Étude de la flexibilité de la protéase du VIH-1 par modélisation et
dynamique moléculaire: analyse des modes normaux et des modes
consensus
TITRE:
Thèse dirigée par David PERAHIA et
Pedro Geraldo PASCUTTI
Soutenue le 14 avril 2009
JURY
M. Gilberto WEISSMULLER
M. José Daniel FIGUEROA-VILLAR
Mme. Ana Paula Cabral de Araújo LIMA
M. Fábio Ceneviva Larceda de ALMEIDA
ii
Estudo da flexibilidade da protease do HIV-1 por
modelagem e dinâmica molecular: análise dos
modos normais e dos modos consensos.
Aluno:
Paulo Ricardo Batista
Orientadores:
Pedro Geraldo Pascutti
Paulo Mascarello Bisch
David Perahia (França)
Tese apresentada ao Instituto de Ciências Biomédicas da Universidade Federal do Rio de Janeiro
como parte dos requisitos necessários para obtenção do grau de doutor em Ciências Biológicas –
Biofísica em acordo de cotutela com a Université Paris 7 – Denis Diderot para a obtenção do grau
de doutor en Analyse de Génomes et Modélisation Moleculaire.
Abril, 2009
iii
Batista, PRB
Estudo da flexibilidade da protease do HIV-1 por modelagem e dinâmica
molecular: análise dos modos normais e dos modos consensos / Paulo Ricardo
Batista. Rio de Janeiro: UFRJ, IBCCF, 2009.
V, 117f., il.;
Orientador: Pedro Geraldo Pascutti e Paulo Mascarello Bisch
Tese de Doutorado– UFRJ / IBCCF/ Ciências Biológicas – Biofísica, 2009.
Referências Bibliográficas: 98-117.
1. Protease do HIV. 2. Análise de Modos Normais 3. Dinâmica Molecular.
I. Pascutti, Pedro Geraldo. II. Universidade Federal do Rio de
Janeiro, Instituto de Biofísica Carlos Chagas Filho. III. Estudo da flexibilidade
da protease do HIV-1 por modelagem e dinâmica molecular: análise dos modos
normais e dos modos consensos.
iv
Gostaria de agradecer a todas as pessoas que contribuíram para minha formação e para o
andamento deste trabalho.
Um agradecimento especial à minha família, que esteve junto a mim e me deu todo apoio
nas horas mais difíceis e estressantes desta tese: meu pai, minha mãe, meus irmãos Carol e Junior,
seus respectivos (incluindo o Nuno) e a minha namorada Letícia que muito me ajudou nesses
momentos difíceis e também curtiu comigo os momentos de conquista e lazer.
Aos amigos e colegas de laboratório: Arlan & Simone, Mau Costa, Valiente, Diego & Pri &
Paula, Samuel, Gustavo, Tácio, Gabriel & Saboro Shida, Rafa, Reinaldo, Pedro haciendo Torres,
Pedro Loureiro, Liliani, Ranlig, Rosemberg, Patrícia, Daniel, Manuela, João, Maina, Nathália,
Jeferson, Maira, Técio, Carol & Marlos, Lívia & Leo, Wandinha, Celso, Geraldo Cidade, Angélica,
Francisco, Mônica, Fernado Vieira e tantos outros que à memória me faltaram.
Ao amigo e 99er Raphael Valente pela força e mal amizade de sempre.
Aos meus orientadores Pascutti, Paulo e Perahia pelo exemplo, amizade, orientação, apoio,
confiança e apertadas de orelha.
A todos os membros da banca por aceitarem esta missão!
Dedico esta tese ao meu Pai que é meu maior de exemplo de caráter e trabalho e aos meus
avós.
Je voudrais remercier à touts mes collègues du IBBMC à Orsay pour les bons moments en
France ; à David Perahia, mon coordinateur et ami, mes sincères remerciements pour l'accueil et
tous les efforts pour faire de cette thèse une thèse en cotutelle et aussi pour les leçons et les
discussions. À Charles pour être un génie et un grand ami. À Mme Boumedine pour l’aide et pour
être aussi gentille. À Mme Le Houezec pour l’aide administratif.
v
Abstract
Understanding protein flexibility is essential to study several processes reliant of conformational
changes, transitions between active/non-active states or domain motions. Normal mode analysis
(NMA) is well suited for studying protein large-scale motions, capturing the directions of lowest
curvature on the potential energy surface. However, its major limitation is its strict validity for
small amplitude motions around a structure localized in a particular minimum of this surface. The
significance/generality of a given set of NM pertaining to a given particular structure may be thus
questioned. In this thesis we describe a new theoretical framework for defining normal modes from
a set of closely related structures, which we call ‘consensus modes’ (CM). CM calculation assumes
that the protein conformational potential energy surface can be better exploited when multipleminima topological information is considered. We define CM as a set of modes describing the
collective motions frequently appearing in the normal modes of different conformations of a
macromolecule. We adopted the apo form of the HIV-1 protease (PR) to demonstrate our approach.
CM calculated over a set of structures issued from a short molecular dynamics simulation provide
an improved description of protein internal motions, corresponding in some ways to “averaged”
normal modes. They describe motions corresponding to time scales one order of magnitude larger
than that of the trajectory from which they were obtained. We identified within CM very
biologically relevant motions as the opening/closing of PR flaps explaining structural changes
occurring upon ligand binding of inhibitors of different shapes and sizes.
vi
Resumo
Entender a flexibilidade protéica é essencial para o estudo de muitos processos ligados à mudanças
conformacionais, transições entre estados ativos/não-ativos ou movimentos de domínios. Análise de
modos normais (NMA) tem sido muito bem sucedida para o estudo de movimentos de grande
amplitude em proteínas capturando as direções das mais baixas curvaturas da superfície de energia
potencial. No entanto a sua principal limitação é a sua validade somente para movimentos de
amplitude restritas ao redor de uma estrutura situada num ponto particular dessa superfície. A
significância/generalidade de um dado conjunto de modos normais (NM) para uma dada estrutura
pode ser então questionada. Nessa tese descreveremos uma nova técnica para definir modos
normais sobre um conjunto de estruturas intimamente relacionadas, que nós chamamos de “modos
consensos” (CM). O cálculo dos CM assume que a superfície de energia potencial conformacional
para proteínas pode ser melhor explorada quando se consideram informações topológicas de
múltiplos mínimos. Definimos os CM como modos que descrevem os movimentos coletivos que
aparecem mais frequentemente nos NM de diferentes conformações da mesma macromolécula. Nós
adotamos como sistema de estudo a forma apo da protease do HIV-1 (PR). CM calculados sobre
um conjunto de estruturas oriundas de simulações curtas de dinâmica molecular fornecem uma
descrição melhorada dos movimentos internos de proteínas, correspondendo em algumas formas a
modos normais médios. Eles descrevem movimentos que correspondem a uma escala de tempo de
mais de uma ordem de grandeza maior que a trajetória da qual eles foram obtidos. Foram
identificados
dentre
os
CM
movimentos
biologicamente
muito
relevantes
como
a
abertura/fechamento das alças da PR, explicando mudanças estruturais ocorridas devido à ligação
de inibidores de diferentes formas e tamanhos.
vii
Résumé
Cette thèse est divisée en deux parties principales: i. l`étude structurale de la protéase du VIH-1 des
différents sous-types par dynamique et modélisation moléculaire et ii. le développement d’une
méthode d’exploration de la flexibilité des protéines en utilisant la protéase du VIH-1 comme
modèle d’application. La protéase du virus VIH-1 (PR) constitue une cible importante pour la
conception de drogues anti-SIDA. L’un des problèmes majeurs de cette protéine est qu’elle possède
une très grande tolérance aux mutations vis-à-vis de son activité enzymatique. Ceci lui confère la
capacité à résister à des inhibiteurs qui étaient efficaces au paravent. On connaît plus de 20 résidus
qui sont liés à la résistance aux inhibiteurs de PR médicalement disponibles actuellement (PI). La
plupart des études sur la résistance aux drogues anti VIH-1 ont été réalisées pour des virus de soustype B, prédominants aux États Unis et en Europe. Ces études ont établi plusieurs mutations qui
confèrent une résistance aux PIs. Il y a très peu d'information concernant la résistance contre les PI
pour tous les autres sous-types (non-B), bien qu’ils représentent environ 90% d'infections
mondiales. Les sous-types non-B, notamment les sous-types A, C et F sont prévalents dans les pays
de l’Afrique, l’Asie et l’Amérique du Sud. Certaines des mutations conférant une résistance aux
sous-types B constituent des polymorphismes naturels de sous-types non-B, et il n’est pas connu à
ce jour si ces variantes de VIH-1 non-B ont une susceptibilité diminuée vis-à-vis de PI connus.
Dans la première partie de cette thèse on a abordé la problématique des variantes de VIH-1 en
s’appuyant les propriétés structurales. Comme il manquait des informations au niveau des structures
tridimensionnelles des protéases des sous-types non-B, il a été nécessaire de construire différents
modèles de chaque sous-type en utilisant la modélisation moléculaire par homologie, en se basant
sur une structure d’une protéase de sous-type B. Les structures des modèles de complexes générées
nous ont permis de mieux analyser les altérations des interactions PR-PI dues aux différentes
mutations à la base de la résistance.
viii
Des simulations de dynamique moléculaire exploratoires effectuées sur des modèles de PR non-B
ont montré que les liaisons d'hydrogène et les interactions électrostatiques entre les PR et les PI sont
beaucoup plus faibles dans les PRs non-B que dans les PR B. Dans les simulations de PR non-B, les
PI ont une plus grande flexibilité, principalement au niveau des groupes qui interagissent avec les
résidus catalytiques. Il est aussi à noter qu'une région importante, notamment les ‘flaps’, constitués
chacun d’un petit feuillet beta antiparallèle, contrôlent l’accès à la cavité catalytique en adoptant des
formes fermées, ouvertes et semi-ouvertes. Ils forment de multiples interactions avec le substrat ou
bien l’inhibiteur, lorsqu’ils se trouvent dans la cavité. Ces ‘flaps’ présentent des déviations plus
élevées dans les sous-types non-B comparativement au sous-type B. Les ‘flaps’ sont très importants
pour la fonction des PR et constituent une région cible importante pour le développement de
nouvelles drogues. La région des ‘flaps’ est la plus flexible de la PR et l’analyse des structures
obtenues par diffraction des rayons-X montre que cette région présente des différences structurales
plus importantes entre les structures avec ligand (fermées) et libres (semi-ouverte, ouverte). Dans la
deuxième partie de cette thèse nous avons étudié d’une façon très étendue la flexibilité des ‘flaps’,
ainsi que tous les mouvements collectifs importants de la protéine qui pourraient influer sur les
mouvements des ‘flaps’, ainsi que sur les modifications de la cavité catalytique (volume, forme,
positionnement des résidus dans la cavité). Dans ce but, nous avons développé une méthode pour
analyser les mouvements des domaines.
Comprendre la flexibilité des protéines est essentielle pour l'étude des processus dépendant de
grands changements conformationnels, les transitions entre les états actifs et non actifs ou des
mouvements de domaine. L’Analyse des modes normaux (NMA) est bien adaptée pour l'étude des
mouvements des protéines à grande échelle, de déterminer les directions de plus basses courbures
sur la surface d'énergie potentielle. Cependant, sa principale limitation est sa validité stricte pour les
mouvements des petites amplitudes autour d'une structure localisée dans un minimum de cette
surface. L'importance / généralité d'un ensemble de modes normaux (NM) se rapportant à une
ix
structure particulière peut donc être remise en question. Dans cette deuxième partie nous décrivons
un nouveau cadre théorique pour la définition de modes normaux d'un ensemble de structures
étroitement liées, que nous appelons «modes consensos» (CM). Le calcul des CM suppose que la
surface d'énergie potentielle peut être mieux exploitée en considérant les propriétés topologiques
des multiples minima. Nous définissons les CM comme un ensemble de modes qui décrivent les
mouvements collectifs qui sont les plus fréquentes parmi les modes normaux calculés sur
différentes conformations d'une macromolécule. Nous avons adopté la forme apo de la protéase du
VIH-1 (PR) pour démontrer notre approche. On a montré que les CM calculés sur un ensemble de
structures obtenues à partir d'une simulation de dynamique moléculaire fournissent une meilleure
description des mouvements internes d’une protéine, correspondant en quelque sorte à une
"moyenne" sur l’ensemble des modes normaux de structures individuelles. Ils décrivent des
propriétés correspondant aux échelles de temps d'un ordre de grandeur plus grand que celle de la
trajectoire à partir de laquelle ils ont été obtenus. Nous avons identifié au sein de CM, des
mouvements biologiquement pertinents comme l'ouverture et fermeture des ‘flaps’ de la PR,
expliquant les changements structuraux qui se produisent lors de liaison du ligand des inhibiteurs de
différentes formes et tailles.
De cette thèse a résulté trois articles, deux déjà publiés dans des journaux internationaux de grand
qualité et le troisième qui porte sur le développement des modes consensos est en cours de
soumission. Les trois articles ont été ajoutés dans les annexes.
x
Lista de abreviaturas e siglas
3D
AIDS
CM
CO
CPU
Cα-CM
DNA
FDA
HAART
HAP
HIV
IUPAC
LIE
MD
MM
MMC
MSA
NM
NMA
OMS
PBC
PCA
PDB
PI
Plm
PlmN
PME
PR
RAM
RMN
RMSD
RMSF
RNA
RT
RTV
SAS
SIV
SW
Tridimensional
Síndrome de Imunodeficiência Adquirida
Modos Consensos
Overlap cumulative
Unidade Central de Processamento
Modos Consensus considerando somente os carbonos alfa
ácido desoxi ribonucléico
U. S. Food and Drug Administration
Terapia Antiretroviral de alta eficência
protease histo-aspártica – PlmIII
Vírus da Imunodeficiência Humana
International Union of Pure and Applied Chemistry
Linear Interaction Energy
Dinâmica molecular
Modelagem Molecular
Modelagem Molecular Comparativa
alinhamento múltiplo de seqüências
modos normais
Análise dos modos normais de vibração
Organização Mundial de Saúde
Condições periódicas de contorno
Análise dos Componentes Principais
Protein Data Bank
inibidor da PR
Plasmepsina
plasmepsina N, onde N vai de I a X
Particle Mesh Ewald
Protease do HIV-1
Memória de Acesso de Leitura
Ressonância Magnética Nuclear
Desvio da Raíz Média Quadrática
Flutuação da Raíz Média Quadrática
ácido ribonucléico
Transcriptase reversa
Ritonavir
Superfície accessível ao solvente
Vírus da imunodeficiência de símios
água estruturada
xi
13
SUMÁRIO
CAPÍTULO I ..................................................................................... 16
Introdução Geral .............................................................................................. 16
1.1. A Modelagem Molecular no contexto biológico.......................................................16
1.3. Por que simular? ........................................................................................................ 19
1.4. Estruturação da tese................................................................................................... 21
CAPÍTULO II .................................................................................... 23
Métodos Teóricos Fundamentais ..................................................................... 23
1. Modelagem molecular ................................................................................. 23
1.1. Dinâmica molecular (MD) ........................................................................................ 23
1.2. Função Energia Potencial .......................................................................................... 24
1.3. Modelagem Molecular Comparativa.........................................................................26
1.4. Condições periódicas de contorno............................................................................. 27
2. Análise dos modos normais de vibração (NMA) ........................................ 30
2.1. Cálculo dos modos normais.......................................................................................33
3. Técnicas de Análises dos resultados............................................................ 35
3.1. Raiz do Desvio Quadrático Médio (RMSD) ............................................................. 35
3.2. Flutuação da Raíz do Desvio Quadrático Médio....................................................... 35
3.3. Ligações Hidrogênio ................................................................................................. 35
14
3.4. Energia Livre de Gibbs de Ligação ........................................................................... 36
CAPÍTULO III................................................................................... 38
Estudo de proteases aspárticas por Modelagem e Dinâmica Molecular ......... 38
1. Introdução .................................................................................................... 39
1.1. Proteases Aspárticas .................................................................................................. 39
1.2. Plasmepsinas..............................................................................................................43
1.3. Protease do HIV ........................................................................................................ 48
1.4. Subtipos do HIV-1..................................................................................................... 57
2. Resultados e Discussão................................................................................ 61
2.1. Subtipos da Protease do HIV-1 complexada ao ritonavir ......................................... 61
2.2. Predição por Dinâmica Molecular dos resíduos funcionais na interação de inibidores
com plasmepsinas de P. falciparum ................................................................................. 65
CAPÍTULO IV .................................................................................. 71
Modos Consensus, desenvolvimento e validação de um novo método para o
estudo de movimentos coletivos em macromoléculas..................................... 71
1. Introdução .................................................................................................... 72
2. Teoria ........................................................................................................... 77
3. Objetivos ...................................................................................................... 79
4. Procedimentos e Metologia Aplicada.......................................................... 80
4.1. Parâmetros das simulações de MD............................................................................ 80
15
4.2. Cálculo dos Modos Normais ..................................................................................... 81
4.3. Cálculo dos modos consensus ................................................................................... 82
4.4. Cálculo dos modos Quasi-harmônicos (quasimodos) ...............................................82
4.5. Overlap entre os CM e outros movimentos...............................................................83
4.6. Grau de coletividade de um movimento....................................................................83
4.7. Data sets para Análise dos Componentes Principais (PCA) ..................................... 84
5. Resultados e Discussões .............................................................................. 85
5.1. Dinâmica Molecular .................................................................................................. 85
5.2. Os modos consensus refletem o comportamento da média do sistema..................... 89
5.3. Modos consensus descrevem um espaço conformacional mais completo para a
descrição de movimentos de grande amplitude................................................................90
5.4. CM calculados de estruturas do 1 ns da MD são mais coletivos que os quasimodes
de uma trajetória de MD de 10 ns .................................................................................... 92
5.5. Versatilidade em calcular os CM para diferentes subconjuntos de átomos .............. 93
5.6. Movimentos biologicamente relevantes descritos pelos CM .................................... 95
6. Conclusões ................................................................................................... 99
V. CONCLUSÕES GERAIS ........................................................... 101
VI. REFERÊNCIAS ........................................................................ 103
VII. ANEXOS.................................................................................. 122
16
“O medo de amar é o medo de ser livre para o que der e vier,
Livre para sempre estar onde o justo estiver.
O medo de amar é não arriscar, esperando que façam por nós
o que é nosso dever, recusar o poder...”
(Beto Guedes)
CAPÍTULO I
Introdução Geral
1.1. A Modelagem Molecular no contexto biológico
A biologia é um ramo do conhecimento que exerce grande fascínio em todos que nela
se aprofundam, pois tenta explicar os fenômenos ligados à vida e à sua origem. Inicialmente,
a biologia tinha um caráter mais contemplativo e descritivo da natureza, no entanto, hoje, os
diversos avanços tecnológicos têm permitido um estudo mais investigativo e detalhado dos
seres vivos e dos processos biológicos.
Criar modelos vem sendo um grande desafio em todas as áreas da ciência (matemática,
economia, biologia, química, etc). Para buscar o entendimento de um problema, baseado no
método científico, faz-se necessário estabelecer modelos de estudo, normalmente criando um
sistema mais simples, onde as variáveis não relacionadas diretamente ao fenômeno estudado
são controladas, dentro do possível, obtendo-se um sistema mais adequado para responder às
perguntas relacionadas à hipótese em questão. Sabe-se, porém, que mesmo em estudos em
biologia experimental, estes modelos podem afastar-se do contexto real (fisiológico), mas que
guardando o devido grau de aproximação, podem levar ao entendimento de vários processos e
sistemas biológicos.
17
Modelagem molecular, segundo a IUPAC, é a investigação das estruturas e das
propriedades moleculares pelo uso de química computacional e técnicas de visualização
gráfica, visando fornecer uma representação tridimensional, sob um dado conjunto de
circunstâncias.
1.1.2. Interdisciplinaridade
Modelagem molecular é um termo coletivo que se refere aos métodos teóricos e
técnicas computacionais para modelar ou mimetizar o comportamento das moléculas. As
técnicas são usadas em campos da química, física, biologia, farmácia, computação e ciência
dos materiais; para estudar sistemas moleculares oriundos de pequenos grupos químicos a
grandes moléculas biológicas e materiais.
A existência de propriedades físico-químicas bem definidas da matéria e suas
previsões através das leis da física conferem à química computacional o caráter científico.
Este fato permite criar modelos capazes, em certa extensão, de agrupar, prever e desenvolver
novos materiais.
A aplicação de modelos teóricos para representar e manipular a estrutura de moléculas,
estudar reações químicas e estabelecer relações entre a estrutura e propriedades da matéria
constituem o domínio de atuação da modelagem molecular. A química teórica vai além deste
limite, tendo também como função o desenvolvimento de novos modelos. As ramificações
dentro desta ampla área de atuação se dão em função da natureza física do modelo utilizado e,
evidentemente, do problema em questão.
A utilização de modelos para a descrição de propriedades da matéria leva a
possibilidade de se cometer erros devido às aproximações impostas para simplificar o mundo
real. Dentro deste contexto, é importante frisar a diferença entre ‘teoria’ e ‘modelo’. Por teoria
entende-se um conjunto de leis capazes de fornecer resultados e conclusões a partir de um
18
número de variáveis conhecidas. Normalmente, espera-se que as teorias se apliquem com a
precisão definida pelos próprios limites da natureza. Por outro lado, os modelos têm por
objetivo descrever aspectos específicos de certas propriedades do sistema (Dos Santos, H. F.,
2001).
De uma forma geral, todo tipo de estudo que envolve a aplicação de modelos teóricos
utilizando os conceitos de átomo e molécula na descrição de estrutura e propriedades de
interesse em química pode ser classificado como modelagem molecular. Uma abordagem
histórica sobre este tópico tem como princípio a representação de moléculas através de
fórmulas estruturais, estabelecida pela primeira vez em 1874 com a descoberta do arranjo
tetraédrico dos átomos de carbono em compostos orgânicos por van’t Hoff e Le Bel (Chagas,
A. P., 2001). Quase um século depois, em 1953, Barton introduziu o conceito de análise
conformacional, estabelecendo, de forma definitiva, que moléculas podem ser representadas
por diferentes arranjos atômicos espaciais, possuindo energias características (Barton, D. H.
R., 1998). A segunda metade da década de 50 foi marcada pelo desenvolvimento da
cristalografia e difração de raios-X e da Ressonância Magnética Nuclear (RMN). A
elucidação de estruturas tridimensionais através de técnicas experimentais possibilitou a
obtenção de parâmetros estruturais, como comprimentos e ângulos de ligação, e também a
definição de propriedades atômicas como o raio de van der Waals. Com isso foi possível
construir modelos simples para representar a estrutura tridimensional de moléculas em escalas
relativas reais. Essa representação de estruturas (3D) fornece uma descrição qualitativa e, em
algumas situações, semiquantitativa das propriedades da matéria. Por exemplo, a análise da
estabilidade relativa entre diferentes conformações da molécula não poderia ser feita de forma
quantitativa utilizando apenas fórmulas estruturais (Dos Santos, H. F., 2001).
Uma outra limitação destes modelos é com relação à determinação de propriedades
eletrônicas como potencial eletrostático, momento de dipolo elétrico, cargas formais e
19
propriedades espectroscópicas. Neste sentido, visando representar a matéria de maneira
completa e quantitativa, os fundamentos da física clássica e quântica começaram a ser
implementados com o objetivo de descrever sistemas e processos de interesse para a química.
Esta parte da história, que começa no final da década de 60, teve um desenvolvimento
relativamente rápido em função do aprimoramento tecnológico dos computadores.
Pesquisadores como Allinger, Dewar, Kohn, Pople, Stewart e Zerner, entre outros,
empenharam-se no desenvolvimento e implementação de teorias em programas de
computador, tornando-as acessíveis à comunidade química de uma forma geral (Dos Santos,
H. F., 2001). Com isso, surgiu um novo campo de atuação dos químicos, caracterizado como
química computacional e modelagem molecular. O reconhecimento desta nova área de
pesquisa pelo mundo científico veio com o prêmio Nobel de Química em 1998 concedido a
John Pople e Walter Kohn, pelas contribuições no desenvolvimento da química
computacional e modelagem molecular (Freitas, L. C. G., 1998).
1.3. Por que simular?
A revolução na biologia molecular e nas técnicas, tanto experimentais como
computacionais, levou a um incrível avanço em diversas áreas da biologia estrutural, nas
últimas décadas. O aumento do poder computacional permitiu um grande desenvolvimento da
Dinâmica Molecular (MD) na simulação de sistemas biológicos como proteínas, carboidratos
e ácidos nucléicos. A primeira simulação de MD de proteínas foi feita pelo famoso biofísico
computacional Martin Karplus em 1976, quando simulou a dinâmica de enovelamento de
peptídeos (Karplus, M. et al., 1976). Nesse mesmo ano, um estudante de seu laboratório,
McCammon, estudou os movimentos internos da lisozima (Mccammon, J. A. et al., 1976).
Um ano depois, foi publicado um importante trabalho onde foi realizada a MD de proteínas
partindo da estrutura enovelada, visando estudar a dinâmica dos movimentos internos dessas
proteínas (Karplus M., et al. 1977).
20
Cada vez mais a MD tem sido utilizada como ferramenta para explorar os movimentos
de proteínas de estruturas conhecidas, salientando que o conhecimento estrutural é muito
importante. Isto deve-se ao fato de as proteínas e outras macromoléculas não serem entidades
estáticas e precisarem se movimentar para interagir com outros ligantes e exercer assim o seu
papel biológico. Os aspectos dinâmicos de proteínas vêm sendo alvo de muito estudo nos
últimos 30 anos. Nesta tese esses aspectos serão bastante explorados, culminando na proposta
de uma nova metodologia para abordagem de movimentos de larga escala em
macromoléculas, apresentada no capítulo quarto.
O desenvolvimento da metodologia de análise dos modos normais de vibração (NMA)
no final da década de 70 e início de 80 (Mccammon, J. A. et al., 1976; Karplus, M. et al.,
1981; Levy, R. M. et al., 1982; Brooks, B. et al., 1983; Levy, R. M. et al., 1984; Levitt, M. et
al., 1985), juntamente com o avanço computacional e da capacidade de processamento, foram
de muita importância para o entendimento dos movimentos moleculares de proteínas, de
domínios ou até mesmo complexos moleculares. Os potenciais moleculares usados nos
campos de forças desenvolvidos para descrever o mundo atômico na modelagem molecular
(que serão tratados em detalhes no capítulo segundo) também foram aprimorados e
baseados/ajustados com parâmetros experimentais cada vez mais precisos. Esses potenciais
vêm possibilitando a utilização dessas técnicas computacionais para prever e analisar
movimentos coletivos de proteínas que estão frequentemente associados à função protéica
(Huber, R. et al., 1983; Sinha, N. et al., 2002a; Liu, H. et al., 2008).
De uma forma geral, tanto a MD quanto a NMA apresentam um índice de sucesso
bastante alto quando estão suportadas por resultados/conhecimentos experimentais. O estudo
de propriedades muito complexas, como a flexibilidade de proteínas, é bem mais facilmente
compreendido quando são utilizadas diferentes ferramentas e metodologias para elucidar este
problema biológico.
21
1.4. Estruturação da tese
Esta tese foi organizada em capítulos, mostrando a evolução do trabalho durante o
período de doutoramento. O segundo capítulo trata da metodologia de forma mais
generalizada, pois as metodologias e procedimentos adotados nos subsequentes capítulos
estarão em destaque dentro dos mesmos.
O capítulo terceiro aborda mecanismos moleculares da inibição de proteases aspárticas
envolvidas em doenças negligenciadas, como AIDS por HIV não-B e malária. Trata-se de
dois diferentes estudos: o primeiro é resultado do aprofundamento do trabalho da minha
dissertação de mestrado e envolve o estudo da protease do HIV-1 de diferentes subtipos,
quando complexada ao inibidor ritonavir, utilizando a metodologia de Modelagem e
Dinâmica Molecular (MD). Este estudo resultou em uma publicação de artigo completo
(Anexo 1) no periódico internacional Cell Biochemistry and Biophysics (Batista, P. R. et al.,
2006; Liu, H. et al., 2008), onde importantes diferenças entre os subtipos foram destacadas,
incluindo diferenças na flexibilidade de uma região da protease do HIV-1 (PR), a região das
alças. O trabalho mostra que essas diferenças levam à menor eficiência do fármaco na
inibição da protease dos subtipos não-B do HIV-I estudados. Os fármacos do coquetel antiAIDS foram desenvolvidos com foco no subtipo-B do vírus, que é prevalente nos Estados
Unidos e Europa. No entanto, o majoritário no mundo é o subtipo C, sendo importantes
também outros subtipos. Como os subtipos não-B são prevalentes em países do terceiro
mundo, enquadram-se no problema da “Falha de Mercado”, ou seja, pertencem a regiões do
planeta com pouco poder aquisitivo e que a indústria farmacêutica vê como menos atrativas.
Nesse contexto, estão as doenças negligenciadas.
No mesmo capítulo da tese, o de número três, é também apresentado, resumidamente,
um estudo de proteases aspárticas do Plasmodium falciparum, chamadas plasmepsinas, em
complexo com inibidores, para o entendimento dos resíduos chaves nessa interação,
22
utilizando também a técnica de modelagem e dinâmica molecular. Este estudo veio como
resultado de colaboração com um professor da Universidade de Havana (Cuba) através de um
estágio doutoral em nosso laboratório no Brasil, professor Pedro Alberto Valiente Flores. Os
resultados dessa cooperação foram publicados em um artigo (Anexo II) do qual sou coautor,
na revista internacional Proteins – Strucutre, Function and Bioinformatics (Valiente, P. A. et
al., 2008). Apesar do foco desta tese ser a protease do HIV-I, outra aspartil protease que
apresenta grande similaridade estrutural, a inclusão desse trabalho sobre plasmepsinas do P.
falciparum como anexo é justificada pelas técnicas de modelagem e bioinformática
desenvolvidas e aplicadas durante o doutorado.
No capítulo seguinte, o quarto, uma nova técnica para estudo de movimentos de larga
escala é apresentada. Movimentos de domínios de proteínas acontecem numa escala de tempo
que pode ser de alto custo computacional para serem explorados por MD. Existe em particular
uma técnica chamada de análise dos modos normais de vibração (NMA) que explora
justamente os movimentos coletivos, geralmente os de grande amplitude. Um dos
desenvolvedores desta técnica para o estudo de proteínas, meu orientador no exterior Prof.
David Perahia, me convidou para um estágio doutoral em seu laboratório na França, que
culminou com a realização desta tese em cotutela entre as universidades francesa e brasileira.
Deste aprendizado de mais de um ano em seu laboratório, sempre buscando entender
esses movimentos importantes que as proteínas precisam fazer para interagir com outras
moléculas, desenvolvemos, com a orientação do Prof. David Perahia, uma nova metodologia
que usa resultados da MD de uma proteína (no caso o objeto de estudo é a protease do HIV-1)
com a NMA. Esta metodologia determina então os modos consensus (CM), que mostram
características melhoradas em relação aos modos normais convencionais. O capítulo quarto
descreve em detalhes o desenvolvimento desta nova metodologia aplicada à protease do HIV.
23
“Eu não sei fazer música, mas eu faço
Eu não sei cantar as músicas que faço, mas eu canto
Eu não tenho certeza, mas eu acho...
Ninguém sabe nada, ninguém sabe nada...”
(Arnaldo Antunes)
CAPÍTULO II
Métodos Teóricos Fundamentais
1. Modelagem molecular
1.1. Dinâmica molecular (MD)
Na dinâmica molecular (MD) é calculada a força Fi que atua sobre cada átomo i, (i =
1, 2, 3, ..., até N, o número total de átomos do sistema) a partir da derivada da função energia
potencial E, que descreve a interação entre os átomos, em relação a sua posição ri:
Fi = - ∂E(ri/∂ri)
A aceleração a que cada átomo está submetida é obtida dividindo-se a força Fi pela
massa mi:
ai = Fi/mi
Em seguida, para determinar a propagação das posições em incrementos de tempo δt,
ou seja, a trajetória das partículas no tempo, substitui-se a aceleração no algoritmo de Verlet
(Verlet, L., 1967):
ri(t + δt) = 2ri (t) - ri(t - δt) + ai (t) δt2
A predição das novas posições no instante t+δt são computadas somente a partir das
posições nos instantes t e t - δt e das forças Fi sobre cada partícula no instante t. Porém, as
24
velocidades são necessárias para o cálculo da energia cinética que, somada à energia
potencial, resulta na energia total do sistema. Elas são obtidas a partir do algoritmo de Verlet
para a propagação das velocidades:
vi(t) = [ri(t + δt) - ri(t - δt)]/2δt
As velocidades são também necessárias para o cálculo da temperatura do sistema, que
é definida em termos da energia cinética média.
Um algoritmo mais estável usado em nossas simulações foi derivado do algoritmo de
Verlet, denominado “leapfrog”, ou “summed Verlet” (Verlet, L., 1967) em que:
ri(t + δt) = ri(t) + vi(t + δt/2) δt ,
e
vi(t + δt/2) = vi(t - δt/2) + ai(t) δt .
As simulações por MD utilizam, assim, as equações da mecânica clássica, ou seja, as
equações de Newton, para cada partícula e em cada incremento no tempo. O processo mais
dispendioso computacionalmente é, em geral, a avaliação das forças para obtenção das
acelerações. O tempo gasto no cálculo dessas forças depende da complexidade da função de
energia potencial de interação entre as partículas, como será descrito a seguir. Em sistemas
moleculares as funções potenciais mais realistas são compostas de diversos termos. Na MD
são tomadas as derivadas espaciais de cada termo e somadas para se obter a força resultante e
a aceleração, sobre cada átomo e a cada novo conjunto de coordenadas. As acelerações são
inseridas no algoritmo de Verlet, ou em um similar, para a predição das novas posições e em
seguida o processo se repete (Pascutti, P. G., 2002).
1.2. Função energia potencial
Um sistema molecular seria descrito mais precisamente pela resolução quantomecânica do problema para cada geometria. Porém, o elevado número de átomos das
macromoléculas biológicas e as atuais limitações computacionais requerem a sua
representação física através de uma função potencial relativamente simples, descrevendo de
forma clássica a interação entre as unidades atômicas.
25
Em MD e cálculos de mecânica molecular, as interações intra e intermoleculares são
calculadas de uma forma simplificada utilizando uma parametrização empírica. Esses
parâmetros incluem as massas dos átomos, cargas, ângulos, diedros, potenciais entre átomos
não ligados (van der Waals e interações eletrostáticas), etc. Freqüentemente o conjunto desses
parâmetros de ajuste, juntamente com as respectivas funções, é denominado como “campo de
forças molecular” (Brooks, C. L. et al., 1988; Van Gunsteren, W. F. et al., 1990).
A partir dessas forças, resolvem-se as equações do movimento para descrever como as
posições atômicas variam com o tempo. A cada passo da dinâmica as forças são então
reavaliadas. Diversas funções potenciais têm sido propostas na literatura (Brooks, B. R. et al.,
1983; Weiner, S. J. et al., 1984; Weiner, S. J. et al., 1986; Van Gunsteren, W. F. et al., 1987;
Clark, M. et al., 1989). Como fatores comuns entre elas aparecem termos harmônicos para
descrever ligações covalentes entre pares de átomos e ângulos entre ligações químicas
vizinhas, um termo torcional para descrever rotações em torno de ligações e termos que
descrevem interações entre átomos não ligados.
Desta forma, os termos combinados para energia potencial compõem a equação do
campo de forças. Quatro termos tratam das interações entre átomos ligados e respondem por
interações que, de outra forma, seriam em nível quântico (como, por exemplo, ns ligações
químicas covalentes). Os termos de Lennard-Jones e de Coulomb, ainda que simplificados,
tratam das interações de longa distância, entre átomos distantes quatro vizinhos ou mais e,
com um tratamento especial para o terceiro, pela redução do diâmetro da esfera de Van der
Waals para evitar colisões estéricas. Todos estes potenciais atuam de forma independente um
dos outros e sobre todos os átomos do sistema, como descrito na equação a seguir:
26
E = Eb + Eθ + Eφ + Eω + EvdW + Eel
onde cada termo é descrito:
potencial de ligação: Eb =
1N
kbn ( rn − ron )2
∑
2 n =1
b
1 Nθ
potencial de ligação angular: Eθ = ∑ kθ n (θ n − θon )2
2 n =1
1 Nω
potencial torcional imprópria: Eω = ∑ kω n (ω n − ωon )2
2 n =1
Nφ
potencial diedral angular: Eφ = ∑ kφ n [1 + cos(mnφn − δ n )]
n =1
⎛A
B ⎞
potencial de Lennard-Jones: EvdW = ∑ ⎜ 12ij − 6ij ⎟
⎜
rij ⎟⎠
i < j ⎝ rij
N*
N*
potencial eléctrostática: Eel = ∑
qi q j
i< j
4πεε o rij
Aceitando-se as limitações que um campo de forças clássico oferece, tais como o fato
de não se poder simular reações químicas e transições de fase, como o congelamento da água,
este responde muito bem às simulações de dinâmica de macromoléculas.
1.3. Modelagem molecular comparativa
Na ausência de estrutura determinada experimentalmente, a modelagem molecular
comparativa (MMC) ou por homologia pode algumas vezes providenciar um modelo 3D útil
para o estudo da proteína que está relacionada à pelo menos uma estrutura conhecida.
A MMC prediz a estrutura 3D de uma seqüência (seqüência alvo) baseada,
primeiramente, no seu alinhamento com uma ou mais proteínas de estrutura semelhante. O
processo de predição consiste no alinhamento entre o alvo e a referência, determinação do
enovelamento, construção e avaliação do modelo. O número de seqüências de proteína que
podem ser modeladas por homologia, bem como a acurácia destas predições, crescem de
27
acordo com o número de estruturas conhecidas depositadas nos bancos de dados, mas crescem
também devido ao melhoramento nos algoritmos de comparação.
1.4. Condições periódicas de contorno
Nos modelos matemáticos e simulações computacionais, condições periódicas de
contorno (PBC) formam um conjunto de condições de fronteira que são muitas vezes
utilizadas para simular um grande sistema modelando uma pequena parte que está longe de
sua borda. Em uma simulação de dinâmica com moléculas de água explícitas, o problema dos
efeitos de bordas pode ser evitado com o uso de PBC (Born, M. et al., 1912).
As PBC assemelham-se a topologias de alguns jogos de vídeo game; consistem em
uma célula unitária ou caixa de simulação definida com uma perfeita geometria
tridimensional: quando um objeto passa por um lado da célula unitária, ele reaparece na face
oposta com a mesma velocidade (Fig. II.1). As cópias da unidade celular são chamadas de
imagens, que são infinitas. Durante a simulação, apenas as propriedades da unidade celular
precisam ser registradas e propagadas.
28
Fig. II.1. A figura ilustra o conceito de condições periódicas de contorno em simulações de MD. A caixa
sombreada representa o sistema que estamos simulando (real), enquanto que as caixas ao redor são
cópias exatas em cada detalhe - cada partícula na caixa de simulação tem uma duplicata exata em
cada uma das células circundantes. Mesmo a velocidades (indicada pelas setas) são as mesmas. Este
arranjo é imaginado para preencher a totalidade do espaço. Um resultado disto é que sempre que um
átomo simulação deixa a célula, ele é substituído por outro com exatamente a mesma velocidade,
entrando a partir da célula face oposta. Portanto, o número de átomos na célula é conservada. Além
disso, não sente qualquer força de superfície, uma vez que estas estão agora completamente
removidas. rcut é o raio de corte, que é normalmente aplicado no cálculo da força entre dois átomos. Um
átomo pode interagir com átomos vizinhos em uma célula imagem, por estar dentro do raio de corte.
No entanto deve-se ignorar suas imagens equivalentes em outras células de simulação. Isto faz com
que um átomo não “enxergue” as suas próprias imagens.
1.4.1. PBC: requisitos e artefatos
PBC são particularmente úteis para simular uma parte essencial de um sistema sem
superfícies presentes. Além disso, em simulações de superfícies planas, é muito útil para
simular duas dimensões (por exemplo, x, y), com períodos de fronteiras, deixando a terceira
direção (z) com diferentes condições de contorno.
PBC podem ser usadas em conjunto com métodos de soma de Ewald [geralmente
PME (do inglês “Particle Mesh Ewald”)] de contabilização de forças eletrostáticas no
sistema. No entanto, as PBC introduzem também artefatos que não respeitam a invariância
29
translacional do sistema, e exigem restrições na composição e no tamanho da caixa simulação
(Cheatham, T. E., Iii et al., 1995).
Nas simulações de sistemas sólidos, influências decorrentes de qualquer
heterogeneidade do sistema serão artificialmente truncadas e alteradas pelas condições de
fronteira periódicas. Do mesmo modo, o comprimento de onda do som nesse sistema é
limitado pelo tamanho da caixa.
Nas simulações contendo interações iônicas entre as partículas (Coulomb), a carga
eletrostática líquida do sistema deve ser igual a zero, para evitar a soma infinita de uma carga,
quando as PBC são aplicadas. Em algumas aplicações, é adequado obter a neutralidade do
sistema por adição de íons como o sódio ou cloro (como contra-íons) em um número
adequado, se as moléculas de interesse são carregadas. Íons podem ser adicionados a um
sistema no qual as moléculas de interesse são neutras, para aproximar a força iônica da
solução na qual as moléculas naturalmente aparecem.
Para a manutenção da convenção da mínima imagem, também requer que o raio de
corte esférico (rcut) para interações e forças entre átomos não ligados diretamente tenha, no
máximo, metade do comprimento do menor lado da caixa de simulação. A convenção de
imagem mínima é uma forma comum de representação das PBC, onde cada partícula
individual na simulação interage somente com a imagem mais próxima do restante das
partículas no sistema.
O tamanho da caixa de simulação também deve ser grande o suficiente para prevenir a
ocorrência de artefatos periódicos devido à topologia não física da simulação. Em uma caixa
muito pequena, uma macromolécula pode interagir com a sua própria imagem em uma célula
vizinha, podendo dar um falso efeito de concentração elevada.
30
2. Análise dos modos normais de vibração (NMA)
O estudo teórico da dinâmica de proteínas envolve o cálculo e análise de trajetórias
como no caso da MD, onde as posições e velocidades atômicas são resolvidas como função
do tempo, dadas pela solução numérica das equações de movimento de Newton, usando
potenciais com precisão atomística. Em princípio, a MD é uma poderosa ferramenta para
simular movimentos protéicos realísticos, principalmente quando as moléculas de água são
incluídas explicitamente no cálculo. Porém a MD possui uma limitação principal: o tempo de
integração (Δt), ou seja, o intervalo de tempo entre um passo e outro tem de ser muito
pequeno (0,5 fs), curto o suficiente para descrever oscilações de ligações entre átomos
pequenos (como o H), para que se possa prever a trajetórias desses átomos através das
equações de movimento. Este valor pode ser aumentado para 2 fs, no caso de se utilizar
algorítimos de vínculos como SHAKE (Ryckaert, J.-P. et al., 1977) e LINCS (Hess, B. et al.,
1997), que consideram que as direções das velocidades entre átomos covalentemente ligados
devem estar acopladas, não sendo independentes, restringindo assim os comprimentos das
ligações entre esses átomos. Outros artifícios podem ser utilizados chegando-se a um Δt de até
10 fs; ainda assim é um intervalo de tempo bastante reduzido, necessitando de no mínimo 10
milhões de passos, cada passo calculando as interações de cada átomo com todo o sistema,
para simular 10 nanossegundos dos movimentos do sistema.
De uma forma geral, a NMA usa os mesmos parâmetros do campo de forças que a
MD. Porém na MD as equações são resolvidas numericamente em função do tempo, gerando
uma trajetória. No caso da NMA, as equações são resolvidas analiticamente, e como resultado
obtemos os modos normais, que são as direções dos movimentos e suas respectivas
frequências. A informação de escala de tempo está contida no valor da frequência para cada
movimento harmônico.
31
A superfície de energia potencial conformacional para macromoléculas é
extremamente complexa (como pode ser visto na figura II.2A) e precisa de potenciais e um
campo de forças bem acurado para sua correta representação. A NMA se baseia no princípio
da observação de que essa superfície de energia em regiões próximas ao mínimo de energia
apresenta uma forma relativamente simples, como representado na figura II.2 B, que pode ser
aproximada por uma função quadrática. Por exemplo, em uma superfície hipotética
SUPERFÍCIE DE ENERGIA POTENCIAL REAL
A
Equações de movimento são resolvidas
numericamente
coordenadas
representada em duas dimensões, sua forma poderia ser representada por uma parábola.
trajectory
trajetória
tempo
APROXIMAÇÃO QUADRÁTICA DA
SUPERFÍCIE DE ENERGIA POTENCIAL
B
q1
Equações de movimento são resolvidas
analiticamente
q2
Análise de modos normais
coordenadas coordenadas
Simulação de Dinâmica Molecular
frequência
frequency ω1
time
frequência
frequency ω2
tempo
Fig. II.2. Em A, representação esquemática da superfície real da energia potencial configuracional e
duas dimensões para uma proteína hipotética, apresentando um comportamento complexo, que pode
ser representado pelos potenciais empíricos em simulações de MD, onde as equações de movimento
são resolvidas numericamente, gerando uma trajetória no tempo. Já no caso dos modos normais,
baseado na observação de que o comportamento da superfície energética em regiões próximas ao
mínimo pode ser aproximado por uma função quadrática, resolvem-se as equações de movimento de
newton de forma analítica, obtendo modos vibracionais de diferentes frequências baseados na
curvatura dessa superfície na região de mínimo de energia.
Estudos comparativos entre MD e NMA (ou dinâmica molecular harmônica) de um
polipetídeo em hélice-α mostraram que essas duas metodologias geram resultados
32
equivalentes quando as simulações são feitas à baixa temperatura. Este estudo demonstrou
que a MD se desvia do comportamento harmônico com o aumento da temperatura, que
introduz anarmonicidade ao sistema, se desviando do comportamento quadrático (Levy, R. M.
et al., 1982).
NMA tem sido usada extensivamente na química, já na década de 1950, a teoria dos
modos normais foi aplicada à pequenas moléculas com ótimo poder preditivo em reproduzir o
espectro vibracional dessas moléculas (E. Bright Wilson, Jr. et al., 1955; Koichi Itoh, T. S.,
1970). Suas primeiras aplicações em macromoléculas vieram 30 anos após, usando
parâmetros empíricos, os mesmos usados em simulações de MD (Mccammon, J. A. et al.,
1976; Karplus, M. et al., 1981; Levy, R. M. et al., 1982; Brooks, B. et al., 1983; Levy, R. M.
et al., 1984; Levitt, M. et al., 1985).
NMA tem sido mais bem sucedida para o estudo de grandes rearranjos moleculares
que a MD e é muito menos custosa computacionalmente, demandando menos tempo de CPU
(no entando utiliza muito mais memória RAM). A aplicação da NMA em proteínas é baseada
na hipótese de que os modos normais vibracionais de mais baixa frequência (também
chamados de soft modes) descrevem os movimentos de grande amplitude de uma proteína e
são aqueles que são funcionalmente relevantes. Muitas ferramentas vêm sendo desenvolvidas
e aplicadas com sucesso para predizer movimentos coletivos, de grande amplitude, desde
proteínas pequenas a grandes “máquinas moleculares”: ex. lisozima (Brooks, B. et al., 1985;
Levitt, M. et al., 1985; Jean-François Gibrat, N. G. et al., 1990; Steven Hayward, A. K. H. J.
C. B., 1997), protease do HIV-1 (Zoete, V. et al., 2002), aspartato transcarbamilase (Aline
Thomas, K. H. M. J. F. D. P., 1999), miosina (Adamovic, I. et al., 2008), integrinas (Gaillard,
T. et al., 2007), Ca-ATPase (Reuter, N. et al., 2003), F1-ATPase (Cui, Q. et al., 2004),
chaperonina GroEL (Zheng, W. et al., 2007), capsídeos virais (Kim, M. K. et al., 2003; Tama,
F. et al., 2005), ribossoma (Zheng, W. et al., 2003). Nos últimos anos, o uso da NMA para o
33
estudo de dinâmica de biomoléculas vem se tornando cada vez mais popular. O baixo custo
computacional dos principais métodos simplificados de NMA tem contribuido para o
desenvolvimento de servidores web para fazer cálculos e análises de modos normais partindo
de uma simples estrutura submetida por um usuário normal com um web browser.
2.1. Cálculo dos modos normais
A análise dos modos normais (NMA) é uma técnica para se investigar os modos
vibracionais de um sistema harmônico oscilante na vizinhança de um ponto de equilíbrio. Os
movimentos estudados são de pequena amplitude num poço de potencial e não podem
ultrapassar barreiras energéticas (Skjaerven, L. et al., 2009). Um sistema é definido como
estando no equilíbrio, ou no fundo do poço, quando a força resultante agindo no sistema é
igual a zero. Numa região de mínimo q0, a energial potencial pode ser expandida numa série
de Taylor, considerando a aproximação quadrática V, a energia potencial E, com respeito às
coordenadas internas qi é dada por:
⎛ ∂ 2V ⎞
⎟ ηiη j = 1 Vijηiη j
V = ⎜⎜
⎟
2
⎝ ∂qi ∂q j ⎠0
[1]
onde η é o desvio do equilíbrio (qi = q0i + η i ) . De forma similar, a energia cinética T é
também aproximada como uma função quadrática. A Lagrangiana é dada por: L=T-V, que
leva a n equações diferencias lineares de movimento:
Tiη&&i + Vijη j = 0
[2]
Assumindo uma solução oscilatória, η i = aik cos(ωk t + δ k ) e substituindo-se na Eq. 2,
obtém-se um problema de autovalor:
AT VA = λ
[3]
34
Onde A é a matriz das amplitudes aik , e V é a matriz das derivadas segunda da energia
potencial e é referida como Hessiana. λ é a matriz diagonal, e AT A = I , sendo I a matriz
identidade. O padrão dos movimentos é inteiramente dado pelos modos normais vibracionais,
ex. os autovetores ( Ak ) e seus autovalores associados (λk ) . Os vetores dos modos normais
descrevem em que direção cada partícula se move, e quanto ela se move em relação às outras
partículas do sistema. No entanto, ele não dá a quantidade absoluta do deslocamento de cada
partícula. Todas as partículas em cada modo normal vibram com a mesma frequência.
35
3. Técnicas de Análises dos resultados
3.1. Raiz do Desvio Quadrático Médio (RMSD)
O desvio padrão ou Raiz do Desvio Quadrático Médio (RMSD), do inglês Root Mean
Square Deviation (Spiegel, M. R., 1994), é o resultado do cálculo realizado para a
comparação de dois conjuntos de dados. Sua aplicação neste trabalho é o cálculo para a
comparação das coordenadas dos átomos (excluindo o solvente) ao longo do tempo das
simulações, em relação à estrutura inicial (usada como referência). Neste caso, temos um
gráfico do desvio global da estrutura, em relação à conformação inicial, versus tempo.
Desvio Padrão =
2
1 n
Xi − X )
(
∑
n i =1
onde n é o número total de amostras, Xi é a coordenada tridimensional de cada átomo da
amostra i e X a coordenada de referência. O resultado destes cálculos reflete o quanto a
proteína variou de posição ao longo do tempo.
3.2. Flutuação da Raíz do Desvio Quadrático Médio
Outra análise com base no desvio padrão é a flutuação da raíz do desvio quadrático
médio (RMSF, do inglês). Este método difere, em relação ao primeiro, pelo fato de agora
tomar como referência a estrutura média na Dinâmica Molecular, calculando a flutuação de
cada resíduo aminoácido (média dos desvios de cada átomo do resíduo), ou de cada átomo (no
caso do inibidor), em relação a esta estrutura média. Nesse caso, temos um gráfico do desvio
ou flutuação conformacional de cada resíduo versus sua posição na cadeia polipeptídica, o
que permite observar variações locais, neste caso, quais os resíduos que tiveram maior
variação.
3.3. Ligações Hidrogênio
As ligações hidrogênio são importantes interações não-covalentes existentes nos
sistemas biológicos, contribuindo para a especificidade das interações receptor-ligante e para
36
a manutenção das conformações bioativas de macromoléculas e das estruturas secundárias αhélices e as folhas-β de proteínas. Nas biomoléculas essas interações são formadas entre
átomos mais eletronegativos que o carbono, como o oxigênio e o nitrogênio, que atuam como
aceitadores e doadores de hidrogênio (Fig. II.3). A energia envolvida nestas ligações é da
ordem de 1 a 6 kcal/mol, superior ao ruído térmico para a temperatura ambiente
(0,6 kcal/mol), porém inferior às energias envolvidas nas ligações iônicas, e bem menor que a
das ligações covalentes.
Fig. 3.6. Ligações hidrogênio
(a)
D
H
(b)
H
α
α
D
A
r
r
A
Fig. II.3. Ligações Hidrogênio. São três as convenções para determinação de ligações hidrogênio,
dados r (distância) e α (ângulo): (a) em que r é tomado entre D-A inferior a 3,6Å, com α variando entre
0-60º; (b) em que r é tomado entre H-A inferior a 2,7Å, com α variando entre 120 –180º; ou a
combinação de critérios entre (a) e (b).
3.4. Energia Livre de Gibbs de Ligação
Para sistemas do tipo proteína-ligante, é possível estimar a variação da energia livre de
Gibbs de ligação (ΔGL) usando um método semi-empírico baseado em MD chamado Linear
Interaction Energy (Aqvist, J. et al., 2002), ou simplesmente LIE, em que se assumem
respostas lineares do sistema para sua energia livre de Gibbs, em função da energia interna. A
energia de interação entre o ligante e o meio (proteína, solvente, íons, etc), para usar este
método, é dividida em duas partes: uma eletrostática e outra de van der Waals.
ΔGL = ΔGvdW + ΔGel ≈ α
(E
vdW
prot
− EvdW
sol
)+ β ( E
el
prot
− Eel
sol
)+γ
37
onde
EvdW
prot
e
Eel
prot
são, respectivamente, as energias médias de van der Waals e
eletrostática entre o ligante e o meio circundante contendo proteína mais o solvente e
EvdW
sol
e
Eel
sol
as energias médias do ligante em estado livre, interagindo só com o
solvente (e íons se o caso), sendo α e β dois parâmetros empíricos, usados para fazer o ajuste
linear de em função das energias de interação. Nestes parâmetros estaria oculta a variação da
entropia. Um termo adicional (γ) foi utilizado para ajustar o método LIE e reproduzir
resultados experimentais de energia livre de ligação (Aqvist, J. et al., 1994; Hulten, J. et al.,
1997; Wang, W. et al., 1999; Aqvist, J. et al., 2001; Aqvist, J. et al., 2002). A variação de
volume entre os sistemas no estado ligado e não ligado são desprezíveis.
38
“O medo de amar é o medo de ser livre para o que der e vier,
Livre para sempre estar onde o justo estiver.
O medo de amar é não arriscar, esperando que façam por nós
o que é nosso dever, recusar o poder...”
(Beto Guedes)
CAPÍTULO III
Estudo de proteases aspárticas por modelagem e
dinâmica molecular
39
1. Introdução
1.1. Proteases aspárticas
Proteases aspárticas ou aspartil-proteases (EC 3.4.23) são uma das subclasses dentro
das enzimas proteolíticas. São uma subfamília da família das endopeptidades; sendo
amplamente distribuídas, encontradas em vertebrados, protozoários, plantas, vírus de plantas e
retrovírus. Essas enzimas são classificadas em diferentes famílias de acordo com a identidade
de sequência na região relacionada com a atividade catalítica. Além disso, essas famílias estão
agrupadas em clãs, de acordo com a similaridade de suas estruturas 3D (Barrett, A. J., 1986;
Barrett, A. J. et al., 2001). Esta classificação é implementada na base de dados Merops
(Rawlings,
N.
D.
et
al.,
2008),
que
é
acessível
na
internet
no
sítio
(http://merops.sanger.ac.uk/), que permite uma atualização regular sobre as famílias e clãs.
Este banco de dados, versão 8.0, inclui 14 famílias de proteases aspárticas, que por sua vez
estão agrupadas em 6 clãs (Tabela III.1). As proteases aspárticas agrupadas nos clãs AA, AF,
AC, AD e na família A5 são distinguidas pela presença de dois resíduos de ácido aspártico
catalíticos em diferentes contextos estruturais (Jaskolski, M. et al., 1991; Fujinaga, M. et al.,
1995; Steiner, H. et al., 2000; Vandeputte-Rutten, L. et al., 2001). Os clãs AB e AE são
distinguidos pela presença de resíduos catalíticos ácido aspártico/asparagina e ácido
aspártico/histidina, respectivamente (Wery, J. P. et al., 1994; Munshi, S. et al., 1998). Essas
enzimas são solúveis ou associadas à membrana, em partículas virais e organismos
eucarióticos procariontes (Rawlings, N. D. et al., 2008).
O clã AA, representado pela pepsina é o mais abundante e melhor caracterizado dentro
das proteases aspárticas e contém as famílias A1, A2, A3, A9 e A11. Nas seqüências de
aminoácidos que compõem este clã, distingue-se pela presença do motivo de sequência
X-X-D-[TS]-G-[ATS], onde X é um resíduo hidrofóbico e D é o resíduo catalítico ácido
40
aspártico ou aspartato, dependendo do estado de protonação. Banerjee et al. recentemente
relataram a seqüência de uma protease histoaspártica de Plasmodium falciparum pertencente à
família A1, que apresenta uma substituição de um dos ácidos aspárticos por uma histidina, em
um dos seus resíduos catalíticos (Banerjee, R. et al., 2002).
41
Tabela III.1 Principais características estruturais das proteases aspárticas
Clã
AA
A1
Protease
representativa
Pepsina A
(homo sapiens)
A2
Protease do
HIV-1
Família
A3
A9
A11
A6
AB
A21
AC
A8
A22
AD
A24
A25
protease do vírus
do mosaico do
tabaco
espuma-pepsina
(retrovirus
humano)
protease de cópia
de transposons
(drosophila
melanogaster)
protease do
nodavírus
protease do
tetravírus
(vírus de
Nudaurelia
capensis omega)
peptidase sinal-II
(Pseudomonas
fluorescens)
presenilina-1
(homo sapiens)
protease
prepilina tipo-4
(Vibrio cholerae)
protease gpr
(Bacillus
subtilis)
AE
A31
AF
A26
protease HybD
(Escherichia
coli)
omptina
(Escherichia
coli)
Resíduos
catalíticos
resíduos
de
ácido
aspártico
Código
PDB
1qrp
Estrutura 3D
disponível
Características
estruturais fundamentales
Estruturas 3D formadas por
2 dominios de tipo barril-β.
Estruturas 3D formadas por
2 monômeros de tipo barril-β
mais de
270
estruturas
-
-
-
-
-
-
ácido
aspártico/
asparagina
-
resíduos
de
ácido
aspártico
-
resíduos
de
ácido
aspártico
-
-
-
-
-
-
-
1cfz
1i78
resíduos
de
ácido
aspártico
-
-
1c8b
ácido
aspártico/
histidina
-
Estrutura 3D formada por
um homotetrâmero, onde
cada monômero contem 2
domínios fomados por 8
folhas-β e 2 alfa hélices,
respectivamente.
Estrutura 3D formada por
folhas-β rodeadas de 3 ou 4
alfa-hélices de cada lado.
Estrutura 3D formada por
um barril-β de 10 folhas β
antiparalelas. Os resíduos
catalíticos estão localizados
na parte inferior do sítio
ativo.
42
No clã AA, só foram determinadas experimentalmente as estruturas 3D de enzimas
pertencentes a famílias A1 e A2 (Jaskolski, M. et al., 1991; Fujinaga, M. et al., 1995). As
estruturas 3D de proteases da família A1 são formadas por dois domínios semelhantes do tipo
β-barril, onde cada um contribui com uma parte do domínio catalítico para o sítio ativo da
enzima. Essas proteases, no domínio C-terminal, são parcialmente abertas para a região da
carboxila final e marcadas pela presença de uma estrutura em forma de garfo, loop-β,
conhecida como alça (do inglês “flap”) (Rahuel, J. et al., 1991; Baldwin, E. T. et al., 1993;
Fujinaga, M. et al., 1995; Silva, a M et al., 1996; Rawlings, N. D. et al., 2008). Foi
demonstrado que os resíduos da alça são importantes para a especificidade dessas enzimas,
principalmente a tirosina na posição 75 (de acordo com o esquema de numeração pepsina)
que interage com o substrato e faz parte do subsítio S1 (Brinkworth, R. I. et al., 2001;
Rawlings, N. D. et al., 2008). As estruturas 3D de proteases da família A2 são formadas por
dois monômeros do tipo β-barril, que dimerizam para formar estruturas semelhantes às
descritas na família A1. A grande maioria das enzimas nesta família são sintetizadas como
inativas, na forma de zimogênios, que num processo autoproteolítico em pH ácido, onde
ocorre a clivagem e liberação do prosegmento presente nos zimógenos, tornando-as ativas
(Sielecki, A. R. et al., 1991; Bernstein, N. K. et al., 1999; James, M. N. G., 2004). No
entanto, o processo de ativação de proteínas aspárticas de outras famílias deste clã funciona
como um resultado de uma auto-montagem de monômeros em uma unidade catalítica
dimérica (Davies, D., 1990; Jaskolski, M. et al., 1991). De um modo geral, todas as enzimas
deste clã são endopeptidasas e não necessitam de cofatores para desempenharem as suas
funções biológicas (Rawlings, N. D. et al., 2008).
O mecanismo catalítico das proteases do clã AA tem sido amplamente estudado
através da combinação de cálculos teóricos e técnicas experimentais, incluindo métodos
cinéticos, marcação isotópica e cristalografia e difração de raios-X (Davies, D., 1990;
43
Northrop, D., 2001; Dunn, B., 2002; Brik, A. et al., 2003; Bjelic, S. et al., 2004; 2006). Ainda
que exista um amplo consenso de que haja um mecanismo de reação geral de catálise ácidobase, alguns aspectos do mesmo ainda não foram descritos (Davies, D., 1990). Este
mecanismo será explicado em detalhes posteriormente utilizando como exemplo a protease do
HIV; mas como dito anteriormente este mecanismo é bastante conservado nas proteases
aspárticas.
No processo de reconhecimento do substrato pela enzima estão envolvidos: i) os
grupos NH e CO do esqueleto peptídico da enzima, que fazem ligações hidrogênio com o
substrato e ii) os aminoácidos que fazem parte dos bolsões do sítio de ligação da enzima,
interagindo com as cadeias laterais dos resíduos do substrato (Dunn, B. M. et al., 2000).
Numerosos estudos indicam que os substratos adotam uma conformação em folha β-estendida
quando se ligam ao sítio ativo das enzimas (Davies, D., 1990; Fairlie, D. P. et al., 2000). De
um modo geral, as proteases aspárticas do clã AA apresentam maior especificidade para
cadeias laterais de resíduos hidrofóbicos nas posições P1 e P1', que de acordo com a
nomenclatura de Schechter e Berger, interagem com os bolsões S1 e S1' da enzima,
respectivamente (Schechter I, B. A., 1967). As posições subsequentes às extremidades amino
e carboxila são chamados Pn e Pn' (no substrato) e Sn e Sn' (na enzima), respectivamente. As
interações entre os resíduos nas posições S6-S6' da enzima com os resíduos P6-P6' do
substrato garante uma precisão no alinhamento da díade catalítica e determinam a
especificidade da catálise de enzima (Gardner, M. J. et al., 2002; James, M. N. G., 2004).
1.2. Plasmepsinas
A malária é um problema global de saúde causando a morte de quase 2 milhões de
pessoas anualmente, principalmente crianças. Estima-se que quase metade da população
mundial vive em áreas endêmicas para a doença ((Biomalpar), E. N. O. E. F. B. A. P. O. T.
M. P., 2006). Em humanos, esta doença é o resultado da infecção por parasitas do gênero
44
Plasmodium, transmitida ao homem através dos mosquitos das espécies do gênero Anopheles
(Ridley, R. G., 2002). O parasita Plasmodium falciparum é responsável pela maior parte dos
casos de malária relatados em seres humanos, e sua inibição vem sendo objeto para o
desenvolvimento de novas terapias (Breman, J. G., 2001). No entanto, nos últimos anos a
investigação neste domínio tem se centrado sobre a descoberta de inibidores mais seletivos e
potentes para enzimas essencias para o desenvolvimento do parasito, devido à crescente
resistência do parasita aos medicamentos atualmente utilizados (Breman, J. G., 2001; Boss, C.
et al., 2003 ).
As enzimas do parasita envolvidas na via de degradação da hemoglobina são alvos
atraentes para o desenvolvimento de novos compostos antimaláricos, pois, como tem sido
demonstrado, inibidores dessas proteases bloqueiam o crescimento do parasita em
experimentos in vitro e em modelos animais (Haque, T. S. et al., 1999; Banerjee, R. G., D. E,
2001; Rosenthal, P. J., 2001; Soni, S. et al., 2005). Nas fases iniciais do processo de
degradação da hemoglobina, as enzimas envolvidas são chamadas plasmepsinas (Plms).
De acordo com a nomenclatura da base de dados Merops, as plasmepsinas pertencem à
família A1 do clã AA (Rawlings, N. D. et al., 2008). Essas enzimas têm sido identificadas em
espécies do gênero Plasmodium; tem sido descrito que estas são sintetizadas como proteínas
integrais de membrana do tipo II. Esses organismos utilizam a membrana celular como via
secretora para a liberação dessas enzimas dentro do vacúolo alimentar, que são ativadas por
clivagem proteolítica de um sítio conservado em sua estrutura primária. Como resultado deste
processo, estas proteases são solúveis no interior deste compartimento celular (Francis, S. E.
et al., 1997; Klemba, M. et al., 2004). Também foi demonstrado que a combinação dos
inibidores de protease do tipo aspártico (PepstatinA) e cisteína (E64d, um análogo de E64
capaz de atravessar membranas lipídicas) inibe a maturação da plasmepsina II sugerindo que
45
falcipaínas (cisteíno protease) têm um papel fundamental no mecanismo de ativação de
plasmepsinas (Drew, M. et al., 2008).
O sequenciamento do genoma do P. falciparum identificou 10 genes que codificam
essas proteases, que são chamados PlmI à PlmX (Gardner, M. J. et al., 2002). Desses, apenas
os genes que codificam para PlmI, PlmII, PlmIII (também conhecido como HAP – protease
histoaspártica) e PlmIV são expressos em sua forma ativa no vacúolo alimentar do parasito
(Banerjee, R. et al., 2002). O papel redundante dessas enzimas na degradação da hemoglobina
foi recentemente demonstrado através da geração de parasitas nocautes, que não expressam
essas proteínas, indicando que o desenvolvimento de fármacos baseados na inibição de
plasmepsinas poderá ser mais eficaz se for centrado na inibição dessas quatro proteases (Liu,
J. et al., 2005; Bonilla, J. A. et al., 2007).
L4
L1
L3
alça
Cubierta
L2
Dominio N
Dominio C
Eixo de de
simetria
Seudoeje
simetría
Figura III.1. Estrutura 3D da Plasmepsina II do P. falciparum. O esquema mostra a estrutura típica
bilobular das aspartatil proteases da família A1. São destacados o eixo de simetria (linha pontilhada
branca), que divide os domínios N e C destas enzimas; os resíduos catalíticos (colorido por átomo) e
os domínios flexíveis conhecidos como alças L1, L2, L3 e L4.
O desenho de inibidores baseado na estrutura tridimensional da plasmepsinas é viável
graças ao conhecimento das estruturas 3D da PlmII (figura III.1) (códigos PDB: 1lf2, 1lf3,
1lf4, 1lee, 1me6, 1xdh, 2bju, 2igx, 2igy) e PlmIV (1ls5) do P. Falciparum (Silva, a M et al.,
46
1996; Asojo, O. A. et al., 2002; Asojo, O. A. et al., 2003; Prade, L. et al., 2005; Boss, C. et
al., 2006); das plasmepsinas de P. malariae (2anl) (Clemente, J. C. et al., 2006) e P. vivax
(1qs8) (Bernstein, N. K. et al., 2003). Embora a PlmIV do P. falciparum tenha um maior
percentual de identidade com a seqüência de plasmepsinas homólogas de outras espécies de
Plasmodium (65-76%) do que com as suas parálogas PlmI, PlmII e HAP (63%, 62% e 53%
respectivamente) (Dame, J. B. et al., 2003), a PlmII é a mais estudada, possuindo várias
estruturas 3D, para qual tem sido desenvolvidos inibidores mais potentes (Silva, a M et al.,
1996; Asojo, O. A. et al., 2002; Asojo, O. A. et al., 2003; Boss, C. et al., 2003 ; Ersmark, K.
et al., 2003 ; Kiso, A. et al., 2004; Ersmark, K. et al., 2004 ; Prade, L. et al., 2005; Boss, C. et
al., 2006). No entanto, a maioria destes compostos tem mostrado uma baixa discriminação
para a Cathepsina D humana (CatDh) (Boss, C. et al., 2003 ).
A elevada flexibilidade estrutural do sítio ativo da PlmII, permite que esta enzima
possa formar complexos com ligantes de diferentes estruturas. Esta característica torna difícil
a concepção de inibidores assistida por computador (Bhargavi, R. et al., 2005); e, portanto, a
identificação dos resíduos que determinam a funcionalidade das plasmepsinas é útil para a
concepção de inibidores mais seletivos e potentes contra essas enzimas.
Estudos de mutagênese sítio-dirigida da PlmII demonstraram que não existem
diferenças significativas na atividade biológica da enzima nativa e os mutantes M15E, I289E,
S79D e M15E/I289E durante o processamento de substrato baseado na hemoglobina. Este
resultado indicou que estas variações no sítio ativo da enzima não afetaram a sua função
biológica (Westling, J. et al., 1999). Recentemente, Liu e colaboradores (Liu, J. et al., 2006 )
relataram que o loop incluído na região L3 (Bhargavi, R. et al., 2005) da PlmII também é
essencial para a degradação da hemoglobina nativa. Observou-se que esta região apresenta
maior variabilidade na seqüêncial/estrutura e maior flexibilidade entre as plasmepsinas do P.
Falciparum (Silva, A. M. et al., 1998 ).
47
48
1.3. Protease do HIV
A aspartil protease do HIV tipo 1 (PR) é um homodímero de 99 aminoácidos (11 kDa)
em cada subunidade. Esta enzima é indispensável para a maturação do vírus da AIDS; quando
ausente ou inibida resulta na formação de partículas virais imaturas, não infecciosas
(Crawford, S. et al., 1985), o que faz desta proteína um dos principais alvos primários para
terapia com fármacos inibidores. A PR (EC 3.4.23.16) foi classificada como pertencente ao
clã AA e à família A2. Inicialmente a classificação como aspartil protease baseava-se em sua
seqüência primária e inibição por pepstatina, sendo posteriormente confirmada pelas
primeiras estruturas cristalográficas (Mckeever, B. M. et al., 1989; Navia, M. A. et al., 1989;
Roberts, N. A. et al., 1990; Wlodawer, A. et al., 1998).
A PR é constituída basicamente por folhas-β, como representado na Fig. III.2. As
pequenas fitas-β N-terminais (a) formam a parte externa da folha-β interfacial responsável
pela manutenção da sua estrutura dimérica, que é completada internamente pelas fitas-β (q). O
primeiro conjunto de fitas-β (a-d) em um mesmo monômero é relacionado por uma quase
simetria intramolecular, de ordem dois, com o segundo conjunto de fitas-β (a’-d’). Uma única
hélice está presente em cada subunidade, com um padrão de ligações hidrogênio interno
intermediário entre uma hélice-α e uma hélice-310.
A região entre os resíduos 43-58, chamada de alça (flap), contém as fitas-β (a’ e b’) e
se fecha sobre o sítio ativo da protease complexada com inibidores ou substratos, formando
um teto. Do ponto de vista mecânico, as duas grandes alças (ida: do resíduo 43 ao 50; volta:
do resíduo 51 ao 58), localizadas na parte superior da protease (vide Fig. III.2) podem
abrir-se, permitindo o encaixe da poliproteína (certamente em forma distendida) em seu sítio
ativo (Collins, J. R. et al., 1995a; b). Esses flaps encontram-se semi-abertos na estrutura não
complexada e esse fechamento sobre o sítio ativo constitui a maior diferença entre as
estruturas complexada e não-complexada da protease (Miller, M., Schneider, J. et al., 1989;
49
Fitzgerald, P. M. et al., 1990; Wlodawer, A. et al., 1998). No entanto, as estruturas das PR são
bastante conservadas entre os diferentes complexos, com desvios entre os C-α raramente
excedendo 0,6 Å (Wlodawer, A. et al., 1998).
b’
a’
d’
c
b
z
x
c’
y
“flaps”
d
h’
a
q
C-TERMINAL
N-TERMINAL
Fig. III.2. Ilustração em 3D para protease de HIV complexada com um inibidor (código 1HXB no PDB).
Representação de estrutura secundária em cartoon, onde a cor vermelha identifica as hélices α, ciano
as folhas β e cinza as voltas sem estrutura secundária fixa. Estão em destaque na proteína os dois
ácidos aspárticos que classificam a protease. O inibidor segue a mesma representação, acrescido de
seus raios de van der Waals em transparente: vermelho para átomos de oxigênio, cinza para carbono e
azul para nitrogênio (átomos de hidrogênio foram omitidos). Os eixos de coordenadas dão a orientação
do complexo.
O sítio ativo é composto por uma tríade catalítica (Asp25-Thr26-Gly27) localizada
numa alça interna entre as fitas-β (c-d) (Fig. III.2), cuja estrutura é mantida por um conjunto
de ligações hidrogênio característico das aspartil proteases, chamada fireman’s grip (Ingr, M.
et al., 2003). Os dois grupos carboxílicos dos resíduos Asp25 simetricamente relacionados são
aproximadamente coplanares e formam um contato íntimo envolvendo seus átomos OD1.
O monômero da PR é inativo, pois a cavidade catalítica se forma na interface de
dimerização, ao contrário do observado em outras aspartil proteases retrovirais cuja estrutura
é monomérica, apresentando 2 domínios equivalentes aos monômero da PR (Miller, M.,
Jaskolski, M. et al., 1989). A PR é expressa como um produto de fusão gag-pol e é liberada
50
dessa poliproteína precursora por um mecanismo autocatalítico, através da dimerização dos
domínios da protease fusionada, quando a concentração dessas proteínas é aumentada
(Debouck, C. et al., 1987).
1.3.1. Mecanismo de Catálise
A protease do HIV processa as poliproteínas gag e gag-pol em pelo menos 10 sítios
discretos de clivagem (MA-CA; CA-p2; P2-NC; NC-p1;p1-p6; TF-PR; AutoP; PR-RT; RTRH; RH-IN; onde as sequintes proteínas são liberadas: MA matriz; CA, capsídeo; NC,
núcleocapsídeo; TF, peptídeo de transferenência de leitura; PR, protease; autoP, sítio de
autoproteólise; RT, transcriptase reversa; RH, RNAse H; IN, integrase. De forma geral, a PR
possui um sítio ativo composto de 7 subsítios, divididos em 4 à direita e 3 à esquerda do
ponto de clivagem do substrato, ficando usualmente o subsítio S1/S1’ formado pelos resíduos
ASP25/ASP25’ (Fig. III.3). A PR reconhece o sítio de clivagem pela presença, em seqüência,
de 5 a 6 resíduos hidrofóbicos próximos. Em P1-P1’ existe a preferência por resíduos
hidrofóbicos, normalmente contendo um resíduos de Phe ou Tyr (Meek, T. D., 1992; AbdelMeguid, S. S., 1993; Wlodawer, A. et al., 1993).
S1’
S3’
S4
S2
P4Thr
P1’Val
P2Val
OH
S3
O
P3’Gln
P2’Val
P3Lys
NH3
NH2
P1Leu
S2’
S1
S4 – Asp29, Asp30, Met46, Ile47, Gly48, Gln58, Leu76
S3 – Arg8’, Leu23’, Asp29, Gly48, Gly49, Ile50, Thr80’, Pro81’, Val82’
S2 – Ala28, Asp29, Asp30, Val32, Ile47, Gly49, Ile50, Leu76, Ile84
S1 – Arg8’, Leu23’, Asp25’, Asp25, Gly27, Gly49, Ile50, Thr80’, Pro81’, Val82’, Ile84’
S1’ – Arg8, Leu23, Asp25, Asp25’, Gly27’, Gly49’, Ile50’, Thr80, Pro81, Val82, Ile84
S2’ – Ala28’, Asp29’, Asp30’, Val32’, Ile47’, Gly49’, Ile50’, Leu76’, Ile84’
S3’ – Arg8, Leu23, Asp29’, Gly48’, Gly49’, Ile50’, Thr80, Pro81, Val82
51
Fig. III.3. O esquema acima dá o tamanho relativo e a identificação de cada subsítio e seus
respectivos resíduos associados. O sítio catalítico da aspartil protease de retrovírus clivaria a
seqüência peptídica do substrato procurando por uma subseqüência predominante de resíduos
hidrofóbicos.
Adaptado de TÖSZÉR et al. (2000).
O exato mecanismo da reação da PR ainda não foi completamente estabelecido
embora existam grandes esforços tanto de grupos teóricos, computacionais e experimentais,
propondo um grande número de possíveis mecanismos, intermediários de reação e estados de
protonação dos resíduos catalíticos quando complexada a diferentes inibidores e substratos
(Hyland, L. J. et al., 1991; Rodriguez, E. J. et al., 1993; Silva, A. M. et al., 1996; Smith, R. et
al., 1996; Wang, Y. X. et al., 1996; Wondrak, E. M. et al., 1996; Louis, J. M. et al., 1999;
Trylska, J. et al., 1999; Piana, S. et al., 2001; Koval'skii, D. B. et al., 2002; Piana, S. et al.,
2002; Porter, D. J. et al., 2002; Trylska, J. et al., 2002; Brik, A. et al., 2003; Trylska, J. et al.,
2004; Cascella, M. et al., 2005; Forshey, B. M. et al., 2005; Kumar, M. et al., 2005; Bjelic, S.
et al., 2006). De acordo com diversos estudos da literatura, propusemos nesta tese um
mecanismo de reação da PR baseado em dados recentes, o que é mostrado na Fig. III.4.
Antes da ligação do substrato na cavidade da PR, se faz necessário o acesso do
substrato ao sítio ativo. No entanto, se existir algum impedimento estérico à entrada do
substrato, a reação não ocorre. Assim, como pode ser notado nas estruturas apo da PR e em
alguns experimentos de RMN e de MD, os flaps da PR variam entre os estados semi-aberto e
aberto quando estão na forma não-ligada, permitindo a entrada do substrato e fazendo com
que seja possível que as pontas desses flaps se fechem sobre o mesmo, estabilizando-o no
sítio ativo através de ligações hidrogênio (principalmente com as Ile 50 A e B) intermediadas
por moléculas de água estruturadas, mantendo a forma fechada. Do ponto de vista mecânico,
as duas grandes alças, formadas por um par de longas folhas β cada, localizadas na parte
superior da protease (vide Fig. III.2) abrem-se, permitindo o encaixe da poliproteína
(certamente em forma distendida) em seu sítio ativo (Collins, J. R. et al., 1995b).
52
Fig. III.4. Mecanismo de ação das proteases de HIV envolvendo a clivagem da ligação peptídica. Uma
molécula de água catalítica é adicionada ao carbono carboxílico da ligação peptídica do substrato
gerando um intermediário tetraédrico.
Um evento chave (passo I) no mecanismo de reação é a presença de uma molécula de
água no sitío ativo da enzima antes da ligação do substrato. Acredita-se que essa molécula de
água estabiliza ligações hidrogênio com ambos os Asp’s catalíticos, por estar presente em
estruturas da PR não-complexada.
No passo seguinte (passo II), o substrato (que está representado somente pelos grupos
P1 e P1’) se liga à PR (representada apenas pelos Asp’s catalíticos: Asp 25 A e Asp 25B)
através dessa água estruturada (SW), formando o complexo enzima/substrato. De acordo com
vários trabalhos na literatura (Hyland, L. J. et al., 1991; Rodriguez, E. J. et al., 1993; Smith,
R. et al., 1996; Wang, Y. X. et al., 1996; Piana, S. et al., 2002; Trylska, J. et al., 2002; Brik,
A. et al., 2003; Cascella, M. et al., 2005), neste esquema foi considerado o estado
monoprotonado para a díade catalítica: somente o Asp 25A está protonado e o Asp 25B
apresenta uma deslocalização de cargas entre os dois átomos de oxigênio do carboxilato.
Momentaneamente, o oxigênio carboxílico do Asp 25 B torna-se carregado negativamente,
53
remove um próton da SW e isso leva a formação de um agente altamente nucleofílico: um íon
hidróxido (OH-). Subseqüentemente, no passo III ocorre o ataque nucleofílico pelo íon
hidróxido no carbono da carbonila da ligação peptídica hidrolisável e um par de elétrons da
dupla ligação migra para o oxigênio da carbonila, mudando sua hibridização de sp2 para sp3 e
este se torna tetravalente, formando um intermediário tetraédrico (passo IV).
Este intermediário foi recentemente observado em estruturas cristalográficas da PR
que apresentavam mutações na posição 95 (C95A em uma cadeia e C95M na outra) e é
chamado de intermediário diol-geminado. Assim sendo, o papel crucial do sítio de clivagem
da díade Asp nesse passo da reação é de estabilizar as espécies reativas de OH explorando as
propriedades ótimas ácido-base dos grupos Asp protonados e desprotonados (Piana, S. et al.,
2002). A barreira de ativação dessa mesma reação em solução é muito maior que no ambiente
da enzima, uma vez que os reagentes estão localizados na mesma conformação pré-catalítica
encontrada na proteína; já que a água apresenta diferentes propriedades ácido-base em
respeito às da díade catalítica.
A forma protonada do Asp 25A estabiliza o intermediário diol-geminado da reação de
hidrólise doando um próton para esta espécie química (Passo IV). Isso provoca um rearranjo
na cadeia lateral do resíduo: o oxigênio com hibridização sp3 muda para sp2, levando a típica
configuração ressonante da estrutura do Asp com deslocalização de carga. No passo V, o Asp
25A desprotonado remove um próton do oxigênio derivado da água catalítica ligado ao
carbono da carbonila levando a um rearranjo eletrônico no intermediário diol geminado. Neste
processo, o oxigênio derivado da água ligado ao carbono da carbonila muda sua hibridização
para sp2 e a forma protonada do Asp 25B doa um próton ao grupo amida (NH-). Isto acarreta
na quebra da ligação peptídica, uma vez que o NH- é um melhor grupo de saída quando
comparado ao grupo amina (NH2). A sequência destes eventos proposta para esse processo
54
está mostrada no passo V. Finalmente a forma desprotonada do Asp 25 B é generada para um
novo ciclo de reação.
1.3.2. Inibidores da PR
O desenho de inibidores de PR baseia-se principalmente em análogos do substrato ou
do estado de transição. Essa estratégia havia sido usada com sucesso no desenvolvimento de
inibidores para renina, outra aspartil protease, e o conhecimento adquirido com os complexos
renina/inibidores foi extensivamente usado no desenvolvimento dos primeiros inibidores para
a PR (Wlodawer, A. et al., 1993). A grande maioria dos inibidores desenvolvidos baseou-se
na síntese de análogos do substrato, onde a ligação peptídica hidrolisável, P1-P1’, era
substituída por um isóstero não hidrolisável com geometria tetraédrica (Fig. III.5).
Fig. III.5: Representação da estrutura química de alguns isósteros não hidrolisáveis clássicos do estado
de transição, empregados na síntese de inibidores de protease de HIV-1. O composto (a) mostra a
ligação peptídica normal, para comparação.
Estudos mostraram que embora o comprimento mínimo do substrato seja de sete
aminoácidos, um mimético tri ou tetrapeptídico já pode ser um inibidor potente da PR. Em
55
todos os casos, exceto para a amida reduzida, o grupo hidroxila da junção não hidrolisável é
posicionado entre os ácidos aspárticos da protease, com distância para uma interação de
ligação hidrogênio para com pelo menos um oxigênio do carboxilato dos ácidos aspárticos.
As ligações hidrogênio se formam, principalmente entre os átomos da cadeia principal da
enzima e do substrato/inibidor, e seguem um padrão bastante similar entre os complexos.
Com a verificação do aumento de resistência do HIV aos medicamentos anteriormente
utilizados (inibidores da transcriptase reversa - RT), testes com inibidores de protease
começaram a ser feitos culminando com a aprovação do primeiro inibidor de PR de HIV pelo
FDA, o Saquinavir, em 1995. Em seguida, outros inibidores foram desenvolvidos: Ritonavir
(1996), Indinavir (1996), Nelfinavir (1997) e Amprenavir (1999). Vale destacar que todos
esses inibidores de PR são, até o presente momento, peptideomiméticos (classe de inibidores
lineares). Na figura III.6, destaca-se o motivo inspirado no intermediário de reação comum a
todos os inibidores.
Fig.
Darunavir (TMC-114)
1.11. Inibidores da PR aprova dos pelo DA utilizados na clínica
Fig. III.6. Representação dos nove inibidores comerciais de HIV-1 PR atualmente disponíveis e
aprovados pelo FDA. Além destes, existe o Fos-Amprenavir, que é uma modificação do Amprenavir.
56
57
A partir da determinação da estrutura tridimensional da PR (Navia, M. A. et al., 1989;
Wlodawer, A. et al., 1993; Wlodawer, A. et al., 1998), a modelagem computacional tem sido
usada para identificar possíveis compostos que se liguem especificamente na região de
encaixe de substrato da protease. O desenho racional de drogas tem nos inibidores de PR um
bem sucedido exemplo e ilustra significativamente a aplicação do estudo que correlaciona a
função de uma proteína com sua estrutura (Roberts, N. A. et al., 1990).
1.4. Subtipos do HIV-1
O HIV é um vírus com uma alta taxa de mutação e velocidade de replicação, cerca de
109 vírions por dia (Ho, D. D. et al., 1995). Isto faz com que praticamente cada partícula viral
contenha um genoma diferente das demais. A variabilidade genética do HIV pode ser
demonstrada em todo o genoma viral e, conseqüentemente, em todas as proteínas virais.
Variantes de HIV são gerados randomicamente durante a replicação do vírus e então
selecionados naturalmente após competirem com outros variantes para replicarem e
escaparem da resposta imunológica do hospedeiro. Como a enzima responsável pela
replicação genômica, a transcriptase reversa (RT), não apresenta um mecanismo de correção,
isso faz com que ela seja a principal responsável pela variabilidade do HIV-1, permitindo
substituições, deleções e inserções nucleotídicas nas duas cópias de RNA genômico viral.
A diversidade no genoma do HIV-1 é em torno de 6% num mesmo indivíduo,
podendo chegar a 50% entre indivíduos de diferentes regiões geográficas. Com essa alta taxa
de variação é de se esperar que o vírus apresente características biológicas diferentes. As
cepas de HIV-1 circulando globalmente exibem um extraordinário grau de diversidade, que
pode influenciar aspectos da sua biologia, tais como infectividade, transmissibilidade e
imunogenicidade. Seqüências derivadas de cepas de HIV-1 têm sido historicamente
classificadas em grupos e subgrupos com base em sua relação filogenética.
58
A partir das seqüências dos genes env e gag, o HIV-1 foi dividido em três grupos: M
(Major), O (Outlier) e N (Non-M Non-O). O grupo O contém uma minoria presente na
República dos Camarões. Os subtipos de HIV-1 são um conjunto de seqüências dentro do
grupo M classificadas de acordo com a análise filogenética, que sugerem que os subtipos do
grupo M tiveram um único ancestral, enquanto que o grupo O parece ter evoluído de um
ancestral diferente (Robertson, D. L. et al., 2000).
Dentro do grupo M (aproximadamente 90% dos casos de HIV/AIDS no mundo), pelo
menos 9 subtipos distintos (A, B, C, D, F, G, H, J e K) e 14 formas recombinantes circulantes
(CRF) já foram identificadas [revisado em (Kantor, R. et al., 2003; Wainberg, M. A., 2004)].
Dos 33,2 milhões estimados de pessoas infectadas com o HIV no mundo, mais de 22,5
milhões estão na África, principalmente na África sub-Saariana. Em 2007, foi estimado que
um quarto das novas infecções que ocorreram em todo o mundo aconteceram na Ásia
(Unaids, 2007).
Os subtipos do HIV-1 prevalentes na África e na Ásia não são os mesmos que
prevalecem na América do Norte e na Europa (fig III.7). Nessas regiões desenvolvidas, o
subtipo B é responsável pela vasta maioria das infecções por HIV, enquanto que na África e
Ásia os subtipos A e C são os mais encontrados. Os subtipos não-B, em 2000, foram os
responsáveis por 88% das novas infecções (subtipo A, 30% e C, 47%) (Fig. III.7) (Osmanov,
S. et al., 2002). No Brasil, o subtipo B é o principal (50% das infecções), mas o F (18%), C
(30% na região Sul) e o D também são encontrados (Soares, M. A. et al., 2004). Todos os
inibidores da PR disponíveis até o momento foram desenvolvidos para o subtipo B.
59
A
B
Outros
5,3 %
D
8,2 %
A
27 %
C
47,2 %
B
12,3%
Fig. 1.14. ubtipos no an
FIG. III.7. (A) Distribuição estimada de novas infecções por HIV-1 por regiões e subtipos (env) em
2000. (B) Incidência estimada dos subtipo do HIV-1 (env) em 2000.
O quadro se complica ainda mais quando se considera que o padrão de mutações,
gerado por pressão seletiva por inibidores, é diferente entre os vários subtipos. Por exemplo, a
posição 36 dos subtipos B contém uma metionina, sendo que a mutação M36I aparece como
conseqüência de tratamento antiretroviral. Já nos subtipos não-B, a mesma posição contém
uma isoleucina na quase totalidade das seqüências isoladas, sendo considerada como um
marcador molecular para subtipos não-B. Ainda, variantes do subtipo F, comuns no Brasil,
não desenvolvem as mutações I84V e L90M, comumente encontradas em subtipos B,
enquanto que o polimorfismo L89M, provavelmente responsável pela exclusão da L90M, é
encontrado na grande maioria dos subtipos não-B (Caride, E. et al., 2001).
Esse padrão de resistências secundárias que são consideradas polimórficas em
proteases não-B poderia levar a uma falha terapêutica prematura quando comparado com o
subtipo B (Perno, C. F. et al., 2001).
Um grande número de evidências sugerem que subtipos não-B do HIV-1 podem ter
características biológicas distintas, como fitness viral (Arien, K. K. et al., 2005), transmissão
por diferentes rotas (Lukashov, V. V. et al., 1995; Herring, B. L. et al., 2003; John-Stewart,
60
G. C. et al., 2005), ativação da resposta imune (Li, B. et al., 2006), modulação da regulação
transcricional (De Arellano, E. R. et al., 2006) e progressão da doença (Kanki, P. J. et al.,
1999; Sarr, A. D. et al., 2005; Vasan, A. et al., 2006).
No entanto, não são encontradas mutações primárias ocorrendo naturalmente em
subtipos não-B, mas certas mutações secundárias são vistas como sendo polimorfismos
naturais ou até assinaturas em diferentes subtipos. Isto é o caso das mutações K20I/R, M36I e
V82I para o subtipo G na PR, da M36I, L89M/I/V e I93L para o subtipo C na PR, e da V179I
para o subtipo A na RT (Soares, M. A. et al., 2003; Bellocchi, M. C. et al., 2005; Kantor, R.
et al., 2005). Recentes estudos sobre a variabilidade genética da PR e da RT de diferentes
subtipos do HIV-1 mostram mais de 30 resíduos na PR e mais de 40 na RT como sendo
polimorfismos em subtipo não-B e até no B (Kantor, R. et al., 2005). Notavelmente, algumas
dessas mutações secundárias têm sido associadas com a redução ou aumento da
suceptibilidade a certos medicamentos ARV, mesmo na ausência de mutações primárias
(Gonzalez, L. M. et al., 2003; Abecasis, A. B. et al., 2005; Calazans, A. et al., 2005; Parkin,
N. et al., 2005).
Diferentes subtipos podem variar em relação à barreira genética para aquisição de
mutações associadas à resistência. Dados do nosso grupo e de outros têm focado em mutações
específicas, como D30N na PR e L210W na RT, que tendem a se acumular em uma taxa mais
lenta em certos subtipos quando comparados a outros (Pillay, D. et al., 2002; Dumans, A. T.
et al., 2004; Gonzalez, L. M. et al., 2004; Grossman, Z., Paxinos, E. E. et al., 2004). Essas
diferenças são comumente devidas a impedimentos estéricos impostos pelo esqueleto
peptídico das proteínas (principalmente a PR) de diferentes subtipos (Gonzalez, L. M. et al.,
2004).
Estipula-se também que os padrões moleculares que levam à aquisição de mutações
associadas à resistência são diferentes entre os subtipos. Por exemplo, a mutação V106M na
61
RT é comumente encontrada nos subtipo C e CRF02_AG, mas não no subtipo B (Grossman,
Z., Istomin, V. et al., 2004; Hsu, L. Y. et al., 2005). Da mesma forma, enquanto o subtipo B
acumula L89M como mutação secundária em resposta aos PIs, os subtipo C, F e G adquirem
M89I/V (Abecasis, A. B. et al., 2005).
O siginificado clínico dos polimorfismos e das barreiras genéticas para a aquisição de
resistência em subtipos não-B está longe de ser entendido, assim como a maioria das
mudanças nas seqüências de aminoácidos não tem sido ainda experimentalmente associadas
com o decréscimo da suceptibilidade desses variantes. Certos polimorfismos na PR comuns a
subtipos não-B, como I36, têm sido ligados à falha no tratamento com PIs (Perno, C. F. et al.,
2001).
Alguns estudos que focaram no impacto dos subtipos do HIV-1 no tratamento com
inibidores de protease falharam em mostrar diferenças clínicas e virológicas (Frater, A. J. et
al., 2001; Nicastri, E. et al., 2004; Bocket, L. et al., 2005), enquanto outros estudos
mostraram uma diminuição da resposta imune em pacientes infectados por vírus dos subtipos
não-B (De Wit, S. et al., 2004) ou mesmo uma grande variedade de respostas dos pacientes
infectados por diferentes subtipos (Atlas, A. et al., 2005). De fato, estes estudos enfrentaram
diversas limitações, sendo assim, estudos mais longos e sistemáticos são requeridos para o
estabelecimento dos reais impactos dos subtipos no tratamento de pacientes HIV positivos.
2. Resultados e Discussão
2.1. Subtipos da Protease do HIV-1 complexada ao ritonavir
No artigo em anexo (Anexo 1), intitulado Molecular dynamics simulations applied to
the study of subtypes of HIV-1 protease common to Brazil, Africa, and Asia, publicado no
periódico Cell Biochemistry and Biophysics (Batista, P. R. et al., 2006) foi investigado o
62
mecanismo molecular da inibição da PR em subtipos não-B, que será resumidamente
apresentado nesta seção.
2.1.1. Resumo do trabalho
A maioria das infecções por HIV-1 no mundo é causada principalmente pelos subtipos
A e C (África e Ásia), enquanto que o subtipo B prevalece em regiões mais desenvolvidas
como Estados Unidos e Europa. No Brasil, o subtipo B é o prevalente (aproximadamente 50%
das infecções), mas os subtipos F, C e A também são importantes. Esses subtipos não-B
apresentam polimorfismos em suas sequências e alguns deles ocorrem em sítios que vêm
sendo associados a resistência à terapia anti-HIV, incluindo a protease do HIV (PR). Neste
capítulo, reportamos um estudo de dinâmica molecular (MD) dos subtipos B e não-B
complexados com o inibidor ritonavir para estabelecer o comportamento de cada subtipo.
Foram comparados os desvios e flutuações dos átomos e resíduos, sendo calculado: a energia
livre de ligação pelo método de Energia de Interação Linear (LIE), a estabilidade de ligações
hidrogênio, entre outros. Os resultados obtidos fornecem uma base para o entendimento dos
mecanismos moleculares de resistência à inibidores de protease dos subtipos não-B. Nesse
sentido, vimos um decréscimo de aproximadamente 4 kcal/mol no ΔG de ligação nos subtipos
não-B, quando comparados ao B. Isto corresponde à perda de uma ligação hidrogênio, o que
pôde ser verificado com nossas análises estruturais. Resultados experimentais de afinidade,
anteriores, reportaram resultados análogos aos de nossas simulações para os subtipos A e C,
ou seja, a diminuição da afinidade desses subtipos para uma família de inibidores, que inclui o
ritonavir.
2.1.2. Discussão
Nesta primeira parte do presente capítulo discutimos mecanismos moleculares que
explicariam as diferenças de afinidade entre a PR de subtipos não-B e o inibidor ritonavir.
Apesar da PR ser simétrica, já foi descrito que ela é capaz de clivar substratos assimétricos
(Prabu-Jeyabalan, M. et al., 2000). De fato foi verificada maior flexibilidade das PR dos
subtipos não-B, principalmente na região das alças na cadeia B (em torno de ILE 149), onde
63
foram observadas as mais importantes flutuações, o que contribui para a inibição por
compostos assimétricos.
Durante a MD, como esperado para biomoléculas em solução, as ligações hidrogênio
estão em constante quebra e formação. Cada ligação pode contribuir em média com
aproximadamente 3 kcal/mol de energia na estabilização do inibidor na estrutura da proteína.
A energia de ligação envolvida é da ordem de 1 a 5 kcal/mol, sendo mais alta do que as
flutuações de energia térmica, as quais correspondem a aproximadamente 0,6 kcal/mol, em
temperatura fisiológica (Garrett, R. et al., 1995). A diminuição da média do número de
ligações hidrogênio entre o ritonavir e as PR consensos A, C e F em comparação com o consB
(Fig. III.8 A), está em concordância com nossos resultados dos cálculos de energia livre de
ligação (Fig. III.8 C), onde os ΔΔG’s entre grupos B e não-B (4,3 a 4,7 kcal/mol) têm a
mesma ordem de grandeza da energia de uma ligação hidrogênio. Há uma correlação bem
definida entre o aumento na flutuação da região dos flaps e a diminuição na prevalência de
ligações hidrogênio em torno dos flaps para PRs não-B, envolvendo uma molécula de água
intermediando o inibidor e a ILE149. Um outro ponto notável é a presença exclusiva da
ligação hidrogênio entre o N34 do ritonavir e o oxigênio delta do ASP25 (RIT199N34
ASP25OD2) na simulação com a PR consB. Estas evidências podem ser fortemente
relacionadas com a maior instabilidade demonstrada para o ritonavir em complexos com PRs
não-B, principalmente em torno do grupo P1(Fig. III.8 B), o qual é muito importante para a
afinidade da ligação do inibidor (Kempf, D. J. et al., 1995).
64
A
B
C
Fig. III.8. Mecanismo molecular para explicar as diferenças de afinidade entre as PR dos subtipos B e
não-B. Em A, tem-se uma tabela com o número médio de ligações hidrogênio entre as PR e o inibidor
durante a MD, onde os subtipos não-B apresentaram a redução no número de ligações hidrogênio
quando comparados ao B. Em B, mostra o desvio das flutações dos átomos do inibidor, mostrando que
o inibidor fica muito mais flexível nos subtipos não-B, principalmente na posição P1. Em C, cálculo da
energia livre de ligação entre a PR e o inibidor, mostrando o decréscimo da afinidade dos subtipos nãoB, na mesma ordem de grandeza que a energia de uma ligação hidrogênio.
Podemos também enfatizar que as interações de van der Waals não parecem ser
decisivas para reforçar a afinidade de ligação do complexo PR/ritonavir (Fig. III.8 C). Em
contraste, o potencial eletrostático, no consB, é claramente responsável pelas diferenças
65
observadas de ΔGL, porque sua contribuição é quase duas vezes a do potencial de van der
Waals. Além disso, a mesma proporção é verificada quando nós comparamos a contribuição
eletrostática do consB com a de PRs dos subtipos não-B.
Há quatro polimorfismos comuns entre as PRs dos subtipos não-B comparadas com o
consB, como apontado anteriormente, entre eles a substituição M36I, uma mutação
secundária associada à resistência ao ritonavir. Nossos resultados de energia livre de ligação
corroboram os dados de Velazquez Campoy (Velazquez-Campoy, A. et al., 2001), onde o Ki
das PRs não-B indica a redução (7,2 vezes) de suas afinidades ao ritonavir. Apesar de,
inicialmente, estas diferenças de afinidade não serem suficientes para causar a resistência ao
inibidor, podem intensificar os efeitos das mutações e eventualmente conduzi-los à
resistência. Este trabalho foi o primeiro trabalho estrutural de PR de subtipos não-B.
2.2. Predição por Dinâmica Molecular dos resíduos funcionais na
interação de inibidores com plasmepsinas de P. falciparum
No artigo em anexo (Anexo 2), intitulado Predicting functional residues in
Plasmodium falciparum plasmepsins by combining sequence and structural analysis with
molecular dynamics simulations, publicado no periódico Proteins – Structure, Function and
Bioinformatics (vol. 73(2):440-57, em 2008) (Valiente, P. A. et al., 2008) descrevemos a
aplicação conjunta das metodologias de MD e análise de sequência para prever resíduos
funcionais em plasmepsinas.
66
2.2.1. Resumo do trabalho
As proteases aspárticas conhecidas como plasmepsinas estão envolvidas nos primeiros
passos do processo de degradação da hemoglobina, uma fase crítica no ciclo de vida do
Plasmodium falciparum durante a infecção humana. Assim, elas são vistas como atraentes
alvos para desenvolvimento e descoberta de novos compostos terapêuticos contra a malária,
que continua a ser um dos maiores problemas de saúde no mundo. As estruturas
tridimensionais disponíveis para as plasmepsinas II e IV do P. falciparum, torna possível o
desenvolvimento de inibidores baseados na estrutura dessas enzimas. No entanto, a
flexibilidade estrutural do sítio ativo das plasmepsinas combinada com o conhecimento
insuficiente da funcionalidade desses resíduos na determinação da especificidade dessas
enzimas parasitárias é uma desvantagem na concepção dos inibidores específicos. Neste
estudo, temos combinado uma análise de sequência/estrutural com a simulação de MD para
predizer os resíduos funcionais em plasmepsinas do P. falciparum. Uma cuidadosa análise
das estruturas obtidas por Difração de Raios-X e modelos 3D realizadas neste trabalho sugere
que os resíduos Y17, V105, T108, L191, L242, Q275 e T298 são importantes para a função
das plasmepsinas. Estes sete aminoácidos são conservados nas plasmepsinas em todo o
gênero Plasmodium, mas não nas proteases aspárticas humanas. Os resíduos V105 e T108
estão localizados em uma alça do bolsão interior e somente estabelecem contatos com um
inibidor não-peptídico aquiral específico. Também observamos uma rápida mudança
conformacional na região L3 das plasmepsinas, que fecha o sítio ativo da enzima, o que
explica achados experimentais anteriores. Esses resultados lançam luz sobre o papel dos
resíduos V105 e T108 na especificidade das plasmepsinas e deverá ser útil no
desenvolvimento de inibidores seletivos que possam vir a servir como antimaláricos.
67
2.2.2. Discussão
As plasmepsinas do P. falciparum apresentam uma especificidade de substrato única,
que é um resultado de variações nos resíduos da cavidade do sítio ativo. Estudos de
mutagênese anteriores em PlmI e PlmII concluíram que as diferenças na especificidade
dependem mais de diferenças conformacionais em sítios distantes do que variações no sítio
ativo. Neste trabalho baseado em análise de seqüência/estrutura combinada com modelagem e
MD, (conforme o fluxograma da Fig. III.9) foram propostos sete novos resíduos específicos
para plasmepsinas, que não tinham sido previamente estudados.
Fig. III.9. Esquema da metodologia seguida para identificar os sete novos resíduos funcionais das
plasmepsinas do P. falciparum, combinando as metodologias de análise de estrutura/sequências com a
MD dos complexos moleculares Plms/inibidores.
68
Aminoácidos em posições-chave que são importantes para a manutenção da estrutura
3D de uma proteína e ou a sua função, estão muitas vezes sob forte pressão evolutiva. Assim,
a importância biológica de um resíduo frequentemente correlaciona-se com o seu nível de
conservação evolutiva dentro da família da proteína. Para propor resíduos chaves para a
funcionalidade das Plms, realizamos alinhamentos múltiplos de seqüência (MSA) por
homologia, com 73 sequências de aminoácidos, com uma percentagem de identidade que
variou de 10 a 88%. Os sete resíduos propostos aqui, diferem em seus graus de conservação
calculados em todo o MSA. Estes resíduos são: Y17, V105, T108, L191, L242, Q275 e T298,
e apresentam diferentes localizações espaciais nas estruturas 3D de Plms.
Movimentos de larga escala têm sido cada vez mais estudados por desempenharem um
papel para a função enzimática de proteases aspárticas. Estudos estruturais de Plms na forma
apo indicam que essas enzimas têm uma grande flexibilidade estrutural na região das alças
L1, L2, L3 e L4. Nossos estudos de MD mostram uma grande flexibilidade na região entre os
resíduos 108-119. Os resíduos V105 e T108, próximos à cavidade do sítio ativo estabeleceram
novos contactos com grupos funcionais com o inibidor aquiral após a simulação.
Nas simulações de MD das Plms complexadas com a pepstatina verificou-se um
movimento na região L3, fechando-se sobre o sítio e levando à formação de novos contatos
com esse inibidor. Este movimento explica a maior variação estrutural na região L3 quando a
PlmII é complexada com a pepstatin em relação à PlmII no estado livre (Fig. III.10). Para
entender essa mudança conformacional nessa região, analisamos a estrutura cristalográfica de
alta resolução (1xdh). Nesta estrutura, a PlmII está como um dímero na célula unitária, devido
a um contacto hidrofóbico entre as regiões L3 das cadeias A e B. Esse contato cristalográfico
estabiliza o L3 em uma conformação mais aberta, mesmo quando o inibidor está no sítio, mas
recentemente foi demonstrado que a PlmII é funcional como monômero em solução.
69
Fig. III.10. Comparação do desvio da flutuação (RMSF) do esqueleto peptídico (por resíduo) entre a
plasmepsina nas formas apo (linha vermelha) e complexada à pestatina-A (linha preta) durante as
simulações de MD. Em B, poses da MD (a cada 600ps) mostrando o movimento da alça L3 na
simulação do complexo PlmII–Pepstatina A. Em azul, a estrutural atual fitada à estrutura inicial (em
vermelho).
As plasmepsinas de P falciparum apresentam estruturas 3D semelhantes, mas com
propriedades catalíticas distintas contra substratos conhecidos. Para desenvolver novos
inibidores específicos para Plms, é útil mapear os resíduos no sítio ativo das enzimas que
estabelecem contato com inibidores específicos assim como inibidores seletivos, para explorar
as diferenças nas preferências pelo substrato. O inibidor achiral estabelece contatos em
espaços desocupados correspondentes ao subsítio S3 (I14, M15, F16, F120 e I123) e S2
(S118) da PlmII quando complexada à pepstatina-A; e em um novo sítio (W41, V82, V105,
T108 , F111) formado pela rotação das cadeias laterais de Y77 e W41, em combinação com
um movimento substancial da cadeia principal da alça. Outro ponto notável é o menor número
de ligações hidrogênio no complexo PlmII-inibidor achiral, em comparação com o complexo
PlmII-pesptatina A. Estudos anteriores relataram que a pepstatin-A tem uma afinidade melhor
pelas Plms do que o inibidor aquiral. Embora não tenhamos realizado cálculos de energia livre
para estes complexos, nossos resultados sugerem que interações eletrostáticas (ligações
70
hidrogênio) têm uma maior contribuição para a ligação do que interações do tipo van der
Waals. Isso sugere a possibilidade de melhoria da potência do inibidor aquiral introduzindo
alguns grupos polares na sua estrutura molecular, sem afetar a sua seletividade.
71
“Solidão é larva que cobre tudo,
amargura em minha boca, sorri seus dentes de chumbo
Solidão palavra, cavada no coração
resignada em ouro no compasso da desilusão”
(Paulinho da Viola)
CAPÍTULO IV
Modos consenso, desenvolvimento e validação de um
novo método para o estudo de movimentos coletivos
em macromoléculas.
72
1. Introdução
A revolução que vem ocorrendo na biologia estrutural nas últimas décadas tem levado
a um crescimento exponencial tanto no número de sequências e quanto de estruturas de
proteínas determinadas experimentalmente (Bernstein, F. C. et al., 1977; Benson, D. A. et al.,
2008), deixando cada vez mais clara a relação entre estrutura/função. Contudo, proteínas não
são entidades estáticas, elas precisam ser flexíveis para interagir com outras moléculas e
poder exercer suas funções (Huber, R. et al., 1983); mesmo em estruturas cristalográficas,
pode-se obter informações significativas sobre a flexibilidade de cada átomo, contida no fatorB (também conhecido como fator térmico) (Phillips, G. N., Jr., 1990; Lu, W. C. et al., 2006).
No caso da determinação de estrutura por RMN, que resulta em uma família de poucas
dezenas de diferentes estruturas (que obedecem às restrições de distâncias experimentais),
refletindo diretamente a flexibilidade e dinâmica da proteína (Teodoro, M. L. et al., 2003).
Nas últimas três décadas este aspecto dinâmico vem sendo amplamente estudado, extendendo
o conceito estrutura/função ao trinômio estrutura/dinâmica/função (Chollet, A. et al., 1999;
Sinha, N. et al., 2002b; Tamm, L. K. et al., 2003).
Para complementar os estudos experimentais na área da biologia estrutural, o uso dos
métodos computacionais, como a MD, vem aumentando crescentemente. MD de
macromoléculas emprega campos de forças empíricos (como explorado no capítulo II) e
permite a exploração de diferentes regiões da superfície da energia potencial, gerando uma
trajetória da dinâmica de proteínas em diferentes escalas de tempo (Karplus, M. et al., 1976;
Mccammon, J. A. et al., 1977). Simulações de MD têm obtido grande sucesso sendo aplicada
para descrever diversos tipos de movimentos em sistemas bem diferentes: ex.
abertura/fechamento de sítio ativo (Scott, W. R. et al., 2000), enovelamento de peptídeos
(Kim, E. et al., 2008) e ativação de mecanismos em canais iônicos (Treptow, W. et al., 2008).
73
No entanto, para grandes sistemas com representações precisas (ex.: representando-se todos
os átomos, simulações com o solvente explícito) a descrição de movimentos biologicamente
relevantes acontecem em escalas de tempo que podem ser proibitivas em tempo
computacional. Tendo isso em conta, um grande número de movimentos de larga escala
ocorrem raramente na MD, como movimentos de sub-unidades, interdomínios ou movimentos
de alças ou loops, que são movimentos que podem ocorrer na escala de milissegundos ou até
segundos (Amorim, G. C. et al., 2007; Alcaraz, L. A. et al., 2008; Liu, H. et al., 2008). A
correta descrição deses movimentos de grande amplitude em proteínas permanece então como
um grande desafio na ciência.
Análise dos modos normais (NMA), como detalhado no capítulo II, é uma das técnicas
computacionais mais bem sucedidas para o estudo de movimentos coletivos internos em
proteínas (Mccammon, J. A. et al., 1976; Brooks, B. et al., 1983; Levitt, M. et al., 1985;
Perahia, D. et al., 1995; Keskin, O. et al., 2002; Balog, E. et al., 2006). Essa técnica permite o
cálculo dos modos normais (NM), que descrevem as direções e as frequências dos
movimentos vibracionais. NMA têm se mostrado uma ferramenta especialmente importante
para o estudo de mudanças conformacionais em proteínas, desde a observação que modos de
baixa frequência descrevem muito bem transições entre diferentes conformações da mesma
proteína vistas em diferentes estruturas cristalográficas (Mouawad, L. et al., 1996; Tama, F. et
al., 2001; Petrone, P. et al., 2006). Uma vantagem da NMA está na captura das direções da
curvatura da superfície da energia potencial, que correspondem aos movimentos internos de
larga-escala da proteína. No entanto, como todas as metodologias, a NMA tem suas próprias
limitações. Uma delas, talvez a mais importante, é a estrita validade da NMA para
movimentos de amplitudes relativamente pequenas ao redor de uma estrutura localizada num
mínimo particular (local) da superfície da energia potencial. Além disso, NMA é feita num
único mínimo particular sem um conhecimento formal do fato que uma “estrutura biológica
74
verdadeira” consiste de um grupo de conformações intimamente relacionadas. A significância
e generalidade de um dado grupo de NM relacionados a uma estrutura particular podem então
ser questionadas.
Nesse capítulo, será descrita uma nova metodologia para definir modos normais sobre
um grupo de estruturas relacionadas, que foram denominados “modos consenso” (CM). A
idéia de consenso é de expressar uma opinião ou resultado comum; aqui definimos CM como
um conjunto de modos que descrevem os movimentos coletivos que apareceram
frequentemente nos modos normais calculados para diferentes conformações de uma
macromolécula. O princípio básico do cálculo dos CM é o pressuposto de que a superfície de
energia potencial conformacional pode ser mais bem explorada quando são consideradas
informações topólogicas de múltiplos mínimos. As diferentes estruturas a se considerar
correspondem a estruturas em diferentes pontos de mínimo da superfície da energia potencial,
obtidos,
por
exemplo,
de
simulações
de
MD,
ou
de
estruturas
determinadas
experimentalmente. A exploração de múltiplos mínimos permite reduzir o bias causado por
distorções locais na superfície com relevância somente para um mínimo em particular.
Mostraremos que CM calculados para um conjunto de estruturas obtidas de uma simulação de
MD fornecem uma melhor descrição dos movimentos internos de proteínas. Os modos
consensus são um novo modo de se estudar movimentos de larga escala em proteínas,
prevendo a flexibilidade e com isso tendo implicações no enovelamento e função de
proteínas; interações proteína ligante (predições de ancoramento molecular – docking)
(Floquet, N. et al., 2006b), e evolução de resistência a fármacos.
Foi adotada como aplicação para este estudo a forma apo da PR para demonstrar o
approach dos CM. Como visto em capítulos anteriores, a PR é uma aspartil protease e
funciona como um dímero de 99 aminoácidos em cada subunidade, tendo um papel chave no
75
ciclo do HIV (Kohl, N. E. et al., 1988; Navia, M. A. et al., 1989), sendo considerada um dos
principais alvos na terapia anti-HIV (Tomasselli, A. G. et al., 2000).
A PR pode ser dividida em 3 principais domínios, como na figura IV.1: o core, situado
na interface entre os monômeros contém o sítio-ativo (que contém o par de tríades catalíticas
Asp-Thr-Gly); o domínio terminal, contendo ambos C e N terminais, que são importantes para
a dimerização; e o domínio dos flaps (alças), que consiste de duas alças na entrada da
cavidade do sítio ativo, que precisa abrir e fechar para possibilitar a entrada/ligação de
ligantes e sua estabilização no sítio para possibilitar a catálise (Gustchina, A. et al., 1990). O
domínio dos flaps é a região mais flexível da PR, apresentando as maiores diferenças
estruturais entre os estados livre e ligado a inibidores/substratos (Lapatto, R. et al., 1989;
Wlodawer, A. et al., 1993).
tips
elbow
ile50
asp25
Fig. IV.1. Estrutura da Protease do HIV-1 (PR). Representação em Cartoon da PR colorida por
estrutura s econdária: azul (folhas β), vermelho (α-hélice) e cinza (coil e loop). A superfície acessível ao
solvente (SAS) (transparente) foi colorida para representar os principais domínios da PR: laranja
(domínio dos flaps), verde claro (core) e rosa (domínio de dimerização – terminais N e C). Algumas
regiões importantes foram destacadas: o cotovelo dos flaps (elbows) e suas pontas (tips - Ile 50) e os
resíduos catalíticos (Asp 25).
76
A PR é uma das proteínas mais bem estudadas, tanto experimentalmente quanto
computacionalmente, com mais de 270 estruturas resolvidas no PDB (Bernstein, F. C. et al.,
1977) – sendo duas estruturas determinadas por RMN e quase a totalidade por Cristalografia e
Difração de Raios-X, livres e complexadas a diferentes inibidores/substratos (maioria das
estruturas ligadas). Essas inúmeras estruturas combinadas com vários resultados de dinâmica
(RMN e MD) (Freedberg, D. I. et al., 2002; Katoh, E. et al., 2003; Batista, P. R. et al., 2006;
Hornak, V. et al., 2006; Ding, F. et al., 2008; Ishima, R. et al., 2008) fornecem uma grande
fonte de dados para comparação com os nossos dados computacionais. Por exemplo, usando
estruturas da PR do PDB, Yang e colaboradores mostraram uma boa correspondência entre
movimentos da PCA (Análise dos Componentes Principais) sobre múltiplas estruturas da PR
e modos normais (Elastic Network modes), dando um idéia que NM, mesmo se utilizando
potenciais simplificados, podem explicar mudanças estruturais gerais devido à variação na
sequência e ligação a diferentes inibidores (Yang, L. et al., 2008). Porém, uma melhor
descrição da flexibilidade da PR requer uma descrição detalhada da superfície da energia
potencial.
77
2. Teoria
Uma típica análise de modos normais (NMA) começa com uma estrutura única num
mínimo de energia r0 do sistema, usando uma função de energia potencial que é a mesma
utilizada em simulações de MD. Próximo a r0, a forma da superfície da energia potencial pode
ser considerada como quadrática. A forma dessa superfície nessa região de mínimo é descrita
pela Hessiana F, cujos elementos são as segundas derivadas da energial potencial em respeito
às coordenadas atômicas ponderadas pela massa (qi). A diagonalização dessa hessiana fornece
então os modos normais e suas respectivas frequências (Brooks, B. et al., 1983).
À uma dada temperatura T, a hessiana F é relacionada ao inverso da matriz de
covariância dos deslocamentos atômicos, σ , por:
F = k BT σ − 1
(1),
onde kB é a constante de Boltzmann e T a temperatura absoluta, e cada elemento de σ é
definido como σ ij = qi − qi
qj − qj
(Karplus, M. et al., 1981; Levy, R. M. et al., 1984).
Cada elemento da matriz de covariância dentro da teoria dos modos normais é dada por:
3 N −6
σ ij = k T ∑
NM
B
l =1
αα
ω
il
2
jl
(2),
l
onde αil é o i’ésimo componente do l’ésimo vector de modo normal e ωl é a frequência do
l’ésimo modo normal, e a soma é feita sobre os 3N-6 modos normais internos (Karplus, M. et
al., 1981).
No approach dos CM, as análises dos modos normais são realizadas para um conjunto
de diferentes estruturas minimizadas, tomando o cuidado de todas as estruturas apresentarem
a mesma orientação (sobrepondo as estruturas por least-squares fitting). Cada set de modos
78
normais (autovalores e autovetores) reflete a natureza da superfície da energia potencial na
região onde aquela estrutura se encontra. Uma matriz de covariância global σ CM é então
definida como a média sobre as Ns matrizes de covariança individuais, como definido abaixo
e expresso como:
σ
CM
1
=
Ns
Ns
∑σ
NM
s
s =1
(3).
Essa matriz global é chamada de “matriz consensus de covariância”. A influência de
modos vibracionais similares é reforçada nesse procedimento de média, enquanto ruídos
locais são reduzidos. Os autovetores e autovalores dessa matriz são os modos consensus e
suas respectivas frequências. Neste estudo, as diferentes estruturas consideradas para o
cálculo dos CM foram obtidas de simulações de MD.
Deve-se destacar que os CM são bastante diferentes de modos quasi-harmônicos (ou
quasimodos) ou modos vindos de PCA, que são obtidos diretamente da matriz de covariância
calculados para trajetórias de MD (Karplus, M. et al., 1981; Levy, R. M. et al., 1982; Levy, R.
M. et al., 1984). A matriz consensus de covariância é construida usando informações
analíticas da forma da superfície quadrática de energia potencial na região de cada mínimo
amostrado (cada pose da MD), enquanto que os quasimodos ou modos do PCA contêm
somente informação da amostra, sem primeiras ou segundas derivadas. Em particular, nota-se
que os quasimodos não possuem muita informação de escalas de tempo mais longas que as
MD que lhes deram origem (Balsera, M. A. et al., 1996). Em contraste, como os CM
incorporam informações topológicas de múltiplos mínimos, esses modos correspondem a
escalas de tempo maiores que as MD usadas para calculá-los.
79
3. Objetivos
O estudo descrito neste capítulo tem como objetivo principal o desenvolvimento de
um novo método para investigar a flexibilidade em macromoléculas, que integra informações
da dinâmica molecular (MD) com análise dos modos normais (NMA), usando como sistema
de aplicação a protease do HIV-1.
Como objetivos específicos têm-se:
•
desenvolver um método mais robusto à variação de estruturas: o cálculo dos
modos consensus para descrever movimentos coletivos em macromoléculas.
•
Mostrar e comprovar a limitação da NMA, quando aplicada para diferentes
estruturas provenientes da MD.
•
Validar o método de obtenção dos modos consensus a partir da análise de
múltiplos mínimos, e apresentá-lo como solução à limitação da NMA.
•
Desenvolver uma teoria relacionada a esse conjunto de modos consensus
•
Identificar e estudar movimentos biologicamente relevantes dentre os modos
consensus calculados para a protease do HIV-1.
80
4. Procedimentos e Metologia Aplicada
4.1. Parâmetros das simulações de MD
As simulações de MD foram feitas com a PR na forma apo (sem ligantes) utilizando a
estrutura código 1hhp (Spinelli, S. et al., 1991) do PDB, para se obter as múltiplas estruturas,
cujos modos normais serão calculadas para cada estrutura e posteriormente utilizados no
cálculo dos CM.
As simulações de MD foram realizadas com o programa NAMD 2.6 (Phillips, J. C. et
al., 2005), usando os parâmetros do campo de forças CHARMM22 (Mackerell, A. D., Jr. et
al., 2004). A estrutura da protease do HIV-1 (homodímero) na forma apo foi solvatada a
partir de uma caixa d’água cúbica pré-equilibrada (100 ps de MD), utilizando o modelo de
águas TIP3P (Jorgensen, W. L. et al., 1983), com condições periódicas de contorno. O
sistema com aproximadamente 55 mil átomos, compreendendo proteína, moléculas de água e
íons (utilizados para equilibrar as cargas do sistema), foi submetido a um procedimento de
otimização da estrutura por minimização de energia, com restrição das posições dos átomos
pesados (não-hidrogênio) harmonicamente (50 kcal/mol/Å).
Outro fator que pode influenciar em simulações de MD é o fato de que quando se
simula num ensemble NPT (número de átomos, pressão e temperatura constantes), para iniciar
a simulação numa certa temperatura, é necessário o sorteio das velocidades atômicas e isso
pode gerar alguns artefatos. Para evitar isso, optamos por fazer um procedimento de
aquecimento do sistema, que consiste no sorteio das velocidades atômicas a uma baixa
temperatura (20 K) e acoplar o sistema a um banho térmico do tipo Berendsen (Berendsen, H.
J. C. et al., 1984), com uma constante de acoplamente relativamente grande, 0,67 ps, para
ocorrer um aumento gradual da temperatura (como pode ser visto na figura IV.2), realizando
81
uma MD curta (72 ps), sempre mantendo restritas de forma harmônica (5 kcal/mol/Å) as
posições dos átomos pesados da PR.
Após o aquecimento, utilizamos a estrutura e as velocidades finais como entrada para
o processo de equilibração, onde as restrições de posição foram variadas
de 1 a
0 Kcal/mol/Å, durante 1.2 ns e a constante de acoplamento da temperatura para 0.1 ps. Após
isso, as restrições foram removidas e as distâncias entre o aminoácido catalítico e a ponta do
flap (Ile50) de cada cadeia foi acompanhada até que essas distâncias se apresentassem mais
simétricas (depois de 3 ns). Depois dessa etapa de equilibração, foi iniciada a etapa de
produção de 10ns (usada para as análises).
Nas simulações de MD foi empregado PME (Ulrich, E. et al., 1995) para a correção
das interações eletrostáticas. Foram usados raios de corte de 12 Å para van der Waals e 10 Å
para Coulomb. Para ser possível usar um tempo de integração de 2 fs, utilizamos vínculos
para as ligações da água, SETTLE (Miyamoto, S. et al., 1992) e para os átomos da proteína
usamos SHAKE (Ryckaert, J.-P. et al., 1977).
4.2. Cálculo dos Modos Normais
Todos os calculos de NM foram realizados utilizando-se o modulo VIBRAN do pacote
de programas CHARMM (57), utilizando o mesmo campo de forças da MD. Com a finalidade
de se calcular os modos consensus, foram tomadas 20 estruturas, a cada 50 ps, do primeiro
nanossegundo da MD de produção de 10 ns. É importante enfatizar que os CM foram
calculados somente a partir dos NM calculados sobre 20 estruturas tiradas de 1ns da MD.
Para cada uma das 20 poses da MD (snapshots), o sistema considerado para os
cálculos de NM consistia no dímero da PR mais a primeira camada de solvatação (que foi
considerada tomando as moléculas de água que apresentavam seu oxigênio a uma distância de
até ≈ 4 Å dos átomos da proteína). Esta camada de água foi utilizada para evitar o colapso
das alças da PR durante o processo de minimização, requerimento obrigatório para a
82
realização da NMA. Cada sistema (5919 átomos) possuía o mesmo número de moléculas de
água (2700 átomos). Os 20 sistemas foram submetidos à minimização de energia pelo método
de gradientes conjugados, até atingir um gradiente de energia menor que 10-5 Kcal/mol/Å,
antes do cálculo dos NM.
4.3. Cálculo dos modos consenso
Após o cálculo dos NM para cada uma das 20 poses da MD, as trajetórias para os 97
modos de baixa frequência (excluindo os 6 modos de translação/rotação nas 3 dimensões)
foram geradas, tomando como referência a estrutura do primeira pose da MD. Para um dado
modo, a trajetória consistia de um completo período harmônico, contendo 9 pontos, sendo
estas amplitudes escaladas por um fator de temperatura apropriado. Todas estas 20 trajetórias
foram concatenadas em uma única trajetória da qual a matriz de covariança consensus σ, para
uma dada seleção, foi gerada, e os autovalores e autovetores para os 97 CM foram calculados
usando a opção QUASI do modulo VIBRAN do programa CHARMM. Dependo da análise, a
matriz de covariança consensus foi calculada para os átomos da PR (excluindo as moléculas
de água) ou somente para os átomos de Cα.
4.4. Cálculo dos modos quasi-harmônicos (quasimodos)
Os modos quasi-harmônicos, ou quasimodos, foram computados tanto para todos os
átomos da proteína quanto para somente os Cα. No caso formal, as coordenadas cartesianas
são ponderadas pela raiz quadrada de suas massas atômicas correspondentes. A matriz de
covariância dessas massas ponderadas muda com respeito aos seus valores médios
(variância), que foram calculados sobre 5000 estruturas tidas da simulação de MD de 10ns,
sendo um quadro a cada ps. Essas matrizes foram diagonalizadas para obter os quasimodos,
usando o comando QUASI do módulo VIBRAN no CHARMM.
83
4.5. Overlap entre os CM e outros movimentos
O overlap entre um dado vetor Mi que descreve um modo e um outro vetor X é obtido
através das suas projeções normalizadas,
Oi (X) = Mi X/ Mi X
onde Mi é tipicamente o vetor que descreve um modo consenso ou um modo normal e X pode
ser um vetor de um modo proveniente de outro cálculo, como um vetor que representa um
quasimodo ou um PCA, ou um vetor representando uma mudança conformacional entre duas
estruturas distintas. Uma correspondência perfeita representa um overlap de valor 1.
Nós definimos o overlap cumulativo (CO) entre os primeiros k modos de baixa frequência e o
vetor X como:
CO ( X, k ) =
(∑
)
1
O 2 (X ) 2
i =1, k i
CO é uma medida que mede o quão bem o espaço definido por um determinado
conjunto de modos (neste trabalho consideramos k=97) pode representar um dado movimento
descrito pelo vetor X.
4.6. Grau de coletividade de um movimento
A coletividade de um movimento de uma proteína pode ser dado como a fração dos
átomos que participam significantemente em um dado movimento (Bruschweiler, R., 1995;
Tama, F. et al., 2001). Para um dado modo com 3N elementos αi, o grau de coletividade к é
definido como:
κ=
⎛ 3N
⎞
1
exp ⎜ - ∑ α i2 log α i2 ⎟
N
⎝ i =1
⎠
Se к = 1, a mudança conformacional é o máximo coletiva, ou seja, todos os átomos
participam do movimento e se к se aproxima de 1/N, poucos átomos, ou somente um, estão
envolvidos no movimento.
84
4.7. Datasets para Análise dos Componentes Principais (PCA)
Todas as estruturas da PR utilizadas nesta análises foram obtidas a partir do PDB e
somente as coordenadas dos Cα foram consideradas. O cojunto de dados “RMN” compreende
28 estruturas presentes no arquivo PDB com o código 1BVE. O grupo “Cristal” contém 270
estruturas da PR, sem resíduos faltando. Na figura abaixo (Fig. IV.2.), uma lista dos códigos
identificadores das estruturas do PDB (A) e o RMSD para cada estrutura depois de
superposição.
Fig. IV.2. A: lista de PDB ID das estruturas usadas no dataset “Crystal”. B: RMSD ordenado de forma
crescente desvio, para cada estrutura depois de superposição tomando como referência a estrutura
média.
85
5. Resultados e Discussões
5.1. Dinâmica Molecular
O sistema foi extensivamente equilibrado para que os modos derivados dessa MD
refletissem a dinâmica de estruturas pertencentes a um estado estacionário da simulação,
evitando assim artefatos devido à solvatação ou às diferenças entre os ambientes cristalinos e
das condições periódicas de contorno da caixa cúbica de água (Janin, J. et al., 1995; Meagher,
K. L. et al., 2005). Como a estrutura utilizada foi determinada através da técnica de
Cristalografia e Difração de Raios-X, é importante ressaltar que é comum a formação de
contatos cristalinos entre as células unitárias, o que pode estabilizar regiões flexíveis em
conformações diferentes das encontradas em solução. Outro fator que pode influenciar na
realização de simulações de MD é a correta solvatação do sistema. Diferentes programas de
MD, para a representação explícita das moléculas de água geram as posições das moléculas de
água de uma forma periódica (respeitando as distâncias médias entre moléculas de água e o
soluto) ou utilizam repetições de uma caixa de água pré-equilibrada (com centenas de
moléculas de água) para o cálculo das posições das milhares de moléculas de solvente numa
simulação de MD.
Com isso, torna-se crucial para a realização de uma simulação de MD a realização de
etapas de equilibração do sistema para evitar a desestruturação da proteína, ou de regiões da
mesma e equilibrar o solvente. Para procurar minimizar esses problemas, nas etapas de
equilibração é utilizada uma restrição de posição com um potencial harmônico sobre os
átomos pesados da proteína. O processo de otimização esta detalhado na figura IV.3.
86
1
Aquecimento
2
300
Minimização de Energia
250
T (K)
200
100
Equilibração
3
150
50
1 Kcal/mol/Å
0
0
10
20
30
40
50
60
70
80
0 Kcal/mol/Å
Constraint Force (Kcal/mol)
200
160
120
80
40
0
0
100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 1400 1500
Time (ps)
1.8
1.6
RMSD (Å)
1.4
1.2
1
0.8
0.6
0.4
0.2
0
0
100
200
300
400
500
600
700
800
Time (ps)
900 1000 1100 1200 1300 1400 1500
distance between Ile 50 CA and ASP 25 CA (Å)
time (ps)
Eq. 2
25
chain A
Produção
3 ns
chain B
10ns
20
15
10
5
4
5
0
0
3
6
9
12
15
18
21
24
time (ns)
Fig. IV.3. Etapas de Otimização e Equilibração do Sistema. Na etapa 1, foi feita uma minimização de
energias pelo método de gradiente conjugado, utilizando uma força de restrição de 50 Kcal/mol/Å. A
etapa 2 consiste de um processo de termalização onde as velocidades atômicas são sorteadas para
obter-se uma distribuição de Boltzmann (gaussiana) para uma temperatura média de 20 K. Utiliza-se
um acoplamento térmico do tipo Berendsen para uma temperatura de 300 K, com uma constante de
acoplamento de 0,67 ps, que faz com que a temperatura do sistema aumente de uma forma lenta e
gradual até atingir a temperatura na qual o sistema será simulado, utlizando restrição de posição para
os átomos pesados (5 Kcal/mol/Å), evitando que haja movimentos bruscos ocasionados pela geração
aleatória das velocidades atômicas. O ensemble utilizado é NPT (número de átomos, pressão e
temperatura constantes, permitindo variações no volume). Após a termalização, as velocidades da
etapa anterior são utilizadas para o início das etapas de equilibração. Na etapa 3, tem-se como objetivo
a formação e estruturação das camadas de solvatação ao redor da proteína e reduzir as restrições de
posição para os átomos da proteína, liberando a acomodação da proteína ao solvente. Como nas
etapas subsequentes, um controle mais estreito da temperatura será efetuado, com o uso da constante
de acoplamento de 0,1 ps (valor usual em MD). Como representado na figura, a constante harmômica
de restrição foi variada em forma de escada de 1 Kcal/mol/Å à 0, a cada 100 ps: 1 K; 0,9 K; 0,8 K;
0,7 K; 0,6 K; 0,5 K; 0,4 K; 0,3 K; 0,2 K; 0,1 K; 0,05 K; 0,025 K; 0,01K; 0,005 K e 0. Logo abaixo, no
mesmo quadro está mostrado á força de restrição que foi aplicada ao sistema para manter as
restrições impostas. Mas abaixo ainda, está o desvio da estrutura no tempo, em relação à estrutura
inicial (RMSD). Como a PR é um homodímero, utilizamos um critério para avaliar o comportamento da
PR durante o processo de equilibração, e após a eliminação das restrições de posição, acompanhamos
a distância entre o CA do resíduo catalítico (Asp25) e o CA do resíduo da ponta da alça (Ile50) para
cada cadeia. Durante os 3 primeiros nanossegundos (etapa 4 - Eq.2), o comportamento das alças da
PR de cada cadeia (região mais flexível da PR) não apresentou um comportamento simétrico.
Escolhemos então para etapa de produção (5) (dados usados para as análises) os 10 ns após
(3-13 ns), pois a PR apresentou um perfil bastante simétrico.
Em 2005, Meagher e colaboradores mostraram a importância crítica da equilibração
no caso da protease do HIV quando simulada sem ligantes, pelo fato de a cavidade do sítio
87
ativo ter de ser preenchida com moléculas de água, os autores mostraram nesse trabalho que
se a solvatação não for adequada (problema resolvido com a equilibração do sistema usando
restrição das posições dos átomos da proteína para ocorrer a equilibração do solvente), podese formar como um vácuo que faz com que as alças da PR colapsem (Meagher, K. L. et al.,
2005).
Um dos critérios seguidos pelos autores foi acompanhar o número de moléculas de
água dentro do sítio ativo. Nesta tese, resolvemos fazer esse mesmo cálculo, e de acordo com
as definições usadas nesse trabalho, foi então construído um script para fazer este cálculo em
nossas simulações, como representado na Tabela IV.1.
Tabela IV.1. Número de moléculas de água na cavidade do sítio ativo.
Neste trabalho Meagher e colaboradores
Número inicial
46
27
Depois da minimização
46
ND
Depois do aquecimento
79
ND
Depois da equilibração inicial
72
85
Depois da equilibração total
89
89
Tabela IV.1. Número de moléculas de água na cavidade do sítio ativo calculado seguindo os critérios
de Meagher et al. 2005.
Com estes resultados, fica clara a importância de se fazer etapas de equilibração antes
de se começar a analisar a MD, com o sistema ainda em desequilíbrio. Nossos resultados
estão em concordância com o estudo realizado por Meagher e colaboradores.
Uma segunda forma de validação da nossa simulação de MD, desta vez comparandose com resultados experimentais de RMN, é calcular, a partir da trajetória da MD, o
parâmetro de ordem S2 entre os vetores internucleares do H e N amídicos para cada resíduo,
88
obviamente excluindo-se as prolinas. A figura IV.4 mostra a comparação entre resultados da
MD e do experimento:
parâmetro de ordem S2 entre
o N-H amídicos
1
0.9
0.8
0.7
exp
0.6
MD
0.5
0.4
0.3
0.2
0.1
0
0
25
50
75
100
resíduo
Fig. IV.4. Concordância entre o parâmetro de ordem S2 entre os vetores correspondentes ao N e H
amídicos calculados à partir da trajetória da MD (10 ns) e os resultados experimentais de RMN.
Como se pode notar, existe uma ótima correspondência entre os valores calculados da
MD e os experimentais também com a protease livre de ligantes, pelo grupo de Freedberg
(Freedberg, D. I. et al., 2002). É importante destacar, que é bastante difícil obter uma boa
concordância como a deste trabalho, sendo que algumas dificuldades relacionadas a este fato
foram relatadas na literatura: o grupo de Meagher encontrou uma correspondência somente
qualitativa entre os valores calculados e os experimentais (Smith, P. E. et al., 1995; Case, D.
A., 2002; Meagher, K. L. et al., 2005).
89
5.2. Os modos consensus refletem o comportamento da média do
sistema
As flutuações (RMSF) para os Cα obtidas dos modos consensus (CM) e da NMA
sobre as 20 estruturas da MD (usadas para o cálculo dos CM) são mostradas na figura IV.5.
0.6
RMSF (Å)
0.5
0.4
0.3
0.2
0.1
0
0
25
50
75
100
125
150
175
200
Resíduos
Figura IV.5. RMSF calculado para cada Cα. As linhas finas coloridas correspondem ao RMSF derivado
de cada determinação de NM (cada um dos 20 snapshots da MD); em preto e negrito, derivados dos
CM. A média dos RMSF dos 20 snapshots da MD (vermelho em linhas grossas) e a flutuação
normalizada derivada dos fatores-B do cristal 1hhp (linha verde grossa). Os resíduos da proteína estao
numerados de 1-99 (cadeia A) e 100-198 (cadeia B).
As flutuações derivadas dos CM (em preto) correspondem à média das flutuações dos
NM calculados sobre os 20 snapshots (linha grossa vermelha). A dependência dos NM para as
diferentes estruturas amostradas (diferentes regiões da superfície de energia potencial) é
especialmente representada no diferente perfil de flutuações obtidas para cada snapshot
(linhas finas coloridas) que apresentam vários picos que não estam presentes nos CM. Esses
picos refletem flutuações não usuais que podem ocorrer para uma estrutura em particular, mas
que são de pouca importância para o comportamento médio da molécula. Os CM parecem
filtrar esses movimentos não usuais, mostrando um comportamento de média, uma das razões
para chamarmos de “modos consenso”.
90
A variabilidade observada nos NM de estruturas individuais pode ter várias fontes:
pode ser originada tanto de pequenas variações nas posições atômicas, ou mudanças nas
interações entre os grupos de átomos; como exemplo, mudanças na organização das camadas
de solvatação ao redor da proteína. O processo de minimização de energia e o campo de
forças, essencias para o cálculo de NM, podem também introduzir variabilidade. Por exemplo,
após o procedimento de minimização de energia, uma dada estrutura tipicamente varia na
ordem de 0,6 a 1 Å da estrutura inicial. No caso de proteínas com domínios bastante flexíveis
ou grandes cavidades, essas regiões podem colapsar quando submetidas à minimização de
energia no vácuo. O uso de múltiplas estruturas reduz então a influência desses artefatos,
tendo como resultado modos mais robustos.
As flutuações dos CM estão em ótima concordância com as obtidas dos fatores-B
(linhas verdes grossas) da estrutura da PR sem ligantes, código PDB 1hhp (Spinelli, S. et al.,
1991), apresentando uma correlação entre elas de aproximadamente 0,69. Outra característica
bastante marcante dos CM é que suas flutuações apresentam alta simetria entre as duas
cadeias da PR (R=0,87), em contraste com os resultados obtidos de NMA de estruturas
individuais, para os quais a correlação entre cadeias foi de 0,42±0.1 (média ± desvio padrão).
5.3. Modos consensus descrevem um espaço conformacional mais
completo para a descrição de movimentos de grande amplitude
Quando se compara as flutuações atômicas (RMSF) obtidas dos CM (1ns) com as
derivadas dos modos quasi-harmônicos (quasimodos) calculados sobre a trajetória de 10 ns da
MD (como são apresentadas na figura IV.6), pode-se observar que ambos os perfis são muito
similares, mostrando que os CM descrevem bem os principais movimentos da MD; o que não
é o caso quando os NM de snapshots individuais são considerados separadamente (Fig. IV.4).
Por esta análise, não é possivel inferir que o espaço dos movimentos de grande amplitude
descritos pelos CM difere dos descritos pelos modos quasi-harmônicos.
91
modos consensus (1ns)
0.35
quasimodos MD (10ns)
0.3
RMSF (Å)
0.25
0.2
0.15
0.1
0.05
0
0
20
40
60
80
100
120
140
160
180
200
resíduos
Figura IV.6. Comparação das flutuações (RMSF) dos átomos da proteína, representados para cada
residuos, entre os CM (1ns), em preto; e os quasimodos da MD (10 ns), em vermelho. As flutuações
derivadas dos quasimodos da MD foram escalados por um fator de 0,1, para melhor sobreposição das
curvas.
Com o intuito de verificar quanto o espaço conformacional dos CM pode representar
os movimentos dos quasimodos da MD, e vice e versa, foi necessário fazer uma análise de
projeção cumulativa (ver a seção de Métodos). Esta análise mostra que os vetores dos
quasimodos derivados da MD de 10ns apresentam uma sobreposição cumulativa (overlapping
cumulativo - CO) com os vetores dos CM maior que 0,8 para os 20 modos de maior
amplitude (Figura IV.7, linha preta), sendo que os 3 de maior amplitude apresentam um valor
próximo a 1. Isto significa que os movimentos de grande amplitude vistos na MD de 10 ns
estão bastante representados no espaço conformacional dos CM de baixa-frequência. O
inverso não é valido, ou seja, os movimentos de baixa frequência dos CM são pobremente
representados no espaço dos quasimodos (Figura IV.7, linha vermelha). Como mencionado
anteriormente, isto é devido ao fato de que os CM são calculados levando-se em conta a
forma da superfície da energial potencial, que vem de NMA para um ensemble de estruturas
vindas da MD. É importande destacar que no caso de análise dos componentes principais
92
(PCA) ou na ánalise dos quasimodos, normalmente os 3-10 modos de maior amplitude
acontam pela maioria (60-90%) dos movimentos totais da proteína, definindo um espaço
essencial, representando os principais movimentos de larga-escala (Amadei, A. et al., 1993).
1.0
0.9
Cum. Overlap
0.8
0.7
0.6
0.5
0.4
0.3
0.2
quasimodos MD (10ns) / CM (1ns)
0.1
CM (1ns) /quasimodos MD (10 ns)
0.0
0
20
40
60
80
100
modos
Figura IV.7. Concordância entre os CM de baixa-frequência e os quasimodos da MD de 10ns. Análise
de projeção cumulativa (cumulative overlap) quando cada vetor dos CM é projetado sobre os 97 modos
de mais baixa frequência dos quasimodos da MD (linha vermelha) e o inverso (preto). A numeração
dos modos está em frequências crescentes.
5.4. CM calculados de estruturas do 1 ns da MD são mais coletivos
que os quasimodos de uma trajetória de MD de 10 ns
O termo “coletividade” quando associado, a um movimento, é a medida da natureza de
cooperatividade dos deslocamentos atômicos de algum movimento. Este conceito foi
colocado em forma de cálculo, de forma análoga ao cálculo de entropia, por Brüschweiler
(Bruschweiler, R., 1995). Movimentos coletivos têm sido relacionados a mudanças
conformacionais biologicamente importantes. A figura IV.8 mostra que os 40 CM de mais
baixa frequência (linha preta) apresenta maior coletividade que os quasimodos de MD de 10
ns (linha vermelha).
93
Média dos NM (±SD)
CM (1ns)
quasimodos MD (10ns)
0.9
κ (co letivid ad e)
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
10
20
30
40
50
modo
60
70
80
90
100
Figura IV.8. Grau de coletividade dos movimentos da PR. O índice de coletividade κ foi calculado como
descrito na seção anterior, para cada CM derivado de MD de 1ns (linha preta) e para os quasimodos
calculados sobre a MD de 10ns (vermelho). Também foi calculado á coletividade media (em verde)
±SD sobre os NM das 20 estruturas da MD; os números dos modos são ordenados em frequências
crescentes.
Notadamente, os CM apresentaram alta coletividade concentrada nos modos de baixa
frequência, enquanto nos quasimodos da MD não foi vista nenhuma dependência da
frequência. Curiosamente, os valores da coletividade média dos NM calculados sobre as 20
estruturas da MD são significantemente menores que as dos CM, e bem maiores que as dos
quasimodos. Além disso, enquanto a figura IV.4 mostra que o perfil de flutuações dos CM é
fortemente relacionado à média das flutuações (pois os CM foram calculados da matriz média
de covariância dos NM), não existe uma relação simples com as coletividades dos NM
individuais. A alta coletividade é então uma propriedade adicional dos modos consensus que
integram as características da superfície de energia em torno de vários pontos.
5.5. Versatilidade em calcular os CM para diferentes subconjuntos
de átomos
Nos cálculos dos CM, as minimizações de energia e NMA são primeiramente feitas
para uma série de estruturas (20 estruturas do primeiro nanossegundo da MD – a cada 50 ps,
neste trabalho), sendo o sistema composto da proteína mais a primeira camada de solvatação
94
de quadros vindos de simulações de MD. Após as NMA, a matriz de covariância consenso
ponderada pela massa (σCM) pode ser calculada para qualquer sub-conjunto de átomos (ex.
somente a proteína, esqueleto peptídico, Cα, etc), e ser diagonalizada, resultando nas direções
dos CM e suas respectivas frequências para a seleção de átomos considerada. Os resultados
dos CM apresentados nas seções anteriores correspondem a um subconjunto dos átomos do
sistema aos quais as NMA foram computadas, pois foram calculados os CM para somente a
proteína, sendo assim levam em conta (implicitamente) a influência de diferentes
configurações das moléculas de água. Posteriormente, uma nova redução foi feita,
considerando apenas o subconjunto de Cα átomos do sistema. Uma vantagem clara desse
procedimento é que movimentos redundantes do esqueleto peptídico e cadeias laterais são
eliminados, uma vez que os autovetores são ortogonais. Mais que isso, ele leva a uma melhor
caracterização média dos vetores integrando o efeito principal de acoplamentos específicos da
cadeia lateral com o esqueleto peptídico. Essa média permite a filtragem (exclusão) de
movimentos locais e leva a uma melhor representação dos movimentos globais. Usar somente
os Cα nos permite também a comparação de proteínas com o mesmo número de resíduos (ou
domínios conservados numa família protéica), mas com sequências diferentes, tornando
possíveis estudos de homologia de movimentos funcionais.
Para comparar os resultados dos CM com movimentos inferidos das centenas de
estruturas cristalográficas da PR, nós então recalculamos os CM para o sub-conjunto dos
átomos dos Cα dos resíduos da PR (Cα-CM). Foi então realizado PCA para 3 diferentes
conjuntos de dados, como descrito na seção de métodos. A figura IV.9 mostra que o subespaço dos Cα-CM (97 modos de mais baixa frequência) descreve muito bem a dinâmica
essencial dos 3 grupos de dados, com uma sobreposição cumulativa entre 0,60 e 0,97. Para os
movimentos da MD de 10 ns, considerando somente os Cα, obtem-se um alto valor de CO
entre cada quasimodo e os Cα-CM. É interessante notar que os Cα-CM representaram muito
95
melhor o subespaço dos movimentos da MD que quando se considera todos os átomos da
proteína (valores de CO entre 0.75 e 0.90) (figura IV.7). Essa melhora na descrição dos
CO
movimentos vem do processo de média, como discutido anteriormente.
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
MD
RMN
cristal
0
2
4
6
8
10
12
14
16
18
20
22
24
26
28
modos
Figura IV.9. Concordância entre os CM-Cα e os vetores da PCA de 3 datasets. Análise de projeção
cumulativa (cumulative overlap, CO) quando cada vetor dos CM-Cα é projetado sobre os 97 PC de
maior amplitude da MD (linha preta), da PCA sobre as 270 estruturais cristalográficas (vermelho) e
sobre as 28 estruturas de RMN (verde). A numeração dos modos está em frequências crescentes.
Os CM se mostraram bastante eficientes em descrever o espaço dos movimentos de
baixa frequência para os outros dois grupos de dados, as estruturas obtidas por Raios-X e de
RMN, porém o CO não foi tão alto quanto o dos quasimodes da MD. Isto se deve ao fato de
quase a totalidade das estruturas se encontrarem em complexos com inibidores/sustratos, e
apresentando assim em suas estruturas as alças na posição fechada. No entanto, a estrutura
inicial da MD utilizada foi da PR sem ligantes, com as alças na conformação semi-aberta.
5.6. Movimentos biologicamente relevantes descritos pelos CM
Movimentos coletivos de baixa-frequência/grande amplitude são importantes na
descrição da dinâmica de proteínas em uma escala de tempo grande, consistindo em muitos
96
casos em movimentos de domínios que estão muitas vezes relacionados a funções biológicas.
Um dos aspectos mais importantes provenientes dos nossos resultados é que os CM permitem
a caracterização de movimentos de escalas de tempo maiores que as das MD das quais as
estruturas foram tomadas para o seu cálculo. No presente estudo, foram amostradas 20
estruturas do primeiro nanossegundo da simulação de MD. Os CM descrevem movimentos de
escalas maiores que uma ordem de grandeza, no caso 10 ns de MD.
Em nossas análises da PR usando os CM, os modos de mais baixa frequência estão
relacionados a movimentos de expansão ou deformação do sítio ativo, resultando
principalmente em movimentos de translação/rotação entre os monomeros da PR. Destacamse entre esses movimentos de grande amplitude principalmente os da região das alças, como
pode ser visto na figura IV.10, que descreve esses movimentos e destaca sua importância para
a ligação de substratos/inibidores.
Tanto nos Cα-CM quanto nos CM calculados para todos os átomos da PR, foram
encontrados modos relacionados a movimentos na região das alças. O terceiro modo de mais
baixa frequência descreve o mecanismo de abertura e fechamento das alças. Já o quinto modo,
descreve o aumento da distância entre as pontas das alças (tips) e cada aminoácido catalítico
(Asp25), que está diretamente relacionado com mudanças na forma e volume do sítio ativo.
Este modo está relacionado à plasticidade intrínsica do sítio ativo da PR em se ligar e
acomodar diferentes ligantes. Para demonstrar isso, foram comparadas duas estruturas de PR
complexadas a inibidores com diferenças representativas no volume e tamanho, como no
estudo de Teodoro e colaboradores: 4HVP and 1AID (Fig. IV.10 B), onde o grupo mostrou
uma boa concordância entre o primeiro modo coletivo e as diferenças na região das alças
destas duas estruturas (Teodoro, M. L. et al., 2003). No nosso trabalho, o quinto Cα-CM de
mais baixa frequência descreve muito bem a transição conformacional entre essas duas
97
estruturas (Fig. IV.10 A), com um overlapping de 40% entre os vetores desse CM e os vetores
que descrevem essa mudança conformacional, como descrito na seção de métodos.
Ligação a diferentes inibidores
A
B
4hvp
1aid
modo 5
Formas ligada e livre
C
D
1hhp – semi-aberta – sem ligante
4hvp – fechada – com ligante
modo 3
modo 5
Figura IV.10. Movimentos de baixa frequência dos CM descrevem a flexibilidade intríseca da região das
alças da PR. A) Representação do traçado do esqueleto peptídico das duas estruturas ligadas a
inibidores diferentes, 4hvp (em azul) e 1aid (em vermelho) e as estruturas intermediárias descritas
pelo quinto CΑ-CM de baixa frequência. B) Esse modo descreve bem a mudança da forma e volume do
sítio ativo necessária para acomodar ligantes de variados tamanhos e volumes; C) Representação da
sobreposição do esqueleto peptídico das formas ligada(4hvp) e livre (1hhp, em vermelho) da PR;
D) São representados os vetores (setas) do 3° e 5° CM de mais baixa frequência envolvidos em
movimentos que descrevem a mudança conformacional entre as formas fechada (com ligante) para a
semi-aberta (sem ligantes). Mais que isso, o 3° modo descreve a abertura/fechamento das alças. As
flechas grossas representam as direções principais dos movimentos.
98
Os terceiro e quinto CM de mais baixa frequência descrevem o mecanismo de abertura
e fechamento das alças da PR, assim como descreve mudanças estruturais ocorridas com a
interação com ligantes – quando a PR está ligada a inibidores (4HVP) – e a forma apo
(1HHP), ver figura IV.10 C. Esses movimentos são importantes para entrada e estabilização
do ligante no sítio ativo. Cada um desses CΑ-CM apresenta um overlap de aproximadamente
30% com a transição conformacional entre as estruturas 4HVP para 1HHP. As direções
desses movimentos estão apresentados na figura IV.10 C e D. Foi observado também que os
movimentos na região das alças está acoplado com movimentos em outros domínios da PR,
como os cotovelos das alças. Isto sugere que possivelmente mutações nessa região podem
alterar a dinâmica das alças e assim interferir com a acessibilidade e interação de ligantes no
sítio ativo.
99
6. Conclusões
Este capítulo descreve um novo método para se obter movimentos representativos
relacionados a um conjunto de estruturas, baseado na curvatura da superfície de energia
potencial para cada conformação, fazendo uso da teoria de modos normais. Foi mostrado que
tais modos consenso correspondem, de certa forma, a uma média dos modos normais, sendo
assim são descrições mais robustas dos movimentos vibracionais de uma macromolécula que
os modos normais obtidos de uma estrutura única.
Os CM se mostraram mais coletivos que os quasimodos obtidos da MD e que a
determinação de NM para estruturas individuais. Eles descrevem movimentos que
correspondem a escalas de tempo que podem ser maiores que uma ordem de grandeza que o
período da trajetória de MD das quais eles foram calculados.
No caso da PR, que tem sua estrutura como um homodímero, os CM mostram uma
simetria entre as cadeias muito maiores que os NM calculados de cada estrutura ou aos modos
quasi-harmônicos da MD. Neste trabalho, as estruturas amostradas em diferentes pontos da
superfície de energia potencial foram provenientes de poses da MD. Em princípio, o conjunto
de estruturas poderia vir de diferentes fontes. No caso da MD, é uma fonte relevante devido
ao fato de a MD explorar diversos pontos da superfície de energia potencial, respeitando a um
grupo de parâmetros, conhecidos como campos de forças, que são os mesmo utilizados no
cálculo dos NM. Podemos destacar outras duas fontes experimentais de estruturas: (i) as mais
de 270 estruturas cristalográficas e (ii) as múltiplas estruturas de RMN, obtendo assim modos
mais robustos e com isso uma melhor descrição dos movimentos globais da PR.
A análise dos CM pode permitir a identificação de resíduos que tem um papel chave
em movimentos funcionais relacionados com o reconhecimento e interação de ligantes, por
exemplo, podendo ser de grande utilidade para auxiliar em experimentos de mutagênese
100
dirigida. Movimentos descritos pelos CM podem ser explorados usando minimização de
energia ou MD com restrições harmônicas nas direções dos modos, para se obter uma melhor
descrição estrutural e energética de mudanças conformacionais. (Floquet, N. et al., 2006a;
Floquet, N. et al., 2008; Floquet, N. et al., 2009).
101
“Para o sangue, sou o veneno, eu mato, eu como, eu dreno
Para o resto da vida, sou extremo...
Sou o HIV que você não vê
Você não me vê, mas eu vejo você
(Rita Lee)
V. CONCLUSÕES GERAIS
Esta tese consistiu em duas bem sucedidas aplicações da MD: i. em estudos da
interação da PR de diferentes subtipos com o inibidor ritonavir; ii. como fonte de amostragem
estrutural para o desenvolvimento de uma nova metodologia para o estudo da flexibilidade
protéica baseado na exploração de múltiplos mínimos por NMA.
No primeiro caso, foi descrito o mecanismo molecular para explicar a menor afinidade
de PR subtipos não-B contra o ritonavir, dando origem ao primeiro trabalho de dinâmica
molecular da PR de subtipos não-B. Isto ficou como um marco do início dos estudos
estruturais em subtipos não-B do HIV, visto que até o momento da publicação do artigo sobre
este trabalho não existia nenhuma estrutura experimental, nem modelos estruturais de PR
subtipos não-B.
No segundo, foi descrito e desenvolvido um novo método para obtenção
de
movimentos representativos relacionados a um conjunto de estruturas, baseado na curvatura
da superfície de energia potencial para cada conformação, fazendo uso da teoria de modos
normais. Os CM descrevem movimentos que correspondem a escalas de tempo que podem ser
maiores que uma ordem de grandeza que o período da trajetória de MD das quais eles foram
calculados e são mais simétricos. Neste trabalho, as estruturas amostradas em diferentes
pontos da superfície de energia potencial foram provenientes de poses da MD. Em princípio,
102
o conjunto de estruturas poderia vir de diversas diferentes fontes, como: (i) as mais de 270
estruturas cristalográficas e (ii) as múltiplas estruturas de RMN, obtendo assim modos mais
robustos e com isso uma melhor descrição dos movimentos globais da PR.
A análise dos CM pode permitir a identificação de resíduos que tem um papel chave
em movimentos funcionais relacionados com o reconhecimento e interação de ligantes, por
exemplo, podendo ser de grande utilidade para auxiliar em experimentos de mutagênese
dirigida. Movimentos descritos pelos CM podem ser explorados usando minimização de
energia ou MD com restrições harmônicas nas direções dos modos, para se obter uma melhor
descrição estrutural e energética de mudanças conformacionais.
103
“Para o sangue, sou o veneno, eu mato, eu como, eu dreno
Para o resto da vida, sou extremo...
Sou o HIV que você não vê
Você não me vê, mas eu vejo você
(Rita Lee)
VI. REFERÊNCIAS
(Biomalpar), E. N. O. E. F. B. A. P. O. T. M. P. 2nd annual Biology and
Pathology of the Malaria Parasite conference, Heidelberg. 2006.
Abdel-Meguid, S. S. Inhibitors of aspartyl proteinases. Med Res Rev, v.13,
n.6, Nov, p.731-78. 1993.
Abecasis, A. B., K. Deforche, et al. Protease mutation M89I/V is linked to
therapy failure in patients infected with the HIV-1 non-B subtypes C, F or G.
Aids, v.19, n.16, Nov 4, p.1799-806. 2005.
Adamovic, I., S. M. Mijailovich, et al. The Elastic Properties of the
Structurally Characterized Myosin II S2 Subdomain: A Molecular Dynamics
and Normal Mode Analysis. Biophysical Journal, v.94, n.10, p.3779-3789.
2008.
Alcaraz, L. A., M. Del Alamo, et al. Structural mobility of the monomeric Cterminal domain of the HIV-1 capsid protein. Febs J, v.275, n.13, Jul,
p.3299-311. 2008.
Aline Thomas, K. H. M. J. F. D. P. Tertiary and quaternary conformational
changes in aspartate transcarbamylase: a normal mode study. 34: 96-112 p.
1999.
Amadei, A., A. B. Linssen, et al. Essential dynamics of proteins. ProteinsStructure Function And Bioinformatics, v.17, n.4, Dec, p.412-25. 1993.
Amorim, G. C., A. S. Pinheiro, et al. NMR solution structure of the reduced
form of thioredoxin 2 from Saccharomyces cerevisiae. J Biomol NMR, v.38,
n.1, May, p.99-104. 2007.
Aqvist, J., V. B. Luzhkov, et al. Ligand binding affinities from MD
simulations. Acc Chem Res, v.35, n.6, Jun, p.358-65. 2002.
104
Aqvist, J. e J. Marelius. The linear interaction energy method for predicting
ligand binding free energies. Combinatorial Chemistry & High Throughput
Screening, v.4, n.8, DEC, p.613-626. 2001.
Aqvist, J., C. Medina, et al. A new method for predicting binding affinity in
computer-aided drug design. Protein Eng, v.7, n.3, Mar, p.385-91. 1994.
Arien, K. K., A. Abraha, et al. The replicative fitness of primary human
immunodeficiency virus type 1 (HIV-1) group M, HIV-1 group O, and HIV-2
isolates. J Virol, v.79, n.14, Jul, p.8979-90. 2005.
Asojo, O. A., E. Afonina, et al. Structures of Ser205 mutant plasmepsin II
from Plasmodium falciparum at 1.8 A in complex with the inhibitors rs367
and rs370. Acta Crystallogr D Biol Crystallogr, v.58, n.Pt 12, p.2001-8.
2002.
Asojo, O. A., S. V. Gulnik, et al. Novel uncomplexed and complexed
structures of plasmepsin II, an aspartic protease from Plasmodium
falciparum. J Mol Biol, v.327, n.1, p.173-81. 2003.
Atlas, A., F. Granath, et al. Impact of HIV type 1 genetic subtype on the
outcome of antiretroviral therapy. AIDS Res Hum Retroviruses, v.21, n.3,
Mar, p.221-7. 2005.
Baldwin, E. T., T. N. Bhat, et al. Crystal structures of native and inhibited
forms of human cathepsin D: implications for lysosomal targeting and drug
design. Proc Natl Acad Sci U S A, v.90, p.6796-6800. 1993.
Balog, E., J. C. Smith, et al. Conformational heterogeneity and low-frequency
vibrational modes of proteins. Phys Chem Chem Phys, v.8, n.47, Dec 21,
p.5543-8. 2006.
Balsera, M. A., W. Wriggers, et al. Principal component analysis and long
time protein dynamics. Journal of Physical Chemistry, v.100, n.7, Feb 15,
p.2567-2572. 1996.
Banerjee, R., J. Liu, et al. Four plasmepsins are active in the Plasmodium
falciparum food vacuole, including a protease with an active-site histidine.
Proc Natl Acad Sci U S A, v.99, n.2, p.990-5. 2002.
Banerjee, R. G., D. E. In: Antimalarial Chemotherapy, Mechanism of Action,
Resistance, and New Directions in Drug Discovery. ed. Rosenthal, P. J.
(Humana, Totowa, NJ), pp. 43–63. 2001.
Barrett, A. J., Ed. An introduction to the proteinases En: “Proteinase
Inhibitors”. Amsterdam.: Elsevier Science Publishersed. 1986.
Barrett, A. J., N. D. Rawlings, et al. The MEROPS database as a protease
information system. J Struct Biol, v.134, p.95-102. 2001.
105
Barton, D. H. R. Some Recollections of Gap Jumping. Oxford: Oxford
University Press. 1998
Batista, P. R., A. Wilter, et al. Molecular dynamics simulations applied to the
study of subtypes of HIV-1 protease common to Brazil, Africa, and Asia. Cell
Biochem Biophys, v.44, n.3, p.395-404. 2006.
Bellocchi, M. C., F. Forbici, et al. Subtype analysis and mutations to antiviral
drugs in HIV-1-infected patients from Mozambique before initiation of
antiretroviral therapy: results from the DREAM programme. J Med Virol,
v.76, n.4, Aug, p.452-8. 2005.
Benson, D. A., I. Karsch-Mizrachi, et al. GenBank. Nucleic acids research,
v.36, n.Database issue, Jan, p.D25-30. 2008.
Berendsen, H. J. C., J. P. M. Postma, et al. Molecular-Dynamics with
Coupling to an External Bath. Journal of Chemical Physics, v.81, n.8,
p.3684-3690. 1984.
Bernstein, F. C., T. F. Koetzle, et al. The Protein Data Bank: a computerbased archival file for macromolecular structures. Journal of molecular
biology, v.112, n.3, May 25, p.535-42. 1977.
Bernstein, N. K., M. M. Cherney, et al. Crystal structure of the novel aspartic
proteinase zymogen proplasmepsin II from plasmodium falciparum. Nat
Struct Biol, v.6, n.1, p.32-7. 1999.
Bernstein, N. K., M. M. Cherney, et al. Structural insights into the activation
of P. vivax plasmepsin. J Mol Biol, v.329, n.3, p.505-24. 2003.
Bhargavi, R., G. M. Sastry, et al. Structural and active site analysis of
plasmepsins of Plasmodium falciparum: potential anti-malarial targets. Int J
Biol Macromol, v.37, n.1-2, p.73-84. 2005.
Bjelic, S. e J. Aqvist. Computational prediction of structure, substrate
binding mode, mechanism, and rate for a malaria protease with a novel type
of active site. Biochemistry, v.43 n.46, p.14521-8. 2004.
Bjelic, S. e J. Aqvist. Catalysis and linear free energy relationships in
aspartic proteases. Biochemistry, v.45, n.25, p.7709-23. 2006.
Bocket, L., A. Cheret, et al. Impact of human immunodeficiency virus type 1
subtype on first-line antiretroviral therapy effectiveness. Antivir Ther, v.10,
n.2, p.247-54. 2005.
Bonilla, J. A., T. D. Bonilla, et al. Critical roles for the digestive vacuole
plasmepsins of Plasmodium falciparum in vacuolar function. Mol Microbiol,
v.65, n.1, p.64-75. 2007.
106
Born, M. e T. Von Kármán. Vibrations in Space Gratings (Molecular
Frequencies). Z. Physik., v.13, p.297-309. 1912.
Boss, C., O. Corminboeuf, et al. Achiral, cheap, and potent inhibitors of
Plasmepsins I, II, and IV. ChemMedChem, v.1 n.12, p.1341-5. 2006.
Boss, C., S. Richard-Bildstein, et al. Inhibitors of the Plasmodium falciparum
parasite aspartic protease plasmepsin II as potential antimalarial agents.
Curr Med Chem, v.10, p.883-907. 2003
Breman, J. G. The ears of the hippopotamus: Manifestations, determinants,
and estimates of the malaria burden. Am. J. Trop. Med. Hyg, v.64, p.1-11.
2001.
Brik, A. e C. H. Wong. HIV-1 protease: mechanism and drug discovery. Org
Biomol Chem, v.1, n.1, Jan 7, p.5-14. 2003.
Brinkworth, R. I., P. Prociv, et al. Hemoglobin-degrading, aspartic proteases
of blood-feeding parasites: substrate specificity revealed by homology
models. J Biol Chem, v.276 n.42, p.38844-51. 2001.
Brooks, B. e M. Karplus. Harmonic dynamics of proteins: normal modes and
fluctuations in bovine pancreatic trypsin inhibitor. Proc Natl Acad Sci USA,
v.80, n.21, Nov, p.6571-5. 1983.
Brooks, B. e M. Karplus. Normal modes for specific motions of
macromolecules: application to the hinge-bending mode of lysozyme. Proc
Natl Acad Sci U S A, v.82, n.15, Aug, p.4995-9. 1985.
Brooks, B. R., R. E. Bruccoleri, et al. Charmm - a Program for
Macromolecular Energy, Minimization, and Dynamics Calculations. Journal
of Computational Chemistry, v.4, n.2, p.187-217. 1983.
Brooks, C. L., M. Karplus, et al. Proteins: A Theoretical Perspective of
Dynamics Structure ad Thermodynamics. In: (Ed.). Advances in chemical
physics. New York: John Wiley & Sons, v.LXXI, 1988. Proteins: A Theoretical
Perspective of Dynamics Structure ad Thermodynamics
Bruschweiler, R. Collective Protein Dynamics and Nuclear-Spin Relaxation.
Journal of Chemical Physics, v.102, n.8, Feb 22, p.3396-3403. 1995.
Calazans, A., R. Brindeiro, et al. Low accumulation of L90M in protease from
subtype F HIV-1 with resistance to protease inhibitors is caused by the
L89M polymorphism. J Infect Dis, v.191, n.11, Jun 1, p.1961-70. 2005.
Caride, E., K. Hertogs, et al. Genotypic and phenotypic evidence of different
drug-resistance mutation patterns between B and non-B subtype isolates of
107
human immunodeficiency virus type 1 found in Brazilian patients failing
HAART. Virus Genes, v.23, n.2, p.193-202. 2001.
Cascella, M., C. Micheletti, et al. Evolutionarily conserved functional
mechanics across pepsin-like and retroviral aspartic proteases. J Am Chem
Soc, v.127, n.11, Mar 23, p.3734-42. 2005.
Case, D. A. Molecular dynamics and NMR spin relaxation in proteins.
Accounts of chemical research, v.35, n.6, Jun, p.325-31. 2002.
Chagas, A. P. 100 anos do Prêmio Nobel de química - Jacobus Henricus
van`t Hoff. Química Nova na Escola, v.14, p.25-27. 2001.
Cheatham, T. E., Iii, J. L. Miller, et al. Molecular Dynamics Simulations on
Solvated Biomolecular Systems: The Particle Mesh Ewald Method Leads to
Stable Trajectories of DNA, RNA, and Proteins. 117: 4193-4194 p. 1995.
Chollet, A. e G. Turcatti. Biophysical approaches to G protein-coupled
receptors: structure, function and dynamics. Journal of computer-aided
molecular design, v.13, n.3, May, p.209-19. 1999.
Clark, M., R. D. Cramer, et al. Validation of the General-Purpose Tripos 5.2
Force-Field. Journal of Computational Chemistry, v.10, n.8, DEC, p.9821012. 1989.
Clemente, J. C., L. Govindasamy, et al. Structure of the aspartic protease
plasmepsin 4 from the malarial parasite Plasmodium malariae bound to an
allophenylnorstatine-based inhibitor. Acta Crystallogr D Biol Crystallogr,
v.62, n.Pt 3, p.246-52. 2006.
Collins, J. R., S. K. Burt, et al. Activated dynamics of flap opening in HIV-1
protease. Adv Exp Med Biol, v.362, p.455-60. 1995a.
Collins, J. R., S. K. Burt, et al. Flap opening in HIV-1 protease simulated by
'activated' molecular dynamics. Nat Struct Biol, v.2, n.4, Apr, p.334-8.
1995b.
Crawford, S. e S. P. Goff. A deletion mutation in the 5' part of the pol gene of
Moloney murine leukemia virus blocks proteolytic processing of the gag and
pol polyproteins. J Virol, v.53, n.3, Mar, p.899-907. 1985.
Cui, Q., G. Li, et al. A Normal Mode Analysis of Structural Plasticity in the
Biomolecular Motor F1-ATPase. Journal of Molecular Biology, v.340, n.2,
p.345-372. 2004.
Dame, J. B., C. A. Yowell, et al. Plasmepsin 4, the food vacuole aspartic
proteinase found in all Plasmodium spp. infecting man. Mol Biochem
Parasitol, v.130, n.1, p.1-12. 2003.
108
Davies, D. The structure and function of the aspartic proteinases. Annu Rev
Biophys Biophys Chem, v.19, p.189-215. 1990.
De Arellano, E. R., V. Soriano, et al. New findings on transcription regulation
across different HIV-1 subtypes. Aids Reviews, v.8, n.1, JAN-MAR, p.9-16.
2006.
De Wit, S., R. Boulme, et al. Viral load and CD4 cell response to protease
inhibitor-containing regimens in subtype B versus non-B treatment-naive
HIV-1 patients. Aids, v.18, n.17, Nov 19, p.2330-1. 2004.
Debouck, C., J. G. Gorniak, et al. Human immunodeficiency virus protease
expressed in Escherichia coli exhibits autoprocessing and specific
maturation of the gag precursor. Proc Natl Acad Sci U S A, v.84, n.24, Dec,
p.8903-6. 1987.
Ding, F., M. Layten, et al. Solution structure of HIV-1 protease flaps probed
by comparison of molecular dynamics simulation ensembles and EPR
experiments. J Am Chem Soc, v.130, n.23, Jun 11, p.7184-5. 2008.
Dos Santos, H. F. O conceito da Modelagem Molecular. Cadernos Temáticos
de Química Nova na Escola, v.4, Maio, p.4-5. 2001.
Drew, M., R. Banerjee, et al. Plasmodium food vacuole plasmepsins are
activated by falcipains. J Biol Chem. 2008.
Dumans, A. T., M. A. Soares, et al. Synonymous genetic polymorphisms
within Brazilian human immunodeficiency virus Type 1 subtypes may
influence mutational routes to drug resistance. J Infect Dis, v.189, n.7, Apr
1, p.1232-8. 2004.
Dunn, B. Structure and mechanism of the pepsin-like family of aspartic
peptidases. Chem Rev, v.102, p.4431-4458. 2002.
Dunn, B. M. e S. Hung. The two sides of enzyme-substrate specificity:
lessons from the aspartic proteinases. Biochim Biophys Acta, v.1477, n.1-2,
p.231-40. 2000.
E. Bright Wilson, Jr., G. D. John, et al. Molecular Vibrations: AAPT. 23: 550
p. 1955.
Ersmark, K., I. Feierberg, et al. Potent inhibitors of the Plasmodium
falciparum enzymes plasmepsin I and II devoid of cathepsin D inhibitory
activity. J Med Chem, v.47, p.110-22. 2004
Ersmark, K., I. Feierberg, et al. C2-symmetric inhibitors of Plasmodium
falciparum plasmepsin II: synthesis and theoretical predictions. Bioorg Med
Chem, v.11, p.3723-33. 2003
109
Fairlie, D. P., J. D. Tyndall, et al. Conformational selection of inhibitors and
substrates by proteolytic enzymes: Implications for drug design and
polypeptide processing. J Med Chem, v.43, p.1271-1281. 2000.
Fitzgerald, P. M., B. M. Mckeever, et al. Crystallographic analysis of a
complex between human immunodeficiency virus type 1 protease and acetylpepstatin at 2.0-A resolution. J Biol Chem, v.265, n.24, Aug 25, p.14209-19.
1990.
Floquet, N., S. Dedieu, et al. Human thrombospondin's (TSP-1) C-terminal
domain opens to interact with the CD-47 receptor: a molecular modeling
study. Archives of biochemistry and biophysics, v.478, n.1, Oct 1, p.103-9.
2008.
Floquet, N., P. Durand, et al. Collective motions in glucosamine-6-phosphate
synthase: influence of ligand binding and role in ammonia channelling and
opening of the fructose-6-phosphate binding site. J Mol Biol, v.385, n.2, Jan
16, p.653-64. 2009.
Floquet, N., J. D. Marechal, et al. Normal mode analysis as a prerequisite for
drug design: application to matrix metalloproteinases inhibitors. FEBS
letters, v.580, n.22, Oct 2, p.5130-6. 2006a.
Floquet, N., J. D. Marechal, et al. Normal mode analysis as a prerequisite for
drug design: application to matrix metalloproteinases inhibitors. FEBS Lett,
v.580, n.22, Oct 2, p.5130-6. 2006b.
Forshey, B. M., J. Shi, et al. Structural requirements for recognition of the
human immunodeficiency virus type 1 core during host restriction in owl
monkey cells. J Virol, v.79, n.2, Jan, p.869-75. 2005.
Francis, S. E., R. Banerjee, et al. Biosynthesis and maturation of the malaria
aspartic hemoglobinases plasmepsins I and II. J Biol Chem, v.272, n.23,
p.14961-8. 1997.
Frater, A. J., A. Beardall, et al. Impact of baseline polymorphisms in RT and
protease on outcome of highly active antiretroviral therapy in HIV-1-infected
African patients. Aids, v.15, n.12, Aug 17, p.1493-502. 2001.
Freedberg, D. I., R. Ishima, et al. Rapid structural fluctuations of the free
HIV protease flaps in solution: relationship to crystal structures and
comparison with predictions of dynamics calculations. Protein Sci, v.11, n.2,
Feb, p.221-32. 2002.
Freitas, L. C. G. Prêmio Nobel de química de 1999. Química Nova na Escola,
v.8, p.3-6. 1998.
Fujinaga, M., M. M. Chernaia, et al. Crystal structure of human pepsin and
its complex with pepstatin. Protein Sci, v.4, p.960-972. 1995.
110
Gaillard, T., E. Martin, et al. Comparative Normal Mode Analysis of LFA-1
Integrin I-domains. Journal of Molecular Biology, v.374, n.1, p.231-249.
2007.
Gardner, M. J., N. Hall, et al. Genome sequence of the human malaria
parasite Plasmodium falciparum. Nature, v.419, p.498-511. 2002.
Garrett, R. e C. M. Grisham. Biochemistry. Fort Worth: Saunders College
Pub. 1995. 1 v. (various pagings) p.
Gonzalez, L. M., R. M. Brindeiro, et al. Impact of nelfinavir resistance
mutations on in vitro phenotype, fitness, and replication capacity of human
immunodeficiency virus type 1 with subtype B and C proteases. Antimicrob
Agents Chemother, v.48, n.9, Sep, p.3552-5. 2004.
Gonzalez, L. M., R. M. Brindeiro, et al. In vitro hypersusceptibility of human
immunodeficiency virus type 1 subtype C protease to lopinavir. Antimicrob
Agents Chemother, v.47, n.9, Sep, p.2817-22. 2003.
Grossman, Z., V. Istomin, et al. Genetic variation at NNRTI resistanceassociated positions in patients infected with HIV-1 subtype C. Aids, v.18,
n.6, Apr 9, p.909-15. 2004.
Grossman, Z., E. E. Paxinos, et al. Mutation D30N is not preferentially
selected by human immunodeficiency virus type 1 subtype C in the
development of resistance to nelfinavir. Antimicrob Agents Chemother, v.48,
n.6, Jun, p.2159-65. 2004.
Gustchina, A. e I. T. Weber. Comparison of inhibitor binding in HIV-1
protease and in non-viral aspartic proteases: the role of the flap. FEBS Lett,
v.269, n.1, Aug 20, p.269-72. 1990.
Haque, T. S., A. G. Skillman, et al. Potent, low-molecular-weight non-peptide
inhibitors of malarial aspartyl protease plasmepsin II. J Med Chem, v.42,
n.8, p.1428-40. 1999.
Herring, B. L., Y. C. Ge, et al. Segregation of human immunodeficiency virus
type 1 subtypes by risk factor in Australia. J Clin Microbiol, v.41, n.10, Oct,
p.4600-4. 2003.
Hess, B., H. Bekker, et al. LINCS: A linear constraint solver for molecular
simulations. Journal of Computational Chemistry, v.18, n.12, SEP, p.14631472. 1997.
Ho, D. D., A. U. Neumann, et al. Rapid Turnover of Plasma Virions and Cd4
Lymphocytes in Hiv-1 Infection. Nature, v.373, n.6510, JAN 12, p.123-126.
1995.
111
Hornak, V., A. Okur, et al. HIV-1 protease flaps spontaneously open and
reclose in molecular dynamics simulations. Proc Natl Acad Sci U S A, v.103,
n.4, Jan 24, p.915-20. 2006.
Hsu, L. Y., R. Subramaniam, et al. Characterization of mutations in
CRF01_AE virus isolates from antiretroviral treatment-naive and experienced patients in Singapore. J Acquir Immune Defic Syndr, v.38, n.1,
Jan 1, p.5-13. 2005.
Huber, R. e W. S. Bennett, Jr. Functional significance of flexibility in
proteins. Biopolymers, v.22, n.1, Jan, p.261-79. 1983.
Hulten, J., N. M. Bonham, et al. Cyclic HIV-1 protease inhibitors derived
from mannitol: Synthesis, inhibitory potencies, and computational
predictions of binding affinities. Journal of Medicinal Chemistry, v.40, n.6,
MAR 14, p.885-897. 1997.
Hyland, L. J., T. A. Tomaszek, Jr., et al. Human immunodeficiency virus-1
protease. 2. Use of pH rate studies and solvent kinetic isotope effects to
elucidate details of chemical mechanism. Biochemistry, v.30, n.34, Aug 27,
p.8454-63. 1991.
Ingr, M., T. Uhlikova, et al. Kinetics of the dimerization of retroviral
proteases: the "fireman's grip" and dimerization. Protein Sci, v.12, n.10, Oct,
p.2173-82. 2003.
Ishima, R. e J. M. Louis. A diverse view of protein dynamics from NMR
studies of HIV-1 protease flaps. Proteins, v.70, n.4, Mar, p.1408-15. 2008.
James, M. N. G., Ed. In Handbook of Proteolytic Enzymes, Catalytic pathway
of aspartic peptidases. London: Elsevier, p.p.12-19, 2 edn ed. 2004.
Janin, J. e F. Rodier. Protein-protein interaction at crystal contacts.
Proteins-Structure Function and Genetics, v.23, n.4, Dec, p.580-587. 1995.
Jaskolski, M., A. G. Tomasselli, et al. Structure at 2.5-A resolution of
chemically synthesized human immunodeficiency virus type 1 protease
complexed with a hydroxyethylene-based inhibitor. Biochemistry, v.30,
p.1600-1609. 1991.
Jean-François Gibrat, N. G. e Omacr. Normal mode analysis of human
lysozyme: Study of the relative motion of the two domains and
characterization of the harmonic motion. 8: 258-279 p. 1990.
John-Stewart, G. C., R. W. Nduati, et al. Subtype C Is associated with
increased vaginal shedding of HIV-1. J Infect Dis, v.192, n.3, Aug 1, p.492-6.
2005.
112
Jorgensen, W. L., J. Chandrasekhar, et al. Comparison of Simple Potential
Functions for Simulating Liquid Water. Journal of Chemical Physics, v.79,
n.2, p.926-935. 1983.
Kanki, P. J., D. J. Hamel, et al. Human immunodeficiency virus type 1
subtypes differ in disease progression. J Infect Dis, v.179, n.1, Jan, p.68-73.
1999.
Kantor, R. e D. Katzenstein. Polymorphism in HIV-1 non-subtype B protease
and reverse transcriptase and its potential impact on drug susceptibility and
drug resistance evolution. AIDS Rev, v.5, n.1, Jan-Mar, p.25-35. 2003.
Kantor, R., D. A. Katzenstein, et al. Impact of HIV-1 subtype and
antiretroviral therapy on protease and reverse transcriptase genotype:
results of a global collaboration. PLoS Med, v.2, n.4, Apr, p.e112. 2005.
Karplus, M. e J. N. Kushick. Method for estimating the configurational
entropy of macromolecules. Macromolecules, v.14, n.2, p.325-332. 1981.
Karplus, M. e D. L. Weaver. Protein-folding dynamics. Nature, v.260, n.5550,
Apr 1, p.404-6. 1976.
Katoh, E., J. M. Louis, et al. A solution NMR study of the binding kinetics
and the internal dynamics of an HIV-1 protease-substrate complex. Protein
Sci, v.12, n.7, Jul, p.1376-85. 2003.
Kempf, D. J., K. C. Marsh, et al. ABT-538 is a potent inhibitor of human
immunodeficiency virus protease and has high oral bioavailability in
humans. Proc Natl Acad Sci U S A, v.92, n.7, Mar 28, p.2484-8. 1995.
Keskin, O., S. R. Durell, et al. Relating molecular flexibility to function: a
case study of tubulin. Biophys J, v.83, n.2, Aug, p.663-80. 2002.
Kim, E., S. Jang, et al. Direct folding studies of various alpha and beta
strands using replica exchange molecular dynamics simulation. Journal of
Chemical Physics, v.128, n.17, May 7, p.-. 2008.
Kim, M. K., R. L. Jernigan, et al. An elastic network model of HK97 capsid
maturation. Journal of Structural Biology, v.143, n.2, p.107-117. 2003.
Kiso, A., K. Hidaka, et al. Search for substrate-based inhibitors fitting the S2'
space of malarial aspartic protease plasmepsin II. J Pept Sci, v.10, n.11,
p.641-7. 2004.
Klemba, M., W. Beatty, et al. Trafficking of plasmepsin II to the food vacuole
of the malaria parasite Plasmodium falciparum. J Cell Biol, v.164, n.1, p.4756. 2004.
113
Kohl, N. E., E. A. Emini, et al. Active human immunodeficiency virus
protease is required for viral infectivity. Proc Natl Acad Sci U S A, v.85, n.13,
Jul, p.4686-90. 1988.
Koichi Itoh, T. S. Vibrational frequencies and modes of alpha-helix. 9: 383399 p. 1970.
Koval'skii, D. B., D. S. Kanibolotskii, et al. [Conformational changes in HIV-1
proteinase: effect of protonation of the active center on conformation of HIV1 proteinase in water]. Ukr Biokhim Zh, v.74, n.6, Nov-Dec, p.135-8. 2002.
Kumar, M., V. Prashar, et al. Observation of a tetrahedral reaction
intermediate in the HIV-1 protease-substrate complex. Biochem J, v.389,
n.Pt 2, Jul 15, p.365-71. 2005.
Lapatto, R., T. Blundell, et al. X-ray analysis of HIV-1 proteinase at 2.7 A
resolution confirms structural homology among retroviral enzymes. Nature,
v.342, n.6247, Nov 16, p.299-302. 1989.
Levitt, M., C. Sander, et al. Protein normal-mode dynamics: trypsin inhibitor,
crambin, ribonuclease and lysozyme. J Mol Biol, v.181, n.3, Feb 5, p.423-47.
1985.
Levy, R. M., M. Karplus, et al. Evaluation of the Configurational Entropy for
Proteins - Application to Molecular-Dynamics Simulations of an Alpha-Helix.
Macromolecules, v.17, n.7, p.1370-1374. 1984.
Levy, R. M., D. Perahia, et al. Molecular dynamics of an alpha-helical
polypeptide: Temperature dependence and deviation from harmonic
behavior. Proc Natl Acad Sci USA, v.79, n.4, Feb, p.1346-1350. 1982.
Li, B., J. M. Decker, et al. Evidence for potent autologous neutralizing
antibody titers and compact envelopes in early infection with subtype C
human immunodeficiency virus type 1. J Virol, v.80, n.11, Jun, p.5211-8.
2006.
Liu, H., S. G. Dastidar, et al. Conformational changes in protein function.
Methods Mol Biol, v.443, p.258-75. 2008.
Liu, J., I. Y. Gluzman, et al. The role of Plasmodium falciparum food vacuole
plasmepsins. J Biol Chem, v.280, n.2, p.1432-7. 2005.
Liu, J., E. S. Istvan, et al. Hemoglobin-degrading plasmepsin II is active as a
monomer. J Biol Chem, v.281, n.50, p.38682-8. 2006
Louis, J. M., E. M. Wondrak, et al. Proteolytic processing of HIV-1 protease
precursor, kinetics and mechanism. J Biol Chem, v.274, n.33, Aug 13,
p.23437-42. 1999.
114
Lu, W. C., C. Z. Wang, et al. Dynamics of the trimeric AcrB transporter
protein inferred from a B-factor analysis of the crystal structure. ProteinsStructure Function And Bioinformatics, v.62, n.1, Jan 1, p.152-8. 2006.
Lukashov, V. V., M. T. Cornelissen, et al. Simultaneous introduction of
distinct HIV-1 subtypes into different risk groups in Russia, Byelorussia and
Lithuania. Aids, v.9, n.5, May, p.435-9. 1995.
Mackerell, A. D., Jr., M. Feig, et al. Extending the treatment of backbone
energetics in protein force fields: limitations of gas-phase quantum
mechanics in reproducing protein conformational distributions in molecular
dynamics simulations. Journal of computational chemistry, v.25, n.11, Aug,
p.1400-15. 2004.
Mccammon, J. A., B. R. Gelin, et al. Dynamics of folded proteins. Nature,
v.267, n.5612, Jun 16, p.585-90. 1977.
Mccammon, J. A., B. R. Gelin, et al. The hinge-bending mode in lysozyme.
Nature, v.262, n.5566, Jul 22, p.325-6. 1976.
Mckeever, B. M., M. A. Navia, et al. Crystallization of the aspartylprotease
from the human immunodeficiency virus, HIV-1. J Biol Chem, v.264, n.4,
Feb 5, p.1919-21. 1989.
Meagher, K. L. e H. A. Carlson. Solvation influences flap collapse in HIV-1
protease. Proteins-Structure Function And Bioinformatics, v.58, n.1, Jan 1,
p.119-25. 2005.
Meek, T. D. Inhibitors of HIV-1 protease. J Enzyme Inhib, v.6, n.1, p.65-98.
1992.
Miller, M., M. Jaskolski, et al. Crystal structure of a retroviral protease
proves relationship to aspartic protease family. Nature, v.337, n.6207, Feb 9,
p.576-9. 1989.
Miller, M., J. Schneider, et al. Structure of complex of synthetic HIV-1
protease with a substrate-based inhibitor at 2.3 A resolution. Science, v.246,
n.4934, Dec 1, p.1149-52. 1989.
Miyamoto, S. e P. A. Kollman. Settle - an Analytical Version of the Shake and
Rattle Algorithm for Rigid Water Models. Journal of Computational
Chemistry, v.13, n.8, OCT, p.952-962. 1992.
Mouawad, L. e D. Perahia. Motions in hemoglobin studied by normal mode
analysis and energy minimization: evidence for the existence of tertiary Tlike, quaternary R-like intermediate structures. J Mol Biol, v.258, n.2, May
3, p.393-410. 1996.
115
Munshi, S., L. Liljas, et al. Structure determination of Nudaurelia capensis
omega virus. Acta Crystallogr D Biol Crystallogr, v.54, p.1295-1305. 1998.
Navia, M. A., P. M. Fitzgerald, et al. Three-dimensional structure of aspartyl
protease from human immunodeficiency virus HIV-1. Nature, v.337, n.6208,
Feb 16, p.615-20. 1989.
Nicastri, E., L. Sarmati, et al. Non-B HIV type 1 subtypes: replicative
capacity and response to antiretroviral therapy. AIDS Res Hum Retroviruses,
v.20, n.8, Aug, p.816-8. 2004.
Northrop, D. Follow the protons: a low-barrier hydrogen bond unifies the
mechanisms of the aspartic proteases. Acc Chem Res, v.34, p.790-797.
2001.
Osmanov, S., C. Pattou, et al. Estimated global distribution and regional
spread of HIV-1 genetic subtypes in the year 2000. Journal of Acquired
Immune Deficiency Syndromes, v.29, n.2, FEB 1, p.184-190. 2002.
Parkin, N., C. Chappey, et al. Reduced susceptibility to protease inhibitors
(PI) in the absence of primary PI resistance-associated mutations. Antiviral
Therapy, v.10, p.S118-S118. 2005.
Pascutti, P. G. Introdução à Modelagem e Simulação por Dinâmica
Molecular. 2004 2002.
Perahia, D. e L. Mouawad. Computation of low-frequency normal modes in
macromolecules: improvements to the method of diagonalization in a mixed
basis and application to hemoglobin. Comput Chem, v.19, n.3, Sep, p.241-6.
1995.
Perno, C. F., A. Cozzi-Lepri, et al. Secondary mutations in the protease
region of human immunodeficiency virus and virologic failure in drug-naive
patients treated with protease inhibitor-based therapy. J Infect Dis, v.184,
n.8, Oct 15, p.983-91. 2001.
Petrone, P. e V. S. Pande. Can conformational change be described by only a
few normal modes? Biophys J, v.90, n.5, Mar 1, p.1583-93. 2006.
Phillips, G. N., Jr. Comparison of the dynamics of myoglobin in different
crystal forms. Biophysical journal, v.57, n.2, Feb, p.381-3. 1990.
Phillips, J. C., R. Braun, et al. Scalable molecular dynamics with NAMD. J
Comput Chem, v.26, n.16, Dec, p.1781-802. 2005.
Piana, S., P. Carloni, et al. Role of conformational fluctuations in the
enzymatic reaction of HIV-1 protease. J Mol Biol, v.319, n.2, May 31, p.56783. 2002.
116
Piana, S., D. Sebastiani, et al. Ab initio molecular dynamics-based
assignment of the protonation state of pepstatin A/HIV-1 protease cleavage
site. J Am Chem Soc, v.123, n.36, Sep 12, p.8730-7. 2001.
Pillay, D., A. S. Walker, et al. Impact of human immunodeficiency virus type
1 subtypes on virologic response and emergence of drug resistance among
children in the Paediatric European Network for Treatment of AIDS (PENTA)
5 trial. Journal of Infectious Diseases, v.186, n.5, SEP 1, p.617-625. 2002.
Porter, D. J., M. H. Hanlon, et al. HIV-1 protease: characterization of a
catalytically competent enzyme-substrate intermediate. Biochemistry, v.41,
n.4, Jan 29, p.1302-7. 2002.
Prabu-Jeyabalan, M., E. Nalivaika, et al. How does a symmetric dimer
recognize an asymmetric substrate? A substrate complex of HIV-1 protease.
J Mol Biol, v.301, n.5, Sep 1, p.1207-20. 2000.
Prade, L., A. F. Jones, et al. X-ray structure of plasmepsin II complexed with
a potent achiral inhibitor. J Biol Chem, v.280, n.25, p.23837-43. 2005.
Rahuel, J., J. P. Priestle, et al. The crystal structures of recombinant
glycosylated human renin alone and in complex with a transition state
analog inhibitor. . J Struct Biol, v.107s, p.227-236. 1991.
Rawlings, N. D., F. R. Morton, et al. MEROPS: the peptidase database.
Nucleic Acids Res, v.36, p.D320-D325. 2008.
Reuter, N., K. Hinsen, et al. Transconformations of the SERCA1 Ca-ATPase:
A Normal Mode Study. Biophysical Journal, v.85, n.4, p.2186-2197. 2003.
Ridley, R. G. Chemotherapeutic hope on the horizon for Plasmodium vivax
malaria? Proc Natl Acad Sci U S A, v.99, p.13362-4. 2002.
Roberts, N. A., J. A. Martin, et al. Rational design of peptide-based HIV
proteinase inhibitors. Science, v.248, n.4953, Apr 20, p.358-61. 1990.
Robertson, D. L., J. P. Anderson, et al. HIV-1 nomenclature proposal.
Science, v.288, n.5463, Apr 7, p.55-6. 2000.
Rodriguez, E. J., T. S. Angeles, et al. Use of nitrogen-15 kinetic isotope
effects to elucidate details of the chemical mechanism of human
immunodeficiency virus 1 protease. Biochemistry, v.32, n.46, Nov 23,
p.12380-5. 1993.
Rosenthal, P. J. In: Antimalarial Chemotherapy, Mechanisms of Action,
Resistance, and New Directions in Drug Discovery. ed. Rosenthal, P. J.
(Humana, Totowa, NJ), p.325–345. 2001.
117
Ryckaert, J.-P., G. Ciccotti, et al. Numerical integration of the cartesian
equations of motion of a system with constraints: molecular dynamics of nalkanes. Journal of Computational Physics, v.23, n.3, p.327-341. 1977.
Sarr, A. D., G. Eisen, et al. Viral dynamics of primary HIV-1 infection in
Senegal, West Africa. Journal of Infectious Diseases, v.191, n.9, MAY 1,
p.1460-1467. 2005.
Schechter I, B. A. On the size of the active site in proteases. I. Papain.
Biochem Biophys Res Commun, v.27, p.157-162. 1967.
Scott, W. R. e C. A. Schiffer. Curling of flap tips in HIV-1 protease as a
mechanism for substrate entry and tolerance of drug resistance. Structure,
v.8, n.12, Dec 15, p.1259-65. 2000.
Sielecki, A. R., M. Fujinaga, et al. Refined structure of porcine pepsinogen at
1.8 Å resolution. J Mol Biol, v.219, p.671-692. 1991.
Silva, A. M., R. E. Cachau, et al. Inhibition and catalytic mechanism of HIV-1
aspartic protease. J Mol Biol, v.255, n.2, Jan 19, p.321-46. 1996.
Silva, A. M., A. Y. Lee, et al. Structural analysis of plasmepsin II. A
comparison with human aspartic proteases. Adv Exp Med Biol, v.436, p.36373. 1998
Silva, A. M., A. Y. Lee, et al. Structure and inhibition of plasmepsin II, a
hemoglobin-degrading enzyme from Plasmodium falciparum. Proc Natl Acad
Sci U S A, v.93, n.19, p.10034-9. 1996.
Sinha, N. e S. J. Smith-Gill. Protein structure to function via dynamics.
Protein Pept Lett, v.9, n.5, Oct, p.367-77. 2002a.
Sinha, N. e S. J. Smith-Gill. Protein structure to function via dynamics.
Protein and peptide letters, v.9, n.5, Oct, p.367-77. 2002b.
Skjaerven, L., S. M. Hollup, et al. Normal mode analysis for proteins. Journal
of Molecular Structure: THEOCHEM, v.898, n.1-3, p.42-48. 2009.
Smith, P. E., R. C. Van Schaik, et al. Internal mobility of the basic pancreatic
trypsin inhibitor in solution: a comparison of NMR spin relaxation
measurements and molecular dynamics simulations. J Mol Biol, v.246, n.2,
Feb 17, p.356-65. 1995.
Smith, R., I. M. Brereton, et al. Ionization states of the catalytic residues in
HIV-1 protease. Nat Struct Biol, v.3, n.11, Nov, p.946-50. 1996.
Soares, M. A., R. M. Brindeiro, et al. Primary HIV-1 drug resistance in Brazil.
Aids, v.18 Suppl 3, Jun, p.S9-13. 2004.
118
Soares, M. A., T. De Oliveira, et al. A specific subtype C of human
immunodeficiency virus type 1 circulates in Brazil. Aids, v.17, n.1, JAN 3,
p.11-21. 2003.
Soni, S., S. Dhawan, et al. Characterization of events preceding the release of
malaria parasite from the host red blood cell. Blood Cells Mol Dis, v.35,
p.201-211. 2005.
Spiegel, M. R. Estatística. n.3a edição, p.74-75, 106-110. 1994.
Spinelli, S., Q. Z. Liu, et al. The three-dimensional structure of the aspartyl
protease from the HIV-1 isolate BRU. Biochimie, v.73, n.11, Nov, p.1391-6.
1991.
Steiner, H., M. Kostka, et al. Glycine 384 is required for presenilin-1 function
and is conserved in bacterial polytopic aspartyl proteases. Nat Cell Biol, v.2,
p.848-851. 2000.
Steven Hayward, A. K. H. J. C. B. Model-free methods of analyzing domain
motions in proteins from simulation: A comparison of normal mode analysis
and molecular dynamics simulation of lysozyme. 27: 425-437 p. 1997.
Tama, F. e C. L. Brooks Iii. Diversity and Identity of Mechanical Properties of
Icosahedral Viral Capsids Studied with Elastic Network Normal Mode
Analysis. Journal of Molecular Biology, v.345, n.2, p.299-314. 2005.
Tama, F. e Y. H. Sanejouand. Conformational change of proteins arising from
normal mode calculations. Protein Engineering Design & Selection, v.14, n.1,
Jan, p.1-6. 2001.
Tamm, L. K., F. Abildgaard, et al. Structure, dynamics and function of the
outer membrane protein A (OmpA) and influenza hemagglutinin fusion
domain in detergent micelles by solution NMR. FEBS letters, v.555, n.1, Nov
27, p.139-43. 2003.
Teodoro, M. L., G. N. Phillips, Jr., et al. Understanding protein flexibility
through dimensionality reduction. J Comput Biol, v.10, n.3-4, p.617-34.
2003.
Tomasselli, A. G. e R. L. Heinrikson. Targeting the HIV-protease in AIDS
therapy: a current clinical perspective. Biochim Biophys Acta, v.1477, n.1-2,
Mar 7, p.189-214. 2000.
Treptow, W., S. J. Marrink, et al. Gating motions in voltage-gated potassium
channels revealed by coarse-grained molecular dynamics simulations. J
Phys Chem B, v.112, n.11, Mar 20, p.3277-82. 2008.
119
Trylska, J., J. Antosiewicz, et al. Thermodynamic linkage between the
binding of protons and inhibitors to HIV-1 protease. Protein Sci, v.8, n.1,
Jan, p.180-95. 1999.
Trylska, J., P. Bala, et al. Molecular dynamics simulations of the first steps
of the reaction catalyzed by HIV-1 protease. Biophys J, v.83, n.2, Aug,
p.794-807. 2002.
Trylska, J., P. Grochowski, et al. The role of hydrogen bonding in the
enzymatic reaction catalyzed by HIV-1 protease. Protein Sci, v.13, n.2, Feb,
p.513-28. 2004.
Ulrich, E., P. Lalith, et al. A smooth particle mesh Ewald method. Journal of
Chemical Physics, v.103, n.19, p.8577-8593. 1995.
Unaids. AIDS epidemic update : 2007. UNAIDS/WHO. Geneva: December.
2007. ( ISBN 92 9173390 3)
Valiente, P. A., P. R. Batista, et al. Predicting functional residues in
Plasmodium falciparum plasmepsins by combining sequence and structural
analysis with molecular dynamics simulations. Proteins, v.73, n.2, Nov 1,
p.440-57. 2008.
Van Gunsteren, W. F. e H. J. C. Berendsen. Groningen Molecular Simulation
(GROMOS) Library Manual. Groningen: BIOMOS b.v. 1987
Van Gunsteren, W. F. e H. J. C. Berendsen. Molecular Dynamics Computer
Simulations: Methodology, Applications and Perspectives in Chemistry.
Angewandte Chemie Int. Ed. Engl. 29: 992--1023. p. 1990.
Vandeputte-Rutten, L., R. A. Kramer, et al. Crystal structure of the outer
membrane protease OmpT from Escherichia coli suggests a novel catalytic
site. EMBO J, v.20, p.5033-39. 2001.
Vasan, A., B. Renjifo, et al. Different rates of disease progression of HIV type
1 infection in Tanzania based on infecting subtype. Clinical Infectious
Diseases, v.42, n.6, MAR 15, p.843-852. 2006.
Velazquez-Campoy, A., M. J. Todd, et al. Catalytic efficiency and vitality of
HIV-1 proteases from African viral subtypes. Proc Natl Acad Sci U S A, v.98,
n.11, May 22, p.6062-7. 2001.
Verlet, L. Verlet, L., "Computer Experiments on Classical Fluids I:
Thermodynamical Properties of Lennard-Jones Molecules," v.159. 1967. 98103 p. (Phys. Rev.)
Wainberg, M. A. HIV-1 subtype distribution and the problem of drug
resistance. Aids, v.18 Suppl 3, Jun, p.S63-8. 2004.
120
Wang, W., J. Wang, et al. What determines the van der Waals coefficient beta
in the LIE (linear interaction energy) method to estimate binding free
energies using molecular dynamics simulations? Proteins-Structure
Function and Genetics, v.34, n.3, FEB 15, p.395-402. 1999.
Wang, Y. X., D. I. Freedberg, et al. Solution NMR evidence that the HIV-1
protease catalytic aspartyl groups have different ionization states in the
complex formed with the asymmetric drug KNI-272. Biochemistry, v.35,
n.31, Aug 6, p.9945-50. 1996.
Weiner, S. J., P. A. Kollman, et al. A New Force-Field for Molecular
Mechanical Simulation of Nucleic-Acids and Proteins. Journal of the
American Chemical Society, v.106, n.3, p.765-784. 1984.
Weiner, S. J., P. A. Kollman, et al. An All Atom Force-Field for Simulations of
Proteins and Nucleic-Acids. Journal of Computational Chemistry, v.7, n.2,
APR, p.230-252. 1986.
Wery, J. P., V. S. Reddy, et al. The refined three-dimensional structure of an
insect virus at 2.8 Å resolution. J Mol Biol, v.235, p.565-586. 1994.
Westling, J., P. Cipullo, et al. Active site specificity of plasmepsin II. Protein
Sci, v.8, n.10, p.2001-9. 1999.
Wlodawer, A. e J. W. Erickson. Structure-based inhibitors of HIV-1 protease.
Annu Rev Biochem, v.62, p.543-85. 1993.
Wlodawer, A. e J. Vondrasek. Inhibitors of HIV-1 protease: a major success
of structure-assisted drug design. Annu Rev Biophys Biomol Struct, v.27,
p.249-84. 1998.
Wondrak, E. M., N. T. Nashed, et al. A transient precursor of the HIV-1
protease. Isolation, characterization, and kinetics of maturation. J Biol
Chem, v.271, n.8, Feb 23, p.4477-81. 1996.
Yang, L., G. Song, et al. Close correspondence between the motions from
principal component analysis of multiple HIV-1 protease structures and
elastic network modes. Structure, v.16, n.2, Feb, p.321-30. 2008.
Zheng, W., B. R. Brooks, et al. Allosteric Transitions in the Chaperonin
GroEL are Captured by a Dominant Normal Mode that is Most Robust to
Sequence Variations. Biophysical Journal, v.93, n.7, p.2289-2299. 2007.
Zheng, W. e S. Doniach. A comparative study of motor-protein motions by
using a simple elastic-network model. Proc Natl Acad Sci U S A, v.100, n.23,
Nov 11, p.13253-8. 2003.
121
Zoete, V., O. Michielin, et al. Relation between sequence and structure of
HIV-1 protease inhibitor complexes: a model system for the analysis of
protein flexibility. Journal of Molecular Biology, v.315, n.1, p.21-52. 2002.
122
“Para o sangue, sou o veneno, eu mato, eu como, eu dreno
Para o resto da vida, sou extremo...
Sou o HIV que você não vê
Você não me vê, mas eu vejo você
(Rita Lee)
VII. ANEXOS
123
ANEXO 1:
© Copyright 2006 by Humana Press Inc.
All rights of any nature whatsoever reserved.
1085-9195/(Online)1559-0283/06/44:395–404/$30.00
ORIGINAL ARTICLE
Molecular Dynamics Simulations Applied to the Study of Subtypes
of HIV-1 Protease Common to Brazil, Africa, and Asia
Paulo R. Batista,1,* Alan Wilter,2 Elza H. A. B. Durham,3 and Pedro G. Pascutti1
1Laboratório
de Modelagem e Dinâmica Molecular, Instituto de Biofísica Carlos Chagas Filho,
Universidade Federal do Rio de Janeiro, Rio de Janeiro, Brazil; 2Laboratório Nacional de Computação Científica,
Rio de Janeiro, Brazil; 3Instituto Ludwig de Pesquisa sobre o Câncer, São Paulo, Brazil; and 3Instituto de Matemática e
Estatística, Universidade São Paulo, São Paulo, Brazil
Abstract
Africa accounts for the majority of HIV-1 infections worldwide caused mainly by the A and C viral subtypes
rather than B subtype, which prevails in the United States and Western Europe. In Brazil, B subtype is the major
subtype, but F, C, and A also circulate. These non-B subtypes present polymorphisms, and some of them occur
at sites that have been associated with drug resistance, including the HIV-1 protease (PR), one important drug
target. Here, we report a Molecular Dynamics study of the B and non-B PR complexed with the inhibitor ritonavir to delineate the behavior of each subtype. We compare root mean squared deviation, binding free energy
by linear interaction energy approach, hydrogen bonds, and intermolecular contact surface area between
inhibitor and PR. From our results, we can provide a basis to understand the molecular mechanism of drug resistance in non-B subtypes. In this sense, we found a decrease of approx 4 kcal/mol in ∆G of binding between B
and non-B subtypes. This corresponds to the loss of one hydrogen bond, which is in agreement with our H-bond
analysis. Previous experimental affinity studies reported analogous results with inhibition constant values for
non-B PR.
Index Entries: Molecular Dynamics; Gromacs; HIV-1 protease; ritonavir; subtypes; non-B; modelling; free
energy; LIE.
One of the major characteristics of HIV-1 is its extensive genetic diversity as a result of the high error rate,
the recombinogenic properties of the reverse transcriptase enzyme (1,2), and the extremely high turnover of
virions (range of 109/d) in HIV-infected individuals (3).
Phylogenetic analyses have classified three classes of
HIV-1 in the world: M (major), O (outline), and N (new)
(4). Within HIV-1 group M (~90% of reported HIV AIDS
cases), at least nine distinct subtypes (A, B, C, D, F, G, H,
J, and K) and 14 circulating recombinant forms (CRF)
have been identified (reviewed in refs. 5,6). Of the estimated 40 million people infected with HIV-1 worldwide, more than 26 million are in Africa and a very
frightful statistic has been seen last year: Asia housed
one quarter of the world’s newly infected HIV positive
individuals (7).
INTRODUCTION
In this work, we present Molecular Modeling (MM)
and Dynamics (MD) techniques applied to the study of
HIV-1 protease complexed with the inhibitor ritonavir.
We intend to evaluate similarities and differences
between B and non-B subtypes of HIV-1 protease.
Derived from our MD simulations, the most important
result that we can highlight is the decline in binding
affinity for inhibitor relative to non-B subtypes compared with subtype B, in accordance with some previous experimental results, and that can, in due course,
favor the emergence of drug resistance.
*Author to whom all correspondence and reprint requests
should be addressed. E-mail: [email protected]
Cell Biochemistry and Biophysics
395
Volume 44, 2006
396
The HIV-1 subtypes prevalent in Africa and Asia are
distinct from the one prevailing in North America and
Western Europe. In these developed regions, subtype B
is responsible for the majority of HIV infections,
whereas in sub-Saharan Africa and Asia, subtypes A
and C account for most of the infections. Non-B subtypes accounted for 88% of new worldwide infections in
2000 (A, 30% and C, 47%) (8). In Brazil, subtype B is the
major subtype, but F (18% of infections), C (30% of
infections in southern region), and D can also be found
(9). These subtypes exhibit differences with respect to
subtype B, which involves current drug targets, such as
the HIV-1 protease (PR).
Extensive research in the past decade has been dedicated to designing resistance-evading drugs for PR,
which is critical for the maturation of viral structural
(gag) and enzymatic (pol) proteins. The PR is an aspartyl
protease and is composed of two symmetric subunits,
each with 99 residues that can recognize either symmetric or asymmetric substrates (10).
One important region in PR for interaction with the
substrate is the flap (residues 45–58) that must open for
the substrate to access the active site and close for cleavage. The substrate stabilization in the active site
involves hydrogen bonds with the PR flap, mainly
through a structured water molecule close to ILE50. The
binding of inhibitors to the flaps, and likewise substrate,
helps to keep the flaps stable (11).
Many crystal structures of the PR and its complexes
with inhibitors are currently available, but there is no
structural information for non-B subtypes. The first
crystallization of a non-B PR was reported recently, but
its structure has not been solved yet (12).
The major success of structure-assisted drug design
was the development of PR inhibitors (13). Ritonavir
was the first Food and Drug Administration-approved
protease inhibitor reached by this methodology, and, in
this work, it was the chosen inhibitor to study interactions, at the atomic level, with the main PR subtypes
present in Brazil, Africa, and Asia (B, F, C, and A subtypes). To understand similarities and differences
between B and non-B subtypes of PR complexed with
ritonavir, we made use of MM because there is no structure of non-B PR from nuclear magnetic resonance and
X-ray crystallography methods. Furthermore, although
these experimental methods are the ideal modeling
approach, they are also more time-consuming and
expensive, and they involve hazardous biological materials compared with MM approaches.
Computational simulations are powerful tools used
to investigate ligand–protein interactions, besides showing a nonstatic behavior of the system (as opposed to
crystallographic diffraction). MD allows the estimation
of several thermodynamics properties (e.g., binding free
Cell Biochemistry and Biophysics
Batista et al.
energy calculations), and is a low cost and practical
method as well. With comparative MM technique, by
using available template three-dimensional (3D) structures found in Protein Data Bank (PDB) (14), we were
able to construct models for each PR subtype in complex with PR inhibitor ritonavir.
Because protease inhibitors have been developed and
tested against the HIV-1 B subtype, and PR from other
subtypes carry up to 10 amino acid polymorphisms, it is
important to assess the influence of these naturally
occurring polymorphisms on the potency of existing
inhibitors, as well as their synergistic interactions with
mutations known to cause drug resistance (15). At the
biochemical level, non-B-subtype polymorphisms lower
the binding affinities of existing clinical inhibitors, but
not to the point of causing drug resistance (15,16).
However, these polymorphisms amplify the effects of
mutations causing drug resistance and may play a role
in the long-term viability of these inhibitors. MD studies of PR can help to provide the grounds for understanding the molecular basis of drug resistance.
MATERIALS AND METHODS
Construction of Models: Comparative
Molecular Modeling
To ascertain the 3D coordinates of each system, we
construct the target models of the PR consensus subtypes A (17), C (18), and F (19) by using comparative MM
techniques with SwissPDBViewer program (20). As template, we used the X-ray crystallography structure of the
PR consensus B complexed with ritonavir (PDB code
1HXW) (21), including the crystallographic water molecules and inhibitor coordinates. To achieve our models,
we had only to cope with residues substitution, because
PRs display high sequence similarity, with the same
number of residues, not varying more than nine amino
acids among consensus. The consensus sequences of PR
subtypes present these differences from the PR consensus B sequence (9): A (L10V, I13V, K14R, I15V, K20I,
M36I, R41K, H69K, and L89M), C (T12S, I15V, L19I,
M36I, R41K, H69K, L89M, and I93L), and F (I15V, E35D,
M36I, R41K, R57K, Q61N, and L89M). Additionally, Fig. 1
features non-B polymorphism with localization of their
mutations referent to 1HXW on the 3D structure of PR.
All models were validated by stereochemistry with
Procheck program (22).
Inhibitor Topology
For the inhibitor’s (ritonavir) topology, which is not
publicly available for GROMOS96 force field (23), we
had to build its required parameters to run MD simulations. We started with the server PRODRG (24), which
Volume 44, 2006
Computational Studies of HIV-1 Protease of B and Non-B Subtypes
Fig. 1. Non-B polymorphisms along the PR 3D structure.
Left, common substitution among the non-B sequences.
Right, particular substitutions (little spheres) of each subtype are labeled.
was used to generate a first set of parameters for bonds,
angles, and charges based on GROMOS87 force field
(25). Thus, eventually we had to fit such parameters to
GROMOS96, appealing to a set of parameters previously determined for some groups similar to the ones of
ritonavir, or, when the reference was not found, to the ab
initio calculation by means of GAUSSIAN94 (26), using
the base B3LYP/6-31G** with option CHELPG, assuming null total charge for such drug.
Molecular Dynamics
The molecular mechanics potential energy minimizations and MD simulations were carried out with the program package GROMACS, version 3.2.1 (27,28) by using
GROMOS96 force field. For all the systems, we used
visual MD (VMD) (29) and SwissPDBViewer, programs
for virtual molecular visualization and manipulation, to
set up spatial orientation of complexes and to have their
principal axes aligned to the Cartesian axes. The solvation procedure was performed with a layer of at least
15 Å around protease–ligand complex, in an orthorhom-
Cell Biochemistry and Biophysics
397
bic geometry box (for periodic boundary conditions).
The model of solvent was single point charge (SPC)
water (30) (about 12,000 molecules). To neutralize the system charge, chloride (Cl–) counterions were inserted. We
ended up with four systems for MD simulations with
their final volumes ranged from 400 to 420 nm3, and each
with the number of atoms between 35,000 and 40,000.
For energy minimization, we used the algorithms
steepest descent (preceded by a position restrained stage
for protein atoms), conjugate gradient and a quasiNewton low-memory minimizer in sequence until reaching an energy gradient lower than 2.39 kcal/mol/Å. The
MD simulations were performed according to the following procedure: 500 ps with positions of protein’s
atoms restrained, to allow the solvent equilibration, and
then a full MD for 3.5 ns, with no restrictions. The MD
integration time was 2 fs. LINCS (31) and SETTLE (32)
constraints were used for protein/ritonavir (all bonds)
and solvent, respectively. Temperature was maintained at
300 K, and pressure maintained at 1 atm by the Berendsen
weak-coupling approach (33). For long-range interactions, reaction field method (34) was used, with dielectric
constant set to 54 (35). Non-bonded cutoffs were 1.2 Å for
van der Waals and 1.4 Å for Coulomb interactions.
According to kinetic and MD studies of PR (36–38),
only the catalytic ASP124 was protonated (not ASP25).
Simulations demanded 7 to 9 d of computation at Cluster
XML (BioPAUÁ Project, LNCC, IBCCF/ UFRJ, and HP
Brazil R&D).
Binding Free Energy Calculation
To estimate the binding free energies of ritonavir to
the PR receptors cited in this work, we used a semiempirical MD method, based on linear response
assumptions, entitled linear interaction energy (LIE),
conceived by Åqvist and collaborators (39). It is a faster
method than free energy perturbation or thermodynamic integration because it does not need any uninteresting intermediate state between the initial and final
states, and the results of its application are in good
agreement with experimental data (40–42). LIE, as
depicted in Eq. 1, divides the interaction between the
ligand and its environment into electrostatic and van
der Waals terms:
el
el
vdW
vdW
vdW + γ
∆G bind = ∆G el
bind + ∆G bind ≈ α Vbound − Vfree + β Vbound − Vfree
[1]
where denotes MD averages of nonbonded potential
energy differences between two states of the inhibitor:
bonded to the PR active site and free in solution. The
nonbonded potential energy corresponds to the van der
Waals (vdW) and electrostatic (el) interaction of the ligand and its surrounding environment, the enzyme,
Volume 44, 2006
398
Batista et al.
Fig. 2. RMSD for all system during simulation. Plot of the RMSD of backbone atoms versus time from the 1HXW (dark
thick line), consA (gray), consC (open triangles), and consF (filled triangles). All RMSDs were calculated by fitting the subsequent frames to the initial PR structure, after the minimization procedure.
RESULTS
shows the largest deviation after 2 ns of simulation. In
addition, consA, between 1 and 2 ns of simulation, presents larger deviation than 1HXW. To qualify these
deviations with respect to amino acids, the fluctuations
of root mean square (RMSf) per residue (Fig. 3) and its
visual 3D RMS representation of the backbone atoms
deviations (Fig. 4), generated by MolMol (44), are a
good manner to interpret these results. The consC RMSf
was the largest, in both chains. In contrast, consA RMSf
was the smaller in the chain A (Fig. 3). Several RMSf
peaks were observed at the region of residues 16, 37, 50,
67, 80, and 92 in chain A and at residues 105, 115, 124,
136, 149, 166, 178, and 191 in chain B.
Focusing only on inhibitor, 1HXW RMSf per atom
displayed the smallest fluctuations, particularly evident
around the P1 group (Fig. 5). In contrast, consA presented the largest deviation.
Properties of the Global Structures
Binding Free Energy Calculation
The four systems—1HXW (consB), consA, consC,
and consF—were examined by MD simulations during
3.5 ns for each system. Certain parameters were analyzed to establish relationships between B and non-B
subtypes that lead to understand differences caused by
natural polymorphisms present in each subtype. To
attain the stability of simulations, we needed to look to
the dynamic behavior of the systems. As can be seen in
Fig. 2, taking the initial structure after minimization, the
root mean squared deviation (RMSD) of all systems,
with respect to the time, tends to the same value at the
end of 3.5 ns. 1HXW and consF seem to be more stable,
mainly after the first nanosecond. Otherwise, consC
Binding free energy calculations can provide the
affinities of each PR subtype to the inhibitor ritonavir.
Affinity differences among PRs are very important for
understanding the drug resistance. In our LIE results,
we adjusted binding free energy by γ constant being set
to –7 kcal/mol, to fit the experimental data observed for
PR complexed with ritonavir, –14.9 kcal/mol (45,46).
The MD estimated ∆Gbind was taken after 1600 ps of
simulation, when the system presents lower deviations.
∆Gbind of 1HXW (–14.64 kcal/mol) was larger than the
non-B subtypes (Fig. 6) and the consA (∆Gbind = –9.19
kcal/mol) was the smallest, but there are no significant
differences among non-B subtypes. Also in Fig. 6, we
ions, and solvent in one situation (bonded), and the solvent only in the other situation (free). The additional
constant term γ can be used to adjust LIE to reproduce
experimental binding free energy data (39).
Intermolecular Surface
We developed a special program called “Surfmds” to
calculate intermolecular contact surface area from MD
trajectories, based on Connolly’s algorithm (43). From solvent accessible surface (SAS) of protein and ligand, it is
possible to determine the intermolecular surface as being
the intersection between the SAS of ligand and the SAS of
protein, i.e., the sum of the areas of protein and ligand,
close enough to avoid the allocation of a water molecule.
Cell Biochemistry and Biophysics
Volume 44, 2006
Computational Studies of HIV-1 Protease of B and Non-B Subtypes
399
Fig. 3. Fluctuations of RMS calculated for each residue of protein. (A) Average RMSf per residue of the backbone for each
system: 1HXW (dark thick line), consA (gray), consC (open triangles), and consF (filled triangles). (B) RMSf differences
between non-B subtypes and 1HXW: consA-1HXW (gray), consC-1HXW (open triangles), and consF-1HXW (filled triangles).
Fig. 4. 3D representation of RMS fluctuations of protein. The RMSf of the backbone for each system was represented by
a variable thickness tube, where the larger the tube, the greater the deviation. They are represented by secondary structure:
in black, α-helix; in dark gray, β-sheets and light gray, loop and coiled structures.
Cell Biochemistry and Biophysics
Volume 44, 2006
400
Batista et al.
Fig. 5. RMS fluctuations calculated for inhibitor atoms. The RMSf per atom for each system: 1HXW (dark thick line),
consA (gray), consC (open triangles), and consF (filled triangles). The inhibitor groups (P1, P2, P1’, P2’, and P3’) were
detached. Inset, 3D structure representation of ritonavir groups generated with VMD.
Fig. 6. MD binding free energy calculations with LIE method. The statistical values (mean + SE) for binding free energy
(∆G) of complex PR-ritonavir (black) and van der Waals (gray) and electrostatic (white) contribution to the ∆G. Exp. is the
literature experimental (refs. 45,46) value to binding free energy associated to this inhibitor.
have depicted that van der Waals contribution was similar for every system, but the difference of the electrostatic contribution was evident for 1HWX compared
with the other consensus.
Hydrogen Bond Between PR and Ritonavir
Noncovalent interactions are essential to maintain
protein structure, for the process of recognition and for
ligand–protein interactions. Hydrogen bonds are a speCell Biochemistry and Biophysics
cial kind of nonbonded interaction and play a very
important role in inhibitor affinity for the protein. Here,
we only focus on the details of hydrogen bonds
between ritonavir and PR, which are henceforth
denoted as hbonds. They were classified in direct (D) or
water intermediated (WI). Nearly one quarter of all
hbonds detected in all the simulations were WI. Table 1
shows a noted decrease in the numbers of both D and
WI hbonds from non-B compared with 1HXW. The
Volume 44, 2006
Computational Studies of HIV-1 Protease of B and Non-B Subtypes
401
Table 1
Mean Number of Hydrogen Bonds Between PR and Ritonavir
System
D
WI
Total
1HXW
consA
consC
consF
4.80
4.09
3.89
4.13
1.51
1.27
1.36
1.01
6.31
5.37
5.26
5.13
Data show the mean number of hbonds of each system. Direct (D),
water intermediated (WI), and total hydrogen bonds are represented.
Table 2
Time Permanency and Discrimination of Hbond Between PR and Ritonavir During MD Simulations
1HXW
consA
consC
consF
Donar
Hydrogen
Acceptor
D
WI
D
WI
D
WI
D
WI
RIT199N16
RIT199O26
RIT199N34
ASP129N
RIT199O26
RIT199N9
ASP29N
ASP128N
ILE149N
ILE50N
RIT199H
RIT199H
RIT199H
ASP129H
RIT199H
RIT199H
ASP29H
ASP128H
ILE149H
ILE50H
GLY48O
ASP25OD2
ASP25OD2
RIT199N5
ASP25OD1
GLY126O
RIT199O41
RIT199O7
RIT199O18
RIT199O35
96.4
86.6
82.5
67.0
49.2
36.0
26.7
25.9
1.6
—
—
—
—
—
—
9.8
4.0
1.0
89.4
40.4
72.7
—
—
86.5
99.9
—
95.1
14.4
7.4
—
—
—
—
—
—
—
—
—
45.8
71.3
97.0
99.8
—
66.0
—
7.0
93.4
7.2
1.3
—
—
—
—
—
—
8.4
—
—
28.9
91.9
95.4
100.0
—
43.1
—
—
89.9
9.0
41.0
—
—
—
—
2.6
—
—
—
1.0
26.2
63.7
The percentage of permanency of hbonds between PR and inhibitor during the 3.5-ns simulation. Only the hbonds with more
than 10% are represented. Direct (D) and water intermediated (WI) are shown for each group.
average of total number (D plus WI) for consB was
approx 1 hbond higher than non-B PRs. To evaluate
qualitatively the nature of these hbonds, we calculated
the prevalence of each one along dynamics (Table 2),
and we can point out that hbond RIT199N34ASP25OD2 is present only in 1HXW simulation
(82.5%). Although we have almost 90% of ILE149 WI
hbond in 1HXW, this value goes to about half or less for
the others groups.
Intermolecular Contact Surface Area
We can observe clearly four defined regions around
residues 107, 25/124, 50/149, and 82/181 for both
chains of PR, and such curves, as viewed in Fig. 7, must
have a Gaussian distribution, especially in higher sampling. Asymmetry between chains A and B was
observed, which is reasonable because ritonavir is
asymmetric, because it presents the unpaired group P3’
(Fig. 5, inset). Besides, ad difference was visible in the
intermolecular area for region 107 (S3’) of consA and F,
Cell Biochemistry and Biophysics
showing a higher intermolecular contact surface area.
There were no differences in the sum of areas per region
among different subtype PRs (Fig. 7B).
DISCUSSION
First, we analyzed the dynamic behavior of residues
involved in the subtype polymorphism. In Fig. 3, the
regions around residue 15, 41, and 69 (chain A), where
the substitutions I15V, R41K, and H69K (A and C) are
common to these non-B PRs, the C subtype PR presents
higher deviations. In contrast, consA shows more stabilization than the subtypes (including 1HXW), which can
be justified by the presence of exclusive mutations in
consA sequence (L10V, I13V, K14R, and K20I). In chain
B, non-B PRs display a different pattern from chain A,
and the RMSf profile is similar for all non-B PRs. On the
flap region (around ILE 50/149), mainly in chain B, we
observed the most important fluctuations for non-B
PRs. Another important subsite region is around
Volume 44, 2006
402
Batista et al.
Fig. 7. Intermolecular contact surface area between PR and ritonavir. (A) Calculation of intermolecular contact surface
area between PR and ritonavir were performed with “Surfmds” program. The values (mean + SD) of each group are presented. (B) Sum of area around key residues separated by chain.
VAL82/181, which displays a higher deviation for nonB PRs than 1HXW (Fig. 4).
During MD, as we expected for biomolecules in solution, hbonds are constantly breaking and forming. Each
hbond may contribute approx 3 kcal/mol to stabilization energy for the protein structure. The binding
energy involved (1 to 5 kcal/mol) is, regardless, high
enough above background thermal energy, which is
approx 0.6 kcal/mol at physiological temperature (47).
The average decrease in hbond numbers, between ritonavir and consensus A, C, and F in comparison with
1HXW (Table 1), is in good agreement with our results
from binding free energy calculations (Fig. 6), where
∆Gbind values between non-B and B groups (4.3–4.7
kcal/mol) have the same order of one hydrogen bond
energy.
There is a well-defined correlation between the
increase in fluctuation of flaps region for non-B PRs (Figs.
3 and 4) and the decline in hbond prevalence around
flaps for non-B PRs, involving an important structural
water molecule-intermediating inhibitor and ILE149
Cell Biochemistry and Biophysics
(Table 2). Another remarkable point is the exclusive presence of the hbond RIT199N34-ASP25OD2 in 1HXW.
These evidences can be closely related with the more
instability demonstrated for ritonavir in complex with
non-B PRs (Fig. 5), chiefly around the P1 group, which is
very important for inhibitor binding affinity (21).
With respect to intermolecular contact surface area,
we note that our theoretical models are dynamically
consistent with the crystal model, because all systems
presented the same region contact profile. We also
emphasize that, although we can clearly identify specific contact regions between protease and inhibitor
(Fig. 7), van der Waals interactions do not seem to be
decisive to strengthen binding affinity in complex PRritonavir. In contrast, the electrostatic contribution in
1HXW, is clearly responsible for ∆G differences
observed, because its part is almost twofold the van der
Waals’ part. Besides, the same proportion is verified
when we compare the 1HXW PR-inhibitor electrostatic
interaction with both van der Waals and electrostatic
interactions for non-B PRs.
Volume 44, 2006
Computational Studies of HIV-1 Protease of B and Non-B Subtypes
403
There are four common polymorphisms among PR
consensus subtypes compared with B consensus.
Among them, there is M36I, a secondary mutation associated with drug resistance against ritonavir. Besides
that, there are two more secondary mutations in consA
also associated with drug resistance: L10V and K20I.
Such mutations alone cannot cause drug resistance;
they must come in connection with a primary or other
secondary mutations (19,48,49). Only consA reveals
three secondary mutations, but for consC and consF,
they show such a polymorphism that could also lead to
resistance. In fact, our results of binding free energy
(Fig. 5) corroborate the Velazquez-Campoy data (16),
where Ki of non-B PR indicates reduction in their affinities to ritonavir. However, these affinity differences
alone are not sufficient to cause drug resistance.
Nevertheless, they can intensify the effects of mutations
and eventually lead to drug resistance.
metric substrate? A substrate complex of HIV-1 protease.
J. Mol. Biol. 301, 1207–1220.
Freedberg, D. I., Ishima, R., Jacob, J., et al. (2002) Rapid
structural fluctuations of the free HIV protease flaps in
solution: relationship to crystal structures and comparison with predictions of dynamics calculations. Protein
Sci. 11, 221–232.
Sanches, M., Martins, N. H., Calazans, A., et al. (2004)
Crystallization of a non-B and a B mutant HIV protease.
Acta Crystallogr. D. Biol. Crystallogr. 60, 1625–1627.
Wlodawer, A. and Vondrasek, J. (1998) Inhibitors of HIV-1
protease: a major success of structure-assisted drug
design. Annu. Rev. Biophys. Biomol. Struct. 27, 249–284.
Berman, H. M., Westbrook, J., Feng, Z., et al. (2000) The
Protein Data Bank. Nucleic Acids Res. 28, 235–242.
Velazquez-Campoy, A., Vega, S., Fleming, et al. (2003)
Protease inhibition in African subtypes of HIV-1. AIDS
Rev. 5, 165–171.
Velazquez-Campoy, A., Todd, M. J., Vega, S., and Freire, E.
(2001) Catalytic efficiency and vitality of HIV-1 proteases
from African viral subtypes. Proc. Natl. Acad. Sci. USA 98,
6062–6067.
Vicente, A. C., Agwale, S. M., Otsuki, K., et al. (2001)
Genetic variability of HIV-1 protease from Nigeria and
correlation with protease inhibitors drug resistance. Virus
Genes 22, 181–186.
Soares, M. A., De Oliveira, T., Brindeiro, R. M., et al. (2003)
A specific subtype C of human immunodeficiency virus
type 1 circulates in Brazil. AIDS 17, 11–21.
Caride, E., Hertogs, K., Larder, B., et al. (2001)
Genotypic and phenotypic evidence of different drugresistance mutation patterns between B and non-B subtype isolates of human immunodeficiency virus type 1
found in Brazilian patients failing HAART. Virus Genes
23, 193–202.
Guex, N. and Peitsch, M. C. (1997) SWISS-MODEL and the
Swiss-PdbViewer: an environment for comparative protein modeling. Electrophoresis 18, 2714–2723.
Kempf, D. J., Marsh, K. C., Denissen, J. F., et al. (1995) ABT538 is a potent inhibitor of human immunodeficiency
virus protease and has high oral bioavailability in
humans. Proc. Natl. Acad. Sci. USA 92, 2484–2488.
Laskowski, R. A., Rullmannn, J. A., MacArthur, M. W.,
Kaptein, R., and Thornton, J. M. (1996) AQUA and
PROCHECK-NMR: programs for checking the quality of
protein structures solved by NMR. J. Biomol. NMR 8,
477–486.
van Gunsteren, W. F., Billeter, S. R., Eising, A. A., et al.
(1996) Biomolecular Simulation: The GROMOS96 Manual
and User Guide. vdf Hochschulverlag AG an der ETH
Zürich and BIOMOS b.v., Zürich, Groningen.
van Aalten, D. M., Bywater, R., Findlay, J. B., Hendlich, M.,
Hooft, R. W., and Vriend, G. (1996) PRODRG, a program
for generating molecular topologies and unique molecular
descriptors from coordinates of small molecules. J. Comput.
Aided Mol. Des, 10, 255–262.
van Gunsteren, W. F. and Berendsen, H.J.C. (1987)
Groningen Molecular Simulation (GROMOS) Library Manual.
BIOMOS b.v., Groningen.
ACKNOWLEDGMENTS
We thank the individuals who developed and maintained the GPL software. This work was supported by
HP Brazil R&D, CAPES, FAPERJ, and CNPq.
REFERENCES
1. Hu, W. S. and Temin, H. M. (1990) Retroviral recombination and reverse transcription. Science 250, 1227–1233.
2. Preston, B. D., Poiesz, B. J., and Loeb, L. A. (1988) Fidelity
of HIV-1 reverse transcriptase. Science 242, 1168–1171.
3. Ho, D. D., Neumann, A. U., Perelson, A. S., Chen, W.,
Leonard, J. M., and Markowitz, M. (1995) Rapid turnover
of plasma virions and CD4 lymphocytes in HIV-1 infection. Nature 373, 123–126.
4. Simon, F., Mauclere, P., Roques, P., et al. (1998) Identification
of a new human immunodeficiency virus type 1 distinct
from group M and group O. Nat. Med. 4, 1032–1037.
5. Kantor, R. and Katzenstein, D. (2003) Polymorphism in
HIV-1 non-subtype B protease and reverse transcriptase
and its potential impact on drug susceptibility and drug
resistance evolution. AIDS Rev. 5, 25–35.
6. Wainberg, M. A. (2004) HIV-1 subtype distribution and the
problem of drug resistance. AIDS 18 (Suppl.) 3, S63-S68.
7. UNAIDS (2004) AIDS epidemic update: 2004. UNAIDS/
WHO, Geneva, Switzerland.
8. Osmanov, S., Pattou, C., Walker, N., Schwardlander, B.,
Esparza, J., and Charact, W.-U.N.H.I. (2002) Estimated
global distribution and regional spread of HIV-1 genetic
subtypes in the year 2000. J. Acquir. Immun. Defic. Syndr.
29, 184–190.
9. Soares, M. A., Brindeiro, R. M., and Tanuri, A. (2004)
Primary HIV-1 drug resistance in Brazil. AIDS 18 (Suppl.)
3, S9–S13.
10. Prabu-Jeyabalan, M., Nalivaika, E., and Schiffer, C. A.
(2000) How does a symmetric dimer recognize an asym-
Cell Biochemistry and Biophysics
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
Volume 44, 2006
404
26. Frisch, M. J., Trucks, G. W., Schlegel, H. B., et al. (1995)
GAUSSIAN94, Revision B.1. Gaussian, Inc., Pittsburgh, PA.
27. van der Spoel, D., van Buuren, A. R., Apol, E., et al. (2001)
Gromacs User’s Manual version 3.0, Groningen.
28. Berendsen, H.J.C., van der Spoel, D., and van Drunen, R.
(1995) GROMACS: A message-passing parallel molecular
dynamics implementation. Comp. Phys. Commun. 91, 43–56.
29. Humphrey, W., Dalke, A., and Schulten, K. (1996) VMD:
visual molecular dynamics. J. Mol. Graph. 14, 33–38, 27–38.
30. Berendsen, H. J. C., Postma, J. P. M., Gunsteren, W. F. V.,
and Hermans, J. (1981) Interaction models for water in relation to protein hydration, in Intermolecular Forces (Pullman,
B., ed.), Reidel, Dordrecht, The Netherlands, pp. 331–342.
31. Hess, B., Bekker, H., Berendsen, H. J. C., and Fraaije, J. G.
E. M. (1997) LINCS: a linear constraint solver for molecular simulations. J. Comput. Chem. 18, 1463–1472.
32. Miyamoto, S. and Kollman, P. A. (1992) Settle - an analytical version of the shake and rattle algorithm for rigid
water models. J. Comput. Chem. 13, 952–962.
33. Berendsen, H. J. C., Postma, J. P. M., Vangunsteren, W. F.,
Dinola, A., and Haak, J. R. (1984) Molecular-dynamics with
coupling to an external bath. J. Chem. Phys. 81, 3684–3690.
34. Schreiber, H. and Steinhauser, O. (1992) Taming cut-off
induced artifacts in molecular dynamics studies of solvated polypeptides. The reaction field method. J. Mol. Biol.
228, 909–923.
35. Smith, P. E. and Vangunsteren, W. F. (1994) Consistent
dielectric-properties of the simple point-charge and
extended simple point-charge water models at 277 and
300 K. J. Chem. Phys. 100, 3169–3174.
36. Hyland, L. J., Tomaszek, T. A., Jr., Roberts, G. D., et al.
(1991) Human immunodeficiency virus-1 protease. 1.
Initial velocity studies and kinetic characterization of reaction intermediates by 18O isotope exchange. Biochemistry
30, 8441–8453.
37. Hyland, L. J., Tomaszek, T. A., Jr. and Meek, T. D. (1991)
Human immunodeficiency virus-1 protease. 2. Use of pH
rate studies and solvent kinetic isotope effects to elucidate details of chemical mechanism. Biochemistry 30,
8454–8463.
Cell Biochemistry and Biophysics
Batista et al.
38. Okimoto, N., Tsukui, T., Hata, M., Hoshino, T., and Tsuda,
M. (2000) Molecular dynamics study of HIV-1 proteasesubstrate complex: roles of the water molecules at the loop
structures of the active site. J. Am. Chem. Soc. 122,
5613–5622.
39. Aqvist, J., Medina, C., and Samuelsson, J. E. (1994) A new
method for predicting binding affinity in computer-aided
drug design. Protein Eng. 7, 385–391.
40. Hulten, J., Bonham, N. M., Nillroth, U., et al. (1997) Cyclic
HIV-1 protease inhibitors derived from mannitol: synthesis, inhibitory potencies, and computational predictions of
binding affinities. J. Med. Chem. 40, 885–897.
41. Wang, W., Wang, J., and Kollman, P. A. (1999) What determines the van der Waals coefficient beta in the LIE (linear
interaction energy) method to estimate binding free energies
using molecular dynamics simulations? Proteins 34, 395–402.
42. Aqvist, J., Luzhkov, V. B., and Brandsdal, B. O. (2002)
Ligand binding affinities from MD simulations. Accounts
Chem. Res. 35, 358–365.
43. Connolly, M. L. (1983) Solvent-accessible surfaces of proteins and nucleic-acids. Science 221, 709–713.
44. Koradi, R., Billeter, M., and Wuthrich, K. (1996) MOLMOL: a program for display and analysis of macromolecular structures. J. Mol. Graph. 14, 51–55, 29–32.
45. Wang, W. and Kollman, P. A. (2001) Computational study
of protein specificity: the molecular basis of HIV-1 protease drug resistance. Proc. Natl. Acad. Sci. USA 98,
14,937–14,942.
46. Brandsdal, B. O., Osterberg, F., Almlof, M., Feierberg, I.,
Luzhkov, V. B., and Aqvist, J. (2003) Free energy calculations and ligand binding. Adv. Protein Chem. 66, 123–158.
47. Garrett, R. and Grisham, C. M. (1995) Biochemistry,
Saunders College Pub., Fort Worth, TX.
48. Ala, P. J., Huston, E. E., Klabe, R. M., et al. (1997)
Molecular basis of HIV-1 protease drug resistance: structural analysis of mutant proteases complexed with cyclic
urea inhibitors. Biochemistry 36, 1573–1580.
49. Deeks, S. G., Smith, M., Holodniy, M., and Kahn, J. O.
(1997) HIV-1 protease inhibitors - a review for clinicians. J.
Am. Med. Assoc. 277, 145–153.
Volume 44, 2006
124
ANEXO 2:
proteins
STRUCTURE O FUNCTION O BIOINFORMATICS
Predicting functional residues in Plasmodium
falciparum plasmepsins by combining
sequence and structural analysis with
molecular dynamics simulations
Pedro A. Valiente,1 Paulo R. Batista,2 Amaury Pupo,3 Tirso Pons,1 Alfonso Valencia,4
and Pedro G. Pascutti2*
1 Facultad de Biologı́a, Centro de Estudios de Proteı́nas (CEP), Universidad de La Habana, Cuba
2 Instituto de Biofı́sica Carlos Chagas Filho, Universidade Federal do Rio de Janeiro, Brazil
3 Departamento de Bioinformática, Centro de Inmunologı́a Molecular, Cuba
4 Centro Nacional de Investigaciones Oncologicas (CNIO), Madrid E-28029, España
ABSTRACT
Plasmepsins are aspartic proteases involved in the initial
steps of the hemoglobin degradation pathway, a critical
stage in the Plasmodium falciparum life cycle during
human infection. Thus, they are attractive targets for
novel therapeutic compounds to treat malaria, which
remains one of the world’s biggest health problems. The
three-dimensional structures available for P. falciparum
plasmepsins II and IV make structure-based drug design
of antimalarial compounds that focus on inhibiting plasmepsins possible. However, the structural flexibility of the
plasmepsin active site cavity combined with insufficient
knowledge of the functional residues and of those determining the specificity of parasitic enzymes is a drawback
when designing specific inhibitors. In this study, we have
combined a sequence and structural analysis with molecular dynamics simulations to predict the functional residues in P. falciparum plasmepsins. The careful analysis of
X-ray structures and 3D models carried out here suggests
that residues Y17, V105, T108, L191, L242, Q275, and
T298 are important for plasmepsin function. These seven
amino acids are conserved across the malarial strains but
not in human aspartic proteases. Residues V105 and T108
are localized in a flap of an interior pocket and they only
establish contacts with a specific non-peptide achiral inhibitor. We also observed a rapid conformational change
in the L3 region of plasmepsins that closes the active site
of the enzyme, which explains earlier experimental findings. These results shed light on the role of V105 and
T108 residues in plasmepsin specificities, and they should
be useful in structure-based design of novel, selective
inhibitors that may serve as antimalarial drugs.
Proteins 2008; 73:440–457.
C 2008 Wiley-Liss, Inc.
V
Key words: malaria; aspartic protease; selectivity; comparative modeling; molecular dynamics; functional residues.
440
PROTEINS
INTRODUCTION
Malaria remains one of the world’s biggest health problems
because 500 million are infected with this disease each year
and it is responsible for about one million deaths annually.1
The disease is caused by parasites from the genus Plasmodium and in humans, it is the result of an infection by the
following species: Plasmodium falciparum, Plasmodium
malariae, Plasmodium ovalae, and Plasmodium vivax. Of
these species P. falciparum is the most lethal and it is therefore the main target for drug intervention.2 Once the
microbe is transmitted to humans by mosquitoes of the
anopheles genus, it causes many problems, the most common of which are severe, recurring fever attacks. The increasing resistance of malarial parasites to the existing antimalarial
drugs, and in particular of P. falciparum, has focused efforts
toward the discovery of more selective and potent drugs.3
One of the critical stages of the P. falciparum life cycle
during human infection is the degradation of hemoglobin,
which constitutes the main source of amino acids for its own
growth and maturation.3 During the intraerythrocytic stage
of the parasite’s life cycle, this protozoa consumes 75% of
the hemoglobin in the infected red blood cell.4,5 Hemoglobin degradation occurs within the acidic food vacuole of the
parasite and it is catalyzed by aspartic,6 cysteine,7 and metallopeptidases.8 A family of aspartic proteases known as plasmepsins (Plm) is involved in the initial steps of the hemoglo-
Additional Supporting Information may be found in the online version of this article.
*Correspondence to: Pedro G. Pascutti, Instituto de Biofisica Carlos Chagas Filho,
Universidade Federal do Rio de Janeiro, Brazil. E-mail: [email protected].
Grant sponsors: Cuban Ministry of High Education (MES), Structural Biology and Biocomputing Programme of the Spanish National Cancer Research Centre (CNIO), Madrid, Spain. Brazilian High Education Support Agency (CAPES), International Union
of Biochemistry and Molecular Biology (IUBMB).
Received 24 September 2007; Revised 1 February 2008; Accepted 25 February 2008
Published online 28 April 2008 in Wiley InterScience (www.interscience.wiley.com).
DOI: 10.1002/prot.22068
C 2008 WILEY-LISS, INC.
V
Functional Residues in Plasmodium falciparum Plasmepsins
bin degradation pathway,5 and these proteases are attractive targets for the design of novel therapeutic compounds to treat malaria.3 Indeed, Pepstatin A, a nonspecific broad-range aspartic peptidase inhibitor, can cause
the death of the Plasmodium microbes when added to culture cells infected with parasites.9,10 A similar behavior
has been reported in animal models infected with Plasmodium parasite when E-64, a nonspecific broad-range cysteine peptidase inhibitor, was administered, and both inhibitors display a synergic effect when combined.11–14
Sequencing of the P. falciparum genome has identified
10 plasmepsin encoding genes, numbered PlmI to
PlmX.3,15 Among these, only PlmI, PlmII, HAP (histoaspartic protease or PlmIII), and PlmIV are active in the
food vacuole.16 The redundant functional roles of these
enzymes in hemoglobin digestion has been demonstrated
by plasmepsin deletion. This feature indicates that more
effective drugs may be obtained by blocking more than
one plasmepsin.17,18
Structure-based drug design of antimalarial compounds targeting plasmepsin inhibition is possible due to
the availability of the three-dimensional (3D) structures
of PlmII (PDB: 1lf4, 1sme, 1xdh, 2bju, 1lee), PlmIV
(PDB: 1ls5, 1pfz) from P. falciparum, Plm from P. malariae (PDB: 2anl) and Plm from P. vivax species (PDB:
1qs8). Although the degree of sequence identity among
the aspartic proteases of Plasmodium species is relatively
high (60%), substrate specificity and their response to
inhibitors differ, indicating that variations may exist in
the specific binding interactions between the different
plasmepsins.19–22 Among Plasmodium species, only
P. falciparum strains possess genes encoding PlmI, PlmII,
and HAP. Furthermore, Plm IV has a higher level of
sequence identity with plasmepsins from non-falciparum
species (65–76%) than with their paralogs PlmI, PlmII,
and HAP (63%, 62% and 53%, respectively).23 However,
PlmII has been the most extensively characterized,
because several crystal structures have been determined24–26 and potent inhibitors developed.14,27–30
Nevertheless, these compounds generally have limited selectivity toward the human-related protease cathepsin D
(hCatD)29. The high degree of structural flexibility of
the PlmII active site cavity allows the different molecules
to be accommodated, and this is a drawback when
designing specific inhibitors.31
In this respect, identifying the functional residues responsible for plasmepsin specificity could help the development of more potent and selective inhibitors. Sitedirected mutagenesis of PlmII failed to identify significant differences between mutant (M15E, I289E, S79D
and M15E/I289E) and wild-type recombinant enzymes in
terms of hemoglobin-based substrate cleavage, which
indicates that these mutations in the binding site did not
alter the natural function of the enzyme.32
In this manuscript, we present a sequence and structural analysis of aspartic proteases that include plasmep-
sins from different Plasmodium species, and their homologs, cathepsins, pepsin, rennin, and napsin. The homologous human enzymes were also studied to better
understand the specificities of the Plasmodium enzymes
and in an effort to develop new specific plasmepsin
inhibitors. We also generated comparative 3D models for
PlmI, HAP and the following complexes: PlmI–PepstatinA, HAP–PepstatinA, and PlmII/IV–peptide substrates.
Based on these sequence analyses, 3D structures of PlmII
and PlmIV and the comparative 3D models of PlmI and
HAP, we predicted for the first time that residues Y17,
V105, T108, L191, L242, Q275, and T298 are important
for plasmepsin function. These seven promising amino
acid residues are conserved in the malarial strains but
not among human aspartic proteases. Residues V105 and
T108 are located in a flap of an interior pocket and only
establish contacts with a specific nonpeptide achiral inhibitor. Residue L242 is located in the L3 loop,31 recently
described as an essential region in cleaving intact hemoglobin.33 Residue Q275 is situated in the small b1024
neighbor to the L4 loop,31 while residues Y17, L191 and
T298 belong to well-defined pockets lining the binding
site cavity. By combining the information derived from
sequence and structural analysis with molecular dynamics
(MD) simulations of Plms–ligand complexes, we suggest
critical contact points for the structure-based design of
novel, selective plasmepsin inhibitors as antimalarial
drugs.
MATERIALS AND METHODS
The methodology followed here to identify new functional residues from P. falciparum plasmepsins is presented in a flowchart (see Fig. 1). We combined the information derived from sequence and structural analysis
with MD simulations of Plms–inhibitor complexes to
corroborate our findings.
Sequence and structure analyses
We analyzed 73 amino acid sequences homologous to
P. falciparum plasmepsins, as well as 13 crystallographic
structures of cathepsin D, pepsin, renin, PlmII, and
PlmIV (PDB codes: 1lyw, 1bim, 1f04, 1qdm, 1psn, 1ayf,
1sme, 1qs8, 1ls5, 1fkn, 1lyb, 1xdh, 2bju). For these comparisons, the following web servers were used: PSIBLAST (http://www.ncbi.nlm.nih.gov/BLAST) for similarity searches in the nonredundant NCBI protein database
(NCBI-nr); MC-CE (http://cl.sdsc.edu/) for structural
superposition; CONSURF (http://consurf.tau.ac.il) to calculate the amino acid conservation; CASTp (http://
sts.bioengr-uic.edu/castp) to identify cavities and calculate their area and volumes; WHAT IF (http://swift.
cmbi.kun.nl/WIWWWI/) to calculate atom–atom contacts between the residues of binding-sites and the functional groups of inhibitors.
PROTEINS
441
P.A. Valiente et al.
Figure 1
Flowchart of the methodology followed to identify the seven new functional residues from P. falciparum plasmepsins by combining the information derived from the
sequence and structural analysis with Molecular Dynamics simulations of Plm–inhibitor complexes.
Multiple alignments were performed using the CLUSTALW software.34 First, a profile was generated by the
MC-CE structural superposition of the crystallographic
structures of cathepsin D, pepsin, renin, PlmII, and
PlmIV. Then, the remaining protein sequences analyzed
were aligned with respect to the profile with CLUSTALW.34 Finally, the multiple alignment was manually
parsed by analyzing the gaps, conserved amino acid
regions and the secondary structure information using
Seaview software.35
Comparative 3D modeling
Three-dimensional models for PlmI, HAP, and their
complexes with the Pepstatin A inhibitor, were generated
with MODELLER software36 using the crystallographic
structures as templates (PDB codes: 2bju, 1xdh). The
multiple sequence alignment obtained was edited using
442
PROTEINS
Seaview software, in order to align the Plms target
sequences with the chosen templates. We calculated 100
models for each target with the spatial restraints
extracted from the target–template alignment. These
models were evaluated using the UCLA web server tools:
ERRAT; VERIFY_3D; PROVE; PROCHECK; WHAT_CHEK (http://nihserver.mbi.ucla.edu/SAVS/); and the
DOPE energy function37 provided with the Modeling
package.
To select the best models, we assigned a Zi-score (Zi 5
(Qualityi 2 Mean Quality)/Standard Deviation of Quality) for each solution and those models with positive values of Zi-score were chosen arbitrarily. A similar process
was used to obtain 3D models of PlmII and PlmIV in
complex with their peptide substrates. To model PlmII
and PlmIV complexes, we selected the 1xdh (PlmII–Pepstatin A, R 5 1.7 Å) and 1ls5 (PlmIV–Pepstatin A, R 5
2.8 Å) crystallographic structures as templates, respectively.
Functional Residues in Plasmodium falciparum Plasmepsins
MD simulations
The molecular mechanics potential energy minimizations and MD simulations were carried out with the software package GROMACS, version 3.3.138 using the
GROMOS96 53a6 force field.39 For all the systems we
used the visual molecular dynamics (VMD)40 software
for molecular visualization and manipulation, to set up
the spatial orientation of complexes, and to have their
principal axes aligned to the cartesian axes. Solvation was
performed with a layer of at least 15 Å around the protease–ligand complex, in a rhombic dodecahedral box (xysquare) geometry for periodic boundary conditions. The
model of the solvent chosen was single point charge
(SPC) water41 and to neutralize the charge of the system,
chloride (Cl2) counter-ions were inserted. Accordingly,
we ended up with twelve systems for MD simulations,
with their final volumes ranging from 580 to 700 nm3
and each with between 55,000 and 70,000 atoms. For
energy minimization, we used the steepest descent algorithms (preceded by a position restrained stage for protein atoms) and a conjugate gradient, until an energy
gradient was reached less than 2.39 kcal/mol/Å. The MD
simulations were performed according to the following
criteria: 500 ps with the positions of the protein’s atoms
restrained to allow the solvent equilibration; 200 ps with
the positions of the backbone’s protein atoms restrained
to allow the gradually liberation of the system; and then
a full MD for 3.3 ns without restrictions. The Verlet integration42 scheme (leapfrog) with an MD integration
time step of 2 fs was employed. LINCS43 was used to
constrain all the covalent bonds in non-water molecules,
whereas the SETTLE44 algorithm was used to constrain
bond lengths and angles in water molecules. The temperature was controlled using weak coupling to a bath of
300 K with a time constant of 0.1 ps. Protein, ligands,
ions, and water were independently coupled to the heat
bath.45 Initial velocities were randomly generated from a
Maxwell distribution at 300 K, in accordance with the
masses that were assigned to the atoms. The pressure was
controlled using the weak Berendsen coupling to a
‘‘pressure bath of 1 atm’’ with a time constant of 1.0 ps.
The long-range electrostatic interactions were calculated
using the particle mesh ewald (PME) method46,47 with
a non-bonded cutoff at 1.0 Å. The Lennard–Jones interactions were calculated with a cutoff of 1.4 Å, and both
non-bonded interactions were calculated every five steps
during the generation of the neighbor-list (10 ps). The
protonation states of protein ionizable residues were
assigned using the PROPKA option48 implemented by
the PDB2PQR web server (http://agave.wustl.edu/
pdb2pqr/server.html), and only the catalytic D34 was
protonated in Plm systems (not D214).
Molecular topology files for Pepstatin A and the achiral inhibitors are not available for the GROMOS96 force
field. Therefore, the parameters necessary to run Plms–
ligand MD simulations were calculated. In a first step, we
used the PRODRG server (http://davapc1.bioch.dundee.ac.
uk/programs/prodrg)49 to generate a set of parameters
for bonds, angles, atom pairs, proper, and improper
dihedrals based on the GROMOS96 force field.50 Then,
ab initio quantum mechanics calculations at the B3LYP/
6-31G** level were made with the Gamess software51
using CHELPG methodology52 in order to obtain the
partial charges of atoms in these molecules. For this calculation we assumed a null total charge for such inhibitors. We also calculated the intermolecular contact surface area from MD trajectories with the ‘‘SurfInMD’’
software, a program based on the Connolly algorithm53
and developed in the laboratory of Professor Pascutti and
coworkers.54
RESULTS
Sequence and structure analysis
We selected 73 amino acid sequences homologous to
P. falciparum PlmI, PlmII, HAP, and PlmIV, from PSIBLAST similarity searches carried out in the NCBI-nr
database. These amino acid sequences belong to organisms from different Phyla covering a wide range of specificities in the aspartic proteases family (e.g. Haemosporida,
Mammalia, Amphibia, Archosauria, Arthropoda, Fish,
Fungi, Platyhelminthes, Viridiplantae, Mollusca, Mycetozoa, Nematoda and Lepidosauria). A summary of the
annotations to each amino acid sequence used in the
present study is provided as Supplementary Information
(Table I).
To predict the functional residues in P. falciparum plasmepsins, we first generated a multiple sequence alignment (MSA) for this protein family, which enabled us to
identify regions with different degrees of variability. Conserved regions or positions indicate residues supposedly
under stronger evolutionary constraints and that thus
might be more important for the protein to fulfill its
function. Moreover, residues that are specifically conserved in subfamilies point to sequence changes that
occurred during the divergence of a common ancestor,
and they imply functional changes or the acquisition of
modified specificity.55 The MSA was used to calculate
position-specific conservation scores with a Bayesian
algorithm56 available on the Consurf web server (http://
Consurf.tau.ac.il: see Supplementary Figure). The Consurf conservation scores are divided into a discrete scale
of 9 grades for visualization: where grade 1 contains the
most variable positions; grade 5 contains intermediately
conserved positions; and grade 9 contains the most conserved positions.57 The discrete Consurf conservation
scale for the functional residues proposed here are shown
in Table I: Y17, V105, T108, L191, L242, Q275, and
T298, which belonged to S3 sub-site and the flexible
regions known as Flap (N76-G80), L1 (Q12-I14), L2
PROTEINS
443
P.A. Valiente et al.
Table I
Discrete Conservation Scale for the New Functional Residues Proposed in the
Present Article and the Flexible Regions Known as Flap (N76-G80), L1
(Q12-I14), L2 (L158-T165), L3 (L231-F244), L4 (I277-G283) Calculated
with the Consurf Server
Plasmepsin II
Region
Flap
L1
L2
L3
L4
S3 subsite
Flap interior
pocket
S20 subsite
S3 subsite
S30 subsite
Human enzyme residues
Residue
Cathepsin D
Cathepsin E
Consurf
discrete scale
N76
Y77
V78
S79
G80
Q12
N13
I14
L158
P159
V160
H161
D162
K163
H164
T165
L231
Q232
N233
L234
D235
V236
I237
K238
V239
P240
F241
L242
P243
F244
I277
E278
D279
V280
G281
P282
G283
Y17
V105
T108
L191
Q275
T298
H77
Y78
G79
S80
G81
M11
D12
A13
L169
S170
R171
D172
P173
Q176
P177
G178
Q248
K249
A250
I251
G252
A253
V254
P255
L256
—
I257
Q258
G259
E260
V294
S295
Q296
A297
G298
K299
T300
Y16
A118
Q121
A204
L292
L318
Q84
Y85
G86
T87
G88
L20
D21
M22
M170
S171
S172
N173
—
G178
A179
G180
Q249
N250
A251
I252
G253
A254
A255
P256
V257
—
—
D258
G259
E260
D294
F295
V296
D297
G298
M299
Q300
F25
Q114
G117
A205
L292
L318
4
8
6
8
9
3
8
6
7
7
4
5
1
1
1
3
5
1
2
7
6
7
4
2
4
6
1
1
4
4
2
2
1
2
5
1
4
5
7
6
4
2
6
(L158-T165), L3 (L231-F244), L4 (I277-G283).20,31
These residues were identified through their conservation
in different malarial strains, but not in related human aspartic proteases. Residues V105 and T108 are conserved
in malarial strains, whereas at these equivalent positions
amino acids A and Q/G are found in the human related
aspartic proteases Cathepsin D (hCatD) and Cathepsin E
(hCatE). Residues L191 and L242 are specific to P. falciparum plasmepsins, whereas hCatD and hCatE enzymes
have the amino acids A and Q/D at the same positions.
Residue 275 is occupied by a Q in PlmI/PlmII enzymes,
where residues E and D are present in PlmIV and HAP,
444
PROTEINS
respectively. By contrast, the hydrophobic residues L and
V are found at this position in hCatD and hCatE. Residue T298 is conserved across P. falciparum plasmepsins,
whereas the hCatD and hCatE related proteases have a
hydrophobic L at this position. Likewise, residue Y17 is
conserved among P. falciparum plasmepsins whereas the
human-related proteases have an F or Y amino acid at
this position. Nevertheless, the new functional residues
proposed here differ in their degree of conservation,
which could reflect the different activities or specificities
in the protein family.
In a second step, we explored whether these conserved
residues in P. falciparum plasmepsins were located at the
active site cavity or in an adjacent area. For this purpose,
we used the CASTp web server (http://sts.bioengr-uic.
edu/castp) to examine seven different structures of Plms–
inhibitor complexes determined by X-ray diffraction:
PlmII-Achiral (PDB: 2bju), PlmII-Pepstatin A (PDB:
1xdh), PlmIV–Pepstatin A (PDB: 1ls5), PlmII–RS367
(PDB: 1lee), PlmII–RS370 (PDB: 1lf2), PlmII–EH58
(PDB: 1lf3), and PlmII–Statine based compound (PDB:
1me6). This approach allowed us to identify atoms forming protein pockets, to calculate the volumes and areas of
the pockets, to identify atoms forming the ‘‘rims’’ of the
pocket mouth(s), to calculate the number of mouth
openings for each pocket, as well as the area and circumference of the mouth openings.58 We also computed the
molecular volume and the area of the active site cavity
from the hCatD–Pepstatin A complex (PDB: 1lyb), taking
into account that this human enzyme has 35% sequence
identity with P. falciparum PlmII.
We present the surface electrostatic potential of the
active site pockets from four different Plm–inhibitor and
hCatD–Pepstatin A complexes calculated with the APBS
program59 (see Fig. 2). As can be seen through the
chemical–physical properties of residues that belong to
active site cavities, the hCatD and PlmII/IV active sites
have an equivalent polarity. The analysis of the Plm
binding site cavities defined by the Castp server identifies
the following residues in the pocket lining of the parasite
enzymes (according to the PlmII numbering scheme):
F11, Q12, N13, I14, M15, Y17, I32, D34, G36, A38, M75,
Y77, V78, S79, V105, T108, F111, T114, Y115, S118,
F120, I123, L131, Y192, I212, D214, S215, G216, T217,
S218, A219, T221, P243, F244, Q275, L287, N288, I289,
I290, L292, F294, and I300. When we analyzed the area
(Area_sa, Area_ms) and volume (Vol_sa, Vol_ms) parameters calculated by the Castp server for the active site of
each complex (Table II), the active site of hCatD–Pepstatin A complex had greater solvent accessible, molecular
surface areas and volumes than the Plm–inhibitor complexes. We also analyzed the differences in Area_sa,
Area_ms, Vol_sa and Vol_ms in the presence (1Inh) or
absence (2Inh) of a ligand in the enzyme binding site
cavity. Our calculations of DArea and DVol for each
complex binding site show that the achiral inhibitor suf-
Functional Residues in Plasmodium falciparum Plasmepsins
Figure 2
Top view of the surface electrostatic potential representation of active site pockets from: (A) PlmII–Achiral Inhibitor, (B) PlmII–Pepstatin A, (C) PlmIV–Pepstatin A, and
(D) hCatD–Pepstatin A complexes. The surface is colored according to the electrostatic potential: negative regions (in red), positive regions (in blue), and neutral regions
(in gray). We also provided a color intensity scale (from 215 to 15 kT/e) to better represent the electrostatic potential. [Color figure can be viewed in the online issue,
which is available at www.interscience.wiley.com.]
fers a greater decrease in Area_sa, Area_ms, Vol_sa, and
Vol_ms than hCatD–Pepstatin A and Plms–Pepstatin A
complexes.
In the third step, we calculated the atomic-contacts
between Plm residues and the functional inhibitory
groups from the 3D structures annotated in the Protein
Data Bank (PDBs: 2bju, 1xdh, 1ls5, 1lee, 1lf2, 1lf3, 1me6)
using the WHAT IF web server (http://swift.cmbi.kun.nl/
WIWWWI/).60 This procedure allowed us to define
non-contact residues near to the active site cavities previously calculated with the Castp server, and to show the
enzyme residues in contact with functional inhibitory
Table II
Parameters Calculated by the Castp Web Server for Active Sites of hCatD–Pepstatin A (1lyb), PlmII–Pepstatin A 1xdh), PlmII–Achiral Inhibitor (2bju),
and PlmIV–Pepstatin A (1ls5) Complexes
Area_sa (A2)
Area_ms (A2)
Vol_sa (A3)
Vol_ms (A3)
Crystallographic
structures
2Inh
1Inh
D
2Inh
1Inh
D
2Inh
1Inh
D
2Inh
1Inh
D
1lyb
1xdh
2bju
1ls5
1000
677.7
916.9
656.5
862.6
217.7
418.4
213.9
137.4
460
498.5
442.6
1340.9
934.3
1340.1
991.8
1293.5
671.1
627.1
674.9
47.4
263.2
713
316.9
1205.1
757.9
1185.6
527.1
887.8
142.3
536.8
114.7
317.3
615.6
648.8
412.4
2794.8
1869.8
2722.6
1664.7
2349.7
738.9
1236.2
696.6
445.1
1130.9
1486.4
968.1
Area_sa, solvent accessible area; Area_ms, molecular surface area; Vol_sa, solvent accessible volume; and Vol_ms, molecular surface volume. Calculations of these parameters were performed taking into account the presence (1Inh) or absence (2Inh) of the inhibitor in the enzyme binding site cavity. Differences between these values are
shown as D symbol in bold.
PROTEINS
445
P.A. Valiente et al.
Table III
Protein Contact Residues in PlmII–Pepstatin A (1xdh), hCatD–Pepstatin A
(1lyb), PlmIV–Pepstatin A(1ls5), PlmII–Achiral Inhibitor (2bju), PlmII–
RS367(1lee), PlmII–RS370 (1lf2), PlmII–EH58 (1lf3), and PlmII–statine based
compound (1me6) complexes, Calculated with What if Web Server
1xdh
1lyb
1ls5
2bju
1lee
1lf2
1lf3
1me6
—
—
I32
D34
—
—
—
—
N76
Y77
V78
—
—
—
—
—
—
—
—
Y192
D214
G216
—
—
—
—
—
—
I300
—
—
V31
D33
—
—
—
—
H77
Y78
G79
—
—
—
—
—
—
—
—
Y205
D231
G233
—
—
—
—
—
I311
I320
L14
—
—
D34
G36
S37
—
—
S76
Y77
G78
S79
D109
—
E112
—
—
—
—
Y192
—
G216
T217
S218
—
L290
I294
—
—
I14
M15
I32
D34
—
—
W41
M75
—
Y77
—
—
—
F111
—
T114
Y115
I123
—
Y192
D214
G216
—
—
—
—
—
—
I300
—
—
—
D34
G36
—
—
M75
—
Y77
V78
S79
—
F111
—
—
—
I123
L131
—
D214
—
T217
—
—
I290
F294
—
I300
—
—
—
D34
G36
—
—
—
N76
Y77
V78
S79
—
F111
—
—
—
I123
L131
—
D214
—
T217
S218
—
—
F294
—
—
—
—
I32
D34
G36
—
—
—
—
Y77
V78
S79
—
F111
—
—
—
—
L131
Y192
D214
G216
—
S218
—
—
F294
—
I300
—
M15
—
D34
G36
S37
—
—
—
Y77
V78
S79
—
—
—
—
—
I123
—
—
D214
—
T217
S218
A219
I290
—
—
—
Residues in equivalent positions according to structure superposition between
Plasmepsins and human Cathepsin D are shown in the same table row.
groups in the PlmII–Achiral, PlmII–Pepstatin A, PlmIV–
Pepstatin A, PlmII–RS367, PlmII–RS370, PlmII–EH58,
PlmII–Statine based compounds and hCatD–Pepstatin A
complexes (Table III).
Finally and based on their sequence, a manual analysis
of the residues identified at the active site cavities of
Plms was combined with the information derived from
the calculation of atomic-contacts between Plms residues
and inhibitory functional groups from the Plms–ligand
complexes structures deposited at PDB. These data supported our identification of four of the seven functional
residues in Plms proposed here: Y17, V105, T108, and
Q275. These residues are close to the plasmepsins active
site groove, whereas the remaining three amino acid
positions (L191, L242, and T298) are more distant from
the enzymes active site.
Comparative 3D modeling
To evaluate our predictions regarding these functional
residues, we calculated 3D models for PlmI and HAP,
and their complexes with Pepstatin A inhibitor. Based on
PlmII and PlmIV 3D structures annotated at PDB, we
446
PROTEINS
chose the high resolution (R) crystallographic structures
2bju (PlmII–Achiral Inhibitor, R 5 1.56 Å) and 1xdh
(PlmII–Pepstatin A, R 5 1.7 Å) as templates to model
Plms and their respective complexes. To obtain 3D models of PlmII and PlmIV peptide substrate complexes, we
chose the crystallographic structures of PlmII–Pepstatin
A (PDB code: 1xdh, R 5 1.7 Å) and PlmIV–Pepstatin A
(PDB code: 1ls5, R 5 2.8 Å) as templates. As a result of
the validation process (see Methods section), the following models were chosen: PlmI (98), HAP (87), PlmI–
Pepstatin A (23), HAP–Pepstatin A (63), PlmII–IEFLRL
(5), and PlmIV–IEFLRL (1).
We produced a graphic representation of the molecular
interactions in PlmI–Pepstatin A and HAP–Pepstatin A
complexes obtained using Roman Laskowski services in
pdbsum database (http://www.ebi.ac.uk/thornton-srv/
databases/pdbsum/upload.html, Fig. 3). According to
these models, the PlmI residues M15, G36, S79, I123,
T217, and S219 make additional contacts with inhibitory
functional groups when compared to the 3D structure
used as the template. In the HAP–Pepstatin A complex,
there were also additional contacts established with inhibitory functional groups by enzyme residues A36, S37,
F114, A216, T217, V219, and V290 when compared with
the 3D structure used as the template.
The enzyme contact residues with functional substrate
groups in PlmII–IEFLRL and PlmIV–IEFLRL complexes
after MD simulations are classified by subsite pockets in
Table IV. The contact residues were assigned to the corresponding binding sites in the protease (S3, S2, S1, S10 ,
S20 , and S30 ) using a 6.0 Å distance cutoff, to determine
the atom–atom contacts between the enzyme and substrate residues (P3, P2, P1, P10 , P20 , and P30 ). This standard nomenclature for protease substrate cleavage takes
into account that peptide bond scission occurs between
the P1 and P10 residues.61 A more detailed analysis of
the Plm contact residues in Plms–ligand complexes is
presented in the MD simulations section.
MD simulations
P. falciparum plasmepsins show great flexibility in all
the annotated 3D structures. To explore the conformational fluctuation of these proteins, we performed MD
simulations using Plms and Plms–ligand structures as the
initial conformations. To study the structural flexibility of
free-state Plms during 3 ns of MD simulation, we calculated the fluctuation of the root mean square (RMSf) per
residue (see Fig. 4) and we generated a visual 3D RMSf
representation of the deviation of the backbone atoms
with the MOLMOL62 software (see Fig. 5). As a result,
we observed several RMSf peaks in Plms regions L1
(RMSf values from 0.139 to 0.165 nm), Flap (RMSf: 0.119
to 0.203 nm), L2 (RMSf: 0.066 to 0.178 nm), L3 (RMSf:
0.099 to 0.287 nm), L4 (RMSf: 0.151 to 0.219 nm), and
between residues 108 and 119 (RMSf: 0.115–0.2 nm).
Functional Residues in Plasmodium falciparum Plasmepsins
Figure 3
Graphic representations of molecular interactions from 3D models from PlmI–Pepstatin A (A) and HAP–Pepstatin A (B) complexes. Green dashed lines represent
intermolecular hydrogen bonds and red dashed semicircles show the Plm residues that contact Pepstatin A. The red hexagons enclose contact residues in HAP–Pepstatin A
and PlmI–Pepstatin A that are not detected in PlmII–Pepstatin A (template structure use to model these complexes). [Color figure can be viewed in the online issue,
which is available at www.interscience.wiley.com.]
To study the differences in flexibility of the free-state
Plms and Plms–Pepstatin A complexes during MD simulations, we compared the calculated RMSf per residue of
free and bound PlmII structures [Fig. 6(A)]. We found
that the PlmII–Pepstatin A system displayed a smaller
fluctuation in the flap region than free PlmII. In contrast,
the PlmII system showed a smaller fluctuation in the L3
region than PlmII–Pepstatin A. To investigate the structural changes in the PlmII–Pepstatin A complex during
MD simulation, we analyzed the temporal evolution of
the complex trajectory. A movement of the L3 region in
the PlmII–Pepstatin A complex closed the enzyme active
site cavity during the 3-ns simulation [Fig. 6(B)]. This
structural change promoted a decrease in the molecular
surface volume of the enzyme active site cavity from
738.9 to 379.6 A3. A similar behavior was observed in
the other Plms–Pepstatin A complexes analyzed.
The contact surface area was calculated from MD trajectories for the PlmII–Pepstatin A and hCatD–Pepstatin A
complexes with the ‘‘SurfInMD’’ program (see Fig. 7). A
comparison between hCatD and PlmII contact residues in
these complexes show the following equivalent positions:
M15, I32, D34, G36, S37, M75, N76, Y77, S79, Y192,
D214, G216, S218, and I300 according to the PlmII numbering scheme. Additionally, during MD simulation of the
PlmII–Pepstatin A system, we identified new residues
(T221, P243, F244, Q275, and F294) involved in the contact of the enzyme with functional groups of this inhibitor.
To study the structural plasticity of the PlmII–inhibitor
complexes, we compared the RMSf per residue of this
enzyme when bound to achiral (specific) and Pepstatin A
(non-specific) inhibitors (see Fig. 8). The PlmII–Pepsta-
tin A complex showed smaller fluctuations than the
PlmII–Achiral complex in the L1, L2 and flap regions,
whereas the PlmII–Achiral system displayed a smaller
deviation than PlmII–Pepstatin A in the L3 region. To
investigate the differences in the mode of binding of
PlmII with these inhibitors, we calculated the surface
area of contact residues (see Fig. 9) and the hydrogen
bond prevalence (Table V) from the MD trajectories. A
quantitative analysis of the surface area of the PlmII contact residues in both complexes showed differences in
residues I14, M15, F16, S37, W41, M75, V82, V105,
T108, F111, Y115, S118, F120, I123, G216, T298, and
D303. As a result of our MD simulation experiments, we
found that residues V105, T108, and T298 only established contacts with functional groups of the specific
non-peptide achiral inhibitor, which revealed their importance as critical contact points for the design of new
potent and plasmepsin inhibitors.
Hydrogen bonds (hbonds) play a very important role
in protein–inhibitor affinity and to qualitatively evaluate the nature of these hbonds, we calculated the prevalence of each bond during MD simulation. Accordingly,
there was a decrease in 10 hbonds in PlmII–Achiral
complex compared with PlmII–Pepstatin A complex
(Table V), and we found that hbonds TYR192OHALA5O, SER79N-VAL3O, VAL78N-STA4O, ASN76ND2STA6OG, ASP34OD2-STA4OG, ALA5N-GLY36O, STA4OGASP34OD1, STA4N-THR217OG1 have a prevalence
above 90% in the PlmII–Pepstatin A simulation. In contrast, the PlmII–Achiral complex only had three hbonds
with a prevalence below of 50% during the dynamic
modeling.
PROTEINS
447
P.A. Valiente et al.
Table IV
Protein Contact Residues with Substrate Functional Groups in PlmII–IEFLRL and PlmIV–IEFLRL Complexes after MD Simulations Classified by Subsite Pockets
Enzyme
subsites
Residues, PlmII
Residues, PlmI
Residues, HAP
Residues, Plm IV
Residues, CatD
Residues,
conservation
M15
Y17
S218
A219
L242
F244
Q275
M286
L287
N288
I290
I14
I32
S118
F120
G216
T217
S218
D303
V78
T217
A219
T221
I290
L292
F294
I300
I32
L33
D34
S37
F111
F120
I123
D214
G216
T217
D34
G36
S37
A38
N39
W41
M75
N76
Y77
V78
L131
L191
Y192
D214
T217
V78
Y192
I300
M15
Y17
S218
S219
L242
L244
Q275
M286
V287
S288
I290
V14
I32
G118
F120
G216
T217
S218
D303
V78
T217
S219
T221
I290
V292
L294
I300
I32
F33
D34
S37
F111
F120
I123
D214
G216
T217
D34
G36
S37
A38
N39
W41
M75
N76
Y77
V78
L131
L191
Y192
D214
T217
V78
Y192
I300
L15
F17
S218
V219
L242
L244
E275
M286
L287
N288
V290
V14
L32
S118
V120
A216
T217
S218
D303
K78
T217
V219
T221
V290
I292
L294
V300
L32
F33
H34
S37
F111
V120
V123
D214
A216
T217
H34
A36
S37
S38
N39
W41
L75
T76
S77
K78
L131
L191
M192
D214
T217
K78
M192
V300
M15
Y17
S218
T219
L242
L244
D275
M286
L287
Y288
L290
L14
I32
S118
F120
G216
T217
S218
D303
G78
T217
T219
T221
L290
V292
I294
I300
I32
F33
D34
S37
L111
F120
I123
D214
G216
T217
D34
G36
S37
A38
N39
W41
I75
S76
Y77
G78
L131
L191
Y192
D214
T217
G78
Y192
I300
Q14
Y16
S235
L236
Q258
E260
L292
L303
S304
G305
M307
A13
V31
A129
F131
G233
T234
S235
D323
G79
T234
L236
V238
M307
M309
P314
I320
V31
F32
D33
S36
I124
F131
I134
D231
G233
T234
D33
G35
S36
S37
N38
W41
I76
H77
Y78
G79
I142
A204
Y205
D231
T234
G78
Y205
I320
7
5
8
6
1
4
2
4
6
4
4
6
7
6
7
8
9
8
8
6
9
6
7
4
5
5
8
7
8
9
9
3
7
9
9
8
9
9
9
9
9
9
8
7
4
8
6
6
4
7
9
9
6
7
8
S3
S2
S1
S10
S20
S30
The contact residues were assigned to the corresponding binding sites in the protease (S3, S2, S1, S10 , S20 , and S30 ) using a distance cutoff of 6.0 Å as criteria, to determine atom–atom contacts between enzyme residues and the substrate residues (P3, P2, P1, P10 , P20 , and P30 ). The contact residues of HAP, PlmI, and hCatD proteases
with an equivalent substrate were inferred by homology. The discrete conservation score of each residue calculated with the Consurf server is also displayed.
448
PROTEINS
Functional Residues in Plasmodium falciparum Plasmepsins
Figure 4
Representation of the backbone RMS fluctuation (RMSf) per residue of free-state
Plasmepsins from P. falciparum during the MD simulation: black line, PlmII;
red, PlmI; blue, PlmIV; and green, HAP. Black arrows indicate previously
described flexible regions and red hexagons enclose a new flexible region
predicted here. [Color figure can be viewed in the online issue, which is
available at www.interscience.wiley.com.]
To understand the different activities of Plm II and
PlmIV,21 we carried out MD simulations of our 3D
models for PlmII–IEFLRL and PlmIV–IEFLRL complexes.
To study the structural changes in the Plms–IEFLRL
complexes throughout the simulations, we compared the
calculated RMSf per residue of enzymes and peptide substrate (see Fig. 10). When focusing only on the enzymes,
PlmIV displayed a smaller fluctuation than PlmII in the
flap region, in contrast to the results observed in the L3
region [Fig. 10(A)]. A similar analysis was performed
with the substrate and a smaller fluctuation in atoms corresponding to the P1 residue (F) was observed when substrate IEFLRL was bound to PlmIV. The opposite result
was observed for the atoms of the P20 residue [R, Fig.
10(B)]. To investigate the differences in the mode of
PlmII and PlmIV binding to this substrate, we calculated
the surface area of the contact residues from the MD trajectories (see Fig. 11). A quantitative analysis of the surface area in both complexes indicated differences in the
following contact residues: M15, Y17, M75, N76, S79,
E112, P113, T114, F120, I123, L131, L191, Y192, T221,
F241, L242, F244, and M286 according to PlmII numbering scheme. The enzyme residues that contact functional
substrate groups in PlmII–IEFLRL and PlmIV–IEFLRL
complexes after MD simulations were classified by subsite
pockets (Table IV). We also inferred the residues of HAP,
Figure 5
3D representation of RMS fluctuations in free-state Plms (A, PlmI; B, PlmII; C, PlmIV; D, HAP). The RMSf of the backbone for each system was represented by a tube
of varying thickness, the larger the tube the greater the deviation. Plms secondary structures are displayed with different colors: in red, a-helix; in cyan, b-sheets; and
light gray, loop and coiled structures. [Color figure can be viewed in the online issue, which is available at www.interscience.wiley.com.]
PROTEINS
449
P.A. Valiente et al.
Figure 6
Comparison of the backbone RMSf per residue between free state Plm II (red line) and Plm II–Pepstatin A complex (black line) along MD simulations. Black arrows
indicate fluctuations in Flap and L3 Plm II regions (A). In B a snapshot from the movement of the L3 region backbone along PlmII–Pepstatin A MD simulation is
displayed. Each of the pictures is taken at 600 ps. In blue, the actual time step frame fitted to the initial simulation structure (red) is represented. [Color figure can be
viewed in the online issue, which is available at www.interscience.wiley.com.]
PlmI, and hCatD proteases that contact an equivalent
substrate by homology. A careful analysis of our 3D
models indicated that residues L191 and L242 formed
part of the S10 and S3 subsites. This strongly supports
our initial prediction based on sequence and structural
analyses.
These data enable us to display the seven new functional residues (Y17, V105, T108, L191, L242, Q275, and
T298) in a specific model of Plms of P. falciparum strain
predicted here, obtained by combining sequence and
structure analyses with molecular dynamic simulations
(see Fig. 12).
conserved across malarial strains but not across human
aspartic proteases. Thus, residues V105, T108, and T298
only establish contacts with functional groups of a specific non-peptide achiral inhibitor, which sheds light on
the role of these critical contact points in plasmepsin
specificity and will be useful information for the structure-based design of novel and selective inhibitors as
antimalarial drugs. The remaining four amino acid positions identified here (Y17, L191, L242, and Q275) form
part of the S3 and S2 subsites, and their weaker evolutionary conservation across the aspartic protease family
studied by us suggest their importance in the functionality specificity of P. falciparum plasmepsins.
DISCUSSION
P. falciparum plasmepsins have a unique substrate
specificity that is the result of variation in the residues
lining the active site cavities.32 Earlier mutagenesis studies on PlmI and PlmII concluded that differences in substrate-cleavage specificity depend more on conformational differences due to distant sites than on specific
variation at the active site.63 On the basis of sequence/
structure analysis, comparative modeling and molecular
dynamic studies, we propose here seven residues that are
specific to plasmepsins, that potentially influence their
specificity, and that have not been previously studied by
site directed mutagenesis. These seven amino acids are
450
PROTEINS
Experimental evidences that support
our methodology
In this study, we predicted seven new functional residues from P. falciparum plasmepsins by combining
sequence and structure analyses with molecular dynamic
simulations of Plms–ligand complexes. To understand the
differences in specificity between P. falciparum plasmepsins and the human related cathepsin D, we inferred the
contact residues of hCAtD, PlmI, and HAP by homology
from the structural models of PlmII–IEFLRL and PlmIV–
IEFRL complexes after MD simulations. The S3 subsite
in P. falciparum plasmepsins is a highly hydrophobic
Functional Residues in Plasmodium falciparum Plasmepsins
Figure 7
Protein residues at the contact surface area from PlmII–Pepstatin A (A) and hCatD–Pepstatin A (B) complexes along MD simulations. These calculations were performed
with the ‘‘SurfInMD’’ program and the values for each residue are represented (mean 1 SD). Black rectangles show the equivalent residue positions in both enzymes and
the red rectangles the new PlmII contact residues predicted during MD simulation of Plm II–Pepstatin A complex. [Color figure can be viewed in the online issue, which
is available at www.interscience.wiley.com.]
pocket predominantly formed by hydrophobic amino
acid residues at positions 15, 219, 242, 244, 286, 287,
290. Using combinatorial libraries of peptides, it was
demonstrated that plasmepsins preferred the substitution
Figure 8
Comparison of the backbone RMSf per residue between PlmII–Pepstatin A (red
line) and PlmII–Achiral Inhibitor (black line) complexes. Black arrows indicate
fluctuations in L1, Flap, L2, L3, and L4 Plm II regions. [Color figure can be
viewed in the online issue, which is available at www.interscience.wiley.com.]
of a hydrophobic amino acid in P3 and they failed to tolerate charged amino acids at this position (Asp and
Lys).22 We show that the S3 subsite of the hCatD is a
hydrophilic and a hydrophobic pocket and indeed, it has
been shown that M, I, S, and T are the preferred P3 residues for the human enzyme, with the hydrophilic residues binding to the Q14 side chain and the hydrophobic
residues binding to hydrophobic amino acids of this
pocket.22 Similarly, the S2 subsite of P. falciparum plasmepsins is a hydrophilic and hydrophobic pocket, and
the results available indicate that the parasite enzymes
share a preference for isoleucine at the P2 position.22
Overall, hydrophobic substitutions were relatively well
tolerated, and while most of the parasite enzymes preferentially cleave peptides containing a P2 serine or glutamate, basic residues and proline at the P2 position are
poorly accepted.22 Our predictions show that S1 and S10
subsites are highly hydrophobic pockets as supported by
the evidence indicating the preference of phenylalanine,
leucine, and norleucine (Nle) at the P1 position.22 This
is consistent with other observations related to various
PROTEINS
451
P.A. Valiente et al.
Figure 9
Representation of the Plm II contact surface area from PlmII–Pepstatin A (red bars) and PlmII–Achiral Inhibitor (black bars) complexes during MD simulations as
calculated with the ‘‘SurfInMD’’ program. The values (mean 1 SD) of each residue are represented. Blue rectangles indicate predicted new residues in PlmII that contact
the Achiral inhibitor functional groups (V105, T108, and T298). [Color figure can be viewed in the online issue, which is available at www.interscience.wiley.com.]
other members of the aspartic peptidase family.64,65 The
most common residues for the S10 subsite were consistently hydrophobic substitutions.22 Although our models
show that S20 and S30 are hydrophilic and hydrophobic
pockets in P. falciparum plasmepsins, the S20 and S30 subsites of plasmepsins have a much broader specificity than
the other subsite pockets examined by the combinatorial
method.22
PlmII is the most extensively characterized P. falciparum aspartic protease, for which several crystal structures
have been determined,24–26 potent inhibitors developed14,27–30 and site-directed mutagenesis studies performed.32,66 The enzyme residues that contact with
functional substrate groups in PlmII–IEFLRL and
PlmIV–IEFLRL complexes after MD simulations are classified by subsite pockets, and the data from previous
Table V
Hydrogen Bond Prevalence along MD Simulations of PlmII–Pepstatin A (Bold)
and PlmII–Achiral Inhibitor (Italic) Complexes
Donor
ALA219N
SER218N
TYR192OH
SER79N
VAL78N
ASN76ND2
ASP34OD2
STA6N
ALA5N
STA4OG
STA4N
VAL3N
VAL2N
SER118OG
SER37OG
IH4N10
452
PROTEINS
Acceptor
Hydrogen bond stability (%)
VAL2O
VAL2O
ALA5O
VAL3O
STA4O
STA6OG
STA4OG
ASN76O
GLY36O
ASP214OD1
THR217OG1
SER79OG
SER218O
IH4O27
IH4O1
TYR192OH
47.7
68.2
98.5
90.6
99.0
79.3
98.4
82.2
93.0
93.1
94.2
79.2
87.5
19.5
44.3
17.9
site-directed mutagenesis studies supported our 3D models of PlmII/IV–substrate complexes.32
Mutants of PlmII were constructed to understand the
differences in substrate specificity between the parasite
enzyme and other aspartic proteinases (M15E, I289E,
S79D, and the double mutant M15E/I289E).32 The first
of the PlmII residues altered in this study was M15,
which is located in the S3 subsite, a highly hydrophobic
pocket that determines the preference of large hydrophobic residues at P3 position for PlmII. The PlmII M15E
mutant displayed the lowest Michaelis constant for a substrate with K at position P3 among a series of substrates
with variations in this position. This change resulted in a
5.5-fold increase in the specificity constant of the mutant
enzyme with respect to the wild-type enzyme and shows
that the M15 residue contributes to the S3 subsite specificity of PlmII. These experiments also demonstrate that
pepsin and rhizopuspepsin enzymes that have an E residue in this position could tolerate a K amino acid in the
P3 position of the substrate. However, there were no significant differences between the M15E mutant and wildtype recombinant enzyme in cleaving a hemoglobinbased substrate, which indicates that this mutation in the
binding site has not altered the natural function of the
enzyme. The second residue altered was I289. This residue lies within the interface of the S2 and S4 subsites of
PlmII. The replacement of this position by an E amino
acid produced a better kcat constant for substrates with K
at position P2 with respect to the wild-type enzyme.
When compared with the M15E single mutant, the
M15E/I289E double mutant demonstrated an additive
effect in the binding constant of P2 or P4 K substrates
and no difference in the kinetic parameters for the P3 lysine substrates. Finally, the introduction of an aspartic
acid at position 79 is insufficient for PlmII to recognize a
substrate having a P1 lysine.32 Our 3D model of the
Functional Residues in Plasmodium falciparum Plasmepsins
PlmII–IEFLRL complex showed that the S79 side chain is
outside of the S1 subsite.
Prediction of functional residues in
P. falciparum plasmepsins
Sequence and structure analyses
Figure 10
Representation of the backbone RMS fluctuation (RMSf) per residue of Plm II
(dark blue line) and Plm IV (magenta line) along MD simulations of PlmII/
IV–IEFLRL complexes (A). Black arrows indicate fluctuations in the L1, Flap,
L2, L3, and L4 Plm II regions. In B, the RMSf per atom of IEFLRL bound to
Plm II (dark blue line) and Plm IV (magenta line) are displayed during MD
simulations. The substrate groups (P3, P2, P1, P10 , P20 , P30 ) are detached per
atom index. [Color figure can be viewed in the online issue, which is available
at www.interscience.wiley.com.]
Key amino acid positions that are important for maintaining the 3D structure of a protein and/or its functions
(e.g. catalytic activity, binding to ligands, DNA or other
proteins), are often under strong evolutionary constraints. Thus, the biological importance of a residue often correlates with its level of evolutionary conservation
within the protein family.57 To define key residues for
Plms activity, we performed a MSA with 73 homologous
amino acid sequences that show identity ranging from 10
to 88%, in agreement with previous studies.67 The seven
promising residues proposed here are conserved in the
malarial strains but not among human aspartic proteases.
However, they differ in their calculated degree of conservation (indicated in brackets) across the MSA. These residues are: Y17 [5], V105 [7], T108 [6], L191 [4], L242
[1], Q275 [2], T298 [6] and they have different spatial
locations in the Plm 3D structure. The new positions
proposed here display a well-defined relationship between
the degree of residue conservation and their location in
Figure 11
Protein contact surface area from PlmII–IEFLRL (A) and PlmIV–IEFLRL (B) complexes during MD simulations as calculated with the ‘‘SurfInMD’’ program. The values
(mean 1 SD) of each residue are represented. Black rectangles enclose enzyme residues at positions with different contact surface areas depending on the substrate. [Color
figure can be viewed in the online issue, which is available at www.interscience.wiley.com.]
PROTEINS
453
P.A. Valiente et al.
ume and binding site volume when the cavity volumes
was smaller than 700 A.3,58
Comparative 3D modeling of plasmepsins
and plasmepsin–ligand complexes
Figure 12
Top view ribbon diagram representation of Plm II from P. falciparum. Licorice
diagram represents the seven new functional residues proposed in this work: Y17,
V105, T108, L191, L242, Q275, and T298 according to Plm II number scheme.
[Color figure can be viewed in the online issue, which is available at
www.interscience.wiley.com.]
the Plm 3D structure. The residues V105 and T108 are
located in an interior flap pocket and they only establish
contacts with a specific non-peptide achiral inhibitor.
Residue L242 is located at the L3 loop30, a highly conserved region in all Plms that was recently described as
an essential region for cleaving intact hemoglobin.68 Residue Q275 is localized in the small b1024 neighbor to
the L4 loop30, whereas residues Y17, L191, and T298
belong to well-defined pockets lining the binding site
cavity (see Table I).
Both shape and chemical complementarity are the
underlying bases of molecular recognition.58 Based on
this, we performed a detailed analysis of the 3D structures of seven Plm–inhibitor and hCatD–Pepstatin A
complexes annotated at PDB. There was great plasticity
in shape and size parameters (area and volume) of the
Plm–ligand binding sites cavities. Comparison of Plms–
PepstatinA, hCatD–Pepstatin A and the other Plms–peptidomimetic inhibitor complexes (PlmII–RS367, PlmII–
RS370, PlmII–EH58, PlmII–Statine-based compound),
indicates similar enzyme contact residues with these
functional ligand groups. This explains the poor selectivity of these peptidomimetic inhibitors for parasite and
hCatD enzymes.69 On the other hand, the difference in
volume and surface binding site cavities for Plms–Pepstatin A and hCatD–Pepstatin A complexes reveals a smaller
active site for parasite enzymes and unoccupied spaces in
active sites of Plms–Pepstatin A complexes, which could
be useful to perform structure-based ligand design. These
phenomena are in agreement with previous studies performed on 51 monomeric enzymes–ligand complexes,
that indicated a linear relationship between ligand vol-
454
PROTEINS
The 3D structures of proteins in a family are more
conserved than their sequences.70 Therefore, if any similarity between two proteins is detectable at the sequence
level, structural similarity can usually be assumed.71
Although the level of sequence identity among the aspartic proteases of Plasmodium species is rather high
(60%), substrate specificity and their responses to
inhibitors may be different, indicating variations in the
specific binding interactions among the different plasmepsins.19–22 Other 3D models of mature PlmI (PDB:
1lcr), HAP (ModBase: Q81M15), and PlmI/II substrates
complexes have been proposed.72 Recently, the 3D crystallographic structures of PlmII were solved with a higher
resolution (2 bju [PlmII–Achiral Inhibitor, R 5 1.56 Å]
and 1xdh [PlmII–Pepstatin A, R 5 1.7 Å]). Hence, we
generated 3D models of Plms and Plms–Pepstatin A
complexes using these structures as templates, whereas to
calculate the 3D models of PlmII/IV substrates, we used
1xdh (PlmII–Pepstatin A, R 5 1.7 Å) and 1ls5 (PlmIV–
Pepstatin A, R 5 2.8 Å) as templates rather than the
1smr (mouse renin complex with a decapeptide inhibitor
(CH66), R 5 2.0 Å) employed previously.72 In our 3D
models, T221 changes its location from the S2 to S1 subsite. This difference could be explained by considering
the opposing orientation of P1 side chain in ligand templates. We consider the valine residue 3 of Pepstatin A as
the P1 position whereas others have taken the leucine
residue as the P1 position in the CH-66 inhibitor.72
However, both models explain the residue assignment of
other subsites.
MD simulations of plasmepsins and
plasmepsin–ligand complexes
Large-scale movements have increasingly been suggested to play a role in aspartyl protease enzyme activity.73–77 Previous structural studies of 3D Plm structures
annotated at PDB indicated that these enzymes have
great structural flexibility in the flap, L1, L2, L3, and L4
regions.30 Our MD studies of these proteins define an
additional flexible region between residues 108–119. Residues (V105, T108) near to the active site cavity establish
new contacts with functional groups of the Achiral inhibitor after MD simulation. The MD simulations of Plms
complexed with Pepstatin A inhibitor revealed a movement of the L3 region that closed the protease active site,
and that promoted the formation of new contacts
between the parasite enzymes and the Pepstatin A inhibitor. This movement explained the increase in structural
fluctuation in the L3 region when PlmII is complexed to
the Pepstatin A inhibitor when compared with the PlmII
Functional Residues in Plasmodium falciparum Plasmepsins
free-state. To understand this conformational changes in
the L3 region of PlmII–Pepstatin A complex structure,
we analyzed the high resolution crystallography structure
(1xdh). In this structure PlmII is a dimer, due to a
hydrophobic contact between the L3 region of A and B
chains, although it was recently demonstrated that PlmII
is a functional monomer in solution.68 Similarly, it was
reported that L3 loop residues are essential to cleave hemoglobin between residues Phe33 and Leu34 at acidic
pH, due to the compromised ability to cleave intact hemoglobin of a chimeric aspartic protease when the L3
loop of the PlmII sequence is replaced with its equivalent
Cathepsin E sequence.68 These authors had previously
reported that cathepsin E could not cleave intact hemoglobin at pH 5.66 During our MD simulation, residue
F244 was located in the S3 subsite due to the L3 loop
movement observed in Plms–Pepstatin A and PlmII/IV–
substrate systems. This finding explains the differences in
the kinetics parameters of mutants F244E, F244K, and
F244A with the synthetic substrate DABCYL-GABAERMFLSFP-EDANS (based on sequence 30–37 of hemoglobin a-chain) previously reported.66 The F244E mutant had a lower Km and kcat than the wild type enzyme
for this substrate. The lower Km of F244E reflected the
improved binding for the wild type enzyme on this substrate, and the lower kcat of F244E suggests a poorer productive orientation of the bond to be cleaved than in the
native protease.66
Plasmepsins from P. falciparum species share similar
3D structures but different catalytic properties against
known substrates.22 There is a well-defined correlation
between the higher deviation of the P1 position in the
IEFLRL substrate when it is bound to PlmII in our simulations and the weaker affinity for this substrate and
poorer efficiency when compared to PlmIV.22 This suggests a better productive orientation of the bond to be
cleaved (F–L). Moreover, markedly different preferences
for substrates were demonstrated between PlmII and
PlmIV, suggesting that these enzymes might cleave different sites in the globin chains of the hemoglobin.22
Poor selectivity for human aspartic proteases is an important issue when developing inhibitors of pathogenic
enzymes. The two major concerns are toxicity and/or
possible reduction of the concentrations reaching the
pathogen.3 Plasmepsins have a varying degree of
sequence homology with human aspartic proteases, the
most similar being the lysosomal enzyme cathepsinD.
CathepsinE, renin, and pepsin A, represent other important human aspartic proteases that exhibit poor sequence
homology,24,78 although hCatD is commonly used as
the marker for cross-inhibition. To develop new specific
inhibitors for Plms, it is useful to map the residues that
establish contact with specific inhibitors in the enzyme’s
active site, and to exploit the differences in the subsite
preferences of these enzymes.69 A comparison between
the contact residues surface area in PlmII–Achiral and
PlmII–Pepstatin A complexes indicates that residues I14,
M15, F16, S37, W41, M75, V82, V105, T108, F111, Y115,
S118, F120, I123, G216, T298, and D303 are important
to design Plms specific inhibitors. The achiral inhibitor
establish contacts in unoccupied spaces corresponding to
the S3 subsite residues (I14, M15, F16, F120, and I123),
the S2 subsite (S118) of PlmII–Pepstatin A 3D structure,
and those in a new pocket (W41, V82, V105, T108,
F111) formed by rotation of the Y77 and W41 side
chains in combination with a substantial movement of
the flap’s main chain.79 The lower hbonds in PlmII–
Achiral Inhibitor complex compared to the PlmII–Pesptatin A complex are also remarkable. Previous studies
reported that Pepstatin A has a better affinity for Plms
than the achiral inhibitor.24,69 Although we have not
performed free energy calculations for these Plms–Inhibitor complexes, our results suggest that electrostatic interactions (hbonds) contribute more to the binding strength
than the van der Waals interactions in PlmII–Pepstatin A
complex than in the PlmII–Achiral inhibitor complex.
This suggests the possibility of improving achiral inhibitor potency by introducing some polar groups in the
molecular structure of the inhibitor without affecting its
selectivity.
CONCLUSIONS
In this work, combining sequence/structure analysis,
molecular modeling and MD methodologies, we propose
seven residues that are specific to plasmepsins: Y17,
V105, T108, L191, L242, Q275, T298 (according to PlmII
numbering scheme) that have not been predicted previously. Indeed, residues V105 and T108 are located in an
interior flap pocket that only established contacts with a
specific non-peptide achiral Inhibitor, which sheds light
on the role of V105 and T108 residues in plasmepsin
specificity. This information could be useful for the
structure-based design of novel and selective inhibitors to
be employed as antimalarial drugs. We also predict a
conformational change in the L3 region of the Plms 3D
structures when these enzymes are in a complex with
Pepstatin A and peptide substrates. This movement closes
the enzyme active site and explains previous experimental
evidence. Mutagenesis experiments are likely to be the
easiest way to verify the function of the residues identified in this work and to test the L3 loop flexibility hypothesis that we propose.
ACKNOWLEDGMENTS
PAV thanks the International Union of Biochemistry
and Molecular Biology (IUBMB) for providing a fellowship for traveling to Brazil, and the Government of Brazil
for providing a CAPES research fellowship. TP acknowledges the Spanish Biotechnology Society (SEBiot) for providing a post-doctoral research fellowship. The authors
PROTEINS
455
P.A. Valiente et al.
thank MSc. Rossana Garcia and Dr. Mark Sefton for the
helpful revision of the final manuscript versions.
REFERENCES
1. With joint forces against Malaria. Second Annual Biology and
Pathology of the Malaria Parasite conference BioMalPar, April 5
Press release. Heidelberg, Germany 2006.
2. Breman JG. The ears of the hippopotamus: manifestations, determinants, and estimates of the malaria burden. Am J Trop Med Hyg
2001;64:1–11.
3. Coombs GH, Goldberg DE, Klemba M, Berry C, Kay J, Mottram
JC. Aspartic proteases of Plasmodium falciparum and other parasitic
protozoa as drug targets. Trends Parasitol 2001;1:532–537.
4. Goldberg DE, Slater AF, Cerami A, Henderson GB. Hemoglobin
degradation in the malaria parasite Plasmodium falciparum: an ordered process in a unique organelle. Proc Natl Acad Sci USA 1990;
87:2931–2935.
5. Goldberg DE, Slater AF, Beavis R, Chait B, Cerami A, Henderson
GB. Hemoglobin degradation in the human malaria pathogen Plasmodium falciparum: a catabolic pathway initiated by a specific aspartic protease. J Exp Med 1991;173:961–969.
6. Klemba M, Goldberg DE. Biological roles of proteases in parasitic
protozoa. Annu Rev Biochem 2002;7:275–305.
7. Shenai BR, Sijwali PS, Singh A, Rosenthal PJ. Characterization of
native and recombinant falcipain-2, a principal trophozoite cysteine
protease and essential hemoglobinase of Plasmodium falciparum.
J Biol Chem 2000;75:29000–29010.
8. Murata CE, Goldberg DE. Plasmodium falciparum falcilysin: a metalloprotease with dual specificity. J Biol Chem 2003;278:38022–38028.
9. Francis SE, Gluzman IY, Oksman A, Knickerbocker A, Mueller R,
Bryant ML, Sherman DR, Russell DG, Goldberg DE. Molecular
characterization and inhibition of a Plasmodium falciparum apartic
hemoglobinase. EMBO J 1994;13:306–317.
10. Moon RP, Tyas L, Certa U, Rupp K, Bur D, Jacquet C, Matile H,
Loetscher H, Grueninger-Leitch F, Kay J, Dunn BM, Berry C, Ridley
RG. Expression and characterization of plasmepsin I from Plasmodium falciparum. Eur J Biochem 1997;244:552–560.
11. Soni S, Dhawan S, Rosen KM, Chafel M, Chishti AH, Hanspal M.
Characterization of events preceding the release of malaria parasite
from the host red blood cell. Blood Cells Mol Dis 2005;35:201–211.
12. Banerjee R, Goldberg DE. The Plasmodium food vacuole. In:
Rosenthal PJ, editor. Antimalarial chemotherapy, mechanism of
action, resistance, and new directions in drug discovery. Humana,
Totowa, NJ, 2001. pp 43–63.
13. Rosenthal PJ. Antimalarial chemotherapy, mechanisms of action, resistance, and new directions in drug discovery. In: Rosenthal PJ,
editor. Humana, Totowa, NJ, 2001. pp 325–345.
14. Haque TS, Skillman AG, Lee CE, Habashita H, Gluzman IY, Ewing
TJ, Goldberg DE, Kuntz ID, Ellman JA. Potent, low-molecularweight non-peptide inhibitors of malarial aspartyl protease plasmepsin II. J Med Chem 1999;42:1428–1440.
15. Gardner MJ, Hall N, Fung E, White O, Berriman M, Hyman RW,
Carlton JM, Pain A, Nelson KE, Bowman S, Paulsen IT, James K,
Eisen JA, Rutherford K, Salzberg SL, Craig A, Kyes S, Chan MS,
Nene V, Shallom SJ, Suh B, Peterson J, Angiuoli S, Pertea M, Allen
J, Selengut J, Haft D, Mather MW, Vaidya AB, Martin DMA, Fairlamb AH, Fraunholz MJ, Roos DS, Ralph SA, McFadden GI, Cummings LM, Subramanian GM, Mungall C, Venter JC, Carucci DJ,
Hoffman SL, Newbold C, Davis RW, Fraser CM, Barrell B. Genome
sequence of the human malaria parasite Plasmodium falciparum.
Nature 2002;419:498–511.
16. Banerjee R, Liu J, Beatty W, Pelosof L, Klemba M, Goldberg DE.
Four plasmepsins are active in the Plasmodium falciparum food
vacuole, including a protease with an active-site histidine. Proc Natl
Acad Sci USA 2002;99:990–995.
456
PROTEINS
17. Liu J, Gluzman IY, Drew ME, Goldberg DE. The role of Plasmodium falciparum food vacuole plasmepsins. J Biol Chem 2005;280:
1432–1437.
18. Bonilla JA, Bonilla TD, Yowell CA, Fujioka H, Dame JB. Critical
roles for the digestive vacuole plasmepsins of Plasmodium falciparum in vacuolar function. Mol Microbiol 2007;65:64–75.
19. Wyatt DM, Berry C. Activity and inhibition of plasmepsin IV, a
new aspartic proteinase from the malaria parasite Plasmodium falciparum. FEBS Lett 2002;513:159–162.
20. Li T, Yowell CA, Beyer BB, Hung SH, Westling J, Lam MT, Dunn
BM, Dame JB. Recombinant expression and enzymatic subsite characterization of plasmepsin4 from the four Plasmodium species
infecting man. Mol Biochem Parasitol 2004;135:101–109.
21. Nezami A, Kimura T, Hidaka K, Kiso A, Liu J, Kiso Y, Goldberg
DE, Freire E. High-affinity inhibition of a family of Plasmodium falciparum proteases by a designed adaptive inhibitor. Biochemistry
2003;42:8459–8464.
22. Beyer BB, Johnson JV, Chung AY, Li T, Madabushi A, AgbandjeMcKenna M, McKenna R, Dame JB, Dunn BM. Active-site specificity of digestive aspartic peptidases from the four species of Plasmodium that infect humans using chromogenic combinatorial peptide
libraries. Biochemistry 2005;44:1768–1779.
23. Dame JB, Yowell CA, Omara-Opyene L, Carlton JM, Cooper RA, Li T.
Plasmepsin 4, the food vacuole aspartic proteinase found in all Plasmodium spp. infecting man. Mol Biochem Parasitol 2003;130:1–12.
24. Silva AM, Lee AY, Gulnik SV, Majer P, Collins J, Bhat TN, Collins
PJ, Cachau RE, Luker KE, Gluzman IY, Francis SE, Oksman A,
Goldberg DE, Erickson JW. Structure and inhibition of plasmepsin
II, a emoglobin-degrading enzyme from Plasmodium falciparum.
Proc Natl Acad Sci USA 1996;93:10034–10039.
25. Asojo OA, Gulnik SV, Afonina E, Yu B, Ellman JA, Haque TS, Silva
AM. Novel uncomplexed and complexed structures of plasmepsin
II, an aspartic protease from Plasmodium falciparum. J Mol Biol
2003;327:173–181.
26. Asojo OA, Afonina E, Gulnik SV, Yu B, Erickson JW, Randad R, Medjahed D, Silva AM. Structures of ser205 mutant plasmepsin II from Plasmodium falciparum at 1.8 angstrom in complex with the inhibitors
rs367 and rs370. Acta Crystallogr D Biol Crystallogr 2002;58:2001–2008.
27. Boss C, Richard-Bildstein S, Weller T, Fischli W, Meyer S, Binkert
C. Inhibitors of the Plasmodium falciparum parasite aspartic protease plasmepsin II as potential antimalarial agents. Curr Med Chem
2003;10:883–907.
28. Ersmark K, Feierberg I, Bjelic S, Hulten J, Samuelsson B, Aqvist J,
Hallberg A. C-2-symmetric inhibitors of Plasmodium falciparum
plasmepsin II: synthesis and theoretical predictions. Bioorg Med
Chem 2003;11:3723–3733.
29. Ersmark K, Feierberg I, Bjelic S, Hamelink E, Hackett F, Blackman
MJ, Hulten J, Samuelsson B, Aqvist J, Hallberg A. Potent inhibitors
of the Plasmodium falciparum enzymes plasmepsin I and II devoid
of cathepsin D inhibitory activity. J Med Chem 2004;47:110–122.
30. Kiso A, Hidaka K, Kimura T, Hayashi Y, Nezami A, Freire E, Kiso
Y. Search for substrate-based inhibitors fitting the S-2 space of malarial aspartic protease plasmepsin II. J Pept Sci 2004;10:641–647.
31. Bhargavi R, Sastry GM, Murty US, Sastry GN. Structural and active
site analysis of plasmepsins of Plasmodium falciparum: potential
anti-malarial targets. Int J Biol Macromol 2005;37:73–84.
32. Westling J, Cipullo P, Hung S, Saft H, Dame JB, Dunn BM. Active
site specificity of plasmepsin II. Protein Sci 1999;8:2001–2009.
33. Liu J, Istvan ES, Goldberg DE. Hemoglobin-degrading plasmepsin
II is active as a monomer. J Biol Chem 2006;281:38682–38688.
34. Thompson JD, Higgins DG, Gibson TJ. CLUSTAL W: improving
the sensitivity of progressive multiple sequence alignment through
sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res 1994;22:4673–4680.
35. Galtier N, Gouy M, Gautier C. SEAVIEW and PHYLO_WIN: two
graphic tools for sequence alignment and molecular phylogeny.
Comput Appl Biosci 1996;6:543–548.
Functional Residues in Plasmodium falciparum Plasmepsins
36. Sali A, Blundell TL. Comparative protein modeling by satisfaction
of spatial restraints. J Mol Biol 1993;234:779–815.
37. Shen MY, Sali A. Statistical potential for assessment and prediction
of protein structures. Protein Sci 2006;15:2507–2524.
38. Van Der Spoel D, Lindahl E, Hess B, Groenhof G, Mark AE,
Berendsen HJ. GROMACS: fast, flexible, and free. J Comput Chem
2005;26:1701–1718.
39. Oostenbrink C, Villa A, Mark AE, van Gunsteren WF. A biomolecular force field based on the free enthalpy of hydration and solvation:
the GROMOS force-field parameter sets 53A5 and 53A6 J. Comput
Chem 2004;25:1656–1676.
40. Humphrey W, Dalke A, Schulten K. VMD: visual molecular dynamics. J Mol Graph 1996;14:33–38, 27–28.
41. Berendsen HJC, Postma JPM, Gunsteren WFV, Hermans J. Interaction models for water in relation to protein hydration. In: Pullman
B, editor. Intermolecular forces. Dordrecht, The Netherlands: Reidel; 1981. pp 331–342.
42. Verlet L. Computer Experiments on classical fluids I. Thermodynamical properties of Lennard-Jones molecules. Phys Rev 1967;159:
98–103.
43. Hess B, Bekker H, Berendsen HJC, Fraaije JGEM. LINCS: a linear
constraint solver for molecular simulations. J Comput Chem 1997;
18:1463–1472.
44. Miyamoto S, Kollman PA. Settle an analytical version of the shake
and rattle algorithm for rigid water models. J Comput Chem
1992;13:952–962.
45. Berendsen HJC, Postma JPM, Vangunsteren WF, Dinola A, Haak
JR. Molecular-dynamics with coupling to an external bath. J Chem
Phys 1984;81:3684–3690.
46. Darden T, York D, Pedersen L. Particle mesh Ewald: an N-log(N)
method for Ewald sums in large systems. J Chem Phys 1993;98:
10089–10092.
47. Essmann U, Perera L, Berkowitz ML, Darden T, Lee H, Pedersen
LG. A smooth particle mesh ewald potential. J Chem Phys 1995;
103:8577–8592.
48. Li H, Robertson AD, Jensen JH. Very fast empirical prediction and
rationalization of protein pKa values. Proteins 2005;61:704–721.
49. van Aalten DM, Bywater R, Findlay JB, Hendlich M, Hooft RW,
Vriend G. PRODRG, a program for generating molecular topologies
and unique molecular descriptors from coordinates of small molecules. J Comput Aided Mol Des 1996;10:255–262.
50. van Gunsteren WF, Billeter SR, Eising AA, Hunenberger PH, Kruger
P, Mark AE, Scott WRP, Tironi IG. Biomolecular simulation: the
GROMOS96 manual and user guide. vdf Hochschulverlag AG an
der ETH Zürich and BIOMOS b.v., Zürich, Groningen; 1996.
51. Schmidt MW, Baldridge KK, Boatz JA, Elbert ST, Gordon MS, Jensen JH, Koseki S, Matsunaga N, Nguyen KA, Su SJ, Windus TL,
Dupuis M, Montgomery JA. General atomic and molecular electronic structure system. J Comput Chem 1993;14:1347–1363.
52. Breneman CM, Wiberg KB. Determining atom-centered monopoles
from molecular electrostatic potentials. The need for high sampling
density in formamide conformational analysis. J Comput Chem 1990;
11:361–373.
53. Connolly ML. Solvent-accessible surfaces of proteins and nucleicacids. Science 1983;221:709–713.
54. Batista PR, Wilter A, Durham EH, Pascutti PG. Molecular dynamics
simulations applied to the study of subtypes of HIV-1 protease
common to Brazil, Africa, and Asia. Cell Biochem Biophys 2006;44:
395–404.
55. López-Romero P, Gómez MJ, Gómez-Puertas P, Valencia A. Prediction of functional sites in proteins by evolutionary methods. In:
Kamp RM, Calvete JJ, Choli-Papadopoulou T, editors. Principles
and practice. Methods in proteome and protein analysis, Berlin,
Heidelberg: Springer-Verlag; 2004. Chapter 22, pp 319–340.
56. Mayrose I, Graur D, Ben-Tal N, Pupko T. Comparison of site-specific rate-inference methods for protein sequences: empirical Bayesian methods are superior. Mol Biol Evol 2004;21:1781–1791.
57. Landau M, Mayrose I, Rosenberg Y, Glaser F, Martz E, Pupko T,
Ben-Tal N. Consurf 2005: the projection of evolutionary conservation scores of residues on protein structures. Nucleic Acids Res
2005;33:W299–W302.
58. J Liang, Edelsbrunner H, Woodward C. Anatomy of protein pockets
and cavities: measurement of binding site geometry and implications for ligand design. Protein Sci 1998;7:1884–1897.
59. Baker NA, Sept D, Joseph S, Holst MJ, McCammon JA. Electrostatics of nanosystems: application to microtubules and the ribosome. Proc Natl Acad Sci USA 2001;98:10037–10041.
60. Vriend G. WHAT IF: a molecular modeling and drug design program. J Mol Graph 1990;8:52–56.
61. Maly DJ, Huang L, Ellman JA. Combinatorial strategies for targeting protein families: application to the proteases. Chembiochem
2002;3:16–37.
62. Koradi R, Billeter M, Wuthrich K. MOLMOL: a program for display
and analysis of macromolecular structures. J Mol Graph 1996;14:51–55.
63. Siripurkpong P, Yuvaniyama J, Wilairat P, Goldberg DE. Active site
contribution to specificity of the aspartic proteases plasmepsins I
and II. J Biol Chem 2002;277:41009–41013.
64. Powers JC, Harley AD, Myers DV. Subsite specificity of porcine
pepsin. Adv Exp Med Biol 1977;95:141–157.
65. Scarborough PE, Guruprasad K, Topham C, Richo GR, Conner GE,
Blundell TL, Dunn BM. Exploration of subsite binding specificity
of human cathepsin D through kinetics and rule-based molecular
modeling. Protein Sci 1993;2:264–276.
66. Istvan ES, Goldberg DE. Distal substrate interactions enhance plasmepsin activity. J Biol Chem 2005;280:6890–6896.
67. Altschuh D, Verner T, Berti P, Moras D, Nagai K. Coordinated
amino acid changes in homologous protein families. Protein Eng
1988;2:193–199.
68. Liu J, Istvan ES, Goldberg DE. Hemoglobin-degrading plasmepsin
II is active as a monomer. J Biol Chem 2006;281:38682–38688.
69. Ersmark K, Samuelsson B, Hallberg A. Plasmepsins as potential targets for new antimalarial therapy. Med Res Rev 2006;26:626–666.
70. Lesk AM, Chothia C. How different amino acid sequences determine similar protein structures: the structure and evolutionary dynamics of the globins. J Mol Biol 1980;136:225–270.
71. Marti-Renom MA, Stuart AC, Fiser A, Sanchez R, Melo F, Sali A.
Comparative protein structure modeling of genes and genomes.
Annu Rev Biophys Biomol Struct 2000;29:291–325.
72. Brinkworth RI, Prociv P, Loukas A, Brindley PJ. Hemoglobindegrading, aspartic proteases of blood-feeding parasites: substrate
specificity revealed by homology models. J Biol Chem 2001;276:
38844–38851.
73. Cascella M, Micheletti C, Rothlisberger U, Carloni P. Evolutionarily
conserved functional mechanics across pepsin-like and retroviral aspartic proteases. J Am Chem Soc 2005;127:3734–3742.
74. Piana S, Carloni P, Parrinello M. Role of conformational fluctuations in the enzymatic reaction of HIV-1 protease. J Mol Biol 2002;319:
567–583.
75. Micheletti C, Carloni P, Maritan A. Accurate and efficient description of protein vibrational dynamics: comparing molecular dynamics and Gaussian models. Proteins 2004;55:635–645.
76. Neri M, Cascella M, Micheletti C. The influence of conformational
fluctuations on enzymatic activity: modelling the functional motion
of b-secretase. J Phys Condens Matter 2005;17:S1581–S1593.
77. Perryman AL, Lin JH, McCammon JA. HIV-1 protease molecular
dynamics of a wild-type and of the V82F/I84V mutant: possible
contributions to drug resistance and a potential new target site for
drugs. Protein Sci 2004;13:1108–1123.
78. Bernstein NK, Cherney MM, Yowell CA, Dame JB, James MNG.
Structural insights into the activation of P. vivax plasmepsin. J Mol
Biol 2003;329:505–524.
79. Prade L, Jones AF, Boss C, Richard-Bildstein S, Meyer S, Binkert C,
Bur D. X-ray structure of plasmepsin II complexed with a potent
achiral inhibitor. J Biol Chem 2005;280:23837–23843.
PROTEINS
457
125
ANEXO 3:
Title: Consensus Modes, a robust description of protein collective motions from
multiple-minima normal mode analysis
Paulo R. Batista†‡, Charles H. Robert‡, Jean-Didier Maréchal*, Meriam Ben-Hamida
Rebaï‡, Pedro G. Pascutti†, Paulo M. Bisch† and David Perahia‡
Author affiliation:
† Instituto de Biofísica Carlos Chagas Filho, Universidade Federal do Rio de Janeiro,
Rio de Janeiro, 21941-902, Brasil
‡ Institut de Biochimie et Biophysique Moléculaire et Cellulaire, Université
Paris-Sud 11, 91405 Orsay, France
* Unitat de Química Física, Departament de Química, Universitat Autònoma de
Barcelona, 08193, Bellaterra, Catalonia, Spain.
Corresponding author information:
David Perahia
Institut de Biochimie et Biophysique Moléculaire et Cellulaire, Bât 430, Université
Paris-Sud 11
91405 Orsay, France
[email protected]
tel: +33-(0)1-69 15 63 20
fax:+33-(0)1-69 85 37 15
The authors declare no conflict of interest.
Author contributions:
DP, CHR, PRB, PGP, PMB conceived of and designed research; PRB, JDM and
MBHR designed protocols and performed research; and PRB, DP and CHR wrote the
paper.
1
Abstract
Understanding protein flexibility is essential for studying conformational change, ligand
binding, and protein-protein or protein-nucleic acid interaction. Normal mode analysis
is well suited for studying such motions, capturing the directions of lowest curvature on
the potential energy surface. In several proteins these directions have been shown to
correspond to large-scale motions that are functionally significant. However, a major
concern is that the described motions are those of a structure localized in a particular
minimum of the energy surface. The significance/generality of a given set of normal
modes may thus be questioned. In this article we describe a new theoretical framework
for determining normal modes from an ensemble of closely related structures, which we
call ‘consensus modes’ (CM). The CM calculation assumes that the conformational
potential energy surface can be better exploited when multiple-minima topological
information is considered. CM calculated over an ensemble of structures issuing from a
short molecular dynamics simulation provide a robust description of protein internal
motions, and show high collectivity and symmetry properties. We adopted the apo form
of the HIV-1 protease (PR) to demonstrate our approach. Low-frequency CM describe
biologically relevant motions such as the opening/closing of PR flaps and can be used to
interpret structural changes occurring upon binding of widely different inhibitors.
2
Introduction
The structural biology revolution has led to rapid growth in the number of known
protein sequences and 3D-structures [1,2], increasingly making clear the relationship
between structure and function. But proteins are not static entities. They have to be
flexible to interact with other molecules and perform their functions [3]. Even in crystal
structures, significant flexibility can be inferred from values of the thermal B-factors
[4,5], while NMR structure determination results in families of dozens of structures,
directly reflecting protein dynamics [6]. This dynamical aspect increasingly extends the
dual concept of “structure and function” into the triplet structure/dynamics/function [79].
Complementing experimental methods for structure determination is the use of
computational methods to investigate dynamics, such as molecular dynamics (MD)
simulations. MD calculations employ empirical force-fields and allow exploration of
different regions of the vast conformational space, generating a trajectory reflecting
macromolecular dynamics on different time scales [10-13]. MD simulations have been
successfully applied to describe diverse types of motions in different protein systems;
e.g. active-site cleft opening/closing [14], peptide folding [15] and ion-channel gating
mechanisms [16]. However, for large systems with precise representations (e.g., allatom, explicit-solvent simulations) attainment of biologically interesting time scales can
be prohibitively time consuming. Further, certain large-amplitude motions occur only
rarely in MD simulations: some subunit, domain or loop motions take place on the
millisecond time scale or longer [17-19]. The correct description of such long-timescale
motions thus remains a significant challenge.
Normal mode (NM) analysis is well suited for studying internal protein collective
motions [20-25]. It has proved especially useful for studying conformational changes
since the observation that the lowest frequency modes compare well with
crystallographically observed conformational changes [26-28]. Furthermore such
analyses can suggest motions of functional importance not yet observed in structural
studies [29] . One advantage of NM analysis lies in its capturing the directions of lowest
curvature of the potential energy surface, which correspond to large-scale internal
motions of the protein. However, as with all methodologies, NM analysis has its own
limitations..
One shortcoming of traditional NM analysis is its strict validity for small amplitude
motions around a structure localized in a particular minimum of the potential energy,
while the potential energy surface of a protein contains a huge number of such minima.
By considering a manageable number of minima around a given state, which represent
‘inherent structures’ [30], it is in general possible to estimate thermodynamic and
kinetic properties [31-33] of a protein. However, vibrational analysis is often performed
only for a single energy minimum, usually that corresponding to the energy-minimized
crystal structure and taken to be representative, without formal acknowledgment of the
fact that the true biological “structure” consists of an ensemble of closely related
conformations. The significance and generality of NM pertaining to a given particular
structure has thus been questioned [34].
3
Nevertheless, several approaches have been taken to accomodate the multiple-minima
nature of the potential energy surface. van Vlijmen and Karplus [34] explicitly
calculated NM for several energy-minimized protein structures sampled from MD
simulations and compared them, and showed that by averaging certain properties
calculated from the individual NM analyses a better agreement with experimental and
MD simulation results was obtained. Kitao et al.’s “Jumping Among Minima” (JAM)
model [33] describes multiple energy basins (substates) separated by barriers that can
nevertheless be crossed on the timescale of MD simulations. Protein conformational
fluctuations are then decomposed in terms of intra- and inter-substate motions, the
former well-described by NM analysis and the latter including anharmonic movements
associated with the remaining fluctuations in the protein dynamics trajectories. Such
approaches are very useful in better defining the behavior of a macromolecule using
MD studies.
In this article we focus on synthesizing the harmonic information present in the multiple
minima of the potential energy surface of a protein. We describe a new theoretical
framework for defining normal modes consistently from a set of related structures,
which we call ‘consensus modes’ (CM). The different structures correspond to different
minimum energy points on the potential energy surface, obtained from MD sampling or
from experimentally determined structures. A basic principle of the CM calculation is
the assumption that the shape of the potential-energy surface can be better exploited
when multiple-minima topological information is considered. The use of multiple
minima reduces bias caused by local features of the surface having relevance only to a
particular minimum, as was highlighted by van Vlijmen and Karplus [34]. The atom
fluctuations calculated by the CM can be directly compared to those obtained by
averaging the results obtained in the individual NM determinations, but other features
show novel properties. We show in particular that CM calculated over a set of structures
issuing from an MD simulation furnish an improved description of protein internal
motions, being able to provide more robust, statistically-representative directions of
protein motions. Consensus modes provide a new way to study large-scale protein
flexibility, and may have implications in protein folding and function including proteinprotein and protein-ligand interactions (docking predictions) [35].
HIV-1 Protease as an application system
We adopted here the apo form of the protease of HIV-1 to demonstrate the CM
approach. The aspartic HIV-1 protease (PR) functions as a homodimer (99 amino
acids/chain) and plays a critical role in the HIV-1 life cycle [36,37]; it is considered one
of the major targets of anti-AIDS drugs [38]. PR can be divided into three principal
regions (Fig. 1): the core domain, situated at the interface between the monomers and
which contains the active site (the pair of catalytic triads Asp-Thr-Gly); the terminal
domain containing both N and C terminals, which is important for dimerization; and the
flap domain, which consists of two flexible hairpins at the entrance of the hydrophobic
active-site cleft and which need to open (close) to allow ligand entrance (stabilization)
[39]. The flap domain is the most flexible region of PR, exhibiting major structural
differences between the bound and free states [40,41], with transitions occurring on the
μs time scale [42,43].
PR is an intensively studied protein, both experimentally and theoretically, with more
than 270 solved structures – NMR and crystallographic, unbound and complexed with
different inhibitors – available in the PDB [2]. These structures provide a rich source of
4
data for comparison with computational results [44-50]. For example, in a study of
multiple PR structures from the PDB, Yang et al. showed close correspondence
between the motions obtained from principal component analysis (PCA) and from a
simplified NM approach (the Elastic Network Model), suggesting that NM, even with a
simplified potential, can explain the overall features of the structural differences arising
from sequence variation and binding of different ligands [51]. But a complete
description of PR flexibility requires a correspondingly detailed description of the
potential energy surface.
Theory
NM analysis is generally applied to a single structure that corresponds to a minimum in
the 3N dimensional potential energy surface, N being the number of atoms of the system
considered. In the neighborhood of this minimum, the surface is taken to be quadratic
and is described by the Hessian matrix F, whose elements are the second derivatives of
the potential energy function with respect to the mass-weighted atomic coordinates (qi).
Diagonalization of the Hessian then provides the NM vectors and frequencies [22].
At a given temperature, the Hessian F is related to the inverse of the covariance matrix
of atomic displacements, σ, by
F = k BT σ − 1
[1],
where kB is the Boltzmann constant and T the absolute temperature, and each element of
σ is defined as σ ij = qi − qi q j − q j
[52,53]. Each element of the covariance
matrix within the normal mode theory is given by:
3 N −6
σ ij = k T ∑
NM
B
l =1
αα
ω
il
jl
2
[2],
l
where αil is the i’ th component of the l’ th normal mode vector, and ωl is the frequency
of l’ th normal mode, and the sum is over the 3N-6 internal normal modes [53].
In the CM approach, the NM analysis is performed for each of a set of Ns different
energy-minimized structures, taking care that each structure has the same orientation
(obtained by least-squares superposition). The different structures considered in the
calculation of the CM in this study were obtained from MD simulation (see Methods).
A new covariance matrix σ CM is then defined which is the mean over the Ns individual
covariance matrices as defined above, and expressed as:
σ
CM
1
=
Ns
Ns
∑σ
s =1
NM
s
[3].
This matrix is termed the ‘consensus covariance matrix’. The influences of similar
vibrational modes are reinforced in the averaging procedure, while local biases are
reduced. The eigenvectors and eigenvalues of this matrix determine the consensus
modes and their frequencies.
It should be pointed out that CM are distinct from quasi-harmonic modes (QHM) which
are obtained directly from the mass-weighted covariance matrix calculated from MD
5
trajectories [52-54]. The CM covariance matrix, however, is constructed using an
analytical formulation of the shape of the energy surface in the region of each sampled
minimum, while the QHM analysis uses only the sampled coordinates themselves. In
particular, we note that QHM provide little information concerning timescales longer
than that of the MD simulation itself [55]. In contrast, the CM directly incorporate
topological information about the potential energy surface, and can thus contain longer
timescale information.
Methods
MD simulations
The MD simulations were performed using NAMD 2.6 [56] with the CHARMM22
force field [57]. The homodimer structure of the apo-PR was solvated using a
pre-equilibrated cubic TIP3 water box (approximately 55,000 atoms) with periodic
boundary conditions. PME [58] was used for electrostatic interactions with non-bonded
cutoffs of 12 Å for van der Waals and 10 Å for electrostatic interactions in the real
space. We used SETTLE [59] and SHAKE [60] to fix water and protein bonds
respectively, allowing the use of an integration time of 2 fs, in the NPT ensemble.
The system was energy minimized using the conjugate-gradient algorithm, keeping the
protein heavy atom positions harmonically restrained using a force constant of 50
kcal/mol/Ǻ2 to avoid major structural changes. The restraint force constant was
subsequently decreased to 5 kcal/mol/Ǻ2 during 72 ps MD of the heating procedure, for
which initial velocities were generated for a temperature of 20 K and the temperature
slowly increased to 300 K using the Berendsen algorithm [61] with a coupling constant
of 0.67 ps. The output structure and final velocities were used to initiate the
equilibration procedure with a coupling constant of 0.1 ps and at a pressure of 1 atm,
with the position restraint force constant gradually decreased from 1 kcal/mol/Ǻ2 to zero
over 1.5 ns. The equilibration was carried out until the distances between the catalytic
residue (Asp25) and the tip of the flap (Ile50) in both subunits were approximately
equal in order to have quasi-symmetrical behavior for the protein (3 ns). A production
period of 10 ns was then carried out. [See the details and results in Fig. 2].
Normal Modes calculations
All-atom NM calculations were performed using the VIBRAN module of CHARMM
[62] for 20 MD snapshot structures taken from the first nanosecond of production
(every 50 ps), in order to calculate the consensus modes. The system consisted of the
PR dimer plus the first layer of hydration [63]. This water layer helped avoid the
collapse of the PR flaps during the minimization procedure. Water molecules whose
oxygen was within ≈ 4.0 Å from any protein atoms were included in the analyses, the
precise cutoff being adjusted in order to have the same number of water molecules in
each system (2790 atoms). Each system was minimized to a mean energy gradient of
less than 10-5 Kcal/mol/Å before computation of the normal modes.
Consensus Modes calculation
Fig. 3 shows a flowchart describing the CM approach from multiple minima NM
calculation. After NM computations for each MD snapshot structure, the trajectories for
the 97 lowest-frequency modes (excluding translation/rotation modes) were generated,
after superimposition to the mean structure. For each mode, the trajectory consisted of a
6
complete single vibrational period containing 9 points. All such trajectories were then
concatenated into a single trajectory, from which the consensus covariance matrix σCM
for the desired subset of atoms was generated. The eigenvalues and eigenvectors of this
matrix were computed using the QUASI option in the VIBRAN module of CHARMM.
Depending on the analysis, we computed the σCM for all protein atoms (i.e., excluding
water molecules) or for just the Cα atoms.
Quasi-harmonic modes calculations
The QHM were computed either for all the protein atoms (excluding the surrounding
water molecules) or the Cα atoms. In the former case the Cartesian coordinates were
scaled by the square root of the corresponding atomic masses. The covariance matrices
of scaled coordinate changes were computed over 5000 structures taken from the 10ns
production MD trajectory, the successive structures being separated by 2ps time interval
and superimposed to the average structure. These matrices were diagonalized to obtain
the QHM by using the QUASI command of VIBRAN in CHARMM.
Overlap between CM and any other motion
The overlap between a given mode vector Mi and another vector X is evaluated by their
normalized projection,
Oi (X) = Mi X/ Mi X
[4],
where Mi is typically a consensus mode or normal mode vector and X could be a mode
vector from a different calculation, a quasi-harmonic or PCA mode vector, or a vector
representing the conformational change between two different structures. A perfect
match yields an overlap value of 1. We define the cumulative overlap between the first k
lowest frequency modes and the vector X by:
CO ( X, k ) =
(∑
)
1
O 2 (X ) 2
i =1, k i
[5],
The cumulative overlap measures how well the space defined by a given set of modes
(here we consider the k=97 lowest-frequency modes) can include the motion indicated
by the given vector X.
X-ray and NMR data sets for Principal Component Analysis
All HIV protease structures used for this analysis were downloaded from the PDB and
only the Cα coordinates were considered. The NMR dataset comprised the 28 structures
present in entry 1bve. The X-ray dataset contained 270 X-ray structures of PR, without
missing residues. A list of the PDB identifiers and the rmsd for each structure after
superposition are given in Fig. 4.
Degree of collectivity of a protein motion
The degree of collectivity of a protein motion can be expressed as the fraction of protein
atoms participating significantly in the motion [26,64]. For a mode vector of length 3N
with elements αi , this degree of collectivity, к, is defined as
7
κ=
⎛ 3N
⎞
1
exp ⎜ - ∑ α i2 log α i2 ⎟ [6]
N
⎝ i =1
⎠
If к = 1, the conformational change is maximally collective while if к approaches 1/N,
only one atom is involved in the conformational change.
Results and Discussion
Experimental Validation of MD from NMR data
MD simulations were carried out on the HIV apo-PR structure (PDB code 1hhp) [65] in
order to obtain the various conformations for NM analyses and subsequent CM
determination. The system was extensively optimized and equilibrated so that the
derived modes reflect the dynamics of structures belonging to a stable stationary stage
of the simulation, thus reducing artifacts due to differences between the periodic water
box (MD) and the crystal environments [66]. We conducted this equilibration procedure
very carefully (as summarized in Fig. 2; see details in Methods) to avoid problems in
solvation, as discussed by Meagher et al. [67], who that poor solvent equilibration in the
active site region led to unexpected high amplitude fast flap motions
(collapse/destabilization in few hundred ps). We also verified that the number of water
molecules within the active site was similar to the number found in that study (data not
shown). We also calculated the S2 N-H order parameters from the 10 ns of MD
production, which showed very good agreement with NMR results [45] [Fig. 5]. This
confirms that our MD simulation reproduced at least the sub-ns/ns dynamics of PR.
Sampled conformations for CM calculations
The structural variability of a protein in a stable state reflects the breadth of the
corresponding free-energy minimum. The CM calculation allows such variability to be
taken into account. In this study structures were sampled every 50 ps throughout the
initial 1 ns of the production MD simulation. This timescale was shown to be sufficient
for convergence of the subspace including the so-called singly and multiply-hierarchical
motions in the study of Kitao et al. for a protein of similar size [33]. It is also possible
that other sampling strategies could potentially be applied to better exploit different
regions of potential energy surface, e.g. a clustering analysis based on rmsd could
initially be performed, or a larger sample set could be used. However, we found that the
current procedure provided satisfactory results. The structural differences between
sampled structure pairs, as measured by the Cα root-mean-square distance (rmsd),
averaged 1.22 ± 0.22 Ǻ (Fig. 6 B and C). This is somewhat larger than the variabiltiy
seen in the PR crystal structures studied by Zoete et al. [50] but consistent with MD
sampling in other systems (e.g., [34]). The Cα fluctuations among the 20 minimized
snapshots (Fig. 6A) followed the same pattern as seen in the literature for apo PR MD
simulations [14,47,67]: high deviations in the flap region (around residue 50/149) and
small deviations in the active site (around residues 25/124).
8
Consensus modes reflect the mean fluctuation behavior of the protein in
the sampled minima
The Cα-fluctuations obtained with Consensus Modes and those obtained by Normal
Mode analysis of the individual sampled structures are shown in Fig. 7. The CM
fluctuations (bold black line) correspond to the average of the NM fluctuations as seen
from equation 3. The observed variability in the individual NM analyses arises from
variations in atomic positions in the different sampled structures corresponding to
different regions of the potential energy surface. This effect clearly appears in the
variety of individual NM fluctuation profiles (thin colored lines), which show peaks that
are not present in the CM. Such extraneous peaks reflect fluctuations that are specific to
a given particular structure but which have little effect on the average behavior of the
molecule. CM has thus filtered out such unusual fluctuations, and this is one of the
reasons for calling them “consensus modes”.
The fluctuations obtained with our consensus approach are in good agreement with
those obtained from crystallographic B-factors (bold green line in Fig. 7), the Pearson
correlation coefficient R between them being 0.69. It can also be noted that the CM
fluctuations show high symmetry between the two chains (R=0.87). This is in contrast
with the results obtained from individual NM analysis fluctuation profiles, for which the
interchain correlation was found to be 0.42±0.1.
Consensus modes describe a more complete conformational space for
describing large amplitude motions
The full MD simulation was used to calculate the QHM, which are related to the
principal components or the essential modes of the system. The atomic fluctuations
from the 10ns MD QHM presented in Fig. 8A are similar to those obtained from the
CM. However, atom fluctuations alone provide only limited information when
comparing two different sets of collective movements. In order to address how the large
amplitude space described by the CM differs from that described by the QHM, we
analyzed to what extent each of the QHM can be represented within the subspace
defined by the 97 lowest-frequency CM, and vice versa, using a cumulative projection
analysis (see Methods). Each of the first 20 lowest frequency QHM vectors derived
from the 10ns MD can be represented in the low-frequency CM vector space with a
cumulative overlap (CO) greater than 0.8 (Fig. 7B, black line), with the first three
lowest frequency vectors displaying CO values very close to 1. That is, the large-scale
QHM movements are largely accounted for in the vector space spanned by the lowfrequency CM. In contrast, the corresponding lowest-frequency CM movements are less
well accounted for in the QHM space (red line in Fig. 7B). These results indicate that
the low-frequency CM space is more complete than that of the QHM, despite the fact
that the QHM were calculated from a simulation that was 10 times longer than the
sampling period used for the CM calculation. As mentioned above, this is due to
information present in the CM concerning the shape of the potential energy surface,
which comes from the individual NM analyses used for their calculation.
Consensus modes from 1ns MD present more collectivity than quasiharmonic modes from 10 ns MD
Normal modes correspond to collective degrees of freedom, but certain of them can
correspond to localized motions, whereas others can involve a large set of atoms
moving together. We considered here a definition of the collectivity in terms of the
9
breadth of the distribution of the amplitudes of atom movements in a given mode.
Collective (global) motions have been shown to be related to important biological
conformational changes [25,29,68,69]. Fig. 9 shows that low frequency CM from the
1ns MD simulation (black line) present higher collectivity than the corresponding QHM
from the 10ns simulation (red line). Further, in the CM the high collectivity is
concentrated in the lowest frequency modes, while in the QHM we see no dependence
on the frequency. Interestingly, the mean NM collectivity values (green line), calculated
over the same 20 MD snapshots, are significantly lower than those of the CM, although
they are slightly larger than the QHM collectivities. Indeed, while the CM fluctuation
profile can be seen from eq. 3 to be the average of the individual NM fluctuation
profiles, there is no such simple relation to the individual NM collectivities. The higher
collectivity is an additional property of the CM which synthesize the characteristics of
the different minima on the potential energy surface..
Versatility for computing consensus modes for different subsets of atoms
In the CM calculations, energy minimization and NM analysis are first performed for a
series of structures, here protein-plus-water-layer systems issuing from molecular
dynamics simulations. Thereafter, the mass-weighted consensus covariance matrix
(σCM) can be calculated for any desired subset of atoms (e.g., protein-only, backbone
only, Cα, etc), and diagonalized, resulting in CM directions and frequencies for the
considered selection of atoms. The results presented in the previous sections correspond
to a reduction of the protein-water system to protein only, and thus they implicitly take
into account the influence of the different water configurations. The CM frequencies
calculated in this manner were slightly larger than those of the individual NM by a few
cm-1 due to the system reduction (data not shown).
In what follows a further reduction is achieved, in which only the subset of Cα atoms of
our system is retained. We will refer to the CM recalculated for the subset of Cα atoms
as Cα-CM. The advantage for computing on Cα is that redundant motions of the
backbone are eliminated. Such a reduction can also lead to better-averaged vectors
integrating the mean effects of specific side-chain couplings with the backbone. This
allows the filtering off of local motions and leads to a better representation of the global
motions. Finally, using only Cα atoms also permits the comparison of dynamics of
proteins of similar lengths but with different sequences, or of conserved domains in a
protein family, making homology studies possible. We note that the CM approach can
also be adapted to modes calculated from elastic network models on multiple structures.
Use of Cα-CM to compare theoretical and experimental motions
By reducing the protein representation to Cα atoms we used the Consensus Mode
approach to identify collective motions inferred from X-ray and NMR structures of HIV
proteases with different sequences. We also performed principal component analysis
(PCA) over these two different experimental datasets, as described in Methods. Fig. 10
shows the cumulative overlap values of the PCA components with the low frequency
Cα-CM sub-space. The Cα-CM subspace describes the PCA results for both structural
datasets very well, with cumulative overlap values between 0.58 and 0.97. This figure
also shows that the CO of the QHM, obtained from the 10 ns MD, in the Cα-CM space
was even higher (above 0.9). The latter comparison shows that the fundamental
10
backbone movements are better represented using Cα-CM than all-atom CM, which
gave CO values between 0.75 and 0.90 for the same number of modes (Fig. 7B). This
improvement is due to the averaging effect discussed above.
The values of the collective overlap of the 97 lowest-frequency Cα-CM with the PCA
modes from the X-ray or NMR PR datasets, although still high, are inferior to those of
the QHM from the MD simulations. This is partly due to the fact that the experimental
PR structures are almost all of the bound form, containing either inhibitors or substrates,
and thus with the flaps in a closed conformation, while the MD simulations were
performed starting with the unbound form of the protein, with flaps in a semi-open
conformation.
Biological relevance of Consensus Modes analysis
Low-frequency/large-amplitude collective motions are important in describing longtimescale dynamics of proteins, consisting in many cases of domain motions that are
related to biological function. One of the important aspects emerging from our results is
that CM allow the characterization of more collective motions than can be obtained
directly from longer MD simulations via quasiharmonic (or PCA) analysis or from
individual NM determinations. In our analysis of PR using the CM, the lowest
frequency modes are seen to be related to expansion or deformation of the active-site
including translational or rotational motions between the monomers and movements in
the flap domains. As shown in Fig. 11, all these types of movements can be important
for substrate or ligand binding. Such movements are only observed in very long MD
simulations [43,48,70]. Flap dynamics have been investigated by NMR showing that
motions on two different timescales occur in the flap region of the free PR, one on the
nanosecond [45] and the other on the millisecond timescale [42], as showed by a μs
time-scale course-grained MD study of apo PR system [43].
In both the Cα-CM and all-atom CM, the first two slow modes are related to motions of
translation/rotation between the monomers and can be implicated to the flexibility of
each chain to allow enzyme accommodation after ligand binding. We found also two
modes to be especially related to important flap domain motions. The third lowestfrequency consensus mode describes flap opening and closing, while the fifth mode is
related to variation of the distance between the tips of the flaps and the catalytic
residues Asp 25, resulting in changes in active site shape and volume. The third lowest
frequency CM is related to the intrinsic plasticity of the PR active site necessary for
binding different ligands. To demonstrate this we chose two structures with
representative differences in the active-site volume and inhibitor size: 4HVP and 1AID
(Fig. 11A and B), as in Teodoro et al. [6], in which the authors showed a concordance
between the first collective mode of motion and the differences in the flap region
between these two structures. The fifth lowest frequency Cα-CM describes a movement
in the direction of the conformational transition between the two different structures
(Fig. 11A) with an overlap of 40% (see Methods) between the CM vector and the vector
describing this conformational change. (We note that the overlap would be significantly
higher if the calculation took into account only the more limited region considered in
the analyses of Zoete et al.[50])
The third and fifth lowest-frequency CM describe flap opening and closing motions as
well as structural changes occurring upon ligand binding, such as that observed in the
11
conformational change between the open, apo-form (1HHP) and the closed
conformation (4HVP), in which PR is bound to an inhibitor (Fig. 11C). Such motions
are important for the entrance and stabilization of the ligand in the active site. Each of
these two Cα-CM presents an overlap with the 4HVP to 1HHP conformational transition
of around 30%. These directions of movement are presented in Fig. 11D. We also
observed that motions of the flap tips are coupled to other domain motions, mainly in
the flap elbows. This suggests that mutations or inhibitor binding in this region could
potentially alter the dynamics of flap motions and interfere with the accessibility and
interaction of ligands within the active site.
Conclusion
Predicting long-time dynamics of proteins is necessary to fully understanding their
biological function. Molecular dynamics approaches can be used to describe the variety
of conformations that a flexible protein can assume, but this technique can be expensive
and inefficient for investigating large-scale motions, which may only appear at longer
timescales (micro- to milliseconds). Interest has thus grown in exploiting alternative
approaches such as all-atom NM or elastic normal mode (ENM) analyses (e.g., [71])
that make maximum use of a single protein structure. These approaches can provide
estimates of the large-scale, collective motions of the protein. However, a statistical
picture is missing, for, as we have seen, a given single structure may lead to dynamics
results that are not representative of the overall behavior. The Consensus Modes
approach we have described allows one to obtain collective macromolecular motions
from a set of related protein structures, and is based on the curvature of the potential
energy surface near each structure making use of normal mode theory. The consensus
modes correspond to more robust descriptions of the vibrational movement of a
macromolecule than the normal modes obtained for a single structure. The CM is not
limited to full atom NM calculations, but can also be adapted to ENM calculations on
multiple structures. Consensus Modes may also be useful to extend the JAM approach
itself [33] which was presented using only a single NM determination to model the
intra-substate motions of the protein— the multiple minima information synthesized by
the CM would improve the robustness of this approach.
Besides reducing potential artifacts, consensus modes also show more collectivity than
either the normal modes of the individual structures or the quasi-harmonic modes
obtained from an MD simulation ten times longer than that used in their calculation.
Moreover, in the particular case of the homodimeric HIV-1 protease, the consensus
modes display increased symmetry when compared to normal modes of the individual
structures or to quasi-harmonic modes from MD simulations. The consensus mode
approach may be applied to multiple X-ray or NMR structures in order to obtain the
most robust motions from them, and thus to provide a better description of global
motions. They can allow the determination of key residues playing a role in motions
that influence protein function or ligand-binding characteristics. Such information can
then be exploited experimentally, for example in mutagenesis studies. Motions
described by consensus modes may be further explored by using restrained energy
minimization or MD simulation for a better structural and energetic descriptions of
conformational changes [29,35,72]. Finally, we point out that the consensus mode
approach allows a better treatment of hydration than can be attained in standard normal
12
mode analysis, by implicitly taking into account different aqueous environments around
the protein in the averaging process.
Acknowledgments
CHR and DP wish to thank the Université Paris-sud 11 Pluriformation Program
DEMAIN and the IDRIS (Institut du Développement et des Ressources en Informatique
Scientifique) of the CNRS for access to resources used in performing the computations
used for this work. PRB, PGP and PMB wish also to acknowledge the Brazilian
agencies CNPq, CAPES and FAPERJ for financial support. JDM would like to thank
the Sidaction foundation for support.
13
Figure Legends
Figure 1. HIV-1 protease (PR) structure. Cartoon representation of PR colored by
secondary structure: blue (β-sheets), red (α-helix) and gray (coil and loop). The solvent
accessible surface (transparent) was colored in order to represent the principal PR
domains: orange (flaps domain), light green (core domain) and magenta (dimerization
domain – N and C terminals). The flap elbows, tips (Ile50), and catalytic residues
(Asp25) are highlighted.
Figure 2. Optimization and equilibration of PR structure. Panel A shows the
temperature increase for the system during the heating procedure. Panel B shows the
positional restraint energy (top) and the Cα rmsd (bottom) during the initial equilibration
period of 1.4 ns, during which the positional restraints were reduced to zero. Panel C
shows the calculated distance between the CA of Asp25 and Ile50 for each flap
throughout the unrestrained MD simulation.
Figure 3. Flowchart describing the Consensus Modes approach.
Figure 4. “Crystal” data set. A) the list of PDB entries used in this data set; B) rmsd for
each PDB structure taking as reference the averaged structure, ordered by increasing
deviation.
Figure 5. N-H S2 order parameter calculated from the 10 ns MD simulation compared
to the experimental results from reference [45].
Figure 6. The structural variability of sampled structures used in the CM calculation. A)
Cα fluctuations calculated from the 20 energy-minimized snapshots. B) the Cα rmsd
structural differences between sample pairs. C) distribution of pairwise rmsd distances
shown in B.
Figure 7. Root mean square fluctuations (RMSF) calculated for Cα atoms derived from
the NM for each of the 20 MD snapshots (colored thin lines) and from the CM (bold
black line). Also shown are the fluctuations derived from the normalized
crystallographic temperature factors from the 1hhp crystal structure (bold red line).
Protein residues are numbered from 1-99 for chain A and 100-198 for chain B.
Figure 8. Correspondence between low frequency CM (1ns) and QHM from 10ns MD.
A) Comparison of Cα RMSF derived from the CM (black) and from the QHM calculated
from 10ns of MD (red). B) Cumulative overlap of each QHM with the 97 lowest
frequency CM (black) and of each CM with the 97 lowest frequency QHM (red). Modes
are numbered in increasing frequency.
Figure 9. Degree of collectivity of PR motions. The collectivity index κ was calculated
as described in Methods for each CM derived from the first ns of MD production
(black) and for each QHM calculated from the full 10 ns MD (red). The mean
collectivity along with the standard deviation over the NM of the 20 MD snapshots was
also calculated (green). Modes are numbered in increasing frequency.
14
Figure 10. Cumulative overlap, in the subspace of the 97 lowest frequency Cα-CM, of
the collective-movement vectors obtained by different methods: QHM (black), X-ray
PCA (red), and NMR PCA (green). In each case the results for the first 28 largeamplitude modes are shown. Modes are numbered by decreasing eigenvalue.
Figure 11. Low-frequency CM movements in relation to the intrinsic flexibility of PR
flaps. A) The backbone trace of two structures of bound forms of PR, 4hvp (in blue) and
1aid (in red), as well as of intermediate structures described by the 5th lowest frequency
CM. The intermediate structures were generated by displacing the mean structure in the
± directions along the CM, up to an RMS of 0.6 Å. B) Mode describing the change of
the shape and volume of the binding site of PR which appears necessary to
accommodate ligands of various sizes. C) Least-squares superposition of the backbone
of bound (4hvp, in blue) and free PR (1hhp, in red). D) Vectors (represented by arrows)
of the 3rd and 5th lowest frequency CM involved in the flap motions that describe the
conformational change from the closed (bound) to a semiopen (free) form. Cartoon
arrows represent the overall directions of the motions of flap domains.
References
1. Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J, Wheeler DL (2008) GenBank.
Nucleic Acids Res 36: D25-30.
2. Bernstein FC, Koetzle TF, Williams GJ, Meyer EF, Jr., Brice MD, et al. (1977) The
Protein Data Bank: a computer-based archival file for macromolecular
structures. J Mol Biol 112: 535-542.
3. Huber R, Bennett WS, Jr. (1983) Functional significance of flexibility in proteins.
Biopolymers 22: 261-279.
4. Phillips GN, Jr. (1990) Comparison of the dynamics of myoglobin in different crystal
forms. Biophys J 57: 381-383.
5. Lu WC, Wang CZ, Yu EW, Ho KM (2006) Dynamics of the trimeric AcrB
transporter protein inferred from a B-factor analysis of the crystal structure.
Proteins 62: 152-158.
6. Teodoro ML, Phillips GN, Jr., Kavraki LE (2003) Understanding protein flexibility
through dimensionality reduction. J Comput Biol 10: 617-634.
7. Chollet A, Turcatti G (1999) Biophysical approaches to G protein-coupled receptors:
structure, function and dynamics. J Comput Aided Mol Des 13: 209-219.
8. Sinha N, Smith-Gill SJ (2002) Protein structure to function via dynamics. Protein
Pept Lett 9: 367-377.
9. Tamm LK, Abildgaard F, Arora A, Blad H, Bushweller JH (2003) Structure,
dynamics and function of the outer membrane protein A (OmpA) and influenza
hemagglutinin fusion domain in detergent micelles by solution NMR. FEBS Lett
555: 139-143.
10. Karplus M, Weaver DL (1976) Protein-folding dynamics. Nature 260: 404-406.
11. McCammon JA, Gelin BR, Karplus M (1977) Dynamics of folded proteins. Nature
267: 585-590.
12. Henzler-Wildman KA, Thai V, Lei M, Ott M, Wolf-Watz M, et al. (2007) Intrinsic
motions along an enzymatic reaction trajectory. Nature 450: 838-844.
13. Henzler-Wildman KA, Lei M, Thai V, Kerns SJ, Karplus M, et al. (2007) A
hierarchy of timescales in protein dynamics is linked to enzyme catalysis.
Nature 450: 913-916.
15
14. Scott WR, Schiffer CA (2000) Curling of flap tips in HIV-1 protease as a
mechanism for substrate entry and tolerance of drug resistance. Structure 8:
1259-1265.
15. Kim E, Jang S, Pak Y (2008) Direct folding studies of various alpha and beta
strands using replica exchange molecular dynamics simulation. J Chem Phys
128: 175104-175110.
16. Treptow W, Marrink SJ, Tarek M (2008) Gating motions in voltage-gated potassium
channels revealed by coarse-grained molecular dynamics simulations. J Phys
Chem B 112: 3277-3282.
17. Liu H, Dastidar SG, Lei H, Zhang W, Lee MC, et al. (2008) Conformational
changes in protein function. Methods Mol Biol 443: 258-275.
18. Alcaraz LA, Del Alamo M, Mateu MG, Neira JL (2008) Structural mobility of the
monomeric C-terminal domain of the HIV-1 capsid protein. Febs J 275: 32993311.
19. Amorim GC, Pinheiro AS, Netto LE, Valente AP, Almeida FC (2007) NMR
solution structure of the reduced form of thioredoxin 2 from Saccharomyces
cerevisiae. J Biomol NMR 38: 99-104.
20. McCammon JA, Gelin BR, Karplus M, Wolynes PG (1976) The hinge-bending
mode in lysozyme. Nature 262: 325-326.
21. Levitt M, Sander C, Stern PS (1985) Protein normal-mode dynamics: trypsin
inhibitor, crambin, ribonuclease and lysozyme. J Mol Biol 181: 423-447.
22. Brooks B, Karplus M (1983) Harmonic dynamics of proteins: normal modes and
fluctuations in bovine pancreatic trypsin inhibitor. Proc Natl Acad Sci USA 80:
6571-6575.
23. Perahia D, Mouawad L (1995) Computation of low-frequency normal modes in
macromolecules: improvements to the method of diagonalization in a mixed
basis and application to hemoglobin. Comput Chem 19: 241-246.
24. Balog E, Smith JC, Perahia D (2006) Conformational heterogeneity and lowfrequency vibrational modes of proteins. Phys Chem Chem Phys 8: 5543-5548.
25. Keskin O, Durell SR, Bahar I, Jernigan RL, Covell DG (2002) Relating molecular
flexibility to function: a case study of tubulin. Biophys J 83: 663-680.
26. Tama F, Sanejouand YH (2001) Conformational change of proteins arising from
normal mode calculations. Protein Engineering 14: 1-6.
27. Mouawad L, Perahia D (1996) Motions in hemoglobin studied by normal mode
analysis and energy minimization: evidence for the existence of tertiary T-like,
quaternary R-like intermediate structures. J Mol Biol 258: 393-410.
28. Petrone P, Pande VS (2006) Can conformational change be described by only a few
normal modes? Biophys J 90: 1583-1593.
29. Floquet N, Durand P, Maigret B, Badet B, Badet-Denisot MA, et al. (2009)
Collective motions in glucosamine-6-phosphate synthase: influence of ligand
binding and role in ammonia channelling and opening of the fructose-6phosphate binding site. J Mol Biol 385: 653-664.
30. Nakagawa N, Peyrard M (2006) The inherent structure landscape of a protein. Proc
Natl Acad Sci U S A 103: 5279-5284.
31. Wales DJ (2005) Energy landscapes and properties of biomolecules. Phys Biol 2:
S86-93.
32. Wales DJ, Bogdan TV (2006) Potential energy and free energy landscapes. J Phys
Chem B 110: 20765-20776.
33. Kitao A, Hayward S, Go N (1998) Energy landscape of a native protein: jumpingamong-minima model. Proteins 33: 496-517.
16
34. van Vlijmen HWT, Karplus M (1999) Analysis of Calculated Normal Modes of a
Set of Native and Partially Unfolded Proteins. The Journal of Physical
Chemistry B 103: 3009-3021.
35. Floquet N, Marechal JD, Badet-Denisot MA, Robert CH, Dauchez M, et al. (2006)
Normal mode analysis as a prerequisite for drug design: application to matrix
metalloproteinases inhibitors. FEBS Lett 580: 5130-5136.
36. Navia MA, Fitzgerald PM, McKeever BM, Leu CT, Heimbach JC, et al. (1989)
Three-dimensional structure of aspartyl protease from human immunodeficiency
virus HIV-1. Nature 337: 615-620.
37. Kohl NE, Emini EA, Schleif WA, Davis LJ, Heimbach JC, et al. (1988) Active
human immunodeficiency virus protease is required for viral infectivity. Proc
Natl Acad Sci USA 85: 4686-4690.
38. Tomasselli AG, Heinrikson RL (2000) Targeting the HIV-protease in AIDS therapy:
a current clinical perspective. Biochim Biophys Acta 1477: 189-214.
39. Gustchina A, Weber IT (1990) Comparison of inhibitor binding in HIV-1 protease
and in non-viral aspartic proteases: the role of the flap. FEBS Lett 269: 269-272.
40. Lapatto R, Blundell T, Hemmings A, Overington J, Wilderspin A, et al. (1989) Xray analysis of HIV-1 proteinase at 2.7 A resolution confirms structural
homology among retroviral enzymes. Nature 342: 299-302.
41. Wlodawer A, Erickson JW (1993) Structure-based inhibitors of HIV-1 protease.
Annu Rev Biochem 62: 543-585.
42. Ishima R, Freedberg DI, Wang YX, Louis JM, Torchia DA (1999) Flap opening and
dimer-interface flexibility in the free and inhibitor-bound HIV protease, and
their implications for function. Structure 7: 1047-1055.
43. Tozzini V, Trylska J, Chang CE, McCammon JA (2007) Flap opening dynamics in
HIV-1 protease explored with a coarse-grained model. J Struct Biol 157: 606615.
44. Katoh E, Louis JM, Yamazaki T, Gronenborn AM, Torchia DA, et al. (2003) A
solution NMR study of the binding kinetics and the internal dynamics of an
HIV-1 protease-substrate complex. Protein Sci 12: 1376-1385.
45. Freedberg DI, Ishima R, Jacob J, Wang YX, Kustanovich I, et al. (2002) Rapid
structural fluctuations of the free HIV protease flaps in solution: relationship to
crystal structures and comparison with predictions of dynamics calculations.
Protein Sci 11: 221-232.
46. Ishima R, Louis JM (2008) A diverse view of protein dynamics from NMR studies
of HIV-1 protease flaps. Proteins 70: 1408-1415.
47. Hornak V, Okur A, Rizzo RC, Simmerling C (2006) HIV-1 protease flaps
spontaneously open and reclose in molecular dynamics simulations. Proc Natl
Acad Sci USA 103: 915-920.
48. Ding F, Layten M, Simmerling C (2008) Solution structure of HIV-1 protease flaps
probed by comparison of molecular dynamics simulation ensembles and EPR
experiments. J Am Chem Soc 130: 7184-7185.
49. Batista PR, Wilter A, Durham EH, Pascutti PG (2006) Molecular dynamics
simulations applied to the study of subtypes of HIV-1 protease common to
Brazil, Africa, and Asia. Cell Biochem Biophys 44: 395-404.
50. Zoete V, Michielin O, Karplus M (2002) Relation between sequence and structure
of HIV-1 protease inhibitor complexes: A model system for the analysis of
protein flexibility. Journal of Molecular Biology 315: 21-52.
17
51. Yang L, Song G, Carriquiry A, Jernigan RL (2008) Close correspondence between
the motions from principal component analysis of multiple HIV-1 protease
structures and elastic network modes. Structure 16: 321-330.
52. Levy RM, Karplus M, Kushick J, Perahia D (1984) Evaluation of the
configurational entropy for proteins: application to molecular dynamics
simulations of an alpha-helix. Macromolecules 17: 1370-1374.
53. Karplus M, Kushick JN (1981) Method for estimating the configurational entropy of
macromolecules. Macromolecules 14: 325-332.
54. Levy RM, Perahia D, Karplus M (1982) Molecular dynamics of an alpha-helical
polypeptide: Temperature dependence and deviation from harmonic behavior.
Proc Natl Acad Sci USA 79: 1346-1350.
55. Balsera MA, Wriggers W, Oono Y, Schulten K (1996) Principal component analysis
and long time protein dynamics. J Phys Chem US 100: 2567-2572.
56. Phillips JC, Braun R, Wang W, Gumbart J, Tajkhorshid E, et al. (2005) Scalable
molecular dynamics with NAMD. J Comput Chem 26: 1781-1802.
57. Mackerell AD, Jr., Feig M, Brooks CL, 3rd (2004) Extending the treatment of
backbone energetics in protein force fields: limitations of gas-phase quantum
mechanics in reproducing protein conformational distributions in molecular
dynamics simulations. J Comput Chem 25: 1400-1415.
58. Ulrich E, Lalith P, Max LB, Tom D, Hsing L, et al. (1995) A smooth particle mesh
Ewald method. J Chem Phys 103: 8577-8593.
59. Miyamoto S, Kollman PA (1992) Settle - an Analytical Version of the Shake and
Rattle Algorithm for Rigid Water Models. J Comput Chem 13: 952-962.
60. Ryckaert J-P, Ciccotti G, Berendsen HJC (1977) Numerical integration of the
cartesian equations of motion of a system with constraints: molecular dynamics
of n-alkanes. J Comput Phys 23: 327-341.
61. Berendsen HJC, Postma JPM, Vangunsteren WF, Dinola A, Haak JR (1984)
Molecular-Dynamics with Coupling to an External Bath. J Chem Phys 81: 36843690.
62. Bernard R. Brooks, Robert E. Bruccoleri, Barry D. Olafson, David J. States, S.
Swaminathan, et al. (1983) CHARMM: A program for macromolecular energy,
minimization, and dynamics calculations. J Comput Chem 4: 187-217.
63. Robert CH, Cherfils J, Mouawad L, Perahia D (2004) Integrating three views of
Arf1 activation dynamics. J Mol Biol 337: 969-983.
64. Bruschweiler R (1995) Collective Protein Dynamics and Nuclear-Spin Relaxation. J
Chem Phys 102: 3396-3403.
65. Spinelli S, Liu QZ, Alzari PM, Hirel PH, Poljak RJ (1991) The three-dimensional
structure of the aspartyl protease from the HIV-1 isolate BRU. Biochimie 73:
1391-1396.
66. Janin J, Rodier F (1995) Protein-protein interaction at crystal contacts. Proteins 23:
580-587.
67. Meagher KL, Carlson HA (2005) Solvation influences flap collapse in HIV-1
protease. Proteins 58: 119-125.
68. Thomas A, Field MJ, Perahia D (1996) Analysis of the low-frequency normal
modes of the R state of aspartate transcarbamylase and a comparison with the T
state modes. J Mol Biol 261: 490-506.
69. Cui Q, Li G, Ma J, Karplus M (2004) A normal mode analysis of structural
plasticity in the biomolecular motor F(1)-ATPase. J Mol Biol 340: 345-372.
18
70. Rick SW, Erickson JW, Burt SK (1998) Reaction path and free energy calculations
of the transition between alternate conformations of HIV-1 protease. Proteins
32: 7-16.
71. Tirion MM (1996) Large Amplitude Elastic Motions in Proteins from a SingleParameter, Atomic Analysis. Physical Review Letters 77: 1905.
72. Floquet N, Dedieu S, Martiny L, Dauchez M, Perahia D (2008) Human
thrombospondin's (TSP-1) C-terminal domain opens to interact with the CD-47
receptor: a molecular modeling study. Arch Biochem Biophys 478: 103-109.
19
Figure 1
tips
elbow
Ile50
Asp25
Figure 2
A
300
T (K)
200
100
0
0
10
20
30
40
50
60
70
Time (ps)
Heating
B
C o n strain t E n erg y (K cal/m o l)
200
160
120
80
40
0
0
200
400
600
0
200
400
600
800
1000
1200
1400
800
1000
1200
1400
1.8
1.6
R M S D (Å )
1.4
1.2
1
0.8
0.6
0.4
0.2
0
Time (ps)
Equilibration
C
distance (Ile 50 CA and ASP 25 CA in Å)
25
chain A
chain B
20
15
10
10 ns
5
0
0
3
6
9
Time (ns)
Production
12
Figure 3
MD Experimental Validation
Crystal
Structure of
apo form of
HIV-1 Protease
Solvation,
equilibration
10 ns MD trajectory
(production)
5000 MD structures
20X
20
structures
( each 50 ps)
NMR N-H S2 order parameter
agreement
Energy
Minimization
Principal
Component
Analyses
(PCA)
Consensus
Modes (CM)
First 1 ns
For each
structure
Normal mode
analysis
Covariance
Matrix
diagonalization
Consensus
Covariance
Matrix
from the 20
covariance matrices
Figure 4
A
1HHP,
1AID,
1BDR,
1D4J,
1EBY,
1FFI,
1HBV,
1HTF,
1HXB,
1KJ7,
1MEU,
1NH0,
1QBU,
1T3R,
1W5X,
1ZJ7,
2AOC,
2AVS,
2BQV,
2FGV,
2IEO,
2P3B,
2Q64,
3B80,
3D3T,
1RPI,
1AJV,
1BV7,
1D4K,
1EBZ,
1FG6,
1HEF,
1HTG,
1HXW,
1KJF,
1MRW,
1NPA,
1RL8,
1T7I,
1W5Y,
1ZLF,
2AOD,
2AVV,
2CEJ,
2FLE,
2NMW,
2P3C,
2QAK,
3BVA,
3TLH,
1TW7,
1AJX,
1BV9,
1D4L,
1EC0,
1FG8,
1HEG,
1HVC,
1IIQ,
1KJG,
1MRX,
1NPV,
1RQ9,
1T7J,
1WBK,
1ZP8,
2AOE,
2AZ8,
2CEM,
2FNS,
2NMY,
2P3D,
2QNN,
3BVB,
4HVP,
2HB4,
1AXA,
1BWA,
1D4S,
1EC1,
1FGC,
1HIH,
1HVH,
1IZH,
1KJH,
1MSM,
1NPW,
1RV7,
1T7K,
1WBM,
1ZPA,
2AOF,
2AZ9,
2CEN,
2FNT,
2NMZ,
2PQZ,
2QNP,
3BXR,
4PHV,
2PC0, 1A30,
1B6J, 1B6K,
1BWB, 1C6X,
1D4Y, 1DAZ,
1EC2, 1EC3,
1FQX, 1G2K,
1HIV, 1HOS,
1HVI, 1HVJ,
1IZI, 1JLD,
1KZK, 1LV1,
1MSN, 1MT7,
1ODW, 1ODX,
1SBG, 1SDT,
1TCX, 1U8G,
1XL2, 1XL5,
1ZPK, 1ZSF,
2AOG, 2AOH,
2AZC, 2BB9,
2F3K, 2F80,
2FXD, 2FXE,
2NNK, 2NNP,
2PSU, 2PSV,
2QNQ, 2UPJ,
3BXS, 3CYW,
5HVP ,7UPJ.
1A8G,
1B6L,
1C6Y,
1DIF,
1F7A,
1G35,
1HPO,
1HVK,
1K1T,
1LZQ,
1MT8,
1ODY,
1SDU,
1UPJ,
1YT9,
1ZSR,
2AOI,
2BPV,
2F81,
2HC0,
2NPH,
2PWC,
2UXZ,
3CYX,
1A8K,
1B6M,
1C6Z,
1DMP,
1FB7,
1G6L,
1HPS,
1HVL,
1K1U,
1M0B,
1MT9,
1OHR,
1SDV,
1VIJ,
1Z1H,
1ZTZ,
2AOJ,
2BPW,
2F8G,
2HS1,
2NXD,
2PWR,
2UY0,
3D1X,
1A94,
1B6P,
1CPI,
1DW6,
1FEJ,
1GNM,
1HPV,
1HVR,
1K2B,
1MER,
1MTB,
1QBR,
1SGU,
1VIK,
1Z1R,
2A1E,
2AVM,
2BPX,
2FDD,
2HS2,
2NXL,
2PYM,
2Z54,
3D1Y,
1A9M,
1BDL,
1D4H,
1EBK,
1FF0,
1GNN,
1HPX,
1HVS,
1K2C,
1MES,
1MTR,
1QBS,
1SH9,
1W5V,
1Z8C,
2A4F,
2AVO,
2BPY,
2FDE,
2IDW,
2NXM,
2PYN,
3AID,
3D1Z,
1AAQ,
1BDQ,
1D4I,
1EBW,
1FFF,
1GNO,
1HTE,
1HWR,
1KJ4,
1MET,
1N49,
1QBT,
1SP5,
1W5W,
1ZBG,
2AID,
2AVQ,
2BPZ,
2FGU,
2IEN,
2P3A,
2Q63,
3B7V,
3D20,
B
3.5
3
RMSD (Å)
2.5
2
1.5
1
0.5
0
0
50
100
150
Structures
200
250
300
N-H S2 order param eter
Figure 5
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
exp
MD
0.2
0.1
0
0
25
50
residues
75
100
0
rmsd (Å)
175
1.95
1.85
1.74
150
1.64
1.54
125
1.44
RMSD (Å)
1.33
100
1.23
1.13
1.03
75
0.92
0
0.82
50
0.72
0.62
25
0.51
0.41
0.31
0
0.21
0.1
a.u.
RMS fluctuations (Å)
Figure 6
A
3
2.5
2
1.5
1
0.5
0
residue
200
B
1.89
C
40
35
30
25
20
15
10
5
0
Figure 7
0.6
RMSF (Å)
0.5
0.4
0.3
0.2
0.1
0
0
25
50
75
100
Residues
125
150
175
200
Figure 8
A
consensus modes (1ns)
0.35
QHM from MD (10ns)
0.3
RMSF (Å)
0.25
0.2
0.15
0.1
0.05
0
0
20
40
60
80
100
residues
120
140
160
180
200
60
70
80
90
100
B
1.0
0.9
Cum. Overlap
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0
10
20
30
40
50
m ode index
Figure 9
0.9
NM Snapshots mean (±SD)
CM (1ns)
QHM MD (10ns)
0.8
κ (collectivity)
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
20
40
60
mode index
80
100
Figure 10
1.0
0.8
CO
0.6
MD
0.4
NMR
0.2
crystal
0.0
0
2
4
6
8
10
12 14 16
m ode index
18
20
22
24
26
28
Figure 11
Binding to different inhibitors
A
B
4hvp
1aid
mode 5
Bound and free forms
C
D
1hhp – semiopen - No ligand
4hvp – closed - bound
mode 3
mode 5
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo
Download

Paulo Ricardo BATISTA