UNIVERSITE PARIS 7 – DENIS DIDEROT UNIVERSIDADE FEDERAL DO RIO DE JANEIRO oix Ecole doctorale Biochimie et Biologie Moléculaire B2M Instituto de Biofísica Carlos Chagas Filho Paulo Ricardo BATISTA Estudo da flexibilidade da protease do HIV-1 por modelagem e dinâmica Molecular: análise dos modos normais e dos modos consenso. TÍTULO: Étude de la flexibilité de la protéase du VIH-1 par modélisation et dynamique moléculaire : analyse des modes normaux et des modes consensus TITRE: Thèse dirigée par David PERAHIA et Pedro Geraldo PASCUTTI Soutenue le 14 avril 2009 Livros Grátis http://www.livrosgratis.com.br Milhares de livros grátis para download. UNIVERSITE PARIS 7 – DENIS DIDEROT UNIVERSIDADE FEDERAL DO RIO DE JANEIRO Ecole doctorale Biochimie et Biologie Moléculaire B2M Instituto de Biofísica Carlos Chagas Filho DOCTORAT En Analyse de Génomes et Modélisation Moléculaire DOUTORADO Em Ciências Biológicas (Biofísica) Paulo Ricardo BATISTA Estudo da flexibilidade da protease do HIV-1 por modelagem e dinâmica molecular: análise dos modos normais e dos modos consensos. TÍTULO: Étude de la flexibilité de la protéase du VIH-1 par modélisation et dynamique moléculaire: analyse des modes normaux et des modes consensus TITRE: Thèse dirigée par David PERAHIA et Pedro Geraldo PASCUTTI Soutenue le 14 avril 2009 JURY M. Gilberto WEISSMULLER M. José Daniel FIGUEROA-VILLAR Mme. Ana Paula Cabral de Araújo LIMA M. Fábio Ceneviva Larceda de ALMEIDA ii Estudo da flexibilidade da protease do HIV-1 por modelagem e dinâmica molecular: análise dos modos normais e dos modos consensos. Aluno: Paulo Ricardo Batista Orientadores: Pedro Geraldo Pascutti Paulo Mascarello Bisch David Perahia (França) Tese apresentada ao Instituto de Ciências Biomédicas da Universidade Federal do Rio de Janeiro como parte dos requisitos necessários para obtenção do grau de doutor em Ciências Biológicas – Biofísica em acordo de cotutela com a Université Paris 7 – Denis Diderot para a obtenção do grau de doutor en Analyse de Génomes et Modélisation Moleculaire. Abril, 2009 iii Batista, PRB Estudo da flexibilidade da protease do HIV-1 por modelagem e dinâmica molecular: análise dos modos normais e dos modos consensos / Paulo Ricardo Batista. Rio de Janeiro: UFRJ, IBCCF, 2009. V, 117f., il.; Orientador: Pedro Geraldo Pascutti e Paulo Mascarello Bisch Tese de Doutorado– UFRJ / IBCCF/ Ciências Biológicas – Biofísica, 2009. Referências Bibliográficas: 98-117. 1. Protease do HIV. 2. Análise de Modos Normais 3. Dinâmica Molecular. I. Pascutti, Pedro Geraldo. II. Universidade Federal do Rio de Janeiro, Instituto de Biofísica Carlos Chagas Filho. III. Estudo da flexibilidade da protease do HIV-1 por modelagem e dinâmica molecular: análise dos modos normais e dos modos consensos. iv Gostaria de agradecer a todas as pessoas que contribuíram para minha formação e para o andamento deste trabalho. Um agradecimento especial à minha família, que esteve junto a mim e me deu todo apoio nas horas mais difíceis e estressantes desta tese: meu pai, minha mãe, meus irmãos Carol e Junior, seus respectivos (incluindo o Nuno) e a minha namorada Letícia que muito me ajudou nesses momentos difíceis e também curtiu comigo os momentos de conquista e lazer. Aos amigos e colegas de laboratório: Arlan & Simone, Mau Costa, Valiente, Diego & Pri & Paula, Samuel, Gustavo, Tácio, Gabriel & Saboro Shida, Rafa, Reinaldo, Pedro haciendo Torres, Pedro Loureiro, Liliani, Ranlig, Rosemberg, Patrícia, Daniel, Manuela, João, Maina, Nathália, Jeferson, Maira, Técio, Carol & Marlos, Lívia & Leo, Wandinha, Celso, Geraldo Cidade, Angélica, Francisco, Mônica, Fernado Vieira e tantos outros que à memória me faltaram. Ao amigo e 99er Raphael Valente pela força e mal amizade de sempre. Aos meus orientadores Pascutti, Paulo e Perahia pelo exemplo, amizade, orientação, apoio, confiança e apertadas de orelha. A todos os membros da banca por aceitarem esta missão! Dedico esta tese ao meu Pai que é meu maior de exemplo de caráter e trabalho e aos meus avós. Je voudrais remercier à touts mes collègues du IBBMC à Orsay pour les bons moments en France ; à David Perahia, mon coordinateur et ami, mes sincères remerciements pour l'accueil et tous les efforts pour faire de cette thèse une thèse en cotutelle et aussi pour les leçons et les discussions. À Charles pour être un génie et un grand ami. À Mme Boumedine pour l’aide et pour être aussi gentille. À Mme Le Houezec pour l’aide administratif. v Abstract Understanding protein flexibility is essential to study several processes reliant of conformational changes, transitions between active/non-active states or domain motions. Normal mode analysis (NMA) is well suited for studying protein large-scale motions, capturing the directions of lowest curvature on the potential energy surface. However, its major limitation is its strict validity for small amplitude motions around a structure localized in a particular minimum of this surface. The significance/generality of a given set of NM pertaining to a given particular structure may be thus questioned. In this thesis we describe a new theoretical framework for defining normal modes from a set of closely related structures, which we call ‘consensus modes’ (CM). CM calculation assumes that the protein conformational potential energy surface can be better exploited when multipleminima topological information is considered. We define CM as a set of modes describing the collective motions frequently appearing in the normal modes of different conformations of a macromolecule. We adopted the apo form of the HIV-1 protease (PR) to demonstrate our approach. CM calculated over a set of structures issued from a short molecular dynamics simulation provide an improved description of protein internal motions, corresponding in some ways to “averaged” normal modes. They describe motions corresponding to time scales one order of magnitude larger than that of the trajectory from which they were obtained. We identified within CM very biologically relevant motions as the opening/closing of PR flaps explaining structural changes occurring upon ligand binding of inhibitors of different shapes and sizes. vi Resumo Entender a flexibilidade protéica é essencial para o estudo de muitos processos ligados à mudanças conformacionais, transições entre estados ativos/não-ativos ou movimentos de domínios. Análise de modos normais (NMA) tem sido muito bem sucedida para o estudo de movimentos de grande amplitude em proteínas capturando as direções das mais baixas curvaturas da superfície de energia potencial. No entanto a sua principal limitação é a sua validade somente para movimentos de amplitude restritas ao redor de uma estrutura situada num ponto particular dessa superfície. A significância/generalidade de um dado conjunto de modos normais (NM) para uma dada estrutura pode ser então questionada. Nessa tese descreveremos uma nova técnica para definir modos normais sobre um conjunto de estruturas intimamente relacionadas, que nós chamamos de “modos consensos” (CM). O cálculo dos CM assume que a superfície de energia potencial conformacional para proteínas pode ser melhor explorada quando se consideram informações topológicas de múltiplos mínimos. Definimos os CM como modos que descrevem os movimentos coletivos que aparecem mais frequentemente nos NM de diferentes conformações da mesma macromolécula. Nós adotamos como sistema de estudo a forma apo da protease do HIV-1 (PR). CM calculados sobre um conjunto de estruturas oriundas de simulações curtas de dinâmica molecular fornecem uma descrição melhorada dos movimentos internos de proteínas, correspondendo em algumas formas a modos normais médios. Eles descrevem movimentos que correspondem a uma escala de tempo de mais de uma ordem de grandeza maior que a trajetória da qual eles foram obtidos. Foram identificados dentre os CM movimentos biologicamente muito relevantes como a abertura/fechamento das alças da PR, explicando mudanças estruturais ocorridas devido à ligação de inibidores de diferentes formas e tamanhos. vii Résumé Cette thèse est divisée en deux parties principales: i. l`étude structurale de la protéase du VIH-1 des différents sous-types par dynamique et modélisation moléculaire et ii. le développement d’une méthode d’exploration de la flexibilité des protéines en utilisant la protéase du VIH-1 comme modèle d’application. La protéase du virus VIH-1 (PR) constitue une cible importante pour la conception de drogues anti-SIDA. L’un des problèmes majeurs de cette protéine est qu’elle possède une très grande tolérance aux mutations vis-à-vis de son activité enzymatique. Ceci lui confère la capacité à résister à des inhibiteurs qui étaient efficaces au paravent. On connaît plus de 20 résidus qui sont liés à la résistance aux inhibiteurs de PR médicalement disponibles actuellement (PI). La plupart des études sur la résistance aux drogues anti VIH-1 ont été réalisées pour des virus de soustype B, prédominants aux États Unis et en Europe. Ces études ont établi plusieurs mutations qui confèrent une résistance aux PIs. Il y a très peu d'information concernant la résistance contre les PI pour tous les autres sous-types (non-B), bien qu’ils représentent environ 90% d'infections mondiales. Les sous-types non-B, notamment les sous-types A, C et F sont prévalents dans les pays de l’Afrique, l’Asie et l’Amérique du Sud. Certaines des mutations conférant une résistance aux sous-types B constituent des polymorphismes naturels de sous-types non-B, et il n’est pas connu à ce jour si ces variantes de VIH-1 non-B ont une susceptibilité diminuée vis-à-vis de PI connus. Dans la première partie de cette thèse on a abordé la problématique des variantes de VIH-1 en s’appuyant les propriétés structurales. Comme il manquait des informations au niveau des structures tridimensionnelles des protéases des sous-types non-B, il a été nécessaire de construire différents modèles de chaque sous-type en utilisant la modélisation moléculaire par homologie, en se basant sur une structure d’une protéase de sous-type B. Les structures des modèles de complexes générées nous ont permis de mieux analyser les altérations des interactions PR-PI dues aux différentes mutations à la base de la résistance. viii Des simulations de dynamique moléculaire exploratoires effectuées sur des modèles de PR non-B ont montré que les liaisons d'hydrogène et les interactions électrostatiques entre les PR et les PI sont beaucoup plus faibles dans les PRs non-B que dans les PR B. Dans les simulations de PR non-B, les PI ont une plus grande flexibilité, principalement au niveau des groupes qui interagissent avec les résidus catalytiques. Il est aussi à noter qu'une région importante, notamment les ‘flaps’, constitués chacun d’un petit feuillet beta antiparallèle, contrôlent l’accès à la cavité catalytique en adoptant des formes fermées, ouvertes et semi-ouvertes. Ils forment de multiples interactions avec le substrat ou bien l’inhibiteur, lorsqu’ils se trouvent dans la cavité. Ces ‘flaps’ présentent des déviations plus élevées dans les sous-types non-B comparativement au sous-type B. Les ‘flaps’ sont très importants pour la fonction des PR et constituent une région cible importante pour le développement de nouvelles drogues. La région des ‘flaps’ est la plus flexible de la PR et l’analyse des structures obtenues par diffraction des rayons-X montre que cette région présente des différences structurales plus importantes entre les structures avec ligand (fermées) et libres (semi-ouverte, ouverte). Dans la deuxième partie de cette thèse nous avons étudié d’une façon très étendue la flexibilité des ‘flaps’, ainsi que tous les mouvements collectifs importants de la protéine qui pourraient influer sur les mouvements des ‘flaps’, ainsi que sur les modifications de la cavité catalytique (volume, forme, positionnement des résidus dans la cavité). Dans ce but, nous avons développé une méthode pour analyser les mouvements des domaines. Comprendre la flexibilité des protéines est essentielle pour l'étude des processus dépendant de grands changements conformationnels, les transitions entre les états actifs et non actifs ou des mouvements de domaine. L’Analyse des modes normaux (NMA) est bien adaptée pour l'étude des mouvements des protéines à grande échelle, de déterminer les directions de plus basses courbures sur la surface d'énergie potentielle. Cependant, sa principale limitation est sa validité stricte pour les mouvements des petites amplitudes autour d'une structure localisée dans un minimum de cette surface. L'importance / généralité d'un ensemble de modes normaux (NM) se rapportant à une ix structure particulière peut donc être remise en question. Dans cette deuxième partie nous décrivons un nouveau cadre théorique pour la définition de modes normaux d'un ensemble de structures étroitement liées, que nous appelons «modes consensos» (CM). Le calcul des CM suppose que la surface d'énergie potentielle peut être mieux exploitée en considérant les propriétés topologiques des multiples minima. Nous définissons les CM comme un ensemble de modes qui décrivent les mouvements collectifs qui sont les plus fréquentes parmi les modes normaux calculés sur différentes conformations d'une macromolécule. Nous avons adopté la forme apo de la protéase du VIH-1 (PR) pour démontrer notre approche. On a montré que les CM calculés sur un ensemble de structures obtenues à partir d'une simulation de dynamique moléculaire fournissent une meilleure description des mouvements internes d’une protéine, correspondant en quelque sorte à une "moyenne" sur l’ensemble des modes normaux de structures individuelles. Ils décrivent des propriétés correspondant aux échelles de temps d'un ordre de grandeur plus grand que celle de la trajectoire à partir de laquelle ils ont été obtenus. Nous avons identifié au sein de CM, des mouvements biologiquement pertinents comme l'ouverture et fermeture des ‘flaps’ de la PR, expliquant les changements structuraux qui se produisent lors de liaison du ligand des inhibiteurs de différentes formes et tailles. De cette thèse a résulté trois articles, deux déjà publiés dans des journaux internationaux de grand qualité et le troisième qui porte sur le développement des modes consensos est en cours de soumission. Les trois articles ont été ajoutés dans les annexes. x Lista de abreviaturas e siglas 3D AIDS CM CO CPU Cα-CM DNA FDA HAART HAP HIV IUPAC LIE MD MM MMC MSA NM NMA OMS PBC PCA PDB PI Plm PlmN PME PR RAM RMN RMSD RMSF RNA RT RTV SAS SIV SW Tridimensional Síndrome de Imunodeficiência Adquirida Modos Consensos Overlap cumulative Unidade Central de Processamento Modos Consensus considerando somente os carbonos alfa ácido desoxi ribonucléico U. S. Food and Drug Administration Terapia Antiretroviral de alta eficência protease histo-aspártica – PlmIII Vírus da Imunodeficiência Humana International Union of Pure and Applied Chemistry Linear Interaction Energy Dinâmica molecular Modelagem Molecular Modelagem Molecular Comparativa alinhamento múltiplo de seqüências modos normais Análise dos modos normais de vibração Organização Mundial de Saúde Condições periódicas de contorno Análise dos Componentes Principais Protein Data Bank inibidor da PR Plasmepsina plasmepsina N, onde N vai de I a X Particle Mesh Ewald Protease do HIV-1 Memória de Acesso de Leitura Ressonância Magnética Nuclear Desvio da Raíz Média Quadrática Flutuação da Raíz Média Quadrática ácido ribonucléico Transcriptase reversa Ritonavir Superfície accessível ao solvente Vírus da imunodeficiência de símios água estruturada xi 13 SUMÁRIO CAPÍTULO I ..................................................................................... 16 Introdução Geral .............................................................................................. 16 1.1. A Modelagem Molecular no contexto biológico.......................................................16 1.3. Por que simular? ........................................................................................................ 19 1.4. Estruturação da tese................................................................................................... 21 CAPÍTULO II .................................................................................... 23 Métodos Teóricos Fundamentais ..................................................................... 23 1. Modelagem molecular ................................................................................. 23 1.1. Dinâmica molecular (MD) ........................................................................................ 23 1.2. Função Energia Potencial .......................................................................................... 24 1.3. Modelagem Molecular Comparativa.........................................................................26 1.4. Condições periódicas de contorno............................................................................. 27 2. Análise dos modos normais de vibração (NMA) ........................................ 30 2.1. Cálculo dos modos normais.......................................................................................33 3. Técnicas de Análises dos resultados............................................................ 35 3.1. Raiz do Desvio Quadrático Médio (RMSD) ............................................................. 35 3.2. Flutuação da Raíz do Desvio Quadrático Médio....................................................... 35 3.3. Ligações Hidrogênio ................................................................................................. 35 14 3.4. Energia Livre de Gibbs de Ligação ........................................................................... 36 CAPÍTULO III................................................................................... 38 Estudo de proteases aspárticas por Modelagem e Dinâmica Molecular ......... 38 1. Introdução .................................................................................................... 39 1.1. Proteases Aspárticas .................................................................................................. 39 1.2. Plasmepsinas..............................................................................................................43 1.3. Protease do HIV ........................................................................................................ 48 1.4. Subtipos do HIV-1..................................................................................................... 57 2. Resultados e Discussão................................................................................ 61 2.1. Subtipos da Protease do HIV-1 complexada ao ritonavir ......................................... 61 2.2. Predição por Dinâmica Molecular dos resíduos funcionais na interação de inibidores com plasmepsinas de P. falciparum ................................................................................. 65 CAPÍTULO IV .................................................................................. 71 Modos Consensus, desenvolvimento e validação de um novo método para o estudo de movimentos coletivos em macromoléculas..................................... 71 1. Introdução .................................................................................................... 72 2. Teoria ........................................................................................................... 77 3. Objetivos ...................................................................................................... 79 4. Procedimentos e Metologia Aplicada.......................................................... 80 4.1. Parâmetros das simulações de MD............................................................................ 80 15 4.2. Cálculo dos Modos Normais ..................................................................................... 81 4.3. Cálculo dos modos consensus ................................................................................... 82 4.4. Cálculo dos modos Quasi-harmônicos (quasimodos) ...............................................82 4.5. Overlap entre os CM e outros movimentos...............................................................83 4.6. Grau de coletividade de um movimento....................................................................83 4.7. Data sets para Análise dos Componentes Principais (PCA) ..................................... 84 5. Resultados e Discussões .............................................................................. 85 5.1. Dinâmica Molecular .................................................................................................. 85 5.2. Os modos consensus refletem o comportamento da média do sistema..................... 89 5.3. Modos consensus descrevem um espaço conformacional mais completo para a descrição de movimentos de grande amplitude................................................................90 5.4. CM calculados de estruturas do 1 ns da MD são mais coletivos que os quasimodes de uma trajetória de MD de 10 ns .................................................................................... 92 5.5. Versatilidade em calcular os CM para diferentes subconjuntos de átomos .............. 93 5.6. Movimentos biologicamente relevantes descritos pelos CM .................................... 95 6. Conclusões ................................................................................................... 99 V. CONCLUSÕES GERAIS ........................................................... 101 VI. REFERÊNCIAS ........................................................................ 103 VII. ANEXOS.................................................................................. 122 16 “O medo de amar é o medo de ser livre para o que der e vier, Livre para sempre estar onde o justo estiver. O medo de amar é não arriscar, esperando que façam por nós o que é nosso dever, recusar o poder...” (Beto Guedes) CAPÍTULO I Introdução Geral 1.1. A Modelagem Molecular no contexto biológico A biologia é um ramo do conhecimento que exerce grande fascínio em todos que nela se aprofundam, pois tenta explicar os fenômenos ligados à vida e à sua origem. Inicialmente, a biologia tinha um caráter mais contemplativo e descritivo da natureza, no entanto, hoje, os diversos avanços tecnológicos têm permitido um estudo mais investigativo e detalhado dos seres vivos e dos processos biológicos. Criar modelos vem sendo um grande desafio em todas as áreas da ciência (matemática, economia, biologia, química, etc). Para buscar o entendimento de um problema, baseado no método científico, faz-se necessário estabelecer modelos de estudo, normalmente criando um sistema mais simples, onde as variáveis não relacionadas diretamente ao fenômeno estudado são controladas, dentro do possível, obtendo-se um sistema mais adequado para responder às perguntas relacionadas à hipótese em questão. Sabe-se, porém, que mesmo em estudos em biologia experimental, estes modelos podem afastar-se do contexto real (fisiológico), mas que guardando o devido grau de aproximação, podem levar ao entendimento de vários processos e sistemas biológicos. 17 Modelagem molecular, segundo a IUPAC, é a investigação das estruturas e das propriedades moleculares pelo uso de química computacional e técnicas de visualização gráfica, visando fornecer uma representação tridimensional, sob um dado conjunto de circunstâncias. 1.1.2. Interdisciplinaridade Modelagem molecular é um termo coletivo que se refere aos métodos teóricos e técnicas computacionais para modelar ou mimetizar o comportamento das moléculas. As técnicas são usadas em campos da química, física, biologia, farmácia, computação e ciência dos materiais; para estudar sistemas moleculares oriundos de pequenos grupos químicos a grandes moléculas biológicas e materiais. A existência de propriedades físico-químicas bem definidas da matéria e suas previsões através das leis da física conferem à química computacional o caráter científico. Este fato permite criar modelos capazes, em certa extensão, de agrupar, prever e desenvolver novos materiais. A aplicação de modelos teóricos para representar e manipular a estrutura de moléculas, estudar reações químicas e estabelecer relações entre a estrutura e propriedades da matéria constituem o domínio de atuação da modelagem molecular. A química teórica vai além deste limite, tendo também como função o desenvolvimento de novos modelos. As ramificações dentro desta ampla área de atuação se dão em função da natureza física do modelo utilizado e, evidentemente, do problema em questão. A utilização de modelos para a descrição de propriedades da matéria leva a possibilidade de se cometer erros devido às aproximações impostas para simplificar o mundo real. Dentro deste contexto, é importante frisar a diferença entre ‘teoria’ e ‘modelo’. Por teoria entende-se um conjunto de leis capazes de fornecer resultados e conclusões a partir de um 18 número de variáveis conhecidas. Normalmente, espera-se que as teorias se apliquem com a precisão definida pelos próprios limites da natureza. Por outro lado, os modelos têm por objetivo descrever aspectos específicos de certas propriedades do sistema (Dos Santos, H. F., 2001). De uma forma geral, todo tipo de estudo que envolve a aplicação de modelos teóricos utilizando os conceitos de átomo e molécula na descrição de estrutura e propriedades de interesse em química pode ser classificado como modelagem molecular. Uma abordagem histórica sobre este tópico tem como princípio a representação de moléculas através de fórmulas estruturais, estabelecida pela primeira vez em 1874 com a descoberta do arranjo tetraédrico dos átomos de carbono em compostos orgânicos por van’t Hoff e Le Bel (Chagas, A. P., 2001). Quase um século depois, em 1953, Barton introduziu o conceito de análise conformacional, estabelecendo, de forma definitiva, que moléculas podem ser representadas por diferentes arranjos atômicos espaciais, possuindo energias características (Barton, D. H. R., 1998). A segunda metade da década de 50 foi marcada pelo desenvolvimento da cristalografia e difração de raios-X e da Ressonância Magnética Nuclear (RMN). A elucidação de estruturas tridimensionais através de técnicas experimentais possibilitou a obtenção de parâmetros estruturais, como comprimentos e ângulos de ligação, e também a definição de propriedades atômicas como o raio de van der Waals. Com isso foi possível construir modelos simples para representar a estrutura tridimensional de moléculas em escalas relativas reais. Essa representação de estruturas (3D) fornece uma descrição qualitativa e, em algumas situações, semiquantitativa das propriedades da matéria. Por exemplo, a análise da estabilidade relativa entre diferentes conformações da molécula não poderia ser feita de forma quantitativa utilizando apenas fórmulas estruturais (Dos Santos, H. F., 2001). Uma outra limitação destes modelos é com relação à determinação de propriedades eletrônicas como potencial eletrostático, momento de dipolo elétrico, cargas formais e 19 propriedades espectroscópicas. Neste sentido, visando representar a matéria de maneira completa e quantitativa, os fundamentos da física clássica e quântica começaram a ser implementados com o objetivo de descrever sistemas e processos de interesse para a química. Esta parte da história, que começa no final da década de 60, teve um desenvolvimento relativamente rápido em função do aprimoramento tecnológico dos computadores. Pesquisadores como Allinger, Dewar, Kohn, Pople, Stewart e Zerner, entre outros, empenharam-se no desenvolvimento e implementação de teorias em programas de computador, tornando-as acessíveis à comunidade química de uma forma geral (Dos Santos, H. F., 2001). Com isso, surgiu um novo campo de atuação dos químicos, caracterizado como química computacional e modelagem molecular. O reconhecimento desta nova área de pesquisa pelo mundo científico veio com o prêmio Nobel de Química em 1998 concedido a John Pople e Walter Kohn, pelas contribuições no desenvolvimento da química computacional e modelagem molecular (Freitas, L. C. G., 1998). 1.3. Por que simular? A revolução na biologia molecular e nas técnicas, tanto experimentais como computacionais, levou a um incrível avanço em diversas áreas da biologia estrutural, nas últimas décadas. O aumento do poder computacional permitiu um grande desenvolvimento da Dinâmica Molecular (MD) na simulação de sistemas biológicos como proteínas, carboidratos e ácidos nucléicos. A primeira simulação de MD de proteínas foi feita pelo famoso biofísico computacional Martin Karplus em 1976, quando simulou a dinâmica de enovelamento de peptídeos (Karplus, M. et al., 1976). Nesse mesmo ano, um estudante de seu laboratório, McCammon, estudou os movimentos internos da lisozima (Mccammon, J. A. et al., 1976). Um ano depois, foi publicado um importante trabalho onde foi realizada a MD de proteínas partindo da estrutura enovelada, visando estudar a dinâmica dos movimentos internos dessas proteínas (Karplus M., et al. 1977). 20 Cada vez mais a MD tem sido utilizada como ferramenta para explorar os movimentos de proteínas de estruturas conhecidas, salientando que o conhecimento estrutural é muito importante. Isto deve-se ao fato de as proteínas e outras macromoléculas não serem entidades estáticas e precisarem se movimentar para interagir com outros ligantes e exercer assim o seu papel biológico. Os aspectos dinâmicos de proteínas vêm sendo alvo de muito estudo nos últimos 30 anos. Nesta tese esses aspectos serão bastante explorados, culminando na proposta de uma nova metodologia para abordagem de movimentos de larga escala em macromoléculas, apresentada no capítulo quarto. O desenvolvimento da metodologia de análise dos modos normais de vibração (NMA) no final da década de 70 e início de 80 (Mccammon, J. A. et al., 1976; Karplus, M. et al., 1981; Levy, R. M. et al., 1982; Brooks, B. et al., 1983; Levy, R. M. et al., 1984; Levitt, M. et al., 1985), juntamente com o avanço computacional e da capacidade de processamento, foram de muita importância para o entendimento dos movimentos moleculares de proteínas, de domínios ou até mesmo complexos moleculares. Os potenciais moleculares usados nos campos de forças desenvolvidos para descrever o mundo atômico na modelagem molecular (que serão tratados em detalhes no capítulo segundo) também foram aprimorados e baseados/ajustados com parâmetros experimentais cada vez mais precisos. Esses potenciais vêm possibilitando a utilização dessas técnicas computacionais para prever e analisar movimentos coletivos de proteínas que estão frequentemente associados à função protéica (Huber, R. et al., 1983; Sinha, N. et al., 2002a; Liu, H. et al., 2008). De uma forma geral, tanto a MD quanto a NMA apresentam um índice de sucesso bastante alto quando estão suportadas por resultados/conhecimentos experimentais. O estudo de propriedades muito complexas, como a flexibilidade de proteínas, é bem mais facilmente compreendido quando são utilizadas diferentes ferramentas e metodologias para elucidar este problema biológico. 21 1.4. Estruturação da tese Esta tese foi organizada em capítulos, mostrando a evolução do trabalho durante o período de doutoramento. O segundo capítulo trata da metodologia de forma mais generalizada, pois as metodologias e procedimentos adotados nos subsequentes capítulos estarão em destaque dentro dos mesmos. O capítulo terceiro aborda mecanismos moleculares da inibição de proteases aspárticas envolvidas em doenças negligenciadas, como AIDS por HIV não-B e malária. Trata-se de dois diferentes estudos: o primeiro é resultado do aprofundamento do trabalho da minha dissertação de mestrado e envolve o estudo da protease do HIV-1 de diferentes subtipos, quando complexada ao inibidor ritonavir, utilizando a metodologia de Modelagem e Dinâmica Molecular (MD). Este estudo resultou em uma publicação de artigo completo (Anexo 1) no periódico internacional Cell Biochemistry and Biophysics (Batista, P. R. et al., 2006; Liu, H. et al., 2008), onde importantes diferenças entre os subtipos foram destacadas, incluindo diferenças na flexibilidade de uma região da protease do HIV-1 (PR), a região das alças. O trabalho mostra que essas diferenças levam à menor eficiência do fármaco na inibição da protease dos subtipos não-B do HIV-I estudados. Os fármacos do coquetel antiAIDS foram desenvolvidos com foco no subtipo-B do vírus, que é prevalente nos Estados Unidos e Europa. No entanto, o majoritário no mundo é o subtipo C, sendo importantes também outros subtipos. Como os subtipos não-B são prevalentes em países do terceiro mundo, enquadram-se no problema da “Falha de Mercado”, ou seja, pertencem a regiões do planeta com pouco poder aquisitivo e que a indústria farmacêutica vê como menos atrativas. Nesse contexto, estão as doenças negligenciadas. No mesmo capítulo da tese, o de número três, é também apresentado, resumidamente, um estudo de proteases aspárticas do Plasmodium falciparum, chamadas plasmepsinas, em complexo com inibidores, para o entendimento dos resíduos chaves nessa interação, 22 utilizando também a técnica de modelagem e dinâmica molecular. Este estudo veio como resultado de colaboração com um professor da Universidade de Havana (Cuba) através de um estágio doutoral em nosso laboratório no Brasil, professor Pedro Alberto Valiente Flores. Os resultados dessa cooperação foram publicados em um artigo (Anexo II) do qual sou coautor, na revista internacional Proteins – Strucutre, Function and Bioinformatics (Valiente, P. A. et al., 2008). Apesar do foco desta tese ser a protease do HIV-I, outra aspartil protease que apresenta grande similaridade estrutural, a inclusão desse trabalho sobre plasmepsinas do P. falciparum como anexo é justificada pelas técnicas de modelagem e bioinformática desenvolvidas e aplicadas durante o doutorado. No capítulo seguinte, o quarto, uma nova técnica para estudo de movimentos de larga escala é apresentada. Movimentos de domínios de proteínas acontecem numa escala de tempo que pode ser de alto custo computacional para serem explorados por MD. Existe em particular uma técnica chamada de análise dos modos normais de vibração (NMA) que explora justamente os movimentos coletivos, geralmente os de grande amplitude. Um dos desenvolvedores desta técnica para o estudo de proteínas, meu orientador no exterior Prof. David Perahia, me convidou para um estágio doutoral em seu laboratório na França, que culminou com a realização desta tese em cotutela entre as universidades francesa e brasileira. Deste aprendizado de mais de um ano em seu laboratório, sempre buscando entender esses movimentos importantes que as proteínas precisam fazer para interagir com outras moléculas, desenvolvemos, com a orientação do Prof. David Perahia, uma nova metodologia que usa resultados da MD de uma proteína (no caso o objeto de estudo é a protease do HIV-1) com a NMA. Esta metodologia determina então os modos consensus (CM), que mostram características melhoradas em relação aos modos normais convencionais. O capítulo quarto descreve em detalhes o desenvolvimento desta nova metodologia aplicada à protease do HIV. 23 “Eu não sei fazer música, mas eu faço Eu não sei cantar as músicas que faço, mas eu canto Eu não tenho certeza, mas eu acho... Ninguém sabe nada, ninguém sabe nada...” (Arnaldo Antunes) CAPÍTULO II Métodos Teóricos Fundamentais 1. Modelagem molecular 1.1. Dinâmica molecular (MD) Na dinâmica molecular (MD) é calculada a força Fi que atua sobre cada átomo i, (i = 1, 2, 3, ..., até N, o número total de átomos do sistema) a partir da derivada da função energia potencial E, que descreve a interação entre os átomos, em relação a sua posição ri: Fi = - ∂E(ri/∂ri) A aceleração a que cada átomo está submetida é obtida dividindo-se a força Fi pela massa mi: ai = Fi/mi Em seguida, para determinar a propagação das posições em incrementos de tempo δt, ou seja, a trajetória das partículas no tempo, substitui-se a aceleração no algoritmo de Verlet (Verlet, L., 1967): ri(t + δt) = 2ri (t) - ri(t - δt) + ai (t) δt2 A predição das novas posições no instante t+δt são computadas somente a partir das posições nos instantes t e t - δt e das forças Fi sobre cada partícula no instante t. Porém, as 24 velocidades são necessárias para o cálculo da energia cinética que, somada à energia potencial, resulta na energia total do sistema. Elas são obtidas a partir do algoritmo de Verlet para a propagação das velocidades: vi(t) = [ri(t + δt) - ri(t - δt)]/2δt As velocidades são também necessárias para o cálculo da temperatura do sistema, que é definida em termos da energia cinética média. Um algoritmo mais estável usado em nossas simulações foi derivado do algoritmo de Verlet, denominado “leapfrog”, ou “summed Verlet” (Verlet, L., 1967) em que: ri(t + δt) = ri(t) + vi(t + δt/2) δt , e vi(t + δt/2) = vi(t - δt/2) + ai(t) δt . As simulações por MD utilizam, assim, as equações da mecânica clássica, ou seja, as equações de Newton, para cada partícula e em cada incremento no tempo. O processo mais dispendioso computacionalmente é, em geral, a avaliação das forças para obtenção das acelerações. O tempo gasto no cálculo dessas forças depende da complexidade da função de energia potencial de interação entre as partículas, como será descrito a seguir. Em sistemas moleculares as funções potenciais mais realistas são compostas de diversos termos. Na MD são tomadas as derivadas espaciais de cada termo e somadas para se obter a força resultante e a aceleração, sobre cada átomo e a cada novo conjunto de coordenadas. As acelerações são inseridas no algoritmo de Verlet, ou em um similar, para a predição das novas posições e em seguida o processo se repete (Pascutti, P. G., 2002). 1.2. Função energia potencial Um sistema molecular seria descrito mais precisamente pela resolução quantomecânica do problema para cada geometria. Porém, o elevado número de átomos das macromoléculas biológicas e as atuais limitações computacionais requerem a sua representação física através de uma função potencial relativamente simples, descrevendo de forma clássica a interação entre as unidades atômicas. 25 Em MD e cálculos de mecânica molecular, as interações intra e intermoleculares são calculadas de uma forma simplificada utilizando uma parametrização empírica. Esses parâmetros incluem as massas dos átomos, cargas, ângulos, diedros, potenciais entre átomos não ligados (van der Waals e interações eletrostáticas), etc. Freqüentemente o conjunto desses parâmetros de ajuste, juntamente com as respectivas funções, é denominado como “campo de forças molecular” (Brooks, C. L. et al., 1988; Van Gunsteren, W. F. et al., 1990). A partir dessas forças, resolvem-se as equações do movimento para descrever como as posições atômicas variam com o tempo. A cada passo da dinâmica as forças são então reavaliadas. Diversas funções potenciais têm sido propostas na literatura (Brooks, B. R. et al., 1983; Weiner, S. J. et al., 1984; Weiner, S. J. et al., 1986; Van Gunsteren, W. F. et al., 1987; Clark, M. et al., 1989). Como fatores comuns entre elas aparecem termos harmônicos para descrever ligações covalentes entre pares de átomos e ângulos entre ligações químicas vizinhas, um termo torcional para descrever rotações em torno de ligações e termos que descrevem interações entre átomos não ligados. Desta forma, os termos combinados para energia potencial compõem a equação do campo de forças. Quatro termos tratam das interações entre átomos ligados e respondem por interações que, de outra forma, seriam em nível quântico (como, por exemplo, ns ligações químicas covalentes). Os termos de Lennard-Jones e de Coulomb, ainda que simplificados, tratam das interações de longa distância, entre átomos distantes quatro vizinhos ou mais e, com um tratamento especial para o terceiro, pela redução do diâmetro da esfera de Van der Waals para evitar colisões estéricas. Todos estes potenciais atuam de forma independente um dos outros e sobre todos os átomos do sistema, como descrito na equação a seguir: 26 E = Eb + Eθ + Eφ + Eω + EvdW + Eel onde cada termo é descrito: potencial de ligação: Eb = 1N kbn ( rn − ron )2 ∑ 2 n =1 b 1 Nθ potencial de ligação angular: Eθ = ∑ kθ n (θ n − θon )2 2 n =1 1 Nω potencial torcional imprópria: Eω = ∑ kω n (ω n − ωon )2 2 n =1 Nφ potencial diedral angular: Eφ = ∑ kφ n [1 + cos(mnφn − δ n )] n =1 ⎛A B ⎞ potencial de Lennard-Jones: EvdW = ∑ ⎜ 12ij − 6ij ⎟ ⎜ rij ⎟⎠ i < j ⎝ rij N* N* potencial eléctrostática: Eel = ∑ qi q j i< j 4πεε o rij Aceitando-se as limitações que um campo de forças clássico oferece, tais como o fato de não se poder simular reações químicas e transições de fase, como o congelamento da água, este responde muito bem às simulações de dinâmica de macromoléculas. 1.3. Modelagem molecular comparativa Na ausência de estrutura determinada experimentalmente, a modelagem molecular comparativa (MMC) ou por homologia pode algumas vezes providenciar um modelo 3D útil para o estudo da proteína que está relacionada à pelo menos uma estrutura conhecida. A MMC prediz a estrutura 3D de uma seqüência (seqüência alvo) baseada, primeiramente, no seu alinhamento com uma ou mais proteínas de estrutura semelhante. O processo de predição consiste no alinhamento entre o alvo e a referência, determinação do enovelamento, construção e avaliação do modelo. O número de seqüências de proteína que podem ser modeladas por homologia, bem como a acurácia destas predições, crescem de 27 acordo com o número de estruturas conhecidas depositadas nos bancos de dados, mas crescem também devido ao melhoramento nos algoritmos de comparação. 1.4. Condições periódicas de contorno Nos modelos matemáticos e simulações computacionais, condições periódicas de contorno (PBC) formam um conjunto de condições de fronteira que são muitas vezes utilizadas para simular um grande sistema modelando uma pequena parte que está longe de sua borda. Em uma simulação de dinâmica com moléculas de água explícitas, o problema dos efeitos de bordas pode ser evitado com o uso de PBC (Born, M. et al., 1912). As PBC assemelham-se a topologias de alguns jogos de vídeo game; consistem em uma célula unitária ou caixa de simulação definida com uma perfeita geometria tridimensional: quando um objeto passa por um lado da célula unitária, ele reaparece na face oposta com a mesma velocidade (Fig. II.1). As cópias da unidade celular são chamadas de imagens, que são infinitas. Durante a simulação, apenas as propriedades da unidade celular precisam ser registradas e propagadas. 28 Fig. II.1. A figura ilustra o conceito de condições periódicas de contorno em simulações de MD. A caixa sombreada representa o sistema que estamos simulando (real), enquanto que as caixas ao redor são cópias exatas em cada detalhe - cada partícula na caixa de simulação tem uma duplicata exata em cada uma das células circundantes. Mesmo a velocidades (indicada pelas setas) são as mesmas. Este arranjo é imaginado para preencher a totalidade do espaço. Um resultado disto é que sempre que um átomo simulação deixa a célula, ele é substituído por outro com exatamente a mesma velocidade, entrando a partir da célula face oposta. Portanto, o número de átomos na célula é conservada. Além disso, não sente qualquer força de superfície, uma vez que estas estão agora completamente removidas. rcut é o raio de corte, que é normalmente aplicado no cálculo da força entre dois átomos. Um átomo pode interagir com átomos vizinhos em uma célula imagem, por estar dentro do raio de corte. No entanto deve-se ignorar suas imagens equivalentes em outras células de simulação. Isto faz com que um átomo não “enxergue” as suas próprias imagens. 1.4.1. PBC: requisitos e artefatos PBC são particularmente úteis para simular uma parte essencial de um sistema sem superfícies presentes. Além disso, em simulações de superfícies planas, é muito útil para simular duas dimensões (por exemplo, x, y), com períodos de fronteiras, deixando a terceira direção (z) com diferentes condições de contorno. PBC podem ser usadas em conjunto com métodos de soma de Ewald [geralmente PME (do inglês “Particle Mesh Ewald”)] de contabilização de forças eletrostáticas no sistema. No entanto, as PBC introduzem também artefatos que não respeitam a invariância 29 translacional do sistema, e exigem restrições na composição e no tamanho da caixa simulação (Cheatham, T. E., Iii et al., 1995). Nas simulações de sistemas sólidos, influências decorrentes de qualquer heterogeneidade do sistema serão artificialmente truncadas e alteradas pelas condições de fronteira periódicas. Do mesmo modo, o comprimento de onda do som nesse sistema é limitado pelo tamanho da caixa. Nas simulações contendo interações iônicas entre as partículas (Coulomb), a carga eletrostática líquida do sistema deve ser igual a zero, para evitar a soma infinita de uma carga, quando as PBC são aplicadas. Em algumas aplicações, é adequado obter a neutralidade do sistema por adição de íons como o sódio ou cloro (como contra-íons) em um número adequado, se as moléculas de interesse são carregadas. Íons podem ser adicionados a um sistema no qual as moléculas de interesse são neutras, para aproximar a força iônica da solução na qual as moléculas naturalmente aparecem. Para a manutenção da convenção da mínima imagem, também requer que o raio de corte esférico (rcut) para interações e forças entre átomos não ligados diretamente tenha, no máximo, metade do comprimento do menor lado da caixa de simulação. A convenção de imagem mínima é uma forma comum de representação das PBC, onde cada partícula individual na simulação interage somente com a imagem mais próxima do restante das partículas no sistema. O tamanho da caixa de simulação também deve ser grande o suficiente para prevenir a ocorrência de artefatos periódicos devido à topologia não física da simulação. Em uma caixa muito pequena, uma macromolécula pode interagir com a sua própria imagem em uma célula vizinha, podendo dar um falso efeito de concentração elevada. 30 2. Análise dos modos normais de vibração (NMA) O estudo teórico da dinâmica de proteínas envolve o cálculo e análise de trajetórias como no caso da MD, onde as posições e velocidades atômicas são resolvidas como função do tempo, dadas pela solução numérica das equações de movimento de Newton, usando potenciais com precisão atomística. Em princípio, a MD é uma poderosa ferramenta para simular movimentos protéicos realísticos, principalmente quando as moléculas de água são incluídas explicitamente no cálculo. Porém a MD possui uma limitação principal: o tempo de integração (Δt), ou seja, o intervalo de tempo entre um passo e outro tem de ser muito pequeno (0,5 fs), curto o suficiente para descrever oscilações de ligações entre átomos pequenos (como o H), para que se possa prever a trajetórias desses átomos através das equações de movimento. Este valor pode ser aumentado para 2 fs, no caso de se utilizar algorítimos de vínculos como SHAKE (Ryckaert, J.-P. et al., 1977) e LINCS (Hess, B. et al., 1997), que consideram que as direções das velocidades entre átomos covalentemente ligados devem estar acopladas, não sendo independentes, restringindo assim os comprimentos das ligações entre esses átomos. Outros artifícios podem ser utilizados chegando-se a um Δt de até 10 fs; ainda assim é um intervalo de tempo bastante reduzido, necessitando de no mínimo 10 milhões de passos, cada passo calculando as interações de cada átomo com todo o sistema, para simular 10 nanossegundos dos movimentos do sistema. De uma forma geral, a NMA usa os mesmos parâmetros do campo de forças que a MD. Porém na MD as equações são resolvidas numericamente em função do tempo, gerando uma trajetória. No caso da NMA, as equações são resolvidas analiticamente, e como resultado obtemos os modos normais, que são as direções dos movimentos e suas respectivas frequências. A informação de escala de tempo está contida no valor da frequência para cada movimento harmônico. 31 A superfície de energia potencial conformacional para macromoléculas é extremamente complexa (como pode ser visto na figura II.2A) e precisa de potenciais e um campo de forças bem acurado para sua correta representação. A NMA se baseia no princípio da observação de que essa superfície de energia em regiões próximas ao mínimo de energia apresenta uma forma relativamente simples, como representado na figura II.2 B, que pode ser aproximada por uma função quadrática. Por exemplo, em uma superfície hipotética SUPERFÍCIE DE ENERGIA POTENCIAL REAL A Equações de movimento são resolvidas numericamente coordenadas representada em duas dimensões, sua forma poderia ser representada por uma parábola. trajectory trajetória tempo APROXIMAÇÃO QUADRÁTICA DA SUPERFÍCIE DE ENERGIA POTENCIAL B q1 Equações de movimento são resolvidas analiticamente q2 Análise de modos normais coordenadas coordenadas Simulação de Dinâmica Molecular frequência frequency ω1 time frequência frequency ω2 tempo Fig. II.2. Em A, representação esquemática da superfície real da energia potencial configuracional e duas dimensões para uma proteína hipotética, apresentando um comportamento complexo, que pode ser representado pelos potenciais empíricos em simulações de MD, onde as equações de movimento são resolvidas numericamente, gerando uma trajetória no tempo. Já no caso dos modos normais, baseado na observação de que o comportamento da superfície energética em regiões próximas ao mínimo pode ser aproximado por uma função quadrática, resolvem-se as equações de movimento de newton de forma analítica, obtendo modos vibracionais de diferentes frequências baseados na curvatura dessa superfície na região de mínimo de energia. Estudos comparativos entre MD e NMA (ou dinâmica molecular harmônica) de um polipetídeo em hélice-α mostraram que essas duas metodologias geram resultados 32 equivalentes quando as simulações são feitas à baixa temperatura. Este estudo demonstrou que a MD se desvia do comportamento harmônico com o aumento da temperatura, que introduz anarmonicidade ao sistema, se desviando do comportamento quadrático (Levy, R. M. et al., 1982). NMA tem sido usada extensivamente na química, já na década de 1950, a teoria dos modos normais foi aplicada à pequenas moléculas com ótimo poder preditivo em reproduzir o espectro vibracional dessas moléculas (E. Bright Wilson, Jr. et al., 1955; Koichi Itoh, T. S., 1970). Suas primeiras aplicações em macromoléculas vieram 30 anos após, usando parâmetros empíricos, os mesmos usados em simulações de MD (Mccammon, J. A. et al., 1976; Karplus, M. et al., 1981; Levy, R. M. et al., 1982; Brooks, B. et al., 1983; Levy, R. M. et al., 1984; Levitt, M. et al., 1985). NMA tem sido mais bem sucedida para o estudo de grandes rearranjos moleculares que a MD e é muito menos custosa computacionalmente, demandando menos tempo de CPU (no entando utiliza muito mais memória RAM). A aplicação da NMA em proteínas é baseada na hipótese de que os modos normais vibracionais de mais baixa frequência (também chamados de soft modes) descrevem os movimentos de grande amplitude de uma proteína e são aqueles que são funcionalmente relevantes. Muitas ferramentas vêm sendo desenvolvidas e aplicadas com sucesso para predizer movimentos coletivos, de grande amplitude, desde proteínas pequenas a grandes “máquinas moleculares”: ex. lisozima (Brooks, B. et al., 1985; Levitt, M. et al., 1985; Jean-François Gibrat, N. G. et al., 1990; Steven Hayward, A. K. H. J. C. B., 1997), protease do HIV-1 (Zoete, V. et al., 2002), aspartato transcarbamilase (Aline Thomas, K. H. M. J. F. D. P., 1999), miosina (Adamovic, I. et al., 2008), integrinas (Gaillard, T. et al., 2007), Ca-ATPase (Reuter, N. et al., 2003), F1-ATPase (Cui, Q. et al., 2004), chaperonina GroEL (Zheng, W. et al., 2007), capsídeos virais (Kim, M. K. et al., 2003; Tama, F. et al., 2005), ribossoma (Zheng, W. et al., 2003). Nos últimos anos, o uso da NMA para o 33 estudo de dinâmica de biomoléculas vem se tornando cada vez mais popular. O baixo custo computacional dos principais métodos simplificados de NMA tem contribuido para o desenvolvimento de servidores web para fazer cálculos e análises de modos normais partindo de uma simples estrutura submetida por um usuário normal com um web browser. 2.1. Cálculo dos modos normais A análise dos modos normais (NMA) é uma técnica para se investigar os modos vibracionais de um sistema harmônico oscilante na vizinhança de um ponto de equilíbrio. Os movimentos estudados são de pequena amplitude num poço de potencial e não podem ultrapassar barreiras energéticas (Skjaerven, L. et al., 2009). Um sistema é definido como estando no equilíbrio, ou no fundo do poço, quando a força resultante agindo no sistema é igual a zero. Numa região de mínimo q0, a energial potencial pode ser expandida numa série de Taylor, considerando a aproximação quadrática V, a energia potencial E, com respeito às coordenadas internas qi é dada por: ⎛ ∂ 2V ⎞ ⎟ ηiη j = 1 Vijηiη j V = ⎜⎜ ⎟ 2 ⎝ ∂qi ∂q j ⎠0 [1] onde η é o desvio do equilíbrio (qi = q0i + η i ) . De forma similar, a energia cinética T é também aproximada como uma função quadrática. A Lagrangiana é dada por: L=T-V, que leva a n equações diferencias lineares de movimento: Tiη&&i + Vijη j = 0 [2] Assumindo uma solução oscilatória, η i = aik cos(ωk t + δ k ) e substituindo-se na Eq. 2, obtém-se um problema de autovalor: AT VA = λ [3] 34 Onde A é a matriz das amplitudes aik , e V é a matriz das derivadas segunda da energia potencial e é referida como Hessiana. λ é a matriz diagonal, e AT A = I , sendo I a matriz identidade. O padrão dos movimentos é inteiramente dado pelos modos normais vibracionais, ex. os autovetores ( Ak ) e seus autovalores associados (λk ) . Os vetores dos modos normais descrevem em que direção cada partícula se move, e quanto ela se move em relação às outras partículas do sistema. No entanto, ele não dá a quantidade absoluta do deslocamento de cada partícula. Todas as partículas em cada modo normal vibram com a mesma frequência. 35 3. Técnicas de Análises dos resultados 3.1. Raiz do Desvio Quadrático Médio (RMSD) O desvio padrão ou Raiz do Desvio Quadrático Médio (RMSD), do inglês Root Mean Square Deviation (Spiegel, M. R., 1994), é o resultado do cálculo realizado para a comparação de dois conjuntos de dados. Sua aplicação neste trabalho é o cálculo para a comparação das coordenadas dos átomos (excluindo o solvente) ao longo do tempo das simulações, em relação à estrutura inicial (usada como referência). Neste caso, temos um gráfico do desvio global da estrutura, em relação à conformação inicial, versus tempo. Desvio Padrão = 2 1 n Xi − X ) ( ∑ n i =1 onde n é o número total de amostras, Xi é a coordenada tridimensional de cada átomo da amostra i e X a coordenada de referência. O resultado destes cálculos reflete o quanto a proteína variou de posição ao longo do tempo. 3.2. Flutuação da Raíz do Desvio Quadrático Médio Outra análise com base no desvio padrão é a flutuação da raíz do desvio quadrático médio (RMSF, do inglês). Este método difere, em relação ao primeiro, pelo fato de agora tomar como referência a estrutura média na Dinâmica Molecular, calculando a flutuação de cada resíduo aminoácido (média dos desvios de cada átomo do resíduo), ou de cada átomo (no caso do inibidor), em relação a esta estrutura média. Nesse caso, temos um gráfico do desvio ou flutuação conformacional de cada resíduo versus sua posição na cadeia polipeptídica, o que permite observar variações locais, neste caso, quais os resíduos que tiveram maior variação. 3.3. Ligações Hidrogênio As ligações hidrogênio são importantes interações não-covalentes existentes nos sistemas biológicos, contribuindo para a especificidade das interações receptor-ligante e para 36 a manutenção das conformações bioativas de macromoléculas e das estruturas secundárias αhélices e as folhas-β de proteínas. Nas biomoléculas essas interações são formadas entre átomos mais eletronegativos que o carbono, como o oxigênio e o nitrogênio, que atuam como aceitadores e doadores de hidrogênio (Fig. II.3). A energia envolvida nestas ligações é da ordem de 1 a 6 kcal/mol, superior ao ruído térmico para a temperatura ambiente (0,6 kcal/mol), porém inferior às energias envolvidas nas ligações iônicas, e bem menor que a das ligações covalentes. Fig. 3.6. Ligações hidrogênio (a) D H (b) H α α D A r r A Fig. II.3. Ligações Hidrogênio. São três as convenções para determinação de ligações hidrogênio, dados r (distância) e α (ângulo): (a) em que r é tomado entre D-A inferior a 3,6Å, com α variando entre 0-60º; (b) em que r é tomado entre H-A inferior a 2,7Å, com α variando entre 120 –180º; ou a combinação de critérios entre (a) e (b). 3.4. Energia Livre de Gibbs de Ligação Para sistemas do tipo proteína-ligante, é possível estimar a variação da energia livre de Gibbs de ligação (ΔGL) usando um método semi-empírico baseado em MD chamado Linear Interaction Energy (Aqvist, J. et al., 2002), ou simplesmente LIE, em que se assumem respostas lineares do sistema para sua energia livre de Gibbs, em função da energia interna. A energia de interação entre o ligante e o meio (proteína, solvente, íons, etc), para usar este método, é dividida em duas partes: uma eletrostática e outra de van der Waals. ΔGL = ΔGvdW + ΔGel ≈ α (E vdW prot − EvdW sol )+ β ( E el prot − Eel sol )+γ 37 onde EvdW prot e Eel prot são, respectivamente, as energias médias de van der Waals e eletrostática entre o ligante e o meio circundante contendo proteína mais o solvente e EvdW sol e Eel sol as energias médias do ligante em estado livre, interagindo só com o solvente (e íons se o caso), sendo α e β dois parâmetros empíricos, usados para fazer o ajuste linear de em função das energias de interação. Nestes parâmetros estaria oculta a variação da entropia. Um termo adicional (γ) foi utilizado para ajustar o método LIE e reproduzir resultados experimentais de energia livre de ligação (Aqvist, J. et al., 1994; Hulten, J. et al., 1997; Wang, W. et al., 1999; Aqvist, J. et al., 2001; Aqvist, J. et al., 2002). A variação de volume entre os sistemas no estado ligado e não ligado são desprezíveis. 38 “O medo de amar é o medo de ser livre para o que der e vier, Livre para sempre estar onde o justo estiver. O medo de amar é não arriscar, esperando que façam por nós o que é nosso dever, recusar o poder...” (Beto Guedes) CAPÍTULO III Estudo de proteases aspárticas por modelagem e dinâmica molecular 39 1. Introdução 1.1. Proteases aspárticas Proteases aspárticas ou aspartil-proteases (EC 3.4.23) são uma das subclasses dentro das enzimas proteolíticas. São uma subfamília da família das endopeptidades; sendo amplamente distribuídas, encontradas em vertebrados, protozoários, plantas, vírus de plantas e retrovírus. Essas enzimas são classificadas em diferentes famílias de acordo com a identidade de sequência na região relacionada com a atividade catalítica. Além disso, essas famílias estão agrupadas em clãs, de acordo com a similaridade de suas estruturas 3D (Barrett, A. J., 1986; Barrett, A. J. et al., 2001). Esta classificação é implementada na base de dados Merops (Rawlings, N. D. et al., 2008), que é acessível na internet no sítio (http://merops.sanger.ac.uk/), que permite uma atualização regular sobre as famílias e clãs. Este banco de dados, versão 8.0, inclui 14 famílias de proteases aspárticas, que por sua vez estão agrupadas em 6 clãs (Tabela III.1). As proteases aspárticas agrupadas nos clãs AA, AF, AC, AD e na família A5 são distinguidas pela presença de dois resíduos de ácido aspártico catalíticos em diferentes contextos estruturais (Jaskolski, M. et al., 1991; Fujinaga, M. et al., 1995; Steiner, H. et al., 2000; Vandeputte-Rutten, L. et al., 2001). Os clãs AB e AE são distinguidos pela presença de resíduos catalíticos ácido aspártico/asparagina e ácido aspártico/histidina, respectivamente (Wery, J. P. et al., 1994; Munshi, S. et al., 1998). Essas enzimas são solúveis ou associadas à membrana, em partículas virais e organismos eucarióticos procariontes (Rawlings, N. D. et al., 2008). O clã AA, representado pela pepsina é o mais abundante e melhor caracterizado dentro das proteases aspárticas e contém as famílias A1, A2, A3, A9 e A11. Nas seqüências de aminoácidos que compõem este clã, distingue-se pela presença do motivo de sequência X-X-D-[TS]-G-[ATS], onde X é um resíduo hidrofóbico e D é o resíduo catalítico ácido 40 aspártico ou aspartato, dependendo do estado de protonação. Banerjee et al. recentemente relataram a seqüência de uma protease histoaspártica de Plasmodium falciparum pertencente à família A1, que apresenta uma substituição de um dos ácidos aspárticos por uma histidina, em um dos seus resíduos catalíticos (Banerjee, R. et al., 2002). 41 Tabela III.1 Principais características estruturais das proteases aspárticas Clã AA A1 Protease representativa Pepsina A (homo sapiens) A2 Protease do HIV-1 Família A3 A9 A11 A6 AB A21 AC A8 A22 AD A24 A25 protease do vírus do mosaico do tabaco espuma-pepsina (retrovirus humano) protease de cópia de transposons (drosophila melanogaster) protease do nodavírus protease do tetravírus (vírus de Nudaurelia capensis omega) peptidase sinal-II (Pseudomonas fluorescens) presenilina-1 (homo sapiens) protease prepilina tipo-4 (Vibrio cholerae) protease gpr (Bacillus subtilis) AE A31 AF A26 protease HybD (Escherichia coli) omptina (Escherichia coli) Resíduos catalíticos resíduos de ácido aspártico Código PDB 1qrp Estrutura 3D disponível Características estruturais fundamentales Estruturas 3D formadas por 2 dominios de tipo barril-β. Estruturas 3D formadas por 2 monômeros de tipo barril-β mais de 270 estruturas - - - - - - ácido aspártico/ asparagina - resíduos de ácido aspártico - resíduos de ácido aspártico - - - - - - - 1cfz 1i78 resíduos de ácido aspártico - - 1c8b ácido aspártico/ histidina - Estrutura 3D formada por um homotetrâmero, onde cada monômero contem 2 domínios fomados por 8 folhas-β e 2 alfa hélices, respectivamente. Estrutura 3D formada por folhas-β rodeadas de 3 ou 4 alfa-hélices de cada lado. Estrutura 3D formada por um barril-β de 10 folhas β antiparalelas. Os resíduos catalíticos estão localizados na parte inferior do sítio ativo. 42 No clã AA, só foram determinadas experimentalmente as estruturas 3D de enzimas pertencentes a famílias A1 e A2 (Jaskolski, M. et al., 1991; Fujinaga, M. et al., 1995). As estruturas 3D de proteases da família A1 são formadas por dois domínios semelhantes do tipo β-barril, onde cada um contribui com uma parte do domínio catalítico para o sítio ativo da enzima. Essas proteases, no domínio C-terminal, são parcialmente abertas para a região da carboxila final e marcadas pela presença de uma estrutura em forma de garfo, loop-β, conhecida como alça (do inglês “flap”) (Rahuel, J. et al., 1991; Baldwin, E. T. et al., 1993; Fujinaga, M. et al., 1995; Silva, a M et al., 1996; Rawlings, N. D. et al., 2008). Foi demonstrado que os resíduos da alça são importantes para a especificidade dessas enzimas, principalmente a tirosina na posição 75 (de acordo com o esquema de numeração pepsina) que interage com o substrato e faz parte do subsítio S1 (Brinkworth, R. I. et al., 2001; Rawlings, N. D. et al., 2008). As estruturas 3D de proteases da família A2 são formadas por dois monômeros do tipo β-barril, que dimerizam para formar estruturas semelhantes às descritas na família A1. A grande maioria das enzimas nesta família são sintetizadas como inativas, na forma de zimogênios, que num processo autoproteolítico em pH ácido, onde ocorre a clivagem e liberação do prosegmento presente nos zimógenos, tornando-as ativas (Sielecki, A. R. et al., 1991; Bernstein, N. K. et al., 1999; James, M. N. G., 2004). No entanto, o processo de ativação de proteínas aspárticas de outras famílias deste clã funciona como um resultado de uma auto-montagem de monômeros em uma unidade catalítica dimérica (Davies, D., 1990; Jaskolski, M. et al., 1991). De um modo geral, todas as enzimas deste clã são endopeptidasas e não necessitam de cofatores para desempenharem as suas funções biológicas (Rawlings, N. D. et al., 2008). O mecanismo catalítico das proteases do clã AA tem sido amplamente estudado através da combinação de cálculos teóricos e técnicas experimentais, incluindo métodos cinéticos, marcação isotópica e cristalografia e difração de raios-X (Davies, D., 1990; 43 Northrop, D., 2001; Dunn, B., 2002; Brik, A. et al., 2003; Bjelic, S. et al., 2004; 2006). Ainda que exista um amplo consenso de que haja um mecanismo de reação geral de catálise ácidobase, alguns aspectos do mesmo ainda não foram descritos (Davies, D., 1990). Este mecanismo será explicado em detalhes posteriormente utilizando como exemplo a protease do HIV; mas como dito anteriormente este mecanismo é bastante conservado nas proteases aspárticas. No processo de reconhecimento do substrato pela enzima estão envolvidos: i) os grupos NH e CO do esqueleto peptídico da enzima, que fazem ligações hidrogênio com o substrato e ii) os aminoácidos que fazem parte dos bolsões do sítio de ligação da enzima, interagindo com as cadeias laterais dos resíduos do substrato (Dunn, B. M. et al., 2000). Numerosos estudos indicam que os substratos adotam uma conformação em folha β-estendida quando se ligam ao sítio ativo das enzimas (Davies, D., 1990; Fairlie, D. P. et al., 2000). De um modo geral, as proteases aspárticas do clã AA apresentam maior especificidade para cadeias laterais de resíduos hidrofóbicos nas posições P1 e P1', que de acordo com a nomenclatura de Schechter e Berger, interagem com os bolsões S1 e S1' da enzima, respectivamente (Schechter I, B. A., 1967). As posições subsequentes às extremidades amino e carboxila são chamados Pn e Pn' (no substrato) e Sn e Sn' (na enzima), respectivamente. As interações entre os resíduos nas posições S6-S6' da enzima com os resíduos P6-P6' do substrato garante uma precisão no alinhamento da díade catalítica e determinam a especificidade da catálise de enzima (Gardner, M. J. et al., 2002; James, M. N. G., 2004). 1.2. Plasmepsinas A malária é um problema global de saúde causando a morte de quase 2 milhões de pessoas anualmente, principalmente crianças. Estima-se que quase metade da população mundial vive em áreas endêmicas para a doença ((Biomalpar), E. N. O. E. F. B. A. P. O. T. M. P., 2006). Em humanos, esta doença é o resultado da infecção por parasitas do gênero 44 Plasmodium, transmitida ao homem através dos mosquitos das espécies do gênero Anopheles (Ridley, R. G., 2002). O parasita Plasmodium falciparum é responsável pela maior parte dos casos de malária relatados em seres humanos, e sua inibição vem sendo objeto para o desenvolvimento de novas terapias (Breman, J. G., 2001). No entanto, nos últimos anos a investigação neste domínio tem se centrado sobre a descoberta de inibidores mais seletivos e potentes para enzimas essencias para o desenvolvimento do parasito, devido à crescente resistência do parasita aos medicamentos atualmente utilizados (Breman, J. G., 2001; Boss, C. et al., 2003 ). As enzimas do parasita envolvidas na via de degradação da hemoglobina são alvos atraentes para o desenvolvimento de novos compostos antimaláricos, pois, como tem sido demonstrado, inibidores dessas proteases bloqueiam o crescimento do parasita em experimentos in vitro e em modelos animais (Haque, T. S. et al., 1999; Banerjee, R. G., D. E, 2001; Rosenthal, P. J., 2001; Soni, S. et al., 2005). Nas fases iniciais do processo de degradação da hemoglobina, as enzimas envolvidas são chamadas plasmepsinas (Plms). De acordo com a nomenclatura da base de dados Merops, as plasmepsinas pertencem à família A1 do clã AA (Rawlings, N. D. et al., 2008). Essas enzimas têm sido identificadas em espécies do gênero Plasmodium; tem sido descrito que estas são sintetizadas como proteínas integrais de membrana do tipo II. Esses organismos utilizam a membrana celular como via secretora para a liberação dessas enzimas dentro do vacúolo alimentar, que são ativadas por clivagem proteolítica de um sítio conservado em sua estrutura primária. Como resultado deste processo, estas proteases são solúveis no interior deste compartimento celular (Francis, S. E. et al., 1997; Klemba, M. et al., 2004). Também foi demonstrado que a combinação dos inibidores de protease do tipo aspártico (PepstatinA) e cisteína (E64d, um análogo de E64 capaz de atravessar membranas lipídicas) inibe a maturação da plasmepsina II sugerindo que 45 falcipaínas (cisteíno protease) têm um papel fundamental no mecanismo de ativação de plasmepsinas (Drew, M. et al., 2008). O sequenciamento do genoma do P. falciparum identificou 10 genes que codificam essas proteases, que são chamados PlmI à PlmX (Gardner, M. J. et al., 2002). Desses, apenas os genes que codificam para PlmI, PlmII, PlmIII (também conhecido como HAP – protease histoaspártica) e PlmIV são expressos em sua forma ativa no vacúolo alimentar do parasito (Banerjee, R. et al., 2002). O papel redundante dessas enzimas na degradação da hemoglobina foi recentemente demonstrado através da geração de parasitas nocautes, que não expressam essas proteínas, indicando que o desenvolvimento de fármacos baseados na inibição de plasmepsinas poderá ser mais eficaz se for centrado na inibição dessas quatro proteases (Liu, J. et al., 2005; Bonilla, J. A. et al., 2007). L4 L1 L3 alça Cubierta L2 Dominio N Dominio C Eixo de de simetria Seudoeje simetría Figura III.1. Estrutura 3D da Plasmepsina II do P. falciparum. O esquema mostra a estrutura típica bilobular das aspartatil proteases da família A1. São destacados o eixo de simetria (linha pontilhada branca), que divide os domínios N e C destas enzimas; os resíduos catalíticos (colorido por átomo) e os domínios flexíveis conhecidos como alças L1, L2, L3 e L4. O desenho de inibidores baseado na estrutura tridimensional da plasmepsinas é viável graças ao conhecimento das estruturas 3D da PlmII (figura III.1) (códigos PDB: 1lf2, 1lf3, 1lf4, 1lee, 1me6, 1xdh, 2bju, 2igx, 2igy) e PlmIV (1ls5) do P. Falciparum (Silva, a M et al., 46 1996; Asojo, O. A. et al., 2002; Asojo, O. A. et al., 2003; Prade, L. et al., 2005; Boss, C. et al., 2006); das plasmepsinas de P. malariae (2anl) (Clemente, J. C. et al., 2006) e P. vivax (1qs8) (Bernstein, N. K. et al., 2003). Embora a PlmIV do P. falciparum tenha um maior percentual de identidade com a seqüência de plasmepsinas homólogas de outras espécies de Plasmodium (65-76%) do que com as suas parálogas PlmI, PlmII e HAP (63%, 62% e 53% respectivamente) (Dame, J. B. et al., 2003), a PlmII é a mais estudada, possuindo várias estruturas 3D, para qual tem sido desenvolvidos inibidores mais potentes (Silva, a M et al., 1996; Asojo, O. A. et al., 2002; Asojo, O. A. et al., 2003; Boss, C. et al., 2003 ; Ersmark, K. et al., 2003 ; Kiso, A. et al., 2004; Ersmark, K. et al., 2004 ; Prade, L. et al., 2005; Boss, C. et al., 2006). No entanto, a maioria destes compostos tem mostrado uma baixa discriminação para a Cathepsina D humana (CatDh) (Boss, C. et al., 2003 ). A elevada flexibilidade estrutural do sítio ativo da PlmII, permite que esta enzima possa formar complexos com ligantes de diferentes estruturas. Esta característica torna difícil a concepção de inibidores assistida por computador (Bhargavi, R. et al., 2005); e, portanto, a identificação dos resíduos que determinam a funcionalidade das plasmepsinas é útil para a concepção de inibidores mais seletivos e potentes contra essas enzimas. Estudos de mutagênese sítio-dirigida da PlmII demonstraram que não existem diferenças significativas na atividade biológica da enzima nativa e os mutantes M15E, I289E, S79D e M15E/I289E durante o processamento de substrato baseado na hemoglobina. Este resultado indicou que estas variações no sítio ativo da enzima não afetaram a sua função biológica (Westling, J. et al., 1999). Recentemente, Liu e colaboradores (Liu, J. et al., 2006 ) relataram que o loop incluído na região L3 (Bhargavi, R. et al., 2005) da PlmII também é essencial para a degradação da hemoglobina nativa. Observou-se que esta região apresenta maior variabilidade na seqüêncial/estrutura e maior flexibilidade entre as plasmepsinas do P. Falciparum (Silva, A. M. et al., 1998 ). 47 48 1.3. Protease do HIV A aspartil protease do HIV tipo 1 (PR) é um homodímero de 99 aminoácidos (11 kDa) em cada subunidade. Esta enzima é indispensável para a maturação do vírus da AIDS; quando ausente ou inibida resulta na formação de partículas virais imaturas, não infecciosas (Crawford, S. et al., 1985), o que faz desta proteína um dos principais alvos primários para terapia com fármacos inibidores. A PR (EC 3.4.23.16) foi classificada como pertencente ao clã AA e à família A2. Inicialmente a classificação como aspartil protease baseava-se em sua seqüência primária e inibição por pepstatina, sendo posteriormente confirmada pelas primeiras estruturas cristalográficas (Mckeever, B. M. et al., 1989; Navia, M. A. et al., 1989; Roberts, N. A. et al., 1990; Wlodawer, A. et al., 1998). A PR é constituída basicamente por folhas-β, como representado na Fig. III.2. As pequenas fitas-β N-terminais (a) formam a parte externa da folha-β interfacial responsável pela manutenção da sua estrutura dimérica, que é completada internamente pelas fitas-β (q). O primeiro conjunto de fitas-β (a-d) em um mesmo monômero é relacionado por uma quase simetria intramolecular, de ordem dois, com o segundo conjunto de fitas-β (a’-d’). Uma única hélice está presente em cada subunidade, com um padrão de ligações hidrogênio interno intermediário entre uma hélice-α e uma hélice-310. A região entre os resíduos 43-58, chamada de alça (flap), contém as fitas-β (a’ e b’) e se fecha sobre o sítio ativo da protease complexada com inibidores ou substratos, formando um teto. Do ponto de vista mecânico, as duas grandes alças (ida: do resíduo 43 ao 50; volta: do resíduo 51 ao 58), localizadas na parte superior da protease (vide Fig. III.2) podem abrir-se, permitindo o encaixe da poliproteína (certamente em forma distendida) em seu sítio ativo (Collins, J. R. et al., 1995a; b). Esses flaps encontram-se semi-abertos na estrutura não complexada e esse fechamento sobre o sítio ativo constitui a maior diferença entre as estruturas complexada e não-complexada da protease (Miller, M., Schneider, J. et al., 1989; 49 Fitzgerald, P. M. et al., 1990; Wlodawer, A. et al., 1998). No entanto, as estruturas das PR são bastante conservadas entre os diferentes complexos, com desvios entre os C-α raramente excedendo 0,6 Å (Wlodawer, A. et al., 1998). b’ a’ d’ c b z x c’ y “flaps” d h’ a q C-TERMINAL N-TERMINAL Fig. III.2. Ilustração em 3D para protease de HIV complexada com um inibidor (código 1HXB no PDB). Representação de estrutura secundária em cartoon, onde a cor vermelha identifica as hélices α, ciano as folhas β e cinza as voltas sem estrutura secundária fixa. Estão em destaque na proteína os dois ácidos aspárticos que classificam a protease. O inibidor segue a mesma representação, acrescido de seus raios de van der Waals em transparente: vermelho para átomos de oxigênio, cinza para carbono e azul para nitrogênio (átomos de hidrogênio foram omitidos). Os eixos de coordenadas dão a orientação do complexo. O sítio ativo é composto por uma tríade catalítica (Asp25-Thr26-Gly27) localizada numa alça interna entre as fitas-β (c-d) (Fig. III.2), cuja estrutura é mantida por um conjunto de ligações hidrogênio característico das aspartil proteases, chamada fireman’s grip (Ingr, M. et al., 2003). Os dois grupos carboxílicos dos resíduos Asp25 simetricamente relacionados são aproximadamente coplanares e formam um contato íntimo envolvendo seus átomos OD1. O monômero da PR é inativo, pois a cavidade catalítica se forma na interface de dimerização, ao contrário do observado em outras aspartil proteases retrovirais cuja estrutura é monomérica, apresentando 2 domínios equivalentes aos monômero da PR (Miller, M., Jaskolski, M. et al., 1989). A PR é expressa como um produto de fusão gag-pol e é liberada 50 dessa poliproteína precursora por um mecanismo autocatalítico, através da dimerização dos domínios da protease fusionada, quando a concentração dessas proteínas é aumentada (Debouck, C. et al., 1987). 1.3.1. Mecanismo de Catálise A protease do HIV processa as poliproteínas gag e gag-pol em pelo menos 10 sítios discretos de clivagem (MA-CA; CA-p2; P2-NC; NC-p1;p1-p6; TF-PR; AutoP; PR-RT; RTRH; RH-IN; onde as sequintes proteínas são liberadas: MA matriz; CA, capsídeo; NC, núcleocapsídeo; TF, peptídeo de transferenência de leitura; PR, protease; autoP, sítio de autoproteólise; RT, transcriptase reversa; RH, RNAse H; IN, integrase. De forma geral, a PR possui um sítio ativo composto de 7 subsítios, divididos em 4 à direita e 3 à esquerda do ponto de clivagem do substrato, ficando usualmente o subsítio S1/S1’ formado pelos resíduos ASP25/ASP25’ (Fig. III.3). A PR reconhece o sítio de clivagem pela presença, em seqüência, de 5 a 6 resíduos hidrofóbicos próximos. Em P1-P1’ existe a preferência por resíduos hidrofóbicos, normalmente contendo um resíduos de Phe ou Tyr (Meek, T. D., 1992; AbdelMeguid, S. S., 1993; Wlodawer, A. et al., 1993). S1’ S3’ S4 S2 P4Thr P1’Val P2Val OH S3 O P3’Gln P2’Val P3Lys NH3 NH2 P1Leu S2’ S1 S4 – Asp29, Asp30, Met46, Ile47, Gly48, Gln58, Leu76 S3 – Arg8’, Leu23’, Asp29, Gly48, Gly49, Ile50, Thr80’, Pro81’, Val82’ S2 – Ala28, Asp29, Asp30, Val32, Ile47, Gly49, Ile50, Leu76, Ile84 S1 – Arg8’, Leu23’, Asp25’, Asp25, Gly27, Gly49, Ile50, Thr80’, Pro81’, Val82’, Ile84’ S1’ – Arg8, Leu23, Asp25, Asp25’, Gly27’, Gly49’, Ile50’, Thr80, Pro81, Val82, Ile84 S2’ – Ala28’, Asp29’, Asp30’, Val32’, Ile47’, Gly49’, Ile50’, Leu76’, Ile84’ S3’ – Arg8, Leu23, Asp29’, Gly48’, Gly49’, Ile50’, Thr80, Pro81, Val82 51 Fig. III.3. O esquema acima dá o tamanho relativo e a identificação de cada subsítio e seus respectivos resíduos associados. O sítio catalítico da aspartil protease de retrovírus clivaria a seqüência peptídica do substrato procurando por uma subseqüência predominante de resíduos hidrofóbicos. Adaptado de TÖSZÉR et al. (2000). O exato mecanismo da reação da PR ainda não foi completamente estabelecido embora existam grandes esforços tanto de grupos teóricos, computacionais e experimentais, propondo um grande número de possíveis mecanismos, intermediários de reação e estados de protonação dos resíduos catalíticos quando complexada a diferentes inibidores e substratos (Hyland, L. J. et al., 1991; Rodriguez, E. J. et al., 1993; Silva, A. M. et al., 1996; Smith, R. et al., 1996; Wang, Y. X. et al., 1996; Wondrak, E. M. et al., 1996; Louis, J. M. et al., 1999; Trylska, J. et al., 1999; Piana, S. et al., 2001; Koval'skii, D. B. et al., 2002; Piana, S. et al., 2002; Porter, D. J. et al., 2002; Trylska, J. et al., 2002; Brik, A. et al., 2003; Trylska, J. et al., 2004; Cascella, M. et al., 2005; Forshey, B. M. et al., 2005; Kumar, M. et al., 2005; Bjelic, S. et al., 2006). De acordo com diversos estudos da literatura, propusemos nesta tese um mecanismo de reação da PR baseado em dados recentes, o que é mostrado na Fig. III.4. Antes da ligação do substrato na cavidade da PR, se faz necessário o acesso do substrato ao sítio ativo. No entanto, se existir algum impedimento estérico à entrada do substrato, a reação não ocorre. Assim, como pode ser notado nas estruturas apo da PR e em alguns experimentos de RMN e de MD, os flaps da PR variam entre os estados semi-aberto e aberto quando estão na forma não-ligada, permitindo a entrada do substrato e fazendo com que seja possível que as pontas desses flaps se fechem sobre o mesmo, estabilizando-o no sítio ativo através de ligações hidrogênio (principalmente com as Ile 50 A e B) intermediadas por moléculas de água estruturadas, mantendo a forma fechada. Do ponto de vista mecânico, as duas grandes alças, formadas por um par de longas folhas β cada, localizadas na parte superior da protease (vide Fig. III.2) abrem-se, permitindo o encaixe da poliproteína (certamente em forma distendida) em seu sítio ativo (Collins, J. R. et al., 1995b). 52 Fig. III.4. Mecanismo de ação das proteases de HIV envolvendo a clivagem da ligação peptídica. Uma molécula de água catalítica é adicionada ao carbono carboxílico da ligação peptídica do substrato gerando um intermediário tetraédrico. Um evento chave (passo I) no mecanismo de reação é a presença de uma molécula de água no sitío ativo da enzima antes da ligação do substrato. Acredita-se que essa molécula de água estabiliza ligações hidrogênio com ambos os Asp’s catalíticos, por estar presente em estruturas da PR não-complexada. No passo seguinte (passo II), o substrato (que está representado somente pelos grupos P1 e P1’) se liga à PR (representada apenas pelos Asp’s catalíticos: Asp 25 A e Asp 25B) através dessa água estruturada (SW), formando o complexo enzima/substrato. De acordo com vários trabalhos na literatura (Hyland, L. J. et al., 1991; Rodriguez, E. J. et al., 1993; Smith, R. et al., 1996; Wang, Y. X. et al., 1996; Piana, S. et al., 2002; Trylska, J. et al., 2002; Brik, A. et al., 2003; Cascella, M. et al., 2005), neste esquema foi considerado o estado monoprotonado para a díade catalítica: somente o Asp 25A está protonado e o Asp 25B apresenta uma deslocalização de cargas entre os dois átomos de oxigênio do carboxilato. Momentaneamente, o oxigênio carboxílico do Asp 25 B torna-se carregado negativamente, 53 remove um próton da SW e isso leva a formação de um agente altamente nucleofílico: um íon hidróxido (OH-). Subseqüentemente, no passo III ocorre o ataque nucleofílico pelo íon hidróxido no carbono da carbonila da ligação peptídica hidrolisável e um par de elétrons da dupla ligação migra para o oxigênio da carbonila, mudando sua hibridização de sp2 para sp3 e este se torna tetravalente, formando um intermediário tetraédrico (passo IV). Este intermediário foi recentemente observado em estruturas cristalográficas da PR que apresentavam mutações na posição 95 (C95A em uma cadeia e C95M na outra) e é chamado de intermediário diol-geminado. Assim sendo, o papel crucial do sítio de clivagem da díade Asp nesse passo da reação é de estabilizar as espécies reativas de OH explorando as propriedades ótimas ácido-base dos grupos Asp protonados e desprotonados (Piana, S. et al., 2002). A barreira de ativação dessa mesma reação em solução é muito maior que no ambiente da enzima, uma vez que os reagentes estão localizados na mesma conformação pré-catalítica encontrada na proteína; já que a água apresenta diferentes propriedades ácido-base em respeito às da díade catalítica. A forma protonada do Asp 25A estabiliza o intermediário diol-geminado da reação de hidrólise doando um próton para esta espécie química (Passo IV). Isso provoca um rearranjo na cadeia lateral do resíduo: o oxigênio com hibridização sp3 muda para sp2, levando a típica configuração ressonante da estrutura do Asp com deslocalização de carga. No passo V, o Asp 25A desprotonado remove um próton do oxigênio derivado da água catalítica ligado ao carbono da carbonila levando a um rearranjo eletrônico no intermediário diol geminado. Neste processo, o oxigênio derivado da água ligado ao carbono da carbonila muda sua hibridização para sp2 e a forma protonada do Asp 25B doa um próton ao grupo amida (NH-). Isto acarreta na quebra da ligação peptídica, uma vez que o NH- é um melhor grupo de saída quando comparado ao grupo amina (NH2). A sequência destes eventos proposta para esse processo 54 está mostrada no passo V. Finalmente a forma desprotonada do Asp 25 B é generada para um novo ciclo de reação. 1.3.2. Inibidores da PR O desenho de inibidores de PR baseia-se principalmente em análogos do substrato ou do estado de transição. Essa estratégia havia sido usada com sucesso no desenvolvimento de inibidores para renina, outra aspartil protease, e o conhecimento adquirido com os complexos renina/inibidores foi extensivamente usado no desenvolvimento dos primeiros inibidores para a PR (Wlodawer, A. et al., 1993). A grande maioria dos inibidores desenvolvidos baseou-se na síntese de análogos do substrato, onde a ligação peptídica hidrolisável, P1-P1’, era substituída por um isóstero não hidrolisável com geometria tetraédrica (Fig. III.5). Fig. III.5: Representação da estrutura química de alguns isósteros não hidrolisáveis clássicos do estado de transição, empregados na síntese de inibidores de protease de HIV-1. O composto (a) mostra a ligação peptídica normal, para comparação. Estudos mostraram que embora o comprimento mínimo do substrato seja de sete aminoácidos, um mimético tri ou tetrapeptídico já pode ser um inibidor potente da PR. Em 55 todos os casos, exceto para a amida reduzida, o grupo hidroxila da junção não hidrolisável é posicionado entre os ácidos aspárticos da protease, com distância para uma interação de ligação hidrogênio para com pelo menos um oxigênio do carboxilato dos ácidos aspárticos. As ligações hidrogênio se formam, principalmente entre os átomos da cadeia principal da enzima e do substrato/inibidor, e seguem um padrão bastante similar entre os complexos. Com a verificação do aumento de resistência do HIV aos medicamentos anteriormente utilizados (inibidores da transcriptase reversa - RT), testes com inibidores de protease começaram a ser feitos culminando com a aprovação do primeiro inibidor de PR de HIV pelo FDA, o Saquinavir, em 1995. Em seguida, outros inibidores foram desenvolvidos: Ritonavir (1996), Indinavir (1996), Nelfinavir (1997) e Amprenavir (1999). Vale destacar que todos esses inibidores de PR são, até o presente momento, peptideomiméticos (classe de inibidores lineares). Na figura III.6, destaca-se o motivo inspirado no intermediário de reação comum a todos os inibidores. Fig. Darunavir (TMC-114) 1.11. Inibidores da PR aprova dos pelo DA utilizados na clínica Fig. III.6. Representação dos nove inibidores comerciais de HIV-1 PR atualmente disponíveis e aprovados pelo FDA. Além destes, existe o Fos-Amprenavir, que é uma modificação do Amprenavir. 56 57 A partir da determinação da estrutura tridimensional da PR (Navia, M. A. et al., 1989; Wlodawer, A. et al., 1993; Wlodawer, A. et al., 1998), a modelagem computacional tem sido usada para identificar possíveis compostos que se liguem especificamente na região de encaixe de substrato da protease. O desenho racional de drogas tem nos inibidores de PR um bem sucedido exemplo e ilustra significativamente a aplicação do estudo que correlaciona a função de uma proteína com sua estrutura (Roberts, N. A. et al., 1990). 1.4. Subtipos do HIV-1 O HIV é um vírus com uma alta taxa de mutação e velocidade de replicação, cerca de 109 vírions por dia (Ho, D. D. et al., 1995). Isto faz com que praticamente cada partícula viral contenha um genoma diferente das demais. A variabilidade genética do HIV pode ser demonstrada em todo o genoma viral e, conseqüentemente, em todas as proteínas virais. Variantes de HIV são gerados randomicamente durante a replicação do vírus e então selecionados naturalmente após competirem com outros variantes para replicarem e escaparem da resposta imunológica do hospedeiro. Como a enzima responsável pela replicação genômica, a transcriptase reversa (RT), não apresenta um mecanismo de correção, isso faz com que ela seja a principal responsável pela variabilidade do HIV-1, permitindo substituições, deleções e inserções nucleotídicas nas duas cópias de RNA genômico viral. A diversidade no genoma do HIV-1 é em torno de 6% num mesmo indivíduo, podendo chegar a 50% entre indivíduos de diferentes regiões geográficas. Com essa alta taxa de variação é de se esperar que o vírus apresente características biológicas diferentes. As cepas de HIV-1 circulando globalmente exibem um extraordinário grau de diversidade, que pode influenciar aspectos da sua biologia, tais como infectividade, transmissibilidade e imunogenicidade. Seqüências derivadas de cepas de HIV-1 têm sido historicamente classificadas em grupos e subgrupos com base em sua relação filogenética. 58 A partir das seqüências dos genes env e gag, o HIV-1 foi dividido em três grupos: M (Major), O (Outlier) e N (Non-M Non-O). O grupo O contém uma minoria presente na República dos Camarões. Os subtipos de HIV-1 são um conjunto de seqüências dentro do grupo M classificadas de acordo com a análise filogenética, que sugerem que os subtipos do grupo M tiveram um único ancestral, enquanto que o grupo O parece ter evoluído de um ancestral diferente (Robertson, D. L. et al., 2000). Dentro do grupo M (aproximadamente 90% dos casos de HIV/AIDS no mundo), pelo menos 9 subtipos distintos (A, B, C, D, F, G, H, J e K) e 14 formas recombinantes circulantes (CRF) já foram identificadas [revisado em (Kantor, R. et al., 2003; Wainberg, M. A., 2004)]. Dos 33,2 milhões estimados de pessoas infectadas com o HIV no mundo, mais de 22,5 milhões estão na África, principalmente na África sub-Saariana. Em 2007, foi estimado que um quarto das novas infecções que ocorreram em todo o mundo aconteceram na Ásia (Unaids, 2007). Os subtipos do HIV-1 prevalentes na África e na Ásia não são os mesmos que prevalecem na América do Norte e na Europa (fig III.7). Nessas regiões desenvolvidas, o subtipo B é responsável pela vasta maioria das infecções por HIV, enquanto que na África e Ásia os subtipos A e C são os mais encontrados. Os subtipos não-B, em 2000, foram os responsáveis por 88% das novas infecções (subtipo A, 30% e C, 47%) (Fig. III.7) (Osmanov, S. et al., 2002). No Brasil, o subtipo B é o principal (50% das infecções), mas o F (18%), C (30% na região Sul) e o D também são encontrados (Soares, M. A. et al., 2004). Todos os inibidores da PR disponíveis até o momento foram desenvolvidos para o subtipo B. 59 A B Outros 5,3 % D 8,2 % A 27 % C 47,2 % B 12,3% Fig. 1.14. ubtipos no an FIG. III.7. (A) Distribuição estimada de novas infecções por HIV-1 por regiões e subtipos (env) em 2000. (B) Incidência estimada dos subtipo do HIV-1 (env) em 2000. O quadro se complica ainda mais quando se considera que o padrão de mutações, gerado por pressão seletiva por inibidores, é diferente entre os vários subtipos. Por exemplo, a posição 36 dos subtipos B contém uma metionina, sendo que a mutação M36I aparece como conseqüência de tratamento antiretroviral. Já nos subtipos não-B, a mesma posição contém uma isoleucina na quase totalidade das seqüências isoladas, sendo considerada como um marcador molecular para subtipos não-B. Ainda, variantes do subtipo F, comuns no Brasil, não desenvolvem as mutações I84V e L90M, comumente encontradas em subtipos B, enquanto que o polimorfismo L89M, provavelmente responsável pela exclusão da L90M, é encontrado na grande maioria dos subtipos não-B (Caride, E. et al., 2001). Esse padrão de resistências secundárias que são consideradas polimórficas em proteases não-B poderia levar a uma falha terapêutica prematura quando comparado com o subtipo B (Perno, C. F. et al., 2001). Um grande número de evidências sugerem que subtipos não-B do HIV-1 podem ter características biológicas distintas, como fitness viral (Arien, K. K. et al., 2005), transmissão por diferentes rotas (Lukashov, V. V. et al., 1995; Herring, B. L. et al., 2003; John-Stewart, 60 G. C. et al., 2005), ativação da resposta imune (Li, B. et al., 2006), modulação da regulação transcricional (De Arellano, E. R. et al., 2006) e progressão da doença (Kanki, P. J. et al., 1999; Sarr, A. D. et al., 2005; Vasan, A. et al., 2006). No entanto, não são encontradas mutações primárias ocorrendo naturalmente em subtipos não-B, mas certas mutações secundárias são vistas como sendo polimorfismos naturais ou até assinaturas em diferentes subtipos. Isto é o caso das mutações K20I/R, M36I e V82I para o subtipo G na PR, da M36I, L89M/I/V e I93L para o subtipo C na PR, e da V179I para o subtipo A na RT (Soares, M. A. et al., 2003; Bellocchi, M. C. et al., 2005; Kantor, R. et al., 2005). Recentes estudos sobre a variabilidade genética da PR e da RT de diferentes subtipos do HIV-1 mostram mais de 30 resíduos na PR e mais de 40 na RT como sendo polimorfismos em subtipo não-B e até no B (Kantor, R. et al., 2005). Notavelmente, algumas dessas mutações secundárias têm sido associadas com a redução ou aumento da suceptibilidade a certos medicamentos ARV, mesmo na ausência de mutações primárias (Gonzalez, L. M. et al., 2003; Abecasis, A. B. et al., 2005; Calazans, A. et al., 2005; Parkin, N. et al., 2005). Diferentes subtipos podem variar em relação à barreira genética para aquisição de mutações associadas à resistência. Dados do nosso grupo e de outros têm focado em mutações específicas, como D30N na PR e L210W na RT, que tendem a se acumular em uma taxa mais lenta em certos subtipos quando comparados a outros (Pillay, D. et al., 2002; Dumans, A. T. et al., 2004; Gonzalez, L. M. et al., 2004; Grossman, Z., Paxinos, E. E. et al., 2004). Essas diferenças são comumente devidas a impedimentos estéricos impostos pelo esqueleto peptídico das proteínas (principalmente a PR) de diferentes subtipos (Gonzalez, L. M. et al., 2004). Estipula-se também que os padrões moleculares que levam à aquisição de mutações associadas à resistência são diferentes entre os subtipos. Por exemplo, a mutação V106M na 61 RT é comumente encontrada nos subtipo C e CRF02_AG, mas não no subtipo B (Grossman, Z., Istomin, V. et al., 2004; Hsu, L. Y. et al., 2005). Da mesma forma, enquanto o subtipo B acumula L89M como mutação secundária em resposta aos PIs, os subtipo C, F e G adquirem M89I/V (Abecasis, A. B. et al., 2005). O siginificado clínico dos polimorfismos e das barreiras genéticas para a aquisição de resistência em subtipos não-B está longe de ser entendido, assim como a maioria das mudanças nas seqüências de aminoácidos não tem sido ainda experimentalmente associadas com o decréscimo da suceptibilidade desses variantes. Certos polimorfismos na PR comuns a subtipos não-B, como I36, têm sido ligados à falha no tratamento com PIs (Perno, C. F. et al., 2001). Alguns estudos que focaram no impacto dos subtipos do HIV-1 no tratamento com inibidores de protease falharam em mostrar diferenças clínicas e virológicas (Frater, A. J. et al., 2001; Nicastri, E. et al., 2004; Bocket, L. et al., 2005), enquanto outros estudos mostraram uma diminuição da resposta imune em pacientes infectados por vírus dos subtipos não-B (De Wit, S. et al., 2004) ou mesmo uma grande variedade de respostas dos pacientes infectados por diferentes subtipos (Atlas, A. et al., 2005). De fato, estes estudos enfrentaram diversas limitações, sendo assim, estudos mais longos e sistemáticos são requeridos para o estabelecimento dos reais impactos dos subtipos no tratamento de pacientes HIV positivos. 2. Resultados e Discussão 2.1. Subtipos da Protease do HIV-1 complexada ao ritonavir No artigo em anexo (Anexo 1), intitulado Molecular dynamics simulations applied to the study of subtypes of HIV-1 protease common to Brazil, Africa, and Asia, publicado no periódico Cell Biochemistry and Biophysics (Batista, P. R. et al., 2006) foi investigado o 62 mecanismo molecular da inibição da PR em subtipos não-B, que será resumidamente apresentado nesta seção. 2.1.1. Resumo do trabalho A maioria das infecções por HIV-1 no mundo é causada principalmente pelos subtipos A e C (África e Ásia), enquanto que o subtipo B prevalece em regiões mais desenvolvidas como Estados Unidos e Europa. No Brasil, o subtipo B é o prevalente (aproximadamente 50% das infecções), mas os subtipos F, C e A também são importantes. Esses subtipos não-B apresentam polimorfismos em suas sequências e alguns deles ocorrem em sítios que vêm sendo associados a resistência à terapia anti-HIV, incluindo a protease do HIV (PR). Neste capítulo, reportamos um estudo de dinâmica molecular (MD) dos subtipos B e não-B complexados com o inibidor ritonavir para estabelecer o comportamento de cada subtipo. Foram comparados os desvios e flutuações dos átomos e resíduos, sendo calculado: a energia livre de ligação pelo método de Energia de Interação Linear (LIE), a estabilidade de ligações hidrogênio, entre outros. Os resultados obtidos fornecem uma base para o entendimento dos mecanismos moleculares de resistência à inibidores de protease dos subtipos não-B. Nesse sentido, vimos um decréscimo de aproximadamente 4 kcal/mol no ΔG de ligação nos subtipos não-B, quando comparados ao B. Isto corresponde à perda de uma ligação hidrogênio, o que pôde ser verificado com nossas análises estruturais. Resultados experimentais de afinidade, anteriores, reportaram resultados análogos aos de nossas simulações para os subtipos A e C, ou seja, a diminuição da afinidade desses subtipos para uma família de inibidores, que inclui o ritonavir. 2.1.2. Discussão Nesta primeira parte do presente capítulo discutimos mecanismos moleculares que explicariam as diferenças de afinidade entre a PR de subtipos não-B e o inibidor ritonavir. Apesar da PR ser simétrica, já foi descrito que ela é capaz de clivar substratos assimétricos (Prabu-Jeyabalan, M. et al., 2000). De fato foi verificada maior flexibilidade das PR dos subtipos não-B, principalmente na região das alças na cadeia B (em torno de ILE 149), onde 63 foram observadas as mais importantes flutuações, o que contribui para a inibição por compostos assimétricos. Durante a MD, como esperado para biomoléculas em solução, as ligações hidrogênio estão em constante quebra e formação. Cada ligação pode contribuir em média com aproximadamente 3 kcal/mol de energia na estabilização do inibidor na estrutura da proteína. A energia de ligação envolvida é da ordem de 1 a 5 kcal/mol, sendo mais alta do que as flutuações de energia térmica, as quais correspondem a aproximadamente 0,6 kcal/mol, em temperatura fisiológica (Garrett, R. et al., 1995). A diminuição da média do número de ligações hidrogênio entre o ritonavir e as PR consensos A, C e F em comparação com o consB (Fig. III.8 A), está em concordância com nossos resultados dos cálculos de energia livre de ligação (Fig. III.8 C), onde os ΔΔG’s entre grupos B e não-B (4,3 a 4,7 kcal/mol) têm a mesma ordem de grandeza da energia de uma ligação hidrogênio. Há uma correlação bem definida entre o aumento na flutuação da região dos flaps e a diminuição na prevalência de ligações hidrogênio em torno dos flaps para PRs não-B, envolvendo uma molécula de água intermediando o inibidor e a ILE149. Um outro ponto notável é a presença exclusiva da ligação hidrogênio entre o N34 do ritonavir e o oxigênio delta do ASP25 (RIT199N34 ASP25OD2) na simulação com a PR consB. Estas evidências podem ser fortemente relacionadas com a maior instabilidade demonstrada para o ritonavir em complexos com PRs não-B, principalmente em torno do grupo P1(Fig. III.8 B), o qual é muito importante para a afinidade da ligação do inibidor (Kempf, D. J. et al., 1995). 64 A B C Fig. III.8. Mecanismo molecular para explicar as diferenças de afinidade entre as PR dos subtipos B e não-B. Em A, tem-se uma tabela com o número médio de ligações hidrogênio entre as PR e o inibidor durante a MD, onde os subtipos não-B apresentaram a redução no número de ligações hidrogênio quando comparados ao B. Em B, mostra o desvio das flutações dos átomos do inibidor, mostrando que o inibidor fica muito mais flexível nos subtipos não-B, principalmente na posição P1. Em C, cálculo da energia livre de ligação entre a PR e o inibidor, mostrando o decréscimo da afinidade dos subtipos nãoB, na mesma ordem de grandeza que a energia de uma ligação hidrogênio. Podemos também enfatizar que as interações de van der Waals não parecem ser decisivas para reforçar a afinidade de ligação do complexo PR/ritonavir (Fig. III.8 C). Em contraste, o potencial eletrostático, no consB, é claramente responsável pelas diferenças 65 observadas de ΔGL, porque sua contribuição é quase duas vezes a do potencial de van der Waals. Além disso, a mesma proporção é verificada quando nós comparamos a contribuição eletrostática do consB com a de PRs dos subtipos não-B. Há quatro polimorfismos comuns entre as PRs dos subtipos não-B comparadas com o consB, como apontado anteriormente, entre eles a substituição M36I, uma mutação secundária associada à resistência ao ritonavir. Nossos resultados de energia livre de ligação corroboram os dados de Velazquez Campoy (Velazquez-Campoy, A. et al., 2001), onde o Ki das PRs não-B indica a redução (7,2 vezes) de suas afinidades ao ritonavir. Apesar de, inicialmente, estas diferenças de afinidade não serem suficientes para causar a resistência ao inibidor, podem intensificar os efeitos das mutações e eventualmente conduzi-los à resistência. Este trabalho foi o primeiro trabalho estrutural de PR de subtipos não-B. 2.2. Predição por Dinâmica Molecular dos resíduos funcionais na interação de inibidores com plasmepsinas de P. falciparum No artigo em anexo (Anexo 2), intitulado Predicting functional residues in Plasmodium falciparum plasmepsins by combining sequence and structural analysis with molecular dynamics simulations, publicado no periódico Proteins – Structure, Function and Bioinformatics (vol. 73(2):440-57, em 2008) (Valiente, P. A. et al., 2008) descrevemos a aplicação conjunta das metodologias de MD e análise de sequência para prever resíduos funcionais em plasmepsinas. 66 2.2.1. Resumo do trabalho As proteases aspárticas conhecidas como plasmepsinas estão envolvidas nos primeiros passos do processo de degradação da hemoglobina, uma fase crítica no ciclo de vida do Plasmodium falciparum durante a infecção humana. Assim, elas são vistas como atraentes alvos para desenvolvimento e descoberta de novos compostos terapêuticos contra a malária, que continua a ser um dos maiores problemas de saúde no mundo. As estruturas tridimensionais disponíveis para as plasmepsinas II e IV do P. falciparum, torna possível o desenvolvimento de inibidores baseados na estrutura dessas enzimas. No entanto, a flexibilidade estrutural do sítio ativo das plasmepsinas combinada com o conhecimento insuficiente da funcionalidade desses resíduos na determinação da especificidade dessas enzimas parasitárias é uma desvantagem na concepção dos inibidores específicos. Neste estudo, temos combinado uma análise de sequência/estrutural com a simulação de MD para predizer os resíduos funcionais em plasmepsinas do P. falciparum. Uma cuidadosa análise das estruturas obtidas por Difração de Raios-X e modelos 3D realizadas neste trabalho sugere que os resíduos Y17, V105, T108, L191, L242, Q275 e T298 são importantes para a função das plasmepsinas. Estes sete aminoácidos são conservados nas plasmepsinas em todo o gênero Plasmodium, mas não nas proteases aspárticas humanas. Os resíduos V105 e T108 estão localizados em uma alça do bolsão interior e somente estabelecem contatos com um inibidor não-peptídico aquiral específico. Também observamos uma rápida mudança conformacional na região L3 das plasmepsinas, que fecha o sítio ativo da enzima, o que explica achados experimentais anteriores. Esses resultados lançam luz sobre o papel dos resíduos V105 e T108 na especificidade das plasmepsinas e deverá ser útil no desenvolvimento de inibidores seletivos que possam vir a servir como antimaláricos. 67 2.2.2. Discussão As plasmepsinas do P. falciparum apresentam uma especificidade de substrato única, que é um resultado de variações nos resíduos da cavidade do sítio ativo. Estudos de mutagênese anteriores em PlmI e PlmII concluíram que as diferenças na especificidade dependem mais de diferenças conformacionais em sítios distantes do que variações no sítio ativo. Neste trabalho baseado em análise de seqüência/estrutura combinada com modelagem e MD, (conforme o fluxograma da Fig. III.9) foram propostos sete novos resíduos específicos para plasmepsinas, que não tinham sido previamente estudados. Fig. III.9. Esquema da metodologia seguida para identificar os sete novos resíduos funcionais das plasmepsinas do P. falciparum, combinando as metodologias de análise de estrutura/sequências com a MD dos complexos moleculares Plms/inibidores. 68 Aminoácidos em posições-chave que são importantes para a manutenção da estrutura 3D de uma proteína e ou a sua função, estão muitas vezes sob forte pressão evolutiva. Assim, a importância biológica de um resíduo frequentemente correlaciona-se com o seu nível de conservação evolutiva dentro da família da proteína. Para propor resíduos chaves para a funcionalidade das Plms, realizamos alinhamentos múltiplos de seqüência (MSA) por homologia, com 73 sequências de aminoácidos, com uma percentagem de identidade que variou de 10 a 88%. Os sete resíduos propostos aqui, diferem em seus graus de conservação calculados em todo o MSA. Estes resíduos são: Y17, V105, T108, L191, L242, Q275 e T298, e apresentam diferentes localizações espaciais nas estruturas 3D de Plms. Movimentos de larga escala têm sido cada vez mais estudados por desempenharem um papel para a função enzimática de proteases aspárticas. Estudos estruturais de Plms na forma apo indicam que essas enzimas têm uma grande flexibilidade estrutural na região das alças L1, L2, L3 e L4. Nossos estudos de MD mostram uma grande flexibilidade na região entre os resíduos 108-119. Os resíduos V105 e T108, próximos à cavidade do sítio ativo estabeleceram novos contactos com grupos funcionais com o inibidor aquiral após a simulação. Nas simulações de MD das Plms complexadas com a pepstatina verificou-se um movimento na região L3, fechando-se sobre o sítio e levando à formação de novos contatos com esse inibidor. Este movimento explica a maior variação estrutural na região L3 quando a PlmII é complexada com a pepstatin em relação à PlmII no estado livre (Fig. III.10). Para entender essa mudança conformacional nessa região, analisamos a estrutura cristalográfica de alta resolução (1xdh). Nesta estrutura, a PlmII está como um dímero na célula unitária, devido a um contacto hidrofóbico entre as regiões L3 das cadeias A e B. Esse contato cristalográfico estabiliza o L3 em uma conformação mais aberta, mesmo quando o inibidor está no sítio, mas recentemente foi demonstrado que a PlmII é funcional como monômero em solução. 69 Fig. III.10. Comparação do desvio da flutuação (RMSF) do esqueleto peptídico (por resíduo) entre a plasmepsina nas formas apo (linha vermelha) e complexada à pestatina-A (linha preta) durante as simulações de MD. Em B, poses da MD (a cada 600ps) mostrando o movimento da alça L3 na simulação do complexo PlmII–Pepstatina A. Em azul, a estrutural atual fitada à estrutura inicial (em vermelho). As plasmepsinas de P falciparum apresentam estruturas 3D semelhantes, mas com propriedades catalíticas distintas contra substratos conhecidos. Para desenvolver novos inibidores específicos para Plms, é útil mapear os resíduos no sítio ativo das enzimas que estabelecem contato com inibidores específicos assim como inibidores seletivos, para explorar as diferenças nas preferências pelo substrato. O inibidor achiral estabelece contatos em espaços desocupados correspondentes ao subsítio S3 (I14, M15, F16, F120 e I123) e S2 (S118) da PlmII quando complexada à pepstatina-A; e em um novo sítio (W41, V82, V105, T108 , F111) formado pela rotação das cadeias laterais de Y77 e W41, em combinação com um movimento substancial da cadeia principal da alça. Outro ponto notável é o menor número de ligações hidrogênio no complexo PlmII-inibidor achiral, em comparação com o complexo PlmII-pesptatina A. Estudos anteriores relataram que a pepstatin-A tem uma afinidade melhor pelas Plms do que o inibidor aquiral. Embora não tenhamos realizado cálculos de energia livre para estes complexos, nossos resultados sugerem que interações eletrostáticas (ligações 70 hidrogênio) têm uma maior contribuição para a ligação do que interações do tipo van der Waals. Isso sugere a possibilidade de melhoria da potência do inibidor aquiral introduzindo alguns grupos polares na sua estrutura molecular, sem afetar a sua seletividade. 71 “Solidão é larva que cobre tudo, amargura em minha boca, sorri seus dentes de chumbo Solidão palavra, cavada no coração resignada em ouro no compasso da desilusão” (Paulinho da Viola) CAPÍTULO IV Modos consenso, desenvolvimento e validação de um novo método para o estudo de movimentos coletivos em macromoléculas. 72 1. Introdução A revolução que vem ocorrendo na biologia estrutural nas últimas décadas tem levado a um crescimento exponencial tanto no número de sequências e quanto de estruturas de proteínas determinadas experimentalmente (Bernstein, F. C. et al., 1977; Benson, D. A. et al., 2008), deixando cada vez mais clara a relação entre estrutura/função. Contudo, proteínas não são entidades estáticas, elas precisam ser flexíveis para interagir com outras moléculas e poder exercer suas funções (Huber, R. et al., 1983); mesmo em estruturas cristalográficas, pode-se obter informações significativas sobre a flexibilidade de cada átomo, contida no fatorB (também conhecido como fator térmico) (Phillips, G. N., Jr., 1990; Lu, W. C. et al., 2006). No caso da determinação de estrutura por RMN, que resulta em uma família de poucas dezenas de diferentes estruturas (que obedecem às restrições de distâncias experimentais), refletindo diretamente a flexibilidade e dinâmica da proteína (Teodoro, M. L. et al., 2003). Nas últimas três décadas este aspecto dinâmico vem sendo amplamente estudado, extendendo o conceito estrutura/função ao trinômio estrutura/dinâmica/função (Chollet, A. et al., 1999; Sinha, N. et al., 2002b; Tamm, L. K. et al., 2003). Para complementar os estudos experimentais na área da biologia estrutural, o uso dos métodos computacionais, como a MD, vem aumentando crescentemente. MD de macromoléculas emprega campos de forças empíricos (como explorado no capítulo II) e permite a exploração de diferentes regiões da superfície da energia potencial, gerando uma trajetória da dinâmica de proteínas em diferentes escalas de tempo (Karplus, M. et al., 1976; Mccammon, J. A. et al., 1977). Simulações de MD têm obtido grande sucesso sendo aplicada para descrever diversos tipos de movimentos em sistemas bem diferentes: ex. abertura/fechamento de sítio ativo (Scott, W. R. et al., 2000), enovelamento de peptídeos (Kim, E. et al., 2008) e ativação de mecanismos em canais iônicos (Treptow, W. et al., 2008). 73 No entanto, para grandes sistemas com representações precisas (ex.: representando-se todos os átomos, simulações com o solvente explícito) a descrição de movimentos biologicamente relevantes acontecem em escalas de tempo que podem ser proibitivas em tempo computacional. Tendo isso em conta, um grande número de movimentos de larga escala ocorrem raramente na MD, como movimentos de sub-unidades, interdomínios ou movimentos de alças ou loops, que são movimentos que podem ocorrer na escala de milissegundos ou até segundos (Amorim, G. C. et al., 2007; Alcaraz, L. A. et al., 2008; Liu, H. et al., 2008). A correta descrição deses movimentos de grande amplitude em proteínas permanece então como um grande desafio na ciência. Análise dos modos normais (NMA), como detalhado no capítulo II, é uma das técnicas computacionais mais bem sucedidas para o estudo de movimentos coletivos internos em proteínas (Mccammon, J. A. et al., 1976; Brooks, B. et al., 1983; Levitt, M. et al., 1985; Perahia, D. et al., 1995; Keskin, O. et al., 2002; Balog, E. et al., 2006). Essa técnica permite o cálculo dos modos normais (NM), que descrevem as direções e as frequências dos movimentos vibracionais. NMA têm se mostrado uma ferramenta especialmente importante para o estudo de mudanças conformacionais em proteínas, desde a observação que modos de baixa frequência descrevem muito bem transições entre diferentes conformações da mesma proteína vistas em diferentes estruturas cristalográficas (Mouawad, L. et al., 1996; Tama, F. et al., 2001; Petrone, P. et al., 2006). Uma vantagem da NMA está na captura das direções da curvatura da superfície da energia potencial, que correspondem aos movimentos internos de larga-escala da proteína. No entanto, como todas as metodologias, a NMA tem suas próprias limitações. Uma delas, talvez a mais importante, é a estrita validade da NMA para movimentos de amplitudes relativamente pequenas ao redor de uma estrutura localizada num mínimo particular (local) da superfície da energia potencial. Além disso, NMA é feita num único mínimo particular sem um conhecimento formal do fato que uma “estrutura biológica 74 verdadeira” consiste de um grupo de conformações intimamente relacionadas. A significância e generalidade de um dado grupo de NM relacionados a uma estrutura particular podem então ser questionadas. Nesse capítulo, será descrita uma nova metodologia para definir modos normais sobre um grupo de estruturas relacionadas, que foram denominados “modos consenso” (CM). A idéia de consenso é de expressar uma opinião ou resultado comum; aqui definimos CM como um conjunto de modos que descrevem os movimentos coletivos que apareceram frequentemente nos modos normais calculados para diferentes conformações de uma macromolécula. O princípio básico do cálculo dos CM é o pressuposto de que a superfície de energia potencial conformacional pode ser mais bem explorada quando são consideradas informações topólogicas de múltiplos mínimos. As diferentes estruturas a se considerar correspondem a estruturas em diferentes pontos de mínimo da superfície da energia potencial, obtidos, por exemplo, de simulações de MD, ou de estruturas determinadas experimentalmente. A exploração de múltiplos mínimos permite reduzir o bias causado por distorções locais na superfície com relevância somente para um mínimo em particular. Mostraremos que CM calculados para um conjunto de estruturas obtidas de uma simulação de MD fornecem uma melhor descrição dos movimentos internos de proteínas. Os modos consensus são um novo modo de se estudar movimentos de larga escala em proteínas, prevendo a flexibilidade e com isso tendo implicações no enovelamento e função de proteínas; interações proteína ligante (predições de ancoramento molecular – docking) (Floquet, N. et al., 2006b), e evolução de resistência a fármacos. Foi adotada como aplicação para este estudo a forma apo da PR para demonstrar o approach dos CM. Como visto em capítulos anteriores, a PR é uma aspartil protease e funciona como um dímero de 99 aminoácidos em cada subunidade, tendo um papel chave no 75 ciclo do HIV (Kohl, N. E. et al., 1988; Navia, M. A. et al., 1989), sendo considerada um dos principais alvos na terapia anti-HIV (Tomasselli, A. G. et al., 2000). A PR pode ser dividida em 3 principais domínios, como na figura IV.1: o core, situado na interface entre os monômeros contém o sítio-ativo (que contém o par de tríades catalíticas Asp-Thr-Gly); o domínio terminal, contendo ambos C e N terminais, que são importantes para a dimerização; e o domínio dos flaps (alças), que consiste de duas alças na entrada da cavidade do sítio ativo, que precisa abrir e fechar para possibilitar a entrada/ligação de ligantes e sua estabilização no sítio para possibilitar a catálise (Gustchina, A. et al., 1990). O domínio dos flaps é a região mais flexível da PR, apresentando as maiores diferenças estruturais entre os estados livre e ligado a inibidores/substratos (Lapatto, R. et al., 1989; Wlodawer, A. et al., 1993). tips elbow ile50 asp25 Fig. IV.1. Estrutura da Protease do HIV-1 (PR). Representação em Cartoon da PR colorida por estrutura s econdária: azul (folhas β), vermelho (α-hélice) e cinza (coil e loop). A superfície acessível ao solvente (SAS) (transparente) foi colorida para representar os principais domínios da PR: laranja (domínio dos flaps), verde claro (core) e rosa (domínio de dimerização – terminais N e C). Algumas regiões importantes foram destacadas: o cotovelo dos flaps (elbows) e suas pontas (tips - Ile 50) e os resíduos catalíticos (Asp 25). 76 A PR é uma das proteínas mais bem estudadas, tanto experimentalmente quanto computacionalmente, com mais de 270 estruturas resolvidas no PDB (Bernstein, F. C. et al., 1977) – sendo duas estruturas determinadas por RMN e quase a totalidade por Cristalografia e Difração de Raios-X, livres e complexadas a diferentes inibidores/substratos (maioria das estruturas ligadas). Essas inúmeras estruturas combinadas com vários resultados de dinâmica (RMN e MD) (Freedberg, D. I. et al., 2002; Katoh, E. et al., 2003; Batista, P. R. et al., 2006; Hornak, V. et al., 2006; Ding, F. et al., 2008; Ishima, R. et al., 2008) fornecem uma grande fonte de dados para comparação com os nossos dados computacionais. Por exemplo, usando estruturas da PR do PDB, Yang e colaboradores mostraram uma boa correspondência entre movimentos da PCA (Análise dos Componentes Principais) sobre múltiplas estruturas da PR e modos normais (Elastic Network modes), dando um idéia que NM, mesmo se utilizando potenciais simplificados, podem explicar mudanças estruturais gerais devido à variação na sequência e ligação a diferentes inibidores (Yang, L. et al., 2008). Porém, uma melhor descrição da flexibilidade da PR requer uma descrição detalhada da superfície da energia potencial. 77 2. Teoria Uma típica análise de modos normais (NMA) começa com uma estrutura única num mínimo de energia r0 do sistema, usando uma função de energia potencial que é a mesma utilizada em simulações de MD. Próximo a r0, a forma da superfície da energia potencial pode ser considerada como quadrática. A forma dessa superfície nessa região de mínimo é descrita pela Hessiana F, cujos elementos são as segundas derivadas da energial potencial em respeito às coordenadas atômicas ponderadas pela massa (qi). A diagonalização dessa hessiana fornece então os modos normais e suas respectivas frequências (Brooks, B. et al., 1983). À uma dada temperatura T, a hessiana F é relacionada ao inverso da matriz de covariância dos deslocamentos atômicos, σ , por: F = k BT σ − 1 (1), onde kB é a constante de Boltzmann e T a temperatura absoluta, e cada elemento de σ é definido como σ ij = qi − qi qj − qj (Karplus, M. et al., 1981; Levy, R. M. et al., 1984). Cada elemento da matriz de covariância dentro da teoria dos modos normais é dada por: 3 N −6 σ ij = k T ∑ NM B l =1 αα ω il 2 jl (2), l onde αil é o i’ésimo componente do l’ésimo vector de modo normal e ωl é a frequência do l’ésimo modo normal, e a soma é feita sobre os 3N-6 modos normais internos (Karplus, M. et al., 1981). No approach dos CM, as análises dos modos normais são realizadas para um conjunto de diferentes estruturas minimizadas, tomando o cuidado de todas as estruturas apresentarem a mesma orientação (sobrepondo as estruturas por least-squares fitting). Cada set de modos 78 normais (autovalores e autovetores) reflete a natureza da superfície da energia potencial na região onde aquela estrutura se encontra. Uma matriz de covariância global σ CM é então definida como a média sobre as Ns matrizes de covariança individuais, como definido abaixo e expresso como: σ CM 1 = Ns Ns ∑σ NM s s =1 (3). Essa matriz global é chamada de “matriz consensus de covariância”. A influência de modos vibracionais similares é reforçada nesse procedimento de média, enquanto ruídos locais são reduzidos. Os autovetores e autovalores dessa matriz são os modos consensus e suas respectivas frequências. Neste estudo, as diferentes estruturas consideradas para o cálculo dos CM foram obtidas de simulações de MD. Deve-se destacar que os CM são bastante diferentes de modos quasi-harmônicos (ou quasimodos) ou modos vindos de PCA, que são obtidos diretamente da matriz de covariância calculados para trajetórias de MD (Karplus, M. et al., 1981; Levy, R. M. et al., 1982; Levy, R. M. et al., 1984). A matriz consensus de covariância é construida usando informações analíticas da forma da superfície quadrática de energia potencial na região de cada mínimo amostrado (cada pose da MD), enquanto que os quasimodos ou modos do PCA contêm somente informação da amostra, sem primeiras ou segundas derivadas. Em particular, nota-se que os quasimodos não possuem muita informação de escalas de tempo mais longas que as MD que lhes deram origem (Balsera, M. A. et al., 1996). Em contraste, como os CM incorporam informações topológicas de múltiplos mínimos, esses modos correspondem a escalas de tempo maiores que as MD usadas para calculá-los. 79 3. Objetivos O estudo descrito neste capítulo tem como objetivo principal o desenvolvimento de um novo método para investigar a flexibilidade em macromoléculas, que integra informações da dinâmica molecular (MD) com análise dos modos normais (NMA), usando como sistema de aplicação a protease do HIV-1. Como objetivos específicos têm-se: • desenvolver um método mais robusto à variação de estruturas: o cálculo dos modos consensus para descrever movimentos coletivos em macromoléculas. • Mostrar e comprovar a limitação da NMA, quando aplicada para diferentes estruturas provenientes da MD. • Validar o método de obtenção dos modos consensus a partir da análise de múltiplos mínimos, e apresentá-lo como solução à limitação da NMA. • Desenvolver uma teoria relacionada a esse conjunto de modos consensus • Identificar e estudar movimentos biologicamente relevantes dentre os modos consensus calculados para a protease do HIV-1. 80 4. Procedimentos e Metologia Aplicada 4.1. Parâmetros das simulações de MD As simulações de MD foram feitas com a PR na forma apo (sem ligantes) utilizando a estrutura código 1hhp (Spinelli, S. et al., 1991) do PDB, para se obter as múltiplas estruturas, cujos modos normais serão calculadas para cada estrutura e posteriormente utilizados no cálculo dos CM. As simulações de MD foram realizadas com o programa NAMD 2.6 (Phillips, J. C. et al., 2005), usando os parâmetros do campo de forças CHARMM22 (Mackerell, A. D., Jr. et al., 2004). A estrutura da protease do HIV-1 (homodímero) na forma apo foi solvatada a partir de uma caixa d’água cúbica pré-equilibrada (100 ps de MD), utilizando o modelo de águas TIP3P (Jorgensen, W. L. et al., 1983), com condições periódicas de contorno. O sistema com aproximadamente 55 mil átomos, compreendendo proteína, moléculas de água e íons (utilizados para equilibrar as cargas do sistema), foi submetido a um procedimento de otimização da estrutura por minimização de energia, com restrição das posições dos átomos pesados (não-hidrogênio) harmonicamente (50 kcal/mol/Å). Outro fator que pode influenciar em simulações de MD é o fato de que quando se simula num ensemble NPT (número de átomos, pressão e temperatura constantes), para iniciar a simulação numa certa temperatura, é necessário o sorteio das velocidades atômicas e isso pode gerar alguns artefatos. Para evitar isso, optamos por fazer um procedimento de aquecimento do sistema, que consiste no sorteio das velocidades atômicas a uma baixa temperatura (20 K) e acoplar o sistema a um banho térmico do tipo Berendsen (Berendsen, H. J. C. et al., 1984), com uma constante de acoplamente relativamente grande, 0,67 ps, para ocorrer um aumento gradual da temperatura (como pode ser visto na figura IV.2), realizando 81 uma MD curta (72 ps), sempre mantendo restritas de forma harmônica (5 kcal/mol/Å) as posições dos átomos pesados da PR. Após o aquecimento, utilizamos a estrutura e as velocidades finais como entrada para o processo de equilibração, onde as restrições de posição foram variadas de 1 a 0 Kcal/mol/Å, durante 1.2 ns e a constante de acoplamento da temperatura para 0.1 ps. Após isso, as restrições foram removidas e as distâncias entre o aminoácido catalítico e a ponta do flap (Ile50) de cada cadeia foi acompanhada até que essas distâncias se apresentassem mais simétricas (depois de 3 ns). Depois dessa etapa de equilibração, foi iniciada a etapa de produção de 10ns (usada para as análises). Nas simulações de MD foi empregado PME (Ulrich, E. et al., 1995) para a correção das interações eletrostáticas. Foram usados raios de corte de 12 Å para van der Waals e 10 Å para Coulomb. Para ser possível usar um tempo de integração de 2 fs, utilizamos vínculos para as ligações da água, SETTLE (Miyamoto, S. et al., 1992) e para os átomos da proteína usamos SHAKE (Ryckaert, J.-P. et al., 1977). 4.2. Cálculo dos Modos Normais Todos os calculos de NM foram realizados utilizando-se o modulo VIBRAN do pacote de programas CHARMM (57), utilizando o mesmo campo de forças da MD. Com a finalidade de se calcular os modos consensus, foram tomadas 20 estruturas, a cada 50 ps, do primeiro nanossegundo da MD de produção de 10 ns. É importante enfatizar que os CM foram calculados somente a partir dos NM calculados sobre 20 estruturas tiradas de 1ns da MD. Para cada uma das 20 poses da MD (snapshots), o sistema considerado para os cálculos de NM consistia no dímero da PR mais a primeira camada de solvatação (que foi considerada tomando as moléculas de água que apresentavam seu oxigênio a uma distância de até ≈ 4 Å dos átomos da proteína). Esta camada de água foi utilizada para evitar o colapso das alças da PR durante o processo de minimização, requerimento obrigatório para a 82 realização da NMA. Cada sistema (5919 átomos) possuía o mesmo número de moléculas de água (2700 átomos). Os 20 sistemas foram submetidos à minimização de energia pelo método de gradientes conjugados, até atingir um gradiente de energia menor que 10-5 Kcal/mol/Å, antes do cálculo dos NM. 4.3. Cálculo dos modos consenso Após o cálculo dos NM para cada uma das 20 poses da MD, as trajetórias para os 97 modos de baixa frequência (excluindo os 6 modos de translação/rotação nas 3 dimensões) foram geradas, tomando como referência a estrutura do primeira pose da MD. Para um dado modo, a trajetória consistia de um completo período harmônico, contendo 9 pontos, sendo estas amplitudes escaladas por um fator de temperatura apropriado. Todas estas 20 trajetórias foram concatenadas em uma única trajetória da qual a matriz de covariança consensus σ, para uma dada seleção, foi gerada, e os autovalores e autovetores para os 97 CM foram calculados usando a opção QUASI do modulo VIBRAN do programa CHARMM. Dependo da análise, a matriz de covariança consensus foi calculada para os átomos da PR (excluindo as moléculas de água) ou somente para os átomos de Cα. 4.4. Cálculo dos modos quasi-harmônicos (quasimodos) Os modos quasi-harmônicos, ou quasimodos, foram computados tanto para todos os átomos da proteína quanto para somente os Cα. No caso formal, as coordenadas cartesianas são ponderadas pela raiz quadrada de suas massas atômicas correspondentes. A matriz de covariância dessas massas ponderadas muda com respeito aos seus valores médios (variância), que foram calculados sobre 5000 estruturas tidas da simulação de MD de 10ns, sendo um quadro a cada ps. Essas matrizes foram diagonalizadas para obter os quasimodos, usando o comando QUASI do módulo VIBRAN no CHARMM. 83 4.5. Overlap entre os CM e outros movimentos O overlap entre um dado vetor Mi que descreve um modo e um outro vetor X é obtido através das suas projeções normalizadas, Oi (X) = Mi X/ Mi X onde Mi é tipicamente o vetor que descreve um modo consenso ou um modo normal e X pode ser um vetor de um modo proveniente de outro cálculo, como um vetor que representa um quasimodo ou um PCA, ou um vetor representando uma mudança conformacional entre duas estruturas distintas. Uma correspondência perfeita representa um overlap de valor 1. Nós definimos o overlap cumulativo (CO) entre os primeiros k modos de baixa frequência e o vetor X como: CO ( X, k ) = (∑ ) 1 O 2 (X ) 2 i =1, k i CO é uma medida que mede o quão bem o espaço definido por um determinado conjunto de modos (neste trabalho consideramos k=97) pode representar um dado movimento descrito pelo vetor X. 4.6. Grau de coletividade de um movimento A coletividade de um movimento de uma proteína pode ser dado como a fração dos átomos que participam significantemente em um dado movimento (Bruschweiler, R., 1995; Tama, F. et al., 2001). Para um dado modo com 3N elementos αi, o grau de coletividade к é definido como: κ= ⎛ 3N ⎞ 1 exp ⎜ - ∑ α i2 log α i2 ⎟ N ⎝ i =1 ⎠ Se к = 1, a mudança conformacional é o máximo coletiva, ou seja, todos os átomos participam do movimento e se к se aproxima de 1/N, poucos átomos, ou somente um, estão envolvidos no movimento. 84 4.7. Datasets para Análise dos Componentes Principais (PCA) Todas as estruturas da PR utilizadas nesta análises foram obtidas a partir do PDB e somente as coordenadas dos Cα foram consideradas. O cojunto de dados “RMN” compreende 28 estruturas presentes no arquivo PDB com o código 1BVE. O grupo “Cristal” contém 270 estruturas da PR, sem resíduos faltando. Na figura abaixo (Fig. IV.2.), uma lista dos códigos identificadores das estruturas do PDB (A) e o RMSD para cada estrutura depois de superposição. Fig. IV.2. A: lista de PDB ID das estruturas usadas no dataset “Crystal”. B: RMSD ordenado de forma crescente desvio, para cada estrutura depois de superposição tomando como referência a estrutura média. 85 5. Resultados e Discussões 5.1. Dinâmica Molecular O sistema foi extensivamente equilibrado para que os modos derivados dessa MD refletissem a dinâmica de estruturas pertencentes a um estado estacionário da simulação, evitando assim artefatos devido à solvatação ou às diferenças entre os ambientes cristalinos e das condições periódicas de contorno da caixa cúbica de água (Janin, J. et al., 1995; Meagher, K. L. et al., 2005). Como a estrutura utilizada foi determinada através da técnica de Cristalografia e Difração de Raios-X, é importante ressaltar que é comum a formação de contatos cristalinos entre as células unitárias, o que pode estabilizar regiões flexíveis em conformações diferentes das encontradas em solução. Outro fator que pode influenciar na realização de simulações de MD é a correta solvatação do sistema. Diferentes programas de MD, para a representação explícita das moléculas de água geram as posições das moléculas de água de uma forma periódica (respeitando as distâncias médias entre moléculas de água e o soluto) ou utilizam repetições de uma caixa de água pré-equilibrada (com centenas de moléculas de água) para o cálculo das posições das milhares de moléculas de solvente numa simulação de MD. Com isso, torna-se crucial para a realização de uma simulação de MD a realização de etapas de equilibração do sistema para evitar a desestruturação da proteína, ou de regiões da mesma e equilibrar o solvente. Para procurar minimizar esses problemas, nas etapas de equilibração é utilizada uma restrição de posição com um potencial harmônico sobre os átomos pesados da proteína. O processo de otimização esta detalhado na figura IV.3. 86 1 Aquecimento 2 300 Minimização de Energia 250 T (K) 200 100 Equilibração 3 150 50 1 Kcal/mol/Å 0 0 10 20 30 40 50 60 70 80 0 Kcal/mol/Å Constraint Force (Kcal/mol) 200 160 120 80 40 0 0 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 1400 1500 Time (ps) 1.8 1.6 RMSD (Å) 1.4 1.2 1 0.8 0.6 0.4 0.2 0 0 100 200 300 400 500 600 700 800 Time (ps) 900 1000 1100 1200 1300 1400 1500 distance between Ile 50 CA and ASP 25 CA (Å) time (ps) Eq. 2 25 chain A Produção 3 ns chain B 10ns 20 15 10 5 4 5 0 0 3 6 9 12 15 18 21 24 time (ns) Fig. IV.3. Etapas de Otimização e Equilibração do Sistema. Na etapa 1, foi feita uma minimização de energias pelo método de gradiente conjugado, utilizando uma força de restrição de 50 Kcal/mol/Å. A etapa 2 consiste de um processo de termalização onde as velocidades atômicas são sorteadas para obter-se uma distribuição de Boltzmann (gaussiana) para uma temperatura média de 20 K. Utiliza-se um acoplamento térmico do tipo Berendsen para uma temperatura de 300 K, com uma constante de acoplamento de 0,67 ps, que faz com que a temperatura do sistema aumente de uma forma lenta e gradual até atingir a temperatura na qual o sistema será simulado, utlizando restrição de posição para os átomos pesados (5 Kcal/mol/Å), evitando que haja movimentos bruscos ocasionados pela geração aleatória das velocidades atômicas. O ensemble utilizado é NPT (número de átomos, pressão e temperatura constantes, permitindo variações no volume). Após a termalização, as velocidades da etapa anterior são utilizadas para o início das etapas de equilibração. Na etapa 3, tem-se como objetivo a formação e estruturação das camadas de solvatação ao redor da proteína e reduzir as restrições de posição para os átomos da proteína, liberando a acomodação da proteína ao solvente. Como nas etapas subsequentes, um controle mais estreito da temperatura será efetuado, com o uso da constante de acoplamento de 0,1 ps (valor usual em MD). Como representado na figura, a constante harmômica de restrição foi variada em forma de escada de 1 Kcal/mol/Å à 0, a cada 100 ps: 1 K; 0,9 K; 0,8 K; 0,7 K; 0,6 K; 0,5 K; 0,4 K; 0,3 K; 0,2 K; 0,1 K; 0,05 K; 0,025 K; 0,01K; 0,005 K e 0. Logo abaixo, no mesmo quadro está mostrado á força de restrição que foi aplicada ao sistema para manter as restrições impostas. Mas abaixo ainda, está o desvio da estrutura no tempo, em relação à estrutura inicial (RMSD). Como a PR é um homodímero, utilizamos um critério para avaliar o comportamento da PR durante o processo de equilibração, e após a eliminação das restrições de posição, acompanhamos a distância entre o CA do resíduo catalítico (Asp25) e o CA do resíduo da ponta da alça (Ile50) para cada cadeia. Durante os 3 primeiros nanossegundos (etapa 4 - Eq.2), o comportamento das alças da PR de cada cadeia (região mais flexível da PR) não apresentou um comportamento simétrico. Escolhemos então para etapa de produção (5) (dados usados para as análises) os 10 ns após (3-13 ns), pois a PR apresentou um perfil bastante simétrico. Em 2005, Meagher e colaboradores mostraram a importância crítica da equilibração no caso da protease do HIV quando simulada sem ligantes, pelo fato de a cavidade do sítio 87 ativo ter de ser preenchida com moléculas de água, os autores mostraram nesse trabalho que se a solvatação não for adequada (problema resolvido com a equilibração do sistema usando restrição das posições dos átomos da proteína para ocorrer a equilibração do solvente), podese formar como um vácuo que faz com que as alças da PR colapsem (Meagher, K. L. et al., 2005). Um dos critérios seguidos pelos autores foi acompanhar o número de moléculas de água dentro do sítio ativo. Nesta tese, resolvemos fazer esse mesmo cálculo, e de acordo com as definições usadas nesse trabalho, foi então construído um script para fazer este cálculo em nossas simulações, como representado na Tabela IV.1. Tabela IV.1. Número de moléculas de água na cavidade do sítio ativo. Neste trabalho Meagher e colaboradores Número inicial 46 27 Depois da minimização 46 ND Depois do aquecimento 79 ND Depois da equilibração inicial 72 85 Depois da equilibração total 89 89 Tabela IV.1. Número de moléculas de água na cavidade do sítio ativo calculado seguindo os critérios de Meagher et al. 2005. Com estes resultados, fica clara a importância de se fazer etapas de equilibração antes de se começar a analisar a MD, com o sistema ainda em desequilíbrio. Nossos resultados estão em concordância com o estudo realizado por Meagher e colaboradores. Uma segunda forma de validação da nossa simulação de MD, desta vez comparandose com resultados experimentais de RMN, é calcular, a partir da trajetória da MD, o parâmetro de ordem S2 entre os vetores internucleares do H e N amídicos para cada resíduo, 88 obviamente excluindo-se as prolinas. A figura IV.4 mostra a comparação entre resultados da MD e do experimento: parâmetro de ordem S2 entre o N-H amídicos 1 0.9 0.8 0.7 exp 0.6 MD 0.5 0.4 0.3 0.2 0.1 0 0 25 50 75 100 resíduo Fig. IV.4. Concordância entre o parâmetro de ordem S2 entre os vetores correspondentes ao N e H amídicos calculados à partir da trajetória da MD (10 ns) e os resultados experimentais de RMN. Como se pode notar, existe uma ótima correspondência entre os valores calculados da MD e os experimentais também com a protease livre de ligantes, pelo grupo de Freedberg (Freedberg, D. I. et al., 2002). É importante destacar, que é bastante difícil obter uma boa concordância como a deste trabalho, sendo que algumas dificuldades relacionadas a este fato foram relatadas na literatura: o grupo de Meagher encontrou uma correspondência somente qualitativa entre os valores calculados e os experimentais (Smith, P. E. et al., 1995; Case, D. A., 2002; Meagher, K. L. et al., 2005). 89 5.2. Os modos consensus refletem o comportamento da média do sistema As flutuações (RMSF) para os Cα obtidas dos modos consensus (CM) e da NMA sobre as 20 estruturas da MD (usadas para o cálculo dos CM) são mostradas na figura IV.5. 0.6 RMSF (Å) 0.5 0.4 0.3 0.2 0.1 0 0 25 50 75 100 125 150 175 200 Resíduos Figura IV.5. RMSF calculado para cada Cα. As linhas finas coloridas correspondem ao RMSF derivado de cada determinação de NM (cada um dos 20 snapshots da MD); em preto e negrito, derivados dos CM. A média dos RMSF dos 20 snapshots da MD (vermelho em linhas grossas) e a flutuação normalizada derivada dos fatores-B do cristal 1hhp (linha verde grossa). Os resíduos da proteína estao numerados de 1-99 (cadeia A) e 100-198 (cadeia B). As flutuações derivadas dos CM (em preto) correspondem à média das flutuações dos NM calculados sobre os 20 snapshots (linha grossa vermelha). A dependência dos NM para as diferentes estruturas amostradas (diferentes regiões da superfície de energia potencial) é especialmente representada no diferente perfil de flutuações obtidas para cada snapshot (linhas finas coloridas) que apresentam vários picos que não estam presentes nos CM. Esses picos refletem flutuações não usuais que podem ocorrer para uma estrutura em particular, mas que são de pouca importância para o comportamento médio da molécula. Os CM parecem filtrar esses movimentos não usuais, mostrando um comportamento de média, uma das razões para chamarmos de “modos consenso”. 90 A variabilidade observada nos NM de estruturas individuais pode ter várias fontes: pode ser originada tanto de pequenas variações nas posições atômicas, ou mudanças nas interações entre os grupos de átomos; como exemplo, mudanças na organização das camadas de solvatação ao redor da proteína. O processo de minimização de energia e o campo de forças, essencias para o cálculo de NM, podem também introduzir variabilidade. Por exemplo, após o procedimento de minimização de energia, uma dada estrutura tipicamente varia na ordem de 0,6 a 1 Å da estrutura inicial. No caso de proteínas com domínios bastante flexíveis ou grandes cavidades, essas regiões podem colapsar quando submetidas à minimização de energia no vácuo. O uso de múltiplas estruturas reduz então a influência desses artefatos, tendo como resultado modos mais robustos. As flutuações dos CM estão em ótima concordância com as obtidas dos fatores-B (linhas verdes grossas) da estrutura da PR sem ligantes, código PDB 1hhp (Spinelli, S. et al., 1991), apresentando uma correlação entre elas de aproximadamente 0,69. Outra característica bastante marcante dos CM é que suas flutuações apresentam alta simetria entre as duas cadeias da PR (R=0,87), em contraste com os resultados obtidos de NMA de estruturas individuais, para os quais a correlação entre cadeias foi de 0,42±0.1 (média ± desvio padrão). 5.3. Modos consensus descrevem um espaço conformacional mais completo para a descrição de movimentos de grande amplitude Quando se compara as flutuações atômicas (RMSF) obtidas dos CM (1ns) com as derivadas dos modos quasi-harmônicos (quasimodos) calculados sobre a trajetória de 10 ns da MD (como são apresentadas na figura IV.6), pode-se observar que ambos os perfis são muito similares, mostrando que os CM descrevem bem os principais movimentos da MD; o que não é o caso quando os NM de snapshots individuais são considerados separadamente (Fig. IV.4). Por esta análise, não é possivel inferir que o espaço dos movimentos de grande amplitude descritos pelos CM difere dos descritos pelos modos quasi-harmônicos. 91 modos consensus (1ns) 0.35 quasimodos MD (10ns) 0.3 RMSF (Å) 0.25 0.2 0.15 0.1 0.05 0 0 20 40 60 80 100 120 140 160 180 200 resíduos Figura IV.6. Comparação das flutuações (RMSF) dos átomos da proteína, representados para cada residuos, entre os CM (1ns), em preto; e os quasimodos da MD (10 ns), em vermelho. As flutuações derivadas dos quasimodos da MD foram escalados por um fator de 0,1, para melhor sobreposição das curvas. Com o intuito de verificar quanto o espaço conformacional dos CM pode representar os movimentos dos quasimodos da MD, e vice e versa, foi necessário fazer uma análise de projeção cumulativa (ver a seção de Métodos). Esta análise mostra que os vetores dos quasimodos derivados da MD de 10ns apresentam uma sobreposição cumulativa (overlapping cumulativo - CO) com os vetores dos CM maior que 0,8 para os 20 modos de maior amplitude (Figura IV.7, linha preta), sendo que os 3 de maior amplitude apresentam um valor próximo a 1. Isto significa que os movimentos de grande amplitude vistos na MD de 10 ns estão bastante representados no espaço conformacional dos CM de baixa-frequência. O inverso não é valido, ou seja, os movimentos de baixa frequência dos CM são pobremente representados no espaço dos quasimodos (Figura IV.7, linha vermelha). Como mencionado anteriormente, isto é devido ao fato de que os CM são calculados levando-se em conta a forma da superfície da energial potencial, que vem de NMA para um ensemble de estruturas vindas da MD. É importande destacar que no caso de análise dos componentes principais 92 (PCA) ou na ánalise dos quasimodos, normalmente os 3-10 modos de maior amplitude acontam pela maioria (60-90%) dos movimentos totais da proteína, definindo um espaço essencial, representando os principais movimentos de larga-escala (Amadei, A. et al., 1993). 1.0 0.9 Cum. Overlap 0.8 0.7 0.6 0.5 0.4 0.3 0.2 quasimodos MD (10ns) / CM (1ns) 0.1 CM (1ns) /quasimodos MD (10 ns) 0.0 0 20 40 60 80 100 modos Figura IV.7. Concordância entre os CM de baixa-frequência e os quasimodos da MD de 10ns. Análise de projeção cumulativa (cumulative overlap) quando cada vetor dos CM é projetado sobre os 97 modos de mais baixa frequência dos quasimodos da MD (linha vermelha) e o inverso (preto). A numeração dos modos está em frequências crescentes. 5.4. CM calculados de estruturas do 1 ns da MD são mais coletivos que os quasimodos de uma trajetória de MD de 10 ns O termo “coletividade” quando associado, a um movimento, é a medida da natureza de cooperatividade dos deslocamentos atômicos de algum movimento. Este conceito foi colocado em forma de cálculo, de forma análoga ao cálculo de entropia, por Brüschweiler (Bruschweiler, R., 1995). Movimentos coletivos têm sido relacionados a mudanças conformacionais biologicamente importantes. A figura IV.8 mostra que os 40 CM de mais baixa frequência (linha preta) apresenta maior coletividade que os quasimodos de MD de 10 ns (linha vermelha). 93 Média dos NM (±SD) CM (1ns) quasimodos MD (10ns) 0.9 κ (co letivid ad e) 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 10 20 30 40 50 modo 60 70 80 90 100 Figura IV.8. Grau de coletividade dos movimentos da PR. O índice de coletividade κ foi calculado como descrito na seção anterior, para cada CM derivado de MD de 1ns (linha preta) e para os quasimodos calculados sobre a MD de 10ns (vermelho). Também foi calculado á coletividade media (em verde) ±SD sobre os NM das 20 estruturas da MD; os números dos modos são ordenados em frequências crescentes. Notadamente, os CM apresentaram alta coletividade concentrada nos modos de baixa frequência, enquanto nos quasimodos da MD não foi vista nenhuma dependência da frequência. Curiosamente, os valores da coletividade média dos NM calculados sobre as 20 estruturas da MD são significantemente menores que as dos CM, e bem maiores que as dos quasimodos. Além disso, enquanto a figura IV.4 mostra que o perfil de flutuações dos CM é fortemente relacionado à média das flutuações (pois os CM foram calculados da matriz média de covariância dos NM), não existe uma relação simples com as coletividades dos NM individuais. A alta coletividade é então uma propriedade adicional dos modos consensus que integram as características da superfície de energia em torno de vários pontos. 5.5. Versatilidade em calcular os CM para diferentes subconjuntos de átomos Nos cálculos dos CM, as minimizações de energia e NMA são primeiramente feitas para uma série de estruturas (20 estruturas do primeiro nanossegundo da MD – a cada 50 ps, neste trabalho), sendo o sistema composto da proteína mais a primeira camada de solvatação 94 de quadros vindos de simulações de MD. Após as NMA, a matriz de covariância consenso ponderada pela massa (σCM) pode ser calculada para qualquer sub-conjunto de átomos (ex. somente a proteína, esqueleto peptídico, Cα, etc), e ser diagonalizada, resultando nas direções dos CM e suas respectivas frequências para a seleção de átomos considerada. Os resultados dos CM apresentados nas seções anteriores correspondem a um subconjunto dos átomos do sistema aos quais as NMA foram computadas, pois foram calculados os CM para somente a proteína, sendo assim levam em conta (implicitamente) a influência de diferentes configurações das moléculas de água. Posteriormente, uma nova redução foi feita, considerando apenas o subconjunto de Cα átomos do sistema. Uma vantagem clara desse procedimento é que movimentos redundantes do esqueleto peptídico e cadeias laterais são eliminados, uma vez que os autovetores são ortogonais. Mais que isso, ele leva a uma melhor caracterização média dos vetores integrando o efeito principal de acoplamentos específicos da cadeia lateral com o esqueleto peptídico. Essa média permite a filtragem (exclusão) de movimentos locais e leva a uma melhor representação dos movimentos globais. Usar somente os Cα nos permite também a comparação de proteínas com o mesmo número de resíduos (ou domínios conservados numa família protéica), mas com sequências diferentes, tornando possíveis estudos de homologia de movimentos funcionais. Para comparar os resultados dos CM com movimentos inferidos das centenas de estruturas cristalográficas da PR, nós então recalculamos os CM para o sub-conjunto dos átomos dos Cα dos resíduos da PR (Cα-CM). Foi então realizado PCA para 3 diferentes conjuntos de dados, como descrito na seção de métodos. A figura IV.9 mostra que o subespaço dos Cα-CM (97 modos de mais baixa frequência) descreve muito bem a dinâmica essencial dos 3 grupos de dados, com uma sobreposição cumulativa entre 0,60 e 0,97. Para os movimentos da MD de 10 ns, considerando somente os Cα, obtem-se um alto valor de CO entre cada quasimodo e os Cα-CM. É interessante notar que os Cα-CM representaram muito 95 melhor o subespaço dos movimentos da MD que quando se considera todos os átomos da proteína (valores de CO entre 0.75 e 0.90) (figura IV.7). Essa melhora na descrição dos CO movimentos vem do processo de média, como discutido anteriormente. 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 MD RMN cristal 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 modos Figura IV.9. Concordância entre os CM-Cα e os vetores da PCA de 3 datasets. Análise de projeção cumulativa (cumulative overlap, CO) quando cada vetor dos CM-Cα é projetado sobre os 97 PC de maior amplitude da MD (linha preta), da PCA sobre as 270 estruturais cristalográficas (vermelho) e sobre as 28 estruturas de RMN (verde). A numeração dos modos está em frequências crescentes. Os CM se mostraram bastante eficientes em descrever o espaço dos movimentos de baixa frequência para os outros dois grupos de dados, as estruturas obtidas por Raios-X e de RMN, porém o CO não foi tão alto quanto o dos quasimodes da MD. Isto se deve ao fato de quase a totalidade das estruturas se encontrarem em complexos com inibidores/sustratos, e apresentando assim em suas estruturas as alças na posição fechada. No entanto, a estrutura inicial da MD utilizada foi da PR sem ligantes, com as alças na conformação semi-aberta. 5.6. Movimentos biologicamente relevantes descritos pelos CM Movimentos coletivos de baixa-frequência/grande amplitude são importantes na descrição da dinâmica de proteínas em uma escala de tempo grande, consistindo em muitos 96 casos em movimentos de domínios que estão muitas vezes relacionados a funções biológicas. Um dos aspectos mais importantes provenientes dos nossos resultados é que os CM permitem a caracterização de movimentos de escalas de tempo maiores que as das MD das quais as estruturas foram tomadas para o seu cálculo. No presente estudo, foram amostradas 20 estruturas do primeiro nanossegundo da simulação de MD. Os CM descrevem movimentos de escalas maiores que uma ordem de grandeza, no caso 10 ns de MD. Em nossas análises da PR usando os CM, os modos de mais baixa frequência estão relacionados a movimentos de expansão ou deformação do sítio ativo, resultando principalmente em movimentos de translação/rotação entre os monomeros da PR. Destacamse entre esses movimentos de grande amplitude principalmente os da região das alças, como pode ser visto na figura IV.10, que descreve esses movimentos e destaca sua importância para a ligação de substratos/inibidores. Tanto nos Cα-CM quanto nos CM calculados para todos os átomos da PR, foram encontrados modos relacionados a movimentos na região das alças. O terceiro modo de mais baixa frequência descreve o mecanismo de abertura e fechamento das alças. Já o quinto modo, descreve o aumento da distância entre as pontas das alças (tips) e cada aminoácido catalítico (Asp25), que está diretamente relacionado com mudanças na forma e volume do sítio ativo. Este modo está relacionado à plasticidade intrínsica do sítio ativo da PR em se ligar e acomodar diferentes ligantes. Para demonstrar isso, foram comparadas duas estruturas de PR complexadas a inibidores com diferenças representativas no volume e tamanho, como no estudo de Teodoro e colaboradores: 4HVP and 1AID (Fig. IV.10 B), onde o grupo mostrou uma boa concordância entre o primeiro modo coletivo e as diferenças na região das alças destas duas estruturas (Teodoro, M. L. et al., 2003). No nosso trabalho, o quinto Cα-CM de mais baixa frequência descreve muito bem a transição conformacional entre essas duas 97 estruturas (Fig. IV.10 A), com um overlapping de 40% entre os vetores desse CM e os vetores que descrevem essa mudança conformacional, como descrito na seção de métodos. Ligação a diferentes inibidores A B 4hvp 1aid modo 5 Formas ligada e livre C D 1hhp – semi-aberta – sem ligante 4hvp – fechada – com ligante modo 3 modo 5 Figura IV.10. Movimentos de baixa frequência dos CM descrevem a flexibilidade intríseca da região das alças da PR. A) Representação do traçado do esqueleto peptídico das duas estruturas ligadas a inibidores diferentes, 4hvp (em azul) e 1aid (em vermelho) e as estruturas intermediárias descritas pelo quinto CΑ-CM de baixa frequência. B) Esse modo descreve bem a mudança da forma e volume do sítio ativo necessária para acomodar ligantes de variados tamanhos e volumes; C) Representação da sobreposição do esqueleto peptídico das formas ligada(4hvp) e livre (1hhp, em vermelho) da PR; D) São representados os vetores (setas) do 3° e 5° CM de mais baixa frequência envolvidos em movimentos que descrevem a mudança conformacional entre as formas fechada (com ligante) para a semi-aberta (sem ligantes). Mais que isso, o 3° modo descreve a abertura/fechamento das alças. As flechas grossas representam as direções principais dos movimentos. 98 Os terceiro e quinto CM de mais baixa frequência descrevem o mecanismo de abertura e fechamento das alças da PR, assim como descreve mudanças estruturais ocorridas com a interação com ligantes – quando a PR está ligada a inibidores (4HVP) – e a forma apo (1HHP), ver figura IV.10 C. Esses movimentos são importantes para entrada e estabilização do ligante no sítio ativo. Cada um desses CΑ-CM apresenta um overlap de aproximadamente 30% com a transição conformacional entre as estruturas 4HVP para 1HHP. As direções desses movimentos estão apresentados na figura IV.10 C e D. Foi observado também que os movimentos na região das alças está acoplado com movimentos em outros domínios da PR, como os cotovelos das alças. Isto sugere que possivelmente mutações nessa região podem alterar a dinâmica das alças e assim interferir com a acessibilidade e interação de ligantes no sítio ativo. 99 6. Conclusões Este capítulo descreve um novo método para se obter movimentos representativos relacionados a um conjunto de estruturas, baseado na curvatura da superfície de energia potencial para cada conformação, fazendo uso da teoria de modos normais. Foi mostrado que tais modos consenso correspondem, de certa forma, a uma média dos modos normais, sendo assim são descrições mais robustas dos movimentos vibracionais de uma macromolécula que os modos normais obtidos de uma estrutura única. Os CM se mostraram mais coletivos que os quasimodos obtidos da MD e que a determinação de NM para estruturas individuais. Eles descrevem movimentos que correspondem a escalas de tempo que podem ser maiores que uma ordem de grandeza que o período da trajetória de MD das quais eles foram calculados. No caso da PR, que tem sua estrutura como um homodímero, os CM mostram uma simetria entre as cadeias muito maiores que os NM calculados de cada estrutura ou aos modos quasi-harmônicos da MD. Neste trabalho, as estruturas amostradas em diferentes pontos da superfície de energia potencial foram provenientes de poses da MD. Em princípio, o conjunto de estruturas poderia vir de diferentes fontes. No caso da MD, é uma fonte relevante devido ao fato de a MD explorar diversos pontos da superfície de energia potencial, respeitando a um grupo de parâmetros, conhecidos como campos de forças, que são os mesmo utilizados no cálculo dos NM. Podemos destacar outras duas fontes experimentais de estruturas: (i) as mais de 270 estruturas cristalográficas e (ii) as múltiplas estruturas de RMN, obtendo assim modos mais robustos e com isso uma melhor descrição dos movimentos globais da PR. A análise dos CM pode permitir a identificação de resíduos que tem um papel chave em movimentos funcionais relacionados com o reconhecimento e interação de ligantes, por exemplo, podendo ser de grande utilidade para auxiliar em experimentos de mutagênese 100 dirigida. Movimentos descritos pelos CM podem ser explorados usando minimização de energia ou MD com restrições harmônicas nas direções dos modos, para se obter uma melhor descrição estrutural e energética de mudanças conformacionais. (Floquet, N. et al., 2006a; Floquet, N. et al., 2008; Floquet, N. et al., 2009). 101 “Para o sangue, sou o veneno, eu mato, eu como, eu dreno Para o resto da vida, sou extremo... Sou o HIV que você não vê Você não me vê, mas eu vejo você (Rita Lee) V. CONCLUSÕES GERAIS Esta tese consistiu em duas bem sucedidas aplicações da MD: i. em estudos da interação da PR de diferentes subtipos com o inibidor ritonavir; ii. como fonte de amostragem estrutural para o desenvolvimento de uma nova metodologia para o estudo da flexibilidade protéica baseado na exploração de múltiplos mínimos por NMA. No primeiro caso, foi descrito o mecanismo molecular para explicar a menor afinidade de PR subtipos não-B contra o ritonavir, dando origem ao primeiro trabalho de dinâmica molecular da PR de subtipos não-B. Isto ficou como um marco do início dos estudos estruturais em subtipos não-B do HIV, visto que até o momento da publicação do artigo sobre este trabalho não existia nenhuma estrutura experimental, nem modelos estruturais de PR subtipos não-B. No segundo, foi descrito e desenvolvido um novo método para obtenção de movimentos representativos relacionados a um conjunto de estruturas, baseado na curvatura da superfície de energia potencial para cada conformação, fazendo uso da teoria de modos normais. Os CM descrevem movimentos que correspondem a escalas de tempo que podem ser maiores que uma ordem de grandeza que o período da trajetória de MD das quais eles foram calculados e são mais simétricos. Neste trabalho, as estruturas amostradas em diferentes pontos da superfície de energia potencial foram provenientes de poses da MD. Em princípio, 102 o conjunto de estruturas poderia vir de diversas diferentes fontes, como: (i) as mais de 270 estruturas cristalográficas e (ii) as múltiplas estruturas de RMN, obtendo assim modos mais robustos e com isso uma melhor descrição dos movimentos globais da PR. A análise dos CM pode permitir a identificação de resíduos que tem um papel chave em movimentos funcionais relacionados com o reconhecimento e interação de ligantes, por exemplo, podendo ser de grande utilidade para auxiliar em experimentos de mutagênese dirigida. Movimentos descritos pelos CM podem ser explorados usando minimização de energia ou MD com restrições harmônicas nas direções dos modos, para se obter uma melhor descrição estrutural e energética de mudanças conformacionais. 103 “Para o sangue, sou o veneno, eu mato, eu como, eu dreno Para o resto da vida, sou extremo... Sou o HIV que você não vê Você não me vê, mas eu vejo você (Rita Lee) VI. REFERÊNCIAS (Biomalpar), E. N. O. E. F. B. A. P. O. T. M. P. 2nd annual Biology and Pathology of the Malaria Parasite conference, Heidelberg. 2006. Abdel-Meguid, S. S. Inhibitors of aspartyl proteinases. Med Res Rev, v.13, n.6, Nov, p.731-78. 1993. Abecasis, A. B., K. Deforche, et al. Protease mutation M89I/V is linked to therapy failure in patients infected with the HIV-1 non-B subtypes C, F or G. Aids, v.19, n.16, Nov 4, p.1799-806. 2005. Adamovic, I., S. M. Mijailovich, et al. The Elastic Properties of the Structurally Characterized Myosin II S2 Subdomain: A Molecular Dynamics and Normal Mode Analysis. Biophysical Journal, v.94, n.10, p.3779-3789. 2008. Alcaraz, L. A., M. Del Alamo, et al. Structural mobility of the monomeric Cterminal domain of the HIV-1 capsid protein. Febs J, v.275, n.13, Jul, p.3299-311. 2008. Aline Thomas, K. H. M. J. F. D. P. Tertiary and quaternary conformational changes in aspartate transcarbamylase: a normal mode study. 34: 96-112 p. 1999. Amadei, A., A. B. Linssen, et al. Essential dynamics of proteins. ProteinsStructure Function And Bioinformatics, v.17, n.4, Dec, p.412-25. 1993. Amorim, G. C., A. S. Pinheiro, et al. NMR solution structure of the reduced form of thioredoxin 2 from Saccharomyces cerevisiae. J Biomol NMR, v.38, n.1, May, p.99-104. 2007. Aqvist, J., V. B. Luzhkov, et al. Ligand binding affinities from MD simulations. Acc Chem Res, v.35, n.6, Jun, p.358-65. 2002. 104 Aqvist, J. e J. Marelius. The linear interaction energy method for predicting ligand binding free energies. Combinatorial Chemistry & High Throughput Screening, v.4, n.8, DEC, p.613-626. 2001. Aqvist, J., C. Medina, et al. A new method for predicting binding affinity in computer-aided drug design. Protein Eng, v.7, n.3, Mar, p.385-91. 1994. Arien, K. K., A. Abraha, et al. The replicative fitness of primary human immunodeficiency virus type 1 (HIV-1) group M, HIV-1 group O, and HIV-2 isolates. J Virol, v.79, n.14, Jul, p.8979-90. 2005. Asojo, O. A., E. Afonina, et al. Structures of Ser205 mutant plasmepsin II from Plasmodium falciparum at 1.8 A in complex with the inhibitors rs367 and rs370. Acta Crystallogr D Biol Crystallogr, v.58, n.Pt 12, p.2001-8. 2002. Asojo, O. A., S. V. Gulnik, et al. Novel uncomplexed and complexed structures of plasmepsin II, an aspartic protease from Plasmodium falciparum. J Mol Biol, v.327, n.1, p.173-81. 2003. Atlas, A., F. Granath, et al. Impact of HIV type 1 genetic subtype on the outcome of antiretroviral therapy. AIDS Res Hum Retroviruses, v.21, n.3, Mar, p.221-7. 2005. Baldwin, E. T., T. N. Bhat, et al. Crystal structures of native and inhibited forms of human cathepsin D: implications for lysosomal targeting and drug design. Proc Natl Acad Sci U S A, v.90, p.6796-6800. 1993. Balog, E., J. C. Smith, et al. Conformational heterogeneity and low-frequency vibrational modes of proteins. Phys Chem Chem Phys, v.8, n.47, Dec 21, p.5543-8. 2006. Balsera, M. A., W. Wriggers, et al. Principal component analysis and long time protein dynamics. Journal of Physical Chemistry, v.100, n.7, Feb 15, p.2567-2572. 1996. Banerjee, R., J. Liu, et al. Four plasmepsins are active in the Plasmodium falciparum food vacuole, including a protease with an active-site histidine. Proc Natl Acad Sci U S A, v.99, n.2, p.990-5. 2002. Banerjee, R. G., D. E. In: Antimalarial Chemotherapy, Mechanism of Action, Resistance, and New Directions in Drug Discovery. ed. Rosenthal, P. J. (Humana, Totowa, NJ), pp. 43–63. 2001. Barrett, A. J., Ed. An introduction to the proteinases En: “Proteinase Inhibitors”. Amsterdam.: Elsevier Science Publishersed. 1986. Barrett, A. J., N. D. Rawlings, et al. The MEROPS database as a protease information system. J Struct Biol, v.134, p.95-102. 2001. 105 Barton, D. H. R. Some Recollections of Gap Jumping. Oxford: Oxford University Press. 1998 Batista, P. R., A. Wilter, et al. Molecular dynamics simulations applied to the study of subtypes of HIV-1 protease common to Brazil, Africa, and Asia. Cell Biochem Biophys, v.44, n.3, p.395-404. 2006. Bellocchi, M. C., F. Forbici, et al. Subtype analysis and mutations to antiviral drugs in HIV-1-infected patients from Mozambique before initiation of antiretroviral therapy: results from the DREAM programme. J Med Virol, v.76, n.4, Aug, p.452-8. 2005. Benson, D. A., I. Karsch-Mizrachi, et al. GenBank. Nucleic acids research, v.36, n.Database issue, Jan, p.D25-30. 2008. Berendsen, H. J. C., J. P. M. Postma, et al. Molecular-Dynamics with Coupling to an External Bath. Journal of Chemical Physics, v.81, n.8, p.3684-3690. 1984. Bernstein, F. C., T. F. Koetzle, et al. The Protein Data Bank: a computerbased archival file for macromolecular structures. Journal of molecular biology, v.112, n.3, May 25, p.535-42. 1977. Bernstein, N. K., M. M. Cherney, et al. Crystal structure of the novel aspartic proteinase zymogen proplasmepsin II from plasmodium falciparum. Nat Struct Biol, v.6, n.1, p.32-7. 1999. Bernstein, N. K., M. M. Cherney, et al. Structural insights into the activation of P. vivax plasmepsin. J Mol Biol, v.329, n.3, p.505-24. 2003. Bhargavi, R., G. M. Sastry, et al. Structural and active site analysis of plasmepsins of Plasmodium falciparum: potential anti-malarial targets. Int J Biol Macromol, v.37, n.1-2, p.73-84. 2005. Bjelic, S. e J. Aqvist. Computational prediction of structure, substrate binding mode, mechanism, and rate for a malaria protease with a novel type of active site. Biochemistry, v.43 n.46, p.14521-8. 2004. Bjelic, S. e J. Aqvist. Catalysis and linear free energy relationships in aspartic proteases. Biochemistry, v.45, n.25, p.7709-23. 2006. Bocket, L., A. Cheret, et al. Impact of human immunodeficiency virus type 1 subtype on first-line antiretroviral therapy effectiveness. Antivir Ther, v.10, n.2, p.247-54. 2005. Bonilla, J. A., T. D. Bonilla, et al. Critical roles for the digestive vacuole plasmepsins of Plasmodium falciparum in vacuolar function. Mol Microbiol, v.65, n.1, p.64-75. 2007. 106 Born, M. e T. Von Kármán. Vibrations in Space Gratings (Molecular Frequencies). Z. Physik., v.13, p.297-309. 1912. Boss, C., O. Corminboeuf, et al. Achiral, cheap, and potent inhibitors of Plasmepsins I, II, and IV. ChemMedChem, v.1 n.12, p.1341-5. 2006. Boss, C., S. Richard-Bildstein, et al. Inhibitors of the Plasmodium falciparum parasite aspartic protease plasmepsin II as potential antimalarial agents. Curr Med Chem, v.10, p.883-907. 2003 Breman, J. G. The ears of the hippopotamus: Manifestations, determinants, and estimates of the malaria burden. Am. J. Trop. Med. Hyg, v.64, p.1-11. 2001. Brik, A. e C. H. Wong. HIV-1 protease: mechanism and drug discovery. Org Biomol Chem, v.1, n.1, Jan 7, p.5-14. 2003. Brinkworth, R. I., P. Prociv, et al. Hemoglobin-degrading, aspartic proteases of blood-feeding parasites: substrate specificity revealed by homology models. J Biol Chem, v.276 n.42, p.38844-51. 2001. Brooks, B. e M. Karplus. Harmonic dynamics of proteins: normal modes and fluctuations in bovine pancreatic trypsin inhibitor. Proc Natl Acad Sci USA, v.80, n.21, Nov, p.6571-5. 1983. Brooks, B. e M. Karplus. Normal modes for specific motions of macromolecules: application to the hinge-bending mode of lysozyme. Proc Natl Acad Sci U S A, v.82, n.15, Aug, p.4995-9. 1985. Brooks, B. R., R. E. Bruccoleri, et al. Charmm - a Program for Macromolecular Energy, Minimization, and Dynamics Calculations. Journal of Computational Chemistry, v.4, n.2, p.187-217. 1983. Brooks, C. L., M. Karplus, et al. Proteins: A Theoretical Perspective of Dynamics Structure ad Thermodynamics. In: (Ed.). Advances in chemical physics. New York: John Wiley & Sons, v.LXXI, 1988. Proteins: A Theoretical Perspective of Dynamics Structure ad Thermodynamics Bruschweiler, R. Collective Protein Dynamics and Nuclear-Spin Relaxation. Journal of Chemical Physics, v.102, n.8, Feb 22, p.3396-3403. 1995. Calazans, A., R. Brindeiro, et al. Low accumulation of L90M in protease from subtype F HIV-1 with resistance to protease inhibitors is caused by the L89M polymorphism. J Infect Dis, v.191, n.11, Jun 1, p.1961-70. 2005. Caride, E., K. Hertogs, et al. Genotypic and phenotypic evidence of different drug-resistance mutation patterns between B and non-B subtype isolates of 107 human immunodeficiency virus type 1 found in Brazilian patients failing HAART. Virus Genes, v.23, n.2, p.193-202. 2001. Cascella, M., C. Micheletti, et al. Evolutionarily conserved functional mechanics across pepsin-like and retroviral aspartic proteases. J Am Chem Soc, v.127, n.11, Mar 23, p.3734-42. 2005. Case, D. A. Molecular dynamics and NMR spin relaxation in proteins. Accounts of chemical research, v.35, n.6, Jun, p.325-31. 2002. Chagas, A. P. 100 anos do Prêmio Nobel de química - Jacobus Henricus van`t Hoff. Química Nova na Escola, v.14, p.25-27. 2001. Cheatham, T. E., Iii, J. L. Miller, et al. Molecular Dynamics Simulations on Solvated Biomolecular Systems: The Particle Mesh Ewald Method Leads to Stable Trajectories of DNA, RNA, and Proteins. 117: 4193-4194 p. 1995. Chollet, A. e G. Turcatti. Biophysical approaches to G protein-coupled receptors: structure, function and dynamics. Journal of computer-aided molecular design, v.13, n.3, May, p.209-19. 1999. Clark, M., R. D. Cramer, et al. Validation of the General-Purpose Tripos 5.2 Force-Field. Journal of Computational Chemistry, v.10, n.8, DEC, p.9821012. 1989. Clemente, J. C., L. Govindasamy, et al. Structure of the aspartic protease plasmepsin 4 from the malarial parasite Plasmodium malariae bound to an allophenylnorstatine-based inhibitor. Acta Crystallogr D Biol Crystallogr, v.62, n.Pt 3, p.246-52. 2006. Collins, J. R., S. K. Burt, et al. Activated dynamics of flap opening in HIV-1 protease. Adv Exp Med Biol, v.362, p.455-60. 1995a. Collins, J. R., S. K. Burt, et al. Flap opening in HIV-1 protease simulated by 'activated' molecular dynamics. Nat Struct Biol, v.2, n.4, Apr, p.334-8. 1995b. Crawford, S. e S. P. Goff. A deletion mutation in the 5' part of the pol gene of Moloney murine leukemia virus blocks proteolytic processing of the gag and pol polyproteins. J Virol, v.53, n.3, Mar, p.899-907. 1985. Cui, Q., G. Li, et al. A Normal Mode Analysis of Structural Plasticity in the Biomolecular Motor F1-ATPase. Journal of Molecular Biology, v.340, n.2, p.345-372. 2004. Dame, J. B., C. A. Yowell, et al. Plasmepsin 4, the food vacuole aspartic proteinase found in all Plasmodium spp. infecting man. Mol Biochem Parasitol, v.130, n.1, p.1-12. 2003. 108 Davies, D. The structure and function of the aspartic proteinases. Annu Rev Biophys Biophys Chem, v.19, p.189-215. 1990. De Arellano, E. R., V. Soriano, et al. New findings on transcription regulation across different HIV-1 subtypes. Aids Reviews, v.8, n.1, JAN-MAR, p.9-16. 2006. De Wit, S., R. Boulme, et al. Viral load and CD4 cell response to protease inhibitor-containing regimens in subtype B versus non-B treatment-naive HIV-1 patients. Aids, v.18, n.17, Nov 19, p.2330-1. 2004. Debouck, C., J. G. Gorniak, et al. Human immunodeficiency virus protease expressed in Escherichia coli exhibits autoprocessing and specific maturation of the gag precursor. Proc Natl Acad Sci U S A, v.84, n.24, Dec, p.8903-6. 1987. Ding, F., M. Layten, et al. Solution structure of HIV-1 protease flaps probed by comparison of molecular dynamics simulation ensembles and EPR experiments. J Am Chem Soc, v.130, n.23, Jun 11, p.7184-5. 2008. Dos Santos, H. F. O conceito da Modelagem Molecular. Cadernos Temáticos de Química Nova na Escola, v.4, Maio, p.4-5. 2001. Drew, M., R. Banerjee, et al. Plasmodium food vacuole plasmepsins are activated by falcipains. J Biol Chem. 2008. Dumans, A. T., M. A. Soares, et al. Synonymous genetic polymorphisms within Brazilian human immunodeficiency virus Type 1 subtypes may influence mutational routes to drug resistance. J Infect Dis, v.189, n.7, Apr 1, p.1232-8. 2004. Dunn, B. Structure and mechanism of the pepsin-like family of aspartic peptidases. Chem Rev, v.102, p.4431-4458. 2002. Dunn, B. M. e S. Hung. The two sides of enzyme-substrate specificity: lessons from the aspartic proteinases. Biochim Biophys Acta, v.1477, n.1-2, p.231-40. 2000. E. Bright Wilson, Jr., G. D. John, et al. Molecular Vibrations: AAPT. 23: 550 p. 1955. Ersmark, K., I. Feierberg, et al. Potent inhibitors of the Plasmodium falciparum enzymes plasmepsin I and II devoid of cathepsin D inhibitory activity. J Med Chem, v.47, p.110-22. 2004 Ersmark, K., I. Feierberg, et al. C2-symmetric inhibitors of Plasmodium falciparum plasmepsin II: synthesis and theoretical predictions. Bioorg Med Chem, v.11, p.3723-33. 2003 109 Fairlie, D. P., J. D. Tyndall, et al. Conformational selection of inhibitors and substrates by proteolytic enzymes: Implications for drug design and polypeptide processing. J Med Chem, v.43, p.1271-1281. 2000. Fitzgerald, P. M., B. M. Mckeever, et al. Crystallographic analysis of a complex between human immunodeficiency virus type 1 protease and acetylpepstatin at 2.0-A resolution. J Biol Chem, v.265, n.24, Aug 25, p.14209-19. 1990. Floquet, N., S. Dedieu, et al. Human thrombospondin's (TSP-1) C-terminal domain opens to interact with the CD-47 receptor: a molecular modeling study. Archives of biochemistry and biophysics, v.478, n.1, Oct 1, p.103-9. 2008. Floquet, N., P. Durand, et al. Collective motions in glucosamine-6-phosphate synthase: influence of ligand binding and role in ammonia channelling and opening of the fructose-6-phosphate binding site. J Mol Biol, v.385, n.2, Jan 16, p.653-64. 2009. Floquet, N., J. D. Marechal, et al. Normal mode analysis as a prerequisite for drug design: application to matrix metalloproteinases inhibitors. FEBS letters, v.580, n.22, Oct 2, p.5130-6. 2006a. Floquet, N., J. D. Marechal, et al. Normal mode analysis as a prerequisite for drug design: application to matrix metalloproteinases inhibitors. FEBS Lett, v.580, n.22, Oct 2, p.5130-6. 2006b. Forshey, B. M., J. Shi, et al. Structural requirements for recognition of the human immunodeficiency virus type 1 core during host restriction in owl monkey cells. J Virol, v.79, n.2, Jan, p.869-75. 2005. Francis, S. E., R. Banerjee, et al. Biosynthesis and maturation of the malaria aspartic hemoglobinases plasmepsins I and II. J Biol Chem, v.272, n.23, p.14961-8. 1997. Frater, A. J., A. Beardall, et al. Impact of baseline polymorphisms in RT and protease on outcome of highly active antiretroviral therapy in HIV-1-infected African patients. Aids, v.15, n.12, Aug 17, p.1493-502. 2001. Freedberg, D. I., R. Ishima, et al. Rapid structural fluctuations of the free HIV protease flaps in solution: relationship to crystal structures and comparison with predictions of dynamics calculations. Protein Sci, v.11, n.2, Feb, p.221-32. 2002. Freitas, L. C. G. Prêmio Nobel de química de 1999. Química Nova na Escola, v.8, p.3-6. 1998. Fujinaga, M., M. M. Chernaia, et al. Crystal structure of human pepsin and its complex with pepstatin. Protein Sci, v.4, p.960-972. 1995. 110 Gaillard, T., E. Martin, et al. Comparative Normal Mode Analysis of LFA-1 Integrin I-domains. Journal of Molecular Biology, v.374, n.1, p.231-249. 2007. Gardner, M. J., N. Hall, et al. Genome sequence of the human malaria parasite Plasmodium falciparum. Nature, v.419, p.498-511. 2002. Garrett, R. e C. M. Grisham. Biochemistry. Fort Worth: Saunders College Pub. 1995. 1 v. (various pagings) p. Gonzalez, L. M., R. M. Brindeiro, et al. Impact of nelfinavir resistance mutations on in vitro phenotype, fitness, and replication capacity of human immunodeficiency virus type 1 with subtype B and C proteases. Antimicrob Agents Chemother, v.48, n.9, Sep, p.3552-5. 2004. Gonzalez, L. M., R. M. Brindeiro, et al. In vitro hypersusceptibility of human immunodeficiency virus type 1 subtype C protease to lopinavir. Antimicrob Agents Chemother, v.47, n.9, Sep, p.2817-22. 2003. Grossman, Z., V. Istomin, et al. Genetic variation at NNRTI resistanceassociated positions in patients infected with HIV-1 subtype C. Aids, v.18, n.6, Apr 9, p.909-15. 2004. Grossman, Z., E. E. Paxinos, et al. Mutation D30N is not preferentially selected by human immunodeficiency virus type 1 subtype C in the development of resistance to nelfinavir. Antimicrob Agents Chemother, v.48, n.6, Jun, p.2159-65. 2004. Gustchina, A. e I. T. Weber. Comparison of inhibitor binding in HIV-1 protease and in non-viral aspartic proteases: the role of the flap. FEBS Lett, v.269, n.1, Aug 20, p.269-72. 1990. Haque, T. S., A. G. Skillman, et al. Potent, low-molecular-weight non-peptide inhibitors of malarial aspartyl protease plasmepsin II. J Med Chem, v.42, n.8, p.1428-40. 1999. Herring, B. L., Y. C. Ge, et al. Segregation of human immunodeficiency virus type 1 subtypes by risk factor in Australia. J Clin Microbiol, v.41, n.10, Oct, p.4600-4. 2003. Hess, B., H. Bekker, et al. LINCS: A linear constraint solver for molecular simulations. Journal of Computational Chemistry, v.18, n.12, SEP, p.14631472. 1997. Ho, D. D., A. U. Neumann, et al. Rapid Turnover of Plasma Virions and Cd4 Lymphocytes in Hiv-1 Infection. Nature, v.373, n.6510, JAN 12, p.123-126. 1995. 111 Hornak, V., A. Okur, et al. HIV-1 protease flaps spontaneously open and reclose in molecular dynamics simulations. Proc Natl Acad Sci U S A, v.103, n.4, Jan 24, p.915-20. 2006. Hsu, L. Y., R. Subramaniam, et al. Characterization of mutations in CRF01_AE virus isolates from antiretroviral treatment-naive and experienced patients in Singapore. J Acquir Immune Defic Syndr, v.38, n.1, Jan 1, p.5-13. 2005. Huber, R. e W. S. Bennett, Jr. Functional significance of flexibility in proteins. Biopolymers, v.22, n.1, Jan, p.261-79. 1983. Hulten, J., N. M. Bonham, et al. Cyclic HIV-1 protease inhibitors derived from mannitol: Synthesis, inhibitory potencies, and computational predictions of binding affinities. Journal of Medicinal Chemistry, v.40, n.6, MAR 14, p.885-897. 1997. Hyland, L. J., T. A. Tomaszek, Jr., et al. Human immunodeficiency virus-1 protease. 2. Use of pH rate studies and solvent kinetic isotope effects to elucidate details of chemical mechanism. Biochemistry, v.30, n.34, Aug 27, p.8454-63. 1991. Ingr, M., T. Uhlikova, et al. Kinetics of the dimerization of retroviral proteases: the "fireman's grip" and dimerization. Protein Sci, v.12, n.10, Oct, p.2173-82. 2003. Ishima, R. e J. M. Louis. A diverse view of protein dynamics from NMR studies of HIV-1 protease flaps. Proteins, v.70, n.4, Mar, p.1408-15. 2008. James, M. N. G., Ed. In Handbook of Proteolytic Enzymes, Catalytic pathway of aspartic peptidases. London: Elsevier, p.p.12-19, 2 edn ed. 2004. Janin, J. e F. Rodier. Protein-protein interaction at crystal contacts. Proteins-Structure Function and Genetics, v.23, n.4, Dec, p.580-587. 1995. Jaskolski, M., A. G. Tomasselli, et al. Structure at 2.5-A resolution of chemically synthesized human immunodeficiency virus type 1 protease complexed with a hydroxyethylene-based inhibitor. Biochemistry, v.30, p.1600-1609. 1991. Jean-François Gibrat, N. G. e Omacr. Normal mode analysis of human lysozyme: Study of the relative motion of the two domains and characterization of the harmonic motion. 8: 258-279 p. 1990. John-Stewart, G. C., R. W. Nduati, et al. Subtype C Is associated with increased vaginal shedding of HIV-1. J Infect Dis, v.192, n.3, Aug 1, p.492-6. 2005. 112 Jorgensen, W. L., J. Chandrasekhar, et al. Comparison of Simple Potential Functions for Simulating Liquid Water. Journal of Chemical Physics, v.79, n.2, p.926-935. 1983. Kanki, P. J., D. J. Hamel, et al. Human immunodeficiency virus type 1 subtypes differ in disease progression. J Infect Dis, v.179, n.1, Jan, p.68-73. 1999. Kantor, R. e D. Katzenstein. Polymorphism in HIV-1 non-subtype B protease and reverse transcriptase and its potential impact on drug susceptibility and drug resistance evolution. AIDS Rev, v.5, n.1, Jan-Mar, p.25-35. 2003. Kantor, R., D. A. Katzenstein, et al. Impact of HIV-1 subtype and antiretroviral therapy on protease and reverse transcriptase genotype: results of a global collaboration. PLoS Med, v.2, n.4, Apr, p.e112. 2005. Karplus, M. e J. N. Kushick. Method for estimating the configurational entropy of macromolecules. Macromolecules, v.14, n.2, p.325-332. 1981. Karplus, M. e D. L. Weaver. Protein-folding dynamics. Nature, v.260, n.5550, Apr 1, p.404-6. 1976. Katoh, E., J. M. Louis, et al. A solution NMR study of the binding kinetics and the internal dynamics of an HIV-1 protease-substrate complex. Protein Sci, v.12, n.7, Jul, p.1376-85. 2003. Kempf, D. J., K. C. Marsh, et al. ABT-538 is a potent inhibitor of human immunodeficiency virus protease and has high oral bioavailability in humans. Proc Natl Acad Sci U S A, v.92, n.7, Mar 28, p.2484-8. 1995. Keskin, O., S. R. Durell, et al. Relating molecular flexibility to function: a case study of tubulin. Biophys J, v.83, n.2, Aug, p.663-80. 2002. Kim, E., S. Jang, et al. Direct folding studies of various alpha and beta strands using replica exchange molecular dynamics simulation. Journal of Chemical Physics, v.128, n.17, May 7, p.-. 2008. Kim, M. K., R. L. Jernigan, et al. An elastic network model of HK97 capsid maturation. Journal of Structural Biology, v.143, n.2, p.107-117. 2003. Kiso, A., K. Hidaka, et al. Search for substrate-based inhibitors fitting the S2' space of malarial aspartic protease plasmepsin II. J Pept Sci, v.10, n.11, p.641-7. 2004. Klemba, M., W. Beatty, et al. Trafficking of plasmepsin II to the food vacuole of the malaria parasite Plasmodium falciparum. J Cell Biol, v.164, n.1, p.4756. 2004. 113 Kohl, N. E., E. A. Emini, et al. Active human immunodeficiency virus protease is required for viral infectivity. Proc Natl Acad Sci U S A, v.85, n.13, Jul, p.4686-90. 1988. Koichi Itoh, T. S. Vibrational frequencies and modes of alpha-helix. 9: 383399 p. 1970. Koval'skii, D. B., D. S. Kanibolotskii, et al. [Conformational changes in HIV-1 proteinase: effect of protonation of the active center on conformation of HIV1 proteinase in water]. Ukr Biokhim Zh, v.74, n.6, Nov-Dec, p.135-8. 2002. Kumar, M., V. Prashar, et al. Observation of a tetrahedral reaction intermediate in the HIV-1 protease-substrate complex. Biochem J, v.389, n.Pt 2, Jul 15, p.365-71. 2005. Lapatto, R., T. Blundell, et al. X-ray analysis of HIV-1 proteinase at 2.7 A resolution confirms structural homology among retroviral enzymes. Nature, v.342, n.6247, Nov 16, p.299-302. 1989. Levitt, M., C. Sander, et al. Protein normal-mode dynamics: trypsin inhibitor, crambin, ribonuclease and lysozyme. J Mol Biol, v.181, n.3, Feb 5, p.423-47. 1985. Levy, R. M., M. Karplus, et al. Evaluation of the Configurational Entropy for Proteins - Application to Molecular-Dynamics Simulations of an Alpha-Helix. Macromolecules, v.17, n.7, p.1370-1374. 1984. Levy, R. M., D. Perahia, et al. Molecular dynamics of an alpha-helical polypeptide: Temperature dependence and deviation from harmonic behavior. Proc Natl Acad Sci USA, v.79, n.4, Feb, p.1346-1350. 1982. Li, B., J. M. Decker, et al. Evidence for potent autologous neutralizing antibody titers and compact envelopes in early infection with subtype C human immunodeficiency virus type 1. J Virol, v.80, n.11, Jun, p.5211-8. 2006. Liu, H., S. G. Dastidar, et al. Conformational changes in protein function. Methods Mol Biol, v.443, p.258-75. 2008. Liu, J., I. Y. Gluzman, et al. The role of Plasmodium falciparum food vacuole plasmepsins. J Biol Chem, v.280, n.2, p.1432-7. 2005. Liu, J., E. S. Istvan, et al. Hemoglobin-degrading plasmepsin II is active as a monomer. J Biol Chem, v.281, n.50, p.38682-8. 2006 Louis, J. M., E. M. Wondrak, et al. Proteolytic processing of HIV-1 protease precursor, kinetics and mechanism. J Biol Chem, v.274, n.33, Aug 13, p.23437-42. 1999. 114 Lu, W. C., C. Z. Wang, et al. Dynamics of the trimeric AcrB transporter protein inferred from a B-factor analysis of the crystal structure. ProteinsStructure Function And Bioinformatics, v.62, n.1, Jan 1, p.152-8. 2006. Lukashov, V. V., M. T. Cornelissen, et al. Simultaneous introduction of distinct HIV-1 subtypes into different risk groups in Russia, Byelorussia and Lithuania. Aids, v.9, n.5, May, p.435-9. 1995. Mackerell, A. D., Jr., M. Feig, et al. Extending the treatment of backbone energetics in protein force fields: limitations of gas-phase quantum mechanics in reproducing protein conformational distributions in molecular dynamics simulations. Journal of computational chemistry, v.25, n.11, Aug, p.1400-15. 2004. Mccammon, J. A., B. R. Gelin, et al. Dynamics of folded proteins. Nature, v.267, n.5612, Jun 16, p.585-90. 1977. Mccammon, J. A., B. R. Gelin, et al. The hinge-bending mode in lysozyme. Nature, v.262, n.5566, Jul 22, p.325-6. 1976. Mckeever, B. M., M. A. Navia, et al. Crystallization of the aspartylprotease from the human immunodeficiency virus, HIV-1. J Biol Chem, v.264, n.4, Feb 5, p.1919-21. 1989. Meagher, K. L. e H. A. Carlson. Solvation influences flap collapse in HIV-1 protease. Proteins-Structure Function And Bioinformatics, v.58, n.1, Jan 1, p.119-25. 2005. Meek, T. D. Inhibitors of HIV-1 protease. J Enzyme Inhib, v.6, n.1, p.65-98. 1992. Miller, M., M. Jaskolski, et al. Crystal structure of a retroviral protease proves relationship to aspartic protease family. Nature, v.337, n.6207, Feb 9, p.576-9. 1989. Miller, M., J. Schneider, et al. Structure of complex of synthetic HIV-1 protease with a substrate-based inhibitor at 2.3 A resolution. Science, v.246, n.4934, Dec 1, p.1149-52. 1989. Miyamoto, S. e P. A. Kollman. Settle - an Analytical Version of the Shake and Rattle Algorithm for Rigid Water Models. Journal of Computational Chemistry, v.13, n.8, OCT, p.952-962. 1992. Mouawad, L. e D. Perahia. Motions in hemoglobin studied by normal mode analysis and energy minimization: evidence for the existence of tertiary Tlike, quaternary R-like intermediate structures. J Mol Biol, v.258, n.2, May 3, p.393-410. 1996. 115 Munshi, S., L. Liljas, et al. Structure determination of Nudaurelia capensis omega virus. Acta Crystallogr D Biol Crystallogr, v.54, p.1295-1305. 1998. Navia, M. A., P. M. Fitzgerald, et al. Three-dimensional structure of aspartyl protease from human immunodeficiency virus HIV-1. Nature, v.337, n.6208, Feb 16, p.615-20. 1989. Nicastri, E., L. Sarmati, et al. Non-B HIV type 1 subtypes: replicative capacity and response to antiretroviral therapy. AIDS Res Hum Retroviruses, v.20, n.8, Aug, p.816-8. 2004. Northrop, D. Follow the protons: a low-barrier hydrogen bond unifies the mechanisms of the aspartic proteases. Acc Chem Res, v.34, p.790-797. 2001. Osmanov, S., C. Pattou, et al. Estimated global distribution and regional spread of HIV-1 genetic subtypes in the year 2000. Journal of Acquired Immune Deficiency Syndromes, v.29, n.2, FEB 1, p.184-190. 2002. Parkin, N., C. Chappey, et al. Reduced susceptibility to protease inhibitors (PI) in the absence of primary PI resistance-associated mutations. Antiviral Therapy, v.10, p.S118-S118. 2005. Pascutti, P. G. Introdução à Modelagem e Simulação por Dinâmica Molecular. 2004 2002. Perahia, D. e L. Mouawad. Computation of low-frequency normal modes in macromolecules: improvements to the method of diagonalization in a mixed basis and application to hemoglobin. Comput Chem, v.19, n.3, Sep, p.241-6. 1995. Perno, C. F., A. Cozzi-Lepri, et al. Secondary mutations in the protease region of human immunodeficiency virus and virologic failure in drug-naive patients treated with protease inhibitor-based therapy. J Infect Dis, v.184, n.8, Oct 15, p.983-91. 2001. Petrone, P. e V. S. Pande. Can conformational change be described by only a few normal modes? Biophys J, v.90, n.5, Mar 1, p.1583-93. 2006. Phillips, G. N., Jr. Comparison of the dynamics of myoglobin in different crystal forms. Biophysical journal, v.57, n.2, Feb, p.381-3. 1990. Phillips, J. C., R. Braun, et al. Scalable molecular dynamics with NAMD. J Comput Chem, v.26, n.16, Dec, p.1781-802. 2005. Piana, S., P. Carloni, et al. Role of conformational fluctuations in the enzymatic reaction of HIV-1 protease. J Mol Biol, v.319, n.2, May 31, p.56783. 2002. 116 Piana, S., D. Sebastiani, et al. Ab initio molecular dynamics-based assignment of the protonation state of pepstatin A/HIV-1 protease cleavage site. J Am Chem Soc, v.123, n.36, Sep 12, p.8730-7. 2001. Pillay, D., A. S. Walker, et al. Impact of human immunodeficiency virus type 1 subtypes on virologic response and emergence of drug resistance among children in the Paediatric European Network for Treatment of AIDS (PENTA) 5 trial. Journal of Infectious Diseases, v.186, n.5, SEP 1, p.617-625. 2002. Porter, D. J., M. H. Hanlon, et al. HIV-1 protease: characterization of a catalytically competent enzyme-substrate intermediate. Biochemistry, v.41, n.4, Jan 29, p.1302-7. 2002. Prabu-Jeyabalan, M., E. Nalivaika, et al. How does a symmetric dimer recognize an asymmetric substrate? A substrate complex of HIV-1 protease. J Mol Biol, v.301, n.5, Sep 1, p.1207-20. 2000. Prade, L., A. F. Jones, et al. X-ray structure of plasmepsin II complexed with a potent achiral inhibitor. J Biol Chem, v.280, n.25, p.23837-43. 2005. Rahuel, J., J. P. Priestle, et al. The crystal structures of recombinant glycosylated human renin alone and in complex with a transition state analog inhibitor. . J Struct Biol, v.107s, p.227-236. 1991. Rawlings, N. D., F. R. Morton, et al. MEROPS: the peptidase database. Nucleic Acids Res, v.36, p.D320-D325. 2008. Reuter, N., K. Hinsen, et al. Transconformations of the SERCA1 Ca-ATPase: A Normal Mode Study. Biophysical Journal, v.85, n.4, p.2186-2197. 2003. Ridley, R. G. Chemotherapeutic hope on the horizon for Plasmodium vivax malaria? Proc Natl Acad Sci U S A, v.99, p.13362-4. 2002. Roberts, N. A., J. A. Martin, et al. Rational design of peptide-based HIV proteinase inhibitors. Science, v.248, n.4953, Apr 20, p.358-61. 1990. Robertson, D. L., J. P. Anderson, et al. HIV-1 nomenclature proposal. Science, v.288, n.5463, Apr 7, p.55-6. 2000. Rodriguez, E. J., T. S. Angeles, et al. Use of nitrogen-15 kinetic isotope effects to elucidate details of the chemical mechanism of human immunodeficiency virus 1 protease. Biochemistry, v.32, n.46, Nov 23, p.12380-5. 1993. Rosenthal, P. J. In: Antimalarial Chemotherapy, Mechanisms of Action, Resistance, and New Directions in Drug Discovery. ed. Rosenthal, P. J. (Humana, Totowa, NJ), p.325–345. 2001. 117 Ryckaert, J.-P., G. Ciccotti, et al. Numerical integration of the cartesian equations of motion of a system with constraints: molecular dynamics of nalkanes. Journal of Computational Physics, v.23, n.3, p.327-341. 1977. Sarr, A. D., G. Eisen, et al. Viral dynamics of primary HIV-1 infection in Senegal, West Africa. Journal of Infectious Diseases, v.191, n.9, MAY 1, p.1460-1467. 2005. Schechter I, B. A. On the size of the active site in proteases. I. Papain. Biochem Biophys Res Commun, v.27, p.157-162. 1967. Scott, W. R. e C. A. Schiffer. Curling of flap tips in HIV-1 protease as a mechanism for substrate entry and tolerance of drug resistance. Structure, v.8, n.12, Dec 15, p.1259-65. 2000. Sielecki, A. R., M. Fujinaga, et al. Refined structure of porcine pepsinogen at 1.8 Å resolution. J Mol Biol, v.219, p.671-692. 1991. Silva, A. M., R. E. Cachau, et al. Inhibition and catalytic mechanism of HIV-1 aspartic protease. J Mol Biol, v.255, n.2, Jan 19, p.321-46. 1996. Silva, A. M., A. Y. Lee, et al. Structural analysis of plasmepsin II. A comparison with human aspartic proteases. Adv Exp Med Biol, v.436, p.36373. 1998 Silva, A. M., A. Y. Lee, et al. Structure and inhibition of plasmepsin II, a hemoglobin-degrading enzyme from Plasmodium falciparum. Proc Natl Acad Sci U S A, v.93, n.19, p.10034-9. 1996. Sinha, N. e S. J. Smith-Gill. Protein structure to function via dynamics. Protein Pept Lett, v.9, n.5, Oct, p.367-77. 2002a. Sinha, N. e S. J. Smith-Gill. Protein structure to function via dynamics. Protein and peptide letters, v.9, n.5, Oct, p.367-77. 2002b. Skjaerven, L., S. M. Hollup, et al. Normal mode analysis for proteins. Journal of Molecular Structure: THEOCHEM, v.898, n.1-3, p.42-48. 2009. Smith, P. E., R. C. Van Schaik, et al. Internal mobility of the basic pancreatic trypsin inhibitor in solution: a comparison of NMR spin relaxation measurements and molecular dynamics simulations. J Mol Biol, v.246, n.2, Feb 17, p.356-65. 1995. Smith, R., I. M. Brereton, et al. Ionization states of the catalytic residues in HIV-1 protease. Nat Struct Biol, v.3, n.11, Nov, p.946-50. 1996. Soares, M. A., R. M. Brindeiro, et al. Primary HIV-1 drug resistance in Brazil. Aids, v.18 Suppl 3, Jun, p.S9-13. 2004. 118 Soares, M. A., T. De Oliveira, et al. A specific subtype C of human immunodeficiency virus type 1 circulates in Brazil. Aids, v.17, n.1, JAN 3, p.11-21. 2003. Soni, S., S. Dhawan, et al. Characterization of events preceding the release of malaria parasite from the host red blood cell. Blood Cells Mol Dis, v.35, p.201-211. 2005. Spiegel, M. R. Estatística. n.3a edição, p.74-75, 106-110. 1994. Spinelli, S., Q. Z. Liu, et al. The three-dimensional structure of the aspartyl protease from the HIV-1 isolate BRU. Biochimie, v.73, n.11, Nov, p.1391-6. 1991. Steiner, H., M. Kostka, et al. Glycine 384 is required for presenilin-1 function and is conserved in bacterial polytopic aspartyl proteases. Nat Cell Biol, v.2, p.848-851. 2000. Steven Hayward, A. K. H. J. C. B. Model-free methods of analyzing domain motions in proteins from simulation: A comparison of normal mode analysis and molecular dynamics simulation of lysozyme. 27: 425-437 p. 1997. Tama, F. e C. L. Brooks Iii. Diversity and Identity of Mechanical Properties of Icosahedral Viral Capsids Studied with Elastic Network Normal Mode Analysis. Journal of Molecular Biology, v.345, n.2, p.299-314. 2005. Tama, F. e Y. H. Sanejouand. Conformational change of proteins arising from normal mode calculations. Protein Engineering Design & Selection, v.14, n.1, Jan, p.1-6. 2001. Tamm, L. K., F. Abildgaard, et al. Structure, dynamics and function of the outer membrane protein A (OmpA) and influenza hemagglutinin fusion domain in detergent micelles by solution NMR. FEBS letters, v.555, n.1, Nov 27, p.139-43. 2003. Teodoro, M. L., G. N. Phillips, Jr., et al. Understanding protein flexibility through dimensionality reduction. J Comput Biol, v.10, n.3-4, p.617-34. 2003. Tomasselli, A. G. e R. L. Heinrikson. Targeting the HIV-protease in AIDS therapy: a current clinical perspective. Biochim Biophys Acta, v.1477, n.1-2, Mar 7, p.189-214. 2000. Treptow, W., S. J. Marrink, et al. Gating motions in voltage-gated potassium channels revealed by coarse-grained molecular dynamics simulations. J Phys Chem B, v.112, n.11, Mar 20, p.3277-82. 2008. 119 Trylska, J., J. Antosiewicz, et al. Thermodynamic linkage between the binding of protons and inhibitors to HIV-1 protease. Protein Sci, v.8, n.1, Jan, p.180-95. 1999. Trylska, J., P. Bala, et al. Molecular dynamics simulations of the first steps of the reaction catalyzed by HIV-1 protease. Biophys J, v.83, n.2, Aug, p.794-807. 2002. Trylska, J., P. Grochowski, et al. The role of hydrogen bonding in the enzymatic reaction catalyzed by HIV-1 protease. Protein Sci, v.13, n.2, Feb, p.513-28. 2004. Ulrich, E., P. Lalith, et al. A smooth particle mesh Ewald method. Journal of Chemical Physics, v.103, n.19, p.8577-8593. 1995. Unaids. AIDS epidemic update : 2007. UNAIDS/WHO. Geneva: December. 2007. ( ISBN 92 9173390 3) Valiente, P. A., P. R. Batista, et al. Predicting functional residues in Plasmodium falciparum plasmepsins by combining sequence and structural analysis with molecular dynamics simulations. Proteins, v.73, n.2, Nov 1, p.440-57. 2008. Van Gunsteren, W. F. e H. J. C. Berendsen. Groningen Molecular Simulation (GROMOS) Library Manual. Groningen: BIOMOS b.v. 1987 Van Gunsteren, W. F. e H. J. C. Berendsen. Molecular Dynamics Computer Simulations: Methodology, Applications and Perspectives in Chemistry. Angewandte Chemie Int. Ed. Engl. 29: 992--1023. p. 1990. Vandeputte-Rutten, L., R. A. Kramer, et al. Crystal structure of the outer membrane protease OmpT from Escherichia coli suggests a novel catalytic site. EMBO J, v.20, p.5033-39. 2001. Vasan, A., B. Renjifo, et al. Different rates of disease progression of HIV type 1 infection in Tanzania based on infecting subtype. Clinical Infectious Diseases, v.42, n.6, MAR 15, p.843-852. 2006. Velazquez-Campoy, A., M. J. Todd, et al. Catalytic efficiency and vitality of HIV-1 proteases from African viral subtypes. Proc Natl Acad Sci U S A, v.98, n.11, May 22, p.6062-7. 2001. Verlet, L. Verlet, L., "Computer Experiments on Classical Fluids I: Thermodynamical Properties of Lennard-Jones Molecules," v.159. 1967. 98103 p. (Phys. Rev.) Wainberg, M. A. HIV-1 subtype distribution and the problem of drug resistance. Aids, v.18 Suppl 3, Jun, p.S63-8. 2004. 120 Wang, W., J. Wang, et al. What determines the van der Waals coefficient beta in the LIE (linear interaction energy) method to estimate binding free energies using molecular dynamics simulations? Proteins-Structure Function and Genetics, v.34, n.3, FEB 15, p.395-402. 1999. Wang, Y. X., D. I. Freedberg, et al. Solution NMR evidence that the HIV-1 protease catalytic aspartyl groups have different ionization states in the complex formed with the asymmetric drug KNI-272. Biochemistry, v.35, n.31, Aug 6, p.9945-50. 1996. Weiner, S. J., P. A. Kollman, et al. A New Force-Field for Molecular Mechanical Simulation of Nucleic-Acids and Proteins. Journal of the American Chemical Society, v.106, n.3, p.765-784. 1984. Weiner, S. J., P. A. Kollman, et al. An All Atom Force-Field for Simulations of Proteins and Nucleic-Acids. Journal of Computational Chemistry, v.7, n.2, APR, p.230-252. 1986. Wery, J. P., V. S. Reddy, et al. The refined three-dimensional structure of an insect virus at 2.8 Å resolution. J Mol Biol, v.235, p.565-586. 1994. Westling, J., P. Cipullo, et al. Active site specificity of plasmepsin II. Protein Sci, v.8, n.10, p.2001-9. 1999. Wlodawer, A. e J. W. Erickson. Structure-based inhibitors of HIV-1 protease. Annu Rev Biochem, v.62, p.543-85. 1993. Wlodawer, A. e J. Vondrasek. Inhibitors of HIV-1 protease: a major success of structure-assisted drug design. Annu Rev Biophys Biomol Struct, v.27, p.249-84. 1998. Wondrak, E. M., N. T. Nashed, et al. A transient precursor of the HIV-1 protease. Isolation, characterization, and kinetics of maturation. J Biol Chem, v.271, n.8, Feb 23, p.4477-81. 1996. Yang, L., G. Song, et al. Close correspondence between the motions from principal component analysis of multiple HIV-1 protease structures and elastic network modes. Structure, v.16, n.2, Feb, p.321-30. 2008. Zheng, W., B. R. Brooks, et al. Allosteric Transitions in the Chaperonin GroEL are Captured by a Dominant Normal Mode that is Most Robust to Sequence Variations. Biophysical Journal, v.93, n.7, p.2289-2299. 2007. Zheng, W. e S. Doniach. A comparative study of motor-protein motions by using a simple elastic-network model. Proc Natl Acad Sci U S A, v.100, n.23, Nov 11, p.13253-8. 2003. 121 Zoete, V., O. Michielin, et al. Relation between sequence and structure of HIV-1 protease inhibitor complexes: a model system for the analysis of protein flexibility. Journal of Molecular Biology, v.315, n.1, p.21-52. 2002. 122 “Para o sangue, sou o veneno, eu mato, eu como, eu dreno Para o resto da vida, sou extremo... Sou o HIV que você não vê Você não me vê, mas eu vejo você (Rita Lee) VII. ANEXOS 123 ANEXO 1: © Copyright 2006 by Humana Press Inc. All rights of any nature whatsoever reserved. 1085-9195/(Online)1559-0283/06/44:395–404/$30.00 ORIGINAL ARTICLE Molecular Dynamics Simulations Applied to the Study of Subtypes of HIV-1 Protease Common to Brazil, Africa, and Asia Paulo R. Batista,1,* Alan Wilter,2 Elza H. A. B. Durham,3 and Pedro G. Pascutti1 1Laboratório de Modelagem e Dinâmica Molecular, Instituto de Biofísica Carlos Chagas Filho, Universidade Federal do Rio de Janeiro, Rio de Janeiro, Brazil; 2Laboratório Nacional de Computação Científica, Rio de Janeiro, Brazil; 3Instituto Ludwig de Pesquisa sobre o Câncer, São Paulo, Brazil; and 3Instituto de Matemática e Estatística, Universidade São Paulo, São Paulo, Brazil Abstract Africa accounts for the majority of HIV-1 infections worldwide caused mainly by the A and C viral subtypes rather than B subtype, which prevails in the United States and Western Europe. In Brazil, B subtype is the major subtype, but F, C, and A also circulate. These non-B subtypes present polymorphisms, and some of them occur at sites that have been associated with drug resistance, including the HIV-1 protease (PR), one important drug target. Here, we report a Molecular Dynamics study of the B and non-B PR complexed with the inhibitor ritonavir to delineate the behavior of each subtype. We compare root mean squared deviation, binding free energy by linear interaction energy approach, hydrogen bonds, and intermolecular contact surface area between inhibitor and PR. From our results, we can provide a basis to understand the molecular mechanism of drug resistance in non-B subtypes. In this sense, we found a decrease of approx 4 kcal/mol in ∆G of binding between B and non-B subtypes. This corresponds to the loss of one hydrogen bond, which is in agreement with our H-bond analysis. Previous experimental affinity studies reported analogous results with inhibition constant values for non-B PR. Index Entries: Molecular Dynamics; Gromacs; HIV-1 protease; ritonavir; subtypes; non-B; modelling; free energy; LIE. One of the major characteristics of HIV-1 is its extensive genetic diversity as a result of the high error rate, the recombinogenic properties of the reverse transcriptase enzyme (1,2), and the extremely high turnover of virions (range of 109/d) in HIV-infected individuals (3). Phylogenetic analyses have classified three classes of HIV-1 in the world: M (major), O (outline), and N (new) (4). Within HIV-1 group M (~90% of reported HIV AIDS cases), at least nine distinct subtypes (A, B, C, D, F, G, H, J, and K) and 14 circulating recombinant forms (CRF) have been identified (reviewed in refs. 5,6). Of the estimated 40 million people infected with HIV-1 worldwide, more than 26 million are in Africa and a very frightful statistic has been seen last year: Asia housed one quarter of the world’s newly infected HIV positive individuals (7). INTRODUCTION In this work, we present Molecular Modeling (MM) and Dynamics (MD) techniques applied to the study of HIV-1 protease complexed with the inhibitor ritonavir. We intend to evaluate similarities and differences between B and non-B subtypes of HIV-1 protease. Derived from our MD simulations, the most important result that we can highlight is the decline in binding affinity for inhibitor relative to non-B subtypes compared with subtype B, in accordance with some previous experimental results, and that can, in due course, favor the emergence of drug resistance. *Author to whom all correspondence and reprint requests should be addressed. E-mail: [email protected] Cell Biochemistry and Biophysics 395 Volume 44, 2006 396 The HIV-1 subtypes prevalent in Africa and Asia are distinct from the one prevailing in North America and Western Europe. In these developed regions, subtype B is responsible for the majority of HIV infections, whereas in sub-Saharan Africa and Asia, subtypes A and C account for most of the infections. Non-B subtypes accounted for 88% of new worldwide infections in 2000 (A, 30% and C, 47%) (8). In Brazil, subtype B is the major subtype, but F (18% of infections), C (30% of infections in southern region), and D can also be found (9). These subtypes exhibit differences with respect to subtype B, which involves current drug targets, such as the HIV-1 protease (PR). Extensive research in the past decade has been dedicated to designing resistance-evading drugs for PR, which is critical for the maturation of viral structural (gag) and enzymatic (pol) proteins. The PR is an aspartyl protease and is composed of two symmetric subunits, each with 99 residues that can recognize either symmetric or asymmetric substrates (10). One important region in PR for interaction with the substrate is the flap (residues 45–58) that must open for the substrate to access the active site and close for cleavage. The substrate stabilization in the active site involves hydrogen bonds with the PR flap, mainly through a structured water molecule close to ILE50. The binding of inhibitors to the flaps, and likewise substrate, helps to keep the flaps stable (11). Many crystal structures of the PR and its complexes with inhibitors are currently available, but there is no structural information for non-B subtypes. The first crystallization of a non-B PR was reported recently, but its structure has not been solved yet (12). The major success of structure-assisted drug design was the development of PR inhibitors (13). Ritonavir was the first Food and Drug Administration-approved protease inhibitor reached by this methodology, and, in this work, it was the chosen inhibitor to study interactions, at the atomic level, with the main PR subtypes present in Brazil, Africa, and Asia (B, F, C, and A subtypes). To understand similarities and differences between B and non-B subtypes of PR complexed with ritonavir, we made use of MM because there is no structure of non-B PR from nuclear magnetic resonance and X-ray crystallography methods. Furthermore, although these experimental methods are the ideal modeling approach, they are also more time-consuming and expensive, and they involve hazardous biological materials compared with MM approaches. Computational simulations are powerful tools used to investigate ligand–protein interactions, besides showing a nonstatic behavior of the system (as opposed to crystallographic diffraction). MD allows the estimation of several thermodynamics properties (e.g., binding free Cell Biochemistry and Biophysics Batista et al. energy calculations), and is a low cost and practical method as well. With comparative MM technique, by using available template three-dimensional (3D) structures found in Protein Data Bank (PDB) (14), we were able to construct models for each PR subtype in complex with PR inhibitor ritonavir. Because protease inhibitors have been developed and tested against the HIV-1 B subtype, and PR from other subtypes carry up to 10 amino acid polymorphisms, it is important to assess the influence of these naturally occurring polymorphisms on the potency of existing inhibitors, as well as their synergistic interactions with mutations known to cause drug resistance (15). At the biochemical level, non-B-subtype polymorphisms lower the binding affinities of existing clinical inhibitors, but not to the point of causing drug resistance (15,16). However, these polymorphisms amplify the effects of mutations causing drug resistance and may play a role in the long-term viability of these inhibitors. MD studies of PR can help to provide the grounds for understanding the molecular basis of drug resistance. MATERIALS AND METHODS Construction of Models: Comparative Molecular Modeling To ascertain the 3D coordinates of each system, we construct the target models of the PR consensus subtypes A (17), C (18), and F (19) by using comparative MM techniques with SwissPDBViewer program (20). As template, we used the X-ray crystallography structure of the PR consensus B complexed with ritonavir (PDB code 1HXW) (21), including the crystallographic water molecules and inhibitor coordinates. To achieve our models, we had only to cope with residues substitution, because PRs display high sequence similarity, with the same number of residues, not varying more than nine amino acids among consensus. The consensus sequences of PR subtypes present these differences from the PR consensus B sequence (9): A (L10V, I13V, K14R, I15V, K20I, M36I, R41K, H69K, and L89M), C (T12S, I15V, L19I, M36I, R41K, H69K, L89M, and I93L), and F (I15V, E35D, M36I, R41K, R57K, Q61N, and L89M). Additionally, Fig. 1 features non-B polymorphism with localization of their mutations referent to 1HXW on the 3D structure of PR. All models were validated by stereochemistry with Procheck program (22). Inhibitor Topology For the inhibitor’s (ritonavir) topology, which is not publicly available for GROMOS96 force field (23), we had to build its required parameters to run MD simulations. We started with the server PRODRG (24), which Volume 44, 2006 Computational Studies of HIV-1 Protease of B and Non-B Subtypes Fig. 1. Non-B polymorphisms along the PR 3D structure. Left, common substitution among the non-B sequences. Right, particular substitutions (little spheres) of each subtype are labeled. was used to generate a first set of parameters for bonds, angles, and charges based on GROMOS87 force field (25). Thus, eventually we had to fit such parameters to GROMOS96, appealing to a set of parameters previously determined for some groups similar to the ones of ritonavir, or, when the reference was not found, to the ab initio calculation by means of GAUSSIAN94 (26), using the base B3LYP/6-31G** with option CHELPG, assuming null total charge for such drug. Molecular Dynamics The molecular mechanics potential energy minimizations and MD simulations were carried out with the program package GROMACS, version 3.2.1 (27,28) by using GROMOS96 force field. For all the systems, we used visual MD (VMD) (29) and SwissPDBViewer, programs for virtual molecular visualization and manipulation, to set up spatial orientation of complexes and to have their principal axes aligned to the Cartesian axes. The solvation procedure was performed with a layer of at least 15 Å around protease–ligand complex, in an orthorhom- Cell Biochemistry and Biophysics 397 bic geometry box (for periodic boundary conditions). The model of solvent was single point charge (SPC) water (30) (about 12,000 molecules). To neutralize the system charge, chloride (Cl–) counterions were inserted. We ended up with four systems for MD simulations with their final volumes ranged from 400 to 420 nm3, and each with the number of atoms between 35,000 and 40,000. For energy minimization, we used the algorithms steepest descent (preceded by a position restrained stage for protein atoms), conjugate gradient and a quasiNewton low-memory minimizer in sequence until reaching an energy gradient lower than 2.39 kcal/mol/Å. The MD simulations were performed according to the following procedure: 500 ps with positions of protein’s atoms restrained, to allow the solvent equilibration, and then a full MD for 3.5 ns, with no restrictions. The MD integration time was 2 fs. LINCS (31) and SETTLE (32) constraints were used for protein/ritonavir (all bonds) and solvent, respectively. Temperature was maintained at 300 K, and pressure maintained at 1 atm by the Berendsen weak-coupling approach (33). For long-range interactions, reaction field method (34) was used, with dielectric constant set to 54 (35). Non-bonded cutoffs were 1.2 Å for van der Waals and 1.4 Å for Coulomb interactions. According to kinetic and MD studies of PR (36–38), only the catalytic ASP124 was protonated (not ASP25). Simulations demanded 7 to 9 d of computation at Cluster XML (BioPAUÁ Project, LNCC, IBCCF/ UFRJ, and HP Brazil R&D). Binding Free Energy Calculation To estimate the binding free energies of ritonavir to the PR receptors cited in this work, we used a semiempirical MD method, based on linear response assumptions, entitled linear interaction energy (LIE), conceived by Åqvist and collaborators (39). It is a faster method than free energy perturbation or thermodynamic integration because it does not need any uninteresting intermediate state between the initial and final states, and the results of its application are in good agreement with experimental data (40–42). LIE, as depicted in Eq. 1, divides the interaction between the ligand and its environment into electrostatic and van der Waals terms: el el vdW vdW vdW + γ ∆G bind = ∆G el bind + ∆G bind ≈ α Vbound − Vfree + β Vbound − Vfree [1] where denotes MD averages of nonbonded potential energy differences between two states of the inhibitor: bonded to the PR active site and free in solution. The nonbonded potential energy corresponds to the van der Waals (vdW) and electrostatic (el) interaction of the ligand and its surrounding environment, the enzyme, Volume 44, 2006 398 Batista et al. Fig. 2. RMSD for all system during simulation. Plot of the RMSD of backbone atoms versus time from the 1HXW (dark thick line), consA (gray), consC (open triangles), and consF (filled triangles). All RMSDs were calculated by fitting the subsequent frames to the initial PR structure, after the minimization procedure. RESULTS shows the largest deviation after 2 ns of simulation. In addition, consA, between 1 and 2 ns of simulation, presents larger deviation than 1HXW. To qualify these deviations with respect to amino acids, the fluctuations of root mean square (RMSf) per residue (Fig. 3) and its visual 3D RMS representation of the backbone atoms deviations (Fig. 4), generated by MolMol (44), are a good manner to interpret these results. The consC RMSf was the largest, in both chains. In contrast, consA RMSf was the smaller in the chain A (Fig. 3). Several RMSf peaks were observed at the region of residues 16, 37, 50, 67, 80, and 92 in chain A and at residues 105, 115, 124, 136, 149, 166, 178, and 191 in chain B. Focusing only on inhibitor, 1HXW RMSf per atom displayed the smallest fluctuations, particularly evident around the P1 group (Fig. 5). In contrast, consA presented the largest deviation. Properties of the Global Structures Binding Free Energy Calculation The four systems—1HXW (consB), consA, consC, and consF—were examined by MD simulations during 3.5 ns for each system. Certain parameters were analyzed to establish relationships between B and non-B subtypes that lead to understand differences caused by natural polymorphisms present in each subtype. To attain the stability of simulations, we needed to look to the dynamic behavior of the systems. As can be seen in Fig. 2, taking the initial structure after minimization, the root mean squared deviation (RMSD) of all systems, with respect to the time, tends to the same value at the end of 3.5 ns. 1HXW and consF seem to be more stable, mainly after the first nanosecond. Otherwise, consC Binding free energy calculations can provide the affinities of each PR subtype to the inhibitor ritonavir. Affinity differences among PRs are very important for understanding the drug resistance. In our LIE results, we adjusted binding free energy by γ constant being set to –7 kcal/mol, to fit the experimental data observed for PR complexed with ritonavir, –14.9 kcal/mol (45,46). The MD estimated ∆Gbind was taken after 1600 ps of simulation, when the system presents lower deviations. ∆Gbind of 1HXW (–14.64 kcal/mol) was larger than the non-B subtypes (Fig. 6) and the consA (∆Gbind = –9.19 kcal/mol) was the smallest, but there are no significant differences among non-B subtypes. Also in Fig. 6, we ions, and solvent in one situation (bonded), and the solvent only in the other situation (free). The additional constant term γ can be used to adjust LIE to reproduce experimental binding free energy data (39). Intermolecular Surface We developed a special program called “Surfmds” to calculate intermolecular contact surface area from MD trajectories, based on Connolly’s algorithm (43). From solvent accessible surface (SAS) of protein and ligand, it is possible to determine the intermolecular surface as being the intersection between the SAS of ligand and the SAS of protein, i.e., the sum of the areas of protein and ligand, close enough to avoid the allocation of a water molecule. Cell Biochemistry and Biophysics Volume 44, 2006 Computational Studies of HIV-1 Protease of B and Non-B Subtypes 399 Fig. 3. Fluctuations of RMS calculated for each residue of protein. (A) Average RMSf per residue of the backbone for each system: 1HXW (dark thick line), consA (gray), consC (open triangles), and consF (filled triangles). (B) RMSf differences between non-B subtypes and 1HXW: consA-1HXW (gray), consC-1HXW (open triangles), and consF-1HXW (filled triangles). Fig. 4. 3D representation of RMS fluctuations of protein. The RMSf of the backbone for each system was represented by a variable thickness tube, where the larger the tube, the greater the deviation. They are represented by secondary structure: in black, α-helix; in dark gray, β-sheets and light gray, loop and coiled structures. Cell Biochemistry and Biophysics Volume 44, 2006 400 Batista et al. Fig. 5. RMS fluctuations calculated for inhibitor atoms. The RMSf per atom for each system: 1HXW (dark thick line), consA (gray), consC (open triangles), and consF (filled triangles). The inhibitor groups (P1, P2, P1’, P2’, and P3’) were detached. Inset, 3D structure representation of ritonavir groups generated with VMD. Fig. 6. MD binding free energy calculations with LIE method. The statistical values (mean + SE) for binding free energy (∆G) of complex PR-ritonavir (black) and van der Waals (gray) and electrostatic (white) contribution to the ∆G. Exp. is the literature experimental (refs. 45,46) value to binding free energy associated to this inhibitor. have depicted that van der Waals contribution was similar for every system, but the difference of the electrostatic contribution was evident for 1HWX compared with the other consensus. Hydrogen Bond Between PR and Ritonavir Noncovalent interactions are essential to maintain protein structure, for the process of recognition and for ligand–protein interactions. Hydrogen bonds are a speCell Biochemistry and Biophysics cial kind of nonbonded interaction and play a very important role in inhibitor affinity for the protein. Here, we only focus on the details of hydrogen bonds between ritonavir and PR, which are henceforth denoted as hbonds. They were classified in direct (D) or water intermediated (WI). Nearly one quarter of all hbonds detected in all the simulations were WI. Table 1 shows a noted decrease in the numbers of both D and WI hbonds from non-B compared with 1HXW. The Volume 44, 2006 Computational Studies of HIV-1 Protease of B and Non-B Subtypes 401 Table 1 Mean Number of Hydrogen Bonds Between PR and Ritonavir System D WI Total 1HXW consA consC consF 4.80 4.09 3.89 4.13 1.51 1.27 1.36 1.01 6.31 5.37 5.26 5.13 Data show the mean number of hbonds of each system. Direct (D), water intermediated (WI), and total hydrogen bonds are represented. Table 2 Time Permanency and Discrimination of Hbond Between PR and Ritonavir During MD Simulations 1HXW consA consC consF Donar Hydrogen Acceptor D WI D WI D WI D WI RIT199N16 RIT199O26 RIT199N34 ASP129N RIT199O26 RIT199N9 ASP29N ASP128N ILE149N ILE50N RIT199H RIT199H RIT199H ASP129H RIT199H RIT199H ASP29H ASP128H ILE149H ILE50H GLY48O ASP25OD2 ASP25OD2 RIT199N5 ASP25OD1 GLY126O RIT199O41 RIT199O7 RIT199O18 RIT199O35 96.4 86.6 82.5 67.0 49.2 36.0 26.7 25.9 1.6 — — — — — — 9.8 4.0 1.0 89.4 40.4 72.7 — — 86.5 99.9 — 95.1 14.4 7.4 — — — — — — — — — 45.8 71.3 97.0 99.8 — 66.0 — 7.0 93.4 7.2 1.3 — — — — — — 8.4 — — 28.9 91.9 95.4 100.0 — 43.1 — — 89.9 9.0 41.0 — — — — 2.6 — — — 1.0 26.2 63.7 The percentage of permanency of hbonds between PR and inhibitor during the 3.5-ns simulation. Only the hbonds with more than 10% are represented. Direct (D) and water intermediated (WI) are shown for each group. average of total number (D plus WI) for consB was approx 1 hbond higher than non-B PRs. To evaluate qualitatively the nature of these hbonds, we calculated the prevalence of each one along dynamics (Table 2), and we can point out that hbond RIT199N34ASP25OD2 is present only in 1HXW simulation (82.5%). Although we have almost 90% of ILE149 WI hbond in 1HXW, this value goes to about half or less for the others groups. Intermolecular Contact Surface Area We can observe clearly four defined regions around residues 107, 25/124, 50/149, and 82/181 for both chains of PR, and such curves, as viewed in Fig. 7, must have a Gaussian distribution, especially in higher sampling. Asymmetry between chains A and B was observed, which is reasonable because ritonavir is asymmetric, because it presents the unpaired group P3’ (Fig. 5, inset). Besides, ad difference was visible in the intermolecular area for region 107 (S3’) of consA and F, Cell Biochemistry and Biophysics showing a higher intermolecular contact surface area. There were no differences in the sum of areas per region among different subtype PRs (Fig. 7B). DISCUSSION First, we analyzed the dynamic behavior of residues involved in the subtype polymorphism. In Fig. 3, the regions around residue 15, 41, and 69 (chain A), where the substitutions I15V, R41K, and H69K (A and C) are common to these non-B PRs, the C subtype PR presents higher deviations. In contrast, consA shows more stabilization than the subtypes (including 1HXW), which can be justified by the presence of exclusive mutations in consA sequence (L10V, I13V, K14R, and K20I). In chain B, non-B PRs display a different pattern from chain A, and the RMSf profile is similar for all non-B PRs. On the flap region (around ILE 50/149), mainly in chain B, we observed the most important fluctuations for non-B PRs. Another important subsite region is around Volume 44, 2006 402 Batista et al. Fig. 7. Intermolecular contact surface area between PR and ritonavir. (A) Calculation of intermolecular contact surface area between PR and ritonavir were performed with “Surfmds” program. The values (mean + SD) of each group are presented. (B) Sum of area around key residues separated by chain. VAL82/181, which displays a higher deviation for nonB PRs than 1HXW (Fig. 4). During MD, as we expected for biomolecules in solution, hbonds are constantly breaking and forming. Each hbond may contribute approx 3 kcal/mol to stabilization energy for the protein structure. The binding energy involved (1 to 5 kcal/mol) is, regardless, high enough above background thermal energy, which is approx 0.6 kcal/mol at physiological temperature (47). The average decrease in hbond numbers, between ritonavir and consensus A, C, and F in comparison with 1HXW (Table 1), is in good agreement with our results from binding free energy calculations (Fig. 6), where ∆Gbind values between non-B and B groups (4.3–4.7 kcal/mol) have the same order of one hydrogen bond energy. There is a well-defined correlation between the increase in fluctuation of flaps region for non-B PRs (Figs. 3 and 4) and the decline in hbond prevalence around flaps for non-B PRs, involving an important structural water molecule-intermediating inhibitor and ILE149 Cell Biochemistry and Biophysics (Table 2). Another remarkable point is the exclusive presence of the hbond RIT199N34-ASP25OD2 in 1HXW. These evidences can be closely related with the more instability demonstrated for ritonavir in complex with non-B PRs (Fig. 5), chiefly around the P1 group, which is very important for inhibitor binding affinity (21). With respect to intermolecular contact surface area, we note that our theoretical models are dynamically consistent with the crystal model, because all systems presented the same region contact profile. We also emphasize that, although we can clearly identify specific contact regions between protease and inhibitor (Fig. 7), van der Waals interactions do not seem to be decisive to strengthen binding affinity in complex PRritonavir. In contrast, the electrostatic contribution in 1HXW, is clearly responsible for ∆G differences observed, because its part is almost twofold the van der Waals’ part. Besides, the same proportion is verified when we compare the 1HXW PR-inhibitor electrostatic interaction with both van der Waals and electrostatic interactions for non-B PRs. Volume 44, 2006 Computational Studies of HIV-1 Protease of B and Non-B Subtypes 403 There are four common polymorphisms among PR consensus subtypes compared with B consensus. Among them, there is M36I, a secondary mutation associated with drug resistance against ritonavir. Besides that, there are two more secondary mutations in consA also associated with drug resistance: L10V and K20I. Such mutations alone cannot cause drug resistance; they must come in connection with a primary or other secondary mutations (19,48,49). Only consA reveals three secondary mutations, but for consC and consF, they show such a polymorphism that could also lead to resistance. In fact, our results of binding free energy (Fig. 5) corroborate the Velazquez-Campoy data (16), where Ki of non-B PR indicates reduction in their affinities to ritonavir. However, these affinity differences alone are not sufficient to cause drug resistance. Nevertheless, they can intensify the effects of mutations and eventually lead to drug resistance. metric substrate? A substrate complex of HIV-1 protease. J. Mol. Biol. 301, 1207–1220. Freedberg, D. I., Ishima, R., Jacob, J., et al. (2002) Rapid structural fluctuations of the free HIV protease flaps in solution: relationship to crystal structures and comparison with predictions of dynamics calculations. Protein Sci. 11, 221–232. Sanches, M., Martins, N. H., Calazans, A., et al. (2004) Crystallization of a non-B and a B mutant HIV protease. Acta Crystallogr. D. Biol. Crystallogr. 60, 1625–1627. Wlodawer, A. and Vondrasek, J. (1998) Inhibitors of HIV-1 protease: a major success of structure-assisted drug design. Annu. Rev. Biophys. Biomol. Struct. 27, 249–284. Berman, H. M., Westbrook, J., Feng, Z., et al. (2000) The Protein Data Bank. Nucleic Acids Res. 28, 235–242. Velazquez-Campoy, A., Vega, S., Fleming, et al. (2003) Protease inhibition in African subtypes of HIV-1. AIDS Rev. 5, 165–171. Velazquez-Campoy, A., Todd, M. J., Vega, S., and Freire, E. (2001) Catalytic efficiency and vitality of HIV-1 proteases from African viral subtypes. Proc. Natl. Acad. Sci. USA 98, 6062–6067. Vicente, A. C., Agwale, S. M., Otsuki, K., et al. (2001) Genetic variability of HIV-1 protease from Nigeria and correlation with protease inhibitors drug resistance. Virus Genes 22, 181–186. Soares, M. A., De Oliveira, T., Brindeiro, R. M., et al. (2003) A specific subtype C of human immunodeficiency virus type 1 circulates in Brazil. AIDS 17, 11–21. Caride, E., Hertogs, K., Larder, B., et al. (2001) Genotypic and phenotypic evidence of different drugresistance mutation patterns between B and non-B subtype isolates of human immunodeficiency virus type 1 found in Brazilian patients failing HAART. Virus Genes 23, 193–202. Guex, N. and Peitsch, M. C. (1997) SWISS-MODEL and the Swiss-PdbViewer: an environment for comparative protein modeling. Electrophoresis 18, 2714–2723. Kempf, D. J., Marsh, K. C., Denissen, J. F., et al. (1995) ABT538 is a potent inhibitor of human immunodeficiency virus protease and has high oral bioavailability in humans. Proc. Natl. Acad. Sci. USA 92, 2484–2488. Laskowski, R. A., Rullmannn, J. A., MacArthur, M. W., Kaptein, R., and Thornton, J. M. (1996) AQUA and PROCHECK-NMR: programs for checking the quality of protein structures solved by NMR. J. Biomol. NMR 8, 477–486. van Gunsteren, W. F., Billeter, S. R., Eising, A. A., et al. (1996) Biomolecular Simulation: The GROMOS96 Manual and User Guide. vdf Hochschulverlag AG an der ETH Zürich and BIOMOS b.v., Zürich, Groningen. van Aalten, D. M., Bywater, R., Findlay, J. B., Hendlich, M., Hooft, R. W., and Vriend, G. (1996) PRODRG, a program for generating molecular topologies and unique molecular descriptors from coordinates of small molecules. J. Comput. Aided Mol. Des, 10, 255–262. van Gunsteren, W. F. and Berendsen, H.J.C. (1987) Groningen Molecular Simulation (GROMOS) Library Manual. BIOMOS b.v., Groningen. ACKNOWLEDGMENTS We thank the individuals who developed and maintained the GPL software. This work was supported by HP Brazil R&D, CAPES, FAPERJ, and CNPq. REFERENCES 1. Hu, W. S. and Temin, H. M. (1990) Retroviral recombination and reverse transcription. Science 250, 1227–1233. 2. Preston, B. D., Poiesz, B. J., and Loeb, L. A. (1988) Fidelity of HIV-1 reverse transcriptase. Science 242, 1168–1171. 3. Ho, D. D., Neumann, A. U., Perelson, A. S., Chen, W., Leonard, J. M., and Markowitz, M. (1995) Rapid turnover of plasma virions and CD4 lymphocytes in HIV-1 infection. Nature 373, 123–126. 4. Simon, F., Mauclere, P., Roques, P., et al. (1998) Identification of a new human immunodeficiency virus type 1 distinct from group M and group O. Nat. Med. 4, 1032–1037. 5. Kantor, R. and Katzenstein, D. (2003) Polymorphism in HIV-1 non-subtype B protease and reverse transcriptase and its potential impact on drug susceptibility and drug resistance evolution. AIDS Rev. 5, 25–35. 6. Wainberg, M. A. (2004) HIV-1 subtype distribution and the problem of drug resistance. AIDS 18 (Suppl.) 3, S63-S68. 7. UNAIDS (2004) AIDS epidemic update: 2004. UNAIDS/ WHO, Geneva, Switzerland. 8. Osmanov, S., Pattou, C., Walker, N., Schwardlander, B., Esparza, J., and Charact, W.-U.N.H.I. (2002) Estimated global distribution and regional spread of HIV-1 genetic subtypes in the year 2000. J. Acquir. Immun. Defic. Syndr. 29, 184–190. 9. Soares, M. A., Brindeiro, R. M., and Tanuri, A. (2004) Primary HIV-1 drug resistance in Brazil. AIDS 18 (Suppl.) 3, S9–S13. 10. Prabu-Jeyabalan, M., Nalivaika, E., and Schiffer, C. A. (2000) How does a symmetric dimer recognize an asym- Cell Biochemistry and Biophysics 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. Volume 44, 2006 404 26. Frisch, M. J., Trucks, G. W., Schlegel, H. B., et al. (1995) GAUSSIAN94, Revision B.1. Gaussian, Inc., Pittsburgh, PA. 27. van der Spoel, D., van Buuren, A. R., Apol, E., et al. (2001) Gromacs User’s Manual version 3.0, Groningen. 28. Berendsen, H.J.C., van der Spoel, D., and van Drunen, R. (1995) GROMACS: A message-passing parallel molecular dynamics implementation. Comp. Phys. Commun. 91, 43–56. 29. Humphrey, W., Dalke, A., and Schulten, K. (1996) VMD: visual molecular dynamics. J. Mol. Graph. 14, 33–38, 27–38. 30. Berendsen, H. J. C., Postma, J. P. M., Gunsteren, W. F. V., and Hermans, J. (1981) Interaction models for water in relation to protein hydration, in Intermolecular Forces (Pullman, B., ed.), Reidel, Dordrecht, The Netherlands, pp. 331–342. 31. Hess, B., Bekker, H., Berendsen, H. J. C., and Fraaije, J. G. E. M. (1997) LINCS: a linear constraint solver for molecular simulations. J. Comput. Chem. 18, 1463–1472. 32. Miyamoto, S. and Kollman, P. A. (1992) Settle - an analytical version of the shake and rattle algorithm for rigid water models. J. Comput. Chem. 13, 952–962. 33. Berendsen, H. J. C., Postma, J. P. M., Vangunsteren, W. F., Dinola, A., and Haak, J. R. (1984) Molecular-dynamics with coupling to an external bath. J. Chem. Phys. 81, 3684–3690. 34. Schreiber, H. and Steinhauser, O. (1992) Taming cut-off induced artifacts in molecular dynamics studies of solvated polypeptides. The reaction field method. J. Mol. Biol. 228, 909–923. 35. Smith, P. E. and Vangunsteren, W. F. (1994) Consistent dielectric-properties of the simple point-charge and extended simple point-charge water models at 277 and 300 K. J. Chem. Phys. 100, 3169–3174. 36. Hyland, L. J., Tomaszek, T. A., Jr., Roberts, G. D., et al. (1991) Human immunodeficiency virus-1 protease. 1. Initial velocity studies and kinetic characterization of reaction intermediates by 18O isotope exchange. Biochemistry 30, 8441–8453. 37. Hyland, L. J., Tomaszek, T. A., Jr. and Meek, T. D. (1991) Human immunodeficiency virus-1 protease. 2. Use of pH rate studies and solvent kinetic isotope effects to elucidate details of chemical mechanism. Biochemistry 30, 8454–8463. Cell Biochemistry and Biophysics Batista et al. 38. Okimoto, N., Tsukui, T., Hata, M., Hoshino, T., and Tsuda, M. (2000) Molecular dynamics study of HIV-1 proteasesubstrate complex: roles of the water molecules at the loop structures of the active site. J. Am. Chem. Soc. 122, 5613–5622. 39. Aqvist, J., Medina, C., and Samuelsson, J. E. (1994) A new method for predicting binding affinity in computer-aided drug design. Protein Eng. 7, 385–391. 40. Hulten, J., Bonham, N. M., Nillroth, U., et al. (1997) Cyclic HIV-1 protease inhibitors derived from mannitol: synthesis, inhibitory potencies, and computational predictions of binding affinities. J. Med. Chem. 40, 885–897. 41. Wang, W., Wang, J., and Kollman, P. A. (1999) What determines the van der Waals coefficient beta in the LIE (linear interaction energy) method to estimate binding free energies using molecular dynamics simulations? Proteins 34, 395–402. 42. Aqvist, J., Luzhkov, V. B., and Brandsdal, B. O. (2002) Ligand binding affinities from MD simulations. Accounts Chem. Res. 35, 358–365. 43. Connolly, M. L. (1983) Solvent-accessible surfaces of proteins and nucleic-acids. Science 221, 709–713. 44. Koradi, R., Billeter, M., and Wuthrich, K. (1996) MOLMOL: a program for display and analysis of macromolecular structures. J. Mol. Graph. 14, 51–55, 29–32. 45. Wang, W. and Kollman, P. A. (2001) Computational study of protein specificity: the molecular basis of HIV-1 protease drug resistance. Proc. Natl. Acad. Sci. USA 98, 14,937–14,942. 46. Brandsdal, B. O., Osterberg, F., Almlof, M., Feierberg, I., Luzhkov, V. B., and Aqvist, J. (2003) Free energy calculations and ligand binding. Adv. Protein Chem. 66, 123–158. 47. Garrett, R. and Grisham, C. M. (1995) Biochemistry, Saunders College Pub., Fort Worth, TX. 48. Ala, P. J., Huston, E. E., Klabe, R. M., et al. (1997) Molecular basis of HIV-1 protease drug resistance: structural analysis of mutant proteases complexed with cyclic urea inhibitors. Biochemistry 36, 1573–1580. 49. Deeks, S. G., Smith, M., Holodniy, M., and Kahn, J. O. (1997) HIV-1 protease inhibitors - a review for clinicians. J. Am. Med. Assoc. 277, 145–153. Volume 44, 2006 124 ANEXO 2: proteins STRUCTURE O FUNCTION O BIOINFORMATICS Predicting functional residues in Plasmodium falciparum plasmepsins by combining sequence and structural analysis with molecular dynamics simulations Pedro A. Valiente,1 Paulo R. Batista,2 Amaury Pupo,3 Tirso Pons,1 Alfonso Valencia,4 and Pedro G. Pascutti2* 1 Facultad de Biologı́a, Centro de Estudios de Proteı́nas (CEP), Universidad de La Habana, Cuba 2 Instituto de Biofı́sica Carlos Chagas Filho, Universidade Federal do Rio de Janeiro, Brazil 3 Departamento de Bioinformática, Centro de Inmunologı́a Molecular, Cuba 4 Centro Nacional de Investigaciones Oncologicas (CNIO), Madrid E-28029, España ABSTRACT Plasmepsins are aspartic proteases involved in the initial steps of the hemoglobin degradation pathway, a critical stage in the Plasmodium falciparum life cycle during human infection. Thus, they are attractive targets for novel therapeutic compounds to treat malaria, which remains one of the world’s biggest health problems. The three-dimensional structures available for P. falciparum plasmepsins II and IV make structure-based drug design of antimalarial compounds that focus on inhibiting plasmepsins possible. However, the structural flexibility of the plasmepsin active site cavity combined with insufficient knowledge of the functional residues and of those determining the specificity of parasitic enzymes is a drawback when designing specific inhibitors. In this study, we have combined a sequence and structural analysis with molecular dynamics simulations to predict the functional residues in P. falciparum plasmepsins. The careful analysis of X-ray structures and 3D models carried out here suggests that residues Y17, V105, T108, L191, L242, Q275, and T298 are important for plasmepsin function. These seven amino acids are conserved across the malarial strains but not in human aspartic proteases. Residues V105 and T108 are localized in a flap of an interior pocket and they only establish contacts with a specific non-peptide achiral inhibitor. We also observed a rapid conformational change in the L3 region of plasmepsins that closes the active site of the enzyme, which explains earlier experimental findings. These results shed light on the role of V105 and T108 residues in plasmepsin specificities, and they should be useful in structure-based design of novel, selective inhibitors that may serve as antimalarial drugs. Proteins 2008; 73:440–457. C 2008 Wiley-Liss, Inc. V Key words: malaria; aspartic protease; selectivity; comparative modeling; molecular dynamics; functional residues. 440 PROTEINS INTRODUCTION Malaria remains one of the world’s biggest health problems because 500 million are infected with this disease each year and it is responsible for about one million deaths annually.1 The disease is caused by parasites from the genus Plasmodium and in humans, it is the result of an infection by the following species: Plasmodium falciparum, Plasmodium malariae, Plasmodium ovalae, and Plasmodium vivax. Of these species P. falciparum is the most lethal and it is therefore the main target for drug intervention.2 Once the microbe is transmitted to humans by mosquitoes of the anopheles genus, it causes many problems, the most common of which are severe, recurring fever attacks. The increasing resistance of malarial parasites to the existing antimalarial drugs, and in particular of P. falciparum, has focused efforts toward the discovery of more selective and potent drugs.3 One of the critical stages of the P. falciparum life cycle during human infection is the degradation of hemoglobin, which constitutes the main source of amino acids for its own growth and maturation.3 During the intraerythrocytic stage of the parasite’s life cycle, this protozoa consumes 75% of the hemoglobin in the infected red blood cell.4,5 Hemoglobin degradation occurs within the acidic food vacuole of the parasite and it is catalyzed by aspartic,6 cysteine,7 and metallopeptidases.8 A family of aspartic proteases known as plasmepsins (Plm) is involved in the initial steps of the hemoglo- Additional Supporting Information may be found in the online version of this article. *Correspondence to: Pedro G. Pascutti, Instituto de Biofisica Carlos Chagas Filho, Universidade Federal do Rio de Janeiro, Brazil. E-mail: [email protected]. Grant sponsors: Cuban Ministry of High Education (MES), Structural Biology and Biocomputing Programme of the Spanish National Cancer Research Centre (CNIO), Madrid, Spain. Brazilian High Education Support Agency (CAPES), International Union of Biochemistry and Molecular Biology (IUBMB). Received 24 September 2007; Revised 1 February 2008; Accepted 25 February 2008 Published online 28 April 2008 in Wiley InterScience (www.interscience.wiley.com). DOI: 10.1002/prot.22068 C 2008 WILEY-LISS, INC. V Functional Residues in Plasmodium falciparum Plasmepsins bin degradation pathway,5 and these proteases are attractive targets for the design of novel therapeutic compounds to treat malaria.3 Indeed, Pepstatin A, a nonspecific broad-range aspartic peptidase inhibitor, can cause the death of the Plasmodium microbes when added to culture cells infected with parasites.9,10 A similar behavior has been reported in animal models infected with Plasmodium parasite when E-64, a nonspecific broad-range cysteine peptidase inhibitor, was administered, and both inhibitors display a synergic effect when combined.11–14 Sequencing of the P. falciparum genome has identified 10 plasmepsin encoding genes, numbered PlmI to PlmX.3,15 Among these, only PlmI, PlmII, HAP (histoaspartic protease or PlmIII), and PlmIV are active in the food vacuole.16 The redundant functional roles of these enzymes in hemoglobin digestion has been demonstrated by plasmepsin deletion. This feature indicates that more effective drugs may be obtained by blocking more than one plasmepsin.17,18 Structure-based drug design of antimalarial compounds targeting plasmepsin inhibition is possible due to the availability of the three-dimensional (3D) structures of PlmII (PDB: 1lf4, 1sme, 1xdh, 2bju, 1lee), PlmIV (PDB: 1ls5, 1pfz) from P. falciparum, Plm from P. malariae (PDB: 2anl) and Plm from P. vivax species (PDB: 1qs8). Although the degree of sequence identity among the aspartic proteases of Plasmodium species is relatively high (60%), substrate specificity and their response to inhibitors differ, indicating that variations may exist in the specific binding interactions between the different plasmepsins.19–22 Among Plasmodium species, only P. falciparum strains possess genes encoding PlmI, PlmII, and HAP. Furthermore, Plm IV has a higher level of sequence identity with plasmepsins from non-falciparum species (65–76%) than with their paralogs PlmI, PlmII, and HAP (63%, 62% and 53%, respectively).23 However, PlmII has been the most extensively characterized, because several crystal structures have been determined24–26 and potent inhibitors developed.14,27–30 Nevertheless, these compounds generally have limited selectivity toward the human-related protease cathepsin D (hCatD)29. The high degree of structural flexibility of the PlmII active site cavity allows the different molecules to be accommodated, and this is a drawback when designing specific inhibitors.31 In this respect, identifying the functional residues responsible for plasmepsin specificity could help the development of more potent and selective inhibitors. Sitedirected mutagenesis of PlmII failed to identify significant differences between mutant (M15E, I289E, S79D and M15E/I289E) and wild-type recombinant enzymes in terms of hemoglobin-based substrate cleavage, which indicates that these mutations in the binding site did not alter the natural function of the enzyme.32 In this manuscript, we present a sequence and structural analysis of aspartic proteases that include plasmep- sins from different Plasmodium species, and their homologs, cathepsins, pepsin, rennin, and napsin. The homologous human enzymes were also studied to better understand the specificities of the Plasmodium enzymes and in an effort to develop new specific plasmepsin inhibitors. We also generated comparative 3D models for PlmI, HAP and the following complexes: PlmI–PepstatinA, HAP–PepstatinA, and PlmII/IV–peptide substrates. Based on these sequence analyses, 3D structures of PlmII and PlmIV and the comparative 3D models of PlmI and HAP, we predicted for the first time that residues Y17, V105, T108, L191, L242, Q275, and T298 are important for plasmepsin function. These seven promising amino acid residues are conserved in the malarial strains but not among human aspartic proteases. Residues V105 and T108 are located in a flap of an interior pocket and only establish contacts with a specific nonpeptide achiral inhibitor. Residue L242 is located in the L3 loop,31 recently described as an essential region in cleaving intact hemoglobin.33 Residue Q275 is situated in the small b1024 neighbor to the L4 loop,31 while residues Y17, L191 and T298 belong to well-defined pockets lining the binding site cavity. By combining the information derived from sequence and structural analysis with molecular dynamics (MD) simulations of Plms–ligand complexes, we suggest critical contact points for the structure-based design of novel, selective plasmepsin inhibitors as antimalarial drugs. MATERIALS AND METHODS The methodology followed here to identify new functional residues from P. falciparum plasmepsins is presented in a flowchart (see Fig. 1). We combined the information derived from sequence and structural analysis with MD simulations of Plms–inhibitor complexes to corroborate our findings. Sequence and structure analyses We analyzed 73 amino acid sequences homologous to P. falciparum plasmepsins, as well as 13 crystallographic structures of cathepsin D, pepsin, renin, PlmII, and PlmIV (PDB codes: 1lyw, 1bim, 1f04, 1qdm, 1psn, 1ayf, 1sme, 1qs8, 1ls5, 1fkn, 1lyb, 1xdh, 2bju). For these comparisons, the following web servers were used: PSIBLAST (http://www.ncbi.nlm.nih.gov/BLAST) for similarity searches in the nonredundant NCBI protein database (NCBI-nr); MC-CE (http://cl.sdsc.edu/) for structural superposition; CONSURF (http://consurf.tau.ac.il) to calculate the amino acid conservation; CASTp (http:// sts.bioengr-uic.edu/castp) to identify cavities and calculate their area and volumes; WHAT IF (http://swift. cmbi.kun.nl/WIWWWI/) to calculate atom–atom contacts between the residues of binding-sites and the functional groups of inhibitors. PROTEINS 441 P.A. Valiente et al. Figure 1 Flowchart of the methodology followed to identify the seven new functional residues from P. falciparum plasmepsins by combining the information derived from the sequence and structural analysis with Molecular Dynamics simulations of Plm–inhibitor complexes. Multiple alignments were performed using the CLUSTALW software.34 First, a profile was generated by the MC-CE structural superposition of the crystallographic structures of cathepsin D, pepsin, renin, PlmII, and PlmIV. Then, the remaining protein sequences analyzed were aligned with respect to the profile with CLUSTALW.34 Finally, the multiple alignment was manually parsed by analyzing the gaps, conserved amino acid regions and the secondary structure information using Seaview software.35 Comparative 3D modeling Three-dimensional models for PlmI, HAP, and their complexes with the Pepstatin A inhibitor, were generated with MODELLER software36 using the crystallographic structures as templates (PDB codes: 2bju, 1xdh). The multiple sequence alignment obtained was edited using 442 PROTEINS Seaview software, in order to align the Plms target sequences with the chosen templates. We calculated 100 models for each target with the spatial restraints extracted from the target–template alignment. These models were evaluated using the UCLA web server tools: ERRAT; VERIFY_3D; PROVE; PROCHECK; WHAT_CHEK (http://nihserver.mbi.ucla.edu/SAVS/); and the DOPE energy function37 provided with the Modeling package. To select the best models, we assigned a Zi-score (Zi 5 (Qualityi 2 Mean Quality)/Standard Deviation of Quality) for each solution and those models with positive values of Zi-score were chosen arbitrarily. A similar process was used to obtain 3D models of PlmII and PlmIV in complex with their peptide substrates. To model PlmII and PlmIV complexes, we selected the 1xdh (PlmII–Pepstatin A, R 5 1.7 Å) and 1ls5 (PlmIV–Pepstatin A, R 5 2.8 Å) crystallographic structures as templates, respectively. Functional Residues in Plasmodium falciparum Plasmepsins MD simulations The molecular mechanics potential energy minimizations and MD simulations were carried out with the software package GROMACS, version 3.3.138 using the GROMOS96 53a6 force field.39 For all the systems we used the visual molecular dynamics (VMD)40 software for molecular visualization and manipulation, to set up the spatial orientation of complexes, and to have their principal axes aligned to the cartesian axes. Solvation was performed with a layer of at least 15 Å around the protease–ligand complex, in a rhombic dodecahedral box (xysquare) geometry for periodic boundary conditions. The model of the solvent chosen was single point charge (SPC) water41 and to neutralize the charge of the system, chloride (Cl2) counter-ions were inserted. Accordingly, we ended up with twelve systems for MD simulations, with their final volumes ranging from 580 to 700 nm3 and each with between 55,000 and 70,000 atoms. For energy minimization, we used the steepest descent algorithms (preceded by a position restrained stage for protein atoms) and a conjugate gradient, until an energy gradient was reached less than 2.39 kcal/mol/Å. The MD simulations were performed according to the following criteria: 500 ps with the positions of the protein’s atoms restrained to allow the solvent equilibration; 200 ps with the positions of the backbone’s protein atoms restrained to allow the gradually liberation of the system; and then a full MD for 3.3 ns without restrictions. The Verlet integration42 scheme (leapfrog) with an MD integration time step of 2 fs was employed. LINCS43 was used to constrain all the covalent bonds in non-water molecules, whereas the SETTLE44 algorithm was used to constrain bond lengths and angles in water molecules. The temperature was controlled using weak coupling to a bath of 300 K with a time constant of 0.1 ps. Protein, ligands, ions, and water were independently coupled to the heat bath.45 Initial velocities were randomly generated from a Maxwell distribution at 300 K, in accordance with the masses that were assigned to the atoms. The pressure was controlled using the weak Berendsen coupling to a ‘‘pressure bath of 1 atm’’ with a time constant of 1.0 ps. The long-range electrostatic interactions were calculated using the particle mesh ewald (PME) method46,47 with a non-bonded cutoff at 1.0 Å. The Lennard–Jones interactions were calculated with a cutoff of 1.4 Å, and both non-bonded interactions were calculated every five steps during the generation of the neighbor-list (10 ps). The protonation states of protein ionizable residues were assigned using the PROPKA option48 implemented by the PDB2PQR web server (http://agave.wustl.edu/ pdb2pqr/server.html), and only the catalytic D34 was protonated in Plm systems (not D214). Molecular topology files for Pepstatin A and the achiral inhibitors are not available for the GROMOS96 force field. Therefore, the parameters necessary to run Plms– ligand MD simulations were calculated. In a first step, we used the PRODRG server (http://davapc1.bioch.dundee.ac. uk/programs/prodrg)49 to generate a set of parameters for bonds, angles, atom pairs, proper, and improper dihedrals based on the GROMOS96 force field.50 Then, ab initio quantum mechanics calculations at the B3LYP/ 6-31G** level were made with the Gamess software51 using CHELPG methodology52 in order to obtain the partial charges of atoms in these molecules. For this calculation we assumed a null total charge for such inhibitors. We also calculated the intermolecular contact surface area from MD trajectories with the ‘‘SurfInMD’’ software, a program based on the Connolly algorithm53 and developed in the laboratory of Professor Pascutti and coworkers.54 RESULTS Sequence and structure analysis We selected 73 amino acid sequences homologous to P. falciparum PlmI, PlmII, HAP, and PlmIV, from PSIBLAST similarity searches carried out in the NCBI-nr database. These amino acid sequences belong to organisms from different Phyla covering a wide range of specificities in the aspartic proteases family (e.g. Haemosporida, Mammalia, Amphibia, Archosauria, Arthropoda, Fish, Fungi, Platyhelminthes, Viridiplantae, Mollusca, Mycetozoa, Nematoda and Lepidosauria). A summary of the annotations to each amino acid sequence used in the present study is provided as Supplementary Information (Table I). To predict the functional residues in P. falciparum plasmepsins, we first generated a multiple sequence alignment (MSA) for this protein family, which enabled us to identify regions with different degrees of variability. Conserved regions or positions indicate residues supposedly under stronger evolutionary constraints and that thus might be more important for the protein to fulfill its function. Moreover, residues that are specifically conserved in subfamilies point to sequence changes that occurred during the divergence of a common ancestor, and they imply functional changes or the acquisition of modified specificity.55 The MSA was used to calculate position-specific conservation scores with a Bayesian algorithm56 available on the Consurf web server (http:// Consurf.tau.ac.il: see Supplementary Figure). The Consurf conservation scores are divided into a discrete scale of 9 grades for visualization: where grade 1 contains the most variable positions; grade 5 contains intermediately conserved positions; and grade 9 contains the most conserved positions.57 The discrete Consurf conservation scale for the functional residues proposed here are shown in Table I: Y17, V105, T108, L191, L242, Q275, and T298, which belonged to S3 sub-site and the flexible regions known as Flap (N76-G80), L1 (Q12-I14), L2 PROTEINS 443 P.A. Valiente et al. Table I Discrete Conservation Scale for the New Functional Residues Proposed in the Present Article and the Flexible Regions Known as Flap (N76-G80), L1 (Q12-I14), L2 (L158-T165), L3 (L231-F244), L4 (I277-G283) Calculated with the Consurf Server Plasmepsin II Region Flap L1 L2 L3 L4 S3 subsite Flap interior pocket S20 subsite S3 subsite S30 subsite Human enzyme residues Residue Cathepsin D Cathepsin E Consurf discrete scale N76 Y77 V78 S79 G80 Q12 N13 I14 L158 P159 V160 H161 D162 K163 H164 T165 L231 Q232 N233 L234 D235 V236 I237 K238 V239 P240 F241 L242 P243 F244 I277 E278 D279 V280 G281 P282 G283 Y17 V105 T108 L191 Q275 T298 H77 Y78 G79 S80 G81 M11 D12 A13 L169 S170 R171 D172 P173 Q176 P177 G178 Q248 K249 A250 I251 G252 A253 V254 P255 L256 — I257 Q258 G259 E260 V294 S295 Q296 A297 G298 K299 T300 Y16 A118 Q121 A204 L292 L318 Q84 Y85 G86 T87 G88 L20 D21 M22 M170 S171 S172 N173 — G178 A179 G180 Q249 N250 A251 I252 G253 A254 A255 P256 V257 — — D258 G259 E260 D294 F295 V296 D297 G298 M299 Q300 F25 Q114 G117 A205 L292 L318 4 8 6 8 9 3 8 6 7 7 4 5 1 1 1 3 5 1 2 7 6 7 4 2 4 6 1 1 4 4 2 2 1 2 5 1 4 5 7 6 4 2 6 (L158-T165), L3 (L231-F244), L4 (I277-G283).20,31 These residues were identified through their conservation in different malarial strains, but not in related human aspartic proteases. Residues V105 and T108 are conserved in malarial strains, whereas at these equivalent positions amino acids A and Q/G are found in the human related aspartic proteases Cathepsin D (hCatD) and Cathepsin E (hCatE). Residues L191 and L242 are specific to P. falciparum plasmepsins, whereas hCatD and hCatE enzymes have the amino acids A and Q/D at the same positions. Residue 275 is occupied by a Q in PlmI/PlmII enzymes, where residues E and D are present in PlmIV and HAP, 444 PROTEINS respectively. By contrast, the hydrophobic residues L and V are found at this position in hCatD and hCatE. Residue T298 is conserved across P. falciparum plasmepsins, whereas the hCatD and hCatE related proteases have a hydrophobic L at this position. Likewise, residue Y17 is conserved among P. falciparum plasmepsins whereas the human-related proteases have an F or Y amino acid at this position. Nevertheless, the new functional residues proposed here differ in their degree of conservation, which could reflect the different activities or specificities in the protein family. In a second step, we explored whether these conserved residues in P. falciparum plasmepsins were located at the active site cavity or in an adjacent area. For this purpose, we used the CASTp web server (http://sts.bioengr-uic. edu/castp) to examine seven different structures of Plms– inhibitor complexes determined by X-ray diffraction: PlmII-Achiral (PDB: 2bju), PlmII-Pepstatin A (PDB: 1xdh), PlmIV–Pepstatin A (PDB: 1ls5), PlmII–RS367 (PDB: 1lee), PlmII–RS370 (PDB: 1lf2), PlmII–EH58 (PDB: 1lf3), and PlmII–Statine based compound (PDB: 1me6). This approach allowed us to identify atoms forming protein pockets, to calculate the volumes and areas of the pockets, to identify atoms forming the ‘‘rims’’ of the pocket mouth(s), to calculate the number of mouth openings for each pocket, as well as the area and circumference of the mouth openings.58 We also computed the molecular volume and the area of the active site cavity from the hCatD–Pepstatin A complex (PDB: 1lyb), taking into account that this human enzyme has 35% sequence identity with P. falciparum PlmII. We present the surface electrostatic potential of the active site pockets from four different Plm–inhibitor and hCatD–Pepstatin A complexes calculated with the APBS program59 (see Fig. 2). As can be seen through the chemical–physical properties of residues that belong to active site cavities, the hCatD and PlmII/IV active sites have an equivalent polarity. The analysis of the Plm binding site cavities defined by the Castp server identifies the following residues in the pocket lining of the parasite enzymes (according to the PlmII numbering scheme): F11, Q12, N13, I14, M15, Y17, I32, D34, G36, A38, M75, Y77, V78, S79, V105, T108, F111, T114, Y115, S118, F120, I123, L131, Y192, I212, D214, S215, G216, T217, S218, A219, T221, P243, F244, Q275, L287, N288, I289, I290, L292, F294, and I300. When we analyzed the area (Area_sa, Area_ms) and volume (Vol_sa, Vol_ms) parameters calculated by the Castp server for the active site of each complex (Table II), the active site of hCatD–Pepstatin A complex had greater solvent accessible, molecular surface areas and volumes than the Plm–inhibitor complexes. We also analyzed the differences in Area_sa, Area_ms, Vol_sa and Vol_ms in the presence (1Inh) or absence (2Inh) of a ligand in the enzyme binding site cavity. Our calculations of DArea and DVol for each complex binding site show that the achiral inhibitor suf- Functional Residues in Plasmodium falciparum Plasmepsins Figure 2 Top view of the surface electrostatic potential representation of active site pockets from: (A) PlmII–Achiral Inhibitor, (B) PlmII–Pepstatin A, (C) PlmIV–Pepstatin A, and (D) hCatD–Pepstatin A complexes. The surface is colored according to the electrostatic potential: negative regions (in red), positive regions (in blue), and neutral regions (in gray). We also provided a color intensity scale (from 215 to 15 kT/e) to better represent the electrostatic potential. [Color figure can be viewed in the online issue, which is available at www.interscience.wiley.com.] fers a greater decrease in Area_sa, Area_ms, Vol_sa, and Vol_ms than hCatD–Pepstatin A and Plms–Pepstatin A complexes. In the third step, we calculated the atomic-contacts between Plm residues and the functional inhibitory groups from the 3D structures annotated in the Protein Data Bank (PDBs: 2bju, 1xdh, 1ls5, 1lee, 1lf2, 1lf3, 1me6) using the WHAT IF web server (http://swift.cmbi.kun.nl/ WIWWWI/).60 This procedure allowed us to define non-contact residues near to the active site cavities previously calculated with the Castp server, and to show the enzyme residues in contact with functional inhibitory Table II Parameters Calculated by the Castp Web Server for Active Sites of hCatD–Pepstatin A (1lyb), PlmII–Pepstatin A 1xdh), PlmII–Achiral Inhibitor (2bju), and PlmIV–Pepstatin A (1ls5) Complexes Area_sa (A2) Area_ms (A2) Vol_sa (A3) Vol_ms (A3) Crystallographic structures 2Inh 1Inh D 2Inh 1Inh D 2Inh 1Inh D 2Inh 1Inh D 1lyb 1xdh 2bju 1ls5 1000 677.7 916.9 656.5 862.6 217.7 418.4 213.9 137.4 460 498.5 442.6 1340.9 934.3 1340.1 991.8 1293.5 671.1 627.1 674.9 47.4 263.2 713 316.9 1205.1 757.9 1185.6 527.1 887.8 142.3 536.8 114.7 317.3 615.6 648.8 412.4 2794.8 1869.8 2722.6 1664.7 2349.7 738.9 1236.2 696.6 445.1 1130.9 1486.4 968.1 Area_sa, solvent accessible area; Area_ms, molecular surface area; Vol_sa, solvent accessible volume; and Vol_ms, molecular surface volume. Calculations of these parameters were performed taking into account the presence (1Inh) or absence (2Inh) of the inhibitor in the enzyme binding site cavity. Differences between these values are shown as D symbol in bold. PROTEINS 445 P.A. Valiente et al. Table III Protein Contact Residues in PlmII–Pepstatin A (1xdh), hCatD–Pepstatin A (1lyb), PlmIV–Pepstatin A(1ls5), PlmII–Achiral Inhibitor (2bju), PlmII– RS367(1lee), PlmII–RS370 (1lf2), PlmII–EH58 (1lf3), and PlmII–statine based compound (1me6) complexes, Calculated with What if Web Server 1xdh 1lyb 1ls5 2bju 1lee 1lf2 1lf3 1me6 — — I32 D34 — — — — N76 Y77 V78 — — — — — — — — Y192 D214 G216 — — — — — — I300 — — V31 D33 — — — — H77 Y78 G79 — — — — — — — — Y205 D231 G233 — — — — — I311 I320 L14 — — D34 G36 S37 — — S76 Y77 G78 S79 D109 — E112 — — — — Y192 — G216 T217 S218 — L290 I294 — — I14 M15 I32 D34 — — W41 M75 — Y77 — — — F111 — T114 Y115 I123 — Y192 D214 G216 — — — — — — I300 — — — D34 G36 — — M75 — Y77 V78 S79 — F111 — — — I123 L131 — D214 — T217 — — I290 F294 — I300 — — — D34 G36 — — — N76 Y77 V78 S79 — F111 — — — I123 L131 — D214 — T217 S218 — — F294 — — — — I32 D34 G36 — — — — Y77 V78 S79 — F111 — — — — L131 Y192 D214 G216 — S218 — — F294 — I300 — M15 — D34 G36 S37 — — — Y77 V78 S79 — — — — — I123 — — D214 — T217 S218 A219 I290 — — — Residues in equivalent positions according to structure superposition between Plasmepsins and human Cathepsin D are shown in the same table row. groups in the PlmII–Achiral, PlmII–Pepstatin A, PlmIV– Pepstatin A, PlmII–RS367, PlmII–RS370, PlmII–EH58, PlmII–Statine based compounds and hCatD–Pepstatin A complexes (Table III). Finally and based on their sequence, a manual analysis of the residues identified at the active site cavities of Plms was combined with the information derived from the calculation of atomic-contacts between Plms residues and inhibitory functional groups from the Plms–ligand complexes structures deposited at PDB. These data supported our identification of four of the seven functional residues in Plms proposed here: Y17, V105, T108, and Q275. These residues are close to the plasmepsins active site groove, whereas the remaining three amino acid positions (L191, L242, and T298) are more distant from the enzymes active site. Comparative 3D modeling To evaluate our predictions regarding these functional residues, we calculated 3D models for PlmI and HAP, and their complexes with Pepstatin A inhibitor. Based on PlmII and PlmIV 3D structures annotated at PDB, we 446 PROTEINS chose the high resolution (R) crystallographic structures 2bju (PlmII–Achiral Inhibitor, R 5 1.56 Å) and 1xdh (PlmII–Pepstatin A, R 5 1.7 Å) as templates to model Plms and their respective complexes. To obtain 3D models of PlmII and PlmIV peptide substrate complexes, we chose the crystallographic structures of PlmII–Pepstatin A (PDB code: 1xdh, R 5 1.7 Å) and PlmIV–Pepstatin A (PDB code: 1ls5, R 5 2.8 Å) as templates. As a result of the validation process (see Methods section), the following models were chosen: PlmI (98), HAP (87), PlmI– Pepstatin A (23), HAP–Pepstatin A (63), PlmII–IEFLRL (5), and PlmIV–IEFLRL (1). We produced a graphic representation of the molecular interactions in PlmI–Pepstatin A and HAP–Pepstatin A complexes obtained using Roman Laskowski services in pdbsum database (http://www.ebi.ac.uk/thornton-srv/ databases/pdbsum/upload.html, Fig. 3). According to these models, the PlmI residues M15, G36, S79, I123, T217, and S219 make additional contacts with inhibitory functional groups when compared to the 3D structure used as the template. In the HAP–Pepstatin A complex, there were also additional contacts established with inhibitory functional groups by enzyme residues A36, S37, F114, A216, T217, V219, and V290 when compared with the 3D structure used as the template. The enzyme contact residues with functional substrate groups in PlmII–IEFLRL and PlmIV–IEFLRL complexes after MD simulations are classified by subsite pockets in Table IV. The contact residues were assigned to the corresponding binding sites in the protease (S3, S2, S1, S10 , S20 , and S30 ) using a 6.0 Å distance cutoff, to determine the atom–atom contacts between the enzyme and substrate residues (P3, P2, P1, P10 , P20 , and P30 ). This standard nomenclature for protease substrate cleavage takes into account that peptide bond scission occurs between the P1 and P10 residues.61 A more detailed analysis of the Plm contact residues in Plms–ligand complexes is presented in the MD simulations section. MD simulations P. falciparum plasmepsins show great flexibility in all the annotated 3D structures. To explore the conformational fluctuation of these proteins, we performed MD simulations using Plms and Plms–ligand structures as the initial conformations. To study the structural flexibility of free-state Plms during 3 ns of MD simulation, we calculated the fluctuation of the root mean square (RMSf) per residue (see Fig. 4) and we generated a visual 3D RMSf representation of the deviation of the backbone atoms with the MOLMOL62 software (see Fig. 5). As a result, we observed several RMSf peaks in Plms regions L1 (RMSf values from 0.139 to 0.165 nm), Flap (RMSf: 0.119 to 0.203 nm), L2 (RMSf: 0.066 to 0.178 nm), L3 (RMSf: 0.099 to 0.287 nm), L4 (RMSf: 0.151 to 0.219 nm), and between residues 108 and 119 (RMSf: 0.115–0.2 nm). Functional Residues in Plasmodium falciparum Plasmepsins Figure 3 Graphic representations of molecular interactions from 3D models from PlmI–Pepstatin A (A) and HAP–Pepstatin A (B) complexes. Green dashed lines represent intermolecular hydrogen bonds and red dashed semicircles show the Plm residues that contact Pepstatin A. The red hexagons enclose contact residues in HAP–Pepstatin A and PlmI–Pepstatin A that are not detected in PlmII–Pepstatin A (template structure use to model these complexes). [Color figure can be viewed in the online issue, which is available at www.interscience.wiley.com.] To study the differences in flexibility of the free-state Plms and Plms–Pepstatin A complexes during MD simulations, we compared the calculated RMSf per residue of free and bound PlmII structures [Fig. 6(A)]. We found that the PlmII–Pepstatin A system displayed a smaller fluctuation in the flap region than free PlmII. In contrast, the PlmII system showed a smaller fluctuation in the L3 region than PlmII–Pepstatin A. To investigate the structural changes in the PlmII–Pepstatin A complex during MD simulation, we analyzed the temporal evolution of the complex trajectory. A movement of the L3 region in the PlmII–Pepstatin A complex closed the enzyme active site cavity during the 3-ns simulation [Fig. 6(B)]. This structural change promoted a decrease in the molecular surface volume of the enzyme active site cavity from 738.9 to 379.6 A3. A similar behavior was observed in the other Plms–Pepstatin A complexes analyzed. The contact surface area was calculated from MD trajectories for the PlmII–Pepstatin A and hCatD–Pepstatin A complexes with the ‘‘SurfInMD’’ program (see Fig. 7). A comparison between hCatD and PlmII contact residues in these complexes show the following equivalent positions: M15, I32, D34, G36, S37, M75, N76, Y77, S79, Y192, D214, G216, S218, and I300 according to the PlmII numbering scheme. Additionally, during MD simulation of the PlmII–Pepstatin A system, we identified new residues (T221, P243, F244, Q275, and F294) involved in the contact of the enzyme with functional groups of this inhibitor. To study the structural plasticity of the PlmII–inhibitor complexes, we compared the RMSf per residue of this enzyme when bound to achiral (specific) and Pepstatin A (non-specific) inhibitors (see Fig. 8). The PlmII–Pepsta- tin A complex showed smaller fluctuations than the PlmII–Achiral complex in the L1, L2 and flap regions, whereas the PlmII–Achiral system displayed a smaller deviation than PlmII–Pepstatin A in the L3 region. To investigate the differences in the mode of binding of PlmII with these inhibitors, we calculated the surface area of contact residues (see Fig. 9) and the hydrogen bond prevalence (Table V) from the MD trajectories. A quantitative analysis of the surface area of the PlmII contact residues in both complexes showed differences in residues I14, M15, F16, S37, W41, M75, V82, V105, T108, F111, Y115, S118, F120, I123, G216, T298, and D303. As a result of our MD simulation experiments, we found that residues V105, T108, and T298 only established contacts with functional groups of the specific non-peptide achiral inhibitor, which revealed their importance as critical contact points for the design of new potent and plasmepsin inhibitors. Hydrogen bonds (hbonds) play a very important role in protein–inhibitor affinity and to qualitatively evaluate the nature of these hbonds, we calculated the prevalence of each bond during MD simulation. Accordingly, there was a decrease in 10 hbonds in PlmII–Achiral complex compared with PlmII–Pepstatin A complex (Table V), and we found that hbonds TYR192OHALA5O, SER79N-VAL3O, VAL78N-STA4O, ASN76ND2STA6OG, ASP34OD2-STA4OG, ALA5N-GLY36O, STA4OGASP34OD1, STA4N-THR217OG1 have a prevalence above 90% in the PlmII–Pepstatin A simulation. In contrast, the PlmII–Achiral complex only had three hbonds with a prevalence below of 50% during the dynamic modeling. PROTEINS 447 P.A. Valiente et al. Table IV Protein Contact Residues with Substrate Functional Groups in PlmII–IEFLRL and PlmIV–IEFLRL Complexes after MD Simulations Classified by Subsite Pockets Enzyme subsites Residues, PlmII Residues, PlmI Residues, HAP Residues, Plm IV Residues, CatD Residues, conservation M15 Y17 S218 A219 L242 F244 Q275 M286 L287 N288 I290 I14 I32 S118 F120 G216 T217 S218 D303 V78 T217 A219 T221 I290 L292 F294 I300 I32 L33 D34 S37 F111 F120 I123 D214 G216 T217 D34 G36 S37 A38 N39 W41 M75 N76 Y77 V78 L131 L191 Y192 D214 T217 V78 Y192 I300 M15 Y17 S218 S219 L242 L244 Q275 M286 V287 S288 I290 V14 I32 G118 F120 G216 T217 S218 D303 V78 T217 S219 T221 I290 V292 L294 I300 I32 F33 D34 S37 F111 F120 I123 D214 G216 T217 D34 G36 S37 A38 N39 W41 M75 N76 Y77 V78 L131 L191 Y192 D214 T217 V78 Y192 I300 L15 F17 S218 V219 L242 L244 E275 M286 L287 N288 V290 V14 L32 S118 V120 A216 T217 S218 D303 K78 T217 V219 T221 V290 I292 L294 V300 L32 F33 H34 S37 F111 V120 V123 D214 A216 T217 H34 A36 S37 S38 N39 W41 L75 T76 S77 K78 L131 L191 M192 D214 T217 K78 M192 V300 M15 Y17 S218 T219 L242 L244 D275 M286 L287 Y288 L290 L14 I32 S118 F120 G216 T217 S218 D303 G78 T217 T219 T221 L290 V292 I294 I300 I32 F33 D34 S37 L111 F120 I123 D214 G216 T217 D34 G36 S37 A38 N39 W41 I75 S76 Y77 G78 L131 L191 Y192 D214 T217 G78 Y192 I300 Q14 Y16 S235 L236 Q258 E260 L292 L303 S304 G305 M307 A13 V31 A129 F131 G233 T234 S235 D323 G79 T234 L236 V238 M307 M309 P314 I320 V31 F32 D33 S36 I124 F131 I134 D231 G233 T234 D33 G35 S36 S37 N38 W41 I76 H77 Y78 G79 I142 A204 Y205 D231 T234 G78 Y205 I320 7 5 8 6 1 4 2 4 6 4 4 6 7 6 7 8 9 8 8 6 9 6 7 4 5 5 8 7 8 9 9 3 7 9 9 8 9 9 9 9 9 9 8 7 4 8 6 6 4 7 9 9 6 7 8 S3 S2 S1 S10 S20 S30 The contact residues were assigned to the corresponding binding sites in the protease (S3, S2, S1, S10 , S20 , and S30 ) using a distance cutoff of 6.0 Å as criteria, to determine atom–atom contacts between enzyme residues and the substrate residues (P3, P2, P1, P10 , P20 , and P30 ). The contact residues of HAP, PlmI, and hCatD proteases with an equivalent substrate were inferred by homology. The discrete conservation score of each residue calculated with the Consurf server is also displayed. 448 PROTEINS Functional Residues in Plasmodium falciparum Plasmepsins Figure 4 Representation of the backbone RMS fluctuation (RMSf) per residue of free-state Plasmepsins from P. falciparum during the MD simulation: black line, PlmII; red, PlmI; blue, PlmIV; and green, HAP. Black arrows indicate previously described flexible regions and red hexagons enclose a new flexible region predicted here. [Color figure can be viewed in the online issue, which is available at www.interscience.wiley.com.] To understand the different activities of Plm II and PlmIV,21 we carried out MD simulations of our 3D models for PlmII–IEFLRL and PlmIV–IEFLRL complexes. To study the structural changes in the Plms–IEFLRL complexes throughout the simulations, we compared the calculated RMSf per residue of enzymes and peptide substrate (see Fig. 10). When focusing only on the enzymes, PlmIV displayed a smaller fluctuation than PlmII in the flap region, in contrast to the results observed in the L3 region [Fig. 10(A)]. A similar analysis was performed with the substrate and a smaller fluctuation in atoms corresponding to the P1 residue (F) was observed when substrate IEFLRL was bound to PlmIV. The opposite result was observed for the atoms of the P20 residue [R, Fig. 10(B)]. To investigate the differences in the mode of PlmII and PlmIV binding to this substrate, we calculated the surface area of the contact residues from the MD trajectories (see Fig. 11). A quantitative analysis of the surface area in both complexes indicated differences in the following contact residues: M15, Y17, M75, N76, S79, E112, P113, T114, F120, I123, L131, L191, Y192, T221, F241, L242, F244, and M286 according to PlmII numbering scheme. The enzyme residues that contact functional substrate groups in PlmII–IEFLRL and PlmIV–IEFLRL complexes after MD simulations were classified by subsite pockets (Table IV). We also inferred the residues of HAP, Figure 5 3D representation of RMS fluctuations in free-state Plms (A, PlmI; B, PlmII; C, PlmIV; D, HAP). The RMSf of the backbone for each system was represented by a tube of varying thickness, the larger the tube the greater the deviation. Plms secondary structures are displayed with different colors: in red, a-helix; in cyan, b-sheets; and light gray, loop and coiled structures. [Color figure can be viewed in the online issue, which is available at www.interscience.wiley.com.] PROTEINS 449 P.A. Valiente et al. Figure 6 Comparison of the backbone RMSf per residue between free state Plm II (red line) and Plm II–Pepstatin A complex (black line) along MD simulations. Black arrows indicate fluctuations in Flap and L3 Plm II regions (A). In B a snapshot from the movement of the L3 region backbone along PlmII–Pepstatin A MD simulation is displayed. Each of the pictures is taken at 600 ps. In blue, the actual time step frame fitted to the initial simulation structure (red) is represented. [Color figure can be viewed in the online issue, which is available at www.interscience.wiley.com.] PlmI, and hCatD proteases that contact an equivalent substrate by homology. A careful analysis of our 3D models indicated that residues L191 and L242 formed part of the S10 and S3 subsites. This strongly supports our initial prediction based on sequence and structural analyses. These data enable us to display the seven new functional residues (Y17, V105, T108, L191, L242, Q275, and T298) in a specific model of Plms of P. falciparum strain predicted here, obtained by combining sequence and structure analyses with molecular dynamic simulations (see Fig. 12). conserved across malarial strains but not across human aspartic proteases. Thus, residues V105, T108, and T298 only establish contacts with functional groups of a specific non-peptide achiral inhibitor, which sheds light on the role of these critical contact points in plasmepsin specificity and will be useful information for the structure-based design of novel and selective inhibitors as antimalarial drugs. The remaining four amino acid positions identified here (Y17, L191, L242, and Q275) form part of the S3 and S2 subsites, and their weaker evolutionary conservation across the aspartic protease family studied by us suggest their importance in the functionality specificity of P. falciparum plasmepsins. DISCUSSION P. falciparum plasmepsins have a unique substrate specificity that is the result of variation in the residues lining the active site cavities.32 Earlier mutagenesis studies on PlmI and PlmII concluded that differences in substrate-cleavage specificity depend more on conformational differences due to distant sites than on specific variation at the active site.63 On the basis of sequence/ structure analysis, comparative modeling and molecular dynamic studies, we propose here seven residues that are specific to plasmepsins, that potentially influence their specificity, and that have not been previously studied by site directed mutagenesis. These seven amino acids are 450 PROTEINS Experimental evidences that support our methodology In this study, we predicted seven new functional residues from P. falciparum plasmepsins by combining sequence and structure analyses with molecular dynamic simulations of Plms–ligand complexes. To understand the differences in specificity between P. falciparum plasmepsins and the human related cathepsin D, we inferred the contact residues of hCAtD, PlmI, and HAP by homology from the structural models of PlmII–IEFLRL and PlmIV– IEFRL complexes after MD simulations. The S3 subsite in P. falciparum plasmepsins is a highly hydrophobic Functional Residues in Plasmodium falciparum Plasmepsins Figure 7 Protein residues at the contact surface area from PlmII–Pepstatin A (A) and hCatD–Pepstatin A (B) complexes along MD simulations. These calculations were performed with the ‘‘SurfInMD’’ program and the values for each residue are represented (mean 1 SD). Black rectangles show the equivalent residue positions in both enzymes and the red rectangles the new PlmII contact residues predicted during MD simulation of Plm II–Pepstatin A complex. [Color figure can be viewed in the online issue, which is available at www.interscience.wiley.com.] pocket predominantly formed by hydrophobic amino acid residues at positions 15, 219, 242, 244, 286, 287, 290. Using combinatorial libraries of peptides, it was demonstrated that plasmepsins preferred the substitution Figure 8 Comparison of the backbone RMSf per residue between PlmII–Pepstatin A (red line) and PlmII–Achiral Inhibitor (black line) complexes. Black arrows indicate fluctuations in L1, Flap, L2, L3, and L4 Plm II regions. [Color figure can be viewed in the online issue, which is available at www.interscience.wiley.com.] of a hydrophobic amino acid in P3 and they failed to tolerate charged amino acids at this position (Asp and Lys).22 We show that the S3 subsite of the hCatD is a hydrophilic and a hydrophobic pocket and indeed, it has been shown that M, I, S, and T are the preferred P3 residues for the human enzyme, with the hydrophilic residues binding to the Q14 side chain and the hydrophobic residues binding to hydrophobic amino acids of this pocket.22 Similarly, the S2 subsite of P. falciparum plasmepsins is a hydrophilic and hydrophobic pocket, and the results available indicate that the parasite enzymes share a preference for isoleucine at the P2 position.22 Overall, hydrophobic substitutions were relatively well tolerated, and while most of the parasite enzymes preferentially cleave peptides containing a P2 serine or glutamate, basic residues and proline at the P2 position are poorly accepted.22 Our predictions show that S1 and S10 subsites are highly hydrophobic pockets as supported by the evidence indicating the preference of phenylalanine, leucine, and norleucine (Nle) at the P1 position.22 This is consistent with other observations related to various PROTEINS 451 P.A. Valiente et al. Figure 9 Representation of the Plm II contact surface area from PlmII–Pepstatin A (red bars) and PlmII–Achiral Inhibitor (black bars) complexes during MD simulations as calculated with the ‘‘SurfInMD’’ program. The values (mean 1 SD) of each residue are represented. Blue rectangles indicate predicted new residues in PlmII that contact the Achiral inhibitor functional groups (V105, T108, and T298). [Color figure can be viewed in the online issue, which is available at www.interscience.wiley.com.] other members of the aspartic peptidase family.64,65 The most common residues for the S10 subsite were consistently hydrophobic substitutions.22 Although our models show that S20 and S30 are hydrophilic and hydrophobic pockets in P. falciparum plasmepsins, the S20 and S30 subsites of plasmepsins have a much broader specificity than the other subsite pockets examined by the combinatorial method.22 PlmII is the most extensively characterized P. falciparum aspartic protease, for which several crystal structures have been determined,24–26 potent inhibitors developed14,27–30 and site-directed mutagenesis studies performed.32,66 The enzyme residues that contact with functional substrate groups in PlmII–IEFLRL and PlmIV–IEFLRL complexes after MD simulations are classified by subsite pockets, and the data from previous Table V Hydrogen Bond Prevalence along MD Simulations of PlmII–Pepstatin A (Bold) and PlmII–Achiral Inhibitor (Italic) Complexes Donor ALA219N SER218N TYR192OH SER79N VAL78N ASN76ND2 ASP34OD2 STA6N ALA5N STA4OG STA4N VAL3N VAL2N SER118OG SER37OG IH4N10 452 PROTEINS Acceptor Hydrogen bond stability (%) VAL2O VAL2O ALA5O VAL3O STA4O STA6OG STA4OG ASN76O GLY36O ASP214OD1 THR217OG1 SER79OG SER218O IH4O27 IH4O1 TYR192OH 47.7 68.2 98.5 90.6 99.0 79.3 98.4 82.2 93.0 93.1 94.2 79.2 87.5 19.5 44.3 17.9 site-directed mutagenesis studies supported our 3D models of PlmII/IV–substrate complexes.32 Mutants of PlmII were constructed to understand the differences in substrate specificity between the parasite enzyme and other aspartic proteinases (M15E, I289E, S79D, and the double mutant M15E/I289E).32 The first of the PlmII residues altered in this study was M15, which is located in the S3 subsite, a highly hydrophobic pocket that determines the preference of large hydrophobic residues at P3 position for PlmII. The PlmII M15E mutant displayed the lowest Michaelis constant for a substrate with K at position P3 among a series of substrates with variations in this position. This change resulted in a 5.5-fold increase in the specificity constant of the mutant enzyme with respect to the wild-type enzyme and shows that the M15 residue contributes to the S3 subsite specificity of PlmII. These experiments also demonstrate that pepsin and rhizopuspepsin enzymes that have an E residue in this position could tolerate a K amino acid in the P3 position of the substrate. However, there were no significant differences between the M15E mutant and wildtype recombinant enzyme in cleaving a hemoglobinbased substrate, which indicates that this mutation in the binding site has not altered the natural function of the enzyme. The second residue altered was I289. This residue lies within the interface of the S2 and S4 subsites of PlmII. The replacement of this position by an E amino acid produced a better kcat constant for substrates with K at position P2 with respect to the wild-type enzyme. When compared with the M15E single mutant, the M15E/I289E double mutant demonstrated an additive effect in the binding constant of P2 or P4 K substrates and no difference in the kinetic parameters for the P3 lysine substrates. Finally, the introduction of an aspartic acid at position 79 is insufficient for PlmII to recognize a substrate having a P1 lysine.32 Our 3D model of the Functional Residues in Plasmodium falciparum Plasmepsins PlmII–IEFLRL complex showed that the S79 side chain is outside of the S1 subsite. Prediction of functional residues in P. falciparum plasmepsins Sequence and structure analyses Figure 10 Representation of the backbone RMS fluctuation (RMSf) per residue of Plm II (dark blue line) and Plm IV (magenta line) along MD simulations of PlmII/ IV–IEFLRL complexes (A). Black arrows indicate fluctuations in the L1, Flap, L2, L3, and L4 Plm II regions. In B, the RMSf per atom of IEFLRL bound to Plm II (dark blue line) and Plm IV (magenta line) are displayed during MD simulations. The substrate groups (P3, P2, P1, P10 , P20 , P30 ) are detached per atom index. [Color figure can be viewed in the online issue, which is available at www.interscience.wiley.com.] Key amino acid positions that are important for maintaining the 3D structure of a protein and/or its functions (e.g. catalytic activity, binding to ligands, DNA or other proteins), are often under strong evolutionary constraints. Thus, the biological importance of a residue often correlates with its level of evolutionary conservation within the protein family.57 To define key residues for Plms activity, we performed a MSA with 73 homologous amino acid sequences that show identity ranging from 10 to 88%, in agreement with previous studies.67 The seven promising residues proposed here are conserved in the malarial strains but not among human aspartic proteases. However, they differ in their calculated degree of conservation (indicated in brackets) across the MSA. These residues are: Y17 [5], V105 [7], T108 [6], L191 [4], L242 [1], Q275 [2], T298 [6] and they have different spatial locations in the Plm 3D structure. The new positions proposed here display a well-defined relationship between the degree of residue conservation and their location in Figure 11 Protein contact surface area from PlmII–IEFLRL (A) and PlmIV–IEFLRL (B) complexes during MD simulations as calculated with the ‘‘SurfInMD’’ program. The values (mean 1 SD) of each residue are represented. Black rectangles enclose enzyme residues at positions with different contact surface areas depending on the substrate. [Color figure can be viewed in the online issue, which is available at www.interscience.wiley.com.] PROTEINS 453 P.A. Valiente et al. ume and binding site volume when the cavity volumes was smaller than 700 A.3,58 Comparative 3D modeling of plasmepsins and plasmepsin–ligand complexes Figure 12 Top view ribbon diagram representation of Plm II from P. falciparum. Licorice diagram represents the seven new functional residues proposed in this work: Y17, V105, T108, L191, L242, Q275, and T298 according to Plm II number scheme. [Color figure can be viewed in the online issue, which is available at www.interscience.wiley.com.] the Plm 3D structure. The residues V105 and T108 are located in an interior flap pocket and they only establish contacts with a specific non-peptide achiral inhibitor. Residue L242 is located at the L3 loop30, a highly conserved region in all Plms that was recently described as an essential region for cleaving intact hemoglobin.68 Residue Q275 is localized in the small b1024 neighbor to the L4 loop30, whereas residues Y17, L191, and T298 belong to well-defined pockets lining the binding site cavity (see Table I). Both shape and chemical complementarity are the underlying bases of molecular recognition.58 Based on this, we performed a detailed analysis of the 3D structures of seven Plm–inhibitor and hCatD–Pepstatin A complexes annotated at PDB. There was great plasticity in shape and size parameters (area and volume) of the Plm–ligand binding sites cavities. Comparison of Plms– PepstatinA, hCatD–Pepstatin A and the other Plms–peptidomimetic inhibitor complexes (PlmII–RS367, PlmII– RS370, PlmII–EH58, PlmII–Statine-based compound), indicates similar enzyme contact residues with these functional ligand groups. This explains the poor selectivity of these peptidomimetic inhibitors for parasite and hCatD enzymes.69 On the other hand, the difference in volume and surface binding site cavities for Plms–Pepstatin A and hCatD–Pepstatin A complexes reveals a smaller active site for parasite enzymes and unoccupied spaces in active sites of Plms–Pepstatin A complexes, which could be useful to perform structure-based ligand design. These phenomena are in agreement with previous studies performed on 51 monomeric enzymes–ligand complexes, that indicated a linear relationship between ligand vol- 454 PROTEINS The 3D structures of proteins in a family are more conserved than their sequences.70 Therefore, if any similarity between two proteins is detectable at the sequence level, structural similarity can usually be assumed.71 Although the level of sequence identity among the aspartic proteases of Plasmodium species is rather high (60%), substrate specificity and their responses to inhibitors may be different, indicating variations in the specific binding interactions among the different plasmepsins.19–22 Other 3D models of mature PlmI (PDB: 1lcr), HAP (ModBase: Q81M15), and PlmI/II substrates complexes have been proposed.72 Recently, the 3D crystallographic structures of PlmII were solved with a higher resolution (2 bju [PlmII–Achiral Inhibitor, R 5 1.56 Å] and 1xdh [PlmII–Pepstatin A, R 5 1.7 Å]). Hence, we generated 3D models of Plms and Plms–Pepstatin A complexes using these structures as templates, whereas to calculate the 3D models of PlmII/IV substrates, we used 1xdh (PlmII–Pepstatin A, R 5 1.7 Å) and 1ls5 (PlmIV– Pepstatin A, R 5 2.8 Å) as templates rather than the 1smr (mouse renin complex with a decapeptide inhibitor (CH66), R 5 2.0 Å) employed previously.72 In our 3D models, T221 changes its location from the S2 to S1 subsite. This difference could be explained by considering the opposing orientation of P1 side chain in ligand templates. We consider the valine residue 3 of Pepstatin A as the P1 position whereas others have taken the leucine residue as the P1 position in the CH-66 inhibitor.72 However, both models explain the residue assignment of other subsites. MD simulations of plasmepsins and plasmepsin–ligand complexes Large-scale movements have increasingly been suggested to play a role in aspartyl protease enzyme activity.73–77 Previous structural studies of 3D Plm structures annotated at PDB indicated that these enzymes have great structural flexibility in the flap, L1, L2, L3, and L4 regions.30 Our MD studies of these proteins define an additional flexible region between residues 108–119. Residues (V105, T108) near to the active site cavity establish new contacts with functional groups of the Achiral inhibitor after MD simulation. The MD simulations of Plms complexed with Pepstatin A inhibitor revealed a movement of the L3 region that closed the protease active site, and that promoted the formation of new contacts between the parasite enzymes and the Pepstatin A inhibitor. This movement explained the increase in structural fluctuation in the L3 region when PlmII is complexed to the Pepstatin A inhibitor when compared with the PlmII Functional Residues in Plasmodium falciparum Plasmepsins free-state. To understand this conformational changes in the L3 region of PlmII–Pepstatin A complex structure, we analyzed the high resolution crystallography structure (1xdh). In this structure PlmII is a dimer, due to a hydrophobic contact between the L3 region of A and B chains, although it was recently demonstrated that PlmII is a functional monomer in solution.68 Similarly, it was reported that L3 loop residues are essential to cleave hemoglobin between residues Phe33 and Leu34 at acidic pH, due to the compromised ability to cleave intact hemoglobin of a chimeric aspartic protease when the L3 loop of the PlmII sequence is replaced with its equivalent Cathepsin E sequence.68 These authors had previously reported that cathepsin E could not cleave intact hemoglobin at pH 5.66 During our MD simulation, residue F244 was located in the S3 subsite due to the L3 loop movement observed in Plms–Pepstatin A and PlmII/IV– substrate systems. This finding explains the differences in the kinetics parameters of mutants F244E, F244K, and F244A with the synthetic substrate DABCYL-GABAERMFLSFP-EDANS (based on sequence 30–37 of hemoglobin a-chain) previously reported.66 The F244E mutant had a lower Km and kcat than the wild type enzyme for this substrate. The lower Km of F244E reflected the improved binding for the wild type enzyme on this substrate, and the lower kcat of F244E suggests a poorer productive orientation of the bond to be cleaved than in the native protease.66 Plasmepsins from P. falciparum species share similar 3D structures but different catalytic properties against known substrates.22 There is a well-defined correlation between the higher deviation of the P1 position in the IEFLRL substrate when it is bound to PlmII in our simulations and the weaker affinity for this substrate and poorer efficiency when compared to PlmIV.22 This suggests a better productive orientation of the bond to be cleaved (F–L). Moreover, markedly different preferences for substrates were demonstrated between PlmII and PlmIV, suggesting that these enzymes might cleave different sites in the globin chains of the hemoglobin.22 Poor selectivity for human aspartic proteases is an important issue when developing inhibitors of pathogenic enzymes. The two major concerns are toxicity and/or possible reduction of the concentrations reaching the pathogen.3 Plasmepsins have a varying degree of sequence homology with human aspartic proteases, the most similar being the lysosomal enzyme cathepsinD. CathepsinE, renin, and pepsin A, represent other important human aspartic proteases that exhibit poor sequence homology,24,78 although hCatD is commonly used as the marker for cross-inhibition. To develop new specific inhibitors for Plms, it is useful to map the residues that establish contact with specific inhibitors in the enzyme’s active site, and to exploit the differences in the subsite preferences of these enzymes.69 A comparison between the contact residues surface area in PlmII–Achiral and PlmII–Pepstatin A complexes indicates that residues I14, M15, F16, S37, W41, M75, V82, V105, T108, F111, Y115, S118, F120, I123, G216, T298, and D303 are important to design Plms specific inhibitors. The achiral inhibitor establish contacts in unoccupied spaces corresponding to the S3 subsite residues (I14, M15, F16, F120, and I123), the S2 subsite (S118) of PlmII–Pepstatin A 3D structure, and those in a new pocket (W41, V82, V105, T108, F111) formed by rotation of the Y77 and W41 side chains in combination with a substantial movement of the flap’s main chain.79 The lower hbonds in PlmII– Achiral Inhibitor complex compared to the PlmII–Pesptatin A complex are also remarkable. Previous studies reported that Pepstatin A has a better affinity for Plms than the achiral inhibitor.24,69 Although we have not performed free energy calculations for these Plms–Inhibitor complexes, our results suggest that electrostatic interactions (hbonds) contribute more to the binding strength than the van der Waals interactions in PlmII–Pepstatin A complex than in the PlmII–Achiral inhibitor complex. This suggests the possibility of improving achiral inhibitor potency by introducing some polar groups in the molecular structure of the inhibitor without affecting its selectivity. CONCLUSIONS In this work, combining sequence/structure analysis, molecular modeling and MD methodologies, we propose seven residues that are specific to plasmepsins: Y17, V105, T108, L191, L242, Q275, T298 (according to PlmII numbering scheme) that have not been predicted previously. Indeed, residues V105 and T108 are located in an interior flap pocket that only established contacts with a specific non-peptide achiral Inhibitor, which sheds light on the role of V105 and T108 residues in plasmepsin specificity. This information could be useful for the structure-based design of novel and selective inhibitors to be employed as antimalarial drugs. We also predict a conformational change in the L3 region of the Plms 3D structures when these enzymes are in a complex with Pepstatin A and peptide substrates. This movement closes the enzyme active site and explains previous experimental evidence. Mutagenesis experiments are likely to be the easiest way to verify the function of the residues identified in this work and to test the L3 loop flexibility hypothesis that we propose. ACKNOWLEDGMENTS PAV thanks the International Union of Biochemistry and Molecular Biology (IUBMB) for providing a fellowship for traveling to Brazil, and the Government of Brazil for providing a CAPES research fellowship. TP acknowledges the Spanish Biotechnology Society (SEBiot) for providing a post-doctoral research fellowship. The authors PROTEINS 455 P.A. Valiente et al. thank MSc. Rossana Garcia and Dr. Mark Sefton for the helpful revision of the final manuscript versions. REFERENCES 1. With joint forces against Malaria. Second Annual Biology and Pathology of the Malaria Parasite conference BioMalPar, April 5 Press release. Heidelberg, Germany 2006. 2. Breman JG. The ears of the hippopotamus: manifestations, determinants, and estimates of the malaria burden. Am J Trop Med Hyg 2001;64:1–11. 3. Coombs GH, Goldberg DE, Klemba M, Berry C, Kay J, Mottram JC. Aspartic proteases of Plasmodium falciparum and other parasitic protozoa as drug targets. Trends Parasitol 2001;1:532–537. 4. Goldberg DE, Slater AF, Cerami A, Henderson GB. Hemoglobin degradation in the malaria parasite Plasmodium falciparum: an ordered process in a unique organelle. Proc Natl Acad Sci USA 1990; 87:2931–2935. 5. Goldberg DE, Slater AF, Beavis R, Chait B, Cerami A, Henderson GB. Hemoglobin degradation in the human malaria pathogen Plasmodium falciparum: a catabolic pathway initiated by a specific aspartic protease. J Exp Med 1991;173:961–969. 6. Klemba M, Goldberg DE. Biological roles of proteases in parasitic protozoa. Annu Rev Biochem 2002;7:275–305. 7. Shenai BR, Sijwali PS, Singh A, Rosenthal PJ. Characterization of native and recombinant falcipain-2, a principal trophozoite cysteine protease and essential hemoglobinase of Plasmodium falciparum. J Biol Chem 2000;75:29000–29010. 8. Murata CE, Goldberg DE. Plasmodium falciparum falcilysin: a metalloprotease with dual specificity. J Biol Chem 2003;278:38022–38028. 9. Francis SE, Gluzman IY, Oksman A, Knickerbocker A, Mueller R, Bryant ML, Sherman DR, Russell DG, Goldberg DE. Molecular characterization and inhibition of a Plasmodium falciparum apartic hemoglobinase. EMBO J 1994;13:306–317. 10. Moon RP, Tyas L, Certa U, Rupp K, Bur D, Jacquet C, Matile H, Loetscher H, Grueninger-Leitch F, Kay J, Dunn BM, Berry C, Ridley RG. Expression and characterization of plasmepsin I from Plasmodium falciparum. Eur J Biochem 1997;244:552–560. 11. Soni S, Dhawan S, Rosen KM, Chafel M, Chishti AH, Hanspal M. Characterization of events preceding the release of malaria parasite from the host red blood cell. Blood Cells Mol Dis 2005;35:201–211. 12. Banerjee R, Goldberg DE. The Plasmodium food vacuole. In: Rosenthal PJ, editor. Antimalarial chemotherapy, mechanism of action, resistance, and new directions in drug discovery. Humana, Totowa, NJ, 2001. pp 43–63. 13. Rosenthal PJ. Antimalarial chemotherapy, mechanisms of action, resistance, and new directions in drug discovery. In: Rosenthal PJ, editor. Humana, Totowa, NJ, 2001. pp 325–345. 14. Haque TS, Skillman AG, Lee CE, Habashita H, Gluzman IY, Ewing TJ, Goldberg DE, Kuntz ID, Ellman JA. Potent, low-molecularweight non-peptide inhibitors of malarial aspartyl protease plasmepsin II. J Med Chem 1999;42:1428–1440. 15. Gardner MJ, Hall N, Fung E, White O, Berriman M, Hyman RW, Carlton JM, Pain A, Nelson KE, Bowman S, Paulsen IT, James K, Eisen JA, Rutherford K, Salzberg SL, Craig A, Kyes S, Chan MS, Nene V, Shallom SJ, Suh B, Peterson J, Angiuoli S, Pertea M, Allen J, Selengut J, Haft D, Mather MW, Vaidya AB, Martin DMA, Fairlamb AH, Fraunholz MJ, Roos DS, Ralph SA, McFadden GI, Cummings LM, Subramanian GM, Mungall C, Venter JC, Carucci DJ, Hoffman SL, Newbold C, Davis RW, Fraser CM, Barrell B. Genome sequence of the human malaria parasite Plasmodium falciparum. Nature 2002;419:498–511. 16. Banerjee R, Liu J, Beatty W, Pelosof L, Klemba M, Goldberg DE. Four plasmepsins are active in the Plasmodium falciparum food vacuole, including a protease with an active-site histidine. Proc Natl Acad Sci USA 2002;99:990–995. 456 PROTEINS 17. Liu J, Gluzman IY, Drew ME, Goldberg DE. The role of Plasmodium falciparum food vacuole plasmepsins. J Biol Chem 2005;280: 1432–1437. 18. Bonilla JA, Bonilla TD, Yowell CA, Fujioka H, Dame JB. Critical roles for the digestive vacuole plasmepsins of Plasmodium falciparum in vacuolar function. Mol Microbiol 2007;65:64–75. 19. Wyatt DM, Berry C. Activity and inhibition of plasmepsin IV, a new aspartic proteinase from the malaria parasite Plasmodium falciparum. FEBS Lett 2002;513:159–162. 20. Li T, Yowell CA, Beyer BB, Hung SH, Westling J, Lam MT, Dunn BM, Dame JB. Recombinant expression and enzymatic subsite characterization of plasmepsin4 from the four Plasmodium species infecting man. Mol Biochem Parasitol 2004;135:101–109. 21. Nezami A, Kimura T, Hidaka K, Kiso A, Liu J, Kiso Y, Goldberg DE, Freire E. High-affinity inhibition of a family of Plasmodium falciparum proteases by a designed adaptive inhibitor. Biochemistry 2003;42:8459–8464. 22. Beyer BB, Johnson JV, Chung AY, Li T, Madabushi A, AgbandjeMcKenna M, McKenna R, Dame JB, Dunn BM. Active-site specificity of digestive aspartic peptidases from the four species of Plasmodium that infect humans using chromogenic combinatorial peptide libraries. Biochemistry 2005;44:1768–1779. 23. Dame JB, Yowell CA, Omara-Opyene L, Carlton JM, Cooper RA, Li T. Plasmepsin 4, the food vacuole aspartic proteinase found in all Plasmodium spp. infecting man. Mol Biochem Parasitol 2003;130:1–12. 24. Silva AM, Lee AY, Gulnik SV, Majer P, Collins J, Bhat TN, Collins PJ, Cachau RE, Luker KE, Gluzman IY, Francis SE, Oksman A, Goldberg DE, Erickson JW. Structure and inhibition of plasmepsin II, a emoglobin-degrading enzyme from Plasmodium falciparum. Proc Natl Acad Sci USA 1996;93:10034–10039. 25. Asojo OA, Gulnik SV, Afonina E, Yu B, Ellman JA, Haque TS, Silva AM. Novel uncomplexed and complexed structures of plasmepsin II, an aspartic protease from Plasmodium falciparum. J Mol Biol 2003;327:173–181. 26. Asojo OA, Afonina E, Gulnik SV, Yu B, Erickson JW, Randad R, Medjahed D, Silva AM. Structures of ser205 mutant plasmepsin II from Plasmodium falciparum at 1.8 angstrom in complex with the inhibitors rs367 and rs370. Acta Crystallogr D Biol Crystallogr 2002;58:2001–2008. 27. Boss C, Richard-Bildstein S, Weller T, Fischli W, Meyer S, Binkert C. Inhibitors of the Plasmodium falciparum parasite aspartic protease plasmepsin II as potential antimalarial agents. Curr Med Chem 2003;10:883–907. 28. Ersmark K, Feierberg I, Bjelic S, Hulten J, Samuelsson B, Aqvist J, Hallberg A. C-2-symmetric inhibitors of Plasmodium falciparum plasmepsin II: synthesis and theoretical predictions. Bioorg Med Chem 2003;11:3723–3733. 29. Ersmark K, Feierberg I, Bjelic S, Hamelink E, Hackett F, Blackman MJ, Hulten J, Samuelsson B, Aqvist J, Hallberg A. Potent inhibitors of the Plasmodium falciparum enzymes plasmepsin I and II devoid of cathepsin D inhibitory activity. J Med Chem 2004;47:110–122. 30. Kiso A, Hidaka K, Kimura T, Hayashi Y, Nezami A, Freire E, Kiso Y. Search for substrate-based inhibitors fitting the S-2 space of malarial aspartic protease plasmepsin II. J Pept Sci 2004;10:641–647. 31. Bhargavi R, Sastry GM, Murty US, Sastry GN. Structural and active site analysis of plasmepsins of Plasmodium falciparum: potential anti-malarial targets. Int J Biol Macromol 2005;37:73–84. 32. Westling J, Cipullo P, Hung S, Saft H, Dame JB, Dunn BM. Active site specificity of plasmepsin II. Protein Sci 1999;8:2001–2009. 33. Liu J, Istvan ES, Goldberg DE. Hemoglobin-degrading plasmepsin II is active as a monomer. J Biol Chem 2006;281:38682–38688. 34. Thompson JD, Higgins DG, Gibson TJ. CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res 1994;22:4673–4680. 35. Galtier N, Gouy M, Gautier C. SEAVIEW and PHYLO_WIN: two graphic tools for sequence alignment and molecular phylogeny. Comput Appl Biosci 1996;6:543–548. Functional Residues in Plasmodium falciparum Plasmepsins 36. Sali A, Blundell TL. Comparative protein modeling by satisfaction of spatial restraints. J Mol Biol 1993;234:779–815. 37. Shen MY, Sali A. Statistical potential for assessment and prediction of protein structures. Protein Sci 2006;15:2507–2524. 38. Van Der Spoel D, Lindahl E, Hess B, Groenhof G, Mark AE, Berendsen HJ. GROMACS: fast, flexible, and free. J Comput Chem 2005;26:1701–1718. 39. Oostenbrink C, Villa A, Mark AE, van Gunsteren WF. A biomolecular force field based on the free enthalpy of hydration and solvation: the GROMOS force-field parameter sets 53A5 and 53A6 J. Comput Chem 2004;25:1656–1676. 40. Humphrey W, Dalke A, Schulten K. VMD: visual molecular dynamics. J Mol Graph 1996;14:33–38, 27–28. 41. Berendsen HJC, Postma JPM, Gunsteren WFV, Hermans J. Interaction models for water in relation to protein hydration. In: Pullman B, editor. Intermolecular forces. Dordrecht, The Netherlands: Reidel; 1981. pp 331–342. 42. Verlet L. Computer Experiments on classical fluids I. Thermodynamical properties of Lennard-Jones molecules. Phys Rev 1967;159: 98–103. 43. Hess B, Bekker H, Berendsen HJC, Fraaije JGEM. LINCS: a linear constraint solver for molecular simulations. J Comput Chem 1997; 18:1463–1472. 44. Miyamoto S, Kollman PA. Settle an analytical version of the shake and rattle algorithm for rigid water models. J Comput Chem 1992;13:952–962. 45. Berendsen HJC, Postma JPM, Vangunsteren WF, Dinola A, Haak JR. Molecular-dynamics with coupling to an external bath. J Chem Phys 1984;81:3684–3690. 46. Darden T, York D, Pedersen L. Particle mesh Ewald: an N-log(N) method for Ewald sums in large systems. J Chem Phys 1993;98: 10089–10092. 47. Essmann U, Perera L, Berkowitz ML, Darden T, Lee H, Pedersen LG. A smooth particle mesh ewald potential. J Chem Phys 1995; 103:8577–8592. 48. Li H, Robertson AD, Jensen JH. Very fast empirical prediction and rationalization of protein pKa values. Proteins 2005;61:704–721. 49. van Aalten DM, Bywater R, Findlay JB, Hendlich M, Hooft RW, Vriend G. PRODRG, a program for generating molecular topologies and unique molecular descriptors from coordinates of small molecules. J Comput Aided Mol Des 1996;10:255–262. 50. van Gunsteren WF, Billeter SR, Eising AA, Hunenberger PH, Kruger P, Mark AE, Scott WRP, Tironi IG. Biomolecular simulation: the GROMOS96 manual and user guide. vdf Hochschulverlag AG an der ETH Zürich and BIOMOS b.v., Zürich, Groningen; 1996. 51. Schmidt MW, Baldridge KK, Boatz JA, Elbert ST, Gordon MS, Jensen JH, Koseki S, Matsunaga N, Nguyen KA, Su SJ, Windus TL, Dupuis M, Montgomery JA. General atomic and molecular electronic structure system. J Comput Chem 1993;14:1347–1363. 52. Breneman CM, Wiberg KB. Determining atom-centered monopoles from molecular electrostatic potentials. The need for high sampling density in formamide conformational analysis. J Comput Chem 1990; 11:361–373. 53. Connolly ML. Solvent-accessible surfaces of proteins and nucleicacids. Science 1983;221:709–713. 54. Batista PR, Wilter A, Durham EH, Pascutti PG. Molecular dynamics simulations applied to the study of subtypes of HIV-1 protease common to Brazil, Africa, and Asia. Cell Biochem Biophys 2006;44: 395–404. 55. López-Romero P, Gómez MJ, Gómez-Puertas P, Valencia A. Prediction of functional sites in proteins by evolutionary methods. In: Kamp RM, Calvete JJ, Choli-Papadopoulou T, editors. Principles and practice. Methods in proteome and protein analysis, Berlin, Heidelberg: Springer-Verlag; 2004. Chapter 22, pp 319–340. 56. Mayrose I, Graur D, Ben-Tal N, Pupko T. Comparison of site-specific rate-inference methods for protein sequences: empirical Bayesian methods are superior. Mol Biol Evol 2004;21:1781–1791. 57. Landau M, Mayrose I, Rosenberg Y, Glaser F, Martz E, Pupko T, Ben-Tal N. Consurf 2005: the projection of evolutionary conservation scores of residues on protein structures. Nucleic Acids Res 2005;33:W299–W302. 58. J Liang, Edelsbrunner H, Woodward C. Anatomy of protein pockets and cavities: measurement of binding site geometry and implications for ligand design. Protein Sci 1998;7:1884–1897. 59. Baker NA, Sept D, Joseph S, Holst MJ, McCammon JA. Electrostatics of nanosystems: application to microtubules and the ribosome. Proc Natl Acad Sci USA 2001;98:10037–10041. 60. Vriend G. WHAT IF: a molecular modeling and drug design program. J Mol Graph 1990;8:52–56. 61. Maly DJ, Huang L, Ellman JA. Combinatorial strategies for targeting protein families: application to the proteases. Chembiochem 2002;3:16–37. 62. Koradi R, Billeter M, Wuthrich K. MOLMOL: a program for display and analysis of macromolecular structures. J Mol Graph 1996;14:51–55. 63. Siripurkpong P, Yuvaniyama J, Wilairat P, Goldberg DE. Active site contribution to specificity of the aspartic proteases plasmepsins I and II. J Biol Chem 2002;277:41009–41013. 64. Powers JC, Harley AD, Myers DV. Subsite specificity of porcine pepsin. Adv Exp Med Biol 1977;95:141–157. 65. Scarborough PE, Guruprasad K, Topham C, Richo GR, Conner GE, Blundell TL, Dunn BM. Exploration of subsite binding specificity of human cathepsin D through kinetics and rule-based molecular modeling. Protein Sci 1993;2:264–276. 66. Istvan ES, Goldberg DE. Distal substrate interactions enhance plasmepsin activity. J Biol Chem 2005;280:6890–6896. 67. Altschuh D, Verner T, Berti P, Moras D, Nagai K. Coordinated amino acid changes in homologous protein families. Protein Eng 1988;2:193–199. 68. Liu J, Istvan ES, Goldberg DE. Hemoglobin-degrading plasmepsin II is active as a monomer. J Biol Chem 2006;281:38682–38688. 69. Ersmark K, Samuelsson B, Hallberg A. Plasmepsins as potential targets for new antimalarial therapy. Med Res Rev 2006;26:626–666. 70. Lesk AM, Chothia C. How different amino acid sequences determine similar protein structures: the structure and evolutionary dynamics of the globins. J Mol Biol 1980;136:225–270. 71. Marti-Renom MA, Stuart AC, Fiser A, Sanchez R, Melo F, Sali A. Comparative protein structure modeling of genes and genomes. Annu Rev Biophys Biomol Struct 2000;29:291–325. 72. Brinkworth RI, Prociv P, Loukas A, Brindley PJ. Hemoglobindegrading, aspartic proteases of blood-feeding parasites: substrate specificity revealed by homology models. J Biol Chem 2001;276: 38844–38851. 73. Cascella M, Micheletti C, Rothlisberger U, Carloni P. Evolutionarily conserved functional mechanics across pepsin-like and retroviral aspartic proteases. J Am Chem Soc 2005;127:3734–3742. 74. Piana S, Carloni P, Parrinello M. Role of conformational fluctuations in the enzymatic reaction of HIV-1 protease. J Mol Biol 2002;319: 567–583. 75. Micheletti C, Carloni P, Maritan A. Accurate and efficient description of protein vibrational dynamics: comparing molecular dynamics and Gaussian models. Proteins 2004;55:635–645. 76. Neri M, Cascella M, Micheletti C. The influence of conformational fluctuations on enzymatic activity: modelling the functional motion of b-secretase. J Phys Condens Matter 2005;17:S1581–S1593. 77. Perryman AL, Lin JH, McCammon JA. HIV-1 protease molecular dynamics of a wild-type and of the V82F/I84V mutant: possible contributions to drug resistance and a potential new target site for drugs. Protein Sci 2004;13:1108–1123. 78. Bernstein NK, Cherney MM, Yowell CA, Dame JB, James MNG. Structural insights into the activation of P. vivax plasmepsin. J Mol Biol 2003;329:505–524. 79. Prade L, Jones AF, Boss C, Richard-Bildstein S, Meyer S, Binkert C, Bur D. X-ray structure of plasmepsin II complexed with a potent achiral inhibitor. J Biol Chem 2005;280:23837–23843. PROTEINS 457 125 ANEXO 3: Title: Consensus Modes, a robust description of protein collective motions from multiple-minima normal mode analysis Paulo R. Batista†‡, Charles H. Robert‡, Jean-Didier Maréchal*, Meriam Ben-Hamida Rebaï‡, Pedro G. Pascutti†, Paulo M. Bisch† and David Perahia‡ Author affiliation: † Instituto de Biofísica Carlos Chagas Filho, Universidade Federal do Rio de Janeiro, Rio de Janeiro, 21941-902, Brasil ‡ Institut de Biochimie et Biophysique Moléculaire et Cellulaire, Université Paris-Sud 11, 91405 Orsay, France * Unitat de Química Física, Departament de Química, Universitat Autònoma de Barcelona, 08193, Bellaterra, Catalonia, Spain. Corresponding author information: David Perahia Institut de Biochimie et Biophysique Moléculaire et Cellulaire, Bât 430, Université Paris-Sud 11 91405 Orsay, France [email protected] tel: +33-(0)1-69 15 63 20 fax:+33-(0)1-69 85 37 15 The authors declare no conflict of interest. Author contributions: DP, CHR, PRB, PGP, PMB conceived of and designed research; PRB, JDM and MBHR designed protocols and performed research; and PRB, DP and CHR wrote the paper. 1 Abstract Understanding protein flexibility is essential for studying conformational change, ligand binding, and protein-protein or protein-nucleic acid interaction. Normal mode analysis is well suited for studying such motions, capturing the directions of lowest curvature on the potential energy surface. In several proteins these directions have been shown to correspond to large-scale motions that are functionally significant. However, a major concern is that the described motions are those of a structure localized in a particular minimum of the energy surface. The significance/generality of a given set of normal modes may thus be questioned. In this article we describe a new theoretical framework for determining normal modes from an ensemble of closely related structures, which we call ‘consensus modes’ (CM). The CM calculation assumes that the conformational potential energy surface can be better exploited when multiple-minima topological information is considered. CM calculated over an ensemble of structures issuing from a short molecular dynamics simulation provide a robust description of protein internal motions, and show high collectivity and symmetry properties. We adopted the apo form of the HIV-1 protease (PR) to demonstrate our approach. Low-frequency CM describe biologically relevant motions such as the opening/closing of PR flaps and can be used to interpret structural changes occurring upon binding of widely different inhibitors. 2 Introduction The structural biology revolution has led to rapid growth in the number of known protein sequences and 3D-structures [1,2], increasingly making clear the relationship between structure and function. But proteins are not static entities. They have to be flexible to interact with other molecules and perform their functions [3]. Even in crystal structures, significant flexibility can be inferred from values of the thermal B-factors [4,5], while NMR structure determination results in families of dozens of structures, directly reflecting protein dynamics [6]. This dynamical aspect increasingly extends the dual concept of “structure and function” into the triplet structure/dynamics/function [79]. Complementing experimental methods for structure determination is the use of computational methods to investigate dynamics, such as molecular dynamics (MD) simulations. MD calculations employ empirical force-fields and allow exploration of different regions of the vast conformational space, generating a trajectory reflecting macromolecular dynamics on different time scales [10-13]. MD simulations have been successfully applied to describe diverse types of motions in different protein systems; e.g. active-site cleft opening/closing [14], peptide folding [15] and ion-channel gating mechanisms [16]. However, for large systems with precise representations (e.g., allatom, explicit-solvent simulations) attainment of biologically interesting time scales can be prohibitively time consuming. Further, certain large-amplitude motions occur only rarely in MD simulations: some subunit, domain or loop motions take place on the millisecond time scale or longer [17-19]. The correct description of such long-timescale motions thus remains a significant challenge. Normal mode (NM) analysis is well suited for studying internal protein collective motions [20-25]. It has proved especially useful for studying conformational changes since the observation that the lowest frequency modes compare well with crystallographically observed conformational changes [26-28]. Furthermore such analyses can suggest motions of functional importance not yet observed in structural studies [29] . One advantage of NM analysis lies in its capturing the directions of lowest curvature of the potential energy surface, which correspond to large-scale internal motions of the protein. However, as with all methodologies, NM analysis has its own limitations.. One shortcoming of traditional NM analysis is its strict validity for small amplitude motions around a structure localized in a particular minimum of the potential energy, while the potential energy surface of a protein contains a huge number of such minima. By considering a manageable number of minima around a given state, which represent ‘inherent structures’ [30], it is in general possible to estimate thermodynamic and kinetic properties [31-33] of a protein. However, vibrational analysis is often performed only for a single energy minimum, usually that corresponding to the energy-minimized crystal structure and taken to be representative, without formal acknowledgment of the fact that the true biological “structure” consists of an ensemble of closely related conformations. The significance and generality of NM pertaining to a given particular structure has thus been questioned [34]. 3 Nevertheless, several approaches have been taken to accomodate the multiple-minima nature of the potential energy surface. van Vlijmen and Karplus [34] explicitly calculated NM for several energy-minimized protein structures sampled from MD simulations and compared them, and showed that by averaging certain properties calculated from the individual NM analyses a better agreement with experimental and MD simulation results was obtained. Kitao et al.’s “Jumping Among Minima” (JAM) model [33] describes multiple energy basins (substates) separated by barriers that can nevertheless be crossed on the timescale of MD simulations. Protein conformational fluctuations are then decomposed in terms of intra- and inter-substate motions, the former well-described by NM analysis and the latter including anharmonic movements associated with the remaining fluctuations in the protein dynamics trajectories. Such approaches are very useful in better defining the behavior of a macromolecule using MD studies. In this article we focus on synthesizing the harmonic information present in the multiple minima of the potential energy surface of a protein. We describe a new theoretical framework for defining normal modes consistently from a set of related structures, which we call ‘consensus modes’ (CM). The different structures correspond to different minimum energy points on the potential energy surface, obtained from MD sampling or from experimentally determined structures. A basic principle of the CM calculation is the assumption that the shape of the potential-energy surface can be better exploited when multiple-minima topological information is considered. The use of multiple minima reduces bias caused by local features of the surface having relevance only to a particular minimum, as was highlighted by van Vlijmen and Karplus [34]. The atom fluctuations calculated by the CM can be directly compared to those obtained by averaging the results obtained in the individual NM determinations, but other features show novel properties. We show in particular that CM calculated over a set of structures issuing from an MD simulation furnish an improved description of protein internal motions, being able to provide more robust, statistically-representative directions of protein motions. Consensus modes provide a new way to study large-scale protein flexibility, and may have implications in protein folding and function including proteinprotein and protein-ligand interactions (docking predictions) [35]. HIV-1 Protease as an application system We adopted here the apo form of the protease of HIV-1 to demonstrate the CM approach. The aspartic HIV-1 protease (PR) functions as a homodimer (99 amino acids/chain) and plays a critical role in the HIV-1 life cycle [36,37]; it is considered one of the major targets of anti-AIDS drugs [38]. PR can be divided into three principal regions (Fig. 1): the core domain, situated at the interface between the monomers and which contains the active site (the pair of catalytic triads Asp-Thr-Gly); the terminal domain containing both N and C terminals, which is important for dimerization; and the flap domain, which consists of two flexible hairpins at the entrance of the hydrophobic active-site cleft and which need to open (close) to allow ligand entrance (stabilization) [39]. The flap domain is the most flexible region of PR, exhibiting major structural differences between the bound and free states [40,41], with transitions occurring on the μs time scale [42,43]. PR is an intensively studied protein, both experimentally and theoretically, with more than 270 solved structures – NMR and crystallographic, unbound and complexed with different inhibitors – available in the PDB [2]. These structures provide a rich source of 4 data for comparison with computational results [44-50]. For example, in a study of multiple PR structures from the PDB, Yang et al. showed close correspondence between the motions obtained from principal component analysis (PCA) and from a simplified NM approach (the Elastic Network Model), suggesting that NM, even with a simplified potential, can explain the overall features of the structural differences arising from sequence variation and binding of different ligands [51]. But a complete description of PR flexibility requires a correspondingly detailed description of the potential energy surface. Theory NM analysis is generally applied to a single structure that corresponds to a minimum in the 3N dimensional potential energy surface, N being the number of atoms of the system considered. In the neighborhood of this minimum, the surface is taken to be quadratic and is described by the Hessian matrix F, whose elements are the second derivatives of the potential energy function with respect to the mass-weighted atomic coordinates (qi). Diagonalization of the Hessian then provides the NM vectors and frequencies [22]. At a given temperature, the Hessian F is related to the inverse of the covariance matrix of atomic displacements, σ, by F = k BT σ − 1 [1], where kB is the Boltzmann constant and T the absolute temperature, and each element of σ is defined as σ ij = qi − qi q j − q j [52,53]. Each element of the covariance matrix within the normal mode theory is given by: 3 N −6 σ ij = k T ∑ NM B l =1 αα ω il jl 2 [2], l where αil is the i’ th component of the l’ th normal mode vector, and ωl is the frequency of l’ th normal mode, and the sum is over the 3N-6 internal normal modes [53]. In the CM approach, the NM analysis is performed for each of a set of Ns different energy-minimized structures, taking care that each structure has the same orientation (obtained by least-squares superposition). The different structures considered in the calculation of the CM in this study were obtained from MD simulation (see Methods). A new covariance matrix σ CM is then defined which is the mean over the Ns individual covariance matrices as defined above, and expressed as: σ CM 1 = Ns Ns ∑σ s =1 NM s [3]. This matrix is termed the ‘consensus covariance matrix’. The influences of similar vibrational modes are reinforced in the averaging procedure, while local biases are reduced. The eigenvectors and eigenvalues of this matrix determine the consensus modes and their frequencies. It should be pointed out that CM are distinct from quasi-harmonic modes (QHM) which are obtained directly from the mass-weighted covariance matrix calculated from MD 5 trajectories [52-54]. The CM covariance matrix, however, is constructed using an analytical formulation of the shape of the energy surface in the region of each sampled minimum, while the QHM analysis uses only the sampled coordinates themselves. In particular, we note that QHM provide little information concerning timescales longer than that of the MD simulation itself [55]. In contrast, the CM directly incorporate topological information about the potential energy surface, and can thus contain longer timescale information. Methods MD simulations The MD simulations were performed using NAMD 2.6 [56] with the CHARMM22 force field [57]. The homodimer structure of the apo-PR was solvated using a pre-equilibrated cubic TIP3 water box (approximately 55,000 atoms) with periodic boundary conditions. PME [58] was used for electrostatic interactions with non-bonded cutoffs of 12 Å for van der Waals and 10 Å for electrostatic interactions in the real space. We used SETTLE [59] and SHAKE [60] to fix water and protein bonds respectively, allowing the use of an integration time of 2 fs, in the NPT ensemble. The system was energy minimized using the conjugate-gradient algorithm, keeping the protein heavy atom positions harmonically restrained using a force constant of 50 kcal/mol/Ǻ2 to avoid major structural changes. The restraint force constant was subsequently decreased to 5 kcal/mol/Ǻ2 during 72 ps MD of the heating procedure, for which initial velocities were generated for a temperature of 20 K and the temperature slowly increased to 300 K using the Berendsen algorithm [61] with a coupling constant of 0.67 ps. The output structure and final velocities were used to initiate the equilibration procedure with a coupling constant of 0.1 ps and at a pressure of 1 atm, with the position restraint force constant gradually decreased from 1 kcal/mol/Ǻ2 to zero over 1.5 ns. The equilibration was carried out until the distances between the catalytic residue (Asp25) and the tip of the flap (Ile50) in both subunits were approximately equal in order to have quasi-symmetrical behavior for the protein (3 ns). A production period of 10 ns was then carried out. [See the details and results in Fig. 2]. Normal Modes calculations All-atom NM calculations were performed using the VIBRAN module of CHARMM [62] for 20 MD snapshot structures taken from the first nanosecond of production (every 50 ps), in order to calculate the consensus modes. The system consisted of the PR dimer plus the first layer of hydration [63]. This water layer helped avoid the collapse of the PR flaps during the minimization procedure. Water molecules whose oxygen was within ≈ 4.0 Å from any protein atoms were included in the analyses, the precise cutoff being adjusted in order to have the same number of water molecules in each system (2790 atoms). Each system was minimized to a mean energy gradient of less than 10-5 Kcal/mol/Å before computation of the normal modes. Consensus Modes calculation Fig. 3 shows a flowchart describing the CM approach from multiple minima NM calculation. After NM computations for each MD snapshot structure, the trajectories for the 97 lowest-frequency modes (excluding translation/rotation modes) were generated, after superimposition to the mean structure. For each mode, the trajectory consisted of a 6 complete single vibrational period containing 9 points. All such trajectories were then concatenated into a single trajectory, from which the consensus covariance matrix σCM for the desired subset of atoms was generated. The eigenvalues and eigenvectors of this matrix were computed using the QUASI option in the VIBRAN module of CHARMM. Depending on the analysis, we computed the σCM for all protein atoms (i.e., excluding water molecules) or for just the Cα atoms. Quasi-harmonic modes calculations The QHM were computed either for all the protein atoms (excluding the surrounding water molecules) or the Cα atoms. In the former case the Cartesian coordinates were scaled by the square root of the corresponding atomic masses. The covariance matrices of scaled coordinate changes were computed over 5000 structures taken from the 10ns production MD trajectory, the successive structures being separated by 2ps time interval and superimposed to the average structure. These matrices were diagonalized to obtain the QHM by using the QUASI command of VIBRAN in CHARMM. Overlap between CM and any other motion The overlap between a given mode vector Mi and another vector X is evaluated by their normalized projection, Oi (X) = Mi X/ Mi X [4], where Mi is typically a consensus mode or normal mode vector and X could be a mode vector from a different calculation, a quasi-harmonic or PCA mode vector, or a vector representing the conformational change between two different structures. A perfect match yields an overlap value of 1. We define the cumulative overlap between the first k lowest frequency modes and the vector X by: CO ( X, k ) = (∑ ) 1 O 2 (X ) 2 i =1, k i [5], The cumulative overlap measures how well the space defined by a given set of modes (here we consider the k=97 lowest-frequency modes) can include the motion indicated by the given vector X. X-ray and NMR data sets for Principal Component Analysis All HIV protease structures used for this analysis were downloaded from the PDB and only the Cα coordinates were considered. The NMR dataset comprised the 28 structures present in entry 1bve. The X-ray dataset contained 270 X-ray structures of PR, without missing residues. A list of the PDB identifiers and the rmsd for each structure after superposition are given in Fig. 4. Degree of collectivity of a protein motion The degree of collectivity of a protein motion can be expressed as the fraction of protein atoms participating significantly in the motion [26,64]. For a mode vector of length 3N with elements αi , this degree of collectivity, к, is defined as 7 κ= ⎛ 3N ⎞ 1 exp ⎜ - ∑ α i2 log α i2 ⎟ [6] N ⎝ i =1 ⎠ If к = 1, the conformational change is maximally collective while if к approaches 1/N, only one atom is involved in the conformational change. Results and Discussion Experimental Validation of MD from NMR data MD simulations were carried out on the HIV apo-PR structure (PDB code 1hhp) [65] in order to obtain the various conformations for NM analyses and subsequent CM determination. The system was extensively optimized and equilibrated so that the derived modes reflect the dynamics of structures belonging to a stable stationary stage of the simulation, thus reducing artifacts due to differences between the periodic water box (MD) and the crystal environments [66]. We conducted this equilibration procedure very carefully (as summarized in Fig. 2; see details in Methods) to avoid problems in solvation, as discussed by Meagher et al. [67], who that poor solvent equilibration in the active site region led to unexpected high amplitude fast flap motions (collapse/destabilization in few hundred ps). We also verified that the number of water molecules within the active site was similar to the number found in that study (data not shown). We also calculated the S2 N-H order parameters from the 10 ns of MD production, which showed very good agreement with NMR results [45] [Fig. 5]. This confirms that our MD simulation reproduced at least the sub-ns/ns dynamics of PR. Sampled conformations for CM calculations The structural variability of a protein in a stable state reflects the breadth of the corresponding free-energy minimum. The CM calculation allows such variability to be taken into account. In this study structures were sampled every 50 ps throughout the initial 1 ns of the production MD simulation. This timescale was shown to be sufficient for convergence of the subspace including the so-called singly and multiply-hierarchical motions in the study of Kitao et al. for a protein of similar size [33]. It is also possible that other sampling strategies could potentially be applied to better exploit different regions of potential energy surface, e.g. a clustering analysis based on rmsd could initially be performed, or a larger sample set could be used. However, we found that the current procedure provided satisfactory results. The structural differences between sampled structure pairs, as measured by the Cα root-mean-square distance (rmsd), averaged 1.22 ± 0.22 Ǻ (Fig. 6 B and C). This is somewhat larger than the variabiltiy seen in the PR crystal structures studied by Zoete et al. [50] but consistent with MD sampling in other systems (e.g., [34]). The Cα fluctuations among the 20 minimized snapshots (Fig. 6A) followed the same pattern as seen in the literature for apo PR MD simulations [14,47,67]: high deviations in the flap region (around residue 50/149) and small deviations in the active site (around residues 25/124). 8 Consensus modes reflect the mean fluctuation behavior of the protein in the sampled minima The Cα-fluctuations obtained with Consensus Modes and those obtained by Normal Mode analysis of the individual sampled structures are shown in Fig. 7. The CM fluctuations (bold black line) correspond to the average of the NM fluctuations as seen from equation 3. The observed variability in the individual NM analyses arises from variations in atomic positions in the different sampled structures corresponding to different regions of the potential energy surface. This effect clearly appears in the variety of individual NM fluctuation profiles (thin colored lines), which show peaks that are not present in the CM. Such extraneous peaks reflect fluctuations that are specific to a given particular structure but which have little effect on the average behavior of the molecule. CM has thus filtered out such unusual fluctuations, and this is one of the reasons for calling them “consensus modes”. The fluctuations obtained with our consensus approach are in good agreement with those obtained from crystallographic B-factors (bold green line in Fig. 7), the Pearson correlation coefficient R between them being 0.69. It can also be noted that the CM fluctuations show high symmetry between the two chains (R=0.87). This is in contrast with the results obtained from individual NM analysis fluctuation profiles, for which the interchain correlation was found to be 0.42±0.1. Consensus modes describe a more complete conformational space for describing large amplitude motions The full MD simulation was used to calculate the QHM, which are related to the principal components or the essential modes of the system. The atomic fluctuations from the 10ns MD QHM presented in Fig. 8A are similar to those obtained from the CM. However, atom fluctuations alone provide only limited information when comparing two different sets of collective movements. In order to address how the large amplitude space described by the CM differs from that described by the QHM, we analyzed to what extent each of the QHM can be represented within the subspace defined by the 97 lowest-frequency CM, and vice versa, using a cumulative projection analysis (see Methods). Each of the first 20 lowest frequency QHM vectors derived from the 10ns MD can be represented in the low-frequency CM vector space with a cumulative overlap (CO) greater than 0.8 (Fig. 7B, black line), with the first three lowest frequency vectors displaying CO values very close to 1. That is, the large-scale QHM movements are largely accounted for in the vector space spanned by the lowfrequency CM. In contrast, the corresponding lowest-frequency CM movements are less well accounted for in the QHM space (red line in Fig. 7B). These results indicate that the low-frequency CM space is more complete than that of the QHM, despite the fact that the QHM were calculated from a simulation that was 10 times longer than the sampling period used for the CM calculation. As mentioned above, this is due to information present in the CM concerning the shape of the potential energy surface, which comes from the individual NM analyses used for their calculation. Consensus modes from 1ns MD present more collectivity than quasiharmonic modes from 10 ns MD Normal modes correspond to collective degrees of freedom, but certain of them can correspond to localized motions, whereas others can involve a large set of atoms moving together. We considered here a definition of the collectivity in terms of the 9 breadth of the distribution of the amplitudes of atom movements in a given mode. Collective (global) motions have been shown to be related to important biological conformational changes [25,29,68,69]. Fig. 9 shows that low frequency CM from the 1ns MD simulation (black line) present higher collectivity than the corresponding QHM from the 10ns simulation (red line). Further, in the CM the high collectivity is concentrated in the lowest frequency modes, while in the QHM we see no dependence on the frequency. Interestingly, the mean NM collectivity values (green line), calculated over the same 20 MD snapshots, are significantly lower than those of the CM, although they are slightly larger than the QHM collectivities. Indeed, while the CM fluctuation profile can be seen from eq. 3 to be the average of the individual NM fluctuation profiles, there is no such simple relation to the individual NM collectivities. The higher collectivity is an additional property of the CM which synthesize the characteristics of the different minima on the potential energy surface.. Versatility for computing consensus modes for different subsets of atoms In the CM calculations, energy minimization and NM analysis are first performed for a series of structures, here protein-plus-water-layer systems issuing from molecular dynamics simulations. Thereafter, the mass-weighted consensus covariance matrix (σCM) can be calculated for any desired subset of atoms (e.g., protein-only, backbone only, Cα, etc), and diagonalized, resulting in CM directions and frequencies for the considered selection of atoms. The results presented in the previous sections correspond to a reduction of the protein-water system to protein only, and thus they implicitly take into account the influence of the different water configurations. The CM frequencies calculated in this manner were slightly larger than those of the individual NM by a few cm-1 due to the system reduction (data not shown). In what follows a further reduction is achieved, in which only the subset of Cα atoms of our system is retained. We will refer to the CM recalculated for the subset of Cα atoms as Cα-CM. The advantage for computing on Cα is that redundant motions of the backbone are eliminated. Such a reduction can also lead to better-averaged vectors integrating the mean effects of specific side-chain couplings with the backbone. This allows the filtering off of local motions and leads to a better representation of the global motions. Finally, using only Cα atoms also permits the comparison of dynamics of proteins of similar lengths but with different sequences, or of conserved domains in a protein family, making homology studies possible. We note that the CM approach can also be adapted to modes calculated from elastic network models on multiple structures. Use of Cα-CM to compare theoretical and experimental motions By reducing the protein representation to Cα atoms we used the Consensus Mode approach to identify collective motions inferred from X-ray and NMR structures of HIV proteases with different sequences. We also performed principal component analysis (PCA) over these two different experimental datasets, as described in Methods. Fig. 10 shows the cumulative overlap values of the PCA components with the low frequency Cα-CM sub-space. The Cα-CM subspace describes the PCA results for both structural datasets very well, with cumulative overlap values between 0.58 and 0.97. This figure also shows that the CO of the QHM, obtained from the 10 ns MD, in the Cα-CM space was even higher (above 0.9). The latter comparison shows that the fundamental 10 backbone movements are better represented using Cα-CM than all-atom CM, which gave CO values between 0.75 and 0.90 for the same number of modes (Fig. 7B). This improvement is due to the averaging effect discussed above. The values of the collective overlap of the 97 lowest-frequency Cα-CM with the PCA modes from the X-ray or NMR PR datasets, although still high, are inferior to those of the QHM from the MD simulations. This is partly due to the fact that the experimental PR structures are almost all of the bound form, containing either inhibitors or substrates, and thus with the flaps in a closed conformation, while the MD simulations were performed starting with the unbound form of the protein, with flaps in a semi-open conformation. Biological relevance of Consensus Modes analysis Low-frequency/large-amplitude collective motions are important in describing longtimescale dynamics of proteins, consisting in many cases of domain motions that are related to biological function. One of the important aspects emerging from our results is that CM allow the characterization of more collective motions than can be obtained directly from longer MD simulations via quasiharmonic (or PCA) analysis or from individual NM determinations. In our analysis of PR using the CM, the lowest frequency modes are seen to be related to expansion or deformation of the active-site including translational or rotational motions between the monomers and movements in the flap domains. As shown in Fig. 11, all these types of movements can be important for substrate or ligand binding. Such movements are only observed in very long MD simulations [43,48,70]. Flap dynamics have been investigated by NMR showing that motions on two different timescales occur in the flap region of the free PR, one on the nanosecond [45] and the other on the millisecond timescale [42], as showed by a μs time-scale course-grained MD study of apo PR system [43]. In both the Cα-CM and all-atom CM, the first two slow modes are related to motions of translation/rotation between the monomers and can be implicated to the flexibility of each chain to allow enzyme accommodation after ligand binding. We found also two modes to be especially related to important flap domain motions. The third lowestfrequency consensus mode describes flap opening and closing, while the fifth mode is related to variation of the distance between the tips of the flaps and the catalytic residues Asp 25, resulting in changes in active site shape and volume. The third lowest frequency CM is related to the intrinsic plasticity of the PR active site necessary for binding different ligands. To demonstrate this we chose two structures with representative differences in the active-site volume and inhibitor size: 4HVP and 1AID (Fig. 11A and B), as in Teodoro et al. [6], in which the authors showed a concordance between the first collective mode of motion and the differences in the flap region between these two structures. The fifth lowest frequency Cα-CM describes a movement in the direction of the conformational transition between the two different structures (Fig. 11A) with an overlap of 40% (see Methods) between the CM vector and the vector describing this conformational change. (We note that the overlap would be significantly higher if the calculation took into account only the more limited region considered in the analyses of Zoete et al.[50]) The third and fifth lowest-frequency CM describe flap opening and closing motions as well as structural changes occurring upon ligand binding, such as that observed in the 11 conformational change between the open, apo-form (1HHP) and the closed conformation (4HVP), in which PR is bound to an inhibitor (Fig. 11C). Such motions are important for the entrance and stabilization of the ligand in the active site. Each of these two Cα-CM presents an overlap with the 4HVP to 1HHP conformational transition of around 30%. These directions of movement are presented in Fig. 11D. We also observed that motions of the flap tips are coupled to other domain motions, mainly in the flap elbows. This suggests that mutations or inhibitor binding in this region could potentially alter the dynamics of flap motions and interfere with the accessibility and interaction of ligands within the active site. Conclusion Predicting long-time dynamics of proteins is necessary to fully understanding their biological function. Molecular dynamics approaches can be used to describe the variety of conformations that a flexible protein can assume, but this technique can be expensive and inefficient for investigating large-scale motions, which may only appear at longer timescales (micro- to milliseconds). Interest has thus grown in exploiting alternative approaches such as all-atom NM or elastic normal mode (ENM) analyses (e.g., [71]) that make maximum use of a single protein structure. These approaches can provide estimates of the large-scale, collective motions of the protein. However, a statistical picture is missing, for, as we have seen, a given single structure may lead to dynamics results that are not representative of the overall behavior. The Consensus Modes approach we have described allows one to obtain collective macromolecular motions from a set of related protein structures, and is based on the curvature of the potential energy surface near each structure making use of normal mode theory. The consensus modes correspond to more robust descriptions of the vibrational movement of a macromolecule than the normal modes obtained for a single structure. The CM is not limited to full atom NM calculations, but can also be adapted to ENM calculations on multiple structures. Consensus Modes may also be useful to extend the JAM approach itself [33] which was presented using only a single NM determination to model the intra-substate motions of the protein— the multiple minima information synthesized by the CM would improve the robustness of this approach. Besides reducing potential artifacts, consensus modes also show more collectivity than either the normal modes of the individual structures or the quasi-harmonic modes obtained from an MD simulation ten times longer than that used in their calculation. Moreover, in the particular case of the homodimeric HIV-1 protease, the consensus modes display increased symmetry when compared to normal modes of the individual structures or to quasi-harmonic modes from MD simulations. The consensus mode approach may be applied to multiple X-ray or NMR structures in order to obtain the most robust motions from them, and thus to provide a better description of global motions. They can allow the determination of key residues playing a role in motions that influence protein function or ligand-binding characteristics. Such information can then be exploited experimentally, for example in mutagenesis studies. Motions described by consensus modes may be further explored by using restrained energy minimization or MD simulation for a better structural and energetic descriptions of conformational changes [29,35,72]. Finally, we point out that the consensus mode approach allows a better treatment of hydration than can be attained in standard normal 12 mode analysis, by implicitly taking into account different aqueous environments around the protein in the averaging process. Acknowledgments CHR and DP wish to thank the Université Paris-sud 11 Pluriformation Program DEMAIN and the IDRIS (Institut du Développement et des Ressources en Informatique Scientifique) of the CNRS for access to resources used in performing the computations used for this work. PRB, PGP and PMB wish also to acknowledge the Brazilian agencies CNPq, CAPES and FAPERJ for financial support. JDM would like to thank the Sidaction foundation for support. 13 Figure Legends Figure 1. HIV-1 protease (PR) structure. Cartoon representation of PR colored by secondary structure: blue (β-sheets), red (α-helix) and gray (coil and loop). The solvent accessible surface (transparent) was colored in order to represent the principal PR domains: orange (flaps domain), light green (core domain) and magenta (dimerization domain – N and C terminals). The flap elbows, tips (Ile50), and catalytic residues (Asp25) are highlighted. Figure 2. Optimization and equilibration of PR structure. Panel A shows the temperature increase for the system during the heating procedure. Panel B shows the positional restraint energy (top) and the Cα rmsd (bottom) during the initial equilibration period of 1.4 ns, during which the positional restraints were reduced to zero. Panel C shows the calculated distance between the CA of Asp25 and Ile50 for each flap throughout the unrestrained MD simulation. Figure 3. Flowchart describing the Consensus Modes approach. Figure 4. “Crystal” data set. A) the list of PDB entries used in this data set; B) rmsd for each PDB structure taking as reference the averaged structure, ordered by increasing deviation. Figure 5. N-H S2 order parameter calculated from the 10 ns MD simulation compared to the experimental results from reference [45]. Figure 6. The structural variability of sampled structures used in the CM calculation. A) Cα fluctuations calculated from the 20 energy-minimized snapshots. B) the Cα rmsd structural differences between sample pairs. C) distribution of pairwise rmsd distances shown in B. Figure 7. Root mean square fluctuations (RMSF) calculated for Cα atoms derived from the NM for each of the 20 MD snapshots (colored thin lines) and from the CM (bold black line). Also shown are the fluctuations derived from the normalized crystallographic temperature factors from the 1hhp crystal structure (bold red line). Protein residues are numbered from 1-99 for chain A and 100-198 for chain B. Figure 8. Correspondence between low frequency CM (1ns) and QHM from 10ns MD. A) Comparison of Cα RMSF derived from the CM (black) and from the QHM calculated from 10ns of MD (red). B) Cumulative overlap of each QHM with the 97 lowest frequency CM (black) and of each CM with the 97 lowest frequency QHM (red). Modes are numbered in increasing frequency. Figure 9. Degree of collectivity of PR motions. The collectivity index κ was calculated as described in Methods for each CM derived from the first ns of MD production (black) and for each QHM calculated from the full 10 ns MD (red). The mean collectivity along with the standard deviation over the NM of the 20 MD snapshots was also calculated (green). Modes are numbered in increasing frequency. 14 Figure 10. Cumulative overlap, in the subspace of the 97 lowest frequency Cα-CM, of the collective-movement vectors obtained by different methods: QHM (black), X-ray PCA (red), and NMR PCA (green). In each case the results for the first 28 largeamplitude modes are shown. Modes are numbered by decreasing eigenvalue. Figure 11. Low-frequency CM movements in relation to the intrinsic flexibility of PR flaps. A) The backbone trace of two structures of bound forms of PR, 4hvp (in blue) and 1aid (in red), as well as of intermediate structures described by the 5th lowest frequency CM. The intermediate structures were generated by displacing the mean structure in the ± directions along the CM, up to an RMS of 0.6 Å. B) Mode describing the change of the shape and volume of the binding site of PR which appears necessary to accommodate ligands of various sizes. C) Least-squares superposition of the backbone of bound (4hvp, in blue) and free PR (1hhp, in red). D) Vectors (represented by arrows) of the 3rd and 5th lowest frequency CM involved in the flap motions that describe the conformational change from the closed (bound) to a semiopen (free) form. Cartoon arrows represent the overall directions of the motions of flap domains. References 1. Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J, Wheeler DL (2008) GenBank. Nucleic Acids Res 36: D25-30. 2. Bernstein FC, Koetzle TF, Williams GJ, Meyer EF, Jr., Brice MD, et al. (1977) The Protein Data Bank: a computer-based archival file for macromolecular structures. J Mol Biol 112: 535-542. 3. Huber R, Bennett WS, Jr. (1983) Functional significance of flexibility in proteins. Biopolymers 22: 261-279. 4. Phillips GN, Jr. (1990) Comparison of the dynamics of myoglobin in different crystal forms. Biophys J 57: 381-383. 5. Lu WC, Wang CZ, Yu EW, Ho KM (2006) Dynamics of the trimeric AcrB transporter protein inferred from a B-factor analysis of the crystal structure. Proteins 62: 152-158. 6. Teodoro ML, Phillips GN, Jr., Kavraki LE (2003) Understanding protein flexibility through dimensionality reduction. J Comput Biol 10: 617-634. 7. Chollet A, Turcatti G (1999) Biophysical approaches to G protein-coupled receptors: structure, function and dynamics. J Comput Aided Mol Des 13: 209-219. 8. Sinha N, Smith-Gill SJ (2002) Protein structure to function via dynamics. Protein Pept Lett 9: 367-377. 9. Tamm LK, Abildgaard F, Arora A, Blad H, Bushweller JH (2003) Structure, dynamics and function of the outer membrane protein A (OmpA) and influenza hemagglutinin fusion domain in detergent micelles by solution NMR. FEBS Lett 555: 139-143. 10. Karplus M, Weaver DL (1976) Protein-folding dynamics. Nature 260: 404-406. 11. McCammon JA, Gelin BR, Karplus M (1977) Dynamics of folded proteins. Nature 267: 585-590. 12. Henzler-Wildman KA, Thai V, Lei M, Ott M, Wolf-Watz M, et al. (2007) Intrinsic motions along an enzymatic reaction trajectory. Nature 450: 838-844. 13. Henzler-Wildman KA, Lei M, Thai V, Kerns SJ, Karplus M, et al. (2007) A hierarchy of timescales in protein dynamics is linked to enzyme catalysis. Nature 450: 913-916. 15 14. Scott WR, Schiffer CA (2000) Curling of flap tips in HIV-1 protease as a mechanism for substrate entry and tolerance of drug resistance. Structure 8: 1259-1265. 15. Kim E, Jang S, Pak Y (2008) Direct folding studies of various alpha and beta strands using replica exchange molecular dynamics simulation. J Chem Phys 128: 175104-175110. 16. Treptow W, Marrink SJ, Tarek M (2008) Gating motions in voltage-gated potassium channels revealed by coarse-grained molecular dynamics simulations. J Phys Chem B 112: 3277-3282. 17. Liu H, Dastidar SG, Lei H, Zhang W, Lee MC, et al. (2008) Conformational changes in protein function. Methods Mol Biol 443: 258-275. 18. Alcaraz LA, Del Alamo M, Mateu MG, Neira JL (2008) Structural mobility of the monomeric C-terminal domain of the HIV-1 capsid protein. Febs J 275: 32993311. 19. Amorim GC, Pinheiro AS, Netto LE, Valente AP, Almeida FC (2007) NMR solution structure of the reduced form of thioredoxin 2 from Saccharomyces cerevisiae. J Biomol NMR 38: 99-104. 20. McCammon JA, Gelin BR, Karplus M, Wolynes PG (1976) The hinge-bending mode in lysozyme. Nature 262: 325-326. 21. Levitt M, Sander C, Stern PS (1985) Protein normal-mode dynamics: trypsin inhibitor, crambin, ribonuclease and lysozyme. J Mol Biol 181: 423-447. 22. Brooks B, Karplus M (1983) Harmonic dynamics of proteins: normal modes and fluctuations in bovine pancreatic trypsin inhibitor. Proc Natl Acad Sci USA 80: 6571-6575. 23. Perahia D, Mouawad L (1995) Computation of low-frequency normal modes in macromolecules: improvements to the method of diagonalization in a mixed basis and application to hemoglobin. Comput Chem 19: 241-246. 24. Balog E, Smith JC, Perahia D (2006) Conformational heterogeneity and lowfrequency vibrational modes of proteins. Phys Chem Chem Phys 8: 5543-5548. 25. Keskin O, Durell SR, Bahar I, Jernigan RL, Covell DG (2002) Relating molecular flexibility to function: a case study of tubulin. Biophys J 83: 663-680. 26. Tama F, Sanejouand YH (2001) Conformational change of proteins arising from normal mode calculations. Protein Engineering 14: 1-6. 27. Mouawad L, Perahia D (1996) Motions in hemoglobin studied by normal mode analysis and energy minimization: evidence for the existence of tertiary T-like, quaternary R-like intermediate structures. J Mol Biol 258: 393-410. 28. Petrone P, Pande VS (2006) Can conformational change be described by only a few normal modes? Biophys J 90: 1583-1593. 29. Floquet N, Durand P, Maigret B, Badet B, Badet-Denisot MA, et al. (2009) Collective motions in glucosamine-6-phosphate synthase: influence of ligand binding and role in ammonia channelling and opening of the fructose-6phosphate binding site. J Mol Biol 385: 653-664. 30. Nakagawa N, Peyrard M (2006) The inherent structure landscape of a protein. Proc Natl Acad Sci U S A 103: 5279-5284. 31. Wales DJ (2005) Energy landscapes and properties of biomolecules. Phys Biol 2: S86-93. 32. Wales DJ, Bogdan TV (2006) Potential energy and free energy landscapes. J Phys Chem B 110: 20765-20776. 33. Kitao A, Hayward S, Go N (1998) Energy landscape of a native protein: jumpingamong-minima model. Proteins 33: 496-517. 16 34. van Vlijmen HWT, Karplus M (1999) Analysis of Calculated Normal Modes of a Set of Native and Partially Unfolded Proteins. The Journal of Physical Chemistry B 103: 3009-3021. 35. Floquet N, Marechal JD, Badet-Denisot MA, Robert CH, Dauchez M, et al. (2006) Normal mode analysis as a prerequisite for drug design: application to matrix metalloproteinases inhibitors. FEBS Lett 580: 5130-5136. 36. Navia MA, Fitzgerald PM, McKeever BM, Leu CT, Heimbach JC, et al. (1989) Three-dimensional structure of aspartyl protease from human immunodeficiency virus HIV-1. Nature 337: 615-620. 37. Kohl NE, Emini EA, Schleif WA, Davis LJ, Heimbach JC, et al. (1988) Active human immunodeficiency virus protease is required for viral infectivity. Proc Natl Acad Sci USA 85: 4686-4690. 38. Tomasselli AG, Heinrikson RL (2000) Targeting the HIV-protease in AIDS therapy: a current clinical perspective. Biochim Biophys Acta 1477: 189-214. 39. Gustchina A, Weber IT (1990) Comparison of inhibitor binding in HIV-1 protease and in non-viral aspartic proteases: the role of the flap. FEBS Lett 269: 269-272. 40. Lapatto R, Blundell T, Hemmings A, Overington J, Wilderspin A, et al. (1989) Xray analysis of HIV-1 proteinase at 2.7 A resolution confirms structural homology among retroviral enzymes. Nature 342: 299-302. 41. Wlodawer A, Erickson JW (1993) Structure-based inhibitors of HIV-1 protease. Annu Rev Biochem 62: 543-585. 42. Ishima R, Freedberg DI, Wang YX, Louis JM, Torchia DA (1999) Flap opening and dimer-interface flexibility in the free and inhibitor-bound HIV protease, and their implications for function. Structure 7: 1047-1055. 43. Tozzini V, Trylska J, Chang CE, McCammon JA (2007) Flap opening dynamics in HIV-1 protease explored with a coarse-grained model. J Struct Biol 157: 606615. 44. Katoh E, Louis JM, Yamazaki T, Gronenborn AM, Torchia DA, et al. (2003) A solution NMR study of the binding kinetics and the internal dynamics of an HIV-1 protease-substrate complex. Protein Sci 12: 1376-1385. 45. Freedberg DI, Ishima R, Jacob J, Wang YX, Kustanovich I, et al. (2002) Rapid structural fluctuations of the free HIV protease flaps in solution: relationship to crystal structures and comparison with predictions of dynamics calculations. Protein Sci 11: 221-232. 46. Ishima R, Louis JM (2008) A diverse view of protein dynamics from NMR studies of HIV-1 protease flaps. Proteins 70: 1408-1415. 47. Hornak V, Okur A, Rizzo RC, Simmerling C (2006) HIV-1 protease flaps spontaneously open and reclose in molecular dynamics simulations. Proc Natl Acad Sci USA 103: 915-920. 48. Ding F, Layten M, Simmerling C (2008) Solution structure of HIV-1 protease flaps probed by comparison of molecular dynamics simulation ensembles and EPR experiments. J Am Chem Soc 130: 7184-7185. 49. Batista PR, Wilter A, Durham EH, Pascutti PG (2006) Molecular dynamics simulations applied to the study of subtypes of HIV-1 protease common to Brazil, Africa, and Asia. Cell Biochem Biophys 44: 395-404. 50. Zoete V, Michielin O, Karplus M (2002) Relation between sequence and structure of HIV-1 protease inhibitor complexes: A model system for the analysis of protein flexibility. Journal of Molecular Biology 315: 21-52. 17 51. Yang L, Song G, Carriquiry A, Jernigan RL (2008) Close correspondence between the motions from principal component analysis of multiple HIV-1 protease structures and elastic network modes. Structure 16: 321-330. 52. Levy RM, Karplus M, Kushick J, Perahia D (1984) Evaluation of the configurational entropy for proteins: application to molecular dynamics simulations of an alpha-helix. Macromolecules 17: 1370-1374. 53. Karplus M, Kushick JN (1981) Method for estimating the configurational entropy of macromolecules. Macromolecules 14: 325-332. 54. Levy RM, Perahia D, Karplus M (1982) Molecular dynamics of an alpha-helical polypeptide: Temperature dependence and deviation from harmonic behavior. Proc Natl Acad Sci USA 79: 1346-1350. 55. Balsera MA, Wriggers W, Oono Y, Schulten K (1996) Principal component analysis and long time protein dynamics. J Phys Chem US 100: 2567-2572. 56. Phillips JC, Braun R, Wang W, Gumbart J, Tajkhorshid E, et al. (2005) Scalable molecular dynamics with NAMD. J Comput Chem 26: 1781-1802. 57. Mackerell AD, Jr., Feig M, Brooks CL, 3rd (2004) Extending the treatment of backbone energetics in protein force fields: limitations of gas-phase quantum mechanics in reproducing protein conformational distributions in molecular dynamics simulations. J Comput Chem 25: 1400-1415. 58. Ulrich E, Lalith P, Max LB, Tom D, Hsing L, et al. (1995) A smooth particle mesh Ewald method. J Chem Phys 103: 8577-8593. 59. Miyamoto S, Kollman PA (1992) Settle - an Analytical Version of the Shake and Rattle Algorithm for Rigid Water Models. J Comput Chem 13: 952-962. 60. Ryckaert J-P, Ciccotti G, Berendsen HJC (1977) Numerical integration of the cartesian equations of motion of a system with constraints: molecular dynamics of n-alkanes. J Comput Phys 23: 327-341. 61. Berendsen HJC, Postma JPM, Vangunsteren WF, Dinola A, Haak JR (1984) Molecular-Dynamics with Coupling to an External Bath. J Chem Phys 81: 36843690. 62. Bernard R. Brooks, Robert E. Bruccoleri, Barry D. Olafson, David J. States, S. Swaminathan, et al. (1983) CHARMM: A program for macromolecular energy, minimization, and dynamics calculations. J Comput Chem 4: 187-217. 63. Robert CH, Cherfils J, Mouawad L, Perahia D (2004) Integrating three views of Arf1 activation dynamics. J Mol Biol 337: 969-983. 64. Bruschweiler R (1995) Collective Protein Dynamics and Nuclear-Spin Relaxation. J Chem Phys 102: 3396-3403. 65. Spinelli S, Liu QZ, Alzari PM, Hirel PH, Poljak RJ (1991) The three-dimensional structure of the aspartyl protease from the HIV-1 isolate BRU. Biochimie 73: 1391-1396. 66. Janin J, Rodier F (1995) Protein-protein interaction at crystal contacts. Proteins 23: 580-587. 67. Meagher KL, Carlson HA (2005) Solvation influences flap collapse in HIV-1 protease. Proteins 58: 119-125. 68. Thomas A, Field MJ, Perahia D (1996) Analysis of the low-frequency normal modes of the R state of aspartate transcarbamylase and a comparison with the T state modes. J Mol Biol 261: 490-506. 69. Cui Q, Li G, Ma J, Karplus M (2004) A normal mode analysis of structural plasticity in the biomolecular motor F(1)-ATPase. J Mol Biol 340: 345-372. 18 70. Rick SW, Erickson JW, Burt SK (1998) Reaction path and free energy calculations of the transition between alternate conformations of HIV-1 protease. Proteins 32: 7-16. 71. Tirion MM (1996) Large Amplitude Elastic Motions in Proteins from a SingleParameter, Atomic Analysis. Physical Review Letters 77: 1905. 72. Floquet N, Dedieu S, Martiny L, Dauchez M, Perahia D (2008) Human thrombospondin's (TSP-1) C-terminal domain opens to interact with the CD-47 receptor: a molecular modeling study. Arch Biochem Biophys 478: 103-109. 19 Figure 1 tips elbow Ile50 Asp25 Figure 2 A 300 T (K) 200 100 0 0 10 20 30 40 50 60 70 Time (ps) Heating B C o n strain t E n erg y (K cal/m o l) 200 160 120 80 40 0 0 200 400 600 0 200 400 600 800 1000 1200 1400 800 1000 1200 1400 1.8 1.6 R M S D (Å ) 1.4 1.2 1 0.8 0.6 0.4 0.2 0 Time (ps) Equilibration C distance (Ile 50 CA and ASP 25 CA in Å) 25 chain A chain B 20 15 10 10 ns 5 0 0 3 6 9 Time (ns) Production 12 Figure 3 MD Experimental Validation Crystal Structure of apo form of HIV-1 Protease Solvation, equilibration 10 ns MD trajectory (production) 5000 MD structures 20X 20 structures ( each 50 ps) NMR N-H S2 order parameter agreement Energy Minimization Principal Component Analyses (PCA) Consensus Modes (CM) First 1 ns For each structure Normal mode analysis Covariance Matrix diagonalization Consensus Covariance Matrix from the 20 covariance matrices Figure 4 A 1HHP, 1AID, 1BDR, 1D4J, 1EBY, 1FFI, 1HBV, 1HTF, 1HXB, 1KJ7, 1MEU, 1NH0, 1QBU, 1T3R, 1W5X, 1ZJ7, 2AOC, 2AVS, 2BQV, 2FGV, 2IEO, 2P3B, 2Q64, 3B80, 3D3T, 1RPI, 1AJV, 1BV7, 1D4K, 1EBZ, 1FG6, 1HEF, 1HTG, 1HXW, 1KJF, 1MRW, 1NPA, 1RL8, 1T7I, 1W5Y, 1ZLF, 2AOD, 2AVV, 2CEJ, 2FLE, 2NMW, 2P3C, 2QAK, 3BVA, 3TLH, 1TW7, 1AJX, 1BV9, 1D4L, 1EC0, 1FG8, 1HEG, 1HVC, 1IIQ, 1KJG, 1MRX, 1NPV, 1RQ9, 1T7J, 1WBK, 1ZP8, 2AOE, 2AZ8, 2CEM, 2FNS, 2NMY, 2P3D, 2QNN, 3BVB, 4HVP, 2HB4, 1AXA, 1BWA, 1D4S, 1EC1, 1FGC, 1HIH, 1HVH, 1IZH, 1KJH, 1MSM, 1NPW, 1RV7, 1T7K, 1WBM, 1ZPA, 2AOF, 2AZ9, 2CEN, 2FNT, 2NMZ, 2PQZ, 2QNP, 3BXR, 4PHV, 2PC0, 1A30, 1B6J, 1B6K, 1BWB, 1C6X, 1D4Y, 1DAZ, 1EC2, 1EC3, 1FQX, 1G2K, 1HIV, 1HOS, 1HVI, 1HVJ, 1IZI, 1JLD, 1KZK, 1LV1, 1MSN, 1MT7, 1ODW, 1ODX, 1SBG, 1SDT, 1TCX, 1U8G, 1XL2, 1XL5, 1ZPK, 1ZSF, 2AOG, 2AOH, 2AZC, 2BB9, 2F3K, 2F80, 2FXD, 2FXE, 2NNK, 2NNP, 2PSU, 2PSV, 2QNQ, 2UPJ, 3BXS, 3CYW, 5HVP ,7UPJ. 1A8G, 1B6L, 1C6Y, 1DIF, 1F7A, 1G35, 1HPO, 1HVK, 1K1T, 1LZQ, 1MT8, 1ODY, 1SDU, 1UPJ, 1YT9, 1ZSR, 2AOI, 2BPV, 2F81, 2HC0, 2NPH, 2PWC, 2UXZ, 3CYX, 1A8K, 1B6M, 1C6Z, 1DMP, 1FB7, 1G6L, 1HPS, 1HVL, 1K1U, 1M0B, 1MT9, 1OHR, 1SDV, 1VIJ, 1Z1H, 1ZTZ, 2AOJ, 2BPW, 2F8G, 2HS1, 2NXD, 2PWR, 2UY0, 3D1X, 1A94, 1B6P, 1CPI, 1DW6, 1FEJ, 1GNM, 1HPV, 1HVR, 1K2B, 1MER, 1MTB, 1QBR, 1SGU, 1VIK, 1Z1R, 2A1E, 2AVM, 2BPX, 2FDD, 2HS2, 2NXL, 2PYM, 2Z54, 3D1Y, 1A9M, 1BDL, 1D4H, 1EBK, 1FF0, 1GNN, 1HPX, 1HVS, 1K2C, 1MES, 1MTR, 1QBS, 1SH9, 1W5V, 1Z8C, 2A4F, 2AVO, 2BPY, 2FDE, 2IDW, 2NXM, 2PYN, 3AID, 3D1Z, 1AAQ, 1BDQ, 1D4I, 1EBW, 1FFF, 1GNO, 1HTE, 1HWR, 1KJ4, 1MET, 1N49, 1QBT, 1SP5, 1W5W, 1ZBG, 2AID, 2AVQ, 2BPZ, 2FGU, 2IEN, 2P3A, 2Q63, 3B7V, 3D20, B 3.5 3 RMSD (Å) 2.5 2 1.5 1 0.5 0 0 50 100 150 Structures 200 250 300 N-H S2 order param eter Figure 5 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 exp MD 0.2 0.1 0 0 25 50 residues 75 100 0 rmsd (Å) 175 1.95 1.85 1.74 150 1.64 1.54 125 1.44 RMSD (Å) 1.33 100 1.23 1.13 1.03 75 0.92 0 0.82 50 0.72 0.62 25 0.51 0.41 0.31 0 0.21 0.1 a.u. RMS fluctuations (Å) Figure 6 A 3 2.5 2 1.5 1 0.5 0 residue 200 B 1.89 C 40 35 30 25 20 15 10 5 0 Figure 7 0.6 RMSF (Å) 0.5 0.4 0.3 0.2 0.1 0 0 25 50 75 100 Residues 125 150 175 200 Figure 8 A consensus modes (1ns) 0.35 QHM from MD (10ns) 0.3 RMSF (Å) 0.25 0.2 0.15 0.1 0.05 0 0 20 40 60 80 100 residues 120 140 160 180 200 60 70 80 90 100 B 1.0 0.9 Cum. Overlap 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0 10 20 30 40 50 m ode index Figure 9 0.9 NM Snapshots mean (±SD) CM (1ns) QHM MD (10ns) 0.8 κ (collectivity) 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 20 40 60 mode index 80 100 Figure 10 1.0 0.8 CO 0.6 MD 0.4 NMR 0.2 crystal 0.0 0 2 4 6 8 10 12 14 16 m ode index 18 20 22 24 26 28 Figure 11 Binding to different inhibitors A B 4hvp 1aid mode 5 Bound and free forms C D 1hhp – semiopen - No ligand 4hvp – closed - bound mode 3 mode 5 Livros Grátis ( http://www.livrosgratis.com.br ) Milhares de Livros para Download: Baixar livros de Administração Baixar livros de Agronomia Baixar livros de Arquitetura Baixar livros de Artes Baixar livros de Astronomia Baixar livros de Biologia Geral Baixar livros de Ciência da Computação Baixar livros de Ciência da Informação Baixar livros de Ciência Política Baixar livros de Ciências da Saúde Baixar livros de Comunicação Baixar livros do Conselho Nacional de Educação - CNE Baixar livros de Defesa civil Baixar livros de Direito Baixar livros de Direitos humanos Baixar livros de Economia Baixar livros de Economia Doméstica Baixar livros de Educação Baixar livros de Educação - Trânsito Baixar livros de Educação Física Baixar livros de Engenharia Aeroespacial Baixar livros de Farmácia Baixar livros de Filosofia Baixar livros de Física Baixar livros de Geociências Baixar livros de Geografia Baixar livros de História Baixar livros de Línguas Baixar livros de Literatura Baixar livros de Literatura de Cordel Baixar livros de Literatura Infantil Baixar livros de Matemática Baixar livros de Medicina Baixar livros de Medicina Veterinária Baixar livros de Meio Ambiente Baixar livros de Meteorologia Baixar Monografias e TCC Baixar livros Multidisciplinar Baixar livros de Música Baixar livros de Psicologia Baixar livros de Química Baixar livros de Saúde Coletiva Baixar livros de Serviço Social Baixar livros de Sociologia Baixar livros de Teologia Baixar livros de Trabalho Baixar livros de Turismo