USO DA BIOINFORMÁTICA PARA DETERMINAÇÃO DE SUBSTÂNCIAS CANDIDATAS A FÁRMACOS PARA SCHISTOSOMA MANSONI Rosângela Silqueira Hickson 1 Abstract. A relational database is being created in order to integrate the information on proteins deposited at SwissProt and at PDB, and the drugs listed in DrugBank, KEGG, TTD and PharmGKB among others. Based on this information we are calculating a Druggability Index(DI). This index will be used to calculate the DI of the Schistosoma mansoni protein sequences. All S. mansoni therapeutic targets identified will be analysed for identification and mapping of the probable active sites. After that, automatic docking of all the molecules of database will be performed. This database will have information on the known drugs against all potential targets selected. Resumo. Um banco de Dados relacional está sendo criado para armazenar as informações das proteínas depositadas no SwissProt e no PDB, e as drogas armazenadas no DrugBank, KEEG, TTD e PharmGKB e outros. Com base nestas informações, estamos calculando o Índice de Drogabilidade. Este índice será usado para calcular o Índice de Drogabilidade das seqüências das proteínas do Schistosoma mansoni. Todos os alvos terapêuticos potenciais do Schistosoma mansoni identificados serão analisados para identificação e mapeamento dos sítios ativos prováveis. Em seguida será realizado o docking automático de todas as moléculas do banco de dados, que contém informações sobre os fármacos conhecidos, contra todos os alvos potenciais selecionados. Palavra-chave: docking molecular; genoma; schistosoma mansoni; drogabilidade; proteína-alvo; ligantes. 1 Doutora em Bioinformática, Mestre em Ciência da Computação, Engenheira Mecânica, Coordenadora de Projeto da Faculdade Infórium de Tecnologia, Professora do Centro Universitário Metodista Izabela Hendrix, Avaliadora Institucional e de curso do INEP/MEC. Introdução O sequenciamento genômico veio trazer grandes esperanças no campo das Ciências Biomédicas. A seqüência do genoma humano e do genoma de diversos seres vivos constituem uma importante base de informação para a elucidação do genoma completo [Venter, Adans, Myers and al. 2001], [Lander Linton Birren and al. 2001]. Desafio maior, entretanto, será a elucidação estrutural de novos alvos moleculares, principalmente proteínas, enzimas e receptores, e as novas drogas que certamente emergirão dos dados provenientes do genoma humano e de outros genomas em estudo. Estas estruturas serão a base da revolução da “medicina do futuro”.[Maggio and Ramnarayan 2001], em que a compreensão dos fenômenos biológicos a nível molecular terá papel cada vez mais relevante. A esquistossomose é endêmica em 74 países e causada por três diferentes espécies (S. mansoni, S. haematobium e S. japonicum). É uma doença que atinge 200 milhões de pessoas e provoca mais de 20.000 mortes por ano (http://www.who.int/vaccine_research/diseases/soa_parasitic/en/index5.html). O genoma do parasito já foi seqüenciado e existe um projeto no Laboratório de Parasitologia Celular e Molecular da FIOCRUZ-MG, coordenado pelo Prof. Dr. Guilherme Oliveira, coordenador da Rede Genoma de Minas Gerais, que desenvolve o banco de dados para armazenar o genoma usando o esquema GUS (The Genomics Unified Schema). Além disto, também foram produzidos 169 modelos (www.schistosomaonline.com.br ) usando modelagem por homologia de todas as seqüências possíveis e existem também 16 estruturas de geradas de forma experimental. O controle da esquistossomose é realizado hoje principalmente com o uso do praziquantel (PZQ), uma droga segura que é usada em dose única. A sua utilização resultou em uma marcante diminuição da morbidade das populações de áreas endêmicas [Chitsulo Engels Montresor and Savioli 2000], [Kheir Baraka Tom Mukhtar, and Homieda 2000], [Kloetze 1990]. Porém, a erradicação da transmissão ainda não foi obtida e novas drogas são necessárias para uma estratégia efetiva de longo prazo de combate à esquistossomose. Além disso, já existem relatos de resistência/tolerância ao PZQ em zonas endêmicas [Fallon, Mubarak Fookes. Niang. Butterworth Sturrock, and Doenhoff 1997] e a sua eficácia depende do sexo e do estágio de desenvolvimento do parasito, já que as formas imaturas e os vermes fêmeas são menos sensíveis a medicação [Pica-Mattoccia and Cioli 2004]. O processo de descobrimento e desenvolvimento de um novo fármaco consiste de uma série de etapas que leva cerca de 14 anos para ser concluída e exige um investimento financeiro extremamente elevado, podendo ultrapassar 1 bilhão de dólares atualmente [Hollmer Katsnelson Lawrence Shaffer Vastag Vermij 2007]. O processo pode ser dividido em etapas e cada etapa deve ser bem planejada de modo a prover que os casos de insucesso sejam interrompidos o quanto antes. Ou seja, se um dado alvo, não tiver condições de fornecer bons resultados, que ele seja descartado o quanto antes no processo para minimizar os custos [Caitlin 2003]. A modelagem por homologia baseia-se na observação de que a estrutura tridimensional de proteínas homólogas é mais conservada do que suas seqüências [Wieman. Tondel Anderssen Drablos 2004]. Em nossa proposta, a estrutura tridimensional de cada alvo foi armazenada no banco de dados e, quando não disponível, um modelo por homologia foi gerado e armazenado. A obtenção de amostras em quantidade suficiente para os ensaios de cristalografia necessários é, em muitos casos, difícil, e os cristais obtidos nem sempre têm a qualidade necessária para o trabalho experimental (somente uma em cada vinte proteínas, aproximadamente, produz cristais adequados [Maggio and Ramnarayan 2001] ). Além disto, em certas classes de proteínas, como por exemplo, as proteínas de membrana celular, a determinação estrutural é um desafio. Estas proteínas raramente cristalizam e dificilmente podem ser tratadas de modo satisfatório pela Ressonância Magnética Nuclear (RMN). Por outro lado, a elucidação de aminoácidos (estruturas primárias) é uma tarefa relativamente simples. Por isto, nota-se hoje um grande hiato entre o número de estruturas primárias e secundárias disponíveis. Para se ter uma idéia desta diferença, o SwissProt [Gasteiger, Jung and Bairoch 2001], [Bairoch and Apweiler 2000], [Bairoch and Apweiler 1997] , o mais importante banco de dados de estruturas primárias, incluía em 21 de fevereiro de 2008, 349.480 seqüências e, no mesmo período, apenas 49.0480 estruturas de proteínas estavam definidas no PDB [Berman Westbrook Feng Gilliland Bhat Weissig Shindyalov and Bourne 2000], o principal banco de dados de estruturas terciárias de proteínas. Desenho de Drogas Assistido por Computador Devido ao avanço da biologia molecular e o advento das técnicas de simulação por computador, o planejamento de medicamentos passou a ser feito de forma mais lógica, o que é chamado de Desenho Racional de Drogas [Drews 1996]. O processo do Desenho Racional de Drogas se inicia, geralmente, pelo isolamento de um alvo específico, por exemplo, uma proteína. A estrutura da molécula alvo é determinada por cristalografia por difração de raios-X ou ressonância magnética nuclear [Oshiro and Kuntz 1995]. Conhecendo-se a estrutura 3D de uma proteína, uma análise computacional pode apontar prováveis regiões de ligação. Com isso é possível determinar um conjunto de candidatos (compostos líderes) que possa ligar-se a essa região da proteína alvo. [Lybrand 1995]. Após esta triagem os compostos são sintetizados e testados experimentalmente. Com base nos testes é gerado o medicamento ou é reavaliada a estrutura do receptor e do ligante, reiniciando o ciclo. Docking Molecular O docking molecular é uma técnica utilizada para predizer se uma molécula se ligará a outra, geralmente uma proteína à outra ou uma proteína a uma substância ligante. O docking proteína-ligante é feito modelando-se a interação entre a proteína e o ligante através de diversos critérios: se a geometria do par for complementar e envolver interações bioquímicas favoráveis in silico, a substância ligante ligará potencialmente a proteína in vitro ou in vivo. Conforme Lengauer e Rarey [Lengauer and Rarey 1996], o docking molecular constitui a base do desenho racional de drogas assistido por computador. Isto se deve ao fato de que estas interações entre moléculas são fundamentais para alguns processos biológicos, tais como a transcrição de genes e funções enzimáticas [Lybrand 1995]. O docking molecular pode ser aplicado a macromoléculas, entre proteínas ou proteína-DNA, ou então a pequenas moléculas (ligantes) e moléculas maiores (receptores) [Lengauer and Rarey 1996]. As interações ligante-receptor são processos de grande importância no desenvolvimento de um fármaco, considerando que várias proteínas regulam funções biológicas por intermédio destas ligações. Para avaliar o docking entre um ligante e um receptor são utilizadas funções que avaliam a quantidade de energia despendida nesta interação [Lybrand 1995]. Tais funções levam em conta algumas variáveis tais como a polaridade da superfície de cada molécula e as suas formas geométricas. Figura 1: Representação esquemática do processo de docking em duas dimensões. Portanto, não basta um ligante ter a geometria necessária para se ligar a um local do receptor se as energias não são compatíveis. Ou seja, devemos levar em consideração os locais de ligação do receptor (binding sites ou pockets) e as energias destes, conforme ilustrado na Figura 1. Considerando o bloco maior, Receptor, e o bloco menor, Ligante, como moléculas de tamanho diferenciado, podemos observar que há o processo de translação e rotação para tentar atracar as moléculas. Porém, estas somente se ligarão em locais onde possam se encaixar devidamente e onde as suas energias de interação sejam compatíveis. No caso da reentrância localizada na parte inferior há uma energia propícia, no entanto o Ligante está impedido por um bloqueio físico de interagir com o Receptor naquele local. Por outro lado, no lado direito o encaixe (geometria) é propício, mas as energias se repelem. Já no lado esquerdo, as moléculas podem se encaixar e as energias são favoráveis para que a ligação ou atracamento ocorra. Figura 2: Representação esquemática do processo de docking em três dimensões. O processo apresentado em três dimensões na Figura 2 pode ser simulado por alguns programas, tais como o AutoDock 3.0 [Goodsell Morris and Olson 1996], LigandFit [Venkatachalam and al 2002] e DOCK [Oshiro and Kuntz 1995]. Objetivo geral Realização de docking molecular para avaliar potenciais ligantes que possam ser usados para desenvolvimento de novas drogas contra o S. mansoni. Este docking será feito usando as estruturas que se encontram no Protein Data Bank (http://www.pdb.org/pdb/home/home.do), os modelos de proteínas desenvolvidas através de modelagem por homologia (www.schistosomaonline.com.br ), o banco de dados contendo 10.000.000 componentes da Quantum Pharmaceuticals (http://qpharm.com/), e o banco de dados drugbank (http://drugbank.ca/). Os ligantes que se mostrarem mais promissores serão testados em animais. Metodologia Etapa 1: Modelagem molecular por homologia estrutural A estratégia baseia-se no conhecimento de que a conformação estrutural de uma proteína é mais conservada que sua seqüência de aminoácidos durante o processo evolutivo, e que pequenas mudanças na seqüência, em geral, resultam em, apenas, sutis modificações na estrutura tridimensional [Nayeem, Sitkoff and Junior 2006]. Se pelo menos uma seqüência homóloga para qual a estrutura tridimensional resolvida for encontrada, o método de escolha para predição da estrutura tridimensional de uma proteína-alvo é a própria modelagem comparativa ou por homologia [Höltje Sippl Rognan, and Folkers 2003]. Geralmente, o processo de obtenção de um modelo protéico virtual através da execução da estratégia da modelagem molecular por homologia estrutural envolve quatro etapas principais: busca de proteínas homólogas, alinhamento das seqüências, construção e otimização dos modelos, e a validação dos mesmos [Hillisch Pineda and Hilgenfeld 2004]. O primeiro passo na modelagem comparativa é a identificação de estruturas tridimensionais resolvidas, que possam atuar como um template para a modelagem da seqüência-alvo (proteína-alvo). Esta identificação pode ser realizada levando-se em consideração vários aspectos, como: conhecimento estrutural, similaridade de função, expressão pelo mesmo grupo de genes, similaridade seqüencial ou até correlação evolutiva [Deane and Blundell 2003]. Uma das maneiras mais eficientes para se realizar uma busca de proteínas homólogas é através de similaridade seqüencial, lançando-se mão de técnicas de bioinformática, uma vez que seqüências de aminoácidos de proteínas com estruturas não-resolvidas podem ser obtidas com certa facilidade. Nesse caso, o grau de identidade seqüencial, obtido pelo alinhamento com relação a uma ou várias seqüências de estruturas conhecidas tridimensionalmente, e a predição das estruturas secundárias que os aminoácidos da seqüência-alvo assumirão são aspectos primordiais na construção do modelo molecular da proteína-alvo [Muniz 2003]. A etapa de busca de proteínas homólogas tem como objetivo promover a identificação de proteínas com estruturas tridimensionais resolvidas que se correlacionam com a proteína-alvo, e que possam funcionar como molde para a modelagem dessa proteína com estrutura tridimensional desconhecida [Hillisch Pineda and Hilgenfeld 2004]. Há alguns programas disponíveis que podem ser utilizados para a busca de seqüências homólogas em bancos de dados, como por exemplo, o “ Basic Local Alignment Search Tool” (BLAST) [Altschul Gish Miller Meyers and Lipman 1990]. Nessa busca, que funciona como um processo de triagem, são utilizadas ferramentas para a avaliação do grau de similaridade entre fragmentos das seqüências (alinhamento local), com o objetivo de distinguir entre similaridades importantes do ponto de vista biológico ou estrutural de similaridades ao acaso e que não apresentam importância significativa. A busca é realizada em um banco de dados com estruturas resolvidas, como o PDB. Com a introdução da seqüência da proteína-alvo, um algoritmo de busca de similaridade de seqüências é, então, aplicado. A partir da identificação de uma correlação entre a proteína-alvo e a(s) proteína(s)-molde com estrutura resolvida selecionada(s) na busca, é necessário obter um alinhamento seqüencial entre a proteína-alvo e a(s) proteína(s)-molde. O objetivo é identificar a melhor correlação entre os resíduos de aminoácidos de cada seqüência [Hillisch Pineda and Hilgenfeld 2004]. Quando apenas uma seqüênciamolde é identificada, é realizado apenas um alinhamento simples com a seqüênciaalvo. Quando várias seqüências-molde são identificadas, é necessária a obtenção de um alinhamento múltiplo, em que estarão dispostas todas as seqüências-molde selecionadas na busca, bem como a seqüência alvo. Para gerar um alinhamento final entre as seqüências-molde selecionadas na busca e a seqüência-alvo a ser modelada, foi usado o pacote computacional “Alignment of Multiple Protein Sequences” (AMPS) [Barton and Sternberg 1997]. A comparação entre a precisão de modelos de proteínas de interesse farmacêutico gerados por vários “softwares” disponíveis comercialmente ou de domínio público, verificaram que quando a identidade seqüencial é maior do que 40%, os modelos gerados através da estratégia de modelagem por homologia possuem um mesmo nível de exatidão, não havendo diferenças significativas quando comparados às estruturas cristalográficas [Nayeem, Sitkoff and Junior 2006]. Quando a identidade seqüencial é menor, os resultados tendem a variar, com alguns programas apresentando resultados muito mais precisos que outros. Com respeito à faixa de identidade seqüencial para a execução da modelagem molecular por homologia, foi usado um valor maior ou igual a 40% de identidade seqüencial entre a(s) proteína(s)-molde e a proteína-alvo neste trabalho. Etapa 2: Construção dos modelos virtuais O método mais utilizado na atualidade para a construção automatizada de modelos por homologia estrutural emprega técnicas de otimização de distâncias geométricas a fim de satisfazer as restrições espaciais, abstraídas de uma estrutura homóloga resolvida, com relação ao alinhamento da(s) seqüência(s)-molde com a da seqüência a ser modelada [Muniz 2003]. Essa abordagem automatizada para modelagem por homologia, baseada em restrições espaciais, foi implementada no Modeller [Sali and Blundell 1993]. O alinhamento entre a seqüência-molde e a seqüência-alvo funciona como o “input” de programas para modelagem comparativa por homologia. O “output” é um conjunto de coordenadas atômicas para n modelos 3D para a proteína-alvo, contendo os átomos da cadeia principal e lateral dos seus resíduos de aminoácidos. A partir do alinhamento com as seqüências das estruturas-moldes, o programa calcula várias restrições de distâncias e de ângulos torsionais na seqüência-alvo. Etapa 3: Otimização dos modelos virtuais Quando o modelo virtual gerado não apresentou geometria ideal, foi feito um processo de otimização de geometria, que envolve minimização de energia. Nesse contexto, a estrutura molecular é submetida a um processo de relaxamento, para que o estado de energia mínima seja alcançado. A otimização das estruturas dos modelos virtuais se dá basicamente por campo de força (mecânica molecular). Nos cálculos de mecânica molecular a energia total é minimizada em relação às coordenadas atômicas, de acordo com parâmetros pré-definidos pelo campo de força. Etapa 4: Validação dos modelos virtuais Uma importante etapa no processo de modelagem por homologia é a avaliação da qualidade dos modelos, principalmente se diferentes orientações referentes aos resíduos do sítio ligante forem encontradas para os diferentes modelos gerados [Schafferhans and Klebe 2001]. A partir do momento em que um modelo molecular protéico é gerado através da utilização dessa abordagem e, subseqüentemente, otimizado se torna importante e relevante a avaliação dos níveis de qualidade e confiabilidade do mesmo. Esta é uma tarefa árdua, pois o nível de qualidade de um modelo molecular depende de um grande número de propriedades de diferentes graus de organização estrutural, como exatidão estereoquímica, qualidade do empacotamento de resíduos e confiabilidade do enovelamento de acordo com os ambientes químicos dos resíduos [Höltje Sippl Rognan Folkers 2003]. Foram usados três programas: Prochek, What If e Verify3D. O programa Procheck [Schafferhansand Klebe 1993] avalia diversos parâmetros estereoquímicos, tais como ângulos torsionais da cadeia principal (Φ e Ψ), ângulos torsionais das cadeias laterais, maus contatos (ou impedimentos estéricos), energias das ligações de hidrogênio, planaridade das ligações peptídicas, desvios em relação à geometria tetraédrica dos carbonos, dentre outros. O programa serve para verificar a qualidade estereoquímica das estruturas dos modelos construídos: foram avaliados a exatidão de parâmetros como comprimento das ligações, ângulos entre ligações, ângulos torsionais e quiralidade dos aminoácidos [Höltje Sippl Rognan and Folkers 2003]. Uma média da qualidade relativa à maioria dos parâmetros avaliados é representada pelo Fator G e os cálculos baseiam-se em um banco de dados de proteínas que contém estruturas resolvidas a diferentes graus de resolução. A rigor, o Fator G é sempre referido nos resultados a uma determinada resolução estrutural, na qual existe um valor médio de cada parâmetro associado às proteínas envolvidas na avaliação. O interior de proteínas globulares contém cadeias laterais que se encaixam com certa complementaridade. As altas densidades de empacotamento observadas em proteínas é conseqüência desse fato, o que resulta em segmentos de estrutura secundária muito próximos: α-hélices contra α-hélices, α-hélices contra Folhas β e/ou Folhas β contra Folhas β. O empacotamento do interior das proteínas globulares é a maior contribuição para a estabilidade de toda a estrutura protéica. Assim, a qualidade do empacotamento pode ser usada para estimar a confiabilidade do modelo protéico [Höltje Sippl Rognan and Folkers 2003]. Existe uma variedade de métodos que usam uma grande quantidade de informação derivada de estruturas de proteínas resolvidas para estimar a qualidade do empacotamento de modelos de proteínas. Partindo da premissa de que as interações átomo-átomo são as principais determinantes da conformação protéica, Vriend & Sander , [Vriend and Sander. 1993] desenvolveram um método, contido no módulo “Fine Packing Quality Control” do programa What If, que checa a qualidade do empacotamento de modelos de proteínas através de cálculos do chamado índice da qualidade de contato. Este índice é a medida da correlação entre a distribuição dos átomos ao redor de uma cadeia lateral de um aminoácido e as distribuições equivalentes observadas em proteínas com estruturas já resolvidas. Para isto, foi gerado um banco de dados que contém uma distribuição de probabilidade de contato atômico para todas as cadeias laterais dos aminoácidos. Neste banco de dados é descrita a probabilidade de certo átomo estar em uma região particular ao redor da cadeia lateral. Os valores de probabilidade são usados para avaliar a qualidade dos contatos atômicos em um modelo protéico. Quanto maior for a correlação entre as distribuições no modelo e as estruturas cristalizadas maior será a qualidade do índice. O programa Verify3D [Luthy Bowie and Eisenberg 1992], foi usado, e determina os ambientes químicos de cada resíduo do modelo e atribui scores com referência a uma matriz construída a partir de uma análise estatística envolvendo estruturas de proteínas do PDB. Nessa matriz estão contidas três propriedades que cada resíduo apresenta dentro de cada um dos 18 ambientes químicos definidos. Finalmente, o programa realiza uma promediação na janela com o objetivo de detectar regiões de baixa qualidade. A soma dos scores obtidos é comparada ao valor ideal esperado para uma proteína de igual comprimento. O resultado da soma deve ser maior do que 45% do valor esperado (ideal), que é a faixa encontrada para estruturas de boa qualidade. Recursos computacionais – Hardware Nas etapas 1 a 4 foram usados os seguintes recursos computacionais: Dois servidores com Processador Core 2 Duo, com 2,13 GHz, 4GB de RAM, HD de 250 GB Sata, 84 estações com Processador Core 2 Duo, com 1,66 GHz, 1GB de RAM, HD de 80 GB Sata, 26 estações com Processador Core 2 Duo, com 1,8 GHz, 2GB de RAM, HD de 80 GB Sata. Etapa 5: Descoberta e Desenvolvimento de Fármacos com base nas estruturas 3D A chave para o desenho de fármacos com base na estrutura é a estrutura tridimensional de uma proteína alvo, preferencialmente com um ligante para a identificação do sítio receptor. Uma vez definida, a estrutura do sítio receptor pode ser usada para definir um farmacóforo para a triagem (“screening”) virtual de bibliotecas de compostos e em estudos de ancoragem (“docking”) que podem ser usados para aprimorar a estrutura dos compostos líderes. Alternativamente pode-se utilizar algoritmos para identificar os possíveis sítios ativos baseados nas superfícies acessíveis ao solvente ou bolsos de proteínas, a hidrofilicidade e a lipofilicidade [Willis 2002]. A triagem virtual de biblioteca de compostos é uma abordagem complementar ao “high througput screening” no processo de identificação de compostos líderes. A definição do farmacóforo, ou seja, as características estéricas e eletrostáticas e o respectivo arranjo espacial que é necessário para uma ligação de alta afinidade, é um elemento chave para a triagem virtual ou in silico de um grande número de compostos. O farmacóforo é usado como um modelo para a busca virtual em bibliotecas de compostos, usando sucessivos filtros para uma redução do número de compostos que realmente serão usados no “high througput screening”.[Gruneberg Stubbs and Klebe 2002] Etapa 6: Docking automático utilizando banco de dados de moléculas As várias metodologias de screening virtual podem ser classificadas em duas categorias, dependendo das informações disponíveis, se dos ligantes ou dos receptores. Quando a estrutura do alvo é conhecida, métodos de docking molecular podem ser usados para prever o modo de ligação dos compostos e medir a qualidade do ajuste no sitio de ligação. Nesta abordagem a estrutura do alvo é fundamental para explicar as atividades biológicas de um composto no metabolismo, quer seja benéfica ou não. A atividade biológica é o resultado da interação do composto com estruturas moleculares, a maioria delas proteínas. Assim, para prever a atividade biológica, é necessário prever a afinidade de um composto com o receptor alvo. O docking realiza essa predição usando a estrutura do alvo e um método de posicionamento do ligante no sito de ligação. [Frimurer Peters Iversen Andersen. Møller and Olsenjj 2003], [ Zavodszky and Kuhn 2005], [Cavasotto and Abagyan 2004], [Wei. Weaver Ferrari Matthews and Shoichet 2004], [ Ferrari Wei Constantino and Shoichet 2004], [Yoon and Welsh 2004]. O docking automático se opõe aos métodos interativos, pois esses são baseados em um processo de seleção manual e subjetivo que pode ser usado para a análise dos resultados individuais das interações conhecidas a fim de, por exemplo, otimizar a interação. O objetivo dos métodos automáticos é realizar screening de grandes bibliotecas de ligantes. Durante o docking o ligante é posicionado dentro do sito de ligação do alvo. Este problema é particularmente complexo, considerando o grande numero de graus de liberdade envolvidos: 3 de translação, 3 de rotação, mais a flexibilidade conformacional das duas estruturas. Assim, algumas aproximações são necessárias para realizar os cálculos em um tempo de computação razoável, sem perder a exaustividade da exploração. Geralmente, conceitos de fixação são simplificados e regras heurísticas ou estocásticas são aplicadas. Etapa 7: Montagem de banco de dados relacional de alvos biológicos de interesse terapêutico Os alvos terapêuticos reconhecidos (proteínas e ácidos nucléicos), com importância clínica, são menos do que 500, no total. No entanto, existem inúmeros alvos sendo pesquisados e com o advento da genômica a expectativa é que esse número aumente muito. O genoma drogável é o resultado de pesquisas envolvendo o genoma humano e cita cerca de 3000 proteínas que podem ter aplicação terapêutica.[ Hopkins and Groom, 2002] Um banco de dados relacional está sendo criado para integrar as informações sobre as proteínas depositadas no SwissProt (http://ca.expasy.org/sprot/ ) e no PDB (http://www.rcsb.org/pdb/), e os fármacos listados (http://redpoll.pharmacy.ualberta.ca/drugbank/) (http://www.genome.jp/kegg/), TTD (http://bidd.nus.edu.sg/group/cjttd/ttd.asp), (Therapeutical no , Target DrugBank KEGG Database) PharmGKB (http://www.pharmgkb.org/) dentre outros. Com essas informações estamos calculando um índice de drogabilidade, denominado DI (Druggability Index), que estima a drogabilidade de novas proteínas a partir da similaridade com os alvos terapêuticos conhecidos, isto é, a chance de uma dada seqüência protéica ser um alvo terapêutico potencial ou se pertence à mesma família ou apresenta um domínio protéico de um alvo terapêutico conhecido. O banco de dados ainda inclui informações sobre a estrutura tridimensional para cada alvo. Aqueles sem estrutura tridimensional depositada no PDB, serão modelados utilizando técnicas como homologia comparativa e reconhecimento de folding. Assim pretende-se que o banco de dados inclua as estruturas 3D do maior número possível de alvos terapêuticos. Etapa 8: Construção do índice de drogabilidade de seqüências protéicas Considerando o custo e o tempo para o desenvolvimento de um novo fármaco, é essencial investigar as proteínas que são alvos de fármacos analisando suas características comuns, que incluem o metabolismo, as características estruturais e funcionais, e a drogabilidade. O termo drogabilidade é usado para expressar as proteínas que são capazes de se ligar a moléculas pequenas com características e fármacos. A partir das seqüências dos alvos terapêuticos conhecidos e de informações sobre as suas funções e processos biológicos (http://www.geneontology.org/), e das famílias e domínios (http://www.ebi.ac.uk/interpro/) é possível identificar as características associadas aos alvos terapêuticos conhecidos. Para cada seqüência no Swiss-Prot e no PDB, será calculado um índice de drogabilidade para se estimar se uma dada proteína é um alvo terapêutico, pertence a uma família que contem algum alvo terapêutico, ou ainda se compartilha algum domínio com um alvo terapêutico. Esse índice será usado para calcular o DI das seqüências protéicas do S. mansoni, utilizando métodos de alinhamento de seqüências. Etapa 9: Docking automático dos alvos potenciais do S. mansoni contra as moléculas dos fármacos conhecidos Todos os alvos terapêuticos potenciais do Shistosoma mansoni identificados serão analisados para identificação e mapeamento dos sítios ativos prováveis. Em seguida realizar-se-á o docking automático de todas as moléculas do banco de dados, que contém informações sobre os fármacos conhecidos, contra todos os alvos potenciais selecionados. Este docking será feito usando as estruturas que se encontram no Protein Data Bank (http://www.pdb.org/pdb/home/home.do), dos modelos de proteínas desenvolvidas através de modelagem por homologia (www.schistosomaonline.com.br ), o banco de dados contendo 10.000.000 componentes da Quantum Pharmaceuticals (http://q-pharm.com/), e o banco de dados ZINC (http://zinc.docking.org/ ). Para isto, será usado o WCG – World Community Grid (https://secure.worldcommunitygrid.org/index.jsp ) que usa os recursos disponíveis em computadores do mundo inteiro para efetuar o processamento. Referências Altschul, S. F.; Gish, W.; Miller, W.; Meyers, E. W.; Lipman, D. J.(1990) Basic local alignment search tool. Journal of Molecular Biology. v. 215, pages 403-410. Bairoch, A and Apweiler R.; (1997) J. Mol. Med. 75, page 312. Bairoch, A and Apweiler R.; (2000) Nucleic Acids Res., 28, page 45. Barton, G. J.; Sternberg, M. J. E. (1997) “A strategy for the rapid multiple alignment of protein sequences. Confidence levels from tertiary structure comparisons”. Journal of Molecular Biology. v. 198, pages 327-337, Berman, H. M.; Westbrook, J.; Feng, Z.; Gilliland, G.; Bhat, T. N.; Weissig, H.; Shindyalov, I. N.; Bourne, P. E.(2000) Nucleic Acids Res., 28, page 235. Biotech drugs cost $1.2 billion - Nature Biotechnology 25, pages 9-10 (2007) Published online: 5 January 2007 News in Brief written by Mark Hollmer, Alla Katsnelson, Stacy Lawrence, Catherine Shaffer, Brian Vastag & Peter Vermij. Disponível em: http://www.nature.com/nbt/journal/v25/n1/full/nbt0107-9.html Cavasotto, C. N., and Abagyan; R. A., (2004), ‘Protein Flexibility in Ligand Docking and Virtual Screening to Protein Kinases” J. Mol. Biol. 337, pages 209– 225 Chitsulo, L. Engels, D. Montresor, A. and Savioli, L. (2000) “The global status of schistosomiasis and its control”, Acta Trop., 77 pag.es 41-51. Deane, C. M. ; Blundell, T. L. (2003) “Protein comparative modelling and drug discovery” In Wermuth, C. G. The Practice of Medicinal Chemistry. London : Elsevier Academic Press Drews, J. (1996) “Drug discovery: A historical perspective computational methods for biomolecular docking” Current Opinion in Structural Biology, Elsevier Science, v. 6, pages 402-406, Drugbank: http://redpoll.pharmacy.ualberta.ca/drugbank/ Fallon, P. G, Mubarak, J. S, Fookes, R. E, Niang, M, Butterworth, A. E, Sturrock, R. F, and M. J. Doenhoff, (1997) “Schistosoma mansoni: maturation rate and drug susceptibility of different geographic isolates” Exp. Parasitol, 86 pages 2936. Ferrari, A. M., Wei, B. Q., Costantino, L.,and Shoichet; B. K.,(2004), “Soft Docking and Multiple Receptor Conformations in Virtual Screening” J. Med. Chem., 47, pages 5076-5084 Frimurer, T.M., Peters, G. H., Iversen, L. F., Andersen, H. S., Møller, N. H., and Olsenjj, O. H.., (2003); “Ligand-Induced Conformational Changes: Improved Predictions of Ligand Binding Conformations and Affinities” Biophysical Journal 84 (4), pages 2273–2281 Gasteiger, E.; Jung, E.; Bairoch, A.; (2001), Curr. Issues Mol. Biol. (2001), 3, page 47. GO: http://www.geneontology.org/ Goodsell, D. S.; Morris, G. M.; Olson, A. J. (1996) “Docking of Flexible Ligands: Applications of AutoDock”. Journal of Molecular Recognition, John Wiley & Sons, Inc., v. 9, pages 1-5. Gruneberg, S., M.T. Stubbs, and G. Klebe (2002), “Successful virtual screening for novel inhibitors of human carbonic anhydrase”, J. Med. Chem. 45, pages 3588-3602 Hillisch, A. ; Pineda, L. F. ; Hilgenfeld, R.(2004) Utility of homology models in the drug discovery process. Drug Discovery Today. v. 09, p. 659-669, Höltje, H. D.; Sippl, W.; Rognan, D.; Folkers, G. (2003) “Introduction to comparative protein modeling. In Molecular Modeling: Basic Principles and Applications” Weinheim: Wiley-VCH, Hopkins, A.L. and Groom, C.R. (2002) The druggable genome. Nat.Rev. Drug Discov. 1, pages 727–730 Interpro: http://www.ebi.ac.uk/interpro/ KEGG: http://www.genome.jp/kegg/ Kheir, M. M., Baraka, O. Z, I. El Tom, A., Mukhtar, M. M, and Homieda, M. M. (2000) “Effects of single-dose praziquantel on morbidity and mortality resulting from intestinal schistosomiasis” East Mediterr. Health J, 6 pages 926-931 Kloetzel, K. (1990), “Reinfection after treatment of schistosomiasis: environment or "predisposition"?, Rev. Inst Med Trop. São Paulo, 32, pages138-146. Lander, E. S.; Linton, L. M.; Birren, B.; et al.; (2001) Nature, 409, page 860. Laskowski, R. A.; Macarthur, M. W.; Thornton, J. M. (1993) “Procheck: a program to check the stereochemical quality of protein structures” Journal of Applied Crystallography. v. 26, pages 283-291 Lengauer, T.; Rarey, M. (1996).”Computational methods for biomolecular docking”. Current Opinion in Structural Biology, Elsevier Science, v. 6, pages 402-406 Luthy, R.; Bowie, J. U.; Eisenberg, D.(1992) “Assessment of protein models with three-dimensional profiles”. Nature. v.356, pages. 83-85, Lybrand, T. P. (1995) “Ligand-protein docking and rational drug design”. Current Opinion in Structural Biology, Elsevier Science, v. 5, pages 224-228 Maggio, E. T., Ramnarayan, K.; (2001), TRENDS Biotechnol. 19, page 266. Muniz, J. R. C.(2003) ”Aplicação da bioinformática nos estudos dos genes e enzimas envolvidos na síntese da gomafastidiana produzida pela Xylela fastidiosa” 124p. Dissertação (Mestrado) Instituto de Física de São Carlos, Universidade de São Paulo, São Carlos, Nayeem, A.; Sitkoff, D.; Junior, S.K. (2006) A comparative study of available software for high accuracy homology modeling: from sequence alignments to structural models. Protein Science. v.15, pages 808-824. Oshiro, C. M.; Kuntz, I. D (1995) Flexible ligand docking using a genetic algorithm. Journal of Computer-Aided Molecular Design, Kluwer Academic Publishers, v. 9, pages 113-130. PDB: http://www.rcsb.org/pdb/ PharmGKB: http://www.pharmgkb.org/ Pica-Mattoccia, L. and Cioli, D. (2004), “Sex- and stage-related sensitivity of Schistosoma mansoni to in vivo and in vitro praziquantel treatment” Int. J. Parasitol., 34 pages 527-533. Quantum Pharmaceuticals (http://q-pharm.com/) Sali, A.; Blundell, T. L. (1993) “Comparative protein modeling by satisfaction of spatial restraints” Journal of Molecular Biology. v. 234, pages 779-815 Schafferhans, A.; Klebe, G. (2001) “Docking ligands onto binding site representations derived from proteins” Journal of Molecular Biology., v. 307, pages 407-427 Smith, Caitlin (2003) “Drug target validation: Hitting the target”, Nature 422, pages 341-347 SwissProt: http://ca.expasy.org/sprot/ TTD: http://bidd.nus.edu.sg/group/cjttd/ttd.asp Venkatachalam, C. M. and al. (2002) “LigandFit: A Novel method for the ShapeDirected Rapid Docking of Ligands to Protein Active Sites“. Journal of Molecular Graphics and Modelling, Elsevier Science, v. 21, pages 289-307 Venter, J. C., Adans, M. D., Myers, and W., and al. (2001) Science, 291, page 1304. Vriend, G.; Sander, C. (1993) “Quality control of protein models: directional atomic contact analysis” Journal of Applied Crystallography. v. 26, pages. 47-60, Wei, B. Q., Weaver, L. H., Ferrari, A. M., Matthews., B. W., and Shoichet; B. K., (2004), Testing a Flexible-receptor Docking Algorithm in a Model Binding Site J. Mol. Biol. 337, pages 1161–1182 Wieman, H. Tondel, K. Anderssen, E. & Drablos, F. (2004) “Homology-Based Modelling of Targets for Rational Drug Design” Mini-Reviews in Medicinal Chemistry, 4, pages 793-804 Willis, R.C., (2002), “Surveying the binding site”, Modern Drug Discovery, September, pages 28-34 Yoon, S., and Welsh; W. J., (2004), “Identification of a Minimal Subset of Receptor Conformations for Improved Multiple Conformation Docking and TwoStep Scoring” J. Chem. Inf. Comput. Sci., 44, pages 88-96 Zavodszky, M.I. and Kuhn, L.A.., (2005), “Side-Chain Flexibility in Protein-Ligand Binding: The Minimal Rotation Hypothesis” Protein Science, 14, pages 1104 – 1114 Zinc Database http://zinc.docking.org/