ARTIGO PESQUISA Peter Ilicciev/Fiocruz “Desvendando Mistérios de Genomas”: um projeto de computação intensiva Win Degrave Pesquisador titular do Laboratório de Genômica Funcional e Bioinformática do Instituto Oswaldo Cruz. esde os anos 1970, cientistas se esforçam para determinar o código genético de organismos vivos. Após inovações em automação e em tecnologias de sequenciamento, o genoma completo de um organismo de vida livre, Haemophilus influenzae, foi obtido em 1995, logo seguido de muitos outros organismos modelo, como Escherichia coli (bactérias do intestino), levedura, patógenos humanos como o da tuberculose, e de parasitas como o da malária, de genomas de plantas, e em 2001 o primeiro esboço de um genoma humano. Desde então, dados genômicos vêm acumulando em ritmo exponencial, e com menor custo. Outras contribuições importantes são a análise da variação genética em populações de (micro)organismos, mapeando diferenças individuais, e o estudo de seres humanos, buscando marcadores de doenças, estabelecendo a relação entre as doenças hereditárias e mutações no genoma, e a farmacogenética para adaptar tratamento à genética individual, entre outros. D A Fiocruz e a World Community Grid (WCGrid) lançaram um projeto para comparar todas entre si, verificando predições computacionais de anotação funcional. O resultado foi disponibilizado para a comunidade científica. Agora, há cerca de 70 milhões de sequências de proteínas de mais de 54.000 espécies. Um número muito maior ainda de sequências metagenômicas precisa ser analisado, entre outros vindo de uma colaboração com o Dr. Torsten Thomas, da Universidade de South New Wales, na Austrália, que gera dados de ecossistemas marinhos. A interpretação funcional e a determinação da relação precisa entre os micro-organismos, na sua maioria desconhecidos, torna-se uma tarefa para um supercomputador, dedicando tempo muito custoso, ou então, para um sistema “grid”, composto de centenas de milhares de computadores como a WCGrid. Assim, mais de 200 milhões de sequências de proteínas serão comparadas ao longo de um ano, em vez de 40.000 anos se fossem executadas por um único computador. Metagenômica: o mundo desconhecido – Por outro lado, notou-se que o material genético total isolado de solo, de água doce ou do mar, no interior ou na superfície de organismos inclusive dos seres humanos, revela uma diversidade muito maior de organismos, na maior parte desconhecidos, em abordagem chamada de metagenômica. Só uma pequena fração é cultivável no laboratório. Os cientistas já sonham determinar o código genético de todas as espécies na Terra. Aplicações em saúde, ambiente e agricultura – Os resultados dos cálculos ainda precisam ser processados e disponibilizados em uma base de dados, contendo as relações entre as proteínas de todos os seres vivos conhecidos no momento, porém com atualização fácil e contínua. Esta permitirá desenvolver novas estratégias contra patógenos de humanos, animal, agrícola ou do ambiente, permitindo estudar a detecção (diagnóstico), tratamento e a concepção de vacinas. Muitas outras aplicações são esperadas, baseadas na vasta variedade de proteínas e enzimas da biodiversidade, como bioinseticidas, novos antibióticos, enzimas que degradam e eliminam resíduos industriais ou poluentes, como petróleo, metais pesados ou produtos químicos orgânicos. Enzimas podem auxiliar na síntese e na produção de produtos químicos (biotransformações), ou de celulose, de tecidos e de cosméticos. Limitações computacionais – Diversos entraves precisam ser resolvidos. A nossa capacidade computacional, de armazenamento, de transmissão de dados e os algoritmos para análise de “Big Data” e visualização são insuficientes. A migração para datacenters e nuvens gigantes, e o transporte físico de discos rígidos, até mesmo em caminhões inteiros, não resolvem todos os problemas. Nenhum banco de dados único contém todos os dados genéticos atuais, e muitos desenvolvem novas formas de representar e interpretar a informação. Entre elementos regulatórios e estruturais, o genoma codifica para proteínas estruturais e principalmente funcionais como enzimas catalisadoras do metabolismo das células, para transformar nutrientes em uma grande variedade de substâncias químicas, de pequenas moléculas orgânicas a produtos intermediários e polímeros como açúcares, ácidos nucleicos, ácidos graxos e lipídeos. “Desvendando Mistérios de Genomas” e o WCGrid – Em 2007, conhecia-se cerca de 400 genomas completos e 3,5 milhões de sequências proteicas de cerca de 4.000 organismos. Biologia sintética – Uma das principais aplicações, em curto prazo, está na biologia sintética, envolvendo a engenharia bioquímica de micro-organismos para a produção de biofármacos, mas também de plásticos verdes (petróleo independente), química verde, e para os biocombustíveis, como o bioetanol e álcoois superiores, querosene e biodiesel. Para a bioengenharia de micro-organismos, é preciso ter um profundo conhecimento das vias bioquímicas, da sua regulação e da engenharia genética. Através de projetos como o “Desvendando Mistérios de Genomas”, a grande variedade de funções enzimáticas e biológicas ainda desconhecidas na natureza irá se tornar disponível para nós. RUMOS – 48 – Novembro/Dezembro 2014