ARTIGO
PESQUISA
Peter Ilicciev/Fiocruz
“Desvendando Mistérios
de Genomas”: um projeto
de computação intensiva
Win Degrave
Pesquisador titular do Laboratório de Genômica Funcional e Bioinformática
do Instituto Oswaldo Cruz.
esde os anos 1970, cientistas se esforçam para
determinar o código genético de organismos
vivos. Após inovações em automação e em tecnologias de sequenciamento, o genoma completo de
um organismo de vida livre, Haemophilus influenzae,
foi obtido em 1995, logo seguido de muitos outros organismos
modelo, como Escherichia coli (bactérias do intestino), levedura,
patógenos humanos como o da tuberculose, e de parasitas como
o da malária, de genomas de plantas, e em 2001 o primeiro esboço de um genoma humano. Desde então, dados genômicos vêm
acumulando em ritmo exponencial, e com menor custo.
Outras contribuições importantes são a análise da variação
genética em populações de (micro)organismos, mapeando
diferenças individuais, e o estudo de seres humanos, buscando
marcadores de doenças, estabelecendo a relação entre as doenças hereditárias e mutações no genoma, e a farmacogenética
para adaptar tratamento à genética individual, entre outros.
D
A Fiocruz e a World Community Grid (WCGrid) lançaram um
projeto para comparar todas entre si, verificando predições
computacionais de anotação funcional. O resultado foi disponibilizado para a comunidade científica. Agora, há cerca de 70
milhões de sequências de proteínas de mais de 54.000 espécies.
Um número muito maior ainda de sequências metagenômicas
precisa ser analisado, entre outros vindo de uma colaboração
com o Dr. Torsten Thomas, da Universidade de South New
Wales, na Austrália, que gera dados de ecossistemas marinhos.
A interpretação funcional e a determinação da relação precisa
entre os micro-organismos, na sua maioria desconhecidos,
torna-se uma tarefa para um supercomputador, dedicando
tempo muito custoso, ou então, para um sistema “grid”, composto de centenas de milhares de computadores como a
WCGrid. Assim, mais de 200 milhões de sequências de proteínas serão comparadas ao longo de um ano, em vez de 40.000
anos se fossem executadas por um único computador.
Metagenômica: o mundo desconhecido – Por outro lado,
notou-se que o material genético total isolado de solo, de água
doce ou do mar, no interior ou na superfície de organismos
inclusive dos seres humanos, revela uma diversidade muito
maior de organismos, na maior parte desconhecidos, em abordagem chamada de metagenômica. Só uma pequena fração é
cultivável no laboratório. Os cientistas já sonham determinar o
código genético de todas as espécies na Terra.
Aplicações em saúde, ambiente e agricultura – Os resultados dos cálculos ainda precisam ser processados e disponibilizados em uma base de dados, contendo as relações entre as proteínas de todos os seres vivos conhecidos no momento, porém
com atualização fácil e contínua. Esta permitirá desenvolver
novas estratégias contra patógenos de humanos, animal, agrícola ou do ambiente, permitindo estudar a detecção (diagnóstico),
tratamento e a concepção de vacinas. Muitas outras aplicações
são esperadas, baseadas na vasta variedade de proteínas e enzimas da biodiversidade, como bioinseticidas, novos antibióticos,
enzimas que degradam e eliminam resíduos industriais ou poluentes, como petróleo, metais pesados ou produtos químicos
orgânicos. Enzimas podem auxiliar na síntese e na produção de
produtos químicos (biotransformações), ou de celulose, de
tecidos e de cosméticos.
Limitações computacionais – Diversos entraves precisam ser
resolvidos. A nossa capacidade computacional, de armazenamento, de transmissão de dados e os algoritmos para análise de
“Big Data” e visualização são insuficientes. A migração para
datacenters e nuvens gigantes, e o transporte físico de discos rígidos, até mesmo em caminhões inteiros, não resolvem todos os
problemas. Nenhum banco de dados único contém todos os
dados genéticos atuais, e muitos desenvolvem novas formas de
representar e interpretar a informação. Entre elementos regulatórios e estruturais, o genoma codifica para proteínas estruturais
e principalmente funcionais como enzimas catalisadoras do
metabolismo das células, para transformar nutrientes em uma
grande variedade de substâncias químicas, de pequenas moléculas orgânicas a produtos intermediários e polímeros como açúcares, ácidos nucleicos, ácidos graxos e lipídeos.
“Desvendando Mistérios de Genomas” e o WCGrid – Em
2007, conhecia-se cerca de 400 genomas completos e 3,5
milhões de sequências proteicas de cerca de 4.000 organismos.
Biologia sintética – Uma das principais aplicações, em curto
prazo, está na biologia sintética, envolvendo a engenharia bioquímica de micro-organismos para a produção de biofármacos,
mas também de plásticos verdes (petróleo independente),
química verde, e para os biocombustíveis, como o bioetanol e
álcoois superiores, querosene e biodiesel. Para a bioengenharia
de micro-organismos, é preciso ter um profundo conhecimento das vias bioquímicas, da sua regulação e da engenharia genética. Através de projetos como o “Desvendando Mistérios de
Genomas”, a grande variedade de funções enzimáticas e biológicas ainda desconhecidas na natureza irá se tornar disponível
para nós.

RUMOS – 48 – Novembro/Dezembro 2014
Download

Sem título-1