I ERI-RJ – I Escola Regional de Inform•tica do Rio de Janeiro
Instituto de Matem•tica, UFRJ, 13 a 15 de Abril de 2010
52
Um Grid Service para estruturar respostas de alinhamento
de seqüências de nucleotídeos e proteínas no formato BSML
Thiago Silva-de-Souza1,2, Débora Rodrigues Gama Meyer1, Robson Gama Wu1,
Thiago de Souza Splitter1
1
Escola de Ciência e Tecnologia, Universidade do Grande Rio (UNIGRANRIO), Duque
de Caxias-RJ
2
Programa de Pós-Graduação em Informática (PPGI), Universidade Federal do Rio de
Janeiro (UFRJ) – Rio de Janeiro-RJ, Brasil
{thiagoein, debora.meyer, robsongw, thiago.splitter}@gmail.com
Resumo. Um dos programas mais importantes na área de Bioinformática é o
Basic Local Alignment Search Tool (BLAST), uma ferramenta que tem o
objetivo de analisar similaridades entre seqüências de nucleotídeos ou
aminoácidos. O BLAST emite respostas desestruturadas em formato texto.
Para uma melhor interpretação dos dados é necessário estruturar tais
respostas em um formato definido com a Extensible Markup Language (XML)
e adequado à análise de seqüências, como o Bioinformatics Sequence Markup
Language (BSML). Este trabalho apresenta, portanto, uma solução para
transformação das respostas emitidas pelo BLAST para o formato BSML,
baseada em uma infra-estrutura de Grid Computing e Web Services, com o
objetivo de compor workflows científicos de Bioinformática.
1
Introdução
A comparação de seqüências é um dos principais procedimentos utilizados entre os
pesquisadores da área de Bioinformática para se inferir informações sobre os genes
pesquisados. Para se fazer comparação, é necessário primeiramente realizar um
alinhamento entre as seqüências, que pode ser realizado em pares ou com múltiplas
seqüências, a fim de buscar uma série de caracteres ou padrões de caracteres que estão
na mesma ordem, e assim descobrir similaridades entre elas.
A partir do alinhamento de seqüências outras tarefas podem ser executadas,
podendo formar um workflow científico. A principal ferramenta de alinhamento de
seqüências existente hoje é o Basic Local Alignment Search Tool (BLAST), do National
Center for Biotechnology Information (NCBI) [Blast 2003]. O BLAST compara
seqüências em estudo e seqüências armazenadas em bancos de dados através de
alinhamento local (trechos das seqüências com as mais altas densidades de
coincidências são alinhados). A família de programas BLAST inclui diversos
programas, como Blastp, Blastn, Blastx, TBlastn e TBlastx, que são usados de acordo
com a natureza das seqüências em estudo e com o tipo de banco de dados [Rosa 2006].
O BLAST utiliza como entrada uma seqüência que é comparada com uma base
de dados. O BLAST emite respostas às solicitações em formato texto ou em um formato
XML próprio. O ideal seria que as respostas fossem emitidas em um formato XML
I ERI-RJ – I Escola Regional de Inform•tica do Rio de Janeiro
Instituto de Matem•tica, UFRJ, 13 a 15 de Abril de 2010
53
universal e adequado às seqüências de dados biológicos. A Bioinformatics Sequence
Markup Language (BSML) é um formato para dados biológicos baseado na linguagem
XML e se mostra ideal para que pesquisadores possam interagir e trocar informações
biológicas utilizando uma linguagem universal de dados biológicos [Rescentris 2007].
A motivação deste trabalho é propor uma solução de infra-estrutura e serviços
que propicie a criação de um workflow científico de bioinformática, de forma que tais
serviços possam ser utilizados pelas diversas aplicações que poderão compor o
workflow. Para que esse workflow científico exista torna-se necessária uma infraestrutura que o suporte. A melhor forma de fazer isto é utilizar o conceito de grade
computacional (ou Grid Computing), onde as aplicações sejam publicadas como
serviços. A tecnologia de Web Services mostra-se ideal para tal situação pelo fato de ser
independente de plataforma [Silva-de-Souza 2003]. Em um ambiente de grade os Web
Services são denominados Grid Services [Taurion 2004; Cirne e Santos-Neto 2005].
Diante dessa motivação, este trabalho apresenta o aGrid BioWS, um Grid
Service de transformação de respostas de consultas ao BLAST para o formato BSML,
que é invocado por uma aplicação cliente em uma grade computacional.
Este artigo está estruturado em três seções. A Seção 2 descreve a ferramenta
proposta neste trabalho, detalhando sua arquitetura e um exemplo de utilização. Na
Seção 3 são apresentadas as considerações finais do trabalho.
2
aGrid BioWS
A aGrid BioWS é uma ferramenta, na forma de Grid Service, capaz de converter
respostas emitidas pela ferramenta BLAST para o formato BSML. Tal ferramenta está
inserida no escopo do projeto aGrid [Silva-de-Souza, 2008]. O projeto aGrid consiste de
uma infra-estrutura de aplicações e serviços de Bioinformática disponíveis em uma
grade computacional baseada no Globus Toolkit (GT) 4. O Globus Toolkit é um
conjunto de ferramentas composto por vários serviços que permitem a criação da
computação em Grid [Sotomayor 2005].
2.1
Arquitetura
A solução proposta utiliza o Web Service do BLAST, cuja descrição (arquivo WSDL)
está disponível em http://xml.nig.ac.jp/wsdl/Blast.wsdl. Tal solução segue os seguintes
passos para sua execução:
I.
A aplicação cliente submete uma seqüência de nucleotídeos ou aminoácidos para
o Web Service do BLAST realizar a análise de similaridades;
II.
O Web Service do BLAST realiza seu processamento e envia a resposta em
formato texto à aplicação cliente;
III.
A aplicação cliente submete a resposta emitida pelo BLAST ao Grid Service
aGrid BioWS;
IV.
O Grid Service realiza seu processamento e emite uma resposta estruturada no
formato BSML.
A Figura 1 representa a arquitetura da solução e a interação entre seus
componentes:
2
I ERI-RJ – I Escola Regional de Inform•tica do Rio de Janeiro
Instituto de Matem•tica, UFRJ, 13 a 15 de Abril de 2010
54
Figura 1: Arquitetura da solução proposta.
2.2
Exemplo de uso
Para demonstrar o uso da aplicação foi submetida uma seqüência de
aminoácidos referente a uma proteína aleatória. A fonte de dados pesquisada foi o banco
de dados genômicos SWISS-Prot. A Figura 2 mostra as telas da aplicação, onde,
seqüencialmente, são exibidas as telas de 1) consulta ao BLAST, onde são passadas as
informações para a consulta; 2) resposta da consulta ao BLAST; 3) resposta do BLAST
convertida para o formato BSML.
Figura 2: Transformação de uma resposta BLAST para o formato BSML.
I ERI-RJ – I Escola Regional de Inform•tica do Rio de Janeiro
Instituto de Matem•tica, UFRJ, 13 a 15 de Abril de 2010
3
55
Considerações Finais
O trabalho apresentado aqui é a primeira iniciativa de um projeto cuja idéia central é
prover uma infra-estrutura de grade computacional que suporte a execução de workflows
de bioinformática baseados em Grid Services. Verificamos também que a tecnologia
Grid Computing aliada à tecnologia de Web Services maximiza o poder de
processamento e interoperabilidade entre aplicações e recursos de rede.
Um possível trabalho futuro seria criar uma aplicação que permitisse a
visualização de estruturas proteicas a partir de um arquivo BSML. Outros trabalhos
poderiam abordar a criação de serviços para a grade computacional, tais quais o aGrid
BioWS.
Referências Bibliográficas
Blast (2003). Disponível em: <http://blast.ncbi.nlm.nih.gov/Blast.cgi>. Acesso em: 21
jun. 2008.
Brito, R. T. de (2003). Alinhamento de seqüências biológicas. 181 f. Dissertação
(Mestrado em Ciência da Computação) - Instituto de Matemática e Estatística da
Universidade de São Paulo, São Paulo.
Cirne, W.; Santos-Neto, E. (2005). Grids computacionais: transformando a computação
através de serviços sob demanda. In: Simpósio Brasileiro de Redes de
Computadores, 23., Fortaleza.
Rescentris. (2007). BSML: Origins, Overview and Status. Disponível em:
<http://www.rescentris.com/downloads.html>. Acesso em: 16 nov. 2008.
Rosa, Janaina Oleinik Moura (2006). Um Estudo de Compactação de Dados para
Bioseqüências. 135 f. Dissertação (Mestrado em Informática) - Pontifícia
Universidade Católica do Rio de Janeiro, Rio de Janeiro.
Silva-de-Souza,
Thiago
(2008).
Projeto
aGrid.
<http://www.acase.com.br>. Acesso em: 21 jun. 2008.
Disponível
em:
Silva-de-Souza, Thiago (2003). 137 f. Aplicações Distribuídas através de Web Services
e XML. Monografia (Bacharelado em Sistemas de Informação) – Escola de
Informática, Universidade do Grande Rio, Duque de Caxias.
Sotomayor, B. (2005). The globus toolkit programmer’s tutorial. Disponível em:
<http://gdp.globus.org/gt4-tutorial/>. Acesso em: 13 maio 2008.
Taurion, Cezar (2004). Grid Computing: um novo paradigma computacional. Rio de
Janeiro: Brasport.
Vasconcelos, S. S. (2003). 98 f. Uma investigação: ESTs (Expressed Sequence Tags)
podem ser usados no desenvolvimento de marcadores moleculares baseados em
introns?. Dissertação (Mestrado em Ciências Genômicas e Biotecnologia) – PróReitoria de Pós-Graduação e Pesquisa, Universidade Católica de Brasília, Brasília.
4
Download

Um Grid Service para estruturar respostas de alinhamento de