I ERI-RJ – I Escola Regional de Inform•tica do Rio de Janeiro Instituto de Matem•tica, UFRJ, 13 a 15 de Abril de 2010 52 Um Grid Service para estruturar respostas de alinhamento de seqüências de nucleotídeos e proteínas no formato BSML Thiago Silva-de-Souza1,2, Débora Rodrigues Gama Meyer1, Robson Gama Wu1, Thiago de Souza Splitter1 1 Escola de Ciência e Tecnologia, Universidade do Grande Rio (UNIGRANRIO), Duque de Caxias-RJ 2 Programa de Pós-Graduação em Informática (PPGI), Universidade Federal do Rio de Janeiro (UFRJ) – Rio de Janeiro-RJ, Brasil {thiagoein, debora.meyer, robsongw, thiago.splitter}@gmail.com Resumo. Um dos programas mais importantes na área de Bioinformática é o Basic Local Alignment Search Tool (BLAST), uma ferramenta que tem o objetivo de analisar similaridades entre seqüências de nucleotídeos ou aminoácidos. O BLAST emite respostas desestruturadas em formato texto. Para uma melhor interpretação dos dados é necessário estruturar tais respostas em um formato definido com a Extensible Markup Language (XML) e adequado à análise de seqüências, como o Bioinformatics Sequence Markup Language (BSML). Este trabalho apresenta, portanto, uma solução para transformação das respostas emitidas pelo BLAST para o formato BSML, baseada em uma infra-estrutura de Grid Computing e Web Services, com o objetivo de compor workflows científicos de Bioinformática. 1 Introdução A comparação de seqüências é um dos principais procedimentos utilizados entre os pesquisadores da área de Bioinformática para se inferir informações sobre os genes pesquisados. Para se fazer comparação, é necessário primeiramente realizar um alinhamento entre as seqüências, que pode ser realizado em pares ou com múltiplas seqüências, a fim de buscar uma série de caracteres ou padrões de caracteres que estão na mesma ordem, e assim descobrir similaridades entre elas. A partir do alinhamento de seqüências outras tarefas podem ser executadas, podendo formar um workflow científico. A principal ferramenta de alinhamento de seqüências existente hoje é o Basic Local Alignment Search Tool (BLAST), do National Center for Biotechnology Information (NCBI) [Blast 2003]. O BLAST compara seqüências em estudo e seqüências armazenadas em bancos de dados através de alinhamento local (trechos das seqüências com as mais altas densidades de coincidências são alinhados). A família de programas BLAST inclui diversos programas, como Blastp, Blastn, Blastx, TBlastn e TBlastx, que são usados de acordo com a natureza das seqüências em estudo e com o tipo de banco de dados [Rosa 2006]. O BLAST utiliza como entrada uma seqüência que é comparada com uma base de dados. O BLAST emite respostas às solicitações em formato texto ou em um formato XML próprio. O ideal seria que as respostas fossem emitidas em um formato XML I ERI-RJ – I Escola Regional de Inform•tica do Rio de Janeiro Instituto de Matem•tica, UFRJ, 13 a 15 de Abril de 2010 53 universal e adequado às seqüências de dados biológicos. A Bioinformatics Sequence Markup Language (BSML) é um formato para dados biológicos baseado na linguagem XML e se mostra ideal para que pesquisadores possam interagir e trocar informações biológicas utilizando uma linguagem universal de dados biológicos [Rescentris 2007]. A motivação deste trabalho é propor uma solução de infra-estrutura e serviços que propicie a criação de um workflow científico de bioinformática, de forma que tais serviços possam ser utilizados pelas diversas aplicações que poderão compor o workflow. Para que esse workflow científico exista torna-se necessária uma infraestrutura que o suporte. A melhor forma de fazer isto é utilizar o conceito de grade computacional (ou Grid Computing), onde as aplicações sejam publicadas como serviços. A tecnologia de Web Services mostra-se ideal para tal situação pelo fato de ser independente de plataforma [Silva-de-Souza 2003]. Em um ambiente de grade os Web Services são denominados Grid Services [Taurion 2004; Cirne e Santos-Neto 2005]. Diante dessa motivação, este trabalho apresenta o aGrid BioWS, um Grid Service de transformação de respostas de consultas ao BLAST para o formato BSML, que é invocado por uma aplicação cliente em uma grade computacional. Este artigo está estruturado em três seções. A Seção 2 descreve a ferramenta proposta neste trabalho, detalhando sua arquitetura e um exemplo de utilização. Na Seção 3 são apresentadas as considerações finais do trabalho. 2 aGrid BioWS A aGrid BioWS é uma ferramenta, na forma de Grid Service, capaz de converter respostas emitidas pela ferramenta BLAST para o formato BSML. Tal ferramenta está inserida no escopo do projeto aGrid [Silva-de-Souza, 2008]. O projeto aGrid consiste de uma infra-estrutura de aplicações e serviços de Bioinformática disponíveis em uma grade computacional baseada no Globus Toolkit (GT) 4. O Globus Toolkit é um conjunto de ferramentas composto por vários serviços que permitem a criação da computação em Grid [Sotomayor 2005]. 2.1 Arquitetura A solução proposta utiliza o Web Service do BLAST, cuja descrição (arquivo WSDL) está disponível em http://xml.nig.ac.jp/wsdl/Blast.wsdl. Tal solução segue os seguintes passos para sua execução: I. A aplicação cliente submete uma seqüência de nucleotídeos ou aminoácidos para o Web Service do BLAST realizar a análise de similaridades; II. O Web Service do BLAST realiza seu processamento e envia a resposta em formato texto à aplicação cliente; III. A aplicação cliente submete a resposta emitida pelo BLAST ao Grid Service aGrid BioWS; IV. O Grid Service realiza seu processamento e emite uma resposta estruturada no formato BSML. A Figura 1 representa a arquitetura da solução e a interação entre seus componentes: 2 I ERI-RJ – I Escola Regional de Inform•tica do Rio de Janeiro Instituto de Matem•tica, UFRJ, 13 a 15 de Abril de 2010 54 Figura 1: Arquitetura da solução proposta. 2.2 Exemplo de uso Para demonstrar o uso da aplicação foi submetida uma seqüência de aminoácidos referente a uma proteína aleatória. A fonte de dados pesquisada foi o banco de dados genômicos SWISS-Prot. A Figura 2 mostra as telas da aplicação, onde, seqüencialmente, são exibidas as telas de 1) consulta ao BLAST, onde são passadas as informações para a consulta; 2) resposta da consulta ao BLAST; 3) resposta do BLAST convertida para o formato BSML. Figura 2: Transformação de uma resposta BLAST para o formato BSML. I ERI-RJ – I Escola Regional de Inform•tica do Rio de Janeiro Instituto de Matem•tica, UFRJ, 13 a 15 de Abril de 2010 3 55 Considerações Finais O trabalho apresentado aqui é a primeira iniciativa de um projeto cuja idéia central é prover uma infra-estrutura de grade computacional que suporte a execução de workflows de bioinformática baseados em Grid Services. Verificamos também que a tecnologia Grid Computing aliada à tecnologia de Web Services maximiza o poder de processamento e interoperabilidade entre aplicações e recursos de rede. Um possível trabalho futuro seria criar uma aplicação que permitisse a visualização de estruturas proteicas a partir de um arquivo BSML. Outros trabalhos poderiam abordar a criação de serviços para a grade computacional, tais quais o aGrid BioWS. Referências Bibliográficas Blast (2003). Disponível em: <http://blast.ncbi.nlm.nih.gov/Blast.cgi>. Acesso em: 21 jun. 2008. Brito, R. T. de (2003). Alinhamento de seqüências biológicas. 181 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Matemática e Estatística da Universidade de São Paulo, São Paulo. Cirne, W.; Santos-Neto, E. (2005). Grids computacionais: transformando a computação através de serviços sob demanda. In: Simpósio Brasileiro de Redes de Computadores, 23., Fortaleza. Rescentris. (2007). BSML: Origins, Overview and Status. Disponível em: <http://www.rescentris.com/downloads.html>. Acesso em: 16 nov. 2008. Rosa, Janaina Oleinik Moura (2006). Um Estudo de Compactação de Dados para Bioseqüências. 135 f. Dissertação (Mestrado em Informática) - Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro. Silva-de-Souza, Thiago (2008). Projeto aGrid. <http://www.acase.com.br>. Acesso em: 21 jun. 2008. Disponível em: Silva-de-Souza, Thiago (2003). 137 f. Aplicações Distribuídas através de Web Services e XML. Monografia (Bacharelado em Sistemas de Informação) – Escola de Informática, Universidade do Grande Rio, Duque de Caxias. Sotomayor, B. (2005). The globus toolkit programmer’s tutorial. Disponível em: <http://gdp.globus.org/gt4-tutorial/>. Acesso em: 13 maio 2008. Taurion, Cezar (2004). Grid Computing: um novo paradigma computacional. Rio de Janeiro: Brasport. Vasconcelos, S. S. (2003). 98 f. Uma investigação: ESTs (Expressed Sequence Tags) podem ser usados no desenvolvimento de marcadores moleculares baseados em introns?. Dissertação (Mestrado em Ciências Genômicas e Biotecnologia) – PróReitoria de Pós-Graduação e Pesquisa, Universidade Católica de Brasília, Brasília. 4