MyGRID: Bio-informática personalizada em uma grade de informação. Francisco Silva [email protected] 1 Objetivo • Explorar o uso da tecnologia de grades de computadores, com ênfase em grades de informação, para prover um middleware apropriado para as necessidades da bioinformática; • Estão sendo construídos serviços para a integração de dados e aplicações como serviço de descoberta de recursos, workflow, processamento distribuído de consultas, notificação de mudanças e personalização. 2 Introdução • Projeto de código aberto que fornece um middleware de suporte a experimentos de biologia in silico personalizados em uma grade de computadores. 3 Diferenciação • Projetos em andamento focam em: – Compartilhamento de recursos computacionais – Movimentação e replicação de grande volumes de dados para simulações – Análise de sequências de alto throughput 4 Diferenciação • O projeto myGrid busca: – Dar apoio a processos científicos que possuem requisitos computacionais mais modestos mas com grande complexidade semântica. 5 Abordagem • Projeto busca criar uma grade de serviços (e não apenas de dados ou computacional) • O arcabouço foi prototipado com Web Services e migrou para Open Grid Services Architecture (OGSA) 6 Serviços Disponibilizados • Para realizar experimentos in silico – Organizados em workflows e consultas distribuídas – Dados e parâmetros são enviados como entrada para ferramentas de análise ou serviços de banco de dados; – A saída destes é utilizada como entrada para outras ferramentas ou consultas em bases de dados. 7 Serviços Disponibilizados • Serviços de Bio-informática – Serviços como recuperação de bancos de dados e ferramentas de análise são disponibilizados de forma a acomodar sua distribuíção e variedade de formatos de dados – NCBI BLAST, WU BLAST, EMBOSS suite (mas de 80 ferramentas de análise), MEDLINE, SRS 8 Serviços Disponibilizados • Workflow – Utiliza WSFL (Web Service Flow Language) para definir o tipo e realizar chamadas a serviços. 9 Serviços Disponibilizados • Consultas a bases de dados distribuídas – Consultas são descritas em linguagem de alto nível (OQL) 10 Serviços para eScience • Notificação: – um workflow pode ter de ser re-executado quando novos dados ou softwares de análise tornarem-se disponíveis • Personalização: – O repositório de informação (mIR) armazena dados XML gerados pelos experimentos com seus metadadados e termos de suas ontologias – São permitidas anotações deste conteúdo bem como visões diferentes do mesmo 11 Serviços para eScience • Provenance: – Biólogos costumam guardar anotações de experimentos em livros – Os serviços myGrid automaticamente armazenam no mIR informações a respeito dos dados, serviços e resultados. 12 13 Serviço de Descoberta • Responsável pela localização de serviços, dispositivos e recursos • Tradicionalmente necessitam de um conhecimento prévio dos serviços disponíveis • MyGrid utiliza um arcabouço baseado em ontologias para descoberta de serviços 14 Serviços Semânticos • Uma descrição semântica oferece um mecanismo para lidar com a heterogeneidade de recursos, provendo um vocabulário comum para integrar e realizar consultas em dados dados e serviços aparentemente dispersos. 15 Serviços Semânticos • Serviços internos ao myGrid são descritos em DAML-S, com extensões específicas para bio-informática • Serviços de terceiros podem ser descritos através de padrões UDDI / WSFL (Web Services Flow Language) e WSDL 16 Requisitos do Serviço de Descoberta • Descrições devem poder serem anexadas a diferentes recursos (serviços e workflows) e publicadas em diferentes componentes (registros de serviço, arquivos locais, banco de dados) • A publicação de descrições deve poder ser realizada tanto pelos autores do serviço quanto por terceiros • Classes diferentes de usuários desejam examinar diferentes aspectos dos metadados disponíveis. 17 Requisitos do Serviço de Descoberta • É necessário haver um controle sobre quem pode adicionar ou alterar anotações • Uma única, unificada interface deve ser disponibilizada aos usuários. 18 19 Service Registry • Utilizado para publicar os serviços, descrevendo como podem ser acessados • Permite a adição de informações adicionais (metadados) para facilitar a descoberta dos mesmos. 20 Personalised View • Espaço para a adição de metadados de terceiros, permitindo a filtragem de serviços retornados por uma consulta 21 Semantic Find Service • Composto por vários componentes, mantêm um banco de dados de descrições obtidos através dos recursos publicacados e registros constantes das visões • Um servidor de ontologias provê acesso a ontologias e gerencia a interação com um reasoner 22 23 Bibliografia • myGrid: Personalised Bioinformatics on the Information Grid, 11th International Conference on Intelligent Systems in Molecular Biology, July 2003, Brisbane, Australia • Semantic and Personalised Service Discovery, Workshop on Knowledge Grid and Grid Intelligence (KGGI'03), in conjunction with 2003 IEEE/WIC International Conference on Web Intelligence/Intelligent Agent Technology, Halifax, Canada, October 24 2003