Bancos de Dados e Sistemas de Informação: padrões, protocolos e interoperabilidade Dora Ann Lange Canhos [email protected] Tipos de Sistemas de Informação Centralizados Distribuídos Mistos 2 Sistema Centralizado de Informação Usuário Sistema Central Provedores de dados Problemas: atualização Perigo: Rompimento entre o provedor e o sistema centralizado Usuário Sistema Centralizado Provedores de dados Problema: distância usuário - provedor Possível falta de interação entre o usuário e o provedor de dados Usuário Sistema Central Provedores de dados Vantagens Provedor: Baixa demanda em informática Usuário Sistema Central Provedores de dados Sistema Distribuído • Atualização em tempo real • Consultas são distribuídas • Autoria mais evidenciada Aplicativos: Gateway de Dados • Catálogo Virtual • Modelagem • .... Internet 2 Col 1 Col 2 Col 3 • Requer boa infra-estrutura computacional dos provedores • Requer boa conectividade • Exige uma capacidade de integração de sistemas heterogêneos Sistema Misto Aplicativos: • Catálogo Virtual • Modelagem • .... Gateway de Dados Internet 2 Col 1 Cache Node Banco de Dados Internet Col 2 Col 3 Col 4 Col 5 Padrões e Protocolos em Informática para Biodiversidade Protocolo: Descrição formal das regras e formatos de mensagem que dois sistemas devem obedecer para que possam se comunicar e interagir. Padrão: Algo definido ou em comum acordo ou por autoridade específica para servir como modelo ou regra para determinado fim. Exemplos TCP/IP, HTTP, URI, HTML: base de funcionamento da Internet! SMTP, POP, IMAP: base para troca de e-mails W3C: Consórcio internacional CABRI – padronização dos dados • dados mínimos, dados recomendados e dados completos para cada grupo taxonômico. • permite a inclusão de dados históricos • permite a inserção de dados mais completos http://www.tdwg.org/ Objetivos: - Servir como fórum international para o debate de projetos envolvendo dados sobre biodiversidade - Desenvolver e promover o uso de padrões - Facilitar a troca de dados Grupos de trabalho em atividade buscam estabelecer padrões para: - Dados de Coleções Biológicas Dados sobre descrição de uso de plantas Dados geográficos Metadados de Coleções Biológicas Dados de imagens e observações Dados espaciais Estrutura de dados descritivos de espécies Dados taxonômicos DarwinCore Objetivo: Definição de elementos comuns a todos os grupos taxonômicos para padronizar a integração de dados primários de biodiversidade. Características técnicas: Utiliza XML (definido através de XML-Schema) e aceita extensões. Situação: Versão atual é utilizada pela maioria das redes: speciesLink, GBIF, Manis, OBIS, etc. Nova versão sendo discutida e aguardando homologação pelo TDWG. DarwinCore: versão atual Date Last Modified Year Identified Locality Institution Code Month Identified Longitude Collection Code Day Identified Latitude Catalog Number Type Status Coordinate Precision Scientific Name Collector Number Bounding Box Basis of Record Field Number Minimum Elevation Kingdom Collector Maximum Elevation Phylum Year Collected Minimum Depth Class Month Collected Maximum Depth Order Day Collected Sex Family Julian Day Preparation Type Genus Time of Day Individual Count Species Continent / Ocean Previous Catalog Nº Subspecies Country Related Catalog Item Scientific Name Author State / Province Ralationship Type Identified By County Notes Extensão para dados de coleções microbiológicas History of Deposit Isolation Method Strain Properties Depositor Conditions For Growth Strain Applications Year Deposited Genetically Modified Form Of Supply Month Deposited Genotype Restrictions Day Deposited Mutant Biological Risks Substrate Race Pathogenicity Isolator Alternate State ABCD – Access to Biological Collection Data Objetivo: Estabelecer um padrão para a troca de dados e metadados de registros em coleções biológicas procurando englobar as particularidades de todos os grupos taxonômicos. Características técnicas: Utiliza XML (definido através de XML-Schema). Situação: Utilizado pela rede de coleções européias: BioCASE. Aguardando homologação pelo TDWG (iniciativa conjunta com CODATA). ABCD – Access to Biological Collection Data Possui ao todo cerca de 500 elementos! Contém elementos específicos para os seguintes tipos de coleções: Herbários e Jardins Botânicos Coleções Zoológicas Coleções de Culturas Coleções Paleontológicas Protocolos para busca em dados distribuídos Win2000 Brahms Linux MySQL Win98 Access Win98 biota Col 3 FreeeBSD PostgreSQL Col 4 Col 2 Col 5 Col 1 ?X protocolo ?X protocolo protocolo ? X ? X protocolo programa interface buscar ? protocolo X Protocolos para busca em dados distribuídos The Species Analyst (1999) Z39.50 DiGIR BioCASe TAPIR Manis,complicado. speciesLink, OBIS, etc (2002) Muito Impossibilidade de definir esquemas Motivação inicial foi superar as limitações conceituais separadamente. BioCASE (2003) do Z39.50 produzindo um novo Suporte limitado a XML e Unicode. protocolo com novas ferramentas. Surgiu tentativas frustradas de TAPIR após (2004) convencer a comunidade DiGIR a alterar seu protocolo para que o Estudo contratado GBIF por mesmo pudesse pelo ser usado com recomendação de um dos subcomitês esquemas conceituais mais complexos (DADI). (ABCD). Existência de protocolos distintos dificulta interoperabilidade e acarreta duplicidade de esforços. DiGIR: Distributed Generic Information Retrieval Protocolo para acesso a dados distribuídos e heterogêneos Iniciativa (junho de 2001) : University of Kansas California Academy of Sciences Museum of Vertebrate Zoology (Berkeley) Projeto financiado pela NSF (National Science Foundation) Parceiros: CRIA (Fapesp) GBIF DiGIR: Distributed Generic Information Retrieval Requisitos e objetivos da proposta original: Utilização de padrões e protocolos abertos: HTTP, XML e UDDI Separação clara entre protocolo, software e semântica Facilidade na instalação e configuração de provedores de dados Desenvolvimento colaborativo (modelo “open source”) Produtos disponíveis a todos através de licensa pública (GPL GNU General Public License) Uso de esquema conceitual em busca distribuída Linux MySQL Win98 Access Win2000 Brahms Win98 biota Col 3 Col 2 Col 4 mapeamento mapeamento mapeamento Col 1 protocolo X protocolo X Col 5 mapeamento protocolo X mapeamento FreeeBSD PostgreSQL protocolo X protocolo X + DarwinCore programa interface buscar Compartilhamento de dados com o uso de padrões e protocolos • • • • • • Criação de um banco de dados virtual Ferramentas para a visualização dos dados Data cleaning Ferramentas de análise Modelagem .... Cenário envolvendo o uso de padrões e protocolos pesquisa educação nomenclatura taxonomia dados descritivos tomada de decisão dados primários modelagem qualidade de dados mapas coleção biológica Recomendações gerais Acompanhar os padrões e protocolos sendo usados ou discutidos Quão compatíveis estão “meus dados” em relação aos padrões atuais? Quão compatível é meu sistema de gerenciamento em relação aos padrões e protocolos atuais? Participar das redes de informação sobre biodiversidade sendo criadas Maior visibilidade e valor para a coleção Fazer uso de eventuais ferramentas disponibilizadas pelas redes Fazer uso das redes de informação sobre biodiversidade existentes