Bancos de Dados e Sistemas de
Informação: padrões, protocolos e
interoperabilidade
Dora Ann Lange Canhos
[email protected]
Tipos de Sistemas de Informação
 Centralizados
 Distribuídos
 Mistos
2
Sistema Centralizado de Informação
Usuário
Sistema Central
Provedores de dados
Problemas: atualização
Perigo: Rompimento
entre o provedor e o
sistema centralizado
Usuário
Sistema Centralizado
Provedores de dados
Problema: distância usuário - provedor
Possível falta de interação entre o
usuário e o provedor de dados
Usuário
Sistema Central
Provedores de dados
Vantagens
Provedor: Baixa demanda em informática
Usuário
Sistema Central
Provedores de dados
Sistema Distribuído
• Atualização em tempo real
• Consultas são distribuídas
• Autoria mais evidenciada
Aplicativos:
Gateway de Dados
• Catálogo Virtual
• Modelagem
• ....
Internet 2
Col 1
Col 2
Col 3
• Requer boa infra-estrutura computacional dos provedores
• Requer boa conectividade
• Exige uma capacidade de integração de sistemas heterogêneos
Sistema Misto
Aplicativos:
• Catálogo Virtual
• Modelagem
• ....
Gateway de Dados
Internet 2
Col 1
Cache Node
Banco de Dados
Internet
Col 2
Col 3
Col 4
Col 5
Padrões e Protocolos em Informática para Biodiversidade
Protocolo: Descrição formal das regras e formatos de mensagem que
dois sistemas devem obedecer para que possam se comunicar e
interagir.
Padrão: Algo definido ou em comum acordo ou por autoridade específica
para servir como modelo ou regra para determinado fim.
Exemplos
TCP/IP, HTTP, URI, HTML: base de funcionamento da Internet!
SMTP, POP, IMAP: base para troca de e-mails
W3C: Consórcio internacional
CABRI – padronização dos dados
• dados mínimos, dados recomendados e
dados completos para cada grupo
taxonômico.
• permite a inclusão de dados históricos
• permite a inserção de dados mais completos
http://www.tdwg.org/
Objetivos:
- Servir como fórum international para o debate de
projetos envolvendo dados sobre biodiversidade
- Desenvolver e promover o uso de padrões
- Facilitar a troca de dados
Grupos de trabalho em atividade buscam estabelecer
padrões para:
-
Dados de Coleções Biológicas
Dados sobre descrição de uso de plantas
Dados geográficos
Metadados de Coleções Biológicas
Dados de imagens e observações
Dados espaciais
Estrutura de dados descritivos de espécies
Dados taxonômicos
DarwinCore
Objetivo:
Definição de elementos comuns a todos os grupos taxonômicos para
padronizar a integração de dados primários de biodiversidade.
Características técnicas:
Utiliza XML (definido através de XML-Schema) e aceita extensões.
Situação:
Versão atual é utilizada pela maioria das redes: speciesLink, GBIF, Manis,
OBIS, etc.
Nova versão sendo discutida e aguardando homologação pelo TDWG.
DarwinCore: versão atual
Date Last Modified
Year Identified
Locality
Institution Code
Month Identified
Longitude
Collection Code
Day Identified
Latitude
Catalog Number
Type Status
Coordinate Precision
Scientific Name
Collector Number
Bounding Box
Basis of Record
Field Number
Minimum Elevation
Kingdom
Collector
Maximum Elevation
Phylum
Year Collected
Minimum Depth
Class
Month Collected
Maximum Depth
Order
Day Collected
Sex
Family
Julian Day
Preparation Type
Genus
Time of Day
Individual Count
Species
Continent / Ocean
Previous Catalog Nº
Subspecies
Country
Related Catalog Item
Scientific Name Author
State / Province
Ralationship Type
Identified By
County
Notes
Extensão para dados de coleções microbiológicas
History of Deposit
Isolation Method
Strain Properties
Depositor
Conditions For Growth
Strain Applications
Year Deposited
Genetically Modified
Form Of Supply
Month Deposited
Genotype
Restrictions
Day Deposited
Mutant
Biological Risks
Substrate
Race
Pathogenicity
Isolator
Alternate State
ABCD – Access to Biological Collection Data
Objetivo:
Estabelecer um padrão para a troca de dados e metadados de registros em
coleções biológicas procurando englobar as particularidades de todos os
grupos taxonômicos.
Características técnicas:
Utiliza XML (definido através de XML-Schema).
Situação:
Utilizado pela rede de coleções européias: BioCASE.
Aguardando homologação pelo TDWG (iniciativa conjunta com CODATA).
ABCD – Access to Biological Collection Data
Possui ao todo cerca de 500 elementos!
Contém elementos específicos para os seguintes tipos de
coleções:
 Herbários e Jardins Botânicos
 Coleções Zoológicas
 Coleções de Culturas
 Coleções Paleontológicas
Protocolos para busca em dados distribuídos
Win2000
Brahms
Linux
MySQL
Win98
Access
Win98
biota
Col 3
FreeeBSD
PostgreSQL
Col 4
Col 2
Col 5
Col 1
?X
protocolo
?X
protocolo
protocolo
? X
? X
protocolo
programa
interface
buscar
?
protocolo
X
Protocolos para busca em dados distribuídos
The Species Analyst (1999)
Z39.50
DiGIR
BioCASe
TAPIR
Manis,complicado.
speciesLink, OBIS, etc (2002)
Muito
Impossibilidade de definir esquemas
Motivação
inicial
foi superar as limitações
conceituais
separadamente.
BioCASE
(2003)
do Z39.50
produzindo
um novo
Suporte
limitado
a XML e Unicode.
protocolo com novas ferramentas.
Surgiu
tentativas frustradas de
TAPIR após
(2004)
convencer a comunidade DiGIR a
alterar seu protocolo para que o
Estudo
contratado
GBIF por
mesmo
pudesse pelo
ser usado
com
recomendação
de
um
dos
subcomitês
esquemas conceituais mais complexos
(DADI).
(ABCD).
Existência de protocolos distintos dificulta
interoperabilidade e acarreta
duplicidade de esforços.
DiGIR: Distributed Generic Information Retrieval
Protocolo para acesso a dados distribuídos e heterogêneos
Iniciativa (junho de 2001) :
 University of Kansas
 California Academy of Sciences
 Museum of Vertebrate Zoology (Berkeley)
Projeto financiado pela NSF (National Science Foundation)
Parceiros:
 CRIA (Fapesp)
 GBIF
DiGIR: Distributed Generic Information Retrieval
Requisitos e objetivos da proposta original:
 Utilização de padrões e protocolos abertos: HTTP, XML e UDDI
 Separação clara entre protocolo, software e semântica
 Facilidade na instalação e configuração de provedores de dados
 Desenvolvimento colaborativo (modelo “open source”)
 Produtos disponíveis a todos através de licensa pública (GPL GNU General Public License)
Uso de esquema conceitual em busca distribuída
Linux
MySQL
Win98
Access
Win2000
Brahms
Win98
biota
Col 3
Col 2
Col 4
mapeamento
mapeamento
mapeamento
Col 1
protocolo X
protocolo X
Col 5
mapeamento
protocolo X
mapeamento
FreeeBSD
PostgreSQL
protocolo X
protocolo X
+ DarwinCore
programa
interface
buscar
Compartilhamento de dados com o uso de
padrões e protocolos
•
•
•
•
•
•
Criação de um banco de dados virtual
Ferramentas para a visualização dos dados
Data cleaning
Ferramentas de análise
Modelagem
....
Cenário envolvendo o uso de padrões e protocolos
pesquisa
educação
nomenclatura
taxonomia
dados
descritivos
tomada de
decisão
dados
primários
modelagem
qualidade de dados
mapas
coleção
biológica
Recomendações gerais
Acompanhar os padrões e protocolos sendo usados ou discutidos
 Quão compatíveis estão “meus dados” em relação aos padrões atuais?
 Quão compatível é meu sistema de gerenciamento em relação aos padrões e
protocolos atuais?
Participar das redes de informação sobre biodiversidade sendo criadas
 Maior visibilidade e valor para a coleção
 Fazer uso de eventuais ferramentas disponibilizadas pelas redes
Fazer uso das redes de informação sobre biodiversidade existentes
Download

Bancos de Dados e Sistemas de Informação