Programa de Ciência e Tecnologia para Gestão de Ecosistemas
Ação "Métodos, modelos e geoinformação para a gestão
ambiental”
The Global Biodiversity Information Facility
Aspectos Técnicos da Participação do Brasil
Frederico Torres Fonseca (Penn State University)
Relatório Técnico
Fevereiro, 2001
Introdução
Este relatório tem como objetivo analisar o consórcio Global Biodiversity Information
Facility (GBIF) e os aspectos técnicos da participação do Brasil neste consórcio. Aqui
são discutidos as questões relativas a recursos de computador, infra-estrutura,
programas, e padrões de trocas de dados. As vantagens e desvantagens do ponto de vista
da troca de informações sobre a biodiversidade não são tratadas neste relatório. Da
mesma forma, a questão de direitos autorais sobre as informações a serem
compartilhadas, uma das preocupações do GBIF, também não é discutida neste
documento.
Na primeira parte deste documento fazemos uma introdução sobre o que é o GBIF.
Então apresentamos uma breve descrição técnica do GBIF e depois introduzimos uma
revisão sobre o estado atual da Interoperabilidade, um problema básico a ser resolvido
para a implementação do programa do GBIF.
Na segunda parte deste documento analisamos tecnicamente o plano do GBIF.
Primeiramente as questões relativas a padrões de intercâmbio de dados, software
necessário para implementação e integração semântica de informações são analisadas
sob o ponto de vista do GBIF, o que o se pretende, qual a estratégia e os recursos
necessários para se implantar estas etapas. Depois fazemos uma descrição das
possibilidades técnicas para a implementação das propostas do GBIF. Por último
apresentamos uma sugestão de como o Brasil pode usar o programa GBIF para ir além
do que está proposto e desenvolver recursos preciosos na luta pelo domínio da
tecnologia da informação sobre a biodiversidade.
1.
GBIF
1.1. GBIF - O que é?
O Sistema Integrado de Biodiversidade Mundial (Global Biodiversity Information Facility
- GBIF) (GBIF 2000) será uma rede interoperável de bancos de dados sobre
bioversidade. O sistema contará também com uma série de ferramentas que vão
permitir ao usuário navegar e usar a grande quantidade de informações sobre
biodiversidade atualmente existente. Os resultados esperados são benefícios
econômicos, ambientais e sociais a nível nacional e internacional, como por exemplo, o
suporte mais efetivo ao desenvolvimento sustentável. O GBIF nasceu do fórum
científico Megascience Forum Working Group on Biological Informatics da Organization
for Economic Co-operation and Development (OECD) (OECD 1999) que ocorreu em
1999. Os participantes do fórum concluíram que:
•
apesar o domínio da biodiversidade ser muito vasto e complexo, sua importância
fundamental para a sociedade;
•
os sistemas atuais de biodiversidade não são de fácil acesso e nem tão úteis como
eles poderiam ser;
•
existem oportunidades tecnológicas e políticas atualmente para desenvolvimento
deste tipo de sistema principalmente para os países participantes da OECD.
De 1999 para cá algumas coisas mudaram, como por exemplo, o aparecimento de
sistemas de biodiversidade com amplo acesso público, mas limitado a nível nacional. No
Brasil podemos citar o BIOTA-SP, e no exterior Diversitas, Species 2000, US Integrated
Taxonomic Information System e Clearing House Mechanism. Também as condições
políticas para o desenvolvimento de ações orientadas para ecologia podem sofrer
impacto com as mudanças de governo, como é o caso da eleição de George W. Bush
para o a presidência dos Estados Unidos (participante do OECD) em detrimento de Al
Gore que favorecia uma política mais firme de defesa do meio ambiente.
Mesmo assim, em dezembro de 2000 o GBIF teve sua primeira reunião e propôs o
início dos trabalhos com o objetivo de criar uma rede internacional e interoperável de
informações sobre a biodiversidade.
1.2. Produtos do GBIF
O consórcio GBIF pretende atuar como um integrador de serviços e informações. Além
disto, o GBIF pretende incentivar a produção de dados sobre biodiversidade, sua
conversão para meio digital, e seu compartilhamento. É importante esclarecer que o
GBIF não vai criar dados novos, mas sim incentivar e apoiar sua criação, e administrar
seu compartilhamento.
Para cumprir este papel integrador de serviços e informações é necessário que o GBIF
desenvolva ou promova o desenvolvimento de:
•
s o f t w a r e : a integração de informações envolve o uso de várias camadas de
software. As camadas mais baixas responsáveis por protocolos de rede e similares
estão bastante desenvolvidas e esta não é uma das preocupações do GBIF. Mas as
camadas mais altas, responsáveis pela conexão entre as fontes de dados e as
interfaces de usuário terão de ser desenvolvidos.
•
i n t e r f a c e s : a proposta de dar acesso a um tipo de informação tão rica como a
biodiversidade e com um universo de usuários tão variado gera questões bastante
delicadas para a especificação da interface de usuário. Isto gera implicações tanto ao
nível de software básico quanto ao nível de especificação formal da interface com o
objetivo de facilitar o acesso as informações de forma fácil e racional.
•
a c o r d o s : a distribuição de informações sobre a biodiversidade é considerada
sensível por muitos governos. Também o aspecto do valor comercial da informação
deve ser levado em conta. Além disto políticas de acesso e de proteção da
propriedade intelectual das informações devem ser estabelecidas. Tudo isto só pode
ser alcançado através de acordos diversos entre os participantes do consórcio.
•
i n d e x a ç ã o / o r g a n i z a ç ã o d e i n f o r m a ç õ e s : a quantidade de
informações sobre biodiversidade é muito grande. Sem uma organização
sistemática destas informações elas perdem boa parte de seu valor. O GBIF
deve não só gerar índices para estas informações, mas antes disto, discutir e
estabelecer qual as melhores formas de acesso a elas.
•
p a d r õ e s p a r a t r o c a d e i n f o r m a ç õ e s : as informações que serão
integradas pelo GBIF estão não só em sistemas de bancos de dados diferentes
mas também em línguas diferentes. Além disto, elas podem refletir
diferentes visões de mundo. Desta forma é necessário o estabelecimento de
padrões de intercâmbio de informações que permitam o fluxo de
conhecimento sem perda de valor.
1.3. A BIOINFORMÁTICA: um Produto?
A bioinformática é a integração da Biologia e da Ciência da Informação. Seus principais
interesses são o desenvolvimento, compartilhamento, e análise de dados biológicos.
Estes dados geralmente são bastante complexos e se apresentam em grandes volumes.
A bioinformática é considerada hoje uma disciplina independente. Além disto é uma
área de intenso crescimento comercial gerando novos empregos e oportunidades de
negócios. Ela deverá influenciar nossa sociedade de forma marcante nos próximos
anos. A bioinformática inclui:
•
I n f o r m á t i c a M o l e c u l a r o u G e n é t i c a : que envolve o uso de bancos com
seqüências de DNA para se descobrir o funcionamento do gene e como ele pode ser
controlado.
•
I n f o r m á t i c a M é d i c a : inclui a visualizações de imagens médicas em
computadores com o objetivo de executar simulações anatômicas. Inclui também a
neuro-informática que usa um modelo computacional representando o
funcionamento do cérebro.
•
I n f o r m á t i c a d a B i o d i v e r s i d a d e : é a conversão para meio digital das
informações sobre biodiversidade disponíveis atualmente em livros, fichas, catálogos
e até mesmo em meios digitais obsoletos.
•
I n f o r m á t i c a d o M e i o - A m b i e n t e : a combinação da Informática da
Biodiversidade com os Sistemas e Informações Geográficos. Ela pode gerar modelos
de previsão de ocorrência de espécies para uso em planejamento ambiental. Assim
uma nova dimensão da tradicional ecologia de campo é gerada.
1.4. O Brasil e o GBIF
Os países interessados em participar do GBIF devem assinar um documento de
intenções chamado Memorandum of Understanding for the Global Biodiversity
Information Facility (MOU). Neste documento os países participantes se comprometem
a investir em atividades a nível nacional e internacional relacionadas aos objetivos
básicos do GBIF.
O Brasil como participante do GBIF terá de providenciar financiamento ou fomentar
atividades relacionadas a (1) conversão para meio digital de informações já existentes
em outros meios, (2) estabelecimento de uma estrutura de rede de computadores para
divulgação destas informações, e (3) compilação e organização destas informações de
forma a facilitar o acesso público a elas através de interfaces a serem padronizadas pelo
do GBIF.
Além disto, o Brasil como participante deverá cooperar ativamente na formulação e
implantação do programa básico do GBIF, promover o compartilhamento de
informações sobre biodiversidade usando os padrões escolhidos pelo GBIF e
principalmente criar os chamados nós nacionais.
Um nó nacional consiste de um ponto de rede que permita acesso público e que forneça
informações sobre a biodiversidade no Brasil de forma interoperável. Este nó deverá
servir como ponto de encontro para as iniciativas nacionais sobre biodiversidade. Ele
serve ao mesmo tempo para que o país compartilhe seus dados com a rede do GBIF e
também para que o GBIF possa tomar conhecimento dos projetos relacionados a esta
iniciativa em andamento no país.
Do ponto de vista técnico, um nó é um ponto de rede de computador que permite o
acesso e a pesquisa em tempo real a bancos de dados contendo metadados sobre a
biodiversidade no Brasil. Por exemplo, informações sobre espécies, catálogos,
bibliografia, seqüências de DNA, e ecossistemas. Estes metadados deverão estar
especificados em padrões a serem definidos pelo GBIF. Cada nó também deverá
publicar de forma explícita a sua política com relação à propriedade intelectual sobre a
informação disponível no local. Cada nó poderá também ter informações sobre
programas de computador que auxiliem na manipulação e validação dos dados
disponíveis. Não existe uma limitação com relação ao número de nós que cada
participante poderá ter.
1.5. Iniciativas de Biodiversidade
A indústria da informação sobre biodiversidade é considerada como uma das principais
criadoras de riqueza do futuro. Existe um mercado crescente para diversas formas de
dados sobre formações moleculares de espécies e também para informações médicas
relacionadas a produtos biológicos. Este setor também tido uma importância cada vez
maior na hora da tomada de decisões relativas a políticas do meio-ambiente.
Da mesma forma que outros campos da ciência e das atividades inovadoras, a
Bioinformática é globalizada e existe de uma forma sem fronteiras institucionais. No
entanto este desenvolvimento apresenta desafios relativos a infra-estrutura para a
obtenção, armazenamento, recuperação e compartilhamento destas informações.
Também a necessidade de se tornar estas informações interoperáveis é premente seja
ao nível de sistemas de computação seja ao nível de diferentes campos da ciência. A
completa integração deste tipo de informação desde o nível molecular ate ao nível de
ecossistemas é alcançável mas depende de um esforço conjunto internacional como é o
GBIF.
A importância de projetos integradores de informações sobre a biodiversidade já esta
sendo sentida há algum tempo e isto pode ser notado em diversas iniciativas a nível
internacional e também no Brasil.
1.5.1. Projetos Internacionais de Biodiversidade
Existem alguns projetos sobre biodiversidade a nível internacional. A atuação do GBIF
poderá evitar duplicidade de esforços entre estas iniciativas e também poderá agir como
concentrador de políticas e prioridades. Em seguida descrevemos brevemente três deles;
DIVERSITAS, Species 2000 e Global Taxonomy Initiative.
O projeto DIVERSITAS é uma parceria entre organizações públicas e privadas. Seu
objetivo é promover, facilitar e catalisar projetos de pesquisa sobre biodiversidade. Entre
os produtos imediatos estão a produção de compilações de inventários, o
desenvolvimento de modelos de previsão de biodiversidade, e a promoção de modelos
que levem a uma preservação dos recursos biológicos atuais. Outro objetivo importante
é a formação de recursos humanos especializados em biodiversidade a nível mundial.
O projeto Species 2000 é uma federação de entidades que trabalham com
biodiversidade. Não existe restrição a nacionalidade já que esta é uma organização
internacional. O principal objetivo é dar acesso a metadados sobre as espécies
conhecidas usando-se para isto a Internet.
O projeto The Global Taxonomy Initiative (GTI) foi formado como uma tentativa de
reação aos conhecidos problemas de se estabelecer taxonomias relativas à conservação e
controle da biodiversidade. O principal objetivo é a formação de recursos humanos
através de programas de treinamento nacionais e regionais. Além disto o suporte a
conservação e desenvolvimento de obras de referência e a infra-estrutura necessária
para a produção e distribuição de informações sobre taxonomias. A GTI espera que a
estrutura a ser lançada pelo GBIF auxilie no suporte de computação necessária para
este projeto.
1.5.2. Projetos Nacionais de Biodiversidade
Uma das principais iniciativas sobre biodiversidade no Brasil é a Base de Dados Tropicais
(BDT). A BDT é um departamento da Fundação André Tosello. A BDT tem como
objetivo a divulgação através de meios eletrônicos de informações sobre biodiversidade
que possam dar apoio ao trabalho da comunidade científica e tecnológica do país. Além
disto, a BDT pretende contribuir diretamente para a conservação e utilização racional
da biodiversidade no Brasil. O desenvolvimento auto-sustentável só é possível através de
uma sociedade informada, com acesso democrático e amplo à informação qualificada e
sua utilização nos processos de formulação e decisão política.
Outro projeto sobre biodiversidade no Brasil é o BIOTA-SP e sua implementação como
sistema de informação em computador, o SIN-BIOTA-SP.
O Programa de Pesquisas em Conservação Sustentável da Biodiversidade do Estado de
São Paulo, denominado BIOTA-SP - O Instituto Virtual da Biodiversidade -, tem como
objetivo principal inventariar e caracterizar a biodiversidade do Estado de São Paulo.
Além disto o BIOTA-SP define mecanismos para a conservação da biodiversidade,
propõe políticas para a exploração de seu potencial econômico e sua utilização
sustentável.
O BIOTA-SP possui vários objetivos em comum com o GBIF. Entre eles podemos citar:
•
o apoio à formação de recursos humanos para subsidiar o estudo da
biodiversidade;
•
incentivo ao desenvolvimento de áreas multidisciplinares que apoiem do
estudo da biodiversidade, como por exemplo, a bioinformática e os sistemas
de informação geográficos;
•
incentivo à produção, digitalização, e compartilhamento de dados sobre
biodiversidade;
•
incentivo ao estabelecimento de padrões de intercâmbio de informações que
permitam o intercâmbio de conhecimento.
O SIN-BIOTA-SP é uma atividade complementar ao BIOTA-SP. Seus objetivos são (1)
colocar disponível on-line uma base cartográfica de São Paulo, (2) criar ferramentas e
pesquisa de metadados de biodiversidade que auxiliem na pesquisa e na cooperação
entre pesquisadores desta área, e (3) a publicação do jornal eletrônico Biota Neotropica,
cujo objetivo é disseminar trabalhos científicos em andamento e servir de fórum para
discussões na área de biodiversidade.
2.
Descrição Técnica do GBIF
É importante destacar aqui o papel do GBIF como integrador de informações e serviços
e não como fornecedor, ou criador, de um ou de outro. O que será criado dentro do
GBIF são catálogos e índices para fontes de informações sobre biodiversidade. Como
integrador, o GBIF terá de trabalhar em conjunto com os fornecedores de informação.
Desta forma os sistemas a serem desenvolvidos dentro do contexto do GBIF deverão ser
distribuídos, ligados a uma rede com acesso público e com módulos e interfaces
interoperáveis.
2.1. Estratégia
A estratégia do GBIF para alcançar seus objetivos é composta de quatro componentes
principais. Eles, além de serem interdependentes e interrelacionados, têm também
áreas de sobreposição. De qualquer maneira eles tem características particulares
suficientes para serem classificados da seguinte maneira:
· Administração de
Recursos Naturais
· Administração de
Conhecimento
GBIF
· Apoio a Pesquisa
Biológica
· Ambiente para
Políticas de
Biodiversidade Global
•
a d m i n i s t r a ç ã o d e r e c u r s o s n a t u r a i s a n í v e l n a c i o n a l : o homem atua
diretamente sobre o meio-ambiente através da exploração e da constante alteração
interferindo assim com diversos ecossistemas. De forma a permitir uma
continuidade desta exploração é necessário que se mude os padrões de atuação
existentes hoje em dia para direção do chamado desenvolvimento sustentável. Para
isto é necessário um conhecimento maior sobre o mundo e seus ecossistemas. O
GBIF pretende fornecer recursos em forma de informações sobre a biodiversidade
para ajudar a criação de políticas de controle do meio ambiente que permitam o
desenvolvimento sustentável e a conservação da complexidade e diversidade dos
sistemas naturais.
•
administração de conhecimento sobre biodiversidade a nível
m u n d i a l : o conhecimento sobre a biodiversidade mundial tem sido compilado
já há muitos anos por uma variedade de cientistas, em uma variedade de meios,
em diversas línguas, e com qualidade também variável. Isto tudo torna este
conhecimento inconsistente, incompleto e em muitos casos inacessível. Além
do conhecimento em meios e locais de difícil acesso temos também o
conhecimento em poder de povos indígenas. Apenas a conversão destas
informações para meio eletrônico não é suficiente. A integração dos bancos de
dados digitais sobre a biodiversidade é outro ponto que deve ser tratado já que a
grande abrangência, o grande volume de informações, e a diversidade de usos
destes bancos acabaram gerando uma grande dificuldade de acesso para pessoas
não especializadas. A atuação do GBIF será no sentido de promover o
intercâmbio de informações através da introdução de sistemas e padrões que
irão auxiliar administradores, curadores e bibliotecários que trabalham com
biodiversidade. A base desta contribuição é o catálogo de nomes das espécies
conhecidas e catalogadas por cientistas de biodiversidade.
•
a p o i o à p e s q u i s a b i o l ó g i c a a n í v e l n a c i o n a l : a bioinformática é a
integração da Biologia e da Ciência da Informação e é considerada hoje uma
disciplina independente. Seus principais interesses são o desenvolvimento,
compartilhamento e análise de dados biológicos. Um dos desafios científicos
em bioinformática é converter 25 décadas de conhecimento para o formato
digital. Mas não é apenas a conversão que tem valor, mas sim a correlação
que pode ser feita destes dados com outros mais atuais adquiridos por
outros métodos como, por exemplo, imagens obtidas por satélites. O papel
do GBIF será apoiar o desenvolvimento de pesquisas em bioinformática a
nível nacional. O uso do catálogo de nomes das espécies conhecidas vai
servir como um padrão e irá permitir operações de mineração de dados
(data-mining) de uma maneira que hoje ainda não são possíveis porque é
difícil descobrir as correlações entre diferentes bancos de dados de
informações sobre biodiversidade.
•
a m b i e n t e p a r a p o l í t i c a s d e b i o d i v e r s i d a d e g l o b a l : tomadores
de decisão precisam de informações sobre biodiversidade para formular
políticas nacionais e internacionais sobre saúde, meio-ambiente,
desenvolvimento auto-sustentável e segurança de alimentos. Um dos
problemas atuais é a inexistência de um acesso amplo às informações
genéticas. Um outro é o controle de informações sobre biodiversidade de
espécimens coletados em nações em desenvolvimento para o uso científico
em nações desenvolvidas. O GBIF pretende ajudar a resolver este problema
dando amplo acesso a este tipo de informação.
2.2. Arquitetura
Para atingir seus objetivos o GBIF propõe uma arquitetura de funcionamento que gira
em torno de um catálogo de nomes das espécies conhecidas e catalogadas por cientistas
de biodiversidade. Este catálogo vem de esforços já em andamento como o Species 2000.
O catálogo eletrônico dos nomes de organismos conhecidos pela ciência será o elo entre as
diversas fontes de informação biológicas ou não-biológicas. A intenção é que este tipo
de ligação tenha o papel de catalisador na geração de novas informações sobre
biodiversidade. O catálogo é a porta de entrada da maioria das pesquisas e vai ter
ligações com os outros índices, o índice biológico de espécies, o banco de espécies e o índice
da literatura sobre biodiversidade.
GBIF
Dados biológicos
de espécies
Outras Entidades
Catálogo dos
nomes dos
organismos
conhecidos
Gen Bank
Outros dados
sequências de
RNA, proteínas,etc.
Dados geoespaciais
Dados de clima
Banco de espécies
Literatura sobre
biodiversidade
Dados de
ecossistemas
Dados ecológicos
O catálogo é também a principal ligação com os bancos de dados sobre biodiversidade já
desenvolvidos ou em desenvolvimento, como por exemplo, o Gen Bank. Também
estarão conectados ao catálogo dados geo-espaciais, dados de clima, dados de
ecossistemas e dados ecológicos.
3.
Interoperabilidade: Um Panorama Atual
O GBIF vai funcionar usando bancos de dados sobre biodiversidade já existentes. Por
exemplo, em sua versão final será necessário integrar sistemas diversos como o BIOTASP no Brasil e Species 2000 na Europa. Para integrar sistemas tão diversos é necessária
uma sólida base de interoperabilidade. Embora no futuro os sistemas a serem
integrados deverão estar dentro de padrões estabelecidos pelo GBIF, o grande volume de
informações já disponível atualmente deverá ser integrado através de soluções de
interoperabilidade.
A proposta básica do GBIF é a de integrar informações. O método escolhido para fazer
isto foi através da integração de metadados. Estes metadados vão estar em catálogos que
servem como portas de acesso às outras informações. Este tipo de sistema é chamado
de sistemas de metainformação (Jarke et al. 1994). O termo sistemas de
metainformação significa um conjunto de ferramentas para organizar e documentar
dados relativos ao meio-ambiente sejam eles alfanuméricos ou geo-espacials. O objetivo
é dar uma visão geral da informação disponível e oferecer ferramentas de pesquisa
especializadas para dados deste tipo.
As informações sobre biodiversidade estão armazenadas em uma variedade de arquivos
digitais que por sua vez estão baseados em uma grande heterogeneidade de sistemas de
computação. Isto tudo nos leva a necessidade de rever os conceitos básicos da
integração de sistemas e arquivos em computação. Como a maioria das informações
sobre biodiversidade está relacionada com uma componente geográfica, ou seja,
georeferenciada, vamos rever aqui as principais questões referentes a padrões de trocas
de informações geográficas e a integração deste tipo de sistema. Além disto a
complexidade dos dados geográficos se assemelha à complexidade dos dados sobre
biodiversidade. Então as soluções e estudos usados para a geo-informação podem ser
aproveitados para informações sobre biodiversidade.
Interoperabilidade é capacidade que um sistema possui de compartilhar e trocar
informações e aplicações (Bishr 1997). De acordo com Sheth (1999), a nova geração de
sistemas de informação deverá ser capaz de resolver a interoperabilidade semântica, na
qual um fato pode ter mais que uma descrição, para poder fazer um bom uso das
informações disponíveis com a chegada da Internet e da computação distribuída. Estes
sistemas deverão ser capazes de entender o modelo que o usuário faz do mundo e seus
significados e entender também os modelos por trás das fontes de informação. Sheth
(1999) acredita que o uso de mediadores (Wiederhold 1998) é a solução para ligação
entre o usuário e estas fontes de informação.
A pesquisa sobre interoperabilidade é motivada pela crescente heterogeneidade em
sistemas de computação. A pesquisa sobre integração de bancos de dados vem desde o
meio dos anos 80 (Batini et al. 1986) , e a comunidade dos sistemas de informação
geográficos também tem atuado ativamente nesta área (Kahn et al. 1984; Breitbart et al.
1990; Worboys e Deen 1991; Kashyap e Sheth 1996; Bishr 1997; Bishr 1998; Mena et
al. 1998; Gahegan 1999; Harvey 1999). No Brasil, o destaque é para o projeto conjunto
CNPq/NSF que investigas questões relacionadas a interoperabilidade em Sistemas de
Informação geográficos, Computational Issues in Interoperability in GIS (INPE 1998). Os
subtemas do projeto também estão diretamente ligados a questões de fundamental
importância para a proposta do GBIF: modelagem semântica de dados espaciais, acesso
via Internet a fontes de informações geográficas, e técnicas e ferramentas para sistemas
de informação geográficos interoperáveis. Ultimamente a interoperabilidade está sendo
considerada uma ciência da integração (Wiederhold 1999). Heterogeneidade em
sistemas de informação geográficos não é uma exceção, mas a complexidade e riqueza
dos dados geográficos e a dificuldade de sua representação em sistemas de computação
criam problemas específicos para a interoperabilidade em sistemas de informação
geográficos.
A literatura mostra diversas propostas de integração de dados, desde federações de
bancos de dados com esquemas integrados (Sheth e Larson 1990) e uso de orientação
a objetos (Kent 1993; Papakonstantinou et al. 1995) até mediadores (Wiederhold 1991)
e ontologias (Wiederhold 1994; Guarino 1998).
As primeiras tentativas de se obter interoperabilidade em sistemas de informação
geográficos foram através da tradução direta de formatos de dados de um fabricante de
software para outro. Uma variação nesta prática foi o aparecimento de formatos
padrões intermediários. Estes formatos intermediários podem levar à perda de
qualidade na informação como é o caso das traduções usando-se o formato DXF, um
formato de exportação utilizado por programas do tipo CAD. Formatos alternativos que
evitam a perda de informação geralmente são mais complexos como o Spatial Data
Transfer Standard (SDTS) (USGS 1998)e o Spatial Archive and Interchange Format
(SAIF) (Columbia 2001). No Brasil, o formato IIG (Davis 1995) é usado para
transferência de dados em alguns órgãos públicos .Uma proposta de modernização do
formato SDTS usando-se uma estrutura de objetos que integra uma estrutura
dinâmica, uma interface para o padrão OpenGIS e para CORBA foi apresentada em
(Arctur et al. 1998). Perez (2000) apresentou uma proposta para sistemas de
informações ambientais que estende parte do padrão americano de intercâmbio de
dados geográficos do Federal Government Data Committee (FGDC). Uma tentativa mais
ampla para se obter um formato de intercâmbio de dados brasileiro foi iniciado pelo
INPE. O formato é chamado GeoBR (Câmara et al. 2000). Uma ampla discussão sobre
formatos de transferência de informações geográficas pode ser encontrada em (Salgé
1999) e (Sondheim et al. 1999).
Outra iniciativa para o intercâmbio de dados geográficos é o consórcio OpenGIS (OGIS
1996), que é uma ampla aliança de órgãos governamentais, institutos de pesquisa,
desenvolvedores de software e integradores de sistemas. O objetivo deste consórcio é
definir conceitos relativos a Sistemas Abertos de Informação Geográficos e desenvolver
um conjunto de requisitos, padrões e especificações que o suportem. A intenção é
encorajar os desenvolvedores de software e integradores a aderirem a estes padrões e
assim criar, através do tempo, ferramentas, bancos de dados e sistemas de comunicação
que maximizem a utilidade de sistemas e recursos e usufruam os avanços tecnológicos.
Conforme o guia OpenGIS, o objetivo final é construir uma tecnologia que vai
possibilitar ao desenvolvedor de aplicações usar qualquer dado, função ou processo
geográfico disponível na rede dentro de um único ambiente e um único fluxo de
trabalho(Gardels 1996; McKee e Buehler 1996).
O OpenGIS usa três conceitos básicos:
•
A consideração de que todos os dados, processos e servidores são objetos
baseados em uma tecnologia de objetos distribuídos;
•
Um modelo de objetos geográficos para informações espaciais, baseado no
SAIF e compatível com SDTS (Spatial Data Transfer Standard) e DIGEST
(padrão para troca de dados espaciais entre instituições militares);
•
Serviços a serem implementados fornecendo ligações entre o modelo de
objetos e formatos de dados privados, definindo uma interface padrão para
cada elemento do modelo (dados, funções e processos).
Apesar de iniciativas como SDTS, SAIF, e OpenGIS, o uso de padrões como o único
esforço importante para se obter interoperabilidade não é completamente aceito. Já que
a heterogeneidade aparece espontaneamente de um mercado livre, não é possível banila por decreto (Elmagarmid e Pu 1990). O uso de tradutores semânticos em abordagens
dinâmicas é uma ferramenta mais poderosa do que as abordagens atuais baseadas em
padrões (Bishr 1997).
Outro ponto importante em interoperabilidade de sistemas de informação geográficos é
a semântica. A complexa questão do significado dos dados e sua descrição é apresentada
em (Bishr 1998) onde são apresentados três tipos de heterogeneidade:
•
heterogeneidade sintática, onde os dados estão armazenados com formatos
diferentes;
•
heterogeneidade esquemática, onde um objeto do mundo real é
representado por diferentes conceitos em um banco de dados; e
•
heterogeneidade semântica, onde um único fato pode ter mais de uma
descrição.
O método mais usado para se resolver a heterogeneidade sintática é a adoção de
padrões. Estes padrões criam uma linguagem comum onde diferentes representações
podem se encontrar. SDTS, SAIF, e GeoBR são exemplos destas tentativas.
A heterogeneidade esquemática tem sido um tema recorrente de pesquisa e a solução
mais comum para este tipo de problema é a adoção de um esquema intermediário e
comum a uma série de banco de dados. Esta solução é geralmente conhecida como
uma federação de bancos de dados (Sheth e Larson 1990).
Para se resolver a heterogeneidade semântica é necessário que se tenha resolvido antes
as outras duas (Bishr 1997; Fonseca et al. 2000). Uma ciência multidisciplinar como é a
biodiversidade acaba levando a ocorrência de heterogeneidade semântica. Esta
heterogeneidade já é um problema na comunicação diária entre seres humanos, e sua
ocorrência na ciência é mais problemática ainda. A tentativa de automatizar a solução
deste processo é um desafio ainda maior. As principal tendência para se resolver as
questões semânticas são os sistemas de informação baseados em ontologias (Guarino
1998; Fonseca e Egenhofer 1999).
Uma outra tendência é o uso de Extensible Markup Language (XML). Características
desta linguagem a levaram a ser usada para abordar todos os tipos de heterogeneidades.
XML foi proposta pelo consórcio World Wide Web Consortium (W3C) como uma
linguagem extensível que separasse armazenamento de dados da operação de
visualização, sendo desta forma uma evolução em relação a Hypertext Markup Language
(HTML). Com XML o usuário pode definir sua própria sintaxe e suas estruturas de
dados. Desta forma dados podem ser compartilhados de uma forma estruturada.
Também os metadados, a descrição dos dados, pode ser compartilhada com XML. Ela é
um subconjunto da Standard Generalized Markup Language (SGML) e ambas não se
baseiam em um conjunto restrito de marcadores que definem o significado de trechos
dos documentos, como acontece com a linguagem Hyper Text Markup Language
(HTML). Elas permitem e encorajam que as diversas comunidades existentes na
Internet definam seus próprios elementos, através da criação de estruturas específicas
chamadas Document Type Definition (DTD). Ao contrário da linguagem HTML, que se
restringe à visualização e forma do documento, XML permite agregar semântica ao
conteúdo destes documentos, deixando por conta de cada aplicação a interpretação da
marcação atribuída a este conteúdo. O Resource Description Framework (RDF) é uma
aplicação XML que permite a definição dos mecanismos para a representação de
metadados. RDF fornece os mecanismos necessários para que as diversas comunidades
codifiquem, troquem e reutilizem metadados estruturados em vez de definir um
conjunto universal de metadados. O uso de XML para resolver a heterogeneidade
semântica foi discutido em XOL (Karp et al. 1999), uma linguagem que foi criada para
o facilitar o compartilhamento de ontologias.
4.
Prioridades do GBIF
O que o GBIF pretende administrar é uma estação virtual de bioinformática. Esta
estação vai operar em rede interligando uma gama de bancos de dados e outras fontes
de informação distribuídos em vários países. O objetivo principal é o compartilhamento
de informações sobre a biodiversidade. O sistema será distribuído, para incentivar a
cooperação e a coerência, será em escala global, embora implementado a nível nacional
e regional, e aberto à participação e benefício de todos os países.
Em sua proposta inicial O GBIF tem sete programas básicos dos quais três são
prioritários: (1) acesso a dados e interoperabilidade entre bancos de dados; (2) o
catálogo eletrônico de nomes das espécies conhecidas; e (3) a conversão para formato
digital dos dados referentes a coleções de história natural. Esta proposta inicial do GBIF
de colocar disponível informações armazenadas em diferentes sistemas originadas de
diferentes países em diferentes nível de detalhes leva do ponto de vista técnico a três
questões básicas:
•
sistemas de computador: programas de computador, redes, Internet,
interfaces, linguagens, estado da tecnologia atual no Brasil;
•
intercâmbio de dados: padrões para troca de dados, formatos de dados;
•
semântica: o significado das informações do ponto de vista de cada
comunidade.
4.1. Integração de Sistemas
O objetivo do GBIF é a criação de pontos de concentração de informações e serviços. As
informações estão armazenadas em uma variedade de bancos de dados e arquivos com
outros tipos de organização. O que vai ser oferecido pelo GBIF são interfaces para
acesso e busca de informações sobre biodiversidade.
O GBIF é basicamente um integrador de serviços e informações. Para que isto aconteça
é necessário que diversas camadas de software sejam ativadas. A estratégia do GBIF com
relação a isto é estimular a implantação de um ou mais nós em cada participante. Estes
nós vão funcionar como integradores das informações existentes em cada participante.
Os principais produtos desta linha de ação são interfaces integradoras de informações.
Também terão de ser desenvolvidas ligações entre bancos de dados diversos e as
interfaces. Como a busca de informação é fundamental nesta fase, algoritmos de
pesquisa terão de ser desenvolvidos.
4.2. Integração de Dados Através de Padrões
Aqui o GBIF tem como objetivo o estabelecimento, ou a especificação, se necessário, de
um padrão para troca de informações sobre a biodiversidade. Este padrão terá de ser
compreensivo incluindo funcionalidades para lidar informações do tipo seqüências de
DNA, arranjos moleculares, descrições de ecossistemas e informações geográficas
associadas a estas outras. Como sempre, o objetivo de todo padrão é ser compreensivo e
ao mesmo tempo não perder a riqueza das informações que estão sendo trocadas.
Para se estabelecer padrões é necessário trabalhar com organizações como a ISO. Ao
mesmo tempo é preciso analisar os padrões de fato do mercado e ver quais são os que
se adaptam aos objetivos do GBIF.
Os resultados desta fase são padrões de transferencia de dados aceitos e usados por
todos os participantes. Ao mesmo tempo este padrão deve ser flexível o suficiente para
aceitar a inclusão de novas tecnologias e novos participantes que talvez tenham
necessidades ou formas diferentes de conhecimento.
4.3. Integração Semântica
Um dos principais objetivos do GBIF é a integração de informações. Para isto é
necessário que haja uma integração das várias camadas de software envolvidas e que
haja um consenso sobre o valor semântico das informações.
Como o GBIF vai lidar com a integração de informações de diferentes países e também
em diferentes níveis de detalhe, isto nos leva a dois diferentes caminhos, ambos
bastante complicados. Primeiro é a necessidade de uma visão de mundo comum entre
os diversos participantes. Mesmo dentro de um único país, diferentes comunidades
possuem diferentes visões de mundo considerando se uma perspectiva de
biodiversidade. O segundo problema é estabelecer quais são os níveis de detalhe
referentes a cada tipo de informação. A informação será coletada e distribuída desde o
nível de espécies e ecossistemas até ao nível genético e molecular.
A solução adotada pelo GBIF é o catálogo eletrônico de nomes das espécies conhecidas
que vai funcionar como a ligação semântica entre as diversas fontes de informação.
Além disto, o GBIF também irá desenvolver o banco de espécies, um catálogo com a
descrição de cada espécie existente.
A estratégia do GBIF para desenvolver estes dois catálogos é o incentivo a instituições
locais para trabalhar sob a administração do GBIF no sentido de compilar estas
informações.
5.
Arquitetura de Sistemas: Possibilidades
O GBIF não têm ainda uma arquitetura de sistemas definida. O que existe são os planos
iniciais, a carta de intenções, e planos genéricos para os primeiros 10 anos. À medida
que o GBIF for sendo implementado está arquitetura será definida mais precisamente.
Nesta seção sugerimos opções para a possível implementação das propostas do GBIF.
5.1. Internet e XML
Esta é a principal opção como o meio de distribuição para as informações coordenadas
pelo GBIF. A Internet é pública e está presente em todo mundo. Além disto, ela oferece
ferramentas de fácil uso para desenvolvimento de software e é interoperável por sua
própria natureza. Embora o acesso em alguns países ainda seja problemático, estas
barreiras têm caído continuamente. Mesmo nos países com uma infra-estrutura pouco
desenvolvida para a Internet, esta costuma ainda ser a melhor opção de comunicação
com o mundo exterior.
XML tem sido cada vez mais usada como uma linguagem interoperável. Ela permite a
definição da linguagem para o intercâmbio de documentos estruturados na Internet.
Estas linguagens não se baseiam em um conjunto restrito de marcadores que definem o
significado de trechos dos documentos, como acontece com o HTML (Hyper Text
Markup Language); pelo contrário, elas permitem e encorajam que as diversas
comunidades existentes na Internet definam seus próprios elementos, através da
criação de DTD´s (Document Type Definition) específicas. O caráter extensível da
linguagem XML estimula sua utilização nas mais diversas aplicações. Ao contrário da
linguagem HTML, que restringe-se a descrever a estrutura do documento do ponto de
vista da forma como o mesmo deve ser apresentado ao usuário, a linguagem XML
permite agregar semântica ao conteúdo destes documentos, deixando por conta de cada
aplicação a interpretação da marcação atribuída a este conteúdo. Esta abordagem
amplia significativamente as possibilidades do uso das linguagens de marcação, entre
elas a capacidade de definir Metadados – dados que descrevem dados.
O Resource Description Framework (RDF) é uma aplicação XML que permite a
definição dos mecanismos para a representação de metadados. O RDF é a base para o
processamento de metadados; ele permite interoperabilidade entre aplicações que
trocam informações interpretadas por máquinas na Web. A idéia básica do RDF é
prover os mecanismos necessários para que as diversas comunidades codifiquem,
troquem e reutilizem metadados estruturados e não o de definir um conjunto universal
de metadados.Assim que se definir o uso de XML no consórico GBIF, uma das
prioridades será a criação de DTDs para os diversos objetos da biodiversidade.
5.2. Modelo de Dados
Uma das decisões que o GBIF deverá tomar logo no primeiro ano é a questão da
complexidade do modelo de dados. O que está proposto hoje é apenas um índice geral
baseado nos nomes das espécies conhecidas. Uma proposta mais ousada seria criar
ontologias de biodiversidade. Esta ontologias seriam bastante complexas e teriam
ligações com as fontes de informação de biodiversidade como é sugerido nos sistemas
de informação baseados em ontologias (Guarino 1998; Fonseca e Egenhofer 1999). Um
índice taxonômico como esta sendo proposto agora vai apenas apontar para páginas na
Internet onde estão informações ou ligações para estas informações sobre as espécies
nomeadas no índice. Um sistema baseado em ontologias teria ligações com objetos que
representariam entidades nas ontologias. Com as modernas tecnologias de computação
que estão sendo desenvolvidas atualmente, um nodo de uma ontologia de
biodiversidade poderia apontar para um objeto na Internet. Este objeto poderia apontar
para um exemplar da espécie que poderia estar sendo monitorado por um GPS ou por
uma câmera ao vivo diretamente do habitat da espécie. Os sistemas de informação
baseados em ontologias são discutidos em mais detalhe na seção “O Brasil além do
GBIF”.
A criação de ontologias de biodiversidade, dos diversos ecossistemas e das espécies deve
ser resolvida tão cedo quanto possível. Também as estratégias para se desenvolver estas
ontologias e o nível de detalhe de cada uma também são prioridades. A integração e
compartilhamento de informações serão feitos através de pontos em comum nestas
ontologias.
5.3. Arquitetura
Em um sistema baseado em ontologias as pesquisas sempre começam pelo folheador de
ontologias. As ontologias fornecem os metadados e também apontam para os
verdadeiros dados.
Os principais componentes de um sistema destes são:
•
O servidor de ontologias tem um papel central neste sistema porque ele conecta
todos os outros componentes. O servidor é também responsável em colocar as
ontologias disponíveis para as aplicações. A conexão com as fontes de informação é
feita através de mediadores. Os mediadores procuram por informações sobre
biodiversidade e as traduzem para os formatos padrões do GBIF. Mediadores são
pequenos programas com conhecimento embutido. Especialistas constroem os
mediadores e os mantêm atualizados.
•
as fontes de informações podem ser qualquer tipo de arquivos digitais conquanto
que eles se comprometam com um mediador. O mediador extrai as partes
necessárias para compor uma unidade de informação correspondente a uma
entidade nas ontologias. O mediador também traz informações de volta a fonte no
caso de atualização.
•
as aplicações geralmente vão ser relacionadas à recuperação de informações. O
usuário folheia as ontologias e escolhe as classes que deseja pesquisar. O usuário
pode escolher o nível de detalhe das ontologias que deseja folhear e vai então
recuperar as informações neste mesmo nível de detalhe. Outros tipos de aplicações
de
podem ser desenvolvidos.
Informação
5.4. Interface de Usuário
A principal interface para o acesso ao GBIF será um navegador com suporte a
linguagem Java. A interface do GBIF deverá ser altamente interativa e deverá saber
como manipular e extrair das fontes de informações os objetos com informações sobre
biodiversidade. Mas sabemos que para realizar esta tarefa as limitações da linguagem
HTML (HyperText Markup Language) seriam intransponíveis. A arquitetura da
interface deve ser dinâmica para suportar as novas fontes de informação de
biodiversidade e suas implementações orientadas a objeto através da Web. A linguagem
Java preenche perfeitamente esta arquitetura para se fazer a reengenharia do
navegador. Embora os navegadores sem Java tenham demonstrado a possibilidade de se
localizar e recuperar informações armazenadas em servidores Web, sua interface
gráfica deixou a desejar em termos de sofisticação. Demora no recebimento de
informações e a limitação das ações disponíveis nos documentos escritos em HTML
impediram um uso mais confortável destes navegadores. Os navegadores habilitados
para Java conseguem superar estas limitações provendo capacidade de processamento
local para detecção e resposta a eventos gerados por mouse ou teclado. A linguagem
Java traz de volta à máquina local a responsabilidade pelo processamento dos menus e
interfaces, liberando o usuário das limitações da conexão de rede com o servidor Web.
5.5. Conclusões
O resultado da arquitetura do GBIF deve ser uma solução que possa ser empacotada e
distribuída para participantes que tenham menor poder tecnológico e por conseqüência
tenham dificuldades de desenvolver suas próprias soluções. Um modelo semelhante às
iniciativas do GNU e do Linux, padrões abertos e softwares distribuídos livremente vão
colaborar para preservação e desenvolvimento do conhecimento sobre a biodiversidade.
É importante considerar que boa parte da biodiversidade mundial está em países do
terceiro mundo onde nem sempre existem condições econômicas para investimentos
em software e hardware.
6.
O Brasil Além do GBIF - Uma Perspectiva Brasileira na
Integração de Informações sobre a Biodiversidade
A linha de atuação do GBIF é a de integrar informações sobre biodiversidade. Nos
primeiros anos o GBIF vai tentar estabelecer padrões de trocas de dados e
iniciar/complementar a criação dos seus dois catálogos básicos, (1) o catálogo de nomes
das espécies conhecidas e (2) o banco de dados de espécies. O que propomos nesta
seção são atividades paralelas à participação do Brasil no GBIF. Estas atividades podem
ser vistas como um complemento às outras atividades do Brasil no GBIF. Aqui são
discutidos temas de pesquisa que podem ser desenvolvidos no Brasil dentro e
paralelamente ao escopo das atividades do Brasil no GBIF.
Uma dos pontos básicos em trocas e informações digitais é o estabelecimento de
padrões. O Brasil embora tenha participado de algumas tentativas não tem ainda um
padrão para troca de informações digitais. Aqui vamos discutir os padrões disponíveis e
já estudados no Brasil e sugerir que algum padrão deva ser adotado.
Os planos iniciais do GBIF estão dirigidos a publicação de índices para informações.
Numa primeira fase, as informações propriamente ditas não deverão estar
necessariamente disponíveis para acesso em uma rede pública como a Internet, mas
apenas apontadores para estas informações. Nós consideramos que a publicação
imediata de informações substanciais, ao invés de apenas apontadores para estas
informações, em páginas disponíveis na Internet como uma prioridade que o Brasil
deve procurar.
Finalmente, outro ponto a ser abordado é a questão da heterogeneidade semântica na
integração de sistemas. A nova geração de sistemas de informação deverá resolver esta
questão. Estes novos sistemas estarão mais preocupados em administrar conhecimento
e não apenas informações ou dados. Para isto é necessário que consiga acordos básicos
sobre o sentido das informações armazenadas digitalmente. Em sua fase inicial, o GBIF
trata desta questão de forma incompleta através da implementação de catálogos com
nomes e sinônimos. Os sistemas baseados em ontologias levam esta questão adiante e
propõe soluções arrojadas para a heterogeneidade semântica. Desta maneira,
discutimos aqui os pontos básicos de uma metodologia para a construção de um
sistema brasileiro de biodiversidade baseado em ontologias.
6.1. Padrões
Com a participação brasileira no GBIF começa a se caracterizar a necessidade de se
trocar informações georeferenciadas e convencionais, gráficas e alfanuméricas, entre
sistemas de informação distintos.
A atual disponibilidade, e potencial implantação, de sistemas de informações geográficas
em diversos órgãos interessados em biodiversidade e o fato de que a maioria destas
informações pode ser geo-referenciada leva a necessidade de que este padrão tem um
componente geo-espacial. Portanto a falta de um padrão universal para intercâmbio de
informações geográficas no Brasil é obstáculo à plena evolução dos sistemas de
biodiversidade no Brasil.
Ao se analisar a atual padronização em termos de intercâmbio de informações
geográficas, verificamos que existe um número muito reduzido de padrões de fato, e
mesmo estes se mostram inadequados para suportar todas as necessidades de troca. Os
sistemas de informação geográficos conhecidos, dentre os atualmente disponíveis,
tipicamente suportam alguns formatos de intercâmbio de informações gráficas nativos
de sistemas CAD, alguns dos formatos de arquivos definidos por instituições
governamentais americanas como o FGDC, e também algum tipo de formato
proprietário, destinado a transportar informações entre diferentes instalações do
mesmo sistema.
Um dos padrões de fato utilizados por praticamente todos os sistemas gráficos vetoriais,
por exemplo, é o formato DXF (Drawing eXchange Format), definido pela empresa
americana Autodesk, como subsídio à importação e exportação de gráficos para seu
sistema de desenho assistido por computador, o AutoCAD. Pela universalidade do
AutoCAD, que é de longe o software de CAD mais utilizado no mercado, e pelas
excelentes características de representação de entidades gráficas inerentes àquele
produto, este padrão veio a ser suportado por diversos fabricantes de software gráfico,
inclusive de geoprocessamento. Sabe-se, no entanto, que o formato DXF, que é
bastante completo na representação de gráficos, tem limitações sérias no que tange à
representação e transferência de atributos associados às entidades gráficas. Além disto,
por ser o AutoCAD um software que não tem maiores preocupações quanto à topologia
da representação gráfica, não existem garantias quanto à consistência do conteúdo de
cada camada, ao contrário do que se espera em um sistema de informações geográficas,
onde cada camada deveria conter apenas um tipo de objeto.
6.1.1. Iniciativas Nacionais
Perez (2000) apresentou uma proposta para sistemas de informações ambientais que
estende parte do padrão americano de intercâmbio de dados geográficos do Federal
Government Data Committee (FGDC). A proposta é uma arquitetura genérica para a
extração de dados ambientais distribuídos e um modelo de metadados para a definição
da estrutura dessas fontes de dados. Com base nesse modelo foi construída uma
ferramenta para gerência de metadados ambientais. O modelo pode ser estendido para
aplicação em outras estruturas de armazenamento de diferentes dos padrões.
O formato IIG (Davis 1995) embora com pretensões limitadas, consegue transferir
parte das informações armazenadas em um sistemas de informação geográficos e tem
sido usado com sucesso. O formato tem recursos para a indicação do sistema de
projeção e sistema de coordenadas utilizado, além do sistema de unidades empregado
para representar as coordenadas. A eventual tradução de coordenadas com base nestes
parâmetros é feita pelo recebedor das informações. Quando é necessário representar
coordenadas geográficas esféricas (latitude e longitude) elas são apresentadas na ordem
longitude - latitude, em analogia à representação mais comum na ordem X-Y para
coordenadas cartesianas. As coordenadas esféricas são representadas em graus e frações
de grau, em vez de em graus, minutos e segundos, para facilitar o tratamento
computacional em uma eventual mudança de sistema de coordenadas. Quanto à parte
gráfica, o formato representa as informações sob a forma de pontos ou linhas, sendo
que estas poderão ser poligonais abertas ou fechadas. O formato aceita textos gráficos.
O IIG não representa entidades gráficas mais complexas e nem imagens digitais.
A proposta mais recente e mais ambiciosa no Brasil é o formato GeoBR (Câmara et al.
2000). Criado pelo grupo de geoprocessamento do INPE, este formato tenta preencher
a lacuna de um formato nacional mais completo e que possa competir com os formatos
usados hoje comercialmente. O projeto pretende fornecer livremente um software que
converte de e para o GeoBr e diversos formatos comerciais, entre eles, SPRING, DXF,
ARC/INFO, ARC/VIEW e MapInfo. A principal característica da proposta é ser simples,
mas ainda assim permitir a inclusão dos diferentes tipos de dados presentes num
Sistema de Informações geográficas (pontos 2D e 3D, linhas simples e linhas cotadas,
centróides, tabelas de atributos). Imagens são transferidas usando se o formato para
imagens já bastante difundido, o GeoTIFF. O formato GEOBR propõe o intercâmbio de
dados baseado em camadas independentes. Cada arquivo GEOBR contém um dado
geográfico bem definido, com todas as informações necessárias para sua decodificação,
inclusive com sua descrição (metadados). O arquivo GEOBR é codificado em ASCII,
contendo dois tipos de linhas: Palavras-Chave, que identificam os diferentes tipos de
componentes do formato, e Dados, expressos em coordenadas geográficas e atributos
descritivos.
A participação do Brasil no GBIF parece ser uma boa oportunidade para se discutir a
proposta do GeoBR em um fórum mais amplo e confirmá-lo como o padrão brasileiro
de intercâmbio de dados geográficos.
6.1.2. Iniciativas Internacionais
As iniciativas internacionais estão em sua maioria ligadas a organizações de caráter
nacional ou profissional. Este é o caso do National Transfer Standard (NTF) no Reino
Unido, EDIGéO na França, Spatial Data Transfer Standard (SDTS) nos Estados Unidos
e o Spatial Archive and Interchange Format (SAIF) no Canadá. O formato de
transferencia de dados mais conhecido criado por organizações profissionais é o Digital
Geographic Information Exchange Standard (DIGEST) criado pelo Ministério de Defesa
da OTAN.
A conveniência de o Brasil adotar um destes formatos ou basear seu formato em um
destes é aproveitar o volume de pesquisas que já foi feito para a criação destes padrões.
A desvantagem é a falta de suporte no Brasil e possíveis características regionais destes
formatos.
6.2. Informações Substanciais na Internet
Um dos objetivos do GBIF é colocar disponível na Internet metadados sobre as fontes
de informação sobre biodiversidade. Mas além deste tipo de informação, páginas sobre
todas as espécies do planeta deveriam também ser publicadas na Internet. Embora este
não seja ainda um dos objetivos imediatos do GBIF, ele deverá ser mais cedo ou mais
tarde colocado como uma das prioridades do consórcio. Usando-se os recursos mais
modernos como XML, podemos ter em uma página as metainformações, as
informações propriamente ditas. Alem disto, uma tendência atual é a publicação
também de resumos das informações.
Estas páginas não podem ser páginas estáticas em HTML. Em vez disto é preciso que
sejam dinâmicas, com ligações para os seres vivos, para os ecossistemas, usando se
serviços de comunicação sem fio, GPS, câmeras ao vivo entre outras coisas. Os recursos
tecnológicos estão disponíveis e os pesquisadores do meio-ambiente precisam usar a
imaginação para traduzir a riqueza dos ecossistemas para páginas na Internet.
Comparações entre dados colhidos por pesquisadores diferentes, visualizações de
metodologias e seus resultados, uso de imagens em 3-D, multimídia, satélites, tudo isto
deve ser a base para uma comunicação efetiva que consiga traduzir em termos digitais a
complexidade do mundo biológico.
6.3. Ontologias e a Integração Semântica de Informações - Uma
Perspectiva Brasileira
A abordagem do GBIF com relação à heterogeneidade semântica é limitada a palavras
chaves e sinônimos presentes no catálogo eletrônico dos nomes de organismos
conhecidos e no banco de espécies. Os sistemas que desejam ter uma abordagem mais
ousada com relação à questão semântica estão usando ontologias como suporte.
Ontologias como uma ferramenta de engenharia descrevem uma certa realidade com
um vocabulário específico usando um conjunto de premissas de acordo com o sentido
intencional das palavras do vocabulário. No sentido filosófico, ontologia é um sistema
específico de categorias que reflete uma visão específica do mundo. Gruber (1992)
define uma ontologia como uma especificação explícita de uma conceituação. Guarino
(1998) estende a definição apresentada por Gruber (1992): uma ontologia é uma teoria
lógica que corresponde ao significado intencional de um vocabulário formal, ou seja,
um comprometimento ontológico com uma conceituação específica do mundo. Os
modelos intencionais de uma linguagem lógica usando este vocabulário são controlados
por seu comprometimento ontológico. Este comprometimento é a conceituação
subentendida são refletidas na ontologia pela aproximação desses modelos intencionais.
6.3.1. Sistemas de Informação Baseados em Ontologias
Sistemas de Informação Baseados em Ontologias são baseados em duas noções básicas:
(1) tornar as ontologias explícitas antes de desenvolver os sistemas e (2) a divisão
hierárquica das comunidades de usuários.
Uma ontologia representa uma visão de mundo. Os objetos representados nas
ontologias são os objetos do mundo real. Quando se especifica uma ontologia não
existe uma preocupação com a representação final em sistemas de computação. Por
exemplo, o conceito lago pode ser representado de diferentes maneiras em diferentes
bancos de dados, mas o conceito é sempre o mesmo, pelo menos do ponto de vista de
cada comunidade de usuários. Este ponto de vista é expresso na ontologia especificada
pela própria comunidade. Num sistema baseado em ontologias são os mediadores que
agem para captar os aspectos que caracterizam um lago a partir de diversos bancos de
dados e montam o que é um lago como especificado na ontologia.
O mundo está dividido em diferentes grupos de pessoas. Cada grupo tem uma visão
diferente do mundo. McKee e Buehler (1996) chamam estes grupos de comunidade de
geo-informação. Cada um destes grupos compartilha a mesma ontologia (Bishr et al.
1999). Uma pressuposição básica de um sistema baseado em ontologias é que as
ontologias de cada comunidade podem ser explicitamente especificadas, e além disto,
integradas mais tarde se for necessário. A hierarquia de comunidades vai servir para
gerar ontologias de diferentes níveis o que vai corresponder à integração de
informações a diferentes níveis também. Por exemplo, uma comunidade a nível
estadual em São Paulo tem sua ontologia especificada num nível mais alto (mais
genérico) do que uma comunidade de um município. Esta última é mais detalhada.
Quando da integração de ontologias a nível estadual, as informações mais detalhadas
dos municípios são adaptadas para se adequar à ontologia de nível mais alto. Uma
comunidade pode se ligar a diversas ontologias. As informações são compartilhadas
através das classes em comum. O nível de detalhe é relacionado ao nível da ontologia.
Uma abordagem que considera as ontologias de forma flexível, através de composição
de ontologias através do uso de classes de outras ontologias quando necessário, não
restringe as comunidades a uma única ontologia comum a todas. As ontologias comuns
são usadas como o elo de ligação entre as comunidades. Quanto mais fundo na árvore
de ontologias menos informação será compartilhada.
Neste tipo de sistema, as ontologias devem ser especificadas em diferentes níveis. A
principio as ontologias de mais alto nível são especificadas e a partir delas, as ontologias
de mais baixo nível, as mais detalhadas. No entanto alguns autores considerem que é
mais viável especificar primeiro ontologias de nível médio e a partir delas gerar ambas,
as de mais alto nível e as de mais baixo nível.
6.3.2. Como Construir Ontologias
O uso de ontologias explícitas no desenvolvimento e uso de sistemas de informação leva
ao que são chamados de Sistemas de Informação baseados em ontologias (Guarino
1998). As ontologias podem ser representadas, por exemplo, usando se uma estrutura
formal baseada em Rodriguez (2000), que descreve ontologias através seus
componentes: partes, funções e atributos. Esta estrutura considera mais a robustez da
implementação (Guarino et al. 1999), já que não é direcionada a ser usada em sistemas
dedução automática e sim para extração e manipulação de informações. Em Cranefield
(1999) pode ser encontrada uma discussão completa sobre as formas de
armazenamento de ontologias de acordo com o uso pretendido. As ontologias são
organizadas em uma estrutura hierárquica, já que está é considerada uma das melhores
formas de se representar o mundo geográfico (Smith 1995; Harvey et al. 1999). O
mapeamento das entidades presentes nas ontologias para componentes de software é
feito usando se técnicas de orientação a objeto. Este tipo de mapeamento permite
integração parcial de informações quando uma integração completa não é possível. Este
sistema permite ainda o reaproveitamento de classes já desenvolvidas, incorporando,
assim, nos novos sistemas, o conhecimento existente em outros sistemas.
Um sistema de informação baseado em ontologias é composto por um editor de
ontologias, por um servidor de ontologias, por ontologias especificadas formalmente e
por classes derivadas de ontologias. A especificação de ontologias é feita através do uso
de um editor de ontologias. Um sistema para editar, folhear, traduzir e reutilizar
ontologias é o Ontolíngua (Gruber 1992). O sistema Ontolíngua permite que a edição
de ontologias seja feita por grupos de especialistas trabalhando simultaneamente. As
ontologias podem ser traduzidas para linguagens como CORBA Interface Definition
Language (IDL) (OMG 1991), Prolog (Clocksin e Mellish 1981), Epikit e KIF
(Genesereth 1990).
O resultado do processo inicial de uso de um sistema de informações baseado em
ontologias é um conjunto de ontologias especificadas formalmente e um conjunto de
classes. Podemos chamar este processo inicial de geração de conhecimento. As
ontologias são administradas por um servidor de ontologias. Este servidor permite o
folheamento de ontologias, assim, colocando à disposição de usuários, os metadados
referentes às informações disponíveis. O servidor de ontologias também contém
apontadores para sistemas de informação geográficos. A comunicação entre o servidor
de ontologias e os sistemas de informação é feita através de mediadores. Estes
mediadores são responsáveis por extrair as informações dos sistemas de informação e
criar as instâncias das classes. Estas classes vão conter as informações extraídas dos
sistemas de informação e o conhecimento extraído das ontologias.
6.4. Conclusão
É importante que paralelamente a iniciativa da entrada do Brasil no GBIF algumas
linhas de pesquisa sejam seguidas. A primeira é com o intuito de estabelecer um padrão
de dados para o Brasil. Este padrão pode ser criado baseado em experiências brasileiras,
como é o caso da proposta do GeoBR (Câmara et al. 2000) ou adaptado/estendido de
algum modelo já existente.
A publicação das informações sobre biodiversidade no Brasil na Internet em sua forma
substancial e não apenas apontadores para estas informações é fundamental para o
desenvolvimento desta área no Brasil.
Outro ponto importante é a pesquisa de sistemas onde a semântica tem um papel
principal. Os sistemas de informação baseados em ontologias são uma tendência dos
modernos sistemas de informação. Para uma total integração das iniciativas de
biodiversidade no Brasil é necessário que se desenvolvam ontologias que capturem as
visões de mundo das diversas comunidades que trabalham com a biodiversidade no
Brasil.
7.
Conclusões
Este relatório apresentou uma visão geral do que é o GBIF e seus principais objetivos.
Os planos iniciais do GBIF são de estabelecer uma rede pública com índices para
informações sobre biodiversidade de todo o mundo. Um catálogo de nomes dos
organismos conhecidos deve ser criado assim como um banco com os nomes e dados
básicos de todas as espécies.
A estrutura pretendida pelo GBIF é bem semelhante a que o Brasil já desenvolve com
projetos como o BIOTA-SP. Uma das estratégias do GBIF é estimular projetos como o
BIOTA-SP, estabelecer padrões, e criar condições tecnológicas para que estes projetos
possam estar ligados a uma grande rede de computadores que permita o acesso a nível
mundial independente de localização ou de língua.
A conveniência ou não do Brasil participar deste projeto não foi discutida neste
relatório. As vantagens e desvantagens do ponto de vista da troca de informações sobre
a biodiversidade também estão fora do escopo deste relatório. Da mesma forma, a
questão de direitos autorais sobre as informações a serem compartilhadas, uma das
preocupações do GBIF, também não é discutida neste documento. Apenas as condições
técnicas necessárias para que o Brasil participe foram apresentadas. Nossa opinião é
que o Brasil tem a tecnologia necessária para participar, tanto do ponto de vista
computacional como do ponto de vista de conhecimento sobre biodiversidade. O
projeto BIOTA-SP, e sua extensão SIN-BIOTA-SP, que permite o acesso on-line das
informações são uma prova disto.
Na primeira parte deste documento fizemos uma introdução sobre o que é o GBIF.
Então apresentamos uma breve descrição técnica do GBIF e depois introduzimos uma
revisão sobre o estado atual da Interoperabilidade, um problema fundamental para a
implementação do GBIF.
Na segunda parte deste documento analisamos tecnicamente o plano do GBIF.
Primeiramente as questões relativas a padrões de intercâmbio de dados, software
necessário para implementação e integração semântica de informações foram
analisadas sob o ponto de vista do GBIF. Depois fizemos uma descrição das
possibilidades técnicas para a implementação das propostas do GBIF. Depois disto
apresentamos uma sugestão de como o Brasil pode usar a participação no GBIF para
iniciar projetos paralelos que vão contribuir para o desenvolvimento tecnológico
brasileiro e também para aumentar e divulgar a área de conhecimento sobre
biodiversidade. Sugerimos o uso de sistemas de informação baseados em ontologias, a
criação de ontologias brasileiras sobre biodiversidade, e a definição de padrões
brasileiros para trocas de dados.
8.
Referências
D. Arctur, D. Hair, G. Timson, E. Martin, e R. Fegeas (1998) Issues and Prospects for
the Next Generation of the Spatial Data Transfer Standard (SDTS). International
Journal of Geographical information Science 12(4): 403-425.
C. Batini, M. Lenzerini, e S. Navathe (1986) A Comparative Analysis of Methodologies
for Database Schema Integration. ACM Computing Surveys 18(4): 323-364.
Y. Bishr (1997) Semantic Aspects of Interoperable GIS. Ph.D. Thesis, Wageningen
Agricultural University, The Netherlands.
Y. Bishr (1998) Overcoming the Semantic and Other Barriers to GIS Interoperability.
International Journal of Geographical Information Science 12(4): 299-314.
Y. A. Bishr, H. Pundt, W. Kuhn, e M. Rdwan (1999) Probing the Concepts of
Information Communities - A First Step Toward Semantic Interoperability. in: M.
Goodchild, M. Egenhofer, R. Fegeas, e C. Kottman, (Eds.), Interoperating Geographic
Information Systems. pp. 55-70, Kluwer, Norwell, MA.
Y. Breitbart, H. Garcia-Molina, W. Litwin, N. Roussopoulos, M. Risinkiewicz, G.
Thompson, e G. Wiederhold (1990) Final Report of the Workshop on Multidatabases and
Semantic Interoperability, Tulsa, Oklahoma, November 2-4, 1990. University of
Kentucky, Department of Computer Science, Lexington, KT, Technical Report 188-91.
G. Câmara, A. Monteiro, J. Paiva, R. Souza, J. D'Alge, E. Lopes, ClaudioBarbosa, e U.
Freitas (2000) Intercambio de Dados Geográficos no Brasil: Um Formato Aberto. INPE.
W. Clocksin e C. Mellish (1981) Programming in Prolog. Springer-Verlag, New York.
G. o. B. Columbia (2001) Geographic data BC - SAIF and FMEBC.
S. Cranefield e M. Purvis (1999) UML as an Ontology Modelling Language. in: D.
Fensel, (Ed.) Workshop on Intelligent Information Integration, 16th International Joint
Conference on Artificial Intelligence, Stockholm.
C. Davis (1995) Intercâmbio de Informações Geográficas: Proposta Preliminar. Prodabel,
Belo Horizonte, Technical Report.
A. Elmagarmid e C. Pu (1990) Guest editors' Introduction to the Special Issue on
Heterogeneous Databases. ACM Computing Surveys 22(3): 175-178.
F. Fonseca e M. Egenhofer (1999) Ontology-Driven Geographic Information Systems.
in: C. B. Medeiros, (Ed.) 7th ACM Symposium on Advances in Geographic Information
Systems, Kansas City, MO, pp. 14-19.
F. Fonseca, M. Egenhofer, C. Davis, e K. Borges (2000) Ontologies and Knowledge
Sharing in Urban GIS. CEUS - Computer, Environment and Urban Systems 24(3): 232251.
M. Gahegan (1999) Characterizing the Semantic Content of Geographic Data, Models,
and Systems. in: M. Goodchild, M. Egenhofer, R. Fegeas, e C. Kottman, (Eds.),
Interoperating Geographic Information Systems. pp. 71-84, Kluwer Academic Publishers,
Norwell, MA.
K. Gardels (1996) The Open GIS Approach to Distributed Geodata and Geoprocessing.
in: Third International Conference/Workshop on Integrating GIS and Environmental
Modeling, Santa Fe, NM, pp. 21-25.
GBIF (2000) Global Biodiversity Information Facility.
M. R. Genesereth (1990) The Epikit Manual. Epistemics, Inc., Palo Alto, CA, Technical
Report.
T. Gruber (1992) A Translation Approach to Portable Ontology Specifications.
Knowledge Systems Laboratory - Stanford University, Stanford, CA, Technical Report
KSL 92-71.
N. Guarino (1998) Formal Ontology and Information Systems. in: N. Guarino, (Ed.)
Formal Ontology in Information Systems. pp. 3-15, IOS Press, Amsterdam, Netherlands.
N. Guarino, C. Masolo, e G. Vetere (1999) OntoSeek: Content-Based Access to the
Web. IEEE Intelligent Systems 14(3): 70-80.
F. Harvey (1999) Designing for Interoperability: Overcoming Semantic Differences. in:
M. Goodchild, M. Egenhofer, R. Fegeas, e C. Kottman, (Eds.), Interoperating
Geographic Information Systems. pp. 85-98, Kluwer Academic Publishers, Norwell, MA.
F. Harvey, B. Buttenfield, e S. Lambert (1999) Integrating Geodata Infrastructures from
the Ground Up. Photogrammetric Engineering & Remote Sensing 65(11): 1287-1291.
INPE (1998) Computational Issues in Interoperability in GIS. INPE/University of
Maine.
M. Jarke, K. Pohl, C. Rolland, e J. Schmitt (1994) Experience-Based Method Evaluation
and Improvement: a Process Modelling Approach. in: IFIP Working Group 8: CRIS 94,
Maastricht, Netherlands, pp. 1-27.
G. Kahn, D. McQueen, e G. Plotkin, Eds. (1984) Semantics of Data Type. SpringerVerlag, New York.
P. Karp, V. Chauhdri, e J. Thomere (1999) XOL: an XML-based Ontology Exchange
Language. Artificial Intelligence Center SRI International, Menlo Park, CA, Technical
Report.
V. Kashyap e A. Sheth (1996) Semantic Heterogeneity in Global Information System:
The Role of Metadata, Context and Ontologies. in: M. Papazoglou e G. Schlageter,
(Eds.), Cooperative Information Systems: Current Trends and Directions. pp. 139-178,
Academic Press, London.
W. Kent (1993) Object Orientation and Interoperability. in: Advances in ObjectOriented Database Systems. NATO Advanced Study Institute on Object-Oriented
Database Systems 130, pp. 287-305, Springer, Izmir, Kusadasi, Turkey.
L. McKee e K. Buehler, Eds. (1996) The Open GIS Guide. Open GIS Consortium, Inc,
Wayland, MA.
E. Mena, V. Kashyap, A. Illarramendi, e A. Sheth (1998) Domain Specific Ontologies
for Semantic Information Brokering on the Global Information Infrastructure. in: N.
Guarino, (Ed.) Formal Ontology in Information Systems. pp. 269-283, IOS Press,
Amsterdam.
OECD (1999) Meeting of the Commitee for Scientific and Technologic Policy at
Ministerial Level.
OGIS, Ed. (1996) The OpenGIS ® Guide - Introduction to Interoperable Geoprocessing
and the OpenGIS Specification. Open GIS Consortium, Inc, MA.
OMG, Ed. (1991) The Common Object Request Broker: Architecture and Specification,
Revision1.1. OMG Document No. 91.12.1 Framingham, MA.
Y. Papakonstantinou, H. Garcia-Molina, e J. Widom (1995) Object Exchange Across
Heterogeneous Information Sources. in: IEEE International Conference on Data
Engineering, Taipei, Taiwan, pp. 251-260.
H. A. d. M. Perez, A. M. d. C. Moura, e A. K. Tanaka (2000) Extração de Dados em
Sistemas de Informação Ambientais: Arquitetura e Esquema de Metadados. in: L.
Figueiredo, (Ed.) Geoinfo 2000 - II Workshop Brasileiro de Geoinformatica, Sao Paulo,
Brazil.
A. Rodríguez (2000) Assessing Semantic Similarity among Spatial Entity Classes. Ph.D.
Thesis, University of Maine, Orono.
F. Salgé (1999) National and International Data Standards. in: P. Longley, M.
Goodchild, D. Maguire, e D. Rhind, (Eds.), Geographical Information Systems. 1
Principles and Technical Issues, pp. 693-706, John Wiley & Sons, New York.
A. Sheth (1999) Changing Focus on Interoperability in Information Systems: from
System, Syntax, structure to Semantics. in: M. Goodchild, M. Egenhofer, R. Fegeas, e
C. Kottman, (Eds.), Interoperating Geographic Information Systems. pp. 5-29, Kluwer
Academic Publishers, Norwell, MA.
A. Sheth e J. Larson (1990) Federated Databases Systems for Managing Distributed,
Heterogeneous, and Autonomous Databases. ACM Computing Surveys 22(3): 183-236.
B. Smith (1995) On Drawing Lines on a Map. in: A. Frank e W. Kuhn, (Eds.), Spatial
Information Theory—A Theoretical Basis for GIS, International Conference COSIT '95.
Lecture Notes in Computer Science 988, pp. 475-484, Springer Verlag, Berlin.
M. Sondheim, K. Gardels, e K. Buehler (1999) GIS Interoperability. in: P. Longley, M.
Goodchild, D. Maguire, e D. Rhind, (Eds.), Geographical Information Systems. 1
Principles and Technical Issues, John Wiley & Sons, INC, New York.
USGS (1998) View of the Spatial Data Transfer Standard (SDTS) Document.
G. Wiederhold (1991) Mediators in the Architecture of Future Information Systems.
Stanford University, Technical Report.
G. Wiederhold (1994) Interoperation, Mediation and Ontologies. in: International
Symposium on Fifth Generation Computer Systems (FGCS94), Tokyo, Japan, pp. 33-48.
G. Wiederhold (1998) Value-added Middleware: Mediators. Stanford University,
Technical Report.
G. Wiederhold (1999) Mediation to Deal with Heterogeneous Data Sources. in: A.
Vckovski, K. Brassel, e H.-J. Schek, (Eds.), Interoperating Geographic Information
Systems - Second International Conference, INTEROP'99. Lecture Notes in Computer
Science 1580, pp. 1-16, Springer-Verlag, Berlin.
M. Worboys e S. Deen (1991) Semantic Heterogeneity in Geographic Databases.
SIGMOD RECORD 20(4): 30-34.
Download

The Global The Global Biodiversity Information Facility - DPI