Programa de Ciência e Tecnologia para Gestão de Ecosistemas Ação "Métodos, modelos e geoinformação para a gestão ambiental” The Global Biodiversity Information Facility Aspectos Técnicos da Participação do Brasil Frederico Torres Fonseca (Penn State University) Relatório Técnico Fevereiro, 2001 Introdução Este relatório tem como objetivo analisar o consórcio Global Biodiversity Information Facility (GBIF) e os aspectos técnicos da participação do Brasil neste consórcio. Aqui são discutidos as questões relativas a recursos de computador, infra-estrutura, programas, e padrões de trocas de dados. As vantagens e desvantagens do ponto de vista da troca de informações sobre a biodiversidade não são tratadas neste relatório. Da mesma forma, a questão de direitos autorais sobre as informações a serem compartilhadas, uma das preocupações do GBIF, também não é discutida neste documento. Na primeira parte deste documento fazemos uma introdução sobre o que é o GBIF. Então apresentamos uma breve descrição técnica do GBIF e depois introduzimos uma revisão sobre o estado atual da Interoperabilidade, um problema básico a ser resolvido para a implementação do programa do GBIF. Na segunda parte deste documento analisamos tecnicamente o plano do GBIF. Primeiramente as questões relativas a padrões de intercâmbio de dados, software necessário para implementação e integração semântica de informações são analisadas sob o ponto de vista do GBIF, o que o se pretende, qual a estratégia e os recursos necessários para se implantar estas etapas. Depois fazemos uma descrição das possibilidades técnicas para a implementação das propostas do GBIF. Por último apresentamos uma sugestão de como o Brasil pode usar o programa GBIF para ir além do que está proposto e desenvolver recursos preciosos na luta pelo domínio da tecnologia da informação sobre a biodiversidade. 1. GBIF 1.1. GBIF - O que é? O Sistema Integrado de Biodiversidade Mundial (Global Biodiversity Information Facility - GBIF) (GBIF 2000) será uma rede interoperável de bancos de dados sobre bioversidade. O sistema contará também com uma série de ferramentas que vão permitir ao usuário navegar e usar a grande quantidade de informações sobre biodiversidade atualmente existente. Os resultados esperados são benefícios econômicos, ambientais e sociais a nível nacional e internacional, como por exemplo, o suporte mais efetivo ao desenvolvimento sustentável. O GBIF nasceu do fórum científico Megascience Forum Working Group on Biological Informatics da Organization for Economic Co-operation and Development (OECD) (OECD 1999) que ocorreu em 1999. Os participantes do fórum concluíram que: • apesar o domínio da biodiversidade ser muito vasto e complexo, sua importância fundamental para a sociedade; • os sistemas atuais de biodiversidade não são de fácil acesso e nem tão úteis como eles poderiam ser; • existem oportunidades tecnológicas e políticas atualmente para desenvolvimento deste tipo de sistema principalmente para os países participantes da OECD. De 1999 para cá algumas coisas mudaram, como por exemplo, o aparecimento de sistemas de biodiversidade com amplo acesso público, mas limitado a nível nacional. No Brasil podemos citar o BIOTA-SP, e no exterior Diversitas, Species 2000, US Integrated Taxonomic Information System e Clearing House Mechanism. Também as condições políticas para o desenvolvimento de ações orientadas para ecologia podem sofrer impacto com as mudanças de governo, como é o caso da eleição de George W. Bush para o a presidência dos Estados Unidos (participante do OECD) em detrimento de Al Gore que favorecia uma política mais firme de defesa do meio ambiente. Mesmo assim, em dezembro de 2000 o GBIF teve sua primeira reunião e propôs o início dos trabalhos com o objetivo de criar uma rede internacional e interoperável de informações sobre a biodiversidade. 1.2. Produtos do GBIF O consórcio GBIF pretende atuar como um integrador de serviços e informações. Além disto, o GBIF pretende incentivar a produção de dados sobre biodiversidade, sua conversão para meio digital, e seu compartilhamento. É importante esclarecer que o GBIF não vai criar dados novos, mas sim incentivar e apoiar sua criação, e administrar seu compartilhamento. Para cumprir este papel integrador de serviços e informações é necessário que o GBIF desenvolva ou promova o desenvolvimento de: • s o f t w a r e : a integração de informações envolve o uso de várias camadas de software. As camadas mais baixas responsáveis por protocolos de rede e similares estão bastante desenvolvidas e esta não é uma das preocupações do GBIF. Mas as camadas mais altas, responsáveis pela conexão entre as fontes de dados e as interfaces de usuário terão de ser desenvolvidos. • i n t e r f a c e s : a proposta de dar acesso a um tipo de informação tão rica como a biodiversidade e com um universo de usuários tão variado gera questões bastante delicadas para a especificação da interface de usuário. Isto gera implicações tanto ao nível de software básico quanto ao nível de especificação formal da interface com o objetivo de facilitar o acesso as informações de forma fácil e racional. • a c o r d o s : a distribuição de informações sobre a biodiversidade é considerada sensível por muitos governos. Também o aspecto do valor comercial da informação deve ser levado em conta. Além disto políticas de acesso e de proteção da propriedade intelectual das informações devem ser estabelecidas. Tudo isto só pode ser alcançado através de acordos diversos entre os participantes do consórcio. • i n d e x a ç ã o / o r g a n i z a ç ã o d e i n f o r m a ç õ e s : a quantidade de informações sobre biodiversidade é muito grande. Sem uma organização sistemática destas informações elas perdem boa parte de seu valor. O GBIF deve não só gerar índices para estas informações, mas antes disto, discutir e estabelecer qual as melhores formas de acesso a elas. • p a d r õ e s p a r a t r o c a d e i n f o r m a ç õ e s : as informações que serão integradas pelo GBIF estão não só em sistemas de bancos de dados diferentes mas também em línguas diferentes. Além disto, elas podem refletir diferentes visões de mundo. Desta forma é necessário o estabelecimento de padrões de intercâmbio de informações que permitam o fluxo de conhecimento sem perda de valor. 1.3. A BIOINFORMÁTICA: um Produto? A bioinformática é a integração da Biologia e da Ciência da Informação. Seus principais interesses são o desenvolvimento, compartilhamento, e análise de dados biológicos. Estes dados geralmente são bastante complexos e se apresentam em grandes volumes. A bioinformática é considerada hoje uma disciplina independente. Além disto é uma área de intenso crescimento comercial gerando novos empregos e oportunidades de negócios. Ela deverá influenciar nossa sociedade de forma marcante nos próximos anos. A bioinformática inclui: • I n f o r m á t i c a M o l e c u l a r o u G e n é t i c a : que envolve o uso de bancos com seqüências de DNA para se descobrir o funcionamento do gene e como ele pode ser controlado. • I n f o r m á t i c a M é d i c a : inclui a visualizações de imagens médicas em computadores com o objetivo de executar simulações anatômicas. Inclui também a neuro-informática que usa um modelo computacional representando o funcionamento do cérebro. • I n f o r m á t i c a d a B i o d i v e r s i d a d e : é a conversão para meio digital das informações sobre biodiversidade disponíveis atualmente em livros, fichas, catálogos e até mesmo em meios digitais obsoletos. • I n f o r m á t i c a d o M e i o - A m b i e n t e : a combinação da Informática da Biodiversidade com os Sistemas e Informações Geográficos. Ela pode gerar modelos de previsão de ocorrência de espécies para uso em planejamento ambiental. Assim uma nova dimensão da tradicional ecologia de campo é gerada. 1.4. O Brasil e o GBIF Os países interessados em participar do GBIF devem assinar um documento de intenções chamado Memorandum of Understanding for the Global Biodiversity Information Facility (MOU). Neste documento os países participantes se comprometem a investir em atividades a nível nacional e internacional relacionadas aos objetivos básicos do GBIF. O Brasil como participante do GBIF terá de providenciar financiamento ou fomentar atividades relacionadas a (1) conversão para meio digital de informações já existentes em outros meios, (2) estabelecimento de uma estrutura de rede de computadores para divulgação destas informações, e (3) compilação e organização destas informações de forma a facilitar o acesso público a elas através de interfaces a serem padronizadas pelo do GBIF. Além disto, o Brasil como participante deverá cooperar ativamente na formulação e implantação do programa básico do GBIF, promover o compartilhamento de informações sobre biodiversidade usando os padrões escolhidos pelo GBIF e principalmente criar os chamados nós nacionais. Um nó nacional consiste de um ponto de rede que permita acesso público e que forneça informações sobre a biodiversidade no Brasil de forma interoperável. Este nó deverá servir como ponto de encontro para as iniciativas nacionais sobre biodiversidade. Ele serve ao mesmo tempo para que o país compartilhe seus dados com a rede do GBIF e também para que o GBIF possa tomar conhecimento dos projetos relacionados a esta iniciativa em andamento no país. Do ponto de vista técnico, um nó é um ponto de rede de computador que permite o acesso e a pesquisa em tempo real a bancos de dados contendo metadados sobre a biodiversidade no Brasil. Por exemplo, informações sobre espécies, catálogos, bibliografia, seqüências de DNA, e ecossistemas. Estes metadados deverão estar especificados em padrões a serem definidos pelo GBIF. Cada nó também deverá publicar de forma explícita a sua política com relação à propriedade intelectual sobre a informação disponível no local. Cada nó poderá também ter informações sobre programas de computador que auxiliem na manipulação e validação dos dados disponíveis. Não existe uma limitação com relação ao número de nós que cada participante poderá ter. 1.5. Iniciativas de Biodiversidade A indústria da informação sobre biodiversidade é considerada como uma das principais criadoras de riqueza do futuro. Existe um mercado crescente para diversas formas de dados sobre formações moleculares de espécies e também para informações médicas relacionadas a produtos biológicos. Este setor também tido uma importância cada vez maior na hora da tomada de decisões relativas a políticas do meio-ambiente. Da mesma forma que outros campos da ciência e das atividades inovadoras, a Bioinformática é globalizada e existe de uma forma sem fronteiras institucionais. No entanto este desenvolvimento apresenta desafios relativos a infra-estrutura para a obtenção, armazenamento, recuperação e compartilhamento destas informações. Também a necessidade de se tornar estas informações interoperáveis é premente seja ao nível de sistemas de computação seja ao nível de diferentes campos da ciência. A completa integração deste tipo de informação desde o nível molecular ate ao nível de ecossistemas é alcançável mas depende de um esforço conjunto internacional como é o GBIF. A importância de projetos integradores de informações sobre a biodiversidade já esta sendo sentida há algum tempo e isto pode ser notado em diversas iniciativas a nível internacional e também no Brasil. 1.5.1. Projetos Internacionais de Biodiversidade Existem alguns projetos sobre biodiversidade a nível internacional. A atuação do GBIF poderá evitar duplicidade de esforços entre estas iniciativas e também poderá agir como concentrador de políticas e prioridades. Em seguida descrevemos brevemente três deles; DIVERSITAS, Species 2000 e Global Taxonomy Initiative. O projeto DIVERSITAS é uma parceria entre organizações públicas e privadas. Seu objetivo é promover, facilitar e catalisar projetos de pesquisa sobre biodiversidade. Entre os produtos imediatos estão a produção de compilações de inventários, o desenvolvimento de modelos de previsão de biodiversidade, e a promoção de modelos que levem a uma preservação dos recursos biológicos atuais. Outro objetivo importante é a formação de recursos humanos especializados em biodiversidade a nível mundial. O projeto Species 2000 é uma federação de entidades que trabalham com biodiversidade. Não existe restrição a nacionalidade já que esta é uma organização internacional. O principal objetivo é dar acesso a metadados sobre as espécies conhecidas usando-se para isto a Internet. O projeto The Global Taxonomy Initiative (GTI) foi formado como uma tentativa de reação aos conhecidos problemas de se estabelecer taxonomias relativas à conservação e controle da biodiversidade. O principal objetivo é a formação de recursos humanos através de programas de treinamento nacionais e regionais. Além disto o suporte a conservação e desenvolvimento de obras de referência e a infra-estrutura necessária para a produção e distribuição de informações sobre taxonomias. A GTI espera que a estrutura a ser lançada pelo GBIF auxilie no suporte de computação necessária para este projeto. 1.5.2. Projetos Nacionais de Biodiversidade Uma das principais iniciativas sobre biodiversidade no Brasil é a Base de Dados Tropicais (BDT). A BDT é um departamento da Fundação André Tosello. A BDT tem como objetivo a divulgação através de meios eletrônicos de informações sobre biodiversidade que possam dar apoio ao trabalho da comunidade científica e tecnológica do país. Além disto, a BDT pretende contribuir diretamente para a conservação e utilização racional da biodiversidade no Brasil. O desenvolvimento auto-sustentável só é possível através de uma sociedade informada, com acesso democrático e amplo à informação qualificada e sua utilização nos processos de formulação e decisão política. Outro projeto sobre biodiversidade no Brasil é o BIOTA-SP e sua implementação como sistema de informação em computador, o SIN-BIOTA-SP. O Programa de Pesquisas em Conservação Sustentável da Biodiversidade do Estado de São Paulo, denominado BIOTA-SP - O Instituto Virtual da Biodiversidade -, tem como objetivo principal inventariar e caracterizar a biodiversidade do Estado de São Paulo. Além disto o BIOTA-SP define mecanismos para a conservação da biodiversidade, propõe políticas para a exploração de seu potencial econômico e sua utilização sustentável. O BIOTA-SP possui vários objetivos em comum com o GBIF. Entre eles podemos citar: • o apoio à formação de recursos humanos para subsidiar o estudo da biodiversidade; • incentivo ao desenvolvimento de áreas multidisciplinares que apoiem do estudo da biodiversidade, como por exemplo, a bioinformática e os sistemas de informação geográficos; • incentivo à produção, digitalização, e compartilhamento de dados sobre biodiversidade; • incentivo ao estabelecimento de padrões de intercâmbio de informações que permitam o intercâmbio de conhecimento. O SIN-BIOTA-SP é uma atividade complementar ao BIOTA-SP. Seus objetivos são (1) colocar disponível on-line uma base cartográfica de São Paulo, (2) criar ferramentas e pesquisa de metadados de biodiversidade que auxiliem na pesquisa e na cooperação entre pesquisadores desta área, e (3) a publicação do jornal eletrônico Biota Neotropica, cujo objetivo é disseminar trabalhos científicos em andamento e servir de fórum para discussões na área de biodiversidade. 2. Descrição Técnica do GBIF É importante destacar aqui o papel do GBIF como integrador de informações e serviços e não como fornecedor, ou criador, de um ou de outro. O que será criado dentro do GBIF são catálogos e índices para fontes de informações sobre biodiversidade. Como integrador, o GBIF terá de trabalhar em conjunto com os fornecedores de informação. Desta forma os sistemas a serem desenvolvidos dentro do contexto do GBIF deverão ser distribuídos, ligados a uma rede com acesso público e com módulos e interfaces interoperáveis. 2.1. Estratégia A estratégia do GBIF para alcançar seus objetivos é composta de quatro componentes principais. Eles, além de serem interdependentes e interrelacionados, têm também áreas de sobreposição. De qualquer maneira eles tem características particulares suficientes para serem classificados da seguinte maneira: · Administração de Recursos Naturais · Administração de Conhecimento GBIF · Apoio a Pesquisa Biológica · Ambiente para Políticas de Biodiversidade Global • a d m i n i s t r a ç ã o d e r e c u r s o s n a t u r a i s a n í v e l n a c i o n a l : o homem atua diretamente sobre o meio-ambiente através da exploração e da constante alteração interferindo assim com diversos ecossistemas. De forma a permitir uma continuidade desta exploração é necessário que se mude os padrões de atuação existentes hoje em dia para direção do chamado desenvolvimento sustentável. Para isto é necessário um conhecimento maior sobre o mundo e seus ecossistemas. O GBIF pretende fornecer recursos em forma de informações sobre a biodiversidade para ajudar a criação de políticas de controle do meio ambiente que permitam o desenvolvimento sustentável e a conservação da complexidade e diversidade dos sistemas naturais. • administração de conhecimento sobre biodiversidade a nível m u n d i a l : o conhecimento sobre a biodiversidade mundial tem sido compilado já há muitos anos por uma variedade de cientistas, em uma variedade de meios, em diversas línguas, e com qualidade também variável. Isto tudo torna este conhecimento inconsistente, incompleto e em muitos casos inacessível. Além do conhecimento em meios e locais de difícil acesso temos também o conhecimento em poder de povos indígenas. Apenas a conversão destas informações para meio eletrônico não é suficiente. A integração dos bancos de dados digitais sobre a biodiversidade é outro ponto que deve ser tratado já que a grande abrangência, o grande volume de informações, e a diversidade de usos destes bancos acabaram gerando uma grande dificuldade de acesso para pessoas não especializadas. A atuação do GBIF será no sentido de promover o intercâmbio de informações através da introdução de sistemas e padrões que irão auxiliar administradores, curadores e bibliotecários que trabalham com biodiversidade. A base desta contribuição é o catálogo de nomes das espécies conhecidas e catalogadas por cientistas de biodiversidade. • a p o i o à p e s q u i s a b i o l ó g i c a a n í v e l n a c i o n a l : a bioinformática é a integração da Biologia e da Ciência da Informação e é considerada hoje uma disciplina independente. Seus principais interesses são o desenvolvimento, compartilhamento e análise de dados biológicos. Um dos desafios científicos em bioinformática é converter 25 décadas de conhecimento para o formato digital. Mas não é apenas a conversão que tem valor, mas sim a correlação que pode ser feita destes dados com outros mais atuais adquiridos por outros métodos como, por exemplo, imagens obtidas por satélites. O papel do GBIF será apoiar o desenvolvimento de pesquisas em bioinformática a nível nacional. O uso do catálogo de nomes das espécies conhecidas vai servir como um padrão e irá permitir operações de mineração de dados (data-mining) de uma maneira que hoje ainda não são possíveis porque é difícil descobrir as correlações entre diferentes bancos de dados de informações sobre biodiversidade. • a m b i e n t e p a r a p o l í t i c a s d e b i o d i v e r s i d a d e g l o b a l : tomadores de decisão precisam de informações sobre biodiversidade para formular políticas nacionais e internacionais sobre saúde, meio-ambiente, desenvolvimento auto-sustentável e segurança de alimentos. Um dos problemas atuais é a inexistência de um acesso amplo às informações genéticas. Um outro é o controle de informações sobre biodiversidade de espécimens coletados em nações em desenvolvimento para o uso científico em nações desenvolvidas. O GBIF pretende ajudar a resolver este problema dando amplo acesso a este tipo de informação. 2.2. Arquitetura Para atingir seus objetivos o GBIF propõe uma arquitetura de funcionamento que gira em torno de um catálogo de nomes das espécies conhecidas e catalogadas por cientistas de biodiversidade. Este catálogo vem de esforços já em andamento como o Species 2000. O catálogo eletrônico dos nomes de organismos conhecidos pela ciência será o elo entre as diversas fontes de informação biológicas ou não-biológicas. A intenção é que este tipo de ligação tenha o papel de catalisador na geração de novas informações sobre biodiversidade. O catálogo é a porta de entrada da maioria das pesquisas e vai ter ligações com os outros índices, o índice biológico de espécies, o banco de espécies e o índice da literatura sobre biodiversidade. GBIF Dados biológicos de espécies Outras Entidades Catálogo dos nomes dos organismos conhecidos Gen Bank Outros dados sequências de RNA, proteínas,etc. Dados geoespaciais Dados de clima Banco de espécies Literatura sobre biodiversidade Dados de ecossistemas Dados ecológicos O catálogo é também a principal ligação com os bancos de dados sobre biodiversidade já desenvolvidos ou em desenvolvimento, como por exemplo, o Gen Bank. Também estarão conectados ao catálogo dados geo-espaciais, dados de clima, dados de ecossistemas e dados ecológicos. 3. Interoperabilidade: Um Panorama Atual O GBIF vai funcionar usando bancos de dados sobre biodiversidade já existentes. Por exemplo, em sua versão final será necessário integrar sistemas diversos como o BIOTASP no Brasil e Species 2000 na Europa. Para integrar sistemas tão diversos é necessária uma sólida base de interoperabilidade. Embora no futuro os sistemas a serem integrados deverão estar dentro de padrões estabelecidos pelo GBIF, o grande volume de informações já disponível atualmente deverá ser integrado através de soluções de interoperabilidade. A proposta básica do GBIF é a de integrar informações. O método escolhido para fazer isto foi através da integração de metadados. Estes metadados vão estar em catálogos que servem como portas de acesso às outras informações. Este tipo de sistema é chamado de sistemas de metainformação (Jarke et al. 1994). O termo sistemas de metainformação significa um conjunto de ferramentas para organizar e documentar dados relativos ao meio-ambiente sejam eles alfanuméricos ou geo-espacials. O objetivo é dar uma visão geral da informação disponível e oferecer ferramentas de pesquisa especializadas para dados deste tipo. As informações sobre biodiversidade estão armazenadas em uma variedade de arquivos digitais que por sua vez estão baseados em uma grande heterogeneidade de sistemas de computação. Isto tudo nos leva a necessidade de rever os conceitos básicos da integração de sistemas e arquivos em computação. Como a maioria das informações sobre biodiversidade está relacionada com uma componente geográfica, ou seja, georeferenciada, vamos rever aqui as principais questões referentes a padrões de trocas de informações geográficas e a integração deste tipo de sistema. Além disto a complexidade dos dados geográficos se assemelha à complexidade dos dados sobre biodiversidade. Então as soluções e estudos usados para a geo-informação podem ser aproveitados para informações sobre biodiversidade. Interoperabilidade é capacidade que um sistema possui de compartilhar e trocar informações e aplicações (Bishr 1997). De acordo com Sheth (1999), a nova geração de sistemas de informação deverá ser capaz de resolver a interoperabilidade semântica, na qual um fato pode ter mais que uma descrição, para poder fazer um bom uso das informações disponíveis com a chegada da Internet e da computação distribuída. Estes sistemas deverão ser capazes de entender o modelo que o usuário faz do mundo e seus significados e entender também os modelos por trás das fontes de informação. Sheth (1999) acredita que o uso de mediadores (Wiederhold 1998) é a solução para ligação entre o usuário e estas fontes de informação. A pesquisa sobre interoperabilidade é motivada pela crescente heterogeneidade em sistemas de computação. A pesquisa sobre integração de bancos de dados vem desde o meio dos anos 80 (Batini et al. 1986) , e a comunidade dos sistemas de informação geográficos também tem atuado ativamente nesta área (Kahn et al. 1984; Breitbart et al. 1990; Worboys e Deen 1991; Kashyap e Sheth 1996; Bishr 1997; Bishr 1998; Mena et al. 1998; Gahegan 1999; Harvey 1999). No Brasil, o destaque é para o projeto conjunto CNPq/NSF que investigas questões relacionadas a interoperabilidade em Sistemas de Informação geográficos, Computational Issues in Interoperability in GIS (INPE 1998). Os subtemas do projeto também estão diretamente ligados a questões de fundamental importância para a proposta do GBIF: modelagem semântica de dados espaciais, acesso via Internet a fontes de informações geográficas, e técnicas e ferramentas para sistemas de informação geográficos interoperáveis. Ultimamente a interoperabilidade está sendo considerada uma ciência da integração (Wiederhold 1999). Heterogeneidade em sistemas de informação geográficos não é uma exceção, mas a complexidade e riqueza dos dados geográficos e a dificuldade de sua representação em sistemas de computação criam problemas específicos para a interoperabilidade em sistemas de informação geográficos. A literatura mostra diversas propostas de integração de dados, desde federações de bancos de dados com esquemas integrados (Sheth e Larson 1990) e uso de orientação a objetos (Kent 1993; Papakonstantinou et al. 1995) até mediadores (Wiederhold 1991) e ontologias (Wiederhold 1994; Guarino 1998). As primeiras tentativas de se obter interoperabilidade em sistemas de informação geográficos foram através da tradução direta de formatos de dados de um fabricante de software para outro. Uma variação nesta prática foi o aparecimento de formatos padrões intermediários. Estes formatos intermediários podem levar à perda de qualidade na informação como é o caso das traduções usando-se o formato DXF, um formato de exportação utilizado por programas do tipo CAD. Formatos alternativos que evitam a perda de informação geralmente são mais complexos como o Spatial Data Transfer Standard (SDTS) (USGS 1998)e o Spatial Archive and Interchange Format (SAIF) (Columbia 2001). No Brasil, o formato IIG (Davis 1995) é usado para transferência de dados em alguns órgãos públicos .Uma proposta de modernização do formato SDTS usando-se uma estrutura de objetos que integra uma estrutura dinâmica, uma interface para o padrão OpenGIS e para CORBA foi apresentada em (Arctur et al. 1998). Perez (2000) apresentou uma proposta para sistemas de informações ambientais que estende parte do padrão americano de intercâmbio de dados geográficos do Federal Government Data Committee (FGDC). Uma tentativa mais ampla para se obter um formato de intercâmbio de dados brasileiro foi iniciado pelo INPE. O formato é chamado GeoBR (Câmara et al. 2000). Uma ampla discussão sobre formatos de transferência de informações geográficas pode ser encontrada em (Salgé 1999) e (Sondheim et al. 1999). Outra iniciativa para o intercâmbio de dados geográficos é o consórcio OpenGIS (OGIS 1996), que é uma ampla aliança de órgãos governamentais, institutos de pesquisa, desenvolvedores de software e integradores de sistemas. O objetivo deste consórcio é definir conceitos relativos a Sistemas Abertos de Informação Geográficos e desenvolver um conjunto de requisitos, padrões e especificações que o suportem. A intenção é encorajar os desenvolvedores de software e integradores a aderirem a estes padrões e assim criar, através do tempo, ferramentas, bancos de dados e sistemas de comunicação que maximizem a utilidade de sistemas e recursos e usufruam os avanços tecnológicos. Conforme o guia OpenGIS, o objetivo final é construir uma tecnologia que vai possibilitar ao desenvolvedor de aplicações usar qualquer dado, função ou processo geográfico disponível na rede dentro de um único ambiente e um único fluxo de trabalho(Gardels 1996; McKee e Buehler 1996). O OpenGIS usa três conceitos básicos: • A consideração de que todos os dados, processos e servidores são objetos baseados em uma tecnologia de objetos distribuídos; • Um modelo de objetos geográficos para informações espaciais, baseado no SAIF e compatível com SDTS (Spatial Data Transfer Standard) e DIGEST (padrão para troca de dados espaciais entre instituições militares); • Serviços a serem implementados fornecendo ligações entre o modelo de objetos e formatos de dados privados, definindo uma interface padrão para cada elemento do modelo (dados, funções e processos). Apesar de iniciativas como SDTS, SAIF, e OpenGIS, o uso de padrões como o único esforço importante para se obter interoperabilidade não é completamente aceito. Já que a heterogeneidade aparece espontaneamente de um mercado livre, não é possível banila por decreto (Elmagarmid e Pu 1990). O uso de tradutores semânticos em abordagens dinâmicas é uma ferramenta mais poderosa do que as abordagens atuais baseadas em padrões (Bishr 1997). Outro ponto importante em interoperabilidade de sistemas de informação geográficos é a semântica. A complexa questão do significado dos dados e sua descrição é apresentada em (Bishr 1998) onde são apresentados três tipos de heterogeneidade: • heterogeneidade sintática, onde os dados estão armazenados com formatos diferentes; • heterogeneidade esquemática, onde um objeto do mundo real é representado por diferentes conceitos em um banco de dados; e • heterogeneidade semântica, onde um único fato pode ter mais de uma descrição. O método mais usado para se resolver a heterogeneidade sintática é a adoção de padrões. Estes padrões criam uma linguagem comum onde diferentes representações podem se encontrar. SDTS, SAIF, e GeoBR são exemplos destas tentativas. A heterogeneidade esquemática tem sido um tema recorrente de pesquisa e a solução mais comum para este tipo de problema é a adoção de um esquema intermediário e comum a uma série de banco de dados. Esta solução é geralmente conhecida como uma federação de bancos de dados (Sheth e Larson 1990). Para se resolver a heterogeneidade semântica é necessário que se tenha resolvido antes as outras duas (Bishr 1997; Fonseca et al. 2000). Uma ciência multidisciplinar como é a biodiversidade acaba levando a ocorrência de heterogeneidade semântica. Esta heterogeneidade já é um problema na comunicação diária entre seres humanos, e sua ocorrência na ciência é mais problemática ainda. A tentativa de automatizar a solução deste processo é um desafio ainda maior. As principal tendência para se resolver as questões semânticas são os sistemas de informação baseados em ontologias (Guarino 1998; Fonseca e Egenhofer 1999). Uma outra tendência é o uso de Extensible Markup Language (XML). Características desta linguagem a levaram a ser usada para abordar todos os tipos de heterogeneidades. XML foi proposta pelo consórcio World Wide Web Consortium (W3C) como uma linguagem extensível que separasse armazenamento de dados da operação de visualização, sendo desta forma uma evolução em relação a Hypertext Markup Language (HTML). Com XML o usuário pode definir sua própria sintaxe e suas estruturas de dados. Desta forma dados podem ser compartilhados de uma forma estruturada. Também os metadados, a descrição dos dados, pode ser compartilhada com XML. Ela é um subconjunto da Standard Generalized Markup Language (SGML) e ambas não se baseiam em um conjunto restrito de marcadores que definem o significado de trechos dos documentos, como acontece com a linguagem Hyper Text Markup Language (HTML). Elas permitem e encorajam que as diversas comunidades existentes na Internet definam seus próprios elementos, através da criação de estruturas específicas chamadas Document Type Definition (DTD). Ao contrário da linguagem HTML, que se restringe à visualização e forma do documento, XML permite agregar semântica ao conteúdo destes documentos, deixando por conta de cada aplicação a interpretação da marcação atribuída a este conteúdo. O Resource Description Framework (RDF) é uma aplicação XML que permite a definição dos mecanismos para a representação de metadados. RDF fornece os mecanismos necessários para que as diversas comunidades codifiquem, troquem e reutilizem metadados estruturados em vez de definir um conjunto universal de metadados. O uso de XML para resolver a heterogeneidade semântica foi discutido em XOL (Karp et al. 1999), uma linguagem que foi criada para o facilitar o compartilhamento de ontologias. 4. Prioridades do GBIF O que o GBIF pretende administrar é uma estação virtual de bioinformática. Esta estação vai operar em rede interligando uma gama de bancos de dados e outras fontes de informação distribuídos em vários países. O objetivo principal é o compartilhamento de informações sobre a biodiversidade. O sistema será distribuído, para incentivar a cooperação e a coerência, será em escala global, embora implementado a nível nacional e regional, e aberto à participação e benefício de todos os países. Em sua proposta inicial O GBIF tem sete programas básicos dos quais três são prioritários: (1) acesso a dados e interoperabilidade entre bancos de dados; (2) o catálogo eletrônico de nomes das espécies conhecidas; e (3) a conversão para formato digital dos dados referentes a coleções de história natural. Esta proposta inicial do GBIF de colocar disponível informações armazenadas em diferentes sistemas originadas de diferentes países em diferentes nível de detalhes leva do ponto de vista técnico a três questões básicas: • sistemas de computador: programas de computador, redes, Internet, interfaces, linguagens, estado da tecnologia atual no Brasil; • intercâmbio de dados: padrões para troca de dados, formatos de dados; • semântica: o significado das informações do ponto de vista de cada comunidade. 4.1. Integração de Sistemas O objetivo do GBIF é a criação de pontos de concentração de informações e serviços. As informações estão armazenadas em uma variedade de bancos de dados e arquivos com outros tipos de organização. O que vai ser oferecido pelo GBIF são interfaces para acesso e busca de informações sobre biodiversidade. O GBIF é basicamente um integrador de serviços e informações. Para que isto aconteça é necessário que diversas camadas de software sejam ativadas. A estratégia do GBIF com relação a isto é estimular a implantação de um ou mais nós em cada participante. Estes nós vão funcionar como integradores das informações existentes em cada participante. Os principais produtos desta linha de ação são interfaces integradoras de informações. Também terão de ser desenvolvidas ligações entre bancos de dados diversos e as interfaces. Como a busca de informação é fundamental nesta fase, algoritmos de pesquisa terão de ser desenvolvidos. 4.2. Integração de Dados Através de Padrões Aqui o GBIF tem como objetivo o estabelecimento, ou a especificação, se necessário, de um padrão para troca de informações sobre a biodiversidade. Este padrão terá de ser compreensivo incluindo funcionalidades para lidar informações do tipo seqüências de DNA, arranjos moleculares, descrições de ecossistemas e informações geográficas associadas a estas outras. Como sempre, o objetivo de todo padrão é ser compreensivo e ao mesmo tempo não perder a riqueza das informações que estão sendo trocadas. Para se estabelecer padrões é necessário trabalhar com organizações como a ISO. Ao mesmo tempo é preciso analisar os padrões de fato do mercado e ver quais são os que se adaptam aos objetivos do GBIF. Os resultados desta fase são padrões de transferencia de dados aceitos e usados por todos os participantes. Ao mesmo tempo este padrão deve ser flexível o suficiente para aceitar a inclusão de novas tecnologias e novos participantes que talvez tenham necessidades ou formas diferentes de conhecimento. 4.3. Integração Semântica Um dos principais objetivos do GBIF é a integração de informações. Para isto é necessário que haja uma integração das várias camadas de software envolvidas e que haja um consenso sobre o valor semântico das informações. Como o GBIF vai lidar com a integração de informações de diferentes países e também em diferentes níveis de detalhe, isto nos leva a dois diferentes caminhos, ambos bastante complicados. Primeiro é a necessidade de uma visão de mundo comum entre os diversos participantes. Mesmo dentro de um único país, diferentes comunidades possuem diferentes visões de mundo considerando se uma perspectiva de biodiversidade. O segundo problema é estabelecer quais são os níveis de detalhe referentes a cada tipo de informação. A informação será coletada e distribuída desde o nível de espécies e ecossistemas até ao nível genético e molecular. A solução adotada pelo GBIF é o catálogo eletrônico de nomes das espécies conhecidas que vai funcionar como a ligação semântica entre as diversas fontes de informação. Além disto, o GBIF também irá desenvolver o banco de espécies, um catálogo com a descrição de cada espécie existente. A estratégia do GBIF para desenvolver estes dois catálogos é o incentivo a instituições locais para trabalhar sob a administração do GBIF no sentido de compilar estas informações. 5. Arquitetura de Sistemas: Possibilidades O GBIF não têm ainda uma arquitetura de sistemas definida. O que existe são os planos iniciais, a carta de intenções, e planos genéricos para os primeiros 10 anos. À medida que o GBIF for sendo implementado está arquitetura será definida mais precisamente. Nesta seção sugerimos opções para a possível implementação das propostas do GBIF. 5.1. Internet e XML Esta é a principal opção como o meio de distribuição para as informações coordenadas pelo GBIF. A Internet é pública e está presente em todo mundo. Além disto, ela oferece ferramentas de fácil uso para desenvolvimento de software e é interoperável por sua própria natureza. Embora o acesso em alguns países ainda seja problemático, estas barreiras têm caído continuamente. Mesmo nos países com uma infra-estrutura pouco desenvolvida para a Internet, esta costuma ainda ser a melhor opção de comunicação com o mundo exterior. XML tem sido cada vez mais usada como uma linguagem interoperável. Ela permite a definição da linguagem para o intercâmbio de documentos estruturados na Internet. Estas linguagens não se baseiam em um conjunto restrito de marcadores que definem o significado de trechos dos documentos, como acontece com o HTML (Hyper Text Markup Language); pelo contrário, elas permitem e encorajam que as diversas comunidades existentes na Internet definam seus próprios elementos, através da criação de DTD´s (Document Type Definition) específicas. O caráter extensível da linguagem XML estimula sua utilização nas mais diversas aplicações. Ao contrário da linguagem HTML, que restringe-se a descrever a estrutura do documento do ponto de vista da forma como o mesmo deve ser apresentado ao usuário, a linguagem XML permite agregar semântica ao conteúdo destes documentos, deixando por conta de cada aplicação a interpretação da marcação atribuída a este conteúdo. Esta abordagem amplia significativamente as possibilidades do uso das linguagens de marcação, entre elas a capacidade de definir Metadados – dados que descrevem dados. O Resource Description Framework (RDF) é uma aplicação XML que permite a definição dos mecanismos para a representação de metadados. O RDF é a base para o processamento de metadados; ele permite interoperabilidade entre aplicações que trocam informações interpretadas por máquinas na Web. A idéia básica do RDF é prover os mecanismos necessários para que as diversas comunidades codifiquem, troquem e reutilizem metadados estruturados e não o de definir um conjunto universal de metadados.Assim que se definir o uso de XML no consórico GBIF, uma das prioridades será a criação de DTDs para os diversos objetos da biodiversidade. 5.2. Modelo de Dados Uma das decisões que o GBIF deverá tomar logo no primeiro ano é a questão da complexidade do modelo de dados. O que está proposto hoje é apenas um índice geral baseado nos nomes das espécies conhecidas. Uma proposta mais ousada seria criar ontologias de biodiversidade. Esta ontologias seriam bastante complexas e teriam ligações com as fontes de informação de biodiversidade como é sugerido nos sistemas de informação baseados em ontologias (Guarino 1998; Fonseca e Egenhofer 1999). Um índice taxonômico como esta sendo proposto agora vai apenas apontar para páginas na Internet onde estão informações ou ligações para estas informações sobre as espécies nomeadas no índice. Um sistema baseado em ontologias teria ligações com objetos que representariam entidades nas ontologias. Com as modernas tecnologias de computação que estão sendo desenvolvidas atualmente, um nodo de uma ontologia de biodiversidade poderia apontar para um objeto na Internet. Este objeto poderia apontar para um exemplar da espécie que poderia estar sendo monitorado por um GPS ou por uma câmera ao vivo diretamente do habitat da espécie. Os sistemas de informação baseados em ontologias são discutidos em mais detalhe na seção “O Brasil além do GBIF”. A criação de ontologias de biodiversidade, dos diversos ecossistemas e das espécies deve ser resolvida tão cedo quanto possível. Também as estratégias para se desenvolver estas ontologias e o nível de detalhe de cada uma também são prioridades. A integração e compartilhamento de informações serão feitos através de pontos em comum nestas ontologias. 5.3. Arquitetura Em um sistema baseado em ontologias as pesquisas sempre começam pelo folheador de ontologias. As ontologias fornecem os metadados e também apontam para os verdadeiros dados. Os principais componentes de um sistema destes são: • O servidor de ontologias tem um papel central neste sistema porque ele conecta todos os outros componentes. O servidor é também responsável em colocar as ontologias disponíveis para as aplicações. A conexão com as fontes de informação é feita através de mediadores. Os mediadores procuram por informações sobre biodiversidade e as traduzem para os formatos padrões do GBIF. Mediadores são pequenos programas com conhecimento embutido. Especialistas constroem os mediadores e os mantêm atualizados. • as fontes de informações podem ser qualquer tipo de arquivos digitais conquanto que eles se comprometam com um mediador. O mediador extrai as partes necessárias para compor uma unidade de informação correspondente a uma entidade nas ontologias. O mediador também traz informações de volta a fonte no caso de atualização. • as aplicações geralmente vão ser relacionadas à recuperação de informações. O usuário folheia as ontologias e escolhe as classes que deseja pesquisar. O usuário pode escolher o nível de detalhe das ontologias que deseja folhear e vai então recuperar as informações neste mesmo nível de detalhe. Outros tipos de aplicações de podem ser desenvolvidos. Informação 5.4. Interface de Usuário A principal interface para o acesso ao GBIF será um navegador com suporte a linguagem Java. A interface do GBIF deverá ser altamente interativa e deverá saber como manipular e extrair das fontes de informações os objetos com informações sobre biodiversidade. Mas sabemos que para realizar esta tarefa as limitações da linguagem HTML (HyperText Markup Language) seriam intransponíveis. A arquitetura da interface deve ser dinâmica para suportar as novas fontes de informação de biodiversidade e suas implementações orientadas a objeto através da Web. A linguagem Java preenche perfeitamente esta arquitetura para se fazer a reengenharia do navegador. Embora os navegadores sem Java tenham demonstrado a possibilidade de se localizar e recuperar informações armazenadas em servidores Web, sua interface gráfica deixou a desejar em termos de sofisticação. Demora no recebimento de informações e a limitação das ações disponíveis nos documentos escritos em HTML impediram um uso mais confortável destes navegadores. Os navegadores habilitados para Java conseguem superar estas limitações provendo capacidade de processamento local para detecção e resposta a eventos gerados por mouse ou teclado. A linguagem Java traz de volta à máquina local a responsabilidade pelo processamento dos menus e interfaces, liberando o usuário das limitações da conexão de rede com o servidor Web. 5.5. Conclusões O resultado da arquitetura do GBIF deve ser uma solução que possa ser empacotada e distribuída para participantes que tenham menor poder tecnológico e por conseqüência tenham dificuldades de desenvolver suas próprias soluções. Um modelo semelhante às iniciativas do GNU e do Linux, padrões abertos e softwares distribuídos livremente vão colaborar para preservação e desenvolvimento do conhecimento sobre a biodiversidade. É importante considerar que boa parte da biodiversidade mundial está em países do terceiro mundo onde nem sempre existem condições econômicas para investimentos em software e hardware. 6. O Brasil Além do GBIF - Uma Perspectiva Brasileira na Integração de Informações sobre a Biodiversidade A linha de atuação do GBIF é a de integrar informações sobre biodiversidade. Nos primeiros anos o GBIF vai tentar estabelecer padrões de trocas de dados e iniciar/complementar a criação dos seus dois catálogos básicos, (1) o catálogo de nomes das espécies conhecidas e (2) o banco de dados de espécies. O que propomos nesta seção são atividades paralelas à participação do Brasil no GBIF. Estas atividades podem ser vistas como um complemento às outras atividades do Brasil no GBIF. Aqui são discutidos temas de pesquisa que podem ser desenvolvidos no Brasil dentro e paralelamente ao escopo das atividades do Brasil no GBIF. Uma dos pontos básicos em trocas e informações digitais é o estabelecimento de padrões. O Brasil embora tenha participado de algumas tentativas não tem ainda um padrão para troca de informações digitais. Aqui vamos discutir os padrões disponíveis e já estudados no Brasil e sugerir que algum padrão deva ser adotado. Os planos iniciais do GBIF estão dirigidos a publicação de índices para informações. Numa primeira fase, as informações propriamente ditas não deverão estar necessariamente disponíveis para acesso em uma rede pública como a Internet, mas apenas apontadores para estas informações. Nós consideramos que a publicação imediata de informações substanciais, ao invés de apenas apontadores para estas informações, em páginas disponíveis na Internet como uma prioridade que o Brasil deve procurar. Finalmente, outro ponto a ser abordado é a questão da heterogeneidade semântica na integração de sistemas. A nova geração de sistemas de informação deverá resolver esta questão. Estes novos sistemas estarão mais preocupados em administrar conhecimento e não apenas informações ou dados. Para isto é necessário que consiga acordos básicos sobre o sentido das informações armazenadas digitalmente. Em sua fase inicial, o GBIF trata desta questão de forma incompleta através da implementação de catálogos com nomes e sinônimos. Os sistemas baseados em ontologias levam esta questão adiante e propõe soluções arrojadas para a heterogeneidade semântica. Desta maneira, discutimos aqui os pontos básicos de uma metodologia para a construção de um sistema brasileiro de biodiversidade baseado em ontologias. 6.1. Padrões Com a participação brasileira no GBIF começa a se caracterizar a necessidade de se trocar informações georeferenciadas e convencionais, gráficas e alfanuméricas, entre sistemas de informação distintos. A atual disponibilidade, e potencial implantação, de sistemas de informações geográficas em diversos órgãos interessados em biodiversidade e o fato de que a maioria destas informações pode ser geo-referenciada leva a necessidade de que este padrão tem um componente geo-espacial. Portanto a falta de um padrão universal para intercâmbio de informações geográficas no Brasil é obstáculo à plena evolução dos sistemas de biodiversidade no Brasil. Ao se analisar a atual padronização em termos de intercâmbio de informações geográficas, verificamos que existe um número muito reduzido de padrões de fato, e mesmo estes se mostram inadequados para suportar todas as necessidades de troca. Os sistemas de informação geográficos conhecidos, dentre os atualmente disponíveis, tipicamente suportam alguns formatos de intercâmbio de informações gráficas nativos de sistemas CAD, alguns dos formatos de arquivos definidos por instituições governamentais americanas como o FGDC, e também algum tipo de formato proprietário, destinado a transportar informações entre diferentes instalações do mesmo sistema. Um dos padrões de fato utilizados por praticamente todos os sistemas gráficos vetoriais, por exemplo, é o formato DXF (Drawing eXchange Format), definido pela empresa americana Autodesk, como subsídio à importação e exportação de gráficos para seu sistema de desenho assistido por computador, o AutoCAD. Pela universalidade do AutoCAD, que é de longe o software de CAD mais utilizado no mercado, e pelas excelentes características de representação de entidades gráficas inerentes àquele produto, este padrão veio a ser suportado por diversos fabricantes de software gráfico, inclusive de geoprocessamento. Sabe-se, no entanto, que o formato DXF, que é bastante completo na representação de gráficos, tem limitações sérias no que tange à representação e transferência de atributos associados às entidades gráficas. Além disto, por ser o AutoCAD um software que não tem maiores preocupações quanto à topologia da representação gráfica, não existem garantias quanto à consistência do conteúdo de cada camada, ao contrário do que se espera em um sistema de informações geográficas, onde cada camada deveria conter apenas um tipo de objeto. 6.1.1. Iniciativas Nacionais Perez (2000) apresentou uma proposta para sistemas de informações ambientais que estende parte do padrão americano de intercâmbio de dados geográficos do Federal Government Data Committee (FGDC). A proposta é uma arquitetura genérica para a extração de dados ambientais distribuídos e um modelo de metadados para a definição da estrutura dessas fontes de dados. Com base nesse modelo foi construída uma ferramenta para gerência de metadados ambientais. O modelo pode ser estendido para aplicação em outras estruturas de armazenamento de diferentes dos padrões. O formato IIG (Davis 1995) embora com pretensões limitadas, consegue transferir parte das informações armazenadas em um sistemas de informação geográficos e tem sido usado com sucesso. O formato tem recursos para a indicação do sistema de projeção e sistema de coordenadas utilizado, além do sistema de unidades empregado para representar as coordenadas. A eventual tradução de coordenadas com base nestes parâmetros é feita pelo recebedor das informações. Quando é necessário representar coordenadas geográficas esféricas (latitude e longitude) elas são apresentadas na ordem longitude - latitude, em analogia à representação mais comum na ordem X-Y para coordenadas cartesianas. As coordenadas esféricas são representadas em graus e frações de grau, em vez de em graus, minutos e segundos, para facilitar o tratamento computacional em uma eventual mudança de sistema de coordenadas. Quanto à parte gráfica, o formato representa as informações sob a forma de pontos ou linhas, sendo que estas poderão ser poligonais abertas ou fechadas. O formato aceita textos gráficos. O IIG não representa entidades gráficas mais complexas e nem imagens digitais. A proposta mais recente e mais ambiciosa no Brasil é o formato GeoBR (Câmara et al. 2000). Criado pelo grupo de geoprocessamento do INPE, este formato tenta preencher a lacuna de um formato nacional mais completo e que possa competir com os formatos usados hoje comercialmente. O projeto pretende fornecer livremente um software que converte de e para o GeoBr e diversos formatos comerciais, entre eles, SPRING, DXF, ARC/INFO, ARC/VIEW e MapInfo. A principal característica da proposta é ser simples, mas ainda assim permitir a inclusão dos diferentes tipos de dados presentes num Sistema de Informações geográficas (pontos 2D e 3D, linhas simples e linhas cotadas, centróides, tabelas de atributos). Imagens são transferidas usando se o formato para imagens já bastante difundido, o GeoTIFF. O formato GEOBR propõe o intercâmbio de dados baseado em camadas independentes. Cada arquivo GEOBR contém um dado geográfico bem definido, com todas as informações necessárias para sua decodificação, inclusive com sua descrição (metadados). O arquivo GEOBR é codificado em ASCII, contendo dois tipos de linhas: Palavras-Chave, que identificam os diferentes tipos de componentes do formato, e Dados, expressos em coordenadas geográficas e atributos descritivos. A participação do Brasil no GBIF parece ser uma boa oportunidade para se discutir a proposta do GeoBR em um fórum mais amplo e confirmá-lo como o padrão brasileiro de intercâmbio de dados geográficos. 6.1.2. Iniciativas Internacionais As iniciativas internacionais estão em sua maioria ligadas a organizações de caráter nacional ou profissional. Este é o caso do National Transfer Standard (NTF) no Reino Unido, EDIGéO na França, Spatial Data Transfer Standard (SDTS) nos Estados Unidos e o Spatial Archive and Interchange Format (SAIF) no Canadá. O formato de transferencia de dados mais conhecido criado por organizações profissionais é o Digital Geographic Information Exchange Standard (DIGEST) criado pelo Ministério de Defesa da OTAN. A conveniência de o Brasil adotar um destes formatos ou basear seu formato em um destes é aproveitar o volume de pesquisas que já foi feito para a criação destes padrões. A desvantagem é a falta de suporte no Brasil e possíveis características regionais destes formatos. 6.2. Informações Substanciais na Internet Um dos objetivos do GBIF é colocar disponível na Internet metadados sobre as fontes de informação sobre biodiversidade. Mas além deste tipo de informação, páginas sobre todas as espécies do planeta deveriam também ser publicadas na Internet. Embora este não seja ainda um dos objetivos imediatos do GBIF, ele deverá ser mais cedo ou mais tarde colocado como uma das prioridades do consórcio. Usando-se os recursos mais modernos como XML, podemos ter em uma página as metainformações, as informações propriamente ditas. Alem disto, uma tendência atual é a publicação também de resumos das informações. Estas páginas não podem ser páginas estáticas em HTML. Em vez disto é preciso que sejam dinâmicas, com ligações para os seres vivos, para os ecossistemas, usando se serviços de comunicação sem fio, GPS, câmeras ao vivo entre outras coisas. Os recursos tecnológicos estão disponíveis e os pesquisadores do meio-ambiente precisam usar a imaginação para traduzir a riqueza dos ecossistemas para páginas na Internet. Comparações entre dados colhidos por pesquisadores diferentes, visualizações de metodologias e seus resultados, uso de imagens em 3-D, multimídia, satélites, tudo isto deve ser a base para uma comunicação efetiva que consiga traduzir em termos digitais a complexidade do mundo biológico. 6.3. Ontologias e a Integração Semântica de Informações - Uma Perspectiva Brasileira A abordagem do GBIF com relação à heterogeneidade semântica é limitada a palavras chaves e sinônimos presentes no catálogo eletrônico dos nomes de organismos conhecidos e no banco de espécies. Os sistemas que desejam ter uma abordagem mais ousada com relação à questão semântica estão usando ontologias como suporte. Ontologias como uma ferramenta de engenharia descrevem uma certa realidade com um vocabulário específico usando um conjunto de premissas de acordo com o sentido intencional das palavras do vocabulário. No sentido filosófico, ontologia é um sistema específico de categorias que reflete uma visão específica do mundo. Gruber (1992) define uma ontologia como uma especificação explícita de uma conceituação. Guarino (1998) estende a definição apresentada por Gruber (1992): uma ontologia é uma teoria lógica que corresponde ao significado intencional de um vocabulário formal, ou seja, um comprometimento ontológico com uma conceituação específica do mundo. Os modelos intencionais de uma linguagem lógica usando este vocabulário são controlados por seu comprometimento ontológico. Este comprometimento é a conceituação subentendida são refletidas na ontologia pela aproximação desses modelos intencionais. 6.3.1. Sistemas de Informação Baseados em Ontologias Sistemas de Informação Baseados em Ontologias são baseados em duas noções básicas: (1) tornar as ontologias explícitas antes de desenvolver os sistemas e (2) a divisão hierárquica das comunidades de usuários. Uma ontologia representa uma visão de mundo. Os objetos representados nas ontologias são os objetos do mundo real. Quando se especifica uma ontologia não existe uma preocupação com a representação final em sistemas de computação. Por exemplo, o conceito lago pode ser representado de diferentes maneiras em diferentes bancos de dados, mas o conceito é sempre o mesmo, pelo menos do ponto de vista de cada comunidade de usuários. Este ponto de vista é expresso na ontologia especificada pela própria comunidade. Num sistema baseado em ontologias são os mediadores que agem para captar os aspectos que caracterizam um lago a partir de diversos bancos de dados e montam o que é um lago como especificado na ontologia. O mundo está dividido em diferentes grupos de pessoas. Cada grupo tem uma visão diferente do mundo. McKee e Buehler (1996) chamam estes grupos de comunidade de geo-informação. Cada um destes grupos compartilha a mesma ontologia (Bishr et al. 1999). Uma pressuposição básica de um sistema baseado em ontologias é que as ontologias de cada comunidade podem ser explicitamente especificadas, e além disto, integradas mais tarde se for necessário. A hierarquia de comunidades vai servir para gerar ontologias de diferentes níveis o que vai corresponder à integração de informações a diferentes níveis também. Por exemplo, uma comunidade a nível estadual em São Paulo tem sua ontologia especificada num nível mais alto (mais genérico) do que uma comunidade de um município. Esta última é mais detalhada. Quando da integração de ontologias a nível estadual, as informações mais detalhadas dos municípios são adaptadas para se adequar à ontologia de nível mais alto. Uma comunidade pode se ligar a diversas ontologias. As informações são compartilhadas através das classes em comum. O nível de detalhe é relacionado ao nível da ontologia. Uma abordagem que considera as ontologias de forma flexível, através de composição de ontologias através do uso de classes de outras ontologias quando necessário, não restringe as comunidades a uma única ontologia comum a todas. As ontologias comuns são usadas como o elo de ligação entre as comunidades. Quanto mais fundo na árvore de ontologias menos informação será compartilhada. Neste tipo de sistema, as ontologias devem ser especificadas em diferentes níveis. A principio as ontologias de mais alto nível são especificadas e a partir delas, as ontologias de mais baixo nível, as mais detalhadas. No entanto alguns autores considerem que é mais viável especificar primeiro ontologias de nível médio e a partir delas gerar ambas, as de mais alto nível e as de mais baixo nível. 6.3.2. Como Construir Ontologias O uso de ontologias explícitas no desenvolvimento e uso de sistemas de informação leva ao que são chamados de Sistemas de Informação baseados em ontologias (Guarino 1998). As ontologias podem ser representadas, por exemplo, usando se uma estrutura formal baseada em Rodriguez (2000), que descreve ontologias através seus componentes: partes, funções e atributos. Esta estrutura considera mais a robustez da implementação (Guarino et al. 1999), já que não é direcionada a ser usada em sistemas dedução automática e sim para extração e manipulação de informações. Em Cranefield (1999) pode ser encontrada uma discussão completa sobre as formas de armazenamento de ontologias de acordo com o uso pretendido. As ontologias são organizadas em uma estrutura hierárquica, já que está é considerada uma das melhores formas de se representar o mundo geográfico (Smith 1995; Harvey et al. 1999). O mapeamento das entidades presentes nas ontologias para componentes de software é feito usando se técnicas de orientação a objeto. Este tipo de mapeamento permite integração parcial de informações quando uma integração completa não é possível. Este sistema permite ainda o reaproveitamento de classes já desenvolvidas, incorporando, assim, nos novos sistemas, o conhecimento existente em outros sistemas. Um sistema de informação baseado em ontologias é composto por um editor de ontologias, por um servidor de ontologias, por ontologias especificadas formalmente e por classes derivadas de ontologias. A especificação de ontologias é feita através do uso de um editor de ontologias. Um sistema para editar, folhear, traduzir e reutilizar ontologias é o Ontolíngua (Gruber 1992). O sistema Ontolíngua permite que a edição de ontologias seja feita por grupos de especialistas trabalhando simultaneamente. As ontologias podem ser traduzidas para linguagens como CORBA Interface Definition Language (IDL) (OMG 1991), Prolog (Clocksin e Mellish 1981), Epikit e KIF (Genesereth 1990). O resultado do processo inicial de uso de um sistema de informações baseado em ontologias é um conjunto de ontologias especificadas formalmente e um conjunto de classes. Podemos chamar este processo inicial de geração de conhecimento. As ontologias são administradas por um servidor de ontologias. Este servidor permite o folheamento de ontologias, assim, colocando à disposição de usuários, os metadados referentes às informações disponíveis. O servidor de ontologias também contém apontadores para sistemas de informação geográficos. A comunicação entre o servidor de ontologias e os sistemas de informação é feita através de mediadores. Estes mediadores são responsáveis por extrair as informações dos sistemas de informação e criar as instâncias das classes. Estas classes vão conter as informações extraídas dos sistemas de informação e o conhecimento extraído das ontologias. 6.4. Conclusão É importante que paralelamente a iniciativa da entrada do Brasil no GBIF algumas linhas de pesquisa sejam seguidas. A primeira é com o intuito de estabelecer um padrão de dados para o Brasil. Este padrão pode ser criado baseado em experiências brasileiras, como é o caso da proposta do GeoBR (Câmara et al. 2000) ou adaptado/estendido de algum modelo já existente. A publicação das informações sobre biodiversidade no Brasil na Internet em sua forma substancial e não apenas apontadores para estas informações é fundamental para o desenvolvimento desta área no Brasil. Outro ponto importante é a pesquisa de sistemas onde a semântica tem um papel principal. Os sistemas de informação baseados em ontologias são uma tendência dos modernos sistemas de informação. Para uma total integração das iniciativas de biodiversidade no Brasil é necessário que se desenvolvam ontologias que capturem as visões de mundo das diversas comunidades que trabalham com a biodiversidade no Brasil. 7. Conclusões Este relatório apresentou uma visão geral do que é o GBIF e seus principais objetivos. Os planos iniciais do GBIF são de estabelecer uma rede pública com índices para informações sobre biodiversidade de todo o mundo. Um catálogo de nomes dos organismos conhecidos deve ser criado assim como um banco com os nomes e dados básicos de todas as espécies. A estrutura pretendida pelo GBIF é bem semelhante a que o Brasil já desenvolve com projetos como o BIOTA-SP. Uma das estratégias do GBIF é estimular projetos como o BIOTA-SP, estabelecer padrões, e criar condições tecnológicas para que estes projetos possam estar ligados a uma grande rede de computadores que permita o acesso a nível mundial independente de localização ou de língua. A conveniência ou não do Brasil participar deste projeto não foi discutida neste relatório. As vantagens e desvantagens do ponto de vista da troca de informações sobre a biodiversidade também estão fora do escopo deste relatório. Da mesma forma, a questão de direitos autorais sobre as informações a serem compartilhadas, uma das preocupações do GBIF, também não é discutida neste documento. Apenas as condições técnicas necessárias para que o Brasil participe foram apresentadas. Nossa opinião é que o Brasil tem a tecnologia necessária para participar, tanto do ponto de vista computacional como do ponto de vista de conhecimento sobre biodiversidade. O projeto BIOTA-SP, e sua extensão SIN-BIOTA-SP, que permite o acesso on-line das informações são uma prova disto. Na primeira parte deste documento fizemos uma introdução sobre o que é o GBIF. Então apresentamos uma breve descrição técnica do GBIF e depois introduzimos uma revisão sobre o estado atual da Interoperabilidade, um problema fundamental para a implementação do GBIF. Na segunda parte deste documento analisamos tecnicamente o plano do GBIF. Primeiramente as questões relativas a padrões de intercâmbio de dados, software necessário para implementação e integração semântica de informações foram analisadas sob o ponto de vista do GBIF. Depois fizemos uma descrição das possibilidades técnicas para a implementação das propostas do GBIF. Depois disto apresentamos uma sugestão de como o Brasil pode usar a participação no GBIF para iniciar projetos paralelos que vão contribuir para o desenvolvimento tecnológico brasileiro e também para aumentar e divulgar a área de conhecimento sobre biodiversidade. Sugerimos o uso de sistemas de informação baseados em ontologias, a criação de ontologias brasileiras sobre biodiversidade, e a definição de padrões brasileiros para trocas de dados. 8. Referências D. Arctur, D. Hair, G. Timson, E. Martin, e R. Fegeas (1998) Issues and Prospects for the Next Generation of the Spatial Data Transfer Standard (SDTS). International Journal of Geographical information Science 12(4): 403-425. C. Batini, M. Lenzerini, e S. Navathe (1986) A Comparative Analysis of Methodologies for Database Schema Integration. ACM Computing Surveys 18(4): 323-364. Y. Bishr (1997) Semantic Aspects of Interoperable GIS. Ph.D. Thesis, Wageningen Agricultural University, The Netherlands. Y. Bishr (1998) Overcoming the Semantic and Other Barriers to GIS Interoperability. International Journal of Geographical Information Science 12(4): 299-314. Y. A. Bishr, H. Pundt, W. Kuhn, e M. Rdwan (1999) Probing the Concepts of Information Communities - A First Step Toward Semantic Interoperability. in: M. Goodchild, M. Egenhofer, R. Fegeas, e C. Kottman, (Eds.), Interoperating Geographic Information Systems. pp. 55-70, Kluwer, Norwell, MA. Y. Breitbart, H. Garcia-Molina, W. Litwin, N. Roussopoulos, M. Risinkiewicz, G. Thompson, e G. Wiederhold (1990) Final Report of the Workshop on Multidatabases and Semantic Interoperability, Tulsa, Oklahoma, November 2-4, 1990. University of Kentucky, Department of Computer Science, Lexington, KT, Technical Report 188-91. G. Câmara, A. Monteiro, J. Paiva, R. Souza, J. D'Alge, E. Lopes, ClaudioBarbosa, e U. Freitas (2000) Intercambio de Dados Geográficos no Brasil: Um Formato Aberto. INPE. W. Clocksin e C. Mellish (1981) Programming in Prolog. Springer-Verlag, New York. G. o. B. Columbia (2001) Geographic data BC - SAIF and FMEBC. S. Cranefield e M. Purvis (1999) UML as an Ontology Modelling Language. in: D. Fensel, (Ed.) Workshop on Intelligent Information Integration, 16th International Joint Conference on Artificial Intelligence, Stockholm. C. Davis (1995) Intercâmbio de Informações Geográficas: Proposta Preliminar. Prodabel, Belo Horizonte, Technical Report. A. Elmagarmid e C. Pu (1990) Guest editors' Introduction to the Special Issue on Heterogeneous Databases. ACM Computing Surveys 22(3): 175-178. F. Fonseca e M. Egenhofer (1999) Ontology-Driven Geographic Information Systems. in: C. B. Medeiros, (Ed.) 7th ACM Symposium on Advances in Geographic Information Systems, Kansas City, MO, pp. 14-19. F. Fonseca, M. Egenhofer, C. Davis, e K. Borges (2000) Ontologies and Knowledge Sharing in Urban GIS. CEUS - Computer, Environment and Urban Systems 24(3): 232251. M. Gahegan (1999) Characterizing the Semantic Content of Geographic Data, Models, and Systems. in: M. Goodchild, M. Egenhofer, R. Fegeas, e C. Kottman, (Eds.), Interoperating Geographic Information Systems. pp. 71-84, Kluwer Academic Publishers, Norwell, MA. K. Gardels (1996) The Open GIS Approach to Distributed Geodata and Geoprocessing. in: Third International Conference/Workshop on Integrating GIS and Environmental Modeling, Santa Fe, NM, pp. 21-25. GBIF (2000) Global Biodiversity Information Facility. M. R. Genesereth (1990) The Epikit Manual. Epistemics, Inc., Palo Alto, CA, Technical Report. T. Gruber (1992) A Translation Approach to Portable Ontology Specifications. Knowledge Systems Laboratory - Stanford University, Stanford, CA, Technical Report KSL 92-71. N. Guarino (1998) Formal Ontology and Information Systems. in: N. Guarino, (Ed.) Formal Ontology in Information Systems. pp. 3-15, IOS Press, Amsterdam, Netherlands. N. Guarino, C. Masolo, e G. Vetere (1999) OntoSeek: Content-Based Access to the Web. IEEE Intelligent Systems 14(3): 70-80. F. Harvey (1999) Designing for Interoperability: Overcoming Semantic Differences. in: M. Goodchild, M. Egenhofer, R. Fegeas, e C. Kottman, (Eds.), Interoperating Geographic Information Systems. pp. 85-98, Kluwer Academic Publishers, Norwell, MA. F. Harvey, B. Buttenfield, e S. Lambert (1999) Integrating Geodata Infrastructures from the Ground Up. Photogrammetric Engineering & Remote Sensing 65(11): 1287-1291. INPE (1998) Computational Issues in Interoperability in GIS. INPE/University of Maine. M. Jarke, K. Pohl, C. Rolland, e J. Schmitt (1994) Experience-Based Method Evaluation and Improvement: a Process Modelling Approach. in: IFIP Working Group 8: CRIS 94, Maastricht, Netherlands, pp. 1-27. G. Kahn, D. McQueen, e G. Plotkin, Eds. (1984) Semantics of Data Type. SpringerVerlag, New York. P. Karp, V. Chauhdri, e J. Thomere (1999) XOL: an XML-based Ontology Exchange Language. Artificial Intelligence Center SRI International, Menlo Park, CA, Technical Report. V. Kashyap e A. Sheth (1996) Semantic Heterogeneity in Global Information System: The Role of Metadata, Context and Ontologies. in: M. Papazoglou e G. Schlageter, (Eds.), Cooperative Information Systems: Current Trends and Directions. pp. 139-178, Academic Press, London. W. Kent (1993) Object Orientation and Interoperability. in: Advances in ObjectOriented Database Systems. NATO Advanced Study Institute on Object-Oriented Database Systems 130, pp. 287-305, Springer, Izmir, Kusadasi, Turkey. L. McKee e K. Buehler, Eds. (1996) The Open GIS Guide. Open GIS Consortium, Inc, Wayland, MA. E. Mena, V. Kashyap, A. Illarramendi, e A. Sheth (1998) Domain Specific Ontologies for Semantic Information Brokering on the Global Information Infrastructure. in: N. Guarino, (Ed.) Formal Ontology in Information Systems. pp. 269-283, IOS Press, Amsterdam. OECD (1999) Meeting of the Commitee for Scientific and Technologic Policy at Ministerial Level. OGIS, Ed. (1996) The OpenGIS ® Guide - Introduction to Interoperable Geoprocessing and the OpenGIS Specification. Open GIS Consortium, Inc, MA. OMG, Ed. (1991) The Common Object Request Broker: Architecture and Specification, Revision1.1. OMG Document No. 91.12.1 Framingham, MA. Y. Papakonstantinou, H. Garcia-Molina, e J. Widom (1995) Object Exchange Across Heterogeneous Information Sources. in: IEEE International Conference on Data Engineering, Taipei, Taiwan, pp. 251-260. H. A. d. M. Perez, A. M. d. C. Moura, e A. K. Tanaka (2000) Extração de Dados em Sistemas de Informação Ambientais: Arquitetura e Esquema de Metadados. in: L. Figueiredo, (Ed.) Geoinfo 2000 - II Workshop Brasileiro de Geoinformatica, Sao Paulo, Brazil. A. Rodríguez (2000) Assessing Semantic Similarity among Spatial Entity Classes. Ph.D. Thesis, University of Maine, Orono. F. Salgé (1999) National and International Data Standards. in: P. Longley, M. Goodchild, D. Maguire, e D. Rhind, (Eds.), Geographical Information Systems. 1 Principles and Technical Issues, pp. 693-706, John Wiley & Sons, New York. A. Sheth (1999) Changing Focus on Interoperability in Information Systems: from System, Syntax, structure to Semantics. in: M. Goodchild, M. Egenhofer, R. Fegeas, e C. Kottman, (Eds.), Interoperating Geographic Information Systems. pp. 5-29, Kluwer Academic Publishers, Norwell, MA. A. Sheth e J. Larson (1990) Federated Databases Systems for Managing Distributed, Heterogeneous, and Autonomous Databases. ACM Computing Surveys 22(3): 183-236. B. Smith (1995) On Drawing Lines on a Map. in: A. Frank e W. Kuhn, (Eds.), Spatial Information Theory—A Theoretical Basis for GIS, International Conference COSIT '95. Lecture Notes in Computer Science 988, pp. 475-484, Springer Verlag, Berlin. M. Sondheim, K. Gardels, e K. Buehler (1999) GIS Interoperability. in: P. Longley, M. Goodchild, D. Maguire, e D. Rhind, (Eds.), Geographical Information Systems. 1 Principles and Technical Issues, John Wiley & Sons, INC, New York. USGS (1998) View of the Spatial Data Transfer Standard (SDTS) Document. G. Wiederhold (1991) Mediators in the Architecture of Future Information Systems. Stanford University, Technical Report. G. Wiederhold (1994) Interoperation, Mediation and Ontologies. in: International Symposium on Fifth Generation Computer Systems (FGCS94), Tokyo, Japan, pp. 33-48. G. Wiederhold (1998) Value-added Middleware: Mediators. Stanford University, Technical Report. G. Wiederhold (1999) Mediation to Deal with Heterogeneous Data Sources. in: A. Vckovski, K. Brassel, e H.-J. Schek, (Eds.), Interoperating Geographic Information Systems - Second International Conference, INTEROP'99. Lecture Notes in Computer Science 1580, pp. 1-16, Springer-Verlag, Berlin. M. Worboys e S. Deen (1991) Semantic Heterogeneity in Geographic Databases. SIGMOD RECORD 20(4): 30-34.