Intercom – Sociedade Brasileira de Estudos Interdisciplinares da Comunicação XXVIII Congresso Brasileiro de Ciências da Comunicação – Uerj – 5 a 9 de setembro de 2005 Busca de informação cientifica em Ciências da Comunicação: ferramenta de coleta automática ARCom 1 Roberto Seiti Yamashiro2 Sueli Mara S.P. Ferreira3 Resumo Falar em produção cientifica em ciências da comunicação envolve varias sub-áreas (jornalismo, publicidade, propaganda, radio, cinema, televisão, editoração, jornalismo e relações publicas), diversificadas fontes e suportes (material impresso, sonoro, digital, visual, multimídia, fotográfico etc.) múltiplos softwares e sistemas e centenas de tipos de documentos (livros, revistas, jornais, fotografias, vinhetas, programas de radio, vídeos dentre outros). Agrega-se a todo este contexto a dispersão geográfica dos produtores e autores destes conteúdos e a inexistência de mecanismos de coleta integrada e normalizada. Um projeto de personalização e implantação de uma ferramenta pré-existente de busca de documentos acadêmicos (intitulado ARC – A Cross Archive Search Service) vem sendo desenvolvido pela rede Portcom/Intercom com o objetivo de localizar e indexar metadados dos conteúdos incluídos em repositórios de documentos compatíveis com o OAI-PMH, oferecendo uma busca integrada - via interface única - aos usuários finais. Inicialmente, esta ferramenta foi submetida a testes, para coleta automática dos conteúdos dos demais projetos da Rede: Repositórios Institucionais em Ciências da Comunicação (Reposcom, com o software DSpace), a Arena Cientifica (com o software EPrints) e a coleção eletrônica de revistas Revcom (software PKP-OJS/SEER). Este paper relata a experiência de customização de um provedor de serviços, no caso um coletor de metadados (metadata harvester), para a área de Comunicação intitulado ARCom, descreve suas vantagens e dificuldades, as especificidades delimitadas pela área de ciências da comunicação e aponta novos caminhos de pesquisa. Palavras-chave Movimento do Livre Acesso; Provedor de serviço OAI, Protocolo OAI, Software ARC – Harvester, Produção cientifica 1 Introdução A carência e dispersão do acesso à produção técnica, científica e acadêmica em Ciências da Comunicação se dá por diversos motivos. Por um lado tem-se o próprio 1 Trabalho apresentado na Intercom Jovem – XVIII Congresso Brasileiro em Ciências da Comunicação. Rio de Janeiro, 5-9 de setembro de 2005. 2 Bolsista de iniciação cientifica da Portcom/Rede de Informação em Ciências da Comunicação dos Paises de Língua Portuguesa da Intercom.Aluno do Curso de Computação do Instituto de Matemática e Estatística da USP. E-mail: [email protected] 3 Doutora em Ciências da Comunicação. Professora do Depto. Biblioteconomia e Documentação da ECA/USP. Coordenadora da Portcom/Rede de Informação em Ciências da Comunicação dos Paises de Língua Portuguesa da Intercom. Email: [email protected] 1 Intercom – Sociedade Brasileira de Estudos Interdisciplinares da Comunicação XXVIII Congresso Brasileiro de Ciências da Comunicação – Uerj – 5 a 9 de setembro de 2005 perfil da área que: -engloba diversificadas sub-áreas do conhecimento (como jornalismo, propaganda, publicidade, editoração, radio, cinema, TV e relações publicas); - se caracteriza pela diversidade de tipos de fontes de informação abrangendo desde as tradicionais (livros, revistas, jornais, dissertações etc.) até as não convencionais (vídeo, filme, campanha publicitárias, vinhetas, outdoor, fotografias etc); -ainda não incorporou em seu cotidiano a preocupação com a disseminação e divulgação desta produção seguindo normas e padrões próprios e internacionais para garantir sua posterior recuperação e registro da memória coletiva. Por outro lado, tem-se a situação dos próprios serviços de informação e bibliotecas acadêmicas brasileiras que 4 : -se concentram na região Sudeste, seguida da região Sul, Nordeste, Centro-Oeste e Norte; -não são especializadas na área, pois a arrasadora maioria constitui-se de bibliotecas centrais; -se utilizam uma imensa e diversificada gama de softwares apresentando automação parcial de seus serviços e produtos dificultando a existência de redes de apoio e consórcios; -não indexam as revistas científicas brasileiras da área e, portanto, não possibilitam a pesquisa e recuperação desta produção; -não produziram ainda um tesauro e/ou vocabulário controlado em português em ciências da comunicação para uso comunitário e possuem geralmente um acervo com predominância de fontes tradicionais, esquecendo-se da produção não convencional que é específica da área de comunicação (FERREIRA, 2002). Foi este cenário que levou a Intercom a criar, em 1981, um Centro de Documentação – o Portcom - destinado a coletar e processar a produção científica em Ciências da Comunicação, o qual em 1988, apoiado pela UNESCO5 , amplia seu escopo passando a servir de pólo centralizador e gerenciador da produção técnica e científica lusófona. A partir de 1999 este Centro passa a ter uma estrutura de Rede de Informação assumindo o papel de agente integrador e articulador de políticas, ações e instrumentos que normalizem e implementem estratégias para o desenvolvimento e uso de recursos e competências lusófonas em ciências da comunicação. Com o aprofundamento das atividades e articulações para a consolidação desta Rede nasce o projeto da Federação de Bibliotecas Digitais Lusófonas em Comunicação que tem como foco o desenvolvimento de metodologias de trabalho cooperativo entre 4 Resultado de pesquisa feita pela equipe da PORTCOM junto a 117 bibliotecas e centros de informação de universidades públicas e privadas, cobrindo todas as regiões brasileiras, com o objetivo de diagnosticar, mapear e entender o contexto informacional brasileiro em comunicação. 5 Por esta ocasião a UNESCO implantou redes de informação em várias áreas do conhecimento. Em ciências da comunicação, além da Portcom, surgiram a Rede COMNET (internacional) e a COMNET-AL (América Latina), sendo que estas duas últimas foram extintas em 1998. 2 Intercom – Sociedade Brasileira de Estudos Interdisciplinares da Comunicação XXVIII Congresso Brasileiro de Ciências da Comunicação – Uerj – 5 a 9 de setembro de 2005 bibliotecas, centros de informação, editores científicos, programas de pós-graduação e comunidade de profissionais e pesquisadores da área visando: -possibilitar o acesso público e universal da produção da área; -definir critérios, normas e padrões internacionais de qualidade para organização e tratamento de sua produção (convencional e não convencional); -privilegiar a utilização de software livre, com base no protocolo OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting), especialmente customizados para as questões de interoperabilidade; -adotar um modelo de gestão compartilhada (descentralização e co-responsabilidade), valorizando as especificidades de cada biblioteca federada, garantindo sua autonomia e criando estratégias de motivação para cooperação contínua (FERREIRA e SOUTO, 2005). Este paper tem como objetivo relatar a experiência de customização de uma ferramenta de busca automática e integradora das várias iniciativas lusófonas na área, descrever as vantagens e dificuldades desta ferramenta e as especificidades delimitadas pela área de ciências da comunicação. 2 O modelo proposto pela Portcom Com pauta nas premissas anteriormente definidas, a Portcom assume o modelo proposto pelo Open Archives Initiative, o qual prevê uma estrutura baseada na existência de “provedores de dados (PD)” e “provedores de serviços (PS)”. Segundo IBICT (s.d.) os “provedores de dados administram sistemas que mantêm repositório de dados e suportam o protocolo OAI como meio de expor metadados para serem coletados por provedores de serviço ou agregadores e, os provedores de serviço (PS) usam metadados coletados automaticamente dos provedores de dados, via o protocolo OAI, como base para oferecer produtos e serviços de valor agregado”. Os provedores de serviços, portanto, são ferramentas de coleta automática de metadados que oferecem uma interface única de acesso integrado e transparente aos usuários finais. A Figura 1 ilustra o Modelo Operacional adotado pela Federação de Bibliotecas Digitais Lusófonas em Ciências da Comunicação: 3 Intercom – Sociedade Brasileira de Estudos Interdisciplinares da Comunicação XXVIII Congresso Brasileiro de Ciências da Comunicação – Uerj – 5 a 9 de setembro de 2005 Figura 1 – Modelo operacional da Federação de Bibliotecas Digitais Lusófonas em Ciências da Comunicação . (Fonte: FERREIRA e SOUTO, 2005). Com base neste modelo, a Portcom desenvolveu uma série de metodologias para que a comunidade científica lusófona em ciências da comunicação pudesse criar bibliotecas digitais com sua produção científica – favorecendo o surgimento de vários provedores de dados. E atualmente, se encontra testando o piloto do provedor de serviços desenvolvido, que é o foco de descrição deste paper. 3 Ferramenta de Busca / Coletor de Metadados (Metadata Harvester) Cada biblioteca ou serviço que disponha de documentos passíveis de consulta pode ser entendido como um provedor de dados. Mas cada serviço pode utilizar um sistema diferente para organizar tais documentos. A fim de termos acesso a todos estes provedores através de um mecanismo automatizado, é necessário que existam regras a serem obedecidas por todos eles, ou seja, que todos ofereçam a mesma resposta para a dada consulta. O protocolo OAI para coleta de metadados, ou Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH) assegura exatamente isto: que os provedores 4 Intercom – Sociedade Brasileira de Estudos Interdisciplinares da Comunicação XXVIII Congresso Brasileiro de Ciências da Comunicação – Uerj – 5 a 9 de setembro de 2005 respondam sempre de maneira uniforme às consultas feitas pelo coletor de metadados. Isto acaba permitindo a interconexão entre repositórios de documentos acadêmicos, aumentando a possibilidade de acesso e recuperação integrada da produção científica, fornecendo uma visão integrada e maior controle da memória científica e, ainda, uma melhoria na qualidade desta produção a partir da exigência e uso de normas e padrões internacionalmente aceitos. A ferramenta escolhida para coletar, organizar e indexar os documentos oferecidos pelos serviços da Portcom foi o ARC (A Cross Archive Search Service) 6 . O ARC é um coletor de dados implementado na linguagem de programação Java7 , garantindo sua utilização em diferentes plataformas e sistemas operacionais, tais como Linux, Unix e Windows, e utilizando o banco de dados MySQL8 . Ele opera primeiramente coletando os metadados descritivos e armazenando-os, para depois analisá-los e indexá-los, tornando-os, por fim, disponíveis para consulta através de uma interface web. Desta maneira, os metadados de cada documento disponível no acervo dos provedores de dados possuirão uma cópia no sistema ARC e, o mais importante, será mantido o elo com o documento original, permitindo sua recuperação e visualização caso desejado. A Figura 2 mostra a arquitetura utilizada pelo ARC: Figura 2 - Arquitetura do ARC (Fonte: LIU et all, 2001). 6 Arc (http://arc.cs.odu.edu) Java (http://java.sun.com/ ) 8 MySQL (http://www.mysql.com/ ) 7 5 Intercom – Sociedade Brasileira de Estudos Interdisciplinares da Comunicação XXVIII Congresso Brasileiro de Ciências da Comunicação – Uerj – 5 a 9 de setembro de 2005 A partir da indexação dos metadados, ou seja, da coleta dos metadados junto aos provedores, sua normalização seguindo um padrão uniforme e seu armazenamento em um banco de dados, pode-se oferecer diversos serviços adicionais, além da simples listagem das informações dos documentos indexados. Um deles é o serviço de busca integrada, que permite ao usuário final – a partir de uma única interface – realizar uma pesquisa cruzada entre diferentes provedores, podendo recorrer à lógica booleana e combinação de vários campos (autor, título, assunto, tipo de documento etc), além de também obter o direcionamento exato do provedor de dados que mantém o texto completo. Na customização que está sendo feita para a Portcom, percebeu-se que um aspecto do sistema ARC que pode ser melhorado é o gerenciamento dos repositórios parceiros, ou seja, dos provedores de dados. Várias funções, só acessíveis mediante comandos SQL diretamente no banco de dados, podem ser adicionados ao sistema para que possam ser facilmente executados mediante o simples pressionar de um botão em uma interface web. Isso leva a outro ponto, que são as páginas da inteface web, como a do administrador do sistema. Elas podem ser melhoradas acrescentando-se as funções mencionadas acima e também fornecendo informações mais descritivas, de forma a facilitar a vida do usuário e administrador. Até o momento foram realizados o estudo e uma simples refatoração das páginas JSP (Java Server Pages9 ), com enfoque no código em HTML10 , agora com um layout tableless, modificada de forma a ter quase toda a formatação controlada via Cascading Style Sheets (CSS11 ), e também a modificação do ambiente de desenvolvimento do sistema, reestruturando-se a árvore de arquivos associada ao sistema ARC e editando-se o arquivo build.xml, requerido pelo Apache Ant 12 para a compilação. Isto foi necessário para facilitar o ciclo de edição-compilação-implantação-depuração do sistema. É importante também notar que os sistemas ditos compatíveis com o OAI-PMH podem ter pequenos problemas na interface OAI, requerendo verificações e possíveis modificações para eliminá-los. 9 JSP (http://java.sun.com/products/jsp/) HTML (http://www.w3.org/MarkUp/) 11 CSS (http://www.w3.org/Style/CSS/) 12 Ant (http://ant.apache.org/) 10 6 Intercom – Sociedade Brasileira de Estudos Interdisciplinares da Comunicação XXVIII Congresso Brasileiro de Ciências da Comunicação – Uerj – 5 a 9 de setembro de 2005 Assim, cada teste com o ARC engloba também testes com todos os sistemas envolvidos, requerendo nossa atenção a problemas e defeitos em todos eles. Neste sentido a customização e instalação do ARC pela equipe da Portcom está nesta fase piloto, sendo testada especificamente para busca nos provedores de dados desenvolvidos e incorporados no próprio servidor da Portcom, ou seja, nos projetos Arena Científica, a Revcom e a Reposcom. Todos estes projetos utilizam sistemas que rodam sob a plataforma Linux, e todos eles são abertos com código livre. Nesta fase, portanto, o provedor de serviços em comunicação da Portcom – ARCom , vem coletando dados dos seguintes provedores: 3.1 Provedor de Dados - REPOSCOM O projeto Reposcom – Repositórios Institucionais em Ciências da Comunicação (http://reposcom.portcom.intercom.org.br) tem como objetivo armazenar a produção científica (livros, capítulos de livros, teses, dissertações, trabalhos apresentados em Congressos, filmes, videos etc.) em Ciências da Comunicação, produzidos por associações, núcleos de pesquisas e programas de pós-graduação em ciências da comunicação dos países de língua portuguesa. Para a implementação destes repositórios está sendo utilizado o software DSpace13 (que foi customizado, traduzido e adaptado para o português pela equipe da Portcom) que foi desenvolvido pela MIT em conjunto com a HP, e é baseado em tecnologia Java (Java Servlets e Java Server Pages) e banco de dados PostGreSQL14 . Seu objetivo é oferecer uma interface simples que possibilite o auto-arquivamento (self-archiving) da produção científica, ou seja, o envio e submissão de material acadêmico pelos próprios autores. Um ponto interessante da tecnologia empregada se refere à utilização do sistema Handle (Handle System 15 ), que executa o gerenciamento de endereços persistentes de documentos, isto é, atribui a cada documento um endereço único na Internet, desvinculando seu próprio endereço daquele do serviço que o hospeda. Atualmente, o Reposcom possui cerca de sete mil registro de documentos (sendo cerca de três mil textos completos) referente à produção científica dos núcleos de pesquisa da Intercom e de outras universidades. 13 DSpace (http://www.dspace.org/) PostGreSQL (http://www.postgresql.org/) 15 Handle System (http://www.handle.net/) 14 7 Intercom – Sociedade Brasileira de Estudos Interdisciplinares da Comunicação XXVIII Congresso Brasileiro de Ciências da Comunicação – Uerj – 5 a 9 de setembro de 2005 3.2 Provedor de Dados - REVCOM A Revcom – Coleção eletrônica de revistas científicas em comunicação dos países de língua portuguesa (http://revcom2.portcom.intercom.org.br/), tem como objetivo geral contribuir para o desenvolvimento da pesquisa científica nos países de língua portuguesa, por meio do aperfeiçoamento e da ampliação dos recursos de disseminação, publicação e avaliação dos seus resultados, fazendo uso intensivo da publicação eletrônica. Possui também, como objetivos específicos: (a) aumentar a visibilidade, a acessibilidade e a credibilidade nacional e internacional da publicação científica em ciências da comunicação dos países de língua portuguesa; (b) colaborar para o aumento do impacto da produção científica lusófona, atuando diretamente no processo de comunicação científica. Para tanto, a publicação integrada na rede Internet de coleções nacionais ou regionais de periódicos científicos, busca promover de imediato a melhoria na qualidade das revistas científicas lusófonas, no que se refere ao estabelecimento e incorporação de critérios de qualidade e normalização seguindo padrões internacionais de primeira linha, aplicáveis e adaptáveis à área de ciências da comunicação de língua portuguesa. Para a estruturação desta coleção a PORTCOM contou inicialmente com a parceria da BIREME/FAPESP - Centro Latino Americano e do Caribe de Informação em Ciências da Saúde, que cedeu a Metodologia SciELO - modelo de publicação eletrônica para países em desenvolvimento. Esta coleção utiliza o sistema SEER (Sistema de Editoração Eletrônica de Revistas16 ) que se trata de uma customização feita pelo IBICT do software OJS (Open Journal System 17 ). Atualmente a Revcom conta com a participação de cinco revistas brasileiras: a Contracampo, da Universidade Federal Fluminense; a Comunicação & Sociedade, da Universidade Metodista de São Paulo; a Famecos, da Pontifícia Universidade Católica do Rio Grande do Sul; a Galáxia, da Pontifícia Universidade Católica de São Paulo e a Revista Brasileira de Ciências da Comunicação (RBCC) da Intercom; e mais duas revistas portuguesas: a Comunicação e Sociedade, da Instituto de Ciências Sociais da Universidade do Minho e a Media & Jornalismo, do Centro de Investigação Media e 16 17 SEER (http://www.ibict.br/secao.php?cat=SEER) PKP OJS (http://www.pkp.ubc.ca/ojs/) 8 Intercom – Sociedade Brasileira de Estudos Interdisciplinares da Comunicação XXVIII Congresso Brasileiro de Ciências da Comunicação – Uerj – 5 a 9 de setembro de 2005 Jornalismo; perfazendo um total de 170 registros, entre artigos, comunicações, entrevistas e outros. 3.2 Provedor de Dados - Arena Científica Arena Científica (http://arena.portcom.intercom.org.br) é um espaço virtual para pesquisadores da área de Ciências da Comunicação: - depositar textos já publicados (capítulos de livros, artigos de periódicos, etc) ou não publicados (papers, trabalhos de eventos, etc); - comentar e avaliar os textos depositados pelos pares; - pesquisar a produção técnica científica da área. Foi implementado com o software DICI – Diálogo Científico18 , versão brasileira e customizada pelo IBICT do software Eprints Archives19 desenvolvido pelo Southampton University na Inglaterra. Este sistema foi lançado recentemente e inicia-se um processo de divulgação e marketing para que docentes, pesquisadores e alunos compartilham textos, imagens, sons e comentários sobre suas pesquisas e produção técnico-científica. 4 Conclusão Após a validação desta fase piloto a Portcom pretende estender o mecanismo de coleta e busca a repositórios e serviços de outras instituições e redes, desde que estes possuam suporte ao protocolo OAI ou que sejam modificados de forma a atenderem ao protocolo. Com isto, espera-se a formalização de parcerias com todos os sistemas de bibliotecas universitárias brasileiros (USP, UFRJ, UERJ, UFRGS, PUC etc.), programas de pós-graduação, editores científicos e comunidades em geral para a consolidação e visão integradora de sua produção. Um resultado imediato já latente com esta ferramenta, que se trata do primeiro coletor automático lusófono especifico para a área de comunicação, é a divulgação e visibilidade internacional que a produção lusófona em comunicação passa a ter, aliada a possibilidade de melhoria da qualidade das pesquisas da área tendo em vista maior acesso ao conteúdo científico e acadêmico produzido, e a melhoria da qualidade dos próprios veículos de divulgação (por exemplo, as revistas) com a inclusão de metodologias e critérios internacionais de qualidade. 18 19 DiCi (http://www.ibict.br/secao.php?cat=Di%E1logo%20Cient%Edfico) EPrints (http://www.eprints.org) 9 Intercom – Sociedade Brasileira de Estudos Interdisciplinares da Comunicação XXVIII Congresso Brasileiro de Ciências da Comunicação – Uerj – 5 a 9 de setembro de 2005 Vale ressalta ainda que todas as atividades descritas, tanto dos provedores de dados como do provedor de serviços, estão alinhadas ao Movimento de Arquivos Abertos e do Livre Acesso à Informação e ao Conhecimento em Ciência e Humanidades, tendo por princípio disponibilizar gratuita e publicamente a literatura técnico-científica lusófona em comunicação, utilização de software livre e participação ativa da comunidade por meio de auto-arquivamento de sua produção e/ou implementação de repositórios institucionais e de revistas eletrônicas. Referências bibliográficas FERREIRA, S.M.S.P. (2002) Portal em Comunicações: parâmetros para sua construção com base em diagnóstico da informação brasileira na área. In: Congresso Latinoamericano de Ciências de la Comunicácion, 6, no GT Comunicación, Tecnología y Desarrollo. Junio 5 a 8, 2002. Santa Cruz de la Sierra, Bolivia. Anais... São Paulo:ALAIC. FERREIRA, S.M.S.P. e SOUTO, P.C.N. Federação de Bibliotecas Digitais Lusófonas em Ciências da Comunicação. In: MARCONDES, C et alii. Bibliotecas digitais: saberes e práticas. Rio de Janeiro/Salvador: IBICT/UFF e UFBA, 2005. IBICT (s.d) . Glossário BDTD. URL: http://bdtd.ibict.br/bdtd/glossario/glossario.jsp. Acessado em 20 de março de 2005. LAGOZE, Carl et al. (2004) The Open Archives Initiative Protocol for Metadata Harvesting. URL: http://www.openarchives.org/OAI/openarchivesprotocol.html. Versão de 12 de outubro de 2004. LIU, Xiaoming et alii. (2002). Federating heterogeneous digital libraries by metadata harvesting. Journal of Digital Information, v.2, n. 4, article 106, 2002-05-21. URL: http://jodi.ecs.soton.ac.uk/Articles/v02/i04/Liu/ LIU, Xiaoming, MALY, K., ZUBAIR, M. (2001). ARC – An OAI Service Provider for Digital Library Federation. D-Lib Magazine, v.7., n.4. April. URL: http://www.dlib.org/dlib/april01/liu/04liu.html PIRRI,M.; PETTENATI, M.C.; GIULI, Dino (2002). Design of a Federation Service for Digital Libraries:the Case of Historical Archives in the PORTA EUROPA Portal (PEP) Pilot Project Proc. Int. Conf. on Dublin Core and Metadata for e-Communities. University of Florence. TOMCAT (s.d) The Apache Jakarta Tomcat 5.5 Servlet/JSP Container. URL: http://jakarta.apache.org/tomcat/tomcat-5.5-doc/index.html 10