Intercom – Sociedade Brasileira de Estudos Interdisciplinares da Comunicação
XXVIII Congresso Brasileiro de Ciências da Comunicação – Uerj – 5 a 9 de setembro de 2005
Busca de informação cientifica em Ciências da Comunicação: ferramenta de coleta
automática ARCom 1
Roberto Seiti Yamashiro2
Sueli Mara S.P. Ferreira3
Resumo
Falar em produção cientifica em ciências da comunicação envolve varias sub-áreas
(jornalismo, publicidade, propaganda, radio, cinema, televisão, editoração, jornalismo e
relações publicas), diversificadas fontes e suportes (material impresso, sonoro, digital,
visual, multimídia, fotográfico etc.) múltiplos softwares e sistemas e centenas de tipos
de documentos (livros, revistas, jornais, fotografias, vinhetas, programas de radio,
vídeos dentre outros). Agrega-se a todo este contexto a dispersão geográfica dos
produtores e autores destes conteúdos e a inexistência de mecanismos de coleta
integrada e normalizada. Um projeto de personalização e implantação de uma
ferramenta pré-existente de busca de documentos acadêmicos (intitulado ARC – A
Cross Archive Search Service) vem sendo desenvolvido pela rede Portcom/Intercom
com o objetivo de localizar e indexar metadados dos conteúdos incluídos em
repositórios de documentos compatíveis com o OAI-PMH, oferecendo uma busca
integrada - via interface única - aos usuários finais. Inicialmente, esta ferramenta foi
submetida a testes, para coleta automática dos conteúdos dos demais projetos da Rede:
Repositórios Institucionais em Ciências da Comunicação (Reposcom, com o software
DSpace), a Arena Cientifica (com o software EPrints) e a coleção eletrônica de revistas
Revcom (software PKP-OJS/SEER). Este paper relata a experiência de customização de
um provedor de serviços, no caso um coletor de metadados (metadata harvester), para a
área de Comunicação intitulado ARCom, descreve suas vantagens e dificuldades, as
especificidades delimitadas pela área de ciências da comunicação e aponta novos
caminhos de pesquisa.
Palavras-chave
Movimento do Livre Acesso; Provedor de serviço OAI, Protocolo OAI, Software ARC
– Harvester, Produção cientifica
1
Introdução
A carência e dispersão do acesso à produção técnica, científica e acadêmica em
Ciências da Comunicação se dá por diversos motivos. Por um lado tem-se o próprio
1
Trabalho apresentado na Intercom Jovem – XVIII Congresso Brasileiro em Ciências da Comunicação. Rio de
Janeiro, 5-9 de setembro de 2005.
2
Bolsista de iniciação cientifica da Portcom/Rede de Informação em Ciências da Comunicação dos Paises de Língua
Portuguesa da Intercom.Aluno do Curso de Computação do Instituto de Matemática e Estatística da USP. E-mail:
[email protected]
3
Doutora em Ciências da Comunicação. Professora do Depto. Biblioteconomia e Documentação da ECA/USP.
Coordenadora da Portcom/Rede de Informação em Ciências da Comunicação dos Paises de Língua Portuguesa da
Intercom. Email: [email protected]
1
Intercom – Sociedade Brasileira de Estudos Interdisciplinares da Comunicação
XXVIII Congresso Brasileiro de Ciências da Comunicação – Uerj – 5 a 9 de setembro de 2005
perfil da área que: -engloba diversificadas sub-áreas do conhecimento (como
jornalismo, propaganda, publicidade, editoração, radio, cinema, TV e relações
publicas); - se caracteriza pela diversidade de tipos de fontes de informação abrangendo
desde as tradicionais (livros, revistas, jornais, dissertações etc.) até as não convencionais
(vídeo, filme, campanha publicitárias, vinhetas, outdoor, fotografias etc); -ainda não
incorporou em seu cotidiano a preocupação com a disseminação e divulgação desta
produção seguindo normas e padrões próprios e internacionais para garantir sua
posterior recuperação e registro da memória coletiva.
Por outro lado, tem-se a situação dos próprios serviços de informação e bibliotecas
acadêmicas brasileiras que 4 : -se concentram na região Sudeste, seguida da região Sul,
Nordeste, Centro-Oeste e Norte; -não são especializadas na área, pois a arrasadora
maioria constitui-se de bibliotecas centrais; -se utilizam uma imensa e diversificada
gama de softwares apresentando automação parcial de seus serviços e produtos
dificultando a existência de redes de apoio e consórcios; -não indexam as revistas
científicas brasileiras da área e, portanto, não possibilitam a pesquisa e recuperação
desta produção; -não produziram ainda um tesauro e/ou vocabulário controlado em
português em ciências da comunicação para uso comunitário e possuem geralmente um
acervo com predominância de fontes tradicionais, esquecendo-se da produção não
convencional que é específica da área de comunicação (FERREIRA, 2002).
Foi este cenário que levou a Intercom a criar, em 1981, um Centro de
Documentação – o Portcom - destinado a coletar e processar a produção científica em
Ciências da Comunicação, o qual em 1988, apoiado pela UNESCO5 , amplia seu escopo
passando a servir de pólo centralizador e gerenciador da produção técnica e científica
lusófona. A partir de 1999 este Centro passa a ter uma estrutura de Rede de Informação
assumindo o papel de agente integrador e articulador de políticas, ações e instrumentos
que normalizem e implementem estratégias para o desenvolvimento e uso de recursos e
competências lusófonas em ciências da comunicação.
Com o aprofundamento das atividades e articulações para a consolidação desta
Rede nasce o projeto da Federação de Bibliotecas Digitais Lusófonas em Comunicação
que tem como foco o desenvolvimento de metodologias de trabalho cooperativo entre
4
Resultado de pesquisa feita pela equipe da PORTCOM junto a 117 bibliotecas e centros de informação
de universidades públicas e privadas, cobrindo todas as regiões brasileiras, com o objetivo de
diagnosticar, mapear e entender o contexto informacional brasileiro em comunicação.
5
Por esta ocasião a UNESCO implantou redes de informação em várias áreas do conhecimento. Em
ciências da comunicação, além da Portcom, surgiram a Rede COMNET (internacional) e a COMNET-AL
(América Latina), sendo que estas duas últimas foram extintas em 1998.
2
Intercom – Sociedade Brasileira de Estudos Interdisciplinares da Comunicação
XXVIII Congresso Brasileiro de Ciências da Comunicação – Uerj – 5 a 9 de setembro de 2005
bibliotecas, centros de informação, editores científicos, programas de pós-graduação e
comunidade de profissionais e pesquisadores da área visando: -possibilitar o acesso
público e universal da produção da área; -definir critérios, normas e padrões
internacionais
de
qualidade
para
organização
e
tratamento
de sua produção
(convencional e não convencional); -privilegiar a utilização de software livre, com base
no protocolo OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting),
especialmente customizados para as questões de interoperabilidade; -adotar um modelo
de gestão compartilhada (descentralização e co-responsabilidade), valorizando as
especificidades de cada biblioteca federada, garantindo sua autonomia e criando
estratégias de motivação para cooperação contínua (FERREIRA e SOUTO, 2005).
Este paper tem como objetivo relatar a experiência de customização de uma
ferramenta de busca automática e integradora das várias iniciativas lusófonas na área,
descrever as vantagens e dificuldades desta ferramenta e as especificidades delimitadas
pela área de ciências da comunicação.
2
O modelo proposto pela Portcom
Com pauta nas premissas anteriormente definidas, a Portcom assume o modelo
proposto pelo Open Archives Initiative, o qual prevê uma estrutura baseada na
existência de “provedores de dados (PD)” e “provedores de serviços (PS)”. Segundo
IBICT (s.d.) os “provedores de dados administram sistemas que mantêm repositório de
dados e suportam o protocolo OAI como meio de expor metadados para serem
coletados por provedores de serviço ou agregadores e, os provedores de serviço (PS)
usam metadados coletados automaticamente dos provedores de dados, via o protocolo
OAI, como base para oferecer produtos e serviços de valor agregado”. Os provedores de
serviços, portanto, são ferramentas de coleta automática de metadados que oferecem
uma interface única de acesso integrado e transparente aos usuários finais.
A Figura 1 ilustra o Modelo Operacional adotado pela Federação de Bibliotecas
Digitais Lusófonas em Ciências da Comunicação:
3
Intercom – Sociedade Brasileira de Estudos Interdisciplinares da Comunicação
XXVIII Congresso Brasileiro de Ciências da Comunicação – Uerj – 5 a 9 de setembro de 2005
Figura 1 – Modelo operacional da Federação de Bibliotecas Digitais Lusófonas
em Ciências da Comunicação . (Fonte: FERREIRA e SOUTO, 2005).
Com base neste modelo, a Portcom desenvolveu uma série de metodologias para que a
comunidade científica lusófona em ciências da comunicação pudesse criar bibliotecas
digitais com sua produção científica – favorecendo o surgimento de vários provedores
de dados. E atualmente, se encontra testando o piloto do provedor de serviços
desenvolvido, que é o foco de descrição deste paper.
3
Ferramenta de Busca / Coletor de Metadados (Metadata Harvester)
Cada biblioteca ou serviço que disponha de documentos passíveis de consulta pode ser
entendido como um provedor de dados. Mas cada serviço pode utilizar um sistema
diferente para organizar tais documentos. A fim de termos acesso a todos estes
provedores através de um mecanismo automatizado, é necessário que existam regras a
serem obedecidas por todos eles, ou seja, que todos ofereçam a mesma resposta para a
dada consulta.
O protocolo OAI para coleta de metadados, ou Open Archives Initiative Protocol
for Metadata Harvesting (OAI-PMH) assegura exatamente isto: que os provedores
4
Intercom – Sociedade Brasileira de Estudos Interdisciplinares da Comunicação
XXVIII Congresso Brasileiro de Ciências da Comunicação – Uerj – 5 a 9 de setembro de 2005
respondam sempre de maneira uniforme às consultas feitas pelo coletor de metadados.
Isto acaba permitindo a interconexão entre repositórios de documentos acadêmicos,
aumentando a possibilidade de acesso e recuperação integrada da produção científica,
fornecendo uma visão integrada e maior controle da memória científica e, ainda, uma
melhoria na qualidade desta produção a partir da exigência e uso de normas e padrões
internacionalmente aceitos.
A ferramenta escolhida para coletar, organizar e indexar os documentos
oferecidos pelos serviços da Portcom foi o ARC (A Cross Archive Search Service) 6 . O
ARC é um coletor de dados implementado na linguagem de programação Java7 ,
garantindo sua utilização em diferentes plataformas e sistemas operacionais, tais como
Linux, Unix e Windows, e utilizando o banco de dados MySQL8 . Ele opera
primeiramente coletando os metadados descritivos e armazenando-os, para depois
analisá-los e indexá-los, tornando-os, por fim, disponíveis para consulta através de uma
interface web. Desta maneira, os metadados de cada documento disponível no acervo
dos provedores de dados possuirão uma cópia no sistema ARC e, o mais importante,
será mantido o elo com o documento original, permitindo sua recuperação e
visualização caso desejado.
A Figura 2 mostra a arquitetura utilizada pelo ARC:
Figura 2 - Arquitetura do ARC (Fonte: LIU et all, 2001).
6
Arc (http://arc.cs.odu.edu)
Java (http://java.sun.com/ )
8
MySQL (http://www.mysql.com/ )
7
5
Intercom – Sociedade Brasileira de Estudos Interdisciplinares da Comunicação
XXVIII Congresso Brasileiro de Ciências da Comunicação – Uerj – 5 a 9 de setembro de 2005
A partir da indexação dos metadados, ou seja, da coleta dos metadados junto aos
provedores, sua normalização seguindo um padrão uniforme e seu armazenamento em
um banco de dados, pode-se oferecer diversos serviços adicionais, além da simples
listagem das informações dos documentos indexados.
Um deles é o serviço de busca integrada, que permite ao usuário final – a partir de
uma única interface – realizar uma pesquisa cruzada entre diferentes provedores,
podendo recorrer à lógica booleana e combinação de vários campos (autor, título,
assunto, tipo de documento etc), além de também obter o direcionamento exato do
provedor de dados que mantém o texto completo.
Na customização que está sendo feita para a Portcom, percebeu-se que um aspecto
do sistema ARC que pode ser melhorado é o gerenciamento dos repositórios parceiros,
ou seja, dos provedores de dados. Várias funções, só acessíveis mediante comandos
SQL diretamente no banco de dados, podem ser adicionados ao sistema para que
possam ser facilmente executados mediante o simples pressionar de um botão em uma
interface web. Isso leva a outro ponto, que são as páginas da inteface web, como a do
administrador do sistema. Elas podem ser melhoradas acrescentando-se as funções
mencionadas acima e também fornecendo informações mais descritivas, de forma a
facilitar a vida do usuário e administrador.
Até o momento foram realizados o estudo e uma simples refatoração das páginas
JSP (Java Server Pages9 ), com enfoque no código em HTML10 , agora com um layout
tableless, modificada de forma a ter quase toda a formatação controlada via Cascading
Style Sheets (CSS11 ), e também a modificação do ambiente de desenvolvimento do
sistema, reestruturando-se a árvore de arquivos associada ao sistema ARC e editando-se
o arquivo build.xml, requerido pelo Apache Ant 12 para a compilação. Isto foi necessário
para facilitar o ciclo de edição-compilação-implantação-depuração do sistema. É
importante também notar que os sistemas ditos compatíveis com o OAI-PMH podem ter
pequenos problemas na interface OAI, requerendo verificações e possíveis modificações
para eliminá-los.
9
JSP (http://java.sun.com/products/jsp/)
HTML (http://www.w3.org/MarkUp/)
11
CSS (http://www.w3.org/Style/CSS/)
12
Ant (http://ant.apache.org/)
10
6
Intercom – Sociedade Brasileira de Estudos Interdisciplinares da Comunicação
XXVIII Congresso Brasileiro de Ciências da Comunicação – Uerj – 5 a 9 de setembro de 2005
Assim, cada teste com o ARC engloba também testes com todos os sistemas envolvidos,
requerendo nossa atenção a problemas e defeitos em todos eles. Neste sentido a
customização e instalação do ARC pela equipe da Portcom está nesta fase piloto, sendo
testada especificamente para busca nos provedores de dados desenvolvidos e
incorporados no próprio servidor da Portcom, ou seja, nos projetos Arena Científica, a
Revcom e a Reposcom.
Todos estes projetos utilizam sistemas que rodam sob a
plataforma Linux, e todos eles são abertos com código livre.
Nesta fase, portanto, o provedor de serviços em comunicação da Portcom –
ARCom , vem coletando dados dos seguintes provedores:
3.1 Provedor de Dados - REPOSCOM
O projeto Reposcom – Repositórios Institucionais em Ciências da Comunicação
(http://reposcom.portcom.intercom.org.br) tem como objetivo armazenar a produção
científica (livros, capítulos de livros, teses, dissertações, trabalhos apresentados em
Congressos, filmes, videos etc.) em Ciências da Comunicação, produzidos por
associações, núcleos de pesquisas e programas de pós-graduação em ciências da
comunicação dos países de língua portuguesa.
Para a implementação destes repositórios está sendo utilizado o software DSpace13
(que foi customizado, traduzido e adaptado para o português pela equipe da Portcom)
que foi desenvolvido pela MIT em conjunto com a HP, e é baseado em tecnologia Java
(Java Servlets e Java Server Pages) e banco de dados PostGreSQL14 . Seu objetivo é
oferecer uma interface simples que possibilite o auto-arquivamento (self-archiving) da
produção científica, ou seja, o envio e submissão de material acadêmico pelos próprios
autores.
Um ponto interessante da tecnologia empregada se refere à utilização do
sistema Handle (Handle System 15 ), que executa o gerenciamento de endereços
persistentes de documentos, isto é, atribui a cada documento um endereço único na
Internet, desvinculando seu próprio endereço daquele do serviço que o hospeda.
Atualmente, o Reposcom possui cerca de sete mil registro de documentos (sendo
cerca de três mil textos completos) referente à produção científica dos núcleos de
pesquisa da Intercom e de outras universidades.
13
DSpace (http://www.dspace.org/)
PostGreSQL (http://www.postgresql.org/)
15
Handle System (http://www.handle.net/)
14
7
Intercom – Sociedade Brasileira de Estudos Interdisciplinares da Comunicação
XXVIII Congresso Brasileiro de Ciências da Comunicação – Uerj – 5 a 9 de setembro de 2005
3.2 Provedor de Dados - REVCOM
A Revcom – Coleção eletrônica de revistas científicas em comunicação dos países
de língua portuguesa (http://revcom2.portcom.intercom.org.br/), tem como objetivo
geral contribuir para o desenvolvimento da pesquisa científica nos países de língua
portuguesa, por meio do aperfeiçoamento e da ampliação dos recursos de disseminação,
publicação e avaliação dos seus resultados, fazendo uso intensivo da publicação
eletrônica.
Possui também, como objetivos específicos: (a) aumentar a visibilidade, a
acessibilidade e a credibilidade nacional e internacional da publicação científica em
ciências da comunicação dos países de língua portuguesa; (b) colaborar para o aumento
do impacto da produção científica lusófona, atuando diretamente no processo de
comunicação científica.
Para tanto, a publicação integrada na rede Internet de coleções nacionais ou
regionais de periódicos científicos, busca promover de imediato a melhoria na qualidade
das revistas científicas lusófonas, no que se refere ao estabelecimento e incorporação de
critérios de qualidade e normalização seguindo padrões internacionais de primeira linha,
aplicáveis e adaptáveis à área de ciências da comunicação de língua portuguesa.
Para a estruturação desta coleção a PORTCOM contou inicialmente com a parceria
da BIREME/FAPESP - Centro Latino Americano e do Caribe de Informação em
Ciências da Saúde, que cedeu a Metodologia SciELO - modelo de publicação eletrônica
para países em desenvolvimento.
Esta coleção utiliza o sistema SEER (Sistema de Editoração Eletrônica de
Revistas16 ) que se trata de uma customização feita pelo IBICT do software OJS (Open
Journal System 17 ).
Atualmente a Revcom conta com a participação de cinco revistas brasileiras: a
Contracampo, da Universidade Federal Fluminense; a Comunicação & Sociedade, da
Universidade Metodista de São Paulo; a Famecos, da Pontifícia Universidade Católica
do Rio Grande do Sul; a Galáxia, da Pontifícia Universidade Católica de São Paulo e a
Revista Brasileira de Ciências da Comunicação (RBCC) da Intercom; e mais duas
revistas portuguesas: a Comunicação e Sociedade, da Instituto de Ciências Sociais da
Universidade do Minho e a Media & Jornalismo, do Centro de Investigação Media e
16
17
SEER (http://www.ibict.br/secao.php?cat=SEER)
PKP OJS (http://www.pkp.ubc.ca/ojs/)
8
Intercom – Sociedade Brasileira de Estudos Interdisciplinares da Comunicação
XXVIII Congresso Brasileiro de Ciências da Comunicação – Uerj – 5 a 9 de setembro de 2005
Jornalismo; perfazendo um total de 170 registros, entre artigos, comunicações,
entrevistas e outros.
3.2 Provedor de Dados - Arena Científica
Arena Científica (http://arena.portcom.intercom.org.br) é um espaço virtual para
pesquisadores da área de Ciências da Comunicação: - depositar textos já publicados
(capítulos de livros, artigos de periódicos, etc) ou não publicados (papers, trabalhos de
eventos, etc); - comentar e avaliar os textos depositados pelos pares; - pesquisar a
produção técnica científica da área.
Foi implementado com o software DICI – Diálogo Científico18 , versão brasileira e
customizada
pelo
IBICT
do
software
Eprints
Archives19
desenvolvido
pelo
Southampton University na Inglaterra.
Este sistema foi lançado recentemente e inicia-se um processo de divulgação e
marketing para que docentes, pesquisadores e alunos compartilham textos, imagens,
sons e comentários sobre suas pesquisas e produção técnico-científica.
4 Conclusão
Após a validação desta fase piloto a Portcom pretende estender o mecanismo de
coleta e busca a repositórios e serviços de outras instituições e redes, desde que estes
possuam suporte ao protocolo OAI ou que sejam modificados de forma a atenderem ao
protocolo. Com isto, espera-se a formalização de parcerias com todos os sistemas de
bibliotecas universitárias brasileiros (USP, UFRJ, UERJ, UFRGS, PUC etc.), programas
de pós-graduação, editores científicos e comunidades em geral para a consolidação e
visão integradora de sua produção.
Um resultado imediato já latente com esta ferramenta, que se trata do primeiro
coletor automático lusófono especifico para a área de comunicação, é a divulgação e
visibilidade internacional que a produção lusófona em comunicação passa a ter, aliada a
possibilidade de melhoria da qualidade das pesquisas da área tendo em vista maior
acesso ao conteúdo científico e acadêmico produzido, e a melhoria da qualidade dos
próprios veículos de divulgação (por exemplo, as revistas) com a inclusão de
metodologias e critérios internacionais de qualidade.
18
19
DiCi (http://www.ibict.br/secao.php?cat=Di%E1logo%20Cient%Edfico)
EPrints (http://www.eprints.org)
9
Intercom – Sociedade Brasileira de Estudos Interdisciplinares da Comunicação
XXVIII Congresso Brasileiro de Ciências da Comunicação – Uerj – 5 a 9 de setembro de 2005
Vale ressalta ainda que todas as atividades descritas, tanto dos provedores de dados
como do provedor de serviços, estão alinhadas ao Movimento de Arquivos Abertos e do
Livre Acesso à Informação e ao Conhecimento em Ciência e Humanidades, tendo por
princípio disponibilizar gratuita e publicamente a literatura técnico-científica lusófona
em comunicação, utilização de software livre e participação ativa da comunidade por
meio de auto-arquivamento de sua produção e/ou implementação de repositórios
institucionais e de revistas eletrônicas.
Referências bibliográficas
FERREIRA, S.M.S.P. (2002) Portal em Comunicações: parâmetros para sua construção com base em
diagnóstico da informação brasileira na área.
In: Congresso Latinoamericano de Ciências de la
Comunicácion, 6, no GT Comunicación, Tecnología y Desarrollo. Junio 5 a 8, 2002. Santa Cruz de la
Sierra, Bolivia. Anais... São Paulo:ALAIC.
FERREIRA, S.M.S.P. e SOUTO, P.C.N. Federação de Bibliotecas Digitais Lusófonas em Ciências da
Comunicação.
In: MARCONDES, C et alii. Bibliotecas digitais: saberes e práticas. Rio de
Janeiro/Salvador: IBICT/UFF e UFBA, 2005.
IBICT (s.d) . Glossário BDTD. URL: http://bdtd.ibict.br/bdtd/glossario/glossario.jsp. Acessado em 20
de março de 2005.
LAGOZE, Carl et al. (2004) The Open Archives Initiative Protocol for Metadata Harvesting. URL:
http://www.openarchives.org/OAI/openarchivesprotocol.html. Versão de 12 de outubro de 2004.
LIU, Xiaoming et alii. (2002). Federating heterogeneous digital libraries by metadata harvesting. Journal
of Digital Information, v.2, n. 4, article 106, 2002-05-21. URL:
http://jodi.ecs.soton.ac.uk/Articles/v02/i04/Liu/
LIU, Xiaoming, MALY, K., ZUBAIR, M. (2001). ARC – An OAI Service Provider for Digital Library
Federation. D-Lib Magazine, v.7., n.4. April. URL: http://www.dlib.org/dlib/april01/liu/04liu.html
PIRRI,M.; PETTENATI, M.C.; GIULI, Dino (2002). Design of a Federation Service for Digital
Libraries:the Case of Historical Archives in the PORTA EUROPA Portal (PEP) Pilot Project Proc. Int.
Conf. on Dublin Core and Metadata for e-Communities. University of Florence.
TOMCAT (s.d) The Apache Jakarta Tomcat 5.5 Servlet/JSP Container. URL:
http://jakarta.apache.org/tomcat/tomcat-5.5-doc/index.html
10
Download

Busca de informação cientifica em Ciências da - Portcom