CENTRO FEDERAL DE EDUCAÇÃO TECNOLÓGICA DO PARANÁ PROGRAMA DE PÓS-GRADUAÇÃO EM TECNOLOGIA METADADOS: ESTUDO DE SUA APLICAÇÃO NO TRATAMENTO DE RECURSOS VIRTUAIS E ANÁLISE DE UM PROJETO DO PROGRAMA PROSSIGA DO IBICT LIGIA LEINDORF BARTZ KRAEMER Dissertação apresentada como requisito parcial à obtenção do grau de Mestre em Tecnologia, Área de Concentração: Inovação Tecnológica. Programa de Pós-Graduação em Tecnologia, Centro Federal de Educação Tecnológica do Paraná. Orientadora: Prof.ª Dr.ª Graça Maria Simões Luz CURITIBA 2001 LIGIA LEINDORF BARTZ KRAEMER METADADOS: ESTUDO DE SUA APLICAÇÃO NO TRATAMENTO DE RECURSOS VIRTUAIS E ANÁLISE DE UM PROJETO DO PROGRAMA PROSSIGA DO IBICT Dissertação apresentada como requisito parcial à obtenção do grau de Mestre em Tecnologia, Área de Concentração: Inovação Tecnológica. Programa de Pós-Graduação em Tecnologia, Centro Federal de Educação Tecnológica do Paraná. Orientadora: Prof.ª Dr.ª Graça Maria Simões Luz CURITIBA 2001 Kraemer, Ligia Leindorf Bartz Metadados: estudo de sua aplicação no tratamento de recursos virtuais e análise de um projeto do Programa Prossiga do IBICT / Ligia Leindorf Bartz Kraemer. – Curitiba, 2001. x, 138 f. ; 30cm Dissertação (Mestrado) - Programa de Pós-Graduação em Tecnologia, Centro Federal de Educação Tecnológica do Paraná. 1. Metadados. 2. Sistema de informação. I. Título. CDD 025.524 Dedico esta produção a meus filhos, Luis Ricardo e Silvia, como uma mensagem de responsabilidade e perseverança na busca de seus ideais. ii AGRADECIMENTOS Ao meu marido Sergio, por todas as palavras e ações que me motivaram a enfrentar este período com mais coragem e vivacidade. Aos meus pais, Doris e Paulo, que sempre acolheram a mim e aos meus com um amor incondicional e souberam me conduzir para a construção de uma vida pessoal e profissional com ética e humildade. Aos meus sogros, Rosy e Roberto, pela compreensão nos sobrecarregados momentos que interferiram na nossa convivência. À minha querida orientadora Professora Graça Maria Simões Luz, que, com paciência e dedicação, guiou-me zelosamente pelas rotas do trabalho científico e mostrou-se sempre confiante nos resultados da pesquisa. Aos colegas Luiz Fernando Sayão e Vanderley Ortêncio, que, com entusiasmo, me motivaram e auxiliaram na busca por novos conhecimentos e na superação das barreiras temáticas. Aos professores participantes da Banca Examinadora, pelas críticas e sugestões, oferecendo-me subsídios para a condução do trabalho. Aos docentes do Departamento de Ciência e Gestão da Informação da UFPR, especialmente às professoras Helena de Fátima Nunes Silva e Patrícia Marchiori, por conduzirem o processo de meu afastamento para a conclusão da pesquisa. Aos meus colegas de turma e amigos que, de alguma forma, contribuíram com a agregação de conhecimentos e valores humanos durante esta trajetória. À Deus que, com sua graça, me concedeu vida (corpo, mente e espírito) e me oferece continuamente recursos sadios para enfrentá-la e desfrutá-la. iii É importante mencionar para referência futura que o poder criativo que brota de forma tão agradável no início de um novo livro diminui depois de um certo tempo. Surgem as dúvidas (...) Daí você se torna um resignado. A determinação em não desistir e uma visão do resultado final, mais do que qualquer coisa, nos empurram para a frente. Virginia Woolf iv SUMÁRIO LISTA DE ILUSTRAÇÕES ......................................................................................... vii LISTA DE SIGLAS....................................................................................................... viii RESUMO....................................................................................................................... ix ABSTRACT................................................................................................................... x 1 INTRODUÇÃO ........................................................................................................ 1 2 ABORDAGEM CONTEXTUAL ............................................................................. 9 3 METADADOS .......................................................................................................... 25 3.1 CONCEITO ........................................................................................................... 25 3.2 ORIGEM ............................................................................................................... 29 3.3 FUNÇÕES ............................................................................................................. 31 3.4 PRODUÇÃO ......................................................................................................... 33 3.5 ESTRUTURA........................................................................................................ 36 3.6 PADRÕES E MODELOS ...................................................................................... 38 3.6.1 Dublin Core........................................................................................................ 41 3.6.2 GILS................................................................................................................... 44 3.7 LINGUAGENS DE MARCAÇÃO PARA A DESCRIÇÃO DE METADADOS ................................................................................................ 46 3.7.1 SGML................................................................................................................. 48 3.7.2 HTML ................................................................................................................ 50 3.7.3 XML................................................................................................................... 52 3.7.4 RDF.................................................................................................................... 54 4 CONSIDERAÇÕES AO TRATAMENTO DA INFORMAÇÃO........................... 57 4.1 PRODUÇÃO DE METADADOS VERSUS CATALOGAÇÃO ............................. 57 4.2 O PRINCÍPIO DA "CATALOGAÇÃO-NA-FONTE"............................................ 66 4.3 SOBRE A NORMALIZAÇÃO DA INFORMAÇÃO............................................. 67 5 PROCEDIMENTOS METODOLÓGICOS DO ESTUDO DE CASO .................. 69 6 O PROJETO BIBLIOTECAS VIRTUAIS TEMÁTICAS DO PROGRAMA PROSSIGA ....................................................................................... 72 6.1 O PROGRAMA PROSSIGA ................................................................................. 72 6.2 O PROJETO BIBLIOTECAS VIRTUAIS TEMÁTICAS (BVs) ............................ 73 v 6.2.1 Metadados Produzidos ........................................................................................ 80 6.2.2 Comparação com o Dublin Core (DC)................................................................ 86 7 CONSIDERAÇÕES FINAIS.................................................................................... 89 8 RECOMENDAÇÕES............................................................................................... 93 GLOSSÁRIO................................................................................................................. 95 REFERÊNCIAS ............................................................................................................ 102 FONTES COMPLEMENTARES ................................................................................ 106 APÊNDICE 1 - ELEMENTOS DUBLIN CORE E SUAS CARACTERÍSTICAS........................................................................ 109 APÊNDICE 2 - ENTREVISTA SOBRE O PROGRAMA PROSSIGA/IBICT ......... 113 ANEXO 1 - EXEMPLO DE UM DOCUMENTO HTML QUE UTILIZA METADADOS DUBLIN CORE EMBUTIDOS ...................................... 114 ANEXO 2 - EXEMPLO DE APRESENTAÇÃO DE UM RECURSO VIRTUAL QUE UTILIZA METADADOS GILS ..................................................... 117 ANEXO 3 - PORTAL DO PROGRAMA PROSSIGA NA INTERNET .................... 122 ANEXO 4 - PORTAL DO PROJETO BIBLIOTECAS VIRTUAIS TEMÁTICAS, DO PROGRAMA PROSSIGA ....................................... 124 ANEXO 5 - PÁGINA DINÂMICA PRODUZIDA COMO RESULTADO DE UMA BUSCA NO PROJETO BIBLIOTECAS VIRTUAIS TEMÁTICAS DO PROGRAMA PROSSIGA ........................................ 126 vi LISTA DE ILUSTRAÇÕES QUADROS 1 ELEMENTOS DUBLIN CORE, POR CATEGORIA .............................................................................. 41 2 CAMPOS QUE COMPÕEM O BANCO DE DADOS DO PROJETO BIBLIOTECAS VIRTUAIS TEMÁTICAS, DO PROGRAMA PROSSIGA DO IBICT.................................................... 77 3 CAMPOS PREVISTOS, PORÉM NÃO UTILIZADOS NO BANCO DE DADOS DO PROJETO BIBLIOTECAS VIRTUAIS DO PROGRAMA PROSSIGA DO IBICT, SEGUNDO O TIPO DE RECURSO DE INFORMAÇÃO....................................................................... 79 4 METADADOS PRODUZIDOS NAS PÁGINAS FRAMESET E FRAMES DAS BIBLIOTECAS VIRTUAIS TEMÁTICAS (BVs), DO PROGRAMA PROSSIGA, DO IBICT ....................................................... 82 5 METADADOS PRODUZIDOS NAS PÁGINAS HTML, QUE NÃO UTILIZAM FRAMESET, DAS BIBLIOTECAS VIRTUAIS TEMÁTICAS (BVs) DO PROGRAMA PROSSIGA, DO IBICT......................................................................................................................................................... 83 6 TÍTULOS ATRIBUÍDOS ÀS BIBLIOTECAS VIRTUAIS TEMÁTICAS, SEGUNDO SUA LOCALIZAÇÃO....................................................................................................................................... 85 7 EQUIVALÊNCIA ENTRE OS METADADOS DO PADRÃO DUBLIN CORE E OS PRODUZIDOS NO BANCO DE DADOS DO PROJETO BVS.............................................................. 87 8 EQUIVALÊNCIA ENTRE OS METADADOS DO PADRÃO DUBLIN CORE E OS PRODUZIDOS NAS PÁGINAS HTML DO PROJETO BVS ..................................................................... 87 FIGURAS 1 EVOLUÇÃO E DERIVAÇÃO DE ALGUMAS LINGUAGENS DE MARCAÇÃO PARA O TRATAMENTO DE RECURSOS VIRTUAIS..................................................................................... 48 2 EXEMPLO DA LINGUAGEM SGML..................................................................................................... 49 3 EXEMPLO DA LINGUAGEM HTML .................................................................................................... 51 4 EXEMPLO DA LINGUAGEM XML....................................................................................................... 54 5 EXEMPLO DA LINGUAGEM RDF........................................................................................................ 56 6 EXEMPLO DE UMA FICHA CATALOGRÁFICA................................................................................. 60 7 EXEMPLO DE UM REGISTRO MARC ................................................................................................. 62 8 ESTRUTURA DE UM METADADO EM UM BANCO DE DADOS .................................................... 91 9 ESTRUTURAS BÁSICAS DE UM METADADO EM PÁGINAS HTML ............................................. 91 vii LISTA DE SIGLAS AACR - Anglo-American Cataloging Rules ABNT - Associação Brasileira de Normas Técnicas ANSI - American National Standards Institute ASCII - American Standard Code for Information Interchange ASP - Active Server Pages BVS - Bibliotecas Virtuais Temáticas C&T - Ciência e Tecnologia CERN - Counseil European pour La Recherche Nucleari CNPQ - Conselho Nacional de Desenvolvimento Científico e Tecnológico DC - Dublin Core DTD - Data Type Document FAPERJ - Fundação de Amparo à Pesquisa do Rio de Janeiro GILS - The United States Federal Government Information Locator Service GPO - Government Printing Office HTML - Hipertext Markup Language IBICT - Instituto Brasileiro de Informação em Ciência e Tecnologia ISO - International Organization for Standardization LCS - Laboratory for Computer Science LNCC - Laboratório Nacional de Computação Científica MARC - Machine Readable Cataloging MIT - Massachusets Institute of Technology MS - Microsoft MS-SQL - Microsoft-Structured Query Language OCLC - Online Computer Library Center PICS - Platform For Internet Content Selection RDF - Resource Description Framework RNP - Rede Nacional de Pesquisa SGML - Standard Generalized Markup Language SQL - Structured Query Language URL - Uniform Resource Locator XHTML - Extensive Hypertext Markup Language XML - Extensible Markup Language W3C - World Wide Web Consortium WF - Warwick Framework WWW - World Wide Web viii RESUMO A pesquisa tem por objetivo a identificação dos princípios que regem o uso de metadados no tratamento de recursos virtuais. Explora as fontes bibliográficas para a construção de um referencial teórico-conceitual sobre o assunto, definindo e caracterizando os metadados segundo sua origem, funções, produção, estrutura, padrões e modelos, e linguagens de formatação. Promove o início de uma reflexão sobre a concepção e produção de metadados e sua relação com os princípios da catalogação-na-fonte e o processo de normalização, à luz dos paradigmas histórico e contemporâneo do tratamento da informação. Por meio de um estudo de caso investiga o sistema de informação do Projeto Bibliotecas Virtuais Temáticas, vinculado ao Programa Prossiga, do Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT), descrevendo-o com base na documentação impressa e virtual disponível, assim como explorando seu site para a identificação dos metadados utilizados. A análise das dezesseis bibliotecas virtuais que compõem o Projeto permite o conhecimento de uma realidade na aplicação de metadados, comparando-a com o padrão Dublin Core. Conclui que os metadados são essenciais para o tratamento de recursos virtuais na medida em que possibilitam a denominação semântica de seu conteúdo, sua identificação e recuperação seletiva. Sua utilização com eficácia exige a adoção de formatos-padrão para a representação da informação e de linguagens de marcação que permitam uma estruturação semântica e flexível destes formatos. Recomenda estudos complementares e evolutivos sobre o tema para a garantia de futuras implementações de sistemas e tecnologias da informação. Um glossário apresenta a conceituação dos termos e expressões utilizados, segundo seu significado para a pesquisa. Uma lista de Fontes Complementares contribui com aqueles que se iniciam no assunto. ix ABSTRACT The present research aims at identifying the metadata use ruling principles concerning virtual resources processing. It explores bibliographic sources in order to build theoretical-conceptual references on the subject, thus defining and characterizing metadata according to their origin, function, production, structure, pattern, model and format languages. It promotes careful thinking on metadata conception and production and their relation to the cataloguing in publication data and standardization, from the viewpoint of information processing historical and contemporary paradigms. By means of a case study this research investigates the Projeto Bibliotecas Virtuais Temáticas (Thematic Virtual Library Project) information system, which is linked to the Programa Prossiga (Prossiga Program) under the Science and Technology Information Brazilian Institute (IBICT). It also describes such project based on the available printed and virtual documentation, and explores the project site to identify the metadata it used. The analysis of the Project sixteen virtual libraries allows us to know the metadata it really used by comparing them to the Dublin Core pattern. It also infers that metadata are essential for the virtual resources processing as far as they make it possible the contents’ semantic denomination, identification and selective recuperation. To use Metadata efficiently, it is necessary to make use of standard formats to represent information and markup languages which can allow such formats to have semantic and flexible structures. The present research recommends complementary and developing studies on the subject to guarantee the implementation of future information systems and technologies. As a support, this research contains a glossary showing the term and expression concepts used in it, as well as a list of additional sources to help the ones who are interested in such subject. x 1 1 INTRODUÇÃO Invenções e inovações têm sua origem no deleite pelo saber e pelo domínio de situações. A necessidade de reduzir incertezas, de chegar a verdades, de mecanizar, de informatizar, de preservar, de racionalizar, de organizar, enfim, poder-se-ia relacionar inúmeros verbos, ou ações, é o que motiva os seres humanos a pesquisar constantemente com vistas ao alcance de um futuro mais autônomo e seguro. A contribuição à evolução do conhecimento nas ciências é meta de toda e qualquer pesquisa. Elucidativa, enriquecedora, conquistadora e triunfante, como define MORIN (1998, p. 15-16), a ciência com seus conhecimentos determina progressos à humanidade a partir da investigação e análise de realidades, de complexidades e de problemáticas. Devidamente documentada, toda pesquisa sistematiza um avanço na área do estudo, pois os registros decorrentes proporcionam novas leituras, novas análises e ampliam os horizontes do conhecimento acerca do tema. Pesquisas têm demonstrado que ao longo da existência do homem suas descobertas, sua vida e sua história foram sendo registradas de acordo com a concepção cultural e com o instrumental disponível em cada época. Isso demonstra a necessidade humana em depositar seus conhecimentos, seja como uma manifestação sócio-cultural espontânea, seja intencionalmente para uso futuro próprio ou coletivo. A quantidade de registros informativos gerados atualmente difere, em número e tipo, de épocas remotas, quando as tecnologias para a geração e o tratamento da informação não se encontravam no estágio em que estão hoje, quando áreas afins compartilham esforços para a obtenção de melhores resultados para os casos onde as preocupações são mútuas. O acelerado avanço no desenvolvimento da Ciência e da Tecnologia ocorrido na última década provocou mudanças nos modos de agir e pensar das sociedades, pautadas no reconhecimento e na valorização de um "novo" recurso socioeconômico: o conhecimento. 2 Diferentes suportes para o registro do conhecimento, diferentes veículos de comunicação para a transmissão do conhecimento e diferentes formas de representação de dados e informações que compõem este conhecimento exigem e continuarão exigindo alternativas dinâmicas para a sistematização, organização e possibilidade de reuso deste conhecimento. Recurso invisível, intangível e difícil de imitar, porém altamente reutilizável, o conhecimento, por conseqüência, fez emergir um novo componente na gestão organizacional: o capital intelectual, que, por sua vez, tem se apresentado como o maior diferencial competitivo entre as organizações (TERRA, 2000, p.20-21). Apesar de essa cadeia de valores ter assumido tal importância apenas recentemente, pode-se dizer que sua origem remonta dos estoques de informação acumulados, explicita e tacitamente, na história da humanidade. Sobre a acumulação tácita não há nenhuma forma de controle coletivo de sua produção e uso, mas no que diz respeito à acumulação explícita as tentativas para isto têm se adaptado aos novos "ambientes" provenientes das tecnologias disponíveis. Verifica-se que padrões de tratamento já foram estabelecidos, inclusive em nível mundial, no que se refere à informatização (aplicação de software, representação em bancos de dados e intercâmbio de registros) de estoques locais compostos por objetos físicos (expressão doravante utilizada para denominar os "pacotes" de dados, informações e/ou conhecimentos originados, mantidos e disponibilizados em algum tipo de material físico palpável, tais como: livros e similares, partituras, fitas-cassete, fitas de vídeo, discos, CDs, artefatos tridimensionais, reálias, iconografias, mapas, entre outros). Estes padrões têm garantido, se não perfeitamente, um alto índice de precisão no trabalho com informações, conforme se constata nos sistemas tradicionais vinculados a bibliotecas e outras unidades de informação. Porém, quanto aos recursos virtuais (expressão doravante utilizada para designar os "pacotes" de dados, informações e/ou conhecimentos, originados sob o formato de arquivo digital, e mantidos e disponibilizados na Internet por meio de recursos hipertextuais e de hipermídia), verifica-se, ainda, a existência de problemas 3 em relação ao seu tratamento, comprometendo o resultado de pesquisas realizadas na rede e, conseqüentemente, o desenvolvimento de áreas que dela dependem como fonte de informações. Há séculos existe a preocupação quanto ao aperfeiçoamento das técnicas de tratamento da informação para organizar os estoques de informação dispersos e desorganizados, mas o que se evidencia, até muito recentemente, em relação à Internet, é que esta preocupação tem se voltado prioritariamente à aplicação de tecnologias para permitir o acesso irrestrito e quantitativo de informações, mais do que à organização com vistas a acessos refinados e inteligentes dessas informações. Atribui-se a origem desse problema a fatores como: a repentina ampliação do estoque de informações para fora dos ambientes das tradicionais bibliotecas e outras unidades de informação similares (onde repousava, até pouco tempo, grande parte dos sistemas de informação) e os escassos esforços específicos no desenvolvimento de novas tecnologias para a redução dos obstáculos entre usuários e informações, devido à complexidade e à subjetividade da questão, não permitindo, na mesma proporção do acelerado avanço das tecnologias da comunicação de dados, o estabelecimento de critérios qualitativos e universais para as bases estruturais dos recursos virtuais. Diminuir a barreira entre a geração e o acesso à informação "estocada", tem se tornado, portanto, um desafio, mesmo em se agregando as facilidades oferecidas pelas tecnologias que reúnem os conhecimentos das áreas que, na Sociedade da Informação, vêm adquirindo destaque, ou seja, a Informática, a Eletrônica, as Telecomunicações e a Ciência da Informação. Estoques de informação precisam ser tratados para justificar sua existência, mas tratar significa processar sob critérios que visem à maior das metas: a reutilização (busca + acesso + uso) da informação. A preocupação com a eficácia nos resultados das buscas, para a reutilização da informação em redes eletrônicas, surgiu nos primeiros anos da década de 90 do século XX, mas apenas nos países desenvolvidos, onde o uso de redes de informações já era uma realidade; a partir de então, encontram-se inúmeros trabalhos sobre o 4 assunto, principalmente em língua inglesa. No Brasil, onde as redes eletrônicas tomaram corpo somente no final dos anos 90, verifica-se que o assunto começa a ser explorado neste período. De acordo com o Livro Verde do Programa Sociedade da Informação do Brasil (TAKAHASHI, 2000, p.8), em um contexto globalizado, o volume de informações disponíveis nas redes passa a ser um indicador da capacidade de influenciar e de posicionar as populações no futuro da sociedade. (...) Portanto, questão estratégica nas políticas e programas de inserção na sociedade da informação é - além de cuidar do uso adequado das tecnologias - aumentar a quantidade e a qualidade de conteúdos nacionais que circulam nas redes eletrônicas e nas novas mídias. Sendo assim, urge estabelecer princípios e formas padronizadas que permitam o monitoramento dos recursos virtuais gerados e disponibilizados pelo homem, criando ou inovando tecnologias para os processos da gestão da informação, de modo a não somente aproveitar os desenvolvidos recursos da Ciência e da Tecnologia, mas, a partir destes, proporcionar avançados e eficientes instrumentais para toda a cadeia do trabalho com informações, ou seja, os processos de geração, tratamento, intercâmbio, disseminação, busca, acesso e uso. Pesquisas e experiências, relatadas na literatura sobre o assunto, têm demonstrado que a solução para o tratamento de recursos virtuais é o uso de metadados. Porém, ainda estão em vigor estudos para o estabelecimento e implantação de um padrão mínimo para sua estruturação, com vistas a proporcionar aos sistemas de informação e ferramentas de busca1 utilizadas formas de reconhecimento e seleção mais precisas no atendimento às buscas de informações. Pressupondo que a qualidade na busca seletiva, automática e inteligente na Internet requer, além de eficientes programas associados a ferramentas de busca, um armazenamento das informações praticado sob critérios estruturais básicos suportados por um entendimento teórico-conceitual da essência do tratamento da informação, buscou-se nesta pesquisa estudar um dos aspectos que compõem o processo de tratamento da 1 Mecanismos que localizam recursos de informação na Internet, selecionando-os e agrupando-os segundo critérios predeterminados. 5 informação na Era Digital, os metadados, que podem ser genericamente definidos como dados sobre os dados, ou seja, a informação digital que possibilita a identificação, caracterização e localização das informações disponíveis nas redes eletrônicas. No Brasil, o Programa Sociedade da Informação, iniciado em 1996 pelo Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq), inclui em suas propostas de pesquisas estímulos a estudos que melhorem a capacidade de recuperação das ferramentas de busca da Internet. Sobre o tema metadados propõe "o estabelecimento de normas técnicas para o tratamento de conteúdos (metadados), para garantir maior racionalidade nos processos de armazenamento e maior pertinência e relevância na recuperação de informações, considerando os níveis e limitações dos grupos de usuários potencialmente interessados" (TAKAHASHI, 2000, p.66), e a definição de "um modelo de metadados para informações governamentais..." (TAKAHASHI, 2000, p.80). No entanto, para que isso se efetive, é necessário, primeiramente, o domínio do assunto pelos profissionais que atuam na área da Informação, o que motivou a realização da presente pesquisa, no sentido de conjugar dois fatores: a) necessidade de atualização profissional da autora, em função da atuação acadêmica; b) emergência do assunto em razão da diversidade e do crescente número de recursos virtuais disponibilizados na Internet. Diante do pressuposto e das necessidades apresentadas, a pesquisa tem seu enfoque sobre a seguinte problemática: a) escassez de estudos em língua portuguesa que sirvam de referencial teórico-conceitual para aqueles que atuam ou atuarão na área dos recursos virtuais, à procura da integração de diferentes fontes em diferentes ambientes, sem perder a garantia de um resultado confiável e adequado às necessidades requeridas pelos usuários; b) ausência de uma análise reflexiva sobre os metadados ante os paradigmas histórico e contemporâneo do tratamento da informação. 6 Por conseqüência, esta pesquisa tem objetivo geral a identificação dos princípios que regem o uso de metadados no tratamento de recursos virtuais. Para a obtenção dos resultados que permitissem a identificação desses princípios, foram definidos os seguintes objetivos específicos: a) explorar as fontes bibliográficas a fim de construir um referencial teóricoconceitual sobre o assunto; b) promover o início de uma reflexão sobre os metadados à luz dos paradigmas histórico e contemporâneo do tratamento da informação; c) realizar um estudo de caso para verificar a aplicação de metadados em um sistema nacional de informação virtual. A pesquisa caracteriza-se, por conseguinte, como do tipo bibliográfica. Segundo GIL (1994, p.71), "a pesquisa bibliográfica é desenvolvida a partir de material já elaborado, constituído principalmente de livros e artigos científicos". Para adaptar esse conceito aos atuais meios de veiculação da informação, acrescentaram-se como material bibliográfico os textos sobre o tema disponíveis na Internet. Pelas diversas abordagens possíveis sobre os metadados, cabe esclarecer que o tema é desenvolvido segundo a ótica da construção do saber teórico acerca dos metadados e do estabelecimento de diretrizes para seu tratamento. Evidencia-se, portanto, a exclusão dos enfoques relativos aos protocolos de comunicação e à arquitetura dos bancos de dados envolvidos na implementação dos esquemas de metadados. A pesquisa não se encerra no seu enfoque bibliográfico, pois um estudo de caso a complementa, proporcionando uma visão prática sobre o uso de metadados em um sistema de informação. A realização da pesquisa transpôs as seguintes etapas: a) levantamento da literatura, o que resultou na identificação de 44 artigos de periódicos (13 em língua portuguesa e 31 em língua estrangeira), e 59 monografias e outros trabalhos (25 em língua portuguesa e 34 em língua estrangeira), distribuídos entre fontes impressas e eletrônicas. Destes, alguns 7 serviram para o embasamento teórico, sendo citados no texto e indicados na seção Referências, outros agregaram conhecimentos ao autor e, como não tiveram sua menção no texto, resultaram na lista de Fontes Complementares, apensada ao trabalho como fonte de referência para aqueles que se iniciam no assunto; b) leitura e análise da bibliografia levantada, o que propiciou a exploração do tema sob a ótica de diferentes autores, bem como o seu delineamento, subsidiando, ainda, o estudo de caso à luz da teoria envolvida; c) realização do estudo de caso para a verificação prática do uso de metadados, tendo como objeto o projeto Bibliotecas Virtuais Temáticas, vinculado ao Programa Prossiga, do Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT). As informações obtidas e os conhecimentos adquiridos no percurso do desenvolvimento da pesquisa foram sistematizados em um texto subdividido em seções, conforme segue. O trabalho inicia-se com esta Introdução, na qual o tema é problematizado e justificado, e a pesquisa delimitada em termos de seus objetivos, abordagem e metodologia. A segunda seção, Abordagem Contextual, busca proporcionar a compreensão sobre o encadeamento que conduz ao núcleo estudado, ou seja, aos metadados. Sintetizam-se as questões da Era da Informação, do novo mecanismo de comunicação (a Internet) e seus derivados intermediadores, as conseqüências da explosão de recursos virtuais e as implicações no processo de recuperação desses recursos. Embora muito já se tenha escrito sobre estes assuntos, considera-se que o entendimento das relações existentes entre eles e os metadados é pré-requisito à compreensão das demais abordagens tratadas nesta pesquisa. Na seção seguinte, sob o título Metadados, estes são caracterizados em subseções, as quais apresentam aspectos relativos ao conceito, origem, funções, 8 produção, estrutura, padrões e modelos, e linguagens de formatação, construindo-se um referencial teórico-conceitual sobre o assunto. A quarta seção, Considerações ao Tratamento da Informação, faz uma reflexão acerca da concepção e produção de metadados, e sua relação com o princípio da catalogação-na-fonte e o processo de normalização, sob duas abordagens: histórica e contemporânea. Os Procedimentos Metodológicos do Estudo de Caso são descritos na quinta seção. A sexta seção, O Projeto Bibliotecas Virtuais Temáticas do Programa Prossiga, apresenta a análise descritiva do estudo de caso, permitindo o conhecimento de uma realidade na aplicação de metadados, comparando-a com o padrão Dublin Core (DC). A seção intitulada Considerações Finais apresenta a síntese conclusiva, as implições práticas e as limitações da pesquisa. Por fim, a seção Recomendações traz sugestões para a garantia da continuidade de estudos complementares e evolutivos sobre o tema e pontos básicos a serem levados em consideração no desenvolvimento de futuras implementações em tecnologias da informação. Um Glossário apresenta a conceituação de termos e expressões segundo seu significado para a pesquisa. Uma lista de Referências relaciona os documentos citados no texto da pesquisa e uma lista de Fontes Complementares contribui com os leitores que se iniciam no assunto. 9 2 ABORDAGEM CONTEXTUAL Era da Informação, Era do Acesso, tempos em que "o conhecimento tornou- se, (...) mais do que no passado, um dos principais fatores de superação de desigualdades, de agregação de valor, criação de emprego qualificado e de propagação do bem estar" (TAKAHASHI, 2000, p.v). Era "em que a conectividade leva ao acesso de todos a todos, de tudo a tudo e de tudo a todos" (TAYLOR e WACKER, 1999, p.302). Era que se caracteriza pelo avanço das tecnologias da informação, da informatização de produtos e serviços, das infovias e da gestão de sociedades baseadas na informação em diversos países, exigindo novas formas de organização social baseadas em uma nova leitura da vida e em uma nova linguagem de comunicação. Esta nova ótica que rege a economia das sociedades pelo conhecimento, denomina genericamente o mundo globalizado de Sociedade do Conhecimento, para o que TERRA (2000, p. 24-30) relaciona sinais de sua evidência, quais sejam: a) a importância da inovação tecnológica para o crescimento econômico e a competitividade empresarial; b) a evolução dos setores de informática e telecomunicações; c) a importância relativa dos ativos intangíveis; e d) os impactos econômicos e sociais dos níveis de educação e qualificação profissional. Poder público, organizações privadas e sociedade civil em geral envolvem-se em transformações nos diversos níveis do processo de internacionalização sociocultural e econômica dos países, baseada em acessos sem fronteiras à informação, proporcionados pelas redes de informação que induzem à formação de cidadãos globais. A grande rede de redes, a Internet, idealizada nos anos 60, do século XX, pelo Departamento de Defesa dos Estados Unidos, é um exemplo vivo da globalização e, ao mesmo tempo, fator determinante do desenvolvimento da Ciência e da Tecnologia na nova sociedade. Há que se destacar que, de acordo com TERRA (2000, p.158), 10 a Internet não implica aumento da capacidade de processamento computacional. Esta vem mantendo sua trajetória de crescimento acelerado quase independentemente da Internet, a qual pode ser vista simplesmente como um protocolo (chamado TCP/IP), que permite uma eficiente (por dividir qualquer informação em pequenos pacotes que otimizam o fluxo nas redes) comunicação entre: pessoas com pessoas; pessoas com máquinas; máquinas com máquinas (de diferentes origens, funções e capacidade de processamento). É esse fantástico aumento na capacidade de comunicação que explica o enorme impacto da Internet. O uso da Internet, infelizmente, ainda não está ao alcance de todos por questões de políticas de acesso e de inabilidades pessoais, mas, pelo que indicam as estatísticas em termos de redes conectadas e número de usuários, seu crescimento é exponencial e a tendência é que a exclusão digital torne-se cada vez menor. Milhares de dados, informações e documentos são disponibilizados na Internet por meio portais2 e sites3, individuais ou institucionais, acessíveis através de provedores que permitem a conexão entre pessoas e fundem conhecimentos em tempo real. De acordo com CASTELLS (1999, p.113), a comunicação de conhecimentos em uma rede global de interação é, ao mesmo tempo a condição para acompanhar o rápido progresso dos conhecimentos e o obstáculo para o controle de sua propriedade. Além disso, a capacidade de inovação está armazenada basicamente em cérebros humanos, o que possibilita a difusão da inovação com a rotatividade de cientistas, engenheiros e administradores entre organizações e sistemas produtivos. As possibilidades e vantagens oferecidas pela Internet, sem dúvida, potencializam o desenvolvimento do homem, seus feitos e relações, cuja agregação no tempo e no espaço reafirmam o capital intelectual como maior propulsor dos sistemas produtivos da humanidade. Diante do vasto universo informacional que se apresenta como uma explosão frente à própria capacidade de controle e acompanhamento do homem, surgem os 2 Portal é um recurso de informação virtual, disponível na Internet, por meio do qual se tem acesso a informações remotas de diferentes sites. 3 Site é um termo da língua inglesa que significa sítio, ou seja, o conjunto de páginas na Internet pertencentes ao mesmo criador, disponíveis a partir de uma home page (primeira página do site que resume seu conteúdo) e vinculandas na forma de links. 11 sistemas intermediadores para agirem como facilitadores de acesso no atendimento à demanda: os sistemas de informação. Há diversas maneiras de se definir sistema de informação. De forma clara e abrangente, STAIR (1998, p.427) afirma que sistema de informação é o "conjunto de elementos que funcionam juntos para processar entradas e produzir e distribuir dados e informações de saída". Segundo esse autor, os sistemas de informação informatizados caracterizam-se, genericamente, por empregarem hardware, software, bancos de dados, pessoas, procedimentos para coletar, manipular, armazenar e transformar dados em informação e, na maioria dos casos, telecomunicações (STAIR, 1998, p.427). Complementando com a visão de ARMS, BLANCHI e OVERLY (1997, p.3), pode-se destacar que o repositório de dados, o sistema de busca, os provedores de recursos eletrônicos e a interface com o usuário são os principais e atuais componentes de um sistema em rede no mundo virtual. Os elementos de um sistema devem operar em sincronia entre si e de acordo com as metas de sua concepção e da instituição à qual estão vinculados, uma vez que o desempenho de um sistema de informação é medido por sua eficácia (proporção com que atinge seus objetivos) e sua eficiência (proporção entre o que é produzido e disponibilizado e o que é consumido para tornar isto possível), o que se considera totalmente dependente das técnicas e da tecnologia aplicada para seu funcionamento. O desenvolvimento dos sistemas de informação tem mostrado a sua tendência em coletar, tratar, explorar e disponibilizar automaticamente informações, geralmente desvinculadas de objetos físicos, pois a massa de dados que estes sistemas vêm operando refere-se à própria informação eletrônica disponibilizada na forma de arquivos digitais. Em muitos casos podem incluir, também, dados representativos e referenciais de objetos físicos, associando-os não a uma Uniform Resource Locator (URL)4, mas ao local físico 4 Uniform Resource Locator (URL) significa Localizador Uniforme de Recursos. É o padrão de endereçamento de fontes de informação na Web que combina informações sobre o tipo de protocolo utilizado, o endereço do site em que o recurso está localizado (domínio), subdiretórios e o nome do arquivo. 12 onde estão disponíveis, ou mesmo disponibilizando-os integralmente na forma digital por meio de recursos hipertextuais ou de hipermídia. Portais, sites, home pages são hoje entradas para muitos sistemas de informação na Internet, os quais variam em termos de diversidade e exaustividade temática. É por meio desses sistemas que está garantido o acesso às informações acumuladas na história da humanidade, ao que a literatura chama de estoques de informação. Convém considerar que os sistemas estocadores de informação não devem ser dispositivos estáticos, ou meros repositórios, mas intermediadores dinâmicos entre emissores e receptores da informação, portanto mecanismos inteligentes e flexíveis cuja matéria-prima (dado, informação e/ou conhecimento) deve se moldar a cada caso na agregação de valores e na solução de problemas com informação de diferentes usuários. Importante salientar que a razão da existência de um sistema de informações é o usuário; são as pessoas que, potencial ou efetivamente, utilizam as informações disponibilizadas pelo sistema. Sendo assim, todo e qualquer mecanismo ou ferramenta implementado para maximizar o uso de sistemas deve estar voltado para as necessidades da comunidade à qual serve, levando sempre em consideração as possíveis variações na busca, dependentes do conhecimento e da bagagem de cada membro desta comunidade. Por conseguinte, o atendimento às necessidades de informação dos usuários deve ser periodicamente avaliado para que o sistema possa adequar-se à demanda. Neste sentido, os índices de revocação, precisão, rejeição, especificidade, seletividade, tempo de resposta, esforço do usuário, cobertura e novidade são medidas de eficácia que podem ser aplicadas (GUINCHAT e MENOU, 1994, p.327). A necessidade de monitorar os estoques de informação tem obrigado as organizações a criarem seus próprios sistemas de informação, sob critérios muitas vezes particulares, visando apenas ao pronto atendimento às suas necessidades internas e imediatas, resultando daí, inúmeros modelos isolados, principalmente em empresas com fins lucrativos e princípios competitivos de mercado. Já nas organizações filantrópicas e estatais, que visam ao atendimento às necessidades educacionais, culturais e sociais de comunidades, regiões, nações ou mesmo no âmbito internacional, percebe-se a preocupação com a interatividade, a 13 arquitetura, a manutenção e o uso de sistemas que contemplem as diversidades existentes no mundo globalizado. Os sistemas disponíveis na Internet devem, pela própria característica da rede, contemplar o requisito de interoperabilidade (capacidade de diferentes máquinas, programas e linguagens trabalharem de forma compartilhada), atendendo à maior razão de sua existência: conectar pessoas e máquinas em tempo real, disponibilizando dados, informações e conhecimentos de forma interativa. MIRANDA (2000, p.71), analisando a organização e o uso adequado dos estoques de informação do futuro, afirma que a intervenção profissional para isto estaria centrada no binômio estrutura e conteúdo, ou seja, por um lado, na capacidade técnica de implementação das redes e sistemas e, por outro, no tratamento documental dos registros físicos e não físicos dos tradicionais e novos suportes da informação. Tarefa de dimensões extraordinárias, com enfoque interdisciplinar e planejamento em equipe. A qualidade da recuperação estará em relação proporcional com a capacidade de tratamento da informação nas fases de controle e processamento. Felizmente, a atuação integrada de alguns diferentes profissionais na busca de um trabalho qualitativo com informações que compõem esses estoques tem proporcionado uma evolução gradual e contínua dos sistemas que atuam no setor informacional das sociedades. No entanto, conforme afirmou Miranda, acima citado, proporcionar o encontro entre a informação estocada e aqueles que a procuram, não é uma tarefa fácil, pois requer, acima de tudo, a adoção de procedimentos técnicos específicos e ferramentas de busca adequadas para sua identificação e localização. Pode-se dizer que no processo de busca de informações encontram-se três classes de problemas: a) relacionados aos instrumentos e técnicas criados pelo homem para tratar a informação e agilizar sua busca, sua disponibilidade, complexidade e grau de atendimento frente às reais necessidades dos usuários; b) relacionados ao próprio homem, sua disponibilidade (de tempo, e econômica), seu interesse, sua bagagem cognitiva e seu poder de avaliação da informação encontrada; e 14 c) relacionados à informação propriamente dita, sua fidedignidade (quanto ao conteúdo e à autoridade), sua validade (legal e temporal) e seu nível de especificidade. A busca por informações se processa a partir de uma necessidade, que leva o indivíduo a sair à procura de novos conhecimentos ou de informações sistematizadas a respeito de algo que já faz parte de sua bagagem intelectual. Este processo exige uma seleção, dentre todo o estoque de informações existentes, daquelas que suprem suas necessidades, tarefa em que estão embutidas as três classes de problemas antes citadas. A busca de informações, no tocante ao acesso aos estoques de informações, pode ocorrer de duas formas: a) procura de recursos de informação (entendidos aqui como todo e qualquer suporte que contenha dados, informações e/ou conhecimento) diretamente nos estoques existentes; ou b) busca nas representações destes recursos em sistemas estocadores de informações. A primeira alternativa vem se tornando impossível diante da quantidade e dispersão dos recursos. Tornou-se impossível a visita local aos diversos estoques físicos associados a bibliotecas e outras unidades de informação, assim como impossível, também, acessar todas as URLs procurando encontrar as informações desejadas. O uso da segunda alternativa, busca nas representações dos recursos, traz um resultando mais eficaz aos processos de exploração e seleção, visto que é realizada por intermédio de sistemas de informação, ou mesmo de mecanismos estruturados que, previamente, identificam, localizam, descrevem e "controlam" os recursos estocados, preparando-os para as possíveis consultas à sua procura. O termo "controlados" deve vir entre aspas pois, muitas vezes, é aplicado erroneamente. Há que se dizer que, embora complexo, o controle é uma tarefa indispensável quando se almeja a qualidade de serviços. De modo geral, o controle abrange todos os aspectos do sistema e pode ser dividido, conforme STAIR (1998, p.391), em: 15 a) controles de entradas; b) controles de processamento; c) controles de saídas; d) controles de bancos de dados; e) controles de telecomunicações; e f) controles de pessoal. Há que se considerar que estes controles são interdependentes, podendo resultar em insatisfação da organização e dos seus usuários, se pelo menos um dos aspectos for relegado. Controlar informações que compõem sistemas significa orientar técnicas e procedimentos para a qualidade de serviços e produtos derivados; contudo, TERRA (2000, p.155) afirma que " 'controlar' é um verbo que está associado à Era Industrial, enquanto 'facilitar' está associado à Era do Conhecimento". Controlar e monitorar informações em sistemas envolve, necessariamente, atividades em todas as fases do trabalho com informação (conforme já dito anteriormente: geração, tratamento, intercâmbio, disseminação, busca, acesso e uso); porém, as fases de geração e tratamento é que vão determinar os limites dos serviços e produtos a serem oferecidos. Monitorar a geração de recursos de informação significa dar-lhes um "formato" inteligível e disponibilizar, em seu conteúdo, informações que possibilitem a sua caracterização, preferencialmente a partir de um modelo-padrão, compatível com todas as formas de entendimento humano, independentemente de raça ou país que venha a manuseá-lo. Para livros, teses, dissertações e publicações periódicas, por exemplo, encontram-se as normas internacionais da International Organization for Standardization (ISO), e, no caso do Brasil, as normas da Associação Brasileira de Normas Técnicas (ABNT), as quais determinam como cada um destes produtos deve ser apresentado em termos de formato e conteúdo. No caso dos mais recentes recursos de informação, os recursos virtuais, ainda não se chegou a um modelo que possa servir de padrão universal (já que a Internet é uma rede de redes, portanto universal) para a garantia de seu 16 reconhecimento semântico automático, pois não mais somente os humanos, mas máquinas também devem poder compreender sua estrutura e conteúdo. Monitorar o tratamento de recursos de informação significa estabelecer um formato de armazenamento em ambiente eletrônico (estrutura do banco de dados) do "pacote" que compõe o recurso, bem como um formato para os dados e informações que lhe pertencem e que servirão para sua identificação, localização e recuperação (formato de entrada de dados). Esta divisão em formatos proporciona, aos produtos e serviços de informação, flexibilidade no manuseio e na apresentação. Por estabelecimento de um formato de armazenamento em ambiente eletrônico entende-se a configuração em máquina de uma estrutura capaz de acomodar e possibilitar o intercâmbio, total ou parcial, de "pacotes" de informação, sem o comprometimento de seu conteúdo; ou seja, proporcionar a integração entre bancos de dados, garantindo autonomia e significado a cada informação. Estabelecer um formato de entrada de dados é dar um padrão mínimo às informações que representam os "pacotes", observando aspectos como sinonímias e polissemias de palavras, registro normalizado de datas, números, abreviaturas, siglas, pessoas, organizações, enfim, termos e expressões que são utilizados verbal ou graficamente sob diferentes formas por diferentes pessoas, garantindo-lhes a semântica originalmente concedida. Apesar de diferentes dispositivos possibilitarem a entrada de dados em sistemas, todos os dados são armazenados fisicamente na máquina, na forma de bits. Contudo, a estrutura ou organização lógica e física dada ao sistema para a acomodação dos diferentes dados e a consideração ao seu valor semântico é que irão determinar o índice de recuperação da informação em processos de busca. O princípio básico a ser aplicado para uma efetiva recuperação da informação é o da separação dos dados e/ou informações, de acordo com o seu valor semântico. Nenhum programa é capaz de identificar eficazmente um dado ou uma informação específica, entre os milhões de caracteres armazenados, se não lhe for 17 atribuído um formato de alocação no sistema, inclusive traçando seus limites de início e fim. Isto significa que cada informação deve ter seu respectivo recipiente e, sempre que possível, assumir um formato-padrão de entrada. Eis aqui outro princípio básico: a padronização dos dados. Ao procurar um dado ou informação solicitada, o programa utilizado "varre" o sistema até encontrar uma seqüência de caracteres (string) idêntica à que foi indicada como termo(s) de busca, sem levar em consideração qualquer outro termo que possua o mesmo valor semântico, seja por sinonímia, seja por derivação ou outro fator, ou que tenha a mesma morfologia, porém com significado diferente, a menos que esteja previamente programado para isto. Concorda-se com o argumento de VAUGHAN-NICHOLS (1997, p.89) segundo o qual, apesar do avanço dos sistemas, uma busca com palavras-chave produz diferentes resultados em diferentes sistemas. Pesquisas idênticas, mesmo em sistemas que utilizam a mesma sintaxe de busca, apresentam resultados radicalmente diferentes. Ambos os monitoramentos, do formato de armazenamento e do formato dos dados, são os únicos meios de assegurar o acesso com qualidade aos estoques de informação, oferecendo integridade aos dados, eliminando a redundância, reduzindo incertezas, garantindo precisão sem, contudo, eliminar as possíveis diversidades intrínsecas ao conteúdo da informação na sua forma original e sem que se perca tempo com a conversão de sistemas, quando este for o caso. A tarefa de monitoramento impôs, portanto, e com mais ênfase, a utilização de instrumentos comuns que garantissem a possibilidade de comunicação entre máquinas, programas e dados, e a padronização de procedimentos. Estes instrumentos são respectivamente: a) para a comunicação entre máquinas: dispositivos e protocolos de (tele) comunicação padronizados segundo princípios da Eletrônica para transmitir e converter sinais; b) para a comunicação entre programas e dados: protocolos de comunicações que ditam métodos e procedimentos-padrão para a transferência de dados, estabelecidos pela Informática, utilizando-se dos recursos da Eletrônica; 18 c) para a padronização de procedimentos: documentos e manuais que descrevem e orientam sobre a operação do sistema, desenvolvidos por aqueles que diretamente estão envolvidos com a tarefa de operação. AGUIAR (1993, p.62) salienta que um sistema de informação automatizado, efetivamente preocupado com a disseminação e o uso, deve levar em conta os diferentes problemas físicos, lógicos e operacionais que ocorrem em dois de seus subsistemas: os relativos à informação que entra e os pertinentes à que sai. A afirmação da autora enfatiza a relação direta existente entre os meios, métodos e técnicas de armazenamento, de representação e de organização dos "pacotes" que compõem o repertório de dados, e as técnicas, os procedimentos, os dispositivos de recuperação e a política de disseminação que determina a saída da informação. Abordando especificamente a problemática da informação propriamente dita, ou seja dos conteúdos dos "pacotes", STAIR (1998, p.118) enfatiza a quantidade, a volatilidade e a imediação como características relevantes a serem consideradas no tratamento da informação. No que se refere à quantidade, controles estatísticos são capazes de monitorar medições a respeito de alterações, incrementos, deleções e outras operações ocorridas. No que se refere à volatilidade (instabilidade e necessidade de alterações, adições e deleções) e à imediação (medida de rapidez com que as mudanças devem ser feitas) dos dados, características que influenciam diretamente o início de qualquer processamento de dados, ou seja, a entrada dos dados, e indiretamente os demais processos, há que se ponderar uma série de fatores que guardam o segredo do sucesso de sistemas de informações. TERRA (2000, p.155) defende que "os sistemas de informação só podem ser úteis à medida que os dados, informações e bases de conhecimento que os alimentam são confiáveis relevantes e atualizados". Em suma, o resultado do processo de busca que leva ao acesso de informações somente tem validade se for garantida a autenticidade, a fidedignidade, a 19 atualização e a preservação do conteúdo disponibilizado, mesmo nos casos em que oferecem apenas dados referenciais que remetem a outros recursos de informação, reais ou virtuais. Voltando à questão da busca de informações, anteriormente abordada sob o aspecto das formas de acesso a estoques de informação, ela é retomada agora sob os métodos de busca. Consultar diretamente os recursos de informação ou utilizar-se de suas representações para identificá-los e selecioná-los nos estoques de informação, conforme visto anteriormente, implica dois métodos de buscas: um simples browsing ou um planejamento em que critérios são previamente estabelecidos. Considerando-se o caso do browsing manual não há muito o que se relevar, pois, em se tratando de "uma atividade não orientada, não programada, informal, não sistemática, casual", seu sucesso é dependente dos sentidos, da experiência e do intelecto de cada indivíduo particularmente (NAVES, 1998, p.1), o que foge a qualquer tipo de controle. Quanto ao browsing inteligente, ou browsing automatizado executado por ferramentas de busca, pode-se dizer que é um poderoso mecanismo, mas totalmente dependente de sua política de ação e da organização e classificação dada aos recursos de informação pelos sistemas intermediadores. Inúmeras são estas ferramentas de busca on-line disponíveis na Internet. É preciso conhecer como elas trabalham para poder avaliar os resultados apresentados às pesquisas. Os artigos de LANGA (1998) e BRANSKI (2000) demonstram as diferenças existentes entre as ferramentas, as quais podem ser classificadas em quatro categorias: a) as que respondem às solicitações de pesquisa consultando índices dos recursos virtuais construídos prévia e automaticamente por meio de palavras-chave extraídas desses recursos, sem qualquer classificação temática. Estes índices compõem o banco de dados da ferramenta, o qual 20 é alimentado por meio de programas, conhecidos por spiders5, que percorrem a rede visitando e revisitando sites, lendo seu conteúdo, seguindo seus links6 e indexando-os. O conteúdo dos recursos levado em consideração na indexação varia a cada ferramenta: conteúdo integral do site; no mínimo, as cem primeiras palavras de cada página, incluindo o título e a descrição que o autor tenha fornecido na estrutura da página e excluindo códigos da Hipertext Markup Language (HTML), comandos JavaScript e palavras tais como artigos, pronomes, conjunções, preposições entre outras não significativas para as buscas; somente o título e o resumo; imagens; datas; entre outros. A maneira mais garantida de as páginas serem indexadas é adicionando-se meta tags7 ao cabeçalho de seu script8. Exemplos de ferramentas que constroem índices são: Alta Vista, Excite, HotBot, Infoseek, Northern Light e Fast Search; b) as que respondem às solicitações de pesquisa consultando catálogos, ou diretórios, de bancos de dados construídos previamente por meio da seleção, análise, organização e classificação dos recursos eletrônicos em categorias de assuntos, tarefa que envolve normalmente o trabalho humano. Meta tags não são utilizadas na construção desses catálogos, e alguns exemplos deste tipo de ferramenta são: Yahoo, Galaxy, Magellan, NetGuide e Cadê; 5 Spiders, também denominados robôs de busca, são programas que rastream a Internet, visitando os sites, lendo, extraindo e organizando seus dados em um banco de dados, a fim de servirem como elementos em futuras buscas de informações. 6 Link é um elo de ligação entre dois elementos que, estando em ambiente eletrônico, emprega recursos hipertextuais ou de hipermídia. 7 Meta tags são tipos de marcações onde atributos são definidos na forma nome="valor", permitindo que a informação do campo possa ser lida pelos browsers e pelas ferramentas de busca e alguma ação possa ser executada a partir de sua identificação. 8 Script é o texto onde são definidas as ações a serem executadas, quer para a visualização dos dados, quer para o cumprimento de uma tarefa. 21 c) as que respondem às solicitações de pesquisa acionando simultaneamente diversas ferramentas (mencionadas nas alíneas "a" e "b" anteriores). Não possuem banco de dados próprio, pois apresentam como resultado da pesquisa uma lista única compilada a partir das diversas pesquisas realizadas pelas outras ferramentas. Por não realizarem por si próprias as buscas, estas ferramentas são denominadas metaferramentas. Exemplos deste tipo de ferramenta são: Metacrawler, Dogpile, Inference Find, Mamma, MetaFind e Tay Meta Pesquisador; d) ferramentas que buscam informações de interesses específicos, tais como: Filez (localiza exclusivamente sites que permitem transferência de arquivos), Super Mail (catálogo de endereços eletrônicos no Brasil), Liszt (procura listas de discussão), Research-it (localiza dicionários, tradutores, telefones, códigos postais, etc.), e Expoguide Home Page (localiza, no mundo, feiras, conferências e eventos em geral). As ferramentas normalmente oferecem, ao usuário, formas avançadas de refinar pesquisas muito amplas pressupondo, para isto, que o usuário conheça a maneira correta de expressar o que deseja de acordo com o método como a ferramenta procura e seleciona a pesquisa (apesar da Ajuda oferecida pela ferramenta). O recurso mais usado na seleção é o conjunto dos operadores booleanos9 que, aparentemente simples, não dispensa a leitura prévia da Ajuda, uma vez que as ferramentas adotam critérios de default diferentes, além de exigir um raciocínio bastante lógico e relacional para um efetivo uso. Outros recursos usados são os operadores relacionais10, os operadores de adjacência11 ou posicionais e o truncamento12. Nestes casos, a busca 9 Os operadores booleanos AND (conjuntiva), OR (aditiva/não exclusiva) e NOT (subtrativa/negativa) compõem a lógica de busca por meio de combinações de termos. 10 Os operadores relacionais são aqueles que limitam a busca por meio das seguintes indicações: igual a, não igual a, menor que, maior que, contém, entre outros, todos simbolizados por algum sinal gráfico. 11 Os operadores de adjacência ou posicionais são aqueles que indicam, por meio de sinais, palavras consecutiva, palavras a uma distância específica, palavras existente no conteúdo de um determinado metadado, etc. 12 Truncamento é o recurso da busca por prefixos ou parte de palavras. Normalmente se indica a parte oculta (aquela possível de variação) por meio de um asterisco (*). 22 planejada, que é a elaboração de uma estratégia por meio da qual são estabelecidas limitações baseadas em critérios de área geográfica, idioma, período cronológico, especificidades temáticas, entre outros, está diretamente embutida, como condição sine qua non para um resultado eficaz na busca. A busca planejada também pode ser efetuada manualmente por meio do acesso direto a sistemas específicos locais ou sistemas on-line. De modo geral, os sistemas de informações estão preparados para que as buscas possam ser restringidas de acordo com diferentes estratégias, o que os torna excelentes instrumentos de busca. Um salto evolutivo nos sistemas de informação ocorreu após a introdução dos computadores em seus mecanismos de estruturação, alimentação, processamento, saída e controle, o que trouxe um aumento de inestimáveis benefícios aos seus maiores interessados, os usuários. O advento das redes de informações incrementaram os sistemas a ponto de, por um lado, torná-los extremamente complexos em sua configuração mas, por outro, facilitarem o "acesso irrestrito" ao estoque de informações mundiais. Aqui mais uma vez se traz um termo entre aspas dado que, paradoxalmente à Era da Informação, nele estão embutidas as barreiras descritas anteriormente, principalmente aquelas relacionadas aos instrumentos e técnicas e ao próprio homem (quando ainda não superadas), acrescidas de fatores políticos e econômicos contextuais, o que leva à constatação de que, no acesso, sempre se encontra algum tipo de restrição. Hoje, o que se almeja são mecanismos para o alcance de diversos estoques de informações em uma única busca; ferramentas que consigam identificar o que se procura fazendo uma varredura exaustiva nos diversos recursos disponíveis em rede, mas de modo eficaz, com um alto índice de precisão. Para que isto seja possível, é indispensável a existência de padrões mínimos tanto no que se refere às configurações de programas, provedores e protocolos, como no próprio registro da informação. Mas, de acordo com FROEHLICH (1998, p.37), uma das maiores ironias da sociedade da informação é que apesar da informação ser ruim ou inadequada, as pessoas anseiam por pagá-la contanto que venha pelo computador ou network, mas não querem pagar por aquilo que faria da informação algo verdadeiramente útil: classificação humana, indexação, catalogação, etc. Elas irão imediatamente pagar por tecnologias de computação, mas não por tecnologias cognitivas. 23 Um outro aspecto muito importante a ser considerado nesta contextualização é o da preservação dos recursos de informação. Sabe-se que o papel é o mais resistente e duradouro dos materiais em que a informação pode ser registrada. Contudo, sabe-se também que, devido ao seu alto custo de produção, ao comprometimento ecológico desta produção e ao não menos custoso processo para a editoração de documentos em papel, está se tornando economicamente inviável. Salvo a barreira lingüística, documentos em papel não apresentam nenhum tipo de impedimento quanto à sua leitura, que pode ser feita diretamente pelo homem. Totalmente diferente do papel, demais suportes da informação como discos de vinil, fitas-cassete, filmes cinematográficos, disquetes, CDs, entre outros, dependem de equipamentos para serem utilizados, muitos dos quais já não são mais fabricados, o que impede a utilização dos suportes a eles vinculados. Em se tratando dos recursos virtuais, este problema deve ser superado para garantir sua reutilização em todo e qualquer ambiente, pois, como estão disponíveis para acesso remoto mundial, estão, também, sujeitos a diferentes plataformas. A dinâmica com que a inovação tecnológica tem evoluído exige a produção de recursos de informação desvinculados de qualquer tipo de suporte e aplicação, isto é, recursos que veiculem a informação desprendida da estrutura computacional que os originou. Somente desta maneira é que um recurso pode ser transferido para qualquer ambiente sem perda de sua forma e conteúdo, e com garantia de sua reutilização futura e permanente. Levando em consideração todos os aspectos contextuais do trabalho com informação abordados anteriormente, FROEHLICH (1998, passim) aponta diversos problemas existentes na maior rede da atualidade, a Internet: a) oferta excessiva de informações; b) crescente quantidade de publicidade ligada a interesses comerciais; c) miscelânea de itens de diversas formas; d) pouca ou nenhuma autoridade ou controle sobre as informações veiculadas; e) desigualdade no acesso à informações; 24 f) pouco conhecimento, por parte dos usuários, sobre como filtrar informações de acordo com suas necessidades específicas; g) diferentes mecanismos de buscas utilizados pelos diversos provedores de informação; h) buscas sem um intermediário especialista em informação, o que reduz a certeza de um resultado eficiente; entre outros. Amplamente reconhecidos, os problemas na Internet tendem a ser solucionados à medida que se verifiquem novos avanços nas tecnologias da informação, e é neste particular que se encontram os metadados. A adoção de metadados na produção de recursos virtuais tem o objetivo de atender ao chamado geral para a organização das informações veiculadas na Internet. Os metadados são elementos indispensáveis na configuração de um grande catálogo para buscas coletivas e simultâneas nos diversos estoques de informações, permitindo a interoperabilidade dos sistemas e a conseqüente reutilização da informação. 25 3 METADADOS Esta seção aborda os aspectos relativos ao conceito, origem, funções, produção, estrutura, padrões e modelos, e linguagens de marcação para a descrição de metadados. ANDRADE e CARVALHO (1999, p.43-44) classificam a literatura sobre metadados em cinco categorias, a saber: a) descritiva e conceitual; b) comparação e mapeamento do Dublin Core com outros sistemas de metadados (Machine Readable Cataloging - MARC, The United States Federal Government Information Locator Service - GILS, etc); c) reação das organizações que utilizam o Dublin Core; d) projetos que examinam o Dublin Core e o expandem para informações não textuais, introduzindo links; e e) artigos, textos, projetos etc. que não se enquadram nas categorias anteriores. 3.1 CONCEITO Os autores das áreas da Ciência da Informação e da Informática são unânimes em afirmar que metadados, ou meta-dados, como encontrado em alguns documentos, são dados sobre dados, ou dados que se relacionam com outros dados. Apresentando um conceito mais específico BERNARDINO (1998, p.1) afirma: "metadado é uma abstração sobre o dado. É um dado de mais alto nível que descreve um dado de mais baixo nível". Para LIDDY13, citado por MAGUIRE (1997, p.19), metadados são "apenas dados em um nível diferente de especificidade". 13 Technology. Liddy Nevile é o diretor da Sunrise Research Enterprise, do Royal Melbourne Institute of 26 MILSTEAD e FELDMAN (1999, p.1), fazendo referência ao projeto Desire14 do Reino Unido, reproduzem sua definição de metadados: " 'dados associados com objetos que aliviam seus usuários potenciais de ter que ter conhecimento completo sobre sua existência e características'. Em outras palavras, informação bibliográfica padronizada, sumários, termos indexados e resumos são todos substitutos do material original, conseqüentemente metadados' ". Catalogação do dado ou descrição do recurso eletrônico é a definição para metadados atribuída por SOUZA, VENDRUSCO e MELO (2000, p.93). Não diferindo, mas sendo mais específico, SAN SEGUNDO MANUEL (1998, p.1) define metadados como "um conjunto de elementos que possuem uma semântica comum aceitável, ou seja, tratam de representar a informação eletrônica dispersa e representam a descrição bibliográfica de recursos eletrônicos". Há que se fazer uma observação a este conceito quando expressa que os metadados representam a descrição "bibliográfica" de recursos eletrônicos, termo este que, apesar de advir etimologicamente de livro (biblio) e escrita (grafia), não deve ser entendido apenas abrangendo a descrição do ponto de vista de documentos bibliográficos convencionais, mas, neste caso, também os atuais suportes para a difusão do conhecimento. Talvez uma outra maneira de expressar este sentido pudesse ser: tratam de representar a informação eletrônica, ou informação digital, dispersa nas infovias, descrevendo-a como um recurso eletrônico, ou um recurso virtual de informação. Levando em consideração o arranjo dos dados em sistemas de informação, SOUZA, CATARINO e SANTOS (1997, p.93-94) concordam em dizer que as descrições que localizam e dão significado às informações disponíveis em bancos de dados são chamadas de metadados, definindo-os como "descrições de dados armazenados em banco de dados, ou como é comumente definido ‘dados sobre dados a partir de um dicionário digital de dados’". 14 Disponível em: http://www.ukoln.ac.uk/metadados/desire/overview/ver_ti.htm 27 ANDRADE e CARVALHO (1999, p.20) consideram que "metadado é informação descritiva sobre o conteúdo e a organização do dado que pode ser recuperado, manipulado e apresentado de diferentes formas, podendo ser simples e não-estruturado tal como uma descrição textual, ou estruturado e complexo, como um dicionário de dados usado para controlar múltiplos bancos de dados". Sob este aspecto, TENNANT (1998a, p.1) explica que "metadado, simplificadamente, é a informação estruturada sobre a informação", assegurando que estruturada é a questão-chave. Neste particular, a conceituação de TAYLOR (1999, p.1) é privilegiada por comportar a questão da estruturação dos metadados, pois, segundo o autor, "metadados são dados estruturados que descrevem as características de um recurso". Do mesmo modo, TAKAHASHI (2000, p.172) conceitua metadados como "dados a respeito de outros dados, ou seja, qualquer dado usado para auxiliar na identificação, descrição e localização de informações. Trata-se, em outras palavras, de dados estruturados que descrevem as características de um recurso de informação". Para GOMES (2000, p.2), os bibliotecários estão contribuindo com cientistas da computação na busca de uma solução estruturada para "as indicações de categorias de dados para que os browsers possam encontrar as informações requeridas pelos usuários", indicações estas que a autora denomina de metadados. Também pensando no usuário, uma vez que, em benefício deste é que os produtos e serviços de informação são projetados, DEMPSEY e HEERY (1998, p.149) dão uma definição formal para metadados, qual seja: "metadados são dados associados a objetos, que auxiliam seus usuários potenciais para obter um conhecimento completo sobre sua existência ou características", e complementam afirmando que "metadados são conhecimentos que permitem usuários humanos e automáticos agirem com inteligência". Interessante observar que esses três autores associam a questão da recuperação ao conceito de metadados, ponto este de extrema importância atualmente nas discussões sobre o uso da Internet. GARDER (1997, p.1) amplia a visão sobre metadados sustentando que "para os administradores de tecnologia da informação, metadados são mais do que dados 28 sobre dados, é informação sobre o empreendimento". No contexto de data warehouse, o termo refere-se a alguma coisa que define o objeto da data warehouse, tal como uma tabela, questão, relatório, regra de negócio ou algoritmo". Da mesma forma, INMON, WELCH e GLASSEY (1999, p.358, 73) definem metadados como "a descrição da estrutura, conteúdo, chaves, índices de dados, etc.". Os autores tratam os metadados como "o centro nervoso do data warehouse", afirmando que sem os quais "o data warehouse e seus componentes associados no ambiente projetado são meramente componentes soltos funcionando independentemente e com objetivos separados". PASQUINELLI,15 citado por CLIVERS e FEATHER (1998, p.365), além de definir metadados como dados sobre dados, como os demais autores, defende o princípio de estar embutida nesta definição a informação sobre o contexto do dado, o conteúdo do dado e o controle de e sobre o dado. Como se pode observar, os autores apresentam diferentes conceitos para metadados conforme o tipo e objetivo de sua aplicação. Contudo, decompondo o termo, para se chegar a sua essência, verifica-se que o prefixo grego meta é definido no dicionário MICHAELIS (1998, p.1363) como um termo que "exprime a idéia de depois de, sucessão" e, por STAIR (1998, p.4), como um termo que indica uma ordem superior. Para dados selecionou-se, entre inúmeras definições, a do próprio STAIR: "são fatos em sua forma primária". Isto leva à conclusão que, apesar de o conceito de metadado poder assumir diferentes níveis de extensão, o fator primordial que o rege é seu princípio: dado/informação que descreve um recurso de informação, possibilitando sua identificação, caracterização e localização. 15 PASQUINELLI, A. (Ed.). Information technology directions in libraries: a Sun Microsystems white paper: August 1997. Disponível em: <http://www.sun.com/products-n-solutions/ edu/libraries/libtechdirection.html> 29 3.2 ORIGEM Para HUC, LEVOIR e NONON-LATAPIE (1997, p.2), "o conceito de metadados originou-se em sistemas gerenciais de grandes coleções de objetos (nos museus e nas bibliotecas por exemplo). Hoje, o principal uso é na área das coleções de dados digitais". De acordo com WEIBEL (1997, p.9), metadados foram "originalmente concebidos para a descrição da geração de autor nos recursos da Web, foi também atraído para a descrição de recursos formais de comunidades como museus e bibliotecas". MILSTEAD e FELDMAN (1999, p.3) afirmam que a idéia de metadados como conceito novo surgiu fora do contexto tradicional e da área bibliográfica. Como arquivos de dados, especialmente dados geoespaciais, foram desenvolvidos, ficou evidente que seriam exigidos substitutos para prover mais informação sobre os conteúdos dos dados. Um crescente número e tipos de objetos têm sido disponibilizados digitalmente, mas foi reconhecido que dados crus têm pouco valor sem informações sobre como foram coletados, seu propósito, formatos, plataformas de visualização e manipulação, e restrições para reprodução e reutilização, além de mais informações convencionais para sua identificação, como autor ou produtor, título, assunto e resumo. Concorda-se com SOUZA, CATARINO e SANTOS (1997, p.94-95) quando afirmam que "a tecnologia metadados está surgindo em função da necessidade das organizações conhecerem melhor os dados que elas mantêm e conhecer com mais detalhes os dados de outras organizações". As autoras resumem a sua origem deduzindo que "a descrição por metadados surgiu com a necessidade de se criar estrutura para a descrição padronizada de documentos eletrônicos, para tornar possível e mais efetiva a recuperação da informação na Internet". A origem da utilização de metadados na Web pode ser sintetizada em um breve histórico que se inicia em outubro de 1994 quando Tim Berners-Lee, criador da Web, fundou, em colaboração com o Counseil European Pour la Recherche Nucleari (CERN), o World Wide Web Consortium (W3C) no Laboratory for Computer Science (LCS), do Massachusetts Institute of Tecnology (MIT), com os objetivos de: a) tornar a Web acessível mundialmente; b) desenvolver mecanismos semânticos para a Web de modo a otimizar o uso dos recursos disponíveis; e 30 c) direcionar a Web para o desenvolvimento de tecnologias confiáveis, legal, comercial e socialmente. Desde então, os esforços do W3C concentram-se em três princípios: a) visão: se a Web é verdadeiramente um espaço informacional, então seus pesquisadores e engenheiros devem contribuir para que o W3C seja capaz de identificar os requisitos técnicos necessários para a satisfação dos usuários da Web; b) design: projetar tecnologias para a Web levando em consideração não apenas as tecnologias existentes atualmente, mas as possibilidades futuras; este princípio, por sua vez, está pautado em três componentes: interoperabilidade, evolução e descentralização; e c) padronização: produzir recomendações que especifiquem e promovam a funcionalidade e universalidade da Web. Fundamentado em seus objetivos e princípios, o W3C iniciou suas atividades nas áreas tecnológica e política da Web, dentre as quais desenvolveu, a partir de outubro de 1995, a Plataform for Internet Content Selection (PICS), ou seja, uma plataforma para a seleção de conteúdos da Internet, fazendo uso, pela primeira vez, de metadados na Web. De acordo com MILLER (1998, p.2), trata-se de um mecanismo para comunicar categorizações das páginas Web de um servidor para os clientes, sem contudo pré-fixar um conjunto de categorias, mas permitir que diferentes organizações e pessoas possam classificar as páginas Web de acordo com seus objetivos e valores, a fim de selecionar ou restringir o acesso àquelas páginas que não vão ao encontro de seus interesses. Em face da emergente e urgente necessidade de aplicar novas tecnologias ao tratamento dos recursos virtuais, especialmente os metadados, profissionais da informação, mais especificamente bibliotecários e pesquisadores da Ciência da Informação, pronunciaram-se, e continuam a pronunciar-se, afirmando que os princípios que estão sendo colocados na atual teoria para o processamento de recursos virtuais nada mais são do que os princípios do tratamento da informação, que vêm sendo aplicados aos 31 objetos físicos incorporados a acervos documentários em unidades de informação ao longo de toda a prática bibliotecária, porém com instrumentos e equipamentos de alta tecnologia. Sobre esta discussão, a seção 4, Paradigmas do Tratamento da Informação, aborda o assunto com maior particularidade. 3.3 FUNÇÕES Embora as funções dos metadados sejam diversas, todas se voltam a um ponto comum: servir de elemento de ligação entre criação/criador da informação e usuário. De maneira genérica, de acordo com COSTA (2000, p.2) "os metadados são utilizados para descrever as características de um documento e seus relacionamentos com outros documentos". FROEHLICH (1998, p.17), discorrendo sobre a política de informações na Internet, destaca que "é preciso estruturar estratégias de metadados a fim de facilitar as necessidades dos usuários" quando buscam informações. Sob o ponto de vista da consideração ao usuário, GARDNER (1997, p.1) afirma que "a administração de metadados dá ao usuário maior controle dos dados da corporação provendo um mapa de alocação, de onde o dado está armazenado. Provê também um esquema que mostra como um tipo de informação deriva de outro". Há que se considerar, contudo, a observação de MILSTEAD e FELDMAN (1999, p.3) quando ressaltam que os "metadados não podem servir completamente a seu propósito, a menos que estejam sujeitos a uma certa quantia de padronização", fator este merecedor de atenção em grande parte da literatura. MAGUIRE (1997, p.18) já mencionava, há quatro anos, que o interesse e as atividades com metadados na Austrália eram muito grandes, envolvendo bibliotecários, arquivistas, museólogos, administradores de redes, administradores da informação e pesquisadores de tecnologias da informação, na busca por tornar a informação eletrônica realmente útil a um custo adequado, mas que encontrar um fórum comum para discussão e cooperação não era muito fácil. 32 Da mesma forma, países como os Estados Unidos, a Noruega, a Alemanha, a Dinamarca, a França, a Holanda, a Noruega, a Suécia, entre muitos outros, empenhamse a estudar os metadados na intenção de empregá-los como meio para a organização e a recuperação de recursos virtuais. Sob a ótica da função organizadora das informações disponíveis na Internet, efetivos usuários desta rede a criticam afirmando que a mesma se encontra num estágio problemático devido a dois fatores: excesso de informações e falta de possibilidade de confiança em seus dados. Neste sentido, DAVENPORT (1999, p.1) afirma que a Rede "não pode ser considerada uma fonte estruturada de informação", e cita as palavras do criador da Web, Tim Berners-Lee: "Os mecanismos de busca perdem-se em meio à massa indiferenciada de documentos que oscilam muito em termos de qualidade, atemporalidade e relevância da informação. Precisamos de informação sobre a informação, ‘metadados’, informação que nos auxilie como organizar a própria informação". Com o mesmo sentido de representar e organizar a informação, SOUZA, CATARINO e SANTOS (1997, p.94), declaram que "a finalidade principal dos metadados é documentar e organizar de forma estruturada os dados das organizações com o objetivo de minimizar a duplicação de esforços e facilitar a manutenção dos dados". Na tentativa de sintetizar as funções dos metadados, EFTHIMIADIS e CARLYLE (1997, p.5) afirmam que estes: a) "podem aumentar a probabilidade de o recurso pertinente ser recuperado, prover uma clara avaliação do assunto e aperfeiçoar a habilidade do usuário para distinguir entre fontes similares", e b) prover um índice ou um diretório sobre o recurso descrito, descobrindo se o recurso existe e como acessá-lo e obtê-lo. BERNARDINO (1998, p.5) reforça o sentido de um índice, afirmando que "o objetivo primário do metadado é fornecer um guia completo sobre o recurso de dados". Em um estudo de caso efetuado por CLIVERS e FEATHER (1998, p.369), os autores sintetizaram as razões apontadas pelas organizações para a necessidade do uso 33 de metadados, quais sejam: localizar dados, dar significado aos dados e manter o acesso aos dados. Propósitos adicionais à descoberta, ao acesso, à recuperação e à localização de recursos eletrônicos são enumerados por TAYLOR (1999, p.5), quais sejam: a) controle administrativo; b) segurança; c) informação pessoal; d) gestão da informação; e) classificação de conteúdos; f) identificação de recursos; g) gestão dos direitos autorais; e h) preservação. Conclui-se que, diante da dimensão que os metadados podem atingir, se devidamente sistematizados e estruturados de acordo com a função que lhes é atribuída, converte-os em uma poderosa ferramenta para a gestão de sistemas de informações digitais. 3.4 PRODUÇÃO Por produção de metadados entende-se a inserção da informação rotulada em ou sobre um recurso virtual, a fim de possibilitar sua catalogação em redes de informação, para posterior recuperação. De acordo com o conceito que cada autor atribua aos metadados, também a concepção de produção assume diferentes amplitudes, como se observa a seguir. MILSTEAD e FELDMAN (1999, p.3) consideram que, em sistemas de informação, metadados podem ser criados sempre que se criar um objeto, ambos por ou sob os auspícios de seu criador. Eles também podem ser adicionados depois como parte do processo de catalogação tradicional. O primeiro modo de criação é supostamente o predominante, em grande parte porque os métodos tradicionais (de catalogação e indexação) simplesmente não podem concorrer com o volumoso e crescente número de objetos eletrônicos existentes. 34 De acordo com TAYLOR (1999, p.2), metadados podem ser produzidos de diferentes formas: a) embutidos em uma página Web pelo seu criador ou agente criador, utilizando meta tags na codificação HTML da página; b) como um documento HTML independente, vinculado ao recurso que o descreve; ou c) em um banco de dados associado a um recurso, podendo cada qual ser criado diretamente dentro do banco de dados ou extraído de outra fonte, como de uma página Web. O ideal, ainda de acordo com TAYLOR (1999, p.10), é que os metadados fossem criados utilizando-se ferramentas específicas, com seus respectivos manuais estabelecendo critérios mínimos e suportando: a) a inclusão de uma sintaxe para o modelo (por exemplo: o nome do elemento, os sub-elementos, o qualificador e a codificação HTML); b) um conteúdo default que pudesse ser sobrescrito; c) conteúdos selecionados de uma lista de limitadas escolhas (por exemplo: função, tipo, formato); e d) a validação de elementos, sub-elementos, esquemas e valores obrigatórios. Por ser um tema que está em fase de desenvolvimento, e portanto definindo-se com respeito a critérios para sua melhor forma de produção e aplicação, verifica-se uma certa inquietude por parte de autores da área da Ciência da Informação, sustentada pela prática na área do tratamento normalizado de grandes massas de informações documentárias. Esta preocupação é levantada por MILSTEAD e FELDMAN (1999, p.6-7), que indagam: a) quem deve atribuir/criar os metadados aos documentos quando inseridos em vias eletrônicas? b) quem tomará a decisão final sobre quais campos usar e qual proposta não apoiar entre as concorrentes? c) quem aplicará metadados? 35 d) apesar da existência de vocabulários controlados, como criaremos um que atinja todos os assuntos e idéias, incluindo aquelas criadas hoje? Neste mesmo sentido, EFTHIMIADIS e CARLYLE (1997, p.5) fazem alguns questionamentos sobre as implicações na produção de metadados, tais como: a) qual o preço da "catalogação"? b) quem fará a descrição? como poderão ser acomodadas as necessidades de diferentes comunidades nos diferentes tipos de metadados? d) podem ou deveriam os extraordinários recursos heterogêneos serem alocados em uma simples estrutura? e) em que nível de detalhes e estrutura devem as descrições serem padronizadas? quando e por quem? f) como podemos garantir que, uma vez descrito, podem ser localizados ao longo de sua existência? g) como podemos negociar com conteúdos dinâmicos dos vários recursos? Para ANDRADE e CARVALHO (1999, p. 24-25), grandes são os problemas de definição e aplicação dos metadados, por serem aplicados pelos próprios criadores dos objetos que não se preocupam em atualizar e adaptar os mesmos ao universo do conhecimento. Alguns, com o objetivo de aumentar o índice de visitas em seus sites, abarrotam os documentos com termos inadequados, repetições de uma mesma palavra aumentando sua incidência, ou uso indiscriminado de sinônimos, obrigando a várias pesquisas sobre um mesmo documento. Pode-se depreender, portanto, que a inserção e disponibilização de um recurso eletrônico em rede não é uma tarefa simples. Há que se ter, no mínimo, conhecimentos básicos relativos: a) à volatilidade da informação; b) às técnicas do processo de tratamento da informação, tanto do ponto de vista da Informática como da Ciência da Informação; c) aos instrumentos disponíveis para auxiliar o processo de tratamento da informação; 36 d) à exigência de padrões mínimos para garantir o retorno preciso nas buscar da informação; e) à diversidade de necessidades do usuário potencial e de necessidades específicas de usuários de uma comunidade. Conclui-se que a grande experiência da Ciência da Informação na produção de registros bibliográficos leva os profissionais da área a não permitirem que sistemas de informação virtuais sejam criados na perspectiva de não cumprirem com seus objetivos pela precipitação na geração de produtos e serviços sem o devido planejamento de critérios essenciais para sua eficácia. Por esse motivo, verifica-se o crescente envolvimento destes profissionais em estudos e implementações de sistemas automatizados, para que, em um trabalho integrado com os demais profissionais, compartilhem conhecimentos e somem esforços na geração de mecanismos que supram as necessidades e expectativas do trabalho com informação, especialmente no que se refere à análise e produção de dados acerca do imenso estoque de recursos de informação que vem está sendo progressivamente gerado. 3.5 ESTRUTURA Estruturar metadados é atribuir-lhes uma forma sistematizada de processamento, de maneira a possibilitar a integração sintática entre diferentes redes e sistemas e a integração semântica entre diferentes representações do conhecimento. No caso da aplicação de metadados para bibliotecas digitais, TENNANT (1998a, p. 30) identifica três categorias: a) metadados descritivos: equivalente à descrição bibliográfica e à indexação da fonte; b) metadados estruturais: descrevem como a fonte está estruturada, quais arquivos estão interligados, dispondo caminhos para se navegar na fonte digital; c) metadados administrativos: descrevem como os arquivos digitais foram produzidos e suas propriedades. 37 SOUZA, CATARINO e SANTOS (1997, p.95), em um estudo sobre o assunto, concluíram que o metadado é estruturado com os elementos de descrição do conteúdo dos dados. Cada bloco de informações deve conter, por exemplo, autor, título, data de publicação etc. e cada campo poderia conter as seguintes informações: nome do campo, descrição do campo, tipo de dados, formato etc. e qualquer informação que seja relevante para a recuperação da informação. Os elementos que comporão os metadados são de livre escolha, ou seja, são abertos. Além de defender a necessidade de uma estruturação padrão para os metadados, MILSTEAD e FELDMAN (1999, p.2) insistem na necessidade de se estabelecer uma terminologia padrão, dizendo que "não beneficia ninguém ter campos etiquetados como ‘criador’, ‘autor’, ‘escultor’ ou ‘compositor’ se estes campos, os quais têm a mesma função, não podem ser mapeados para o mesmo simples conceito". Uma das mais importantes características da estruturação dos metadados, conforme SAN SEGUNDO MANUEL (1998, p.1), é a "...capacidade de relações ou de estabelecer conexões" entre informações de diferentes tipos, integrando formas heterogêneas de fontes de informação, bem como diferentes formatos de bases de dados. MILLER (1998, p.1) destaca que: o uso eficiente de metadados pelas diversas aplicações, contudo, requer convenções comuns sobre semântica, sintaxe e estrutura. Comunidades individualizadas de descrição de recursos definem a semântica, como o significado, de metadados que atendem a suas necessidades particulares. A sintaxe, o arranjo sistemático de elementos dos dados para processamento em máquina, facilitam o intercâmbio e uso de metadados dentre as múltiplas aplicações. A estrutura pode ser imaginada como um contingenciamento formal sobre a sintaxe para a representação consistente da semântica. De um ou de outro ponto de vista, o fato é que as categorias que descrevem metadados precisam ser predefinidas, especificando atributos ao valor que lhes será associado, fator este que lhes dá uma estrutura. A estrutura física de um metadado é, em suma, uma entidade formada por um conjunto predeterminado de elementos, cada qual tendo um rótulo ou etiqueta (tag) e seu correspondente atributo, ao qual associam-se um dado ou uma informação, também denominado valor que, na realidade, representa o conteúdo do elemento. 38 Essa estrutura básica que separa o conteúdo de seu atributo, se devidamente aplicada pelas linguagens de marcação capazes de agregar semântica à sintaxe, por meio de uma codificação apropriada, é condição sine qua non para a interoperabilidade de sistemas e para um resultado satisfatório na busca por informações específicas. 3.6 PADRÕES E MODELOS Os padrões de metadados "têm como função fornecer as definições e formar uma rede para automatizar registros de propriedades e dados cadastrais de uma forma padronizada e consistente" e podem ser vistos como: a) padrões de conteúdo dos metadados; b) padrões de intercâmbio de dados por meio eletrônico; c) padrões para modelos de dados (SOUZA, CATARINO e SANTOS, 1997, p.95-96). Com o mesmo entendimento, COSTA (2000, p.2) é de opinião que a obtenção de informações na Web requer uma organização dos documentos no que diz respeito aos seus metadados, pois a catalogação não se resume apenas na leitura das características (propriedades) de um documento, mas também na interpretação dessas características. Quanto mais informações sobre o documento for fornecida, mais fácil será a pesquisa e a manutenção do mesmo na Web. Tais informações devem obedecer a padrões de representação do documento e de seus metadados. RYSSEVIK e MUSGRAVE (2000, p.3) consideram que "para um arquivo de dados globais que oferece uma interface integrada, a normalização dos metadados não é somente desejável, mas sim, necessária. Ao longo dos anos, inúmeras iniciativas têm sido criadas para estabelecer padrões de metadados, mas nenhuma tem alcançado o nível satisfatório de aceitação para ser considerada um êxito". De acordo com CLIVERS e FEATHER (1998, p.366), muitos formatos estruturados de metadados já existiam há cerca de três anos, variando quanto ao estágio de desenvolvimento e quanto ao nível de complexidade, cada qual com seus méritos e suas fraquezas. 39 Para TAYLOR (1999, p.5), há centenas de esquemas estruturados de metadados e este número está crescendo rapidamente em função das diferentes comunidades procurarem atender às necessidades específicas de seus membros. O método para se conseguir chegar ao ideal de um catálogo coletivo para recursos virtuais, no entender de TENNANT (1998c, p.38), é criar um "agente inteligente" (uma ferramenta de busca especial) que possa rastrear periodicamente as bibliotecas digitais à procura do que se deseja, mas os requisitos mínimos para se ter sucesso neste tipo de tecnologia são: a) que o agente saiba onde achar as bibliotecas digitais; b) que o agente tenha a capacidade de interrogar estas bibliotecas adequadamente; c) que o agente possua um método de processar as respostas das buscas num formato comum para mesclá-las e possibilitar seu manuseio. A escolha do padrão e dos elementos a serem utilizados na elaboração de um modelo de metadados deve, segundo TAYLOR (1999, p.7), basear-se em três fatores: a) as necessidades específicas da comunidade local para maximizar a busca e a gestão das informações; b) não atribuir maior valor ao processo de criação e manutenção de metadados, do que ao propósito para o qual foi concebido, prejudicando o alcance de seus objetivos e, portanto, tornando contraproducente sua aplicação; c) a capacidade de sustentar o esquema dos metadados em termos de manter os registros atualizados. Um padrão que poderia ser adotado para a produção automática de catálogos e o intercâmbio de dados é o Formato MARC: instrumento de padrão internacional que estabelece a estrutura de um registro bibliográfico a fim de ser lido e interpretado pelo computador. Entretanto, TENNANT (1998a, p.30) considera que para alguns casos ele é 40 muito complexo e requer pessoas altamente especializadas, assim como também está voltado para objetos físicos e não para recursos virtuais. Para resolver o problema da diversidade estrutural e da necessidade de compatibilização entre sistemas de informação, diante da atual complexidade da rede mundial, o W3C, organização responsável pelos padrões da Web, tem se ocupado com os desafios técnicos e sociais que envolvem a interoperabilidade de sistemas, tentando definir padrões mínimos compatíveis por todos os navegadores, a fim de facilitar a interpretação dos recursos virtuais com seus respectivos metadados e proporcionar segurança, internacionalização e acessibilidade a Web. É importante salientar que o estabelecimento de padrões não deve vincularse às tecnologias disponíveis na atualidade, mas a diretrizes e princípios básicos a serem aplicados independentemente do estágio de evolução destas tecnologias, a fim de possibilitar sua vida útil no decorrer dos tempos. A atual procura de ferramentas para manipulação e administração de dados tem resultado, de acordo com GARDER (1997, p.47), em produtos de tecnologia da informação que processam metadados diferentemente, e esta situação evidencia a necessidade de padronização de metadados. Para os autores, é preciso desenvolver uma linguagem comum de comunicação antes de se construir padrões, o que envolve bons processos de entendimento e comunicação para nomear os elementos de metadados, para padronização dos tipos e tamanhos dos metadados e para manutenção de um glossário descritivo. A concepção de um formato que unifique os dados necessários para descrever, identificar, processar, localizar e recuperar recursos virtuais, beneficiando mantenedores e usuários de sistemas de informação introduzidos em redes, levou profissionais e entidades a estabelecerem padrões mínimos que direcionem aplicações com metadados. Dentre estas iniciativas destaca-se o modelo Dublin Core, o qual está caminhando para assumir um carácter de padrão internacional, uma vez que tem tido ampla aceitação nas 41 comunidades virtuais, e o padrão GILS, para a identificação e descrição de informações governamentais com o intuito de torná-las recuperáveis. 3.6.1 Dublin Core O padrão Dublin Core (DC), desenvolvido a partir de 1994 por iniciativa de um grupo de bibliotecários e especialistas, coordenados por um especialista da Online Computer Library Center (OCLC), tornou-se realidade no Dublin Metadata Workshop, realizado em março de 1995, na cidade de Dublin, Ohio, USA, quando foram estabelecidos 13 elementos mínimos para a descrição dos documentos eletrônicos, estes incrementados posteriormente para 15, e denominados Dublin Metadata Core Element Set (conhecidos como Dublin Core). TAYLOR (1999, p.5-6) classifica estes elementos em categorias, segundo o tipo de informação (quadro 1): QUADRO 1 - ELEMENTOS DUBLIN CORE, POR CATEGORIA CONTEÚDO Título Assunto Descrição Fonte de onde deriva Idioma Relação com outros recursos Cobertura geográfica e temporal PROPRIEDADE INTELECTUAL Criador Editor Colaborações Direitos autorais MANIFESTAÇÕES FÍSICAS Data Tipo Formato Identificador Cada elemento Dublin Core foi definido de acordo com os dez atributos do padrão ISO/IEC 11179,16 quais sejam: a) nome: o rótulo do elemento; b) identificador: o identificador único atribuído ao elemento; 16 A ISO/IEC 11179 é uma norma internacional da área de Tecnologia da Informação que especifica e padroniza os elementos de dados em seis partes: estrutura, classificação, atributos básicos, normas e diretrizes para sua definição, denominação e identificação, e registro (ftp://sdctsunsrv1.ncsl.nist.gov/x318/1179). 42 c) versão: a versão do elemento; d) direitos autorais: entidade autorizada para registrar o elemento; e) idioma: o idioma no qual o elemento foi especificado; f) definição: uma frase que representa claramente o conceito e a natureza essencial do elemento; g) obrigatoriedade: indicação se o elemento deve ou pode ter um valor; h) tipo: indicação do tipo de dado que deve representar o valor do elemento; i) ocorrências: indicação do limite de repetitividade do elemento; observação: nota sobre a aplicação do elemento. O apêndice 1 apresenta a lista dos elementos e suas respectivas características, para melhor entendimento sobre o padrão. MILSTEAD e FELDMAN (1999, p.11) afirmam que "...se é para existir uma língua franca para metadados, o Dublin Core será, mas no nível básico". WEIBEL,17 citado por SOUZA, VENDRUSCULO e MELO (2000, p.93), garante que o Dublin Core não tem a intenção de substituir modelos mais ricos como o código AACR2/MARC, mas apenas fornecer um conjunto básico de elementos de descrição que podem ser usados por catalogadores ou não-catalogadores para simples descrição de recursos de informação. Entre os profissionais habituados ao trabalho automatizado nas bibliotecas tradicionais, é comum encontrar a comparação do Dublin Core com o formato MARC, verificando-se a afirmativa de que o Dublin Core é para a biblioteca eletrônica o que o MARC é para a biblioteca tradicional. Segundo WEIBEL (1997, p.9) o Dublin Core se encaixa em diversas categorias: a) simplicidade – tem a intenção de ser usado por qualquer pessoa, ou mesmo por autores ou criadores de páginas Web, isto é, pessoas que 17 WEIBEL, S. The Dublin Core: a simple content description model for eletronic resources. Bulletin of the American Society for Information Science, p. 9-11, Oct. 1977. 43 desconheçam o processo de catalogação tradicional, pois seu modelo não é de uma complexa descrição, mas de dispositivos centrais de descrição de elementos; b) interoperabilidade semântica – apesar das diferentes necessidades de cada área, há um conjunto de elementos comuns que servem a qualquer área e necessidade; c) consenso internacional – contou com a participação de diversos países do mundo; d) flexibilidade – tem flexibilidade suficiente para codificar estrutura adicional apropriada para cada aplicação; e) modulação na Web – objetivado para descobrir recursos, pode ser funcional para outros objetivos como arquivo administrativo, por exemplo. Ainda segundo WEIBEL (1997, p.10), os modelos para o emprego do Dublin Core na Web são: a) metadados embutidos: embutir em documentos HTML (usando o meta tag). A vantagem é que os metadados não precisam de um sistema adicional, pois integram o recurso e podem ser colhidos pelos agentes indexadores da Web; b) metadados terceirizados: uma entidade coleta e administra registros de metadados que apenas referenciam os recursos, mas não estão embutidos nestes, como os catálogos de uma biblioteca; serve também para agências de desenvolvimento que podem ajustar as etiquetas dos recursos conforme critérios de conveniência e aceitabilidade; c) filtro panorâmico: uma entidade administra a variedade de dados existentes na Web e mapeia os diversos esquemas de descrição num dispositivo comum, dando ao usuário um simples modelo. O Dublin Core tem recebido ampla aceitação na comunidade de informações eletrônicas e, segundo TAYLOR (1999, p.7-8), uma série de vantagens podem ser elencadas: a) sua utilidade e flexibilidade; 44 b) a semântica de seus elementos está claramente designada para ser entendida por todos os usuários, sem a necessidade de treinamento; c) seus elementos são facilmente identificáveis; d) tem a intenção de descrever somente as características essenciais que proporcionam a descoberta do recurso de informação; e) tem independência de sintaxe para poder se adaptar à ampla gama de aplicações; f) a princípio todos os seus elementos são opcionais; g) seus elementos são repetitivos; h) seus elementos podem ser modificados por meio de qualificadores específicos; i) pode ser estendido para atender à demanda de comunidades específicas. Um levantamento dos projetos baseados no padrão Dublin Core nos diversos países pode ser encontrado no anexo 1 do documento Informação para a Internet, de Marcia Izabel Fugisawa SOUZA et al. (2000). Um exemplo de um recurso que utiliza metadados Dublin Core embutidos na página HTML é apresentado no anexo 1. 3.6.2 GILS De acordo com a Superintendent of Document, do Government Printing Office (GPO), dos EUA, o The United States Federal Government Locator Service (GILS) é um esforco para identificar, localizar e descrever publicamente recursos federais de informação, incluindo recursos eletrônicos. É uma coleção descentralizada de agências que usam a tecnologia de rede e padrões internacionais para direcionar usuários para informações relevantes do governo federal americano (ESTADOS UNIDOS, 2001, p.1). O padrão GILS tem por objetivo facilitar a busca de informações de todos os tipos, em todos os suportes, em todos os idiomas e a qualquer tempo. 45 Informações sobre o GILS podem ser obtidas em diversos sites na Internet, entre os quais o http://gils.net/, do qual foram selecionados os dados básicos que seguem (GLOBAL..., 2001). Inicialmente desenvolvido nas bibliotecas e comunidades de serviços de informação, hoje o GILS está presente na Internet e outras redes eletrônicas, sendo inclusive utilizado pelos países membros do G-7 (Alemanha, EUA, França, GrãBretanha, Japão, Itália e Canadá). O GILS provê um padrão para o desenvolvimento de um serviço localizador de informações, projetado para identificar e descrever recursos de informação e para auxiliar as ferramentas de busca na obtenção da informação. Utilizando-se das atuais tecnologias de rede, o GILS tem as características da interoperabilidade, sem ser restritivo, e da coerência, sem centralizar o sistema. Padrão internacional, baseado na ISO 23950,18 o GILS especifica como expressar a busca e como o resultado deve retornar, não se envolvendo na administração de servidores de rede, nem na forma como o usuário utiliza os registros. De aplicação eficiente em qualquer ambiente operacional, o GILS tem se posicionado bem no desenvolvimento de redes para a busca de informações. Além de sugerir 45 elementos opcionais para a descrição de recursos de informação, o GILS considera como obrigatórios outros 22 elementos: 1) agência/programa superior; 2) contato para maiores informações; 3) data da última modificação; 4) disponibilidade; 5) fonte de registro; 6) fonte dos dados; 7) identificador de controle; 18 A norma ISO 23950, Information retrieval Application Service Definition and Protocol Specification for Open Systems Interconnection, é um padrão para busca de informações que suporta pesquisa em texto completo e em grandes e complexas coleções de documentos. 46 8) identificador de controle original; 9) índice de assunto local; 10) informação suplementar; 11) metodologia; 12) número administrativo; 13) originador; 14) período coberto; 15) propósito; 16) referência cruzada; 17) referência geográfica; 18) restrições de acesso; 19) restrições de uso; 20) resumo; 21) título; 22) vocabulário controlado. Em função da descentralização da coleção de recursos, o governo americano disponibiliza o site GPO Access, portal que agrega informações de 32 agências federais dentre todas as estatais. Um exemplo de um recurso que utiliza metadados padronizados pelo GILS, na apresentação dos recursos, é demonstrado no anexo 2. 3.7 LINGUAGENS DE MARCAÇÃO PARA A DESCRIÇÃO DE METADADOS As linguagens de marcação destinadas a rotular cada elemento informacional presente nos recursos virtuais, descrevendo-os, são também denominadas de linguagens hipertextuais. Inicialmente, segundo McQUEEN e BURNARD (2000, p.1), a palavra "marcação" foi usada para descrever uma anotação, ou outra marca dentro de um texto, para instruir o datilógrafo sobre as particularidades a serem consideradas na impressão de um texto; porém, quando a formatação e a impressão de textos tornou-se automática, o termo foi estendido para cobrir todos os tipos especiais de códigos de marcação inseridos nos textos eletrônicos para sua formatação, impressão ou outro processo. 47 BAX (2000, p.2, 5) considera que "a partir destas descrições, os programas de computador podem melhor compreender e, em conseqüência, melhor tratar ou processar as informações contidas em documentos eletrônicos" e "a utilização de padrões de marcação internacionais abertos (...) permite assim a criação de documentos portáveis, i.e., documentos que não são dependentes de um determinado software, hardware, ou sistema operacional". Ainda segundo esse autor, as linguagens de marcação libertam a informação da "prisão" dos formatos proprietários. Além disso, permitem múltiplas apresentações do documento, de forma totalmente independente da mídia de veiculação, monitores, celulares, impressora, interpretador braile, televisão, etc. A aplicação que deve tratar a informação é que se encarrega de interpretar as marcas e processá-las, para efeitos de estilo, ou outros processamentos" (BAX, 2000, p. 5). Para McQUEEN e BURNARD (2000, p.1), as linguagens de marcação precisam especificar quais códigos, ou marcas, podem ser usadas, quais códigos são requeridos, quais códigos distinguem as marcação do texto propriamente dito e o que os códigos significam. As linguagens de marcação abordam dois tipos de especificações dos recursos virtuais: a) estilo e a apresentação; e b) identificação do conteúdo. Em ambos os tipos de especificações, as marcações, ou comumente denominadas tags, estão inseridas entre os sinais menor e maior (< >). Um par desses sinais delimita seu início e final, em cujo centro está a informação que deve sofrer a ação da tag ou simplesmente a informação pertencente a tag. Exemplos de tags são: ...projetos que examinam o <i>Dublin Core</i> e o expandem... <TITLE>Metadados em documentos digitais</TITLE> As tags podem estar presentes em todo o recurso de informação, porém sua alocação depende de sua função, podendo, inclusive, estar embutidas umas nas outras. Existe um tipo de marcação, chamada de meta tag, onde atributos são definidos na forma nome = "valor", permitindo que a informação deste campo possa ser lida pelos browsers e pelas ferramentas de busca, e provocar algumas ações, entre elas, a indexação destas informações nas suas bases de dados, para futura recuperação e reuso do recurso. Exemplos de meta tags são: 48 <META NAME="Description" CONTENT="Coleção de fotos sobe ecoturismo no Paraná"> <META NAME= "Keywords" CONTENT="Ecoturismo, Paraná, Brasil, Turismo, Caminhos de tropeiros> A figura 1 apresenta a evolução e a derivação de algumas das linguagens antes e após a determinação da PICS. FIGURA 1 - EVOLUÇÃO E DERIVAÇÃO DE ALGUMAS TRATAMENTO DE RECURSOS VIRTUAIS LINGUAGENS DE MARCAÇÃO PARA O SGML HTML Plataform for Internet Content Selection (PICS) XHTML Netscape MCFXM Microsoft XMLDATA XML RDF Dublin Core Warwick Framework FONTE: Elaboração do autor Com o intuito de oferecer uma abordagem básica, seguem-se sínteses das quatro linguagens mais relevantes citadas no diagrama. 3.7.1 SGML A Standard Generalized Markup Language (SGML) é um padrão internacional de processamento de texto, que define a estrutura de recursos virtuais. 49 Inicialmente desenvolvida como GML (Generalized Markup Language) pelo Dr. Goldfarb, da IBM, em 1970, transformou-se em padrão da American National Standards Institute (ANSI) em 1978 e, posteriormente, um padrão da ISO, por meio da norma ISO 8879, de 1986. Segundo EDWARDS19, citado por BAX (2000, p. 7), seu recurso de marcação é simples: cada entidade informacional pode conter um ou vários elementos ou atributos, sendo que cada qual possui uma tag inicial e outra final, e um valor associado. Sua sintaxe é baseada no American Standard Code for Information Interchange (ASCII) e, portanto, flexível e independente da plataforma de trabalho, facilmente identificada e lida, e passível de impressão direta. Metalinguagem a partir da qual é possível definir outras linguagens, a SGML, "não é um conjunto predeterminado de marcas e sim uma linguagem para se definir quaisquer conjuntos de marcas, uma linguagem auto-descritiva; cada documento SGML carrega consigo sua própria especificação formal, o DTD – ‘Data Type Document’ ..." (BAX, 2000, p.7). "Cada DTD é uma espécie de gramática que dita as regras para a verificação da correção do documento. O DTD define os tipos de elementos (capítulos, título de capítulo, cabeçalho de seção, parágrafo, etc.) que constituem a estrutura do documento, assim como o relacionamento que existe entre estes elementos" (BAX, 2000, p.9). Um exemplo de marcação estruturada de acordo com a SGML é: FIGURA 2 - EXEMPLO DA LINGUAGEM SGML <paper> <date>15/5/92</date> <title>SGML (Standard Generalised Markup Language)</title> <chairman>Roger Fairman, South Bank Polytechnic</chairman> </paper> <content> <title>SGML concepts</title> ................ <hdr>Structure not style</hdr> <p>............ ......see <fig>1</fig>, which shows ....... </content> FONTE: Parte extraída da figura 5 do texto: BRADLEY, N. SGML concepts. Aslib Proceedings, v.44, n.7/8, p.271-274, jul./ago. 1992 19 EDWARDS, M. XML: data the way you <http://msdn.microsoft.com/xml/articles/xmldata.asp> want it. 1997. Disponível em: 50 3.7.2 HTML A linguagem Hypertext Markup Language (HTML) é, conforme MILLER, MILLER e BRICKLEY (1999, p.1), e o próprio W3C (2000, p.1), a língua franca da maioria das páginas da Web. É uma aplicação especial e limitada de sua originária, a SGML, usada para codificar documentos a serem disponibilizados por meio de servidores de rede e utilizados por meio de navegadores da Web. Para TAKAHASHI (2000, p.169), HTML é uma "linguagem de marcação de hipertexto. Linguagem padrão usada para escrever páginas de documentos para WWW, variante (subconjunto) da SGML. Possibilita preparar documentos com gráficos e links para visualização em sistemas compatíveis com o WWW". Na verdade, "a linguagem dos documentos WWW, a HTML, é essencialmente um DTD em SGML" (MARCOUX e SÉVIGNY, 1997, p.590). A HTML utiliza marcações ou tags, predefinidas, em meio ao texto, para delimitá-lo, enfocando sua codificação na estrutura e apresentação da informação a ser transferida por meio das páginas da Internet, e não na semântica para seu uso, isto é, não permite explicar o significado das informações. De acordo com COSTA (2000, p.3), a HTML não possibilita a criação de rótulos personificados e quebra de páginas longas em seções lógicas. Não faz uso de padrões para a especificação dos tipos das hiperligações, que resultaria na maior performance do navegador. Devido não ser extensiva unilateralmente, um novo Tag pode possuir uma semântica e apresentação ambígua. GOMES (1999, p.4) enumera as seguintes características para a linguagem HTML: a) alto grau de utilização e implantação; b) simplicidade; c) caráter genérico; d) alto nível de exaustividade para a recuperação; e) insensibilidade ao contexto. 51 Em dezembro de 1997, a versão HTML 4.0 foi recomendada pelo próprio W3C, seu criador, como padrão para os metadados na Web, o que perdurou apenas até o ano de 1999, quando foi reformulado na versão 4.01. Apesar da "relativa facilidade em ser entendida pelo usuário da Web e de ser processada, mesmo em diferentes navegadores" (BAX, 2000, p.10), devido à falta de flexibilidade, a HTML 4.01 foi revista e reformulada em XML, resultando na XHTML 1.0, que passou a ser a nova recomendação do W3C. Em um documento HTML existem duas zonas de informação, também delimitadas por tags, onde as demais tags podem se apresentar: a) <HEAD>...</HEAD>: zona onde são definidos valores para todo o recurso; não visível pelo usuário ao visitar a página; b) <BODY>...</BODY>: zona onde estão as informações do recurso; visível pelo usuário ao visitar a página. Exemplo de marcação estruturada pela linguagem HTML é: FIGURA 3 - EXEMPLO DA LINGUAGEM HTML <h1> Rhubard Cobbler</h1> <h2>[email protected]</h2> <h3>Wed, 14 Jun 95</h3> Rhubard Cobbler made with bananas as the main sweetener. It was delicious. Basicly it was <table> <tr><td> 2 ½ cups <td> diced rhubarb (blanched with boiling water, drain) <tr><td> 2 tablespoons <td> sugar <tr><td> 2 <td> fairly ripe bananas sliced ¼"round <tr><td> 1/4 teanspoon <td> cinnamon <tr><td> dash of <td> nutmeg </table> Combine al and use as cobbler, pie, or crisp. Related recipes: <a href="#GardenQuiche">Garden Quiche</a> FONTE: MOLLER, A.; SCHWARTZBACH, M. I. The XML revolution: technologies for the future Web. 2000. Disponível em: <http://www.brics.dk`amoeller/xml/. Acesso em: 10 jun. 2001 52 3.7.3 XML Extensible Markup Language (XML) é uma sintaxe ou linguagem emergente, desenvolvida em 1996 pelo W3C, que identifica o significado de cada informação/dado. Derivada da linguagem SGML, muitos dos recursos SGML tiveram de ser retirados para que a XML fosse leve e pequena o suficiente para se tornar eficaz, tornando-se assim, um perfil da SGML, menos complexa, pois a especificação da linguagem tem 26 páginas, enquanto a referência-padrão SGML tem 500 páginas + 100 de anexos. (XML: Linguagem de Marcação Extensiva, 2001, p. 4) TAKAHASHI (2000, p. 168) define XML como linguagem de marcação extensível. Metalinguagem, subconjunto da SGML, que permite a criação de formatos de informação compartilháveis por um conjunto de usuários, no que se refere tanto aos conteúdos quanto aos próprios formatos. Usa símbolos de marcação para indicar tipos de informação em conteúdos, a forma como os dados vão ser interpretados e como se vai interagir com eles. De acordo com GOMES (1999, p.4), "dados os problemas apresentados pela HTML, o W3C propôs a criação de um grupo de trabalho que, a partir de um corpo relativamente simples de elementos, elimine tais problemas. XML é o resultado deste trabalho, e tem as vantagens da simplicidade e generalidade da HTML, ao mesmo tempo resultando sensível ao contexto". A XML foi projetada especificamente para a descrição de fontes de informação na Web, isto é, "para transmitir dados estruturados para aplicações Web" (COSTA, 2000, p.4), de forma mais eficaz que a HTML em termos de conteúdo e funcionalidade, uma vez que "foi projetada para facilitar o intercâmbio de informações e não somente para a exibição, o que é função da HTML" (COELHO et al., 2001, p.2). A linguagem XML provê caminhos estruturados nos quais se codifica desde páginas Web até entradas de bancos de dados. XML representa um avanço sobre a HTML, pois prevê a busca de informações em seções de cabeçalhos. Na opinião de MILLER (1998, p.2), "a sintaxe da XML provê independência do distribuidor, extensibilidade ao usuário, validação, facilidade de leitura pelas pessoas e capacidade de representar estruturas complexas". 53 COSTA (2000, p.4) elenca como características da XML: a) "linguagem simples para definir, validar tipos de documentos e de ser implementada; b) documentos feitos em HTML 4.0 podem ser facilmente convertidos para XML; c) cada usuário pode definir seus próprios conjuntos de rótulos, ou seja, produzir documentos auto-descritivos; d) permite a especificação de diferentes tipos de relacionamentos entre documentos, pois a nova tecnologia de links gerência de diversos relacionamentos e de forma [sic]; e) reune [sic] a força da linguagem SGML com a portabilidade da HTML. Possui DTD (Document Type Definition) que são as normas que definem como os tags são estruturados no [sic] documentos, o donwload torna-se rápido, pois a XML pode ser navegada com ou sem DTD; f) possui fácil manutenção e é uma linguagem inteligente que permite que uma marcação mais genérica possa ser alterada para uma marcação mais específica". Criada em função da crescente quantidade de dados que chegam à rede diarimente, a linguagem XML tem se projetado para executar melhor a tarefa de gerenciamento de informações, e por este motivo seu uso deve chegar, até o final de 2001, a 75% das empresas que fazem parte do ranking Fortune 50020 em projetos de tecnologia de informação que envolvam a integração de aplicações (MÁQUINAS..., 2001, p.87). Exemplo de um documento estruturado pela linguagem XML é: 20 Ranking que seleciona as 500 maiores corporações dos Estados Unidos. 54 FIGURA 4 - EXEMPLO DA LINGUAGEM XML <recipe id="117" category="dessert"> <title>Rhubarb Cobble</title> <author><email>[email protected]</email></author> <date>Wed, 14 Jun 95</date> <description> Rhubard Cobbler made with bananas as the main sweetener. It was delicious. </descrition> <ingredients> ... </ingredients> <preparation> Combine al and use as cobbler, pie, or crisp. </preparation> <related url="#GardenQuiche">Garden Quiche"</related> </recipe> FONTE: MOLLER, A.; SCHWARTZBACH, M. I. The XML revolution: technologies for the future Web. 2000. Disponível em: <http://www.brics.dk`amoeller/xml/. Acesso em: 10 jun. 2001 3.7.4 RDF A Resource Description Framework (RDF) é uma estrutura de dados que tem como objetivo sustentar a interoperabilidade dos metadados, ou seja, a criação, o intercâmbio e o uso de metadados na Web, uma vez que é estruturado por meio de propriedades ou elementos descritivos. Apesar de alguns autores indicarem o W3C como responsável pelo desenvolvimento da RDF, MILLER (1998, p. 3) afirma que "nenhum indivíduo ou organização inventou a RDF. Ela é resultado de um esforço cooperativo", pois foi inspirado em especificações da PICS, cujo resultado advém de muito trabalho dos membros do W3C com a comunidade bibliotecária digital, "beneficiando-se do design da XML bem como de propostas submetidas pela Microsoft (XMLDATA) e pela Netscape (MCFXML). Outros esforços com metadados, como o Dublin Core (DC) e o Warwick Framework (WF)21 também influenciaram no design da RDF". 21 Warwick Framework é uma arquitetura que surgiu no Segundo Metadata Workshop, realizado em Warwick (Reino Unido), em 1996, desenvolvida para possibilitar o intercâmbio de 55 A RDF utiliza a sintaxe da XML, onde as propriedades da informação são estruturadas por meio de rótulos, o que a possibilita sustentar metadados em diferentes ambientes. Cada uma das propriedades da informação contém, então, uma etiqueta que a associa a um valor, ou conteúdo da descrição da informação, não comprometendo a sua semântica. Esta "etiqueta" é denominada namespace e identifica, "sem ambigüidades a semântica e as convenções que regem o uso particular dos tipos de propriedade através da identificação única da Autoridade controladora do vocabulário" (MILLER, 1998, p.6). De acordo com MILLER, MILLER e BRICKLEY (1999, p.5), "o conceito de namespace da linguagem XML é utilizado pela RDF para permitir que diferentes comunidades desenvolvam seus próprios meios de descobrir os recursos e para que descrições individuais possam ser selecionadas de uma ou mais destas estruturas específicas das comunidades, conforme necessidade". IANNELLA (2000, p.9) conclui que "o grande benefício que a RDF traz é a permissão, para as comunidades descritoras deste recurso, focarem primeiramente na semântica e não na sintaxe e na estrutura dos metadados". A RDF é, conforme TENNANT (1998a, p.30), a ferramenta que melhor irá prover um método para codificar automaticamente a informação eletrônica através de uma forma de análise gramatical. Essa afirmativa é corroborada por MILLER (1998, p.1), no que se refere à estrutura da RDF: A RDF (...) é uma infra-estrutura que propicia a codificação, o intercâmbio e a reutilização de metadados estruturados. Esta infra-estrutura confere aos metadados a interoperabilidade através do design de mecanismos que suportam convenções comuns de semântica, sintaxe e estrutura. A RDF não estipula a semântica para cada comunidade de descrição de recursos, mas, ao invés disso, dá capacidade a estas de definir elementos de metadados conforme a necessidade. A RDF representa, portanto, uma evolução no campo das linguagens de marcação, uma vez que as integra, possibilitando a agregação do valor semântico à informação. pacotes de metadados, designados para satisfazer as necessidades de diferentes comunidades que elaboraram seus próprios modelos. 56 Um exemplo de formatação por meio da linguagem RDF é: FIGURA 5 - EXEMPLO DA LINGUAGEM RDF <rdf:RDF xmlns:rdf=http://www.w3.org/1999/02/22-rdf-syntax-ns# xmlns:dc=http://purl.org/dc/elements/1.1> <rdf:Description rdf:about=http://doc dc:creator="Joe Smith" dc:title="My document" dc:description="Joe's ramblings about his summer vacation." dc:date="1999-09-10" /> </rdf:RDF> FONTE: BERNERS-LEE, T.; BRICKLEY, D.; SWICK, R. R. Frequently asked questions about RDF. 2001. Disponível em: <http://www.w3.org/RDF/FAQ>. Acesso em: 06 jun. 2001 57 4 CONSIDERAÇÕES AO TRATAMENTO DA INFORMAÇÃO Esta seção tem o intuito de desenvolver uma reflexão sobre o tratamento da informação influenciado pelo uso de metadados, enfocando sua relação com as áreas da catalogação, representação e normalização da informação, e com o princípio que rege a catalogação-na-fonte. Procurou-se, de forma objetiva e sintética, abordar o tema sob a ótica contemporânea do tratamento da informação, resgatando de práticas anteriores subsídios necessários a serem levados em consideração na reflexão. 4.1 PRODUÇÃO DE METADADOS VERSUS CATALOGAÇÃO Primeiramente, é importante refletir sobre o uso do termo metadados no contexto histórico do tratamento da informação e o termo catalogação no contexto digital do tratamento da informação. O primeiro caso se refere à tentativa de se comparar a aplicação de metadados ao processo tradicional de catalogação em bibliotecas e demais unidades de informação. Acredita-se que isto se deve ao fato de a raiz meta indicar uma ordem superior e, por isso, ser aplicada à relação entre o dado existente em um documento/objeto físico e sua respectiva representação em um sistema. Essa concepção pode ser observada em trabalhos como de GOMES (2000, p. 2) e SAN SEGUNDO MANUEL (1998, p.1) os quais enfatizam que o que até agora vinha se denominando descrições bibliográficas ou registros bibliográficos, hoje em dia são denominados metadados. WEIBEL22, citado por SOUZA, VENDRUSCULO e MELO (2000, p.93), também compara os elementos que compõem o conjunto de metadados descritos pelo 22 WEIBEL, S. The Dublin Core: a simple content description model for eletronic resources. Bulletin of the American Society for Information Science, p. 9-11, out. 1977. 58 Dublin Core, um dos modelos para a descrição de metainformações, com os elementos de uma ficha catalográfica. Contudo, GRADMANN (1998, p. 4) é de opinião que ainda que os resultados da produção de metadados (...) possam ser semanticamente similares a um registro catalográfico simplificado (...), o contexto geral da produção e uso desta informação é substancialmente diferente e está impulsionado pela intenção de ir além do paradigma tradicional da catalogação. Considerar que o processo de criação de metadados é um tipo de catalogação simplificada, seria provavelmente um sério erro. GRADMANN (1998, p.2-4) afirma, ainda, que os metadados e os registros catalográficos convencionais não são complementares, mas completamente distintos, cujos modos de trabalho se contrapõem, embora em ambos os casos, tratamento de documentos físicos reais ou recursos virtuais, o que se intenciona com os metadados é a produção de autênticas e confiáveis meta-informações. Para esse autor, trata-se de questões de mudanças terminológicas e também de certas variantes de complexidade. O segundo caso se refere ao uso do termo catalogação para o ato da representação de "pacotes de informação", ou mesmo de dados e informações contidas nestes "pacotes", quando da composição de instrumentos facilitadores na busca de informações na Internet. TENANNT (1998b, p.28), diz que a palavra catalogação está sendo utilizada erroneamente, pois o que está se tentando fazer com os registros da Internet é elaborar bibliografias, e para isto não são necessários catalogadores. Neste aspecto, é conveniente esclarecer a diferença entre bibliografia e o produto gerado pelos catalogadores, o catálogo. Bibliografia é uma relação de recursos existentes sobre um fato, uma pessoa, um assunto, entre outros motivos, com o objetivo de comunicar a sua existência. Já o catálogo, apesar de também relacionar recursos de informação, agrupando-os de acordo com critérios (autoria, assunto, publicador, etc.), foca seu objetivo na comunicação do endereço do recurso para sua localização, além da comunicação de sua existência. Apesar da distinção convencional e teórica entre os dois termos, na prática verifica-se a utilização indiscriminada dos termos, como se pode observar em muitas fontes impressas e on-line. 59 Discordando da opinião do autor, entende-se que, realmente, os provedores e outras organizações, por meio de seus sistemas de informação, antecipam-se à demanda elaborando bibliografias como serviços aos usuários, uma vez que reúnem, sob diretórios, a relação de recursos identificados na rede. Mas, naturalmente estes recursos vêm seguidos de seu endereço, tratando-se, portanto, mais de um catálogo hierarquizado de assuntos do que de uma bibliografia. Deve-se ter clareza que, enquanto os sistemas de informações de bibliotecas físicas ainda trabalham focando seu maior objetivo na recuperação de documentos/objetos físicos palpáveis, distintos, permanentes em sua forma original e, na sua grande maioria, disponíveis localmente, utilizando-se de produtos digitais (elaborados por terceiros) apenas como serviços a serem prestados, os atuais sistemas de informações que trabalham com metadados têm como foco o acesso a recursos virtuais dispersos na Internet, isto é, um conjunto associado de bits (e não é uma produção física material palpável) que, apesar de gerados por alguém, em algum lugar, estão disponíveis há qualquer tempo e em qualquer lugar. Na opinião de TENNANT (1998c, p.38), a vantagem de se trabalhar com bibliotecas virtuais é que seus registros são todos da mesma natureza (eletrônicos), diferente das tradicionais bibliotecas, que trabalham com registros de diferentes suportes, portanto, diferentes informações para descrevê-los. Indistintamente, documentos/objetos físicos palpáveis ou recursos virtuais, quando inseridos em sistemas de informação, devem ser representados para permitir sua identificação e localização. Representar significa simbolizar, reproduzir, expressar ou retratar algo em outro meio, como por exemplo um ícone na tela do computador, um retrato de família, o desenho de uma criança, um código de trânsito, bit e bytes em um programa, etc. Historicamente verifica-se que, da simples confecção de inventários de acervos e listas ordenadas sob algum critério, em que as informações constantes variavam em 60 número e tipo, até o resgate recente, porém tradicional, dos sistemas existentes nas bibliotecas, o processo de representação dos recursos de informação passou por diferentes estágios. Pode-se dizer que este processo tornou-se estável a partir dos anos 60, do século XX, quando a representação dos recursos existentes em um determinado ambiente começou a ser feita com base em padrões internacionais, os quais evoluíram no decorrer dos anos, adaptando-se aos novos suportes da informação e às novas tecnologias, mas mantendo-se fiel a seus princípios. A disponibilização, aos usuários, das informações resultantes do processo de catalogação assumiu, por muitas décadas, o modelo de uma ficha catalográfica (fig. 2). Sem nenhuma indicação do significado de cada informação, o que era de conhecimento apenas dos especialistas que exerciam a atividade catalográfica, esta forma de apresentação encontrou resistência por grande parte dos usuários, com exceção dos poucos que se interessavam por entender o instrumento que utilizavam na busca de informações. FIGURA 6 - EXEMPLO DE UMA FICHA CATALOGRÁFICA Castells, Manuel, 1942[The rise of the network society. Português] A sociedade em rede / Manuel Castells ; tradução: Roneide Venancio Majer com a colaboração de Klauss Brandini Gerhardt ; [prefácio de Fernando Henrique Cardoso]. -- São Paulo : Paz e Terra, 1999. iii, 617 p. : il. ; 23 cm. -- (A Era da Informação : economia, sociedade e cultura ; v. 1). Título original: The rise of the network society. Inclui índice. Bibliografia: p. [507]-569. ISBN 85-219-0329-4 (broch.) 1. Tecnologia da informação - Aspectos econômicos. 2. Tecnologia da informação - Aspectos sociais. 3. Sociedade da informação. 4. Redes de informação. I. Cardoso, Fernando Henrique. II. Título. III. Série. A partir do uso do computador nas bibliotecas e demais unidades de informação, verificou-se a necessidade de desvincular o armazenamento dos dados representativos dos documentos de sua apresentação final, o que permitiu a flexibilidade na disponibilização e no exercício de controle da informação. A partir de então, surgiram 61 os bancos de dados bibliográficos e foi introduzido o termo registro bibliográfico, ou registro catalográfico, ao conjunto de campos, devidamente etiquetados, nos quais são inseridos dados ou informações sobre uma unidade documentária. Novas concepções tiveram que ser incorporadas ao processo de gestão documentária, o que fez surgir a distinção entre três aspectos: estrutura, conteúdo e apresentação, não só no tratamento técnico efetuado pelo homem, mas necessariamente no processamento realizado pelo computador, permitindo que este reconheça automaticamente o valor ou conteúdo da informação, independentemente da linguagem e do programa que se utilize para seu armazenamento e manipulação. Percebeu-se que, para ampliar as possibilidades de uso da informação, dever-se-ia flexibilizá-la de modo a fazer com que a máquina reconhecesse, de forma automática, seu valor semântico. Surgiram, então, os formatos bibliográficos nas suas diferentes versões, mas mútuos em seus princípios: criar uma estrutura para a catalogação em máquina, de modo a separar cada dado ou informação que caracteriza o documento, atribuindo-lhe um elemento identificador por meio do qual o computador o reconhecesse e controlasse, como pode ser observado no exemplo do mesmo documento (figura 6), representado no padrão do Formato MARC na figura 7. A figura que contém o registro MARC demonstra que, para cada informação há um campo, devidamente etiquetado, isto é, um rótulo ou uma tag identificada por caracteres numéricos. Cada campo possui dois indicadores a serem preenchidos, ou não, conforme a especificidade de seu conteúdo e um espaço para o dados ou informações que constituem o conteúdo do campo, alocados em subcampos, identificados por um delimitador (|) e uma letra. A utilização de indicadores e subcampos justifica-se na medida em que possibilita a geração de produtos criteriosa e uniformemente elaborados, garantindo independência aos dados e o uso de critérios de forma automática, uma vez que estabelecidos quando da criação do registro. 62 FIGURA 7 - EXEMPLO DE UM REGISTRO MARC 001 003 005 008 012 020 040 041 082 092 100 240 245 260 300 440 500 500 504 650 650 650 650 700 852 902 949 99092910370715059 Br 19990920192732.7 990719s1999 spba 001 0 por d __ |a BN002545306 __ |a 85-219-0329-4 (broch.) __ |a Br |b por 1_ |a por |h eng 04 |2 19 |a 303.4833 __ |a I-416,2,16 1_ |a Castells, Manuel, |d 194204 |a The rise of the network society. |l Português 12 |a A sociedade em rede / |c Manuel Castells ; tradução: Roneide Venancio Majer com a colaboração de Klauss Brandini Gerhardt; [prefácio de Fernando Henrique Cardoso]. -__ |a São Paulo : |b Paz e Terra, |c 1999. __ |a iii, 617p. : |b il. ; |c 23cm. -_3 |a (A Era da informação : economia, sociedade e cultura ; |v v. 1) __ |a Título original: The rise of the network society. __ |a Inclui índice. __ |a Bibliografia: p. [507]-569. 04 |a Tecnologia da informação - |x Aspectos econômicos. 04 |a Tecnologia da informação - |x Aspectos sociais. 04 |a Sociedade da informação. 04 |a Redes de informação. 12 |a Cardoso, Fernando Henrique. __ |a DRG __ |a 99/07/09 15:29:35 cristina |a 99/07/14 09:57:15 marcia |a 99/07/19 11:05:03 FERNANDO |a 99/07/19 11:07:29 FERNANDO |a 99/08/02 10:32:50 alexandre |a 99/08/27 18:21:43 RAFAEL |a 99/09/20 19:27:32 marilene __ |a 972.686 DL 13/0799 FONTE: Registro extraído do Catálogo on-line da Biblioteca Nacional disponível na Internet em: http://www.bn.br Comparando a figura 6 com a figura 7, verifica-se que no registro MARC há muito mais informações: informação de controle interno do sistema e de quem registra o recurso (não necessárias à visualização pelos usuários: 001, 003, 005, 012, 852, 902 e 949); informações sobre o conteúdo, mas que servem para controle interno (também não necessárias à visualização pelos usuários: 008, 040, 041, 092); e informações 63 codificadas através de indicadores, que indicam ações a serem executadas sobre os conteúdos quando da geração de produtos e serviços. Em ambos os casos, a criação do registro bibliográfico é feita de forma manual, mas, no segundo caso, qualquer que seja o produto ou serviço executado, há a vantagem de poder gerar automaticamente, de forma flexível e de acordo com as necessidades de cada caso, produtos e serviços de informação, sem a duplicação de esforços. Com a automação das bibliotecas, os catálogos passaram de instrumentos rígidos, com chaves de acesso restritas, a bancos de dados flexíveis com ilimitadas possibilidades de acesso e geração de produtos e serviços aos usuários e ao controle do acervo, inclusive de meio eficaz para o compartilhamento de informações. Obviamente esta evolução exigiu a integração de profissionais de diferentes áreas para que, em conjunto, agregassem seus conhecimentos em prol do rompimento das barreiras que até então retardaram o desenvolvimento e a evolução na área do tratamento e uso da informação. Comparando as informações que compõem os antigos catálogos impressos com os atuais catálogos on-line, tanto a estrutura quanto o conteúdo dos recursos e seu endereço localizador são representados de forma normalizada, obedecendo a padrões prescritos internacionalmente. A diferença básica entre os dois casos é que no primeiro, a representação (ficha catalográfica) dispõe apenas do conteúdo, ou informação propriamente dita. No segundo caso, ao conteúdo está agregado um rótulo identificador de sua semântica, porém codificado, o que lhe atribuiu uma estrutura formal em termos de armazenamento digital e flexibilidade nas formas de apresentação, quer seja ao usuário, quer seja ao controle interno do sistema. É evidente que a utilização da informática, ou melhor, a necessidade de adaptar o processo de tratamento de recursos de informação às modernas tecnologias, tem forçado seu aperfeiçoamento. Analisando sob a ótica das atuais tecnologias da informação, pode-se afirmar que, apesar de a passagem entre a produção de fichas catalográficas para a produção de registros bibliográficos do tipo MARC ter representado na época um avanço para a área, o que ocorreu na verdade foi uma 64 simples substituição das ferramentas até então utilizadas (máquinas de datilografia e reprodutores de fichas) por ferramentas mais potentes (o computador e seus periféricos), permanecendo o processo manual de catalogação tal como era. Houve apenas uma transposição da produção de registros de uma plataforma para outra, modelo que permanece até hoje. TENNANT (1998b, p.28) faz a seguinte observação sobre a informatização do processo de catalogação nas bibliotecas: a) existe um sistema automatizado para criar e editar complexos registros no formato MARC; b) há necessidade de um alto treinamento individual de bibliotecários sobre catalogação em geral e especificamente sobre o Anglo-American Cataloguing Rules (AACR); e c) um tempo significativo é gasto para criar cada registro. Complementando, TENANNT (1998b, p.28) alerta que, se o processamento de informações for ampliado para os recursos da Web, deve-se completar com as seguintes características: a) há necessidade de diretrizes específicas sobre os recursos da Web para ajudar os catalogadores a fazer o processamento; b) há necessidade de um caminho para conferir automaticamente os links do registro; e c) é preciso que catalogadores conheçam os recursos da Internet e estejam capacitados sobre a Web. Cabe esclarecer que a catalogação, tradicionalmente concebida, pode ser feita segundo padrões internacionais em diferentes níveis, do mais genérico ao mais complexo, dependendo do tipo de recurso e da finalidade da criação dos registros, mantendo-se um núcleo comum, o que faz com que os conteúdos levados em consideração nos bancos de dados bibliográficos mantenham-se uniformes em seu cerne. Mas, por outro lado, um aspecto a ressaltar sobre as regras de catalogação é que as normas estabelecidas são, até hoje, praticamente as mesmas determinadas em épocas remotas, onde o processo era todo manual, quando o formato de saída ainda era 65 a ficha catalográfica e a única maneira de se permitir o acesso aos diferentes pontos de um registro bibliográfico era o seu desdobramento em cabeçalhos principal e secundários, o que exige uma complexa interpretação dos instrumentos normativos. Evidencia-se aqui, novamente, que não houve uma evolução no tratamento da informação, mas simplesmente uma transposição das regras utilizadas no papel para o computador, tornando a tarefa de catalogação mais ágil, porém não menos complexa e dependente de especialistas. Como resultado da reflexão, concorda-se plenamente com a concepção de metadados atribuída por CAPLAN23 (citado por GRADMANN, 1998, p. 3), que considera o termo metadados um bom termo, e neutro, que cobre qualquer base de dados, sem que para isso deva-se fazer qualquer relação com os padrões do AACR ou dos formatos bibliográficos, porque, na verdade, é a descrição da informação sobre a informação que está em jogo nesta concepção. Quanto ao termo catalogação, conclui-se que, se considerado sob sua etimologia (catalogar + ação, cuja derivação vem de catálogo - relação sistemática de coisas, pessoas, ou outro elemento), pode também ser aplicado à descrição de recursos da Internet, uma vez que esta descrição tem por objetivo possibilitar a sua recuperação, na forma de listas arranjadas sob algum critério e seu acesso por meio de seu localizador. Isto corrobora com a expressão catalogação de recursos da Internet, muito encontrada na literatura, se admitida a descrição e disponibilidade de todos os recursos como um grande catálogo virtual que pode ser moldado em tempo real e de forma personalizada a partir de ferramentas capazes de "varrer" a rede mundial de computadores e, por meio dos metadados (em substituição aos cabeçalhos disponibilizados como pontos de acesso), identificar, selecionar e localizar os recursos para obter um resultado seletivo sob a forma de uma lista. 23 CAPLAN, P. You call it corn, we call it syntax-independent metadata of documents-like objects. The Public-Access Computer Systems Review, v. 6, n. 4, 1995. Disponível também em: http://info.lib.uh.edu/pr/v.6/n4/capl6n4.html. 66 4.2 O PRINCÍPIO DA "CATALOGAÇÃO-NA-FONTE" Em meados do século passado, diversos países determinaram que em cada livro publicado deveria ser impressa, no verso da folha de rosto, a sua ficha catalográfica, de acordo com os códigos vigentes para esta tarefa. Esta decisão visava à redução de esforços na tarefa de produção da ficha para a composição de catálogos, uma vez que, se um profissional especialista executasse a tarefa quando da editoração do livro, todas as demais bibliotecas e outras unidades de informação que viessem a incorporar o mesmo livro em seu acervo poderiam apenas "copiar" as informações, adaptando-as quando necessário, economizando tempo e recursos, em uma atividade cooperativa entre profissionais. Esta determinação, apesar de ser prescrita por instrumentos normativos, nunca foi regulamentada e, portanto, sempre teve caráter facultativo. Editoras alegam que a tarefa requer o serviço de um profissional especializado e, além disso, não traz retornos financeiros, motivo pelo qual esta prática não foi implementada por todas as organizações publicadoras. Entende-se o princípio da "catalogação-na-fonte"24 como um redutor de custos para os sistemas de informação e, principalmente no atual modelo econômico vigente, deve ser resgatado, não em relação aos livros, mas em relação aos recursos virtuais. Exponencialmente produzidos, os recursos virtuais não dispensam de tratamento para sua reutilização. Porém, se tratados sob a forma como tradicionalmente vêm sendo os demais documentos, isto exigirá estruturas organizacionais talvez impossíveis de serem sustentadas, em serviços intermináveis e defasados. Cabe aqui, então, uma nova concepção de "catalogação-na-fonte", com a descrição do recurso feita diretamente pelo seu autor, isto é, no momento de sua criação. Isto é perfeitamente possível com o uso das atuais linguagens de marcação, como já acontece com os documentos gerados em HTML, permitindo a introdução de metadados em seu cabeçalho (HEAD), lidos pelas ferramentas de busca. 24 Criado inicialmente com o nome de "catalogação-na-fonte", foi posteriormente denominado, pela Ciência da Informação, de "catalogação-na-publicação". Nesta pesquisa utiliza-se a expressão conforme concebida originalmente devido ao termo fonte se adaptar aos atuais recursos de informação. 67 A implantação de um sistema dessa natureza, que utilize alguma linguagem de marcação pelo próprio criador do recurso e que permita a associação semântica da informação à descrição (tal como a RDF), reduziria drasticamente as tarefas e os custos do trabalho com informação. No entanto, essa tarefa derivaria em inúmeras formas de simbolizar "coisas", fatos, pessoas, etc. idênticas e ocasionaria alta revocação nos resultados de buscas, isto é, um baixo índice de precisão. Desencadeia-se, então, outro fator a ser considerado: o da normalização da informação. 4.3 SOBRE A NORMALIZAÇÃO DA INFORMAÇÃO Durante décadas trabalhou-se na estruturação de instrumentos normativos para o registro da informação textual em suporte papel, como para o registro representativo da informação em sistemas vinculados a bibliotecas e outras unidades de informação. Surgiram as normas internacionais e nacionais de documentação, os códigos de catalogação e classificação, as listas estruturadas de linguagens de indexação e os formatos legíveis por máquina. A necessidade de atividades rigorosamente normalizadas tinha uma razão de ser: as formas de tratamento e acesso à informação, se não eram manuais, o eram apenas automatizadas, para não dizer mecanizadas, o que não garantia a recuperação com alta precisão e baixa revocação. Estipulou-se o que descrever sobre cada recurso de informação, quais informações a respeito do recurso deveriam ser registradas tal como o autor as denominou e quais deveriam ser normalizadas de acordo com regras, preferencialmente internacionais, em que formato de apresentação deveriam os recursos ser disponibilizados, entre outros aspectos, tudo em nome da compatibilidade entre diferentes sistemas para o atendimento a diferentes usuários. Nas atuais circunstâncias, com o aumento da capacidade de processamento de dados em termos quantitativos e qualitativos, com o aperfeiçoamento dos mecanismos de 68 busca e com a compulsória introdução dos usuários no domínio das técnicas de recuperação da informação na Internet, agregada à tendência da catalogação dos recursos virtuais por seu próprio criador, chegou o tempo de avaliar a necessidade no rigor dos processos de normalização por parte daquele que cataloga o recurso. A normalização traz inúmeros benefícios, principalmente qualidade aos produtos e serviços. Mas, há que se admitir que a qualidade quando exagerada, torna-se economicamente inviável e, neste caso, há que se encontrar alternativas para que o processo de normalização não seja relegado em nome das novas tecnologias, mas também não se torne uma barreira à agilidade na difusão da informação. Trata-se de transferir o processo complexo da normalização para outra instância, ou seja, para mecanismos inteligentes que associem a informação contida na catalogação dos recursos, realizada por seu produtor, com instrumentos auxiliares que contenham a informação estruturada de acordo com critérios normativos (estes sim produzidos e gerenciados por equipes de especialistas), em uma atividade intermediária, porém, transparente entre usuários e informação, identificando, deste modo, as diferentes formas de consulta quando de mesmo valor semântico. 69 5 PROCEDIMENTOS METODOLÓGICOS DO ESTUDO DE CASO Para enriquecer a investigação, realizou-se um estudo sobre um caso de uso de metadados à luz da teoria analisada. Pode-se definir o estudo de caso como "uma forma de se fazer pesquisa social empírica ao investigar-se um fenômeno atual dentro de seu contexto de vidareal" (YIN25, citado por CAMPOMAR, 1991, p. 96). GIL (1994, p.78) considera o estudo de caso "um estudo profundo e exaustivo de um ou poucos objetos, de maneira a permitir conhecimento amplo e detalhado do mesmo", ressaltando que, quando o caso é selecionado adequadamente, é possível que as conclusões sejam significativas a ponto de poderem ser generalizadas para todo o universo ou, pelo menos, poderem estabelecer bases para investigações posteriores, mais sistemáticas e precisas. Contudo, a pesquisa não faz inferências a outros casos, além do estudado, pois, conforme CASTRO (1977, p. 88), "nos estudos de caso o pesquisador deixa as inferências relativas ao todo por conta da capacidade de julgamento do leitor". As atividades e os procedimentos para a realização do estudo de caso tiveram como base as etapas estabelecidas por STAKE26, SIMONS27 e YIN28, citados por SOY (1998, p. 1), aqui enumeradas e indicadas com as respectivas informações acerca desta pesquisa: a) delimitação das questões de pesquisa: - relativas ao contexto: categorias profissionais envolvidas; perfil exigido das pessoas; treinamento recebido; produtos e serviços oferecidos; e base da definição dos produtos e serviços; 25 YIN, Robert K. Case study research: design and methods. EUA: Sage Publications, 1984. 26 STAKE, R. E. The art of case study research. Thousand Oasks, CA: Sage, 1995. 27 SIMONS, H. Towards a science of the singular: essays about case in education research and evolution. Norwich, UK: University of East Anglia, Centre for Applied Research in Education, 1980. 28 YIN op. cit. 70 - relativas ao tratamento das informações e uso de metadados: origem das informações; meio de identificação, captura e atualização das informações; etapas que compõem o tratamento; banco de dados utilizado; e estrutura do banco de dados em termos de padrão e metadados; - relativas à disponibilização na Internet: disponibilização do banco de dados; metadados embutidos nas páginas HTML; e padrão de metadados adotado; - relativas à recuperação das informações: cadastro das páginas HTML nas ferramentas de busca; b) escolha do caso a servir de objeto de estudo: - o Programa Prossiga, do IBICT, foi selecionado como objeto de análise por se tratar de um caso típico de sistema de informação virtual, além de se caracterizar como o sistema oficial de informação em Ciência e Tecnologia no Brasil. Tendo o Programa diversos projetos, estudou-se aqui apenas o intitulado Bibliotecas Virtuais Temáticas (BVs), uma vez que, além de ser um dos dois que têm a sua gestão na cidade do Rio de Janeiro, suas informações originam-se integralmente da Internet, oferecendo um conjunto de dezesseis casos, o que pode aumentar a profundidade do estudo; c) determinação do instrumento de coleta de dados: - entrevista semi-estruturada (apêndice 2), aplicada à pessoa responsável pelo Projeto, cujas perguntas de cunho técnico, foram agrupadas de acordo com as limitações das questões de pesquisa. Quando houve necessidade, recorreu-se a contatos posteriores via e-mail para maiores esclarecimentos; d) trabalho de campo: - aplicação da entrevista ao responsável pelo Projeto; 71 - exploração do portal do Programa Prossiga do IBICT29; especialmente os sites do Projeto e das BVs; e) análise dos dados: - descrição do Projeto com base nas informações obtidas na entrevista, no manual do sistema, na exploração do portal do Programa e dos sites do Projeto e das BVs; - comparação entre as informações obtidas no trabalho de campo com o modelo Dublin Core. O estudo do sistema de informações do Projeto BVs constitui-se em uma investigação particular que ultrapassa a análise acadêmica de um caso, constituindo-se em uma avaliação de importante expressão e interesse para o Programa Prossiga sobre o uso de metadados pelo Projeto. 29 http://www.prossiga.br 72 6 O PROJETO BIBLIOTECAS VIRTUAIS TEMÁTICAS DO PROGRAMA PROSSIGA O projeto analisado, Bibliotecas Virtuais Temáticas (BVs), integra o rol de projetos do Programa Prossiga, criado junto à Presidência do CNPq, mas transferido para o IBICT em março de 2001. Nas seções a seguir apresenta-se o Programa e descreve-se e analisa-se o projeto conforme proposta metodológica do estudo de caso. 6.1 O PROGRAMA PROSSIGA O Programa Prossiga, portal oficial de divulgação de informações brasileiras em C&T, cujo slogan é "Informação e comunicação para a pesquisa", visa a promoção da integração de comunidades virtuais de conhecimento científico (anexo 3). O portal de informações é composto de um conjunto de projetos apresentados por meio de sites especializados em informações de C&T, divididos em três linhas de pesquisa: a) informação: que disponibiliza, de forma ordenada e integrada, informações relevantes para a pesquisa; abarca os seguintes projetos: Bibliotecas virtuais temáticas; Bibliotecas virtuais de pesquisadores; ProssigaBrasil; Produção científica; Bolsistas e projetos de pesquisa; Instituições de C&T; Pesquisadores; Mercado de trabalho e ComoAchar; b) comunicação: que coloca à disposição dos pesquisadores ferramentas sofisticadas de comunicação, tais como: Chats; Conexão C&T, e Fatos, dados e Notícias; c) educação: que oferece cursos à distância para uso dos recursos da Internet, como a Escola Virtual Prossiga. Estas linhas de pesquisa não só disponibilizam informações externas, mas informações gerenciais advindas das atividades do CNPq, órgão criador e mantenedor do Programa até março de 2001. 73 Criado em 1995, o Programa Prossiga adotou para sua concepção algumas premissas básicas (...). A primeira, que o uso da Internet não é uma tendência, mas uma realidade (...). A segunda está relacionada com o compromisso de introduzir e fomentar a informação brasileira sobre ciência e tecnologia na Internet, uma vez que se constata a escassez dessa informação na rede. A terceira vê a Internet como uma "tecnologia da inteligência" ... e por isso pode contribuir decisivamente para a criação intelectual (GOMES e CHASTINET, 1997, p.1). Yone CHASTINET (1996, p.3), coordenadora do Programa Prossiga, afirma que "sem o uso da informação como fator de atualização, de descobertas e de identificação de novas necessidades e oportunidades de aperfeiçoamento, o capital adquirido, o conhecimento, se desvaloriza a cada dia" (CHASTINET, 1996, p.3). Também sob esta concepção é que o Prossiga conta com parcerias como o Laboratório Nacional de Computação Científica (LNCC) e a Rede Nacional de Pesquisa (RNP), sendo apoiado também pela Fundação de Amparo à Pesquisa do Rio de Janeiro (FAPERJ). O Programa Prossiga tem sua sede em Brasília, junto ao IBICT, mas a coordenação de três de seus projetos, ProssigaBrasil, Bibliotecas Virtuais Temáticas e Pesquisadores, está sediada no Rio de Janeiro. 6.2 O PROJETO BIBLIOTECAS VIRTUAIS TEMÁTICAS (BVs) O Projeto BVs é um portal que, desde 1996, serve de catálogo para direcionar os usuários de temas específicos para recursos virtuais especializados disponíveis na Internet, e tem como objetivos: estabelecer uma metodologia de geração de bibliotecas virtuais; oferecer, para pesquisadores, o acesso à informação de suas áreas, disponibilizadas na Internet; e integrar à Internet dados e informações nacionais pertinentes ao desenvolvimento da pesquisa (anexo 4). Primeiro projeto de bibliotecas virtuais no Brasil, criado no contexto da área da Ciência da Informação, o Projeto BVs está sob a responsabilidade de uma coordenação, no Rio de Janeiro, e conta com uma equipe local interdisciplinar (Biblioteconomia, Engenharia Florestal, Química, Literatura, Saúde Pública, Educação Artística, especialistas em redes e construção de bancos de dados, entre outros) que 74 interage nos serviços, sendo que cada BV é de responsabilidade de um supervisor profissional da área temática da BV. Tanto nas BVs mantidas pela equipe do Projeto como naquelas cuja manutenção é feita por uma instituição parceira, a equipe supervisionada é composta por um técnico para busca e registro, um bibliotecário para análise e um coordenador científico (profissional da área temática) para avaliação da pertinência do site. Muitas vezes o técnico e o bibliotecário são a mesma pessoa. O perfil exigido dos profissionais para integrar a equipe é: dominar o uso da Internet (navegação, busca, estrutura dos sites e páginas), usar corretamente a ortografia e a gramática da língua portuguesa e saber resumir com clareza, coerência e consistência. Uma BV pode ser definida de duas maneiras: a) de acordo com a demanda da parcela da sociedade envolvida na área de C&T que, explicitando suas necessidades de informação junto ao Prossiga, em conjunto com a coordenação do Projeto BVs, avalia a pertinência e a possibilidade, e define um acordo para o trabalho conjunto; ou b) por avaliação própria das coordenações do Prossiga e do Projeto BVs, com base nas necessidades e interesses do tema para a C&T. O Projeto já disponibilizou dezesseis BVs, sendo três de execução do próprio IBICT (Referência para Pesquisa em C&T, Bibliotecas Virtuais sobre Bibliotecas Virtuais e Políticas Públicas em C&T) e treze de execução de instituições parceiras (Estudos Culturais, Energia, Inovação Tecnológica, Economia, Óptica, Educação à Distância, Engenharia de Petróleo, Educação, Jurídica, Saúde Reprodutiva, Ciências Sociais, Engenharia Biomédica e Arte e Cultura). A coordenação das BVs de Educação e Jurídica estão sediadas em Brasília, enquanto as demais no Rio de Janeiro, na própria sede do Prossiga. No caso das parcerias para a criação e manutenção das BVs, o Prossiga assegura o treinamento e a assessoria técnica. A partir de um treinamento efetuado pelo supervisor do projeto na sede da instituição parceira, esta dá início à coleta de informações e inserção 75 remota destas (via Internet) em um banco de dados, localizado em servidor do Prossiga no Rio de Janeiro, ou, em alguns casos, da instituição parceira. Por um período médio de seis meses, há uma supervisão exaustiva do trabalho efetuado pela parceira e contatos permanentes entre ambas para atendimento a dúvidas e, quando necessário, correção dos dados com reforço nas instruções. Após todos os ajustes necessários e verificação do domínio da parceira para a atualização e manutenção dos dados, é feito o lançamento oficial da BV, a partir do que é disponibilizada na Internet. A supervisão continua permanentemente, porém menos freqüente na medida em que se observa o maior domínio sobre o trabalho. Em cada BV os recursos virtuais oferecidos variam de acordo com as necessidades e especificidades do tema, sendo organizados basicamente nas seguintes categorias: a) livros, artigos e outros textos: artigo de periódico científico, anais e comunicações científicas de eventos, dissertações e teses, livros e coletâneas, artigos de jornais e revistas, entrevistas, papers, manuais, estudos e relatórios; b) periódicos: periódicos científicos e fontes secundárias de periódicos; c) bases de dados: bibliográficas, textuais, cadastrais, factuais; d) associações e sociedades científicas: associações científicas e sociedades científicas; e) bibliotecas e centros de documentação: bibliotecas, sistemas de informação, redes de bibliotecas, centros de informação/documentação e serviços referenciais de informação; f) instituições de ensino e pesquisa: centros, grupos e institutos de pesquisa, universidades, faculdades, departamentos acadêmicos, centros, institutos ou laboratórios vinculados a instituições de ensino superior e outras instituições que desenvolvem atividades de pesquisa e/ou ensino; g) livrarias e editoras: livrarias e editoras universitárias e virtuais; 76 h) museus: museus e centros de ciências; i) órgãos de política, coordenação e fomento: ministérios, secretarias estaduais e municipais, agências de fomento e financiamento; j) eventos: eventos científicos ou técnicos, tais como congressos, seminários, colóquios, simpósios, encontros, jornadas e workshops; k) pesquisadores: home pages pessoais já existentes na rede, home pages geradas automaticamente pelo software do Prossiga a partir do preenchimento de formulário pelo pesquisador da BV; l) bibliotecas virtuais: sites com informações capturadas, organizadas, sistematizadas e disponibilizadas na Internet com links ou metadados sobre documentos, temas, pessoas, pessoas, instituições, serviços e objetos; m) listas de discussões; n) projetos e programas de pesquisa; o) programas de pós-graduação: programas de pós-graduação e cursos de mestrado e doutorado; p) fontes de referência: bases de dados, diretórios, guias, cadastros, calendários, coletâneas de links, listas, etc. referenciais às BVs. Cada nova BV segue o padrão básico de estruturação dos recursos de informação nas categorias citadas mas, em havendo necessidade, pode-se agrupá-los de maneira diferente, incluindo novas categorias, como é o caso da BV de Estudos Culturais, para a qual foi criada a categoria Rio: lazer e cultura (pontos turísticos, festas, restaurantes, cinemas, teatros, etc.), e da BV de Inovação Tecnológica, com as categorias Estatísticas e indicadores, Patentes e marcas, Estudos e diagnósticos setoriais brasileiros, entre outros casos. O banco de dados do Prossiga, composto pelas informações acerca dos recursos disponibilizados no portal, está sobre a plataforma Microsoft (MS) Structured Query Language (SQL) Server 6.5, sendo que os campos foram definidos pelo próprio Prossiga, baseado nas necessidades e especificidades das BVs. O quadro 2 apresenta a lista de todos os campos estabelecidos para o banco de dados do Projeto. 77 QUADRO 2 - CAMPOS QUE COMPÕEM O BANCO DE DADOS DO PROJETO BIBLIOTECAS VIRTUAIS TEMÁTICAS, DO PROGRAMA PROSSIGA DO IBICT CAMPOS SOBRE O CONTEÚDO DOS RECURSOS Informação primária/secundária Entrada Sigla URL Contato Cidade Estado País Área do CNPq Natureza Termos livres Vocabulário controlado Comentário CAMPOS ADMINISTRATIVOS Separador de categoria Separador de registro Separador de registro novo Classificador Data de expiração Data da última visita Fonte Observações internas Traduzido Revisado Escondido ESCOPO Tipo de informação: fonte primária (site sobre determinado livro, artigo, entidade, evento, pesquisador, etc.) ou fonte secundária (página que reúne sites que apresentam diretórios, guias, cadastros, etc.) Referência bibliográfica de livros, artigos e outros textos; nome e sigla oficiais de periódicos, bases de dados, entidades, eventos, etc.; nome e titulação de pesquisadores Siglas incluídas no recurso Endereço eletrônico do recurso e-mail do responsável pelo recurso Nome da cidade de localização do produtor do recurso, quando for brasileiro Nome do Estado, quando se tratar de recurso brasileiro Nome do país onde o recurso foi produzido Nome da área de acordo com o 2° nível da tabela do CNPq Natureza do recurso (administrativa, geográfica, etc.) Assuntos tratados no recurso Assuntos de acordo com um instrumento controlador de vocabulário Resumo e outras informações de interesse ESCOPO Brasileiro, estrangeiro ou internacional Teor tipológico (cronológico, localidade, etc.) Outra categoria definida para o recurso Não se aplica Não se aplica Última data em que o recurso foi visitado para alteração, cancelamento ou substituição Nome da ferramenta, pessoa, entidade, recurso documental, etc. que deu origem ao recurso Outras informações julgadas necessárias Não se aplica Informar se revisado ou não Informar sobre o status: escondido ou disponibilizado FONTE: CNPq. Programa de Comunicação e Informação para a Pesquisa. tratamento de dados para bibliotecas virtuais. Rio de Janeiro, 2000. Manual de Conforme o tipo de categoria em que se insere o recurso disponibilizado, determinados campos não se aplicam, como pode ser visto no quadro 3. Apesar de os campos Classificador e Vocabulário Controlado constarem no Manual de tratamento de dados para bibliotecas virtuais (CNPq, 2000), na prática não são utilizados; o primeiro caso devido a todas as BVs inserirem seus recursos em categorias, não necessitando de nenhuma classificação especial que a substitua, e o segundo em razão 78 de que não se segue nenhum instrumento de normalização para os termos que descrevem os assuntos tratados no recurso. Para facilitar a entrada de dados no banco, o campo Data da Última Visita já vem com o conteúdo preenchido por default. O campo Entrada é de preenchimento obrigatório, sendo o mesmo conferido pelo software. Os demais campos também devem ser preenchidos, mas não possuem controle automático de validação. O conteúdo a ser preenchido em cada campo origina-se de duas maneiras: a) de recursos de informação capturados pessoal e aleatoriamente na Internet; e b) do cadastro enviado pelos usuários através de formulário próprio disponibilizado em cada BV (com exceção das Bv de Inovação Tecnológica, Óptica, Educação, Jurídica e Referência para Pesquisa em C&T). O processo de alimentação do banco de dados, em sua fase de manutenção, tem a seguinte seqüência: a) busca de recursos virtuais na Internet e recebimento do cadastro de usuários; b) avaliação da pertinência do site, pelo coordenador científico; c) descrição (preenchimento do formulário on-line de entrada de dados). Alguns campos têm opções fixas, outros são de preenchimento livre mas com instruções disponíveis no Manual, inclusive sobre o idioma em que registrar, sobre o uso de maiúsculas e minúsculas e sobre a pontuação a utilizar; d) revisão dos dados pelo supervisor; e) correção, quando necessário; f) liberação do registro contendo os dados do recurso, para busca no site da respectiva BV; g) atualização do recurso sempre que necessário, o que é efetuado manualmente com visitas periódicas ao site. 79 QUADRO 3 - CAMPOS PREVISTOS, PORÉM NÃO UTILIZADOS NO BANCO DE DADOS DO PROJETO BIBLIOTECAS VIRTUAIS DO PROGRAMA PROSSIGA DO IBICT, SEGUNDO O TIPO DE RECURSO DE INFORMAÇÃO 80 O desenvolvimento do software e do banco de dados e a elaboração do manual para o tratamento dos dados do Projeto são de responsabilidade do Prossiga. Quando há parceria, a home page de cada BV é desenvolvida pela instituição parceira, bem como a manutenção e a atualização dos dados. Dentre todos os campos do banco de dados, os referentes a Entrada, Natureza, Áreas do CNPq, Termos Livres e Comentários são definidos como campos de recuperação. Isto significa que o banco de dados gera um índice com os termos destes campos, de onde ele vai selecionar os itens de busca que apontam para o registro completo, de onde, por sua vez, são extraídas as informações para a visualização dos resultados. As buscas solicitadas a partir do site são executadas por meio de programação Active Server Pages (ASP), da Microsoft, com conexão ao banco de dados MS-SQL Server, e podem ser feitas de duas maneiras: a) elaborando a estratégia de busca diretamente na home page da BV; ou b) selecionando primeiramente a categoria da informação desejada e seu separador (brasileiro, estrangeiro ou internacional), para depois elaborar a estratégia de busca, ou visualizar todos os registros dessa seleção. No resultado das buscas, são geradas páginas dinâmicas com registros contendo basicamente as informações constantes nos campos Entrada, URL, Comentário e Contato, separados por categoria, sendo que a Entrada, algumas informações do Comentário e o e-mail constante no Contato são links para o recurso, como pode-se observar no anexo 5. 6.2.1 Metadados Produzidos Nesta análise são considerados dois tipos de metadados: os embutidos no banco de dados do Projeto e os embutidos nas páginas HTML que compõem o site do Projeto e de cada BV em particular. Neste último caso, levou-se em consideração apenas os metadados utilizados para caracterizar os recursos em termos de seu conteúdo temático e descritivo (propriedade intelectual e outras responsabilidades, denominação, dados de produção (idioma, local, entidade, data) e aspectos e relações "físicas"). 81 6.2.1.1 Metadados no banco de dados Em se tratando da produção de metadados embutidos no banco de dados do Projeto, repositório dos recursos de informação, nesta análise consideram-se os respectivos conteúdos dos campos como metadados, uma vez que representam os dados que compõem os recursos virtuais. Conforme listados anteriormente no quadro 2, os metadados produzidos no banco de dados dividem-se em duas categorias e identificam-se pelas seguintes tags: a) metadados de conteúdo da informação: informação primária/secundária, entrada, sigla, URL, contato, cidade estado, país, área do CNPq, natureza, termos livres, vocabulário controlado e comentário; b) metadados administrativos: separador de categoria, separador de registro, separador de registro novo, classificador, data de expiração, data da última visita, fonte, observações internas, tradução, revisão e status. 6.2.1.2 Metadados nas páginas HTML do Projeto No caso dos metadados embutidos nas páginas HTML do Projeto, o único dado descritivo sobre o recurso encontrado foi o título, uma vez que se trata de um elemento "obrigatório" da linguagem HTML. Por conter a representação do título do recurso, possibilitando sua identificação e indexação pelas ferramentas automáticas de busca, este elemento foi considerado um metadado, identificado apenas por uma tag. A home page (primeira página) do site do Projeto é uma página frameset30, em cujo código fonte foi, então, encontrado o metadado título (<TITLE>Programa Prossiga/REI</TITLE>) na área do cabeçalho (<HEAD>). REI significa Repositórios de Informação da Internet, nome atribuído ao Projeto quando de seu início. Entre as frames (molduras) que compõem a primeira página do projeto, estão arquivos do tipo figura e páginas com seu respectivo código fonte, dentre as quais 30 Frameset é uma página, em linguagem HTML, que contém apenas a estrutura, ou a alocação, das frames (molduras) que pertencem à página visualizada. 82 encontra-se outro metadado para o título, porém com um conteúdo diferente: <TITLE>Bibliotecas Virtuais TEMATICAS</TITLE>. 6.2.1.3 Metadados nas páginas HTML das BVs A partir dos ícones disponíveis na home page do Projeto, acessa-se o site próprio de cada BV, no qual existem diversos níveis de páginas, dependendo da categorização que lhes foi atribuída. Em onze das dezesseis BVs a home page (primeira página) que se abre é uma frameset. Entre as frames (molduras) que compõem esta primeira página estão arquivos do tipo figura e páginas com seu respectivo código fonte, no qual encontramse até quatro tipos de metadados em seu cabeçalho (<HEAD>): título, descrição, palavras-chave e autor, conforme nos apresenta o quadro 4. QUADRO 4 - METADADOS PRODUZIDOS NAS PÁGINAS FRAMESET E FRAMES DAS BIBLIOTECAS VIRTUAIS TEMÁTICAS (BVs), DO PROGRAMA PROSSIGA, DO IBICT METADADOS NA PÁGINA FRAMESET BVs METADADOS NAS FRAMES Com meta tags (1) Estudos Culturais Pol. Públicas em C&T Energia Referências. em C&T Inovação.Tecnológica . Economia Óptica Educação.a Distância Eng. de Petróleo (1) Educação (1) Jurídica Saúde Reprodutiva. Bibliotecas. Virtuais (1) Ciências. Sociais Eng. Biomédica. (1) Arte & Cultura Com meta tags Descrição Palavraschave Título X X X X X X X X X X X X X X X - X X X X X X - X X X X X - Título Descrição Palavraschave X X X X X X X X X X X X X - X X X X X X X X X X X X X X X X X X - X X X X X X X - X X X Autor (2) FONTE: Elaboração do autor (1) Esta BV não apresenta frameset. (2) Este metadado se refere ao elaborador da página e não ao autor intelectual do conteúdo da página. 83 Nas BVs que não utilizam frames para a construção de sua home page, podese visualizar o script da página por meio da exibição de seu código fonte diretamente na barra de menu do browser, e em cujo cabeçalho (<HEAD>) foram produzidos os metadados demonstrados no quadro 5. QUADRO 5 - METADADOS PRODUZIDOS NAS PÁGINAS HTML, QUE NÃO UTILIZAM FRAMESET, DAS BIBLIOTECAS VIRTUAIS TEMÁTICAS (BVs) DO PROGRAMA PROSSIGA, DO IBICT METADADOS BVs Estudos Culturais Educação Ciências Sociais Arte & Cultura Título Com meta tags Descrição Palavras-chave X X - X X - X X X X (1) Autor X X FONTE: Elaboração do autor (1) Este metadado se refere ao elaborador da página e não ao autor intelectual do conteúdo da página. Os metadados produzidos seguem apenas o padrão da linguagem HTML, conforme mostra o código fonte da página: a) título: <TITLE>título da BV</TITLE>; b) descrição: <meta name="description" content="resumo do conteúdo do site">; c) palavras-chave: <meta name="keywords" content="palavras-chave relacionadas ao site">; d) autor: <meta name="author" content="nome da pessoa que criou a página">. Observa-se que a estrutura do metadado referente ao título mostra-se diferente das demais, nas quais estão presentes meta tags. No metadado título das home pages (que utilizam ou não frames) o conteúdo, em muitos casos, varia tal como nos mostra o quadro 6. Os demais metadados, descrição, palavras-chave e autor, têm cada qual um conteúdo específico que condiz com o tema de cada BV, tal como nos demonstram os exemplos abaixo: 84 Exemplo 1 - Biblioteca Virtual de Estudos Culturais: <meta name="description" content="Seleção de sites comentados que privilegia uma perspectiva interdisciplinar no estudo da cultura urbana contemporânea e suas relações com a política"> <meta name="keywords" content="estudos culturais, gênero, mulheres, gays, negros, etnicidade, indústria cultural, literatura, crítica cultural, arquitetura, urbanismo, globalização, modernismo, pós-modernismo, cultura, arte, nação, nacionalismo, imigração, história, política, movimentos sociais, multiculturalismo, ciberespaço, artes plásticas, cinema, vídeo, dança, design, fotografia, festas populares, moda, música, teatro, artes cênicas, lésbicas, aids, direitos humanos, ecologia, meio-ambiente, infância, adolescência, organizações da sociedade civil, produção cultural, índios, comunicação, mídia, sindicatos, ongs, terceiro setor, minorias"> Exemplo 2 - Biblioteca Jurídica Virtual: <meta name="Author" content="Denis Andrade"> Exemplo 3 - Biblioteca Virtual de Engenharia de Petróleo: <meta name="keywords" content="Prossiga, informacao, Brasil, biblioteca virtual, engenharia de petroleo, explotação de óleo e gás, CNPq, Pronex"> <meta name="description" content="Biblioteca Virtual em Engenharia de Petróleo, desenvolvida pelo Núcleo de Excelência em Engenharia de Petróleo da UNICAMP, em parceria com o Prossiga/CNPq."> 85 QUADRO 6 - TÍTULOS ATRIBUÍDOS ÀS BIBLIOTECAS VIRTUAIS TEMÁTICAS, SEGUNDO SUA LOCALIZAÇÃO 86 A Biblioteca Virtual de Educação apresenta dois metadados para as palavraschave, tendo cada qual conteúdo distinto, porém com uma designação diferente para a meta tag, a saber: <meta http-equiv="keywords" content= "..."> e <meta name "keywords" content="...">. A tag http-equiv tem a função de promover uma mudança automática de páginas e, portanto, supõe-se que houve algum equívoco no seu uso. Nas home pages (compostas ou não por frameset e em suas respectivas frames) estão, portanto, presentes os metadados anteriormente citados; porém, nas páginas seguintes a estas (de primeiro, segundo e seguintes níveis) apenas algumas os apresentam, sendo os metadados idênticos aos da home page, tanto no "atributo" como no "valor". Isso porque, apesar de serem páginas estáticas, são intermediárias para a categorização das informações, ou para a elaboração da estratégia de busca, não apresentando nenhum outro tipo de informação que mereça ser catalogada. Em relação às páginas que apresentam os resultados das buscas efetuadas por meio da própria BV, com exceção das BVs de Inovação Tecnológica e de Educação, treze delas31 possuem apenas o metadado título (<TITLE>) e, por serem páginas dinâmicas, utilizam um metadado com meta tag direcionado aos mecanismos de busca, informandoos que não as indexem (<META NAME="robots" CONTENT="noindex, nofollow">). 6.2.2 Comparação com o Dublin Core (DC) A comparação entre os metadados do Projeto BVs e do padrão Dublin Core justifica-se pelas seguintes razões: a) o Dublin Core ser um padrão concebido internacionalmente com base nos princípios da simplicidade na descrição mínima da informação para sua interoperabilidade semântica; b) o Projeto BVs ser uma iniciativa nacional que pode vir a se tornar modelo referencial para o Brasil e, portanto, para outras nações. 31 Desconsiderou-se a BV de Arte & Cultura por se encontrar ausente do site quando da pesquisa. 87 Traçando, então, um paralelo entre os metadados determinados pelo Dublin Core e os aplicados no banco de dados e nas páginas HTML do Projeto BVs, verificase que, dos quinze elementos DC (apêndice 1), apenas seis estão presentes no banco de dados das BVs, e, no máximo, três nas páginas HTML, correspondendo à equivalência mostrada nos quadros 7 e 8. Cabe ressaltar que, apesar da existência do metadado título nas páginas HTML, para este corresponder ao determinado no padrão DC deveria utilizar meta tag, tal como os demais. QUADRO 7 - EQUIVALÊNCIA ENTRE OS METADADOS DO PADRÃO DUBLIN CORE E OS PRODUZIDOS NO BANCO DE DADOS DO PROJETO BVS DUBLIN CORE Título Criador Assunto Descrição Editor Colaborador Data Tipo Formato Identificador Fonte de onde deriva Idioma Relação com outros recursos Cobertura geográfica e temporal Direitos PROJETO BVS Título Originador + Autor pessoal/institucional Assunto Resumo Tipo Endereço da página - FONTE: Elaboração do autor QUADRO 8 - EQUIVALÊNCIA ENTRE OS METADADOS DO PADRÃO DUBLIN CORE E OS PRODUZIDOS NAS PÁGINAS HTML DO PROJETO BVS DUBLIN CORE Título Criador Assunto Descrição Editor Colaborador Data Tipo Formato Identificador Fonte de onde deriva Idioma Relação com outros recursos Cobertura geográfica e temporal Direitos FONTE: Elaboração do autor PROJETO BVS Título Palavras-chave Descrição - 88 Conclui-se, portanto, que apesar de os metadados terem sido criados de acordo com as necessidades específicas do Projeto, e estarem atendendo internamente às expectativas de informação, não se enquadram totalmente no padrão Dublin Core. O comprometimento do não uso do padrão está no fato de o sistema não descrever os recursos utilizando os elementos mínimos estabelecidos por um modelo que está se consagrando internacionalmente, o que dificulta a interoperabilidade do sistema quando, porventura, necessitar integrar-se a outros sistemas, em um modelo amplo de recuperação unificada. 89 7 CONSIDERAÇÕES FINAIS O atendimento à demanda de informações na sociedade contemporânea exige uma nova ótica para o tratamento e acesso aos conhecimentos registrados. Em tempos passados, as informações concentravam-se nas bibliotecas e em outras unidades de informação. Embora as pessoas tivessem de se locomover até esses locais, sabiam que as encontraríam, ou obteríam referências de onde e como encontrálas. Hoje, com o mundo virtual, todas as informações estão em todos os lugares, distantes apenas a alguns "clics" do mouse, surgindo a cada momento e fluindo em tempo real. Precisamos de informação e sabemos que ela existe, mas nem sempre sabemos como nem onde encontrá-la. A Internet tem se mostrado como uma ponte entre usuários e informações, mas uma ponte que leva a inúmeros lugares e, ao mesmo tempo, a um número infinito de informações; devido a isso, a poucos tem ajudado com precisão, pois há sempre algum tipo de limitação ou barreira que impede o acesso direto e eficaz à informação. Pessoas que não tinham o hábito de buscar informações estão sendo incitadas a se tornarem usuárias da Internet e a assimilarem os conhecimentos inerentes às novas tecnologias; sistemas locais estão, compulsoriamente, adaptando-se às necessidades remotas e virtuais do mercado global e competitivo, mudando conceitos e procedimentos; equipamentos e programas computacionais estão sendo aperfeiçoados constantemente na corrida contra os limites espaciais e temporais. Em nenhum desses casos, os processos de desenvolvimento transcorrem de maneira fácil e isolada, pois, no mundo digital, onde sociedades interagem virtualmente, o maior desafio é a compatibilidade entre sistemas bem como a interação homem-máquina. A Internet, objetivando a localização e o acesso a informações com seu caráter de organismo descentralizado, cresceu em uma proporção jamais estimada. Abrindo inúmeros horizontes para o trabalho com informação, traz, também, necessidades comuns a sistemas de informação e seus componentes e aos produtores de informação, expandindo conhecimentos até então restritos a determinadas áreas do saber, a um saber 90 convergente entre áreas especializadas, principalmente no que tange ao tratamento das informações para a interoperabilidade dos sistemas que se integram à rede. Diversas considerações estão se tornando incontestáveis no mundo virtual: a) a alimentação dos sistemas de informação tem extrapolado a via das organizações que filtram a produção, tratando-a com extensivos e onerosos processos; b) para acabar com a defasagem no tratamento da informação, a catalogação dos recursos virtuais precisa efetivar-se de forma descentralizada, simultaneamente a sua produção; c) todo usuário, quando realiza pesquisas na Internet, está interessado apenas em uma pequena parcela das informações disponíveis e que estão, geralmente, em um mesmo contexto, o que exige das buscas alto grau de seletividade; d) é indispensável a implementação de mecanismos automáticos que garantam não somente a localização de recursos virtuais, mas sua seleção e identificação pelo valor semântico das informações que os caracterizam; e) é indispensável a unificação de sistemas heterogêneos para buscas compartilhadas, o que será possível somente por meio da adoção de padrões implementados na produção dos recursos de informação, base para todo e qualquer trabalho, posterior e de qualidade, com informação. É neste contexto, dinâmico e global, porém com necessidades particularizadas, automatizado, sem dispensar o trabalho humano, contemporâneo, mas sem relegar as bases sólidas sobre as quais se desenvolveram os processos de tratamento da informação, que se inserem os metadados. A exploração bibliográfica sobre metadados, um dos objetivos deste trabalho, permitiu a construção de um referencial teórico sobre o assunto, no qual ficou evidenciada a necessidade do uso de metadados nos sistemas que pretendem atuar com inteligência. A reflexão sobre o tratamento da informação, segundo objetivo do trabalho, associado à análise bibliográfica, levou às seguintes constatações: 91 a) o termo "metadado", apesar de novo, pode ser conceitualmente considerado uma evolução da designação das representações da informação anteriores ao mundo virtual, uma vez que, em ambos os casos, representação impressa (Era não Digital) e representação digital (Era Virtual), a essência é a disponibilização de um vínculo que represente "dados sobre dados e/ou informações", estejam estes embutidos em materiais físicos visíveis, palpáveis e interpretáveis a olho nu, ou suportes que necessitam de meios e mecanismos tecnológicos para seu acesso e interpretação; b) existe uma diferença estrutural entre os metadados anteriores à Era Digital (compostos apenas do próprio conteúdo da informação e disponíveis em catálogos impressos, elaborados manualmente), e aqueles produzidos em bancos de dados ou presentes em recursos virtuais na Internet (escritos em diferentes linguagens, mas suportados basicamente em páginas HTML). Estas estruturas estão representadas nas figuras abaixo: FIGURA 8 - ESTRUTURA DE UM METADADO EM UM BANCO DE DADOS atributo (tag) conteúdo FIGURA 9 - ESTRUTURAS BÁSICAS DE UM METADADO EM PÁGINAS HTML <atributo (tag)> conteúdo <meta name="atributo" </atributo (tag)> content="conteúdo"> c) a estruturação de metadados por meio de meta tags é um recurso que permite o cumprimento das funções de organização, identificação, caracterização e classificação da informação, além da padronização e interoperabilidade entre sistemas e, conseqüentemente, a recuperação semântica automática da informação; 92 d) o padrão Dublin Core está consagrando como modelo básico para a descrição de recursos virtuais, uma vez que foi estabelecido por meio de um consenso internacional, apresentando simplicidade e flexibilidade suficientes para sua implantação imediata; e) as linguagens de marcação utilizadas na produção de recursos virtuais de informação estão se aperfeiçoando na medida em que está sendo admitida a necessidade simultânea de padronização e flexibilidade na descrição dos recursos virtuais; f) apesar do avanço tecnológico no tratamento da informação, é indispensável a contribuição humana no monitoramento semântico dos metadados, instrumentalizando os sistemas para a garantia da qualidade na recuperação da informação. O estudo de caso revelou que o Projeto Bibliotecas Virtuais Temáticas produz metadados embutidos em seu banco de dados, estes determinados a partir das necessidades informacionais identificadas pela equipe do próprio Projeto. Ao disponibilizar seu Sistema na Internet, o Projeto embute, na maioria das páginas HTML, os metadados básicos desta linguagem (título, descrição e palavras-chave). Em ambos os casos, não há adoção de nenhum modelo como padrão para a descrição dos recursos virtuais catalogados e os conteúdos dos metadados não sofrem nenhum processo de normalização compatível com algum instrumento de catalogação ou indexação existente. Embora a pesquisa tenha demonstrado que a literatura estrangeira vem explorando exaustivamente o tema, supõe-se que a implementação de sistemas, à luz da teoria estabelecida, é que demonstrará a sua eficácia e as necessidades de aperfeiçoamento, e/ou reformulação. Espera-se que este trabalho tenha contribuído com informações e conhecimentos a todos aqueles que estejam adentrando na área do tratamento da informação, em busca de elucidações sobre metadados, e que o estudo de caso tenha oferecido subsídios para o encaminhamento do Projeto no alcance de seus objetivos. 93 8 RECOMENDAÇÕES Uma vez que o trabalho que ora se encerra não pretendeu esgotar a abordagem sobre metadados, faz-se necessária a continuidade no aprofundamento do assunto, principalmente no que se refere à interconexão com as questões dependentes da Informática. Para garantir a efetiva gestão da informação e o desempenho de futuras implementações em tecnologias da informação, considera-se importante a continuidade de estudos sobre as seguintes questões relacionadas ao tratamento de recursos informacionais: a) tratamento de estoques de informação: - metodologias para a conversão de estoques não digitais de informação para bancos de dados que contemplem o uso de metadados a serem utilizados como meta-metadados na Internet; - metodologias para a conversão de bancos de dados que não contemplam metadados compatíveis com os meta-metadados, para a sua adaptação às necessidades da Internet; - estabelecimento de meta-metadados mínimos comuns que devam ser utilizados para a compilação de grandes bancos de dados índices que referenciem e remetam o usuário diretamente aos bancos de dados disponíveis na Internet; b) recuperação da informação: - criação de home pages e sites, utilizando-se de diferentes linguagens de marcação, oras fazendo uso oras não de padrões de metadados, comparando-os em relação aos resultados apresentados por diferentes ferramentas de busca; - comparação entre as políticas de catalogação e indexação adotadas pelas ferramentas de busca; 94 c) normalização da informação a servir de atributo e conteúdo para os metadados: levantamento dos padrões internacionais existentes para a especificação de dados, tais como: nomes geográficos, nomes de idiomas, designação das tags, entre outros, a fim de compilar um instrumento referencial para o tratamento da informação e subsidiar a padronização automática dos dados; d) atendimento à demanda: levantamento e análise do conhecimento dos usuários acerca das fontes de informação disponíveis e dos recursos utilizados nas buscas de informação através das ferramentas de busca, bem como a sua satisfação em relação aos resultados obtidos via diferentes ferramentas, com o intuito de identificar os problemas e propor soluções às questões da interatividade homem-máquina e máquina-máquina. Além da continuidade de estudos que antecedam, implementem ou avaliem o uso de metadados, recomenda-se que as escolas que mantém cursos que contemplem as ciências, as técnicas e as tecnologias da informação, iniciem imediatamente a introdução de conteúdos relacionados ao assunto, a fim de despertarem e capacitarem a curto prazo, profissionais que se dediquem ao acompanhamento, uso e/ou desenvolvimento de tecnologias para a qualidade do trabalho com informação, tanto do ponto de vista de seu monitoramento como de seu uso. A criação de mecanismos que aliem a capacidade de análise e avaliação humanas com as capacidades de armazenamento, processamento e filtragem das máquinas, na busca pela efetivação da qualidade no trabalho com informação, é um ideal que somente se tornará realidade com a conscientização de que os sistemas de informação devem servir ao mercado por meio da agregação de valor a seus produtos e serviços, o que implica a adoção dos princípios básicos do tratamento da informação, abordados aqui de forma introdutória. 95 GLOSSÁRIO AACR Abreviatura de Anglo-American Cataloging Rules. Código de catalogação publicado pela primeira vez em 1969; atualmente na 2.a edição revista. Destina-se à elaboração de catálogos de bibliotecas e inclui regras para a descrição, o estabelecimento das entradas (desdobramentos) de autoria e títulos e a elaboração de remissivas para todos os materiais de bibliotecas. Seu princípio está pautado na padronização da apresentação e da disposição dos dados, na separação destes dados em elementos e áreas e em uma pontuação uniforme para a separação e a identificação destes. BIT Um dígito binário (1 ou 0). Um conjunto de oito bits representa um caracter (uma letra, um número, ou um sinal) em um sistema básico de armazenamento por computador. BROWSING Busca, procura de informações de modo aleatório. CONHECIMENTO Saber estruturado que tem como base a relação entre dados e informações e a agregação de significado e valor à experiências, fatos, etc., mediante o uso de habilidades e recursos mentais. DADO Registro representativo de coisas, fatos, conceitos, seres, etc., cujo significado e valor restringem-se a si próprios. DATA WAREHOUSE Uma coleção de bancos de dados integrados, orientados ao objeto de interesse (assunto), que foram criados para atender a sistemas de suporte a decisões; no banco de dados, cada unidade de dados (fixos ou variáveis) é relevante em algum momento. DEFAULT Valor previamente definido para um campo de dados a ser atribuído automaticamente pelo sistema. DOCUMENTO Todo pacote de dados, informações e/ou conhecimentos originados, mantidos e disponibilizados em algum tipo de material físico palpável. EFICÁCIA Medida de proporção entre o que se consegue alcançar dentre os objetivos pretendidos e os próprios objetivos (STAIR, 1998, p. 9). 96 EFICIÊNCIA Medida de proporção entre o que é utilizado dentre o que se produziu e disponibilizou e a própria produção (STAIR, 1998, p. 9). ESTOQUE DE INFORMAÇÕES Conjunto de dados, informações e conhecimentos armazenados em algum tipo de suporte e acumulados na história da humanidade. ESTRUTURA Organização dos elementos que formam o todo. FERRAMENTA DE BUSCA Mecanismo que localiza recursos de informação na Internet, selecionando-os e agrupando-os segundo critérios predeterminados. FORMATO BIBLIOGRÁFICO Instrumento padrão que estabelece a estrutura do armazenamento de dados que representam os documentos bibliográficos em sistemas informatizados. FORMATO MARC Marc é a abreviatura de Machine Readable Cataloging. O Formato Marc é um formato bibliográfico internacional, ou seja, um instrumento padrão que estabelece a estrutura de um registro bibliográfico a fim de ser lido e interpretado pelo computador, para a produção automática de catálogos e o intercâmbio de dados. O Formato Marc suporta a catalogação de acordo com as regras do Anglo-Amercican Cataloging Rules (AACR). FRAMESET Página, em linguagem HTML, que contém apenas a estrutura, ou a alocação, das frames (molduras) que pertencem à página visualizada. HOME PAGE Primeira página de um site, a qual contém páginas. um resumo deste e os links para as outras IMEDIAÇÃO DOS DADOS Característica dos dados de um banco de dados referente à medida de rapidez com que as mudanças devem ser feitas. ÍNDICE DE COBERTURA Total de recursos pertinentes existentes no sistema, em relação ao total de recursos existentes sobre o tema (inclusive fora do sistema). 97 ÍNDICE DE ESPECIFICIDADE Proporção entre o número de recursos avaliados pelo usuário como pertinentes e o conjunto de recursos existentes. ÍNDICE DE ESFORÇO DO USUÁRIO Proporção entre o tempo que o usuário gasta fazendo a busca direta no sistema e o tempo que gasta selecionando os recursos pertinentes entre aqueles recuperados pelo sistema. ÍNDICE DE NOVIDADE Total de recursos desconhecidos pelo usuário dentre aqueles recuperados pelo sistema. ÍNDICE DE PRECISÃO Proporção entre o número de recursos avaliados pelo usuário como pertinentes, entre aqueles recuperados pelo sistema, e o número total de documentos recuperados pelo sistema. ÍNDICE DE REJEIÇÃO Proporção entre o número de recursos avaliados pelo usuário como não-pertinentes, entre aqueles recuperados pelo sistema, e o total de recursos não-pertinentes existentes no sistema. ÍNDICE DE RESPOSTA Proporção entre o tempo ocorrido entre a solicitação de uma pesquisa ao sistema e a obtenção da resposta. ÍNDICE DE REVOCAÇÃO Proporção entre os recursos recuperados pelo sistema e o total de recursos pertinentes existentes no sistema. ÍNDICE DE SELETIVIDADE Proporção entre o número de recursos não pertinentes eliminados pelo sistema e o conjunto de não-pertinentes existentes no sistema. INFORMAÇÃO Conjunto de dados organizados de tal forma que adquirem significado e valor adicionais em função da relação que assumem entre si (STAIR, 1998, p. 4-5). INFORMAÇÃO DIGITAL Basicamente, é a informação que utiliza dígitos para sua apresentação e comunicação, tal como nos relógios digitais, nos painéis digitais de controle, etc. Aplica-se também às informações que, ao serem armazenadas pelo computador e transmitidas via determinadas redes de telecomunicações, são transformadas em cadeias de dígitos binários, decodificadas novamente ao serem visualizadas pelo usuário final. Ver Informação Eletrônica. 98 INFORMAÇÃO ELETRÔNICA Expressão popularizada de Informação Digital, decorrente da utilização de recursos da Eletrônica para seu registro, processamento e disponibilização. INTERNET "Uma rede híbrida, uma rede de redes em torno do mundo" (STAIR 1998, p. 417). "Sistema mundial de redes de computadores - uma rede de redes - que pode ser utilizado por qualquer pessoa, em qualquer parte do mundo, onde haja ponto de acesso, e que oferece um amplo leque de serviços básicos, tais como correio eletrônico, acesso livre ou autorizado a informações em diversos formatos digitais, transferência de arquivos. Os protocolos básicos para o transporte dos dados são do TCP/IP" (TAKAHASHI, 2000, p. 171). INTEROPERABILIDADE Também denominada pela literatura como interoperacionalização e interoperatividade, consiste na capacidade de máquinas, programas, linguagens e protocolos trabalharem conjuntamente. LINGUAGEM DE MARCAÇÃO Linguagem de estruturação dos dados, caracterizada pelo uso de marcas padronizadas por caracteres que delimitam um dado ou uma informação com o objetivo de identificar e tratar os recursos virtuais. LINK Elo de ligação entre dois elementos que, estando em ambiente eletrônico, emprega recursos hipertextuais ou de hipermídia. META TAG Tipo de marcação definida na forma meta name="atributo" content="valor", permitindo que a informação do campo possa ser lida pelos browsers e pelas ferramentas de busca e que alguma ação desejada possa ser executada a partir de sua identificação. METADADO Dado sobre um dado. Dado/informação que permite a identificação, caracterização e localização de recursos de informação. METAFERRAMENTA DE BUSCA Mecanismo que, ao invés de realizar por si buscas na Internet, se utiliza, simultaneamente, de várias ferramentas de busca para localizar os recursos de informação. OBJETO FÍSICO "Pacotes" de dados, informações e/ou conhecimentos originados, mantidos e disponibilizados em algum tipo de material físico palpável, tais como: livros e similares, partituras, fitas-cassete, fitas de vídeo, discos, CDs, artefatos tridimensionais, reálias, iconografias, mapas, entre outros. 99 OPERADORES BOOLEANOS Os operadores booleanos AND (conjuntiva), OR (aditiva/não exclusiva) e NOT (subtrativa/negativa) compõem a lógica de busca por meio de combinações de termos. OPERADORES DE BUSCA Elementos que indicam a relação pretendida entre os termos em uma expressão de busca de informações. OPERADORES DE ADJACÊNCIA Os operadores de adjacência ou posicionais são aqueles que indicam, por meio de sinais, palavras consecutiva, palavras a uma distância específica, palavras existente no conteúdo de um determinado metadado, etc. OPERADORES RELACIONAIS Os operadores relacionais são aqueles que limitam a busca por meio das seguintes indicações: igual a, não igual a, menor que, maior que, contém, entre outros, todos simbolizados por algum sinal gráfico. PORTAL Recurso de informação virtual, disponível na Internet, por meio do qual se tem acesso a informações remotas de diferentes sites. RECURSO VIRTUAL "Pacote" de dados, informações e/ou conhecimentos, originados sob o formato de arquivo digital, e mantidos e disponibilizados na Internet por meios hipertextuais e de hipermídia. RECURSOS DE INFORMAÇÃO Todo e qualquer suporte que contenha dados, informações e/ou conhecimento. REGISTRO BIBLIOGRÁFICO Conjunto de informações que compõem a representação (descritiva e temática) de um documento bibliográfico. SCRIPT Texto em que são definidas as ações a serem executadas, quer para a visualização dos dados, quer para o cumprimento de uma tarefa. SISTEMA DE INFORMAÇÃO "Conjunto de elementos que funcionam juntos para processar entradas e produzir dados e informações de saída" (STAIR, 1998, p. 427). 100 SITE Termo da língua inglesa que significa sítio, ou seja, o conjunto de páginas na Internet pertencentes ao mesmo criador, disponíveis a partir de uma home page. SPIDER Também chamado de robô de busca, é um programa que rastreia a Internet, visitando os sites, lendo, extraindo e organizando seus dados em um banco de dados, a fim de servir como elementos em futuras buscas de informações. STRING Cadeia, ou seqüência de caracteres. TAG Traduzido por etiqueta ou rótulo, é uma marca padronizada por caracteres que delimita um dado ou uma informação, indicando sua função no documento, sem, contudo, constituir seu conteúdo, mas tendo um conteúdo, ou valor, a ela associado. TECNOLOGIA DA INFORMAÇÃO Tecnologias utilizadas para tratamento, organização e disseminação de informações (TAKAHSHI, 2000, p.176). TRATAMENTO Aplicação de técnicas e tecnologia para causar um novo efeito a alguma coisa, possibilitando sua (re)utilização. TRUNCAMENTO Truncamento é o recurso da busca por prefixos ou parte de palavras. Normalmente se indica a parte oculta (aquela possível de variação) por meio de um asterisco (*). URL Acrônimo de Uniform Resource Locator (Localizador Uniforme de Recursos). É o padrão de endereçamento de fontes de informação na Web que combina informações sobre o tipo de protocolo utilizado, o endereço do site em que o recurso está localizado (domínio), subdiretórios e o nome do arquivo. USUÁRIO Indivíduo que utiliza serviços e produtos, ou que potencialmente pode vir a utilizá-los. VOLATILIDADE DOS DADOS Característica dos dados referente à sua instabilidade e necessidade de alterações, adições e deleções com respeito ao seu valor semântico e sua realidade factual. 101 WORLD WIDE WEB (WWW) Popularizada como Web, a WWW é um "conjunto interligado de hipertextos que permite fácil navegação através do grande conjunto, em rápida expansão, de programas e documentos disponíveis na Internet" (STAIR, 1998, p. 431). "Teia global. Enorme conjunto de documentos e serviços, que faz parte da Internet, organizados em forma de páginas de hipertexto, em que cada página é identificada por um URL. Também é chamada de web" (TAKAHASHI, 2000, p. 178). 102 REFERÊNCIAS AGUIAR, S. Planejando o uso da informação. Byte Brasil, São Paulo, v. 4, n. 11, p. 62-63, nov. 1993. ANDRADE, R. C. S. de; CARVALHO, R. D. de. Utilização de metadados como ferramenta de padronização das informações nos documentos eletrônicos. Rio de Janeiro, 1999. Monografia (Especialização em Indexação e Recuperação da Informação) – Instituto de Tecnologia da Informação e da Comunicação, Universidade Santa Úrsula. ARMS, W. Y.; BLANCHI, C.; OVERLY, E. A. An architeture for information in digital libraries. D-lib Magazine, Reston, Virginia, fev. 1997. Disponível em: <http://www.dlib.org/dlib/february97/cnri/02arms.html>. Acesso em: 28 dez. 2000. BAX, M. P. Introdução às linguagens de marcas. In: CONGRESSO BRASILEIRO DE BIBLIOTECACONOMIA E DOCUMENTAÇÃO, 19., 2000, Porto Alegre. Anais. Porto Alegre: FEBAB, 2000. v. 1 (1 CD-ROM). BRADLEY, N. SGML concepts. Aslib Proceedings, v. 44, n. 7/8, p. 271-274, jul./ago. 1992. BRANSKI, R. M. Localização de informações na Internet: características e formas de funcionamento dos mecanismos de busca. Transinformação, Campinas, v. 12, n. 1, p. 11-19, jan./jun. 2000. BERNARDINO, F. P. Gerência de metadados: como integrar o seu DataWarehouse. Rio de Janeiro, 1998. Monografia apresentada à disciplina tópicos Especiais em Bancos de Dados, Mestrado em Informática, UFRJ. CAMPOMAR, M. C. Do uso de "estudos de caso" em pesquisas para dissertações e teses em administração. Revista de Administração, São Paulo, v. 26, n. 3, p. 95-97, jul./set. 1991. CASTELLS, M. A sociedade em rede. São Paulo: Paz e Terra, 1999. (A Era da Informação: economia, sociedade e cultura; v. 1). CASTRO, C. de M. Dados agregados ou estudos de caso. In: A prática da pesquisa. São Paulo: McGraw-Hill, 1977. p. 88-89. CHASTINET, Y. O Prossiga na Internet: informação e comunicação para pesquisa. Jornal da Ciência Hoje, Rio de Janeiro, v. 10, n. 3443, p. 1-4, 3 maio 1996. Caderno especial. Disponível em: <http://www.prossiga.lncc.br>. Acesso em 26 mar. 2001. CLIVERS, A.; FEATHER, J. The management of digital data: a metadata approach. The Eletric Library, v. 16, n. 6, p. 365-371, dez. 1998. CNPq. Programa de Comunicação e Informação para a Pesquisa. Manual de tratamento de dados para bibliotecas virtuais. Rio de janeiro, 2000. COELHO, A. et al. XML: Linguagem de Marcação Extensiva. Disponível em: <http://inf.upf.tche.br/>. Acesso em: 11 jun. 2001. COSTA, G. Documento eletrônico e metadados. Disponível em: <http://domain.com.br/clientes/genelice/doceletronico.htm>. Acesso em: 30 ago. 2000. 103 DAVENPORT, T. Decisão empresarial e Internet. Economia e Gestão das TI, Campinas, n. 3, abr. 1999. Disponível em: <http://www.revista.unicamp.br/infotec/economia/economia3-1.html>. Acesso em: 02 ago. 2000. DEMPSEY, L.; HEERY, R. Metadata: a current view of practice and issues. Journal of Documentation, London, v. 54, n. 2, p. 145-172, mar. 1998. EFTHIMIADIS, E. N.; CARLYLE, A. Organizing Internet resources and the Web. Bulletin of American Society for Information Science, v. 24, n. 1, p. 4-5, out./nov. 1997. ESTADOS UNIDOS. Government Printting Office. Superintendent of Documents. What is GILS? Disponível em: <http://www.access.gpo.gov/su_docs/gils/whatgils.html>. Acesso em: 10 jun. 2001. FROEHLICH, T. J. Caveat Web surfer! responsabilidade social e recursos da Internet. Transinformação, Campinas, v. 10, n. 2, p. 15-37, maio/ago. 1998. GARDER, S. R. The quest to standardize metadata. Byte, Peterborough, USA, p. 47-48, nov. 1997. GIL, A. C. Métodos e técnicas da pesquisa social. São Paulo: Atlas, 1994. GOMES, A. D. Metalenguages y ciência de la información: una visión general. Disponível em: <http://www.3000info.es/cheiron/babel.htm>. Acesso em: 09 dez. 1999. GOMES, H. E. Uma profissão de futuro. Disponível em: <http://www.fgv.br/dg/diti/bib/geral/htm/hpbb12.htm>. Acesso em: 31 maio 2000. GOMES, S. L. R.; CHASTINET, Y. S. Bibliotecas virtuais: avanços e desafios para cientistas e profissionais de informação. Jornal das Bibliotecas, Rio de Janeiro, v. 4, n. 6, p. 5, jul./dez. 1997. Disponível em: <http:///www. prossiga.cnpq.br/>. Acesso em: 20 mar. 2001. GUINCHAT, C.; MENOU, M. Introdução geral às ciências e técnicas da informação e documentação. 2. ed. corrig. e aum. Brasília: IBICT, 1994. HUC, C.; LEVOIR, T.; NONON-LATAPIE, M. Metadata: models and conceptual limits. 1997. Disponível em: <http://computer.muni.cz/conferen/proceed/meta97/papers/chuc/chuc.html>. Acesso em: 02 ago. 2000. IANNELLA, R. An idiot’s guide to the resource description framework. Disponível em: <http://archieve.dstc.edu.au/rdu/reports/rdf-Idiot/> Acesso em: 10 maio 2000. INMON, W. H.; WELCH, J. D.; GLASSEY, K. L. Gerenciando data warehouse. São Paulo: Makron Books, 1999. LANGA, F. Track it down. Windows Magazine, New York, v. 9, n. 7, p. 158-169, jul. 1998. BERNERS-LEE, T.; BRICKLEY, D.; SWICK, R. R. Frequently asked questions about RDF. 2001. Disponível em: <http://www.w3.org/RDF/FAQ>. Acesso em: 06 jun. 2001. MAGUIRE, C. Metadata in Australia. Bulletin of the American Society for Information Science, v. 24, n. 1, p. 18-21, out./nov. 1997. MÁQUINAS que pensam. E Commerce: A Revista da Economia Digital. São Paulo, ano 2, n. 14, p. 86-87, abr. 2001. 104 MARCOUX, Y.; SÉVIGNY, M. Why SGML? Why now? Journal of the American Society for Information Science, v. 48, n. 7, p. 584-592, 1997. McQUEEN, C. M. S.; BURNARD, L. A gentle introduction to SGML. In: UNIVERSITY OF VIRGINIA. Eletroni Text Center. TEI guilines for eletronic text encoding and interchange (P3). Disponível em: <http://www-tei.uic.edu/orgs/tei/sgml/teip3sg/sg.htm> Acesso em: 29 set. 2000. MICHAELIS: moderno dicionário da língua portuguesa. São Paulo: Companhia Melhoramentos, 1998. MILLER, E. An introduction to the Resource Description Framwork (RDF). D-Lib Magazine, maio 1998. Disponível em: <http://www.dlib.org/dlib/may98/miller/05miller.html>. Acesso em: 31 mar. 2000. MILLER, E.; MILLER, P.; BRICKLEY, D. Guidance on expressing the Dublin Core within the Resource Description Framework (RDF). 1999. Disponível em: <http://www.ukoln.ac.uk/metadata/resources/dc/datamodel/>. Acesso em: 07 jun. 2000. MILSTEAD, J.; FELDMAN, S. Metadata: cataloging by any other name ... 1999. Disponível em: <http://www.onlineinc.com/onlinemag/metadata>. Acesso em: 14 dez. 1999. MIRANDA, A. C. A profissionalização da Ciência da Informação no marco da globalização: paradigmas e propostas. In: LUBISCO, N. M. L.; BRANDÃO, L. M. B. (Orgs.). Informação & informática. Salvador: EDUFBA, 2000. p. 65-80. MOLLER, A.; SCHWARTZBACH, M. I. The XML revolution: technologies for the future Web. 2000. Disponível em: <http://www.brics.dk`amoeller/xml/. Acesso em: 10 jun. 2001. MORIN, E. Ciência com consciência. 2. ed. Rio de Janeiro: Bertrand Brasil, 1998. NAVES, M. M. L. Aspectos conceituais do browsing na recuperação da informação. Ciência da Informação, Brasília, v. 27, n. 3, 1998. Disponível em: http://www.ibict.br/cionline/270398/27039805.htm. Acesso em: 17 fev. 2001. RYSSEVIK, J.; MUSGRAVE, S. Archivos de datos virtuales: el ejemplo de Nesstar. Disponível em: <http://arces.cis.es/boletin/nesstar.htm> Acesso em: 10 maio 2000. SAN SEGUNDO MANUEL, R. Organización del conocimiento en Internet: metadatos bibliotecários Dublin Core. 1998. Disponível em: <http://www.floridauni.es/~fesabid98/comunicaciones/r_sansegundo.htm>. Acesso em: 09 dez. 1999. SOUZA, M. I. F. et al. Informação para Internet: uso de metadados e o padrão Dublin Core para catalogação de recursos eletrônicos na Embrapa. In: CONGRESSO Brasileiro de Biblioteconomia e Documentação, 19., 2000, Porto Alegre. Anais. Porto Alegre: FEBAB, 2000. v. 1 (1 CD-Rom) SOUZA, M. I. F.; VENDRUSCULO, L. G.; MELO, G. C. Metadados para a descrição de recursos de informação eletrônica: utilização do padrão Dublin Core. Ciência da Informação, Brasília, v. 29, n. 1, p. 93-102, jan./abril. 2000. SOUZA, T. B. de; CATARINO, M. E.; SANTOS, P. C. dos. Metadados: catalogando dados na Internet. Transinformação, v. 9, n. 2, p. 93-105, maio/ago. 1997. SOY, S. The case study as a research method. 1998. Disponível em: <http://fiat.gsslis.utexas.edu/~ssoy/usesusers/l391d1b.htm>. Acesso em: 21 ago. 2000. 105 STAIR, R. M. Princípios de sistemas de informação: uma abordagem gerencial. 2. ed. Rio de Janeiro: LTC, c1998. TAKAHASHI, T. (Org.). Sociedade da informação no Brasil: livro verde. Brasília: Ministério da Ciencia e Tecnologia, 2000. TAYLOR, C. An introduction to metadata. Revised Apr. 1999. Disponível em: <http://www.library.uq.edu.au/iad/ctmeta4.html>. Acesso em: 07 jun. 2000. TAYLOR, J.; WACKER, W. Delta 500 anos: o que acontece depois do que vem a seguir. Rio de Janeiro: Campus, 1999. TENNANT, R. 21st-century cataloging. Library Journal, New York, v. 123, n. 7, p. 30-31, 15 abr. 1998a. TENNANT, R. The art and science of digital bibliography. Library Journal, New York, v. 123, n. 17, p. 28-29, 15 out. 1998b. TENNANT, R. Interoperability: the holy grail. Library Journal, New York, v. 123, p. 38-39, 15 jul. 1998c. TERRA, J. C. C. Gestão do conhecimento: o grande desafio empresarial: uma abordagem baseada no conhecimento e na criatividade. São Paulo: Negócios Editora, 2000. VAUGHAN-NICHOLS, S. J. Pesquisa. Internet World, v. 2, n. 23, p. 88-91, 1997. W3C. About the World Wide Web Consortium. 2000. Disponível em: <http://www.w3.org/Consortium/>. Acesso em: 29 set. 2000. WEIBEL, S. The Dublin Core: a simple content description model for electronic resources. Bulletin of American Society for Information Science, v. 24, n. 1, p. 9-11, out./nov. 1997. 106 FONTES COMPLEMENTARES CATALOGAÇÃO LEVY, David M. Cataloging in the digital order. Disponível em: <http://ifla.inist.fr/ifla/iv/ifla64/018-123e.htm>. Acesso em: 28 dez. 2000. TILLETT, B. B. Report on the International Conference on the principles and future development of AACR, held October 23-25, 1997 in Toronto, Canada. Cataloging & Classification Quarterly, New York, v. 26, n. 2, p. 31-55, 1998. DUBLIN CORE THIELE, H. The Duclin Core and Warwick Framework: a review of the literature, march 1995September 1997. D-Lib Magazine, jan. 1998. Disponível em: <http://www.dlib.org/dlib/>. Acesso em: 06 jun. 2001. THORNELY, J. The road to meta: the implementation of Dublin Core metadata in the State Library of Queensland website. The Australian Library Journal, Sidney, v. 47, n. 1, p. 74-82, fev. 1998. FERRAMENTAS DE BUSCA CAMPOS, F.; BAX, M. P. Como os mecanismos de busca da Web indexam páginas HTML. In: CONGRESSO BRASILEIRO DE BIBLIOTECACONOMIA E DOCUMENTAÇÃO, 19., 2000, Porto Alegre. Anais. Porto Alegre: FEBAB, 2000. v.1 (1 CD-ROM). SEARCH engine showdown: the user’s guide to Web searching. Disponível em: <http://www.searchengineshowdown.com>. Acesso em: 10 jun. 2001. TURNER, T. P.; BRACKBILL, L. Rising to the top: evaluating the use of the HTML meta tag to improve retrival of World Wide Web Documents through Internet Search Engines. LRTS, v. 42, n. 4, p. 258-271. UC BERKELEY LIBRARY. Search Internet. Disponível em: <http://www.lib.berkeley.edu/help/search.html>. Acesso em: 10 jun. 2001. FORMATO MARC FURBIE, B. O MARC bibliográfico: um guia introdutório; catalogação legível por computador. Brasília: Thesaurus, 2000. GILS CHRISTIAN, E. J. GILS: what is it? where's it going? D-Lib Magazine, dez. 1996. Disponível em: <http://www.dlib.org/dlib/>. Acesso em: 28 dez. 2000. GLOBAL Information Locator Service (GILS): making it easier to find all the information. Disponível em: <http://www.gils.net>. Acesso em: 10jun. 2001. 107 LINGUAGENS DE MARCAÇÃO CASTRO, M. A. S. Tutorial HTML. Disponível em: <http://www.icmsc.sc.usp.br/manuals/html/>. Acesso em: 01 jun. 2001. FALSEY, J.; SHAFER, K. All my data is in SGML: now what? Journal of the American Society for Information Science, v. 48, n. 7, p. 638-643, 1997. KRISTULA, Dave. HTML. 1996-2001. Disponível em: <http://www.davesite.com/webstation/html.shtml>. Acesso em: 28 maio 2001. MASON, J. D. SGMl and related standards: new directions as the second decade begins. Journal of the American Society for Information Science, v. 48, n. 7, p. 693-596, 1997. MOURA, D. F. C. XML: extensible markup language. Disponível em: <http://www.gta.ufrj.br~mdavid/xml.htm>. Acesso em: 01 jun. 2001. SULLIVAN, D. How to use HTML meta tags. 2000. Disponível em: <http://serarchenginewatch.com/webmasters/meta.html>. Acesso em 12 jun. 2001. VENERUCHI, E. A. Linguagens de consulta e recuperação de documentos hipermídia no ambiente Web. Disponível em: <http://www.inf.ufrgs.br/pos/SemanaAcademica/Semana99/edilene/edilene.html>. Acesso em: 02 jun. 2001. W3C. Hypertext markup language: ativity statement. 2000. Disponível em: <http://www.w3.org/markup/activity.html>. Acesso em: 02 ago. 2000. W3C. Hypertext Markup language: home page. 2000. Disponível em: <http://www.w3.org/markup/>. Acesso em: 02 ago. 2000 METADADOS ALEXANDRIA DIGITAL LIBRARY. Metadata in use. Disponível em: <http://alexandria.sdc.ucsb.edu/public-documents/metadata/md_imp.html>. Acesso em: 27 maio 1998. ASSOCIATION FOR LIBRARY COLLECTIONS AND TECHNICAL SERVICES. Cataloging and Classification Section. Task force on metadata: draft interim report, 15/1/99. Disponível em: <http://www.ala.org/alcts/organization/ccs/ccda/rt-meta2.html>. Acesso em: 10 maio 2000. ASSOCIATION FOR LIBRARY COLLECTIONS AND TECHNICAL SERVICES. Cataloging and Classification Section. Task force on metadata and the cataloging rules: final report, August 21, 1998. Disponível em: <http://www.ala.org/alcts/organization/ccs/ccda/tf-tei.html>. Acesso em: 10 maio 2000. COMPUTERWIRE. Briefing paper: what is metadata. Disponível em: <http://computerwire.com/bulletinsuk/212e_1a6.htm>. Acesso em: 10 maio 2000. DORAN, K. Meta for a data. Online, v. 23, n. 1, p. 42-50, jan./fev. 1999. ESTADOS UNIDOS. Government Information Locator Service. FAQ: frequently asked questions. Disponível em: <http://www.gils.net/faq.html>. Acesso em: 05 set. 2000. GIGUERE, M. D. Metadata: enhance eletronic records. Disponível em: <http://computer.org/proceedings/meta97/papers/miguere/miguere.htm>. Acesso em: 31 mar. 2000. 108 GRANDMANN, S. Catalogación versus metadata : vino viejo en odres nuevos? 1998. Disponível em: <http://ifla.org/IV/ifla64/007-126s.htm>. Acesso em: 09 dez. 1999. Apresentado no 64th IFLS General Conference, em agosto de 1998, em Amsterdam. HEERY, R. Review of metadata formats. Disponível em: <http://cpcug.org/user/jaubert/metadata/review.html>. Acesso em: 31 mar. 2000. LICHTENBERG, J. Metadata for the millennium: publishers must begin now to reshope their business for the new century. Publishers Weekly, New York, v. 244, n. 16, p. 44-46, abr. 1997. MAZUMDAR, S. Organizing metadata using datalog rules. Disponível em: <http://computer.org/proceedings/meta97/papers/smazumdar/smazumdar.html>. Acesso em: 31 mar. 2000. NATIONAL LIBRARY OF AUSTRALIA. Preserving access to digital information: metadata. Disponível em: <http://www.nla.gov.au/padi/topics/30.html>. Acesso em: 07 jun. 2000. NYPAN, T. The norwegian environmental meta information system. Aslib Proceedings, London, v. 50, n. 6, p. 127-138, jun. 1998. SAKATA, T.; TADA, H.; OHTAKE, T. Metadata mediation: representation and protocol. Computer Networks and ISDN Systems, Amsterdam, v. 29, p. 1137-1146, 1997. SUTTON, S. A.; OH, S. G. GEM: using metadata to enhance Internet retrival by K-12 teachers. Bulletin of the American Society for Information Science, v. 24, n. 1, p. 21-24, out./nov. 1997. VELLUCCI, S. Option for organizing eletronic resources: the coexistence of metadata. Bulletin of the American Society for Information Science, v. 24, n. 1, p. 14-17, oct./nov. 1997. WHEATLEY, A.; AMSTRONG, C. J. Metadata, recall, and abstracts: can abstracts ever be reliable indicators of document value? Aslib Proceedings, London, v. 49, n. 8, p. 206-213, set. 1997. WILKIE, C. Multimedia metadata: our 70 year experience. Disponível em: <http://computer.org/proceedings/meta97/papers/cwilkie/cwilkie.htm>. Acesso em: 31 mar. 2000. WOOL, G. A mediation on metadata. Serials Librarian, New York, v. 33, n.1/2, p.167-178, 1998. XU, A. Metadata conversation and the library OPAC. Serials Librarian, New York, v. 33, n. 1/2, p. 179-198, 1998. NORMALIZAÇÃO WARD, S. Standards: their relevance to scientific and technical information. Aslib Proceedings, v. 46, n. 1, p. 3-14, jan. 1994. SISTEMAS DE INFORMAÇÃO MORESI, E. A. D. Delineando o valor do sistema de informação de uma organização. Ciência da Informação, Brasília, v. 29, n. 1, p. 14-24, jan./abr. 2000. SOCIEDADE DA INFORMAÇÃO MOORE, N. A sociedade da informação. In: A INFORMAÇÃO: tendências para o novo milênio. Brasília: IBICT, 1999. 109 APÊNDICE 1 - ELEMENTOS DUBLIN CORE E SUAS CARACTERÍSTICAS Elemento: Título Nome: Título Identificador: Título Versão: 1.1 Direitos autorais: Dublin Core Metadata Iniciative Idioma: en Definição: o nome dado para o recurso Obrigatoriedade: opcional Tipo: string de caracteres Ocorrências: ilimitadas Observação: tipicamente, um título pelo qual um recurso é formalmente conhecido. Elemento: Criador Nome: Criador Identificador: Criador Versão: 1.1 Direitos autorais: Dublin Core Metadata Iniciative Idioma: en Definição: uma entidade primariamente responsável pelo conteúdo do recurso Obrigatoriedade: opcional Tipo: string de caracteres Ocorrências: ilimitadas Observação: exemplos de criador são: uma pessoa, uma organização ou um serviço. Tipicamente, o nome do criador deve ser usado para indicar a entidade. Elemento: Assunto Nome: Assunto e palavras-chave Identificador: Assunto Versão: 1.1 Direitos autorais: Dublin Core Metadata Iniciative Idioma: en Definição: o assunto do conteúdo do recurso Obrigatoriedade: opcional Tipo: string de caracteres Ocorrências: ilimitadas Observação: tipicamente, o tema expresso em palavras-chave, frases-chave ou código de classificação que descreve o assunto do recurso. Recomenda-se selecionar o assunto de um vocabulário controlado ou um esquema de classificação formal. Elemento: Descrição Nome: Descrição Identificador: Descrição Versão: 1.1 Direitos autorais: Dublin Core Metadata Iniciative Idioma: en Definição: explicações sobre o conteúdo do recurso Obrigatoriedade: opcional Tipo: string de caracteres Ocorrências: ilimitadas Observação: a descrição pode incluir, mas não é limitado: ao resumo, ao sumário,referência de uma representação gráfica do conteúdo ou um texto livre sobre o conteúdo. 110 Elemento: Editor Nome: Editor Identificador: Editor Versão: 1.1 Direitos autorais: Dublin Core Metadata Iniciative Idioma: en Definição: a entidade responsável por disponibilizar o recurso Obrigatoriedade: opcional Tipo: string de caracteres Ocorrências: ilimitadas Observação: exemplos de um editor incluem uma pessoa, uma organização ou um serviço. Tipicamente, o nome do editor deve ser usado para indicar a entidade. Elemento: Colaborador Nome: Colaborador Identificador: Colaborador Versão: 1.1 Direitos autorais: Dublin Core Metadata Iniciative Idioma: en Definição: uma entidade responsável pela contribuição ao conteúdo do recurso Obrigatoriedade: opcional Tipo: string de caracteres Ocorrências: ilimitadas Observação: exemplos de um contribuidor incluem uma pessoa, uma organização ou um serviço. Tipicamente, o nome do colaborador deve ser usado para indicar a entidade. Elemento: Data Nome: Data Identificador: Data Versão: 1.1 Direitos autorais: Dublin Core Metadata Iniciative Idioma: en Definição: uma data associada com a vida do recurso Obrigatoriedade: opcional Tipo: string de caracteres Ocorrências: ilimitadas Observação: tipicamente, a data deve estar associada com a criação ou a disponibilização do recurso. Recomenda-se usar a ISO 8601 para codificar a data e seguir o formato YYY-MM-DD. Elemento: Tipo Nome: Tipo de recurso Identificador: Tipo Versão: 1.1 Direitos autorais: Dublin Core Metadata Iniciative Idioma: en Definição: a natureza ou genero do conteúdo do recurso Obrigatoriedade: opcional Tipo: string de caracteres Ocorrências: ilimitadas Observação: o tipo inclui termos que descrevem categorias gerais, funções, gêneros ou nível de agregação do conteúdo. Recomenda-se selecioná-lo de um vocabulário controlado. 111 Elemento: Formato Nome: Formato Identificador: Formato Versão: 1.1 Direitos autorais: Dublin Core Metadata Iniciative Idioma: en Definição: uma manifestação física ou digital do recurso Obrigatoriedade: opcional Tipo: string de caracteres Ocorrências: ilimitadas Observação: tipicametne, o formato pode incluir o tipo de mídia ou dimensões do recurso. O formato pode ser usado para determinar o software, o hardware ou outro equipamento necessário para exibir ou operar o recurso. Exemplos de dimensões inclui tamanho e duração. Recomenda-se selecioná-lo de um vocabulário controlado. Elemento: Identificador Nome: Identificador do recurso Identificador: Identificador Versão: 1.1 Direitos autorais: Dublin Core Metadata Iniciative Idioma: en Definição: uma inigualável referência para o recurso dentro de um contexto Obrigatoriedade: opcional Tipo: string de caracteres Ocorrências: ilimitadas Observação: recomenda-se identificar o recurso por meio de um string ou número de acordo com a identificação formal do sistema. Exemplo formal de identificação de sistema inclui o Uniform Resource Identifier (URI) incluindo o Uniform Resource Locator (URL)), o Digital Object Identifier (DOI) e o International Standard Book Number (ISBN). Elemento: Fonte Nome: Fonte Identificador: Fonte Versão: 1.1 Direitos autorais: Dublin Core Metadata Iniciative Idioma: en Definição: uma referência ao recurso do qual o presente recurso deriva Obrigatoriedade: opcional Tipo: string de caracteres Ocorrências: ilimitadas Observação: o presente recurso pode ser derivado de uma fonte no todo ou em parte. Recomenda-se referenciá-lo por meio de um string ou número de acordo com a identificação formal do sistema. Elemento: Idioma Nome: Idioma Identificador: Idioma Versão: 1.1 Direitos autorais: Dublin Core Metadata Iniciative Idioma: en Definição: o idioma do conteúdo intelectual do recurso 112 Obrigatoriedade: opcional Tipo: string de caracteres Ocorrências: ilimitadas Observação: recomenda-se definir o idioma de acordo com o RFC 1766, o qual inclui duas letras para codificá-los. Opcionalmente, este código pode ser seguido de duas letras que codifiquem o país, conforme a ISO 3166. Elemento: Relação Nome: Relação Identificador: Relação Versão: 1.1 Direitos autorais: Dublin Core Metadata Iniciative Idioma: en Definição: uma referência a um recurso relacionado Obrigatoriedade: opcional Tipo: string de caracteres Ocorrências: ilimitadas Observação: recomenda-se referenciar o recurso por meio de um string ou número de acordo com a identificação formal do sistema. Elemento: Cobertura Nome: Cobertura Identificador: Cobertura Versão: 1.1 Direitos autorais: Dublin Core Metadata Iniciative Idioma: en Definição: a extensão ou escopo do conteúdo do recurso Obrigatoriedade: opcional Tipo: string de caracteres Ocorrências: ilimitadas Observação: a cobertura tipicamente inclui o nome do local ou as coordenadas geográficas, o período ou a jurisdição. Recomenda-se selecioná-la de um vocabulário controlado. Elemento: Direitos Nome: Gerenciamento dos direitos Identificador: Direitos Versão: 1.1 Direitos autorais: Dublin Core Metadata Iniciative Idioma: en Definição: informação sobre os direitos assegurados do recurso Obrigatoriedade: opcional Tipo: string de caracteres Ocorrências: ilimitadas Observação: tipicamente, o elemento Direitos contém a declaração da gerência dos direitos do recurso, ou referência ao serviço que provê esta informação. Informação sobre os direitos, normalmente envolve os Direitos de Propriedade Intelectual, o copyright e vários direitos de propriedade. 113 APÊNDICE 2 - ENTREVISTA SOBRE O PROGRAMA PROSSIGA/IBICT Projeto: ................................................................................................................................... Entrevistado: ............................................................................................................................ Função: ................................................................................................................................... Caracterização: Endereço: Responsável: Cargo: Quais as categorias profissionais envolvidas na criação e manutenção do Projeto? As pessoas envolvidas recebem treinamento? Onde, por quanto tempo e como é o treinamento? Qual o perfil exigido das pessoas envolvidas? Proposições do Projeto em termos de produtos e serviços de informação? Como foram definidos esses produtos/serviços? Estudo/levantamento das necessidades da comunidade científica e tecnológica, ou, outra forma? Tratamento das informações e uso de metadados: Qual a origem das informações disponibilizadas nos produtos e serviços? Como são identificadas e capturadas estas informações? Como é monitorada a atualização destas informações? Qual a seqüência e como é feito o tratamento das informações (descrição, indexação, metadados, controle de consistência e padronização dos dados)? Em que banco de dados são armazenadas estas informações? Onde se encontra este banco de dados? Dê as características do banco de dados quanto: - aos campos para recuperação? - a obrigatoriedade de preenchimento dos campos? Disponibilização na Internet e uso de metadados: Como as informações do banco de dados são disponibilizadas na Internet? O projeto produz metadados inseridos nas páginas produzidas para a Internet? Quais? Que padrão utiliza? Recuperação das informações: As ferramentas de busca indexam as páginas do Projeto? Quais ferramentas o fazem? O Projeto cadastra suas páginas nas ferramentas de busca da Internet? Observações complementares: 114 ANEXO 1 - EXEMPLO DE UM DOCUMENTO HTML QUE UTILIZA METADADOS DUBLIN CORE EMBUTIDOS 115 1 p. 116 2p. 117 ANEXO 2 - EXEMPLO DE APRESENTAÇÃO DE UM RECURSO VIRTUAL QUE UTILIZA METADADOS GILS 118 1 p. 119 2 p. 120 3 p. 121 4 p. 122 ANEXO 3 - PORTAL DO PROGRAMA PROSSIGA NA INTERNET 123 1p. 124 ANEXO 4 -PORTAL DO PROJETO BIBLIOTECAS VIRTUAIS TEMÁTICAS, DO PROGRAMA PROSSIGA 125 1 p. 126 ANEXO 5 - PÁGINA DINÂMICA PRODUZIDA COMO RESULTADO DE UMA BUSCA NO PROJETO BIBLIOTECAS TEMÁTICAS DO PROGRAMA PROSSIGA VIRTUAIS 127 QUADRO 3 - CAMPOS PREVISTOS, PORÉM NÃO UTILIZADOS NO BANCO DE DADOS DO PROJETO BIBLIOTECAS VIRTUAIS DO PROGRAMA PROSSIGA DO IBICT, SEGUNDO O TIPO DE RECURSO DE INFORMAÇÃO RECURSOS/CAMPOS LIVROS, ARTIGOS... ETC. PERIÓDICOS BASES DE DADOS ASSOC. E SOC. BTCAS E INSTIT. E CENTROS... CENTROS... LIVRARIAS E ... MUSEUS ÓRGÃOS DE POLÍTICA... EVENTOS PESQUISAD ORES BTCAS VIRTUAIS LISTAS DE ... PROJETOS E ... PROGRAMAS... FONTES DE ... X X X INF. Primária e secundária Entrada Sigla X X X Url Contato Cidade Estado País Área do CNPQ Natureza X X X Termos livres Vocabulário controlado Comentário Separador de categoria Separador de registro _ Classificador X X X X X X X X X Data de expiração X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X Data da última visita Fonte Observações internas Traduzido Revisado Escondido FONTE: CNPq. Programa de Comunicação e Informação para a Pesquisa. Manual de tratamento de dados para bibliotecas virtuais. Rio de Janeiro, 2000 X QUADRO 6 - TÍTULOS ATRIBUÍDOS ÀS BIBLIOTECAS VIRTUAIS TEMÁTICAS, SEGUNDO SUA LOCALIZAÇÃO TÍTULO VISUALIZADO AO SE ACESSAR A BV Expressão Embutido em um CONTEÚDO DA TAG <TITLE> CONTEÚDO DA TAG <TITLE> NO NO CÓDIGO FONTE DA FRAMESET CÓDIGO FONTE DAS FRAMES - - arquivo tipo figura CONTEÚDO DA TAG <TITLE> NO CÓDIGO FONTE DA HOME PAGE QUE NÃO UTILIZA FRAMES Biblioteca Virtual de Estudos Culturais não Biblioteca Virtual de Políticas Públicas em C&T sim Biblioteca Virtual de Politicas Publicas em C&T Biblioteca Virtual de Politicas Publicas em C&T - BIBLIOTECA VIRTUAL DE ENERGIA sim Biblioteca Virtual de Energia Biblioteca Virtual de Energia - Biblioteca Virtual de Referência para Pesquisa em C&T sim Biblioteca de Referência em Ciência e Tecnologia Biblioteca Virtual de Referencia para Pesquisa em C&T - Biblioteca Virtual de Inovação Tecnológica sim Biblioteca Virtual de Inovação Tecnológica Biblioteca Virtual de Inovação Tecnológica - Bibliotecas Virtuais - Economia sim Biblioteca Virtual de Economia Biblioteca Virtual de Economia - Biblioteca Virtual de Óptica Básica e Aplicada sim Biblioteca Virtual de Optica Basica e Aplicada Biblioteca Virtual de Optica Basica e Aplicada - Biblioteca Virtual de Educação a Distância sim Educação a Distancia - Biblioteca Virtual Biblioteca Virtual de Educação a Distancia - Biblioteca Virtual de Engenharia de Petróleo sim Biblioteca Virtual de Engenharia de Petroleo Biblioteca Virtual de Engenharia de Petróleo - Biblioteca Virtual de Educação sim - - Biblioteca Virtual de Educação - BVE Biblioteca Jurídica Virtual sim - - Biblioteca Jurídica Virtual Biblioteca Virtual de Saúde Reprodutiva sim Biblioteca Virtual de Saude Reprodutiva Biblioteca Virtual de Saude Reprodutiva - Biblioteca Virtual sobre Bibliotecas Virtuais sim Biblioteca Virtual de Bibliotecas Virtuais Biblioteca Virtual sobre Bibliotecas Virtuais - Biblioteca Virtual de Ciências Sociais sim Biblioteca Virtual ENGENHARIA BIOMÉDICA sim Biblioteca Virtual de Engenharia Biomédica FONTE: Elaboração do autor NOTA: Quando da pesquisa, a Biblioteca Virtual de Arte & Cultura encontrava-se ausente do site do Projeto. Biblioteca Virtual de Bioengenharia - Prossiga Biblioteca Virtual de Estudos Culturais Biblioteca Virtual de Ciências Sociais -