GT 2 : Organização do Conhecimento e Representação da Informação RECONHECIMENTO DE TÍTULOS DE ARTIGOS NÃO CONDIZENTES COM SEU CONTEÚDO ATRAVÉS DA UTILIZAÇÃO DE PALAVRAS-CHAVE Manoel Palhares Moreira Doutor em Ciência da Informação, Pontifícia Universidade Católica de Minas Gerais, [email protected] Sergio Murilo Stempliuc Graduado em Ciência da Computação, Pontifícia Universidade Católica de Minas Gerais, [email protected] Resumo: A possibilidade de suporte para registro de informações através do formato digital e o advento da Web, permitiram novas formas de disseminação e recuperação de informações nesse ambiente. Os periódicos científicos encontrados na rede constituem uma destas formas de disseminação. Os processos de recuperação de informação privilegiam as unidades de textos e entre elas o título possui importante papel pois é através dele que de forma primeira os usuários realizam buscas bibliográficas. Mas nem sempre títulos de artigos científicos são condizentes com seu conteúdo. O trabalho apresenta uma solução para o caso através das palavras-chaves indicadas pelos autores em artigos de revistas científicas digitais, a partir da hipótese de que artigos com pelo menos uma de suas palavras-chave em seu título possuem conteúdo condizente ao mesmo. São apresentados dados estatísticos de experimentos realizados em duas revistas científicas brasileiras: DataGramaZero e Ciência da Informação. Palavras-chave: organização da informação, artigo científico, título, palavras-chave, recuperação de informação. Abstract: The digital format and the web technology allowed new forms of dissemination and retrieval information. The scientific newspapers found in the net constitute one these dissemination ways. The processes of information retrieval privilege the units of texts and among them the title is important because it is through him that in a first way the users accomplish bibliographical searches. But not always titles of scientific goods correspond to their contents. The work presents one solution for the case through the word-keys indicated by the authors in articles of digital scientific newspapers, starting from the hypothesis that at least one of its key-words in its title possesses correspond to the same. It presents quantitative data of experiment accomplished in the digital newspaper DataGramaZero and Ciência da Informação. Key words: information representation, scientific article, title, key words, information retrieval. 1 INTRODUÇÃO A possibilidade do suporte digital, aliada à tecnologia da Web, permitiu que novas formas de disseminação e recuperação de informações fossem introduzidas através da disponibilidade dos documentos em rede e do desenvolvimento de sistemas de recuperação de informação disponíveis nesse ambiente, viabilizando a chamada “sociedade em rede” (CASTELLS, 1999), onde a informação é produzida e armazenada em lugar distinto do usuário que a recupera. A desmaterialização dos objetos informacionais abriu novas perspectivas à representação e à recuperação dos documentos. Essas tecnologias alteraram também a forma de comunicação entre os homens e trouxeram mudanças na comunicação científica; contudo, sem perder o caminho já percorrido, elas devem ao mesmo tempo replicar e simular as formas já empreendidas na recuperação da informação. Se hoje nos é dado o acesso facilitado ao conhecimento, honra seja feita à linguagem, pois é através dela que, principalmente, nos comunicamos com o grupo no qual estamos inseridos, com o qual trabalhamos ou nos dedicamos ao estudo. A linguagem é a expressão de nossa língua natural ou nativa, como comumente falamos. Esta linguagem torna abrangente nossa comunicação, tira-nos de nossos próprios limites. A linguagem também é o meio pelo qual o homem cria e amplia sua consciência, pois é através dela que são permitidos atos como simbolizar, conceitualizar e classificar (MURRIEL, 1998). É nela que nos apoiamos para fixar nossas culturas, nos identificamos como um povo de determinado lugar e em determinado tempo. Na Web, os sistemas de recuperação de informação, mais precisamente, as máquinas de busca utilizam-se de linguagem natural para os processos de recuperação de informações. A linguagem natural é a linguagem que uma comunidade utiliza em seu dia a dia, em sua comunicação escrita ou falada. É também a linguagem utilizada nos textos científicos. Consideram-se linguagens de indexação os instrumentos de representação de informação para a indexação, o armazenamento e a recuperação de documentos. Os periódicos científicos nasceram no intuito de proporcionar uma maior comunicação entre a comunidade de cientistas. Embora produzidos em linguagem natural, obedecem a determinado formato e possuem normas para sua construção. Além disso, algumas partes específicas de um texto são prioritárias tanto para quem escreve quanto para quem o lê. O presente trabalho apresenta experimentos realizados com artigos de dois periódicos brasileiros. Os títulos tornaram o foco do estudo e foram verificados frente ao conteúdo apresentado pelos artigos. Encontra-se organizado da seguinte forma: a seguir apresenta-se o problema investigado, os objetivos da pesquisa realizada e a metodologia empregada; no item seguinte recupera-se o caminho histórico dos periódicos científicos e as regras gerais que compõem sua estruturação; logo após apresenta-se o instrumento desenvolvido para o experimento e a análise dos dados obtidos. E em forma de conclusão, apresentam-se a leitura deste caminho e as expectativas de sua continuidade. 2. O PROBLEMA INVESTIGADO Pesquisas em recuperação de informação foram amplamente aplicadas durante anos. As idéias e experiências dos anos 50 e 60 transformaram-se em bancos de dados próprios para recuperação de informação e em serviços e sistemas especializados no assunto. O advento da tecnologia de redes alterou a trajetória mas reforçou estas idéias. Houve desenvolvimento no setor da indústria de tecnologia da informação e muitos são os profissionais de informação envolvidos no assunto. A recuperação de informação passou a ser utilizada na Web e é o ponto central em bibliotecas digitais (SARACEVIC, 1995). Mas permanecem alguns problemas: a escolha da linguagem utilizada na indexação, se a linguagem natural ou a linguagem de indexação. A primeira favorece os processos de indexação automática, mas pode aumentar a revocação e diminuir a precisão da recuperação de documentos. A segunda, aumenta a precisão, mas pode distanciar-se da linguagem compreendida e empregada pelos usuários; • a ausência de padrão para o desenvolvimento de sistemas de informação e das formas de interação do usuário com esses sistemas, o que leva a perda de tempo do para o usuário compreender o funcionamento das rotinas que utiliza; • a inexistência de acompanhamento da atualização dos conceitos empregados em linguagens de indexação nos sistemas automatizados, possibilitando um histórico do emprego desses conceitos e termos. Ao contrário, não apresentam essa facilidade e muitas vezes pelo distanciamento do profissional que constrói estes sistemas e os profissionais de informação; • a ausência de ferramentas que possibilitem as revistas científicas assegurar que títulos sejam coerentes com o conteúdo, em acordo com as regras divulgadas para orientação nesse sentido; • o controle da coerência do título frente ao conteúdo do documento como um processo posterior ao de sua criação, embora sejam os títulos utilizados por máquinas de busca e outros mecanismos de recuperação de informação para a indexação e a recuperação de informação. Pesquisas na área de Ciência da Computação têm sido desenvolvidas para a produção de índices e listas que auxiliem o processo de recuperação da informação, principalmente na Web. Muitos deles utilizam os títulos como objeto de pesquisa. Em geral, a indexação de documentos na Web ocorre através da linguagem natural utilizada na produção do próprio documento sem que qualquer tratamento prévio seja incluído aos documentos envolvidos no processo. A maioria dos trabalhos nesta área aprofunda-se em questões relativas ao desempenho da recuperação e ao poder de revocação com índices de precisão. Mas, estes trabalhos não são interdisciplinares, não contam com a participação de profissionais da informação que conheçam as necessidades dos usuários e nem mesmo de profissionais da própria área abrangida pelo trabalho. Também não existem trabalhos que automatizem a consistência entre títulos e conteúdos dos textos. É necessário que sejam desenvolvidas ferramentas para auxílio à indexação que levem em conta a facilidade de indexação da linguagem natural, sem contudo esquecer os benefícios do tratamento da informação e das linguagens de indexação, assegurando que esse processo produza resultados que correspondam à realidade da área. Neste contexto, os títulos de publicações científicas voltam a figurar em destaque. Um texto científico possui uma estrutura composta de elementos que podem ser classificados em elementos pré-textuais, textuais e pós-textuais. Os elementos pré-textuais compõem-se do título, da autoria do artigo, do resumo e das palavras-chave. Os elementos textuais correspondem ao texto propriamente dito e os pós-textuais às referências bibliográficas, aos resumos em outras línguas, às notas de final de texto e anexos (FRANÇA ET AL., 2004; CUNHA, 2004). Entre eles, o título sempre representou ponto forte para a recuperação de informação em documentos já que por pressuposto é o representante do conteúdo que se segue. A recuperação de informação no meio digital aproveitou também dessa característica e algumas máquinas de busca privilegiam o encontro das palavras requisitadas no título ao organizar a resposta a seu usuário. Porém independente do meio onde se encontra o documento, um título nem sempre corresponde a seu conteúdo. No caso de textos científicos, as revistas onde geralmente eles são publicados procuram cercar-se de regras de orientação aos autores como forma de garantir a coerência entre o título e o conteúdo dos documentos. • 3. UM POUCO SOBRE OS PERIÓDICOS CIENTÍFICOS Os periódicos científicos surgiram no século XVII, na Inglaterra, logo após a restauração da monarquia, como conseqüência da reunião de grupos que durante os anos de guerra civil reuniam-se em locais e cidades diferentes para debater questões filosóficas. Eles nasceram com o objetivo de facilitar a comunicação entre a comunidade de cientistas. Logo após este período de guerra, Londres foi escolhida como local oficial para essas reuniões que acabaram por levar à formação da Royal Society em 1662. Desde sua fundação, essa instituição preocupou-se com a questão da comunicação científica, influenciada pelas idéias de Bacon sobre a possibilidade de uma instituição científica. Eram prioridade a coleta e a análise das informações recebidas e existem registros de que seus membros percorriam países estrangeiros buscando dados sobre trabalhos neles desenvolvidos. Como a tarefa era dispendiosa e levava tempo, elegeram então como membros da Royal Society pessoas do estrangeiro, que cumpriam a tarefa de comunicar à entidade, através de cartas, os trabalhos desenvolvidos em seus países (MEADOWS, 1999). Só que a solução foi temporal e o volume de cartas era tão grande que foi preciso encontrar uma outra forma de divulgação dos trabalhos. Em 1664, Denis de Sallo, um parisiense envolvido nessa forma de coleta e disseminação de informação, começou a articular um periódico destinado à publicação do que acontecia na Europa. Em 5 de janeiro de 1665 foi publicado o primeiro número do Le Journal des Sçavans, e com ele nascia o periodismo científico. Naquela época, conforme Lemos (1968) e Meadows (1999), o periódico tinha entre seus compromissos: apresentar um catálogo dos principais livros ainda não publicados na Europa, com informações sobre seu conteúdo e sua utilidade; incluir apontamentos necrológios de celebridades da época, com bibliografia de suas obras; a divulgação de experimentos em física, química e anatomia para a explicação de fenômenos naturais, assim como a descrição de invenções de máquinas úteis ou curiosas; a divulgação de decisões dos tribunais civis e eclesiásticos e censuras de universidades, e levar aos leitores informações diversas para alento à curiosidade humana. Em março de 1665 a Royal Society publicou sua revista Philosophical Transactions que, assim como o Journal des Sçavans, possuía cobertura ampla, embora os dois tenham tomado caminhos mais específicos com o passar do tempo. A partir daí, o crescimento da literatura científica foi exponencial, e a motivação encontra-se centrada na necessidade de disseminação e comunicação eficiente para a comunidade científica. Além de auxiliar na integração e na cooperação dos pesquisadores, contribui também para a legitimação, o reconhecimento do trabalho e a aceitação do pesquisador na própria comunidade . Desde sua origem, o periódico científico desempenha a função de registro, de disseminação e de instituição social. Como registro, é um meio formal de controle da qualidade da própria revista, além de ser uma fonte do saber científico e do conhecimento público. Como agente de disseminação da informação, fornece informações de interesse à comunidade científica e fomenta discussão sobre os pontos que nele são veiculados. Como instituição social atribui prestígio e reconhecimento aos autores, às instituições, aos editores e aos avaliadores (VALÈRIO, 1994). Mas, se de um lado estão os produtores dos documentos desejosos de que seu conteúdo seja conhecido e disseminado, do outro lado estão os usuários, com toda diversidade de necessidades. As unidades de informação então se situam entre eles, como veículo apropriado para a disseminação de informações. E para que este encontro ocorra com eficácia, processos de indexação e recuperação de informação foram construídos ao longo dos anos, com esforços no intuito de aperfeiçoar o desempenho dos sistemas de recuperação de informação. Em linhas gerais, sistemas de recuperação de informação constituem-se do esforço humano e dos procedimentos implantados que visam facilitar a localização de informações disponíveis para os usuários, a partir das requisições feitas por estes (ARAÚJO, 1994). Esses procedimentos dizem respeito às atividades de representação, armazenamento, organização e acesso aos documentos (SALTON e MCGILL, 1983). A representação é feita através de processos de indexação, em atividade intelectual realizada por profissionais especializados em documentação. O armazenamento envolve os processos de gerenciamento dos documentos, independente da mídia em que se encontram. A organização, assim como a representação, objetiva facilitar o usuário no acesso à informação desejada. 3.1 A GARANTIA QUE VEM DAS UNIDADES DE TEXTO Algo particular chamou a atenção para a construção deste trabalho: os textos científicos obedecem a determinado formato, com normas para sua construção. Isto facilita o tratamento automatizado por programação favorecendo o reconhecimento destas partes nos arquivos digitais. Observa-se que algumas partes específicas de um texto são prioritárias e entre elas o título, sem dúvida alguma, é uma parte privilegiada. Via de regra os títulos científicos devem ser: • explicativos, e dentro do possível devem conter dados relevantes sobre o conteúdo do trabalho; • breves, evitando supérfluos linguísticos e sem perder a característica de apresentar o conteúdo; • claros, sem conceitos ambíguos ou obscuros; • atrativos, despertando o usuário a seu conteúdo (GONZALEZ, 2003). Existem normas editoriais regidas por organismos nacionais nos diversos países. No caso brasileiro, as normas técnicas da Associação Brasileira de Normas Técnicas (ABNT) regulamentam a apresentação desta estrutura e das particularidades de cada um destes elementos. O título deve ser claro e objetivo, podendo ser formado de título e subtítulo e deve ser sempre apresentado na mesma língua do texto, embora em caso de necessidade de apresentação em outras línguas, eles sejam apresentados desta forma logo a seguir. Na composição de um título de publicação científica, deve-se evitar a utilização de parênteses e fórmulas que dificultam a compreensão de seu conteúdo. Segundo Krzyzanowski e Ferreira (1998), foi a partir da década de 60 que começaram a surgir na literatura estudos sobre avaliação de revistas científicas e técnicas, demonstrando a necessidade de se definirem parâmetros mensuráveis que realmente refletissem a qualidade da informação registrada. Os autores fazem referência a um artigo publicado por Arends (1968), onde é relatada uma avaliação dos periódicos médicos venezuelanos, baseada em modelo criado por um grupo de trabalho da Unesco em 1964, para a seleção de revistas técnicas latino-americanas. Em 1982, Braga e Oberhofer apud Krzyzanowski e Ferreira (1998) apresentaram uma proposta para avaliação de periódicos brasileiros científicos e técnicos, alterando o modelo da Unesco. Esses autores propõem um modelo que procura refletir aspectos da forma dos periódicos, dentro de parâmetros mensuráveis. Lopes Neto et al. (2002) apresentam pesquisa realizada em títulos de artigos de um periódico de enfermagem. Este trabalho merece atenção, já que o problema apresentado por eles focava-se na adequação dos títulos das pesquisas de enfermagem em traduzir o que realmente havia sido estudado. De forma geral, os autores chegaram as seguintes conclusões: • os títulos, de forma geral, possuíam linguagem econômica em palavras como uma condicionante de objetividade e veracidade; • os títulos deviam oferecer aos leitores de pesquisas científicas contribuições de forma direta, facilitando sua busca sem gerar ansiedade e frustração; os títulos exuberantes, construídos na tentativa de mostrar uma linguagem filosófica e científica, comumente deixam de expressar o conteúdo trabalhado. O uso de uma linguagem rebuscada pode decepcionar os leitores, quando o ideal seria motivá-los; • a maioria dos artigos analisados apresentava títulos considerados adequados, de acordo com o referencial de análise utilizado, embora uma quantidade significativa de artigos apresentasse títulos com uma captação apenas parcialmente adequada, uma vez que, de acordo com a percepção dos autores, não condiziam com o conteúdo expresso no corpo do trabalho; • o emprego de metáforas em títulos foi verificado em apenas 7,35 % dos casos e o pleonasmo em 5,38% dos mesmos; • títulos longos foram encontrados em 16,37 % dos artigos e títulos com problemas de pontuação - emprego inadequado de sinais de pontuação como interrogação, dois pontos, etc. - foram observados em 13,24 % dos títulos analisados; • em relação à clareza do título, esta foi observada em 66,17% dos casos; • as palavras-chave utilizadas nos artigos foram parcialmente captadas nos títulos e, segundo os autores, deve-se dar uma atenção maior a este emprego e estudo. González (2003) lembra que um título deve ser algo atrativo pois é o primeiro elemento que o usuário busca em uma pesquisa bibliográfica. E algumas vezes trabalhos científicos são postos de lado devido a pouca atratividade dos títulos, ou a títulos muito curtos ou muito longos, que trazem dúvida no ato da escolha do documento. Para o autor, o título deverá apresentar sempre variáveis em conformidade com o estudo realizado e dentro do possível, incorporar informações de tempo e lugar onde se realizou a pesquisa. Deve se evitar abreviaturas, fórmulas e sinais de interrogação. Neste ultimo caso, o autor reforça que não no título que se apresenta o problema ou a questão levantada no documento científico. • 4. METODOLOGIA E DESENVOLVIMENTO O objetivo do trabalho foi verificar a possibilidade de consistência entre título de artigos e seu conteúdo de forma automatizada. Mais especificamente, se a ocorrência de palavras-chave nos títulos de artigos constitui um mecanismo aceito para validar a coerência do título de um trabalho científico frente a seu conteúdo. A metodologia escolhida foi experimental utilizando tecnologia de computação para a construção de um instrumento capaz de verificar essa ocorrência. Como estudo de caso foram selecionados textos científicos em formato eletrônico, disponibilizados pelas revistas DataGramaZero e Ciência da Informação disponíveis nos respectivos endereços eletrônicos, em janeiro de 2005. A escolha deu-se: i) por ter sido possível reunir textos de duas coleções de um mesmo período (1999-2004); ii) pela uniformidade dos temas tratados nos dois periódicos, envolvendo textos relacionados à Ciência da Informação; iii) pela disponibilidade dos textos em formato digital, em sua forma integral e na Web e iv) pelo fato de ambos os periódicos possuírem regras de submissão necessárias à garantia da existência dos títulos e das palavras-chave. Em relação a essas regras, a revista DataGramaZero possui normas para submissão de artigos, porém nestas normas não existe nada especificamente para regulamentação dos títulos. A revista Ciência da Informação tem em suas regras um parágrafo destinado aos títulos das publicações. De acordo com ele, o título deve ser breve, específico e descritivo, contendo as palavras-chave que representem o conteúdo do texto. Esta regra será observada no instrumento construído neste trabalho. O período dos artigos selecionados foi direcionado pela disponibilidade das revistas e por corresponder a um período privilegiado na produção em Ciência da Informação no Brasil, envolvendo temas relacionados à tecnologia da informação, às ciências gerencias, à área da cognição, entre outros tantos. Para este trabalho foram desenvolvidos programas utilizando a linguagem PHP (acrônimo recursivo para "PHP: Hypertext Preprocessor"), em sua versão 4. A escolha dessa linguagem deu-se principalmente pelas funções que possui para gerenciamento de string (conjunto de letras), facilitando o processamento a ser realizado. Para armazenamento dos dados optou-se pelo gerenciador de banco de dados MySql, software livre, que utiliza a linguagem SQL (Structured Query Language) como linguagem de manipulação de dados (DML – data manipulation language). Uma das principais características do MySql é sua total integração com o PHP. Os tipos de documentos escolhidos para o experimento foram textos científicos: artigos, comunicações, relatos de experiência e artigos de revisões de literatura. Esta escolha baseou-se no fato de ser possível identificar nesses tipos de texto a unidade de texto eleita, o título, apoiado nos trabalhos de França et al.(2004), Cunha (2004) e nas normas técnicas da ABNT. Para cada coleção foi criado um diretório e os artigos foram salvos em sua coleção específica. Todos os textos colhidos, originalmente em formato html, foram convertidos para o formato texto (txt) e o nome externo do arquivo seguiu a padronização: artigo + ano + mês + número do artigo.txt. Assim, o arquivo artigo1999jan1.txt refere-se ao texto de número um da edição de janeiro de 1999. Optou-se por não colocar o nome da coleção no nome externo do arquivo, já que os textos ficaram mantidos em diretórios distintos por coleção. A coleção e o pano de produção foram considerados como atributos qualificadores de cada artigo e foram mantidos na base de dados pois facilitariam, posteriormente, a recuperação de informações estatísticas por estes cortes. O experimento realizado foi composto dos seguintes passos: reunião dos artigos de cada coleção em um diretório, já convertidos para o formato txt; confecção de programas para extração do título e das palavras-chave de cada artigo gerando as bases de dados de artigo e de palavra-chave; geração de dados estatísticos da ocorrência de palavras-chave nos títulos; categorização dos artigos cujas palavras-chave não existiam nos títulos; análise quantitativa e qualitativa dos dados. A amostra foi composta de 300 textos científicos, todos em língua portuguesa, publicados entre 1999 e 2004, em duas coleções. A Tabela 1 apresenta o total de textos classificados por coleção e ano de publicação, dados ilustrados pela Figura 2. Tabela 1– Quantidade de artigos por ano em cada coleção Ano Ciência da Informação DataGramaZero 1999 32 5 2000 26 16 2001 24 23 2002 31 24 2003 36 23 2004 32 28 Total 181 119 Percentualmente, 60% dos textos pertencem à revista Ciência da Informação e 40% à revista DataGramaZero. Se classificada por ano, a freqüência de artigos tem um crescimento linear, sendo que os anos de 2002, 2003 e 2004 são aqueles em que há maior ocorrência de textos. A base de palavras-chave foi constituída por 957 palavras-chave. Destas, Destas, 523 originaram-se apenas de textos da revista Ciência da Informação; 349 da revista DataGramaZero e 85 das duas revistas, simultaneamente. A Figura 3 apresenta esses números em percentuais. 28 32 23 36 24 31 23 24 26 32 Ano 2003 2001 16 5 1999 0 10 20 30 Dasduas revistas 9% 40 Datagrama Ciênciada Zero Informação 36% 55% Qtde de artigos Ciência da Informação DataGrama Zero Figura 2- Quantidade de artigos por ano de coleção Figura 3 Distribuição percentual da ocorrência de palavras-chave nos títulos das coleções Foram então geradas e armazenadas em bases de dados as estatísticas de ocorrência das palavras-chave nos títulos dos artigos. Na Revista Ciência da Informação foram encontrados 137 artigos com alguma palavra-chave em seu título, correspondendo a 76% dos artigos desta coleção. Na Revista DataGramaZero foram encontrados 94 artigos com alguma palavra-chave em seu título, correspondendo a 79% desta coleção. Não foi possível recuperar quando a Revista Ciência da Informação incorporou em suas regras de submissão a recomendação da existência de palavras-chave no título. Nesta revista 44 artigos não possuíam nenhuma de suas palavras-chave em seu título, correspondendo a 24% dos artigos desta coleção. A Figura 4 apresenta uma distribuição dos artigos onde não foram encontradas as palavras-chave por ano de publicação. QUantidade de Artigos 14 12 13 12 10 10 8 7 6 6 4 4 2 0 0 2 1 7 5 CIência da Informação Datagrama Zero 2 1999 2000 2001 2002 2003 2004 Ano Figura 4 – Quantidade de artigos sem ocorrência de palavras-chave por ano/coleção Seguindo o experimento, foram separados os 69 artigos cujas palavras-chave não ocorriam em seus títulos e verificado se suas palavras-chave ocorriam em outras unidades de texto eleitas: resumo, corpo do texto e referências bibliográficas. 4.1 ANÁLISE DOS DADOS Os artigos que possuíam suas palavras-chave em seus títulos foram considerados como artigos de títulos coerentes com o seu conteúdo. Os artigos foram analisados e foi confirmada esta hipótese: não foram encontrados nesse grupo artigos cujo título fosse inconsistente com seu assunto. Porém, curiosamente, encontrou-s um artigo com uma maior e aparente criatividade na construção de seu título:“O unicórnio (o rinoceronte, o ornitorrinco), a análise documentária e a linguagem documentária” que possuía as palavras-chave indicadas no artigo: análise documentária; linguagem documentária; informação documentária; terminologia; lingüística; semiótica. A análise do texto confirma que a criatividade foi utilizada pelo autor como forma de chamar atenção para o artigo. O texto tem como ponto de partida o trecho Marco Polo e o unicórnio, do livro "Kant e o ornitorrinco", de Umberto Eco, e o autor realiza uma leitura exploratória criando um paralelo entre o processo de conhecimento e o processo de representação da informação documentária. Os artigos cujas palavras-chave não existiam no título foram analisados e distribuídos em grupos conforme o problema encontrado. A não ocorrência das palavras-chave deu-se, principalmente, devido: a) a diferenças de grafias, encontradas em dois grupos distintos: diferenças por plural e singular e diferenças por construção linguística distinta. As diferenças de apresentação de plural e singular entre palavras do título e palavraschave ou vice versa ocorreram em quatorze artigos, 20,29% dos casos onde não ocorriam palavras-chave nos títulos. São exemplos disto: Título: Webmuseus: aparatos informacionais ... Palavras-chave: webmuseu; aparto informacional Título: Biblioteca digital de ... Palavras-chave: bibliotecas digitais; ... Estes artigos poderiam ser considerados como possuindo palavras-chave no título, porém, escolheu-se apresenta-los aqui para ressaltar que em experimentos futuros que envolvam coincidências de palavras, a questão do plural e do singular deve ser considerada. As construções lingüísticas distintas entre títulos e palavras-chave e ou emprego de sinônimos referem-se a escolhas de grafias distintas que fazem os autores entre palavras do título e palavras-chave. Isto não representa ausência de representação das palavras-chave no título. Porém, a utilização de filtros ou inteligência na programação durante a comparação de palavras aumentaria a complexidade do experimento, exigindo um dicionário robusto para selecionar a possibilidade de sinônimos para as palavras. O ideal é que autores tenham sempre a mesma conduta na construção linguística entre títulos e palavras-chave. Este fato foi observado em sete artigos equivalentes a 10,14% dos casos onde não ocorriam palavraschave nos títulos. Exemplificam o fato: Título: ... uma abordagem bibliométrica Palavras-chave: bibliometria; ... Título: ... educação e comunicação .... Palavras-chave: comunicação e educação Os artigos contidos neste grupo foram analisados e nenhuma inconsistência entre título e conteúdo do artigo foi encontrada. b) a títulos específicos e indicação de palavras-chave genéricas ou vice-versa. Isto são escolhas dos autores e precisam ser respeitadas. Para os processos de recuperação de informação é importante que palavras-chave e títulos coincidam de alguma forma e a escolha deste tipo de construção deve implicar em sintonias entre essas palavras. Os termos utilizados nas palavras-chave devem ao mesmo seguir regras que localizam o assunto do texto de forma mais abrangente, mas também devem facilitar aos leitores em suas especificidades. Geralmente, o número de palavras-chave recomendadas pelos periódicos gira em torno de cinco palavras, o suficiente para se dar noção do todo e do objeto específico. A ocorrência de problemas relacionados a títulos específicos e indicação de palavraschave genéricas ou vice-versa ponto foi observada em doze artigos, 17,39% dos casos. São exemplos destas ocorrências. Título: Áreas do conhecimento Palavras-chave: Organização do Conhecimento; Representação do Conhecimento; Classificação do Conhecimento; Classificação em Ciência e Tecnologia; Classificação de Projetos de Pesquisa e Desenvolvimento Título: A formação profissional no século XXI: desafios e dilemas Palavras-chave: educação dos bibliotecários; profissional da informação Nenhuma inconsistência entre título e conteúdo foi encontrada nestes artigos. c) ao emprego de pré-coordenação nas palavras-chave. Isto é fato comum e fácil de observar em textos científicos. Embora os autores na maioria das vezes dominem o universo do discurso de sua área de atuação, existe uma tendência em pré-coordenar palavras-chave como tentativa de coincidência destas com o conteúdo do artigo. A ordem como fazem isto muitas vezes é distinta da ordem como entram as palavras nos títulos, inviabilizando a conferência da existência das palavras-chave no título. Além disso, palavras-chave são utilizadas em recuperação com artifícios de pós-coordenação. Seria ideal que as revistas disponibilizassem orientação aos autores neste sentido. O fato foi observado em 32 artigos, 46,38% dos casos, nenhum deles entretanto apresentou inconsistência entre títulos e conteúdos. d) a títulos mais criativos, com emprego de metáforas ou de palavras com duplo sentido. Esse tipo de construção é contra indicado pelos autores Gonzalez (2003), França et al.(2004) e Cunha (2004) assim como é desaconselhado por regras de revistas científicas. Mas são escolhas dos autores. Foram encontrados nessa condição quatro artigos, correspondendo a 5,80% dos casos. Embora as palavras-chave desses artigos estejam em conformidade com seu conteúdo, a ausência no título deve-se pela construção escolhida. Foram eles: Título: O olhar da consciência possível sobre o campo científico Palavras-chave: Teoria da ciência da informação; Sociologia da informação; História da ciência da informação; Comunicação científica; Responsabilidade social. Título: A explosão do filósofo e a obsessão de informação Palavras-chave: Explosão da Informação; Crescimento do Conhecimento; Sociedade da Informação; Obsessão Social. Título: A liberdade das vozes Palavras-chave: Liberdade da Informação; Tecnologia e Inovação; História da Informação; Geração de Conhecimento. Título: A informação em seus momentos de passagem Palavras-chave : criação da informação; contexto da informação; gerenciamento da informação; agentes inteligentes; análise textual; ciência da informação Como alternativa à análise dos dados, buscou-se o resultado do processamento das palavras-chave nas outras unidades de texto (resumo, corpo do texto e referências bibliográficas) para os artigos que não possuíam palavras-chave nos títulos. Verificou-se que em 36% (25 textos) elas não foram encontradas nos resumos; que 13% (nove textos) não possuíam nenhuma de suas palavras-chave no corpo do texto e em 58% (40 textos) nas referências bibliográficas. Foi então atribuída uma categoria para a análise destes artigos obedecendo a uma hierarquia de prioridade entre resumo, corpo do texto e referências bibliográficas, através dos seguintes critérios: 1º) artigos onde as palavras-chave ocorreram no resumo; 2º) artigos onde as palavras ocorreram no corpo do texto e não ocorreram no resumo; 3º) artigos onde as palavras-chave ocorreram nas referências bibliográficas e não ocorreram no resumo e no corpo do texto; 4º) artigos onde as palavras não ocorreram no resumo, no corpo do texto e nas referencias bibliográficas. Assim, na Tabela 2 se o artigo possui uma de suas palavras-chave no resumo, independente dele possuir essa palavra-chave no corpo do texto ou nas referências bibliográficas, ele foi adicionado apenas ao quantitativo de resumo. Análogo para corpo do texto e referências bibliográficas. Tabela 2 – Ocorrência das palavras-chave dos artigos sem palavras-chave nos títulos Categoria de ocorrência das palavras-chave Pelo menos no resumo Pelo menos no corpo do texto Pelo menos nas referências bibliográficas Não ocorre no resumo, no texto e nas referências bibliográficas Total de artigos 44 16 1 8 A análise dos artigos através deste agrupamento não acrescentou novos pontos de análise aos o que já se conhecia anteriormente: grafias diferentes, títulos específicos com palavras-chave genéricas ou vice-versa, pré-coordenação de palavras-chave e excesso de criatividade nos títulos. Na realidade, o maior problema encontra-se no fato de indicação das palavras-chave e não nos títulos dos artigos. As revistas científicas precisam atentar para a orientação aos autores nesse sentido. Trabalhos futuros devem levar em conta algum tipo de reconhecimento para os problemas de grafias distintas: plural e singular, masculino e feminino, etc. A verificação das palavras do título nas unidades de texto apresentou uma quantidade de 22 artigos que possuíam palavras que só ocorriam no título. A análise destes artigos mostrou que este também pode ser um caminho, mas no caso das coleções aqui utilizadas não representava títulos com inconsistência com o conteúdo. 5. CONCLUSÃO Foram separados artigos de duas revistas científicas disponibilizadas na Web. Verificou-se a ocorrência de palavras-chave nos títulos destes artigos. Alguns artigos não possuíam palavras-chave em seus títulos. O fato decorre de problemas muito mais devido à indicação de palavras-chave do que a problemas de inconsistência entre títulos e conteúdos. Apenas quatro artigos onde nos títulos não ocorrem as palavras-chave indicadas, pouco mais que 1% da amostra, possuíam algum problema entre os títulos e os conteúdos devido a criatividade dos autores. Uma análise qualitativa da amostra foi feita apenas posterior ao experimento. Verificou-se que não existiam títulos inconsistentes com o conteúdo nestas bases. O que sobressaiu também nesta análise foram os títulos já mencionados como mais criativos. Acredita-se que em bases de artigos com problemas de inconsistência entre textos e títulos os quantitativos aqui apresentados apontem com maior índice o problema. Reconhecer títulos não consistentes com o conteúdo de forma automatizada é um problema a ser resolvido. As palavras-chave podem ser um caminho. A presença de palavraschave em títulos de artigo deve ser um indicativo a ser observado durante o processo de submissão para a verificação do título junto ao conteúdo do artigo. Acredita-se também que as revistas digitais poderiam ter vocabulários controlados construídos a partir destas palavras. Isto facilitaria os autores na construção de títulos e na designação de palavras-chave. Procedimentos neste sentido facilitariam a busca e o encontro de documentos frente à necessidade dos usuários. BIBLIOGRAFIA ARENDS, L. Las revistas médicas venezolanas: evaluación de su cualidad. Acta Cient. Venezolana. V. 19, p. 145-151, 1968. ARAÚJO, Vânia M. R. H. Sistemas de recuperação da informação – SRIs. In: ___. Sistemas de recuperação da informação: nova abordagem teórico-conceitual. 1994. Tese (Doutorado em Comunicação e Cultura) – Escola de Comunicação, Universidade Federal do Rio de Janeiro, Rio de Janeiro, 1994. cap. 5, p. 84-122. BRAGA, G. M., OBERHOPER, A. Diretrizes para avaliação de periódicos científicos e técnicos brasileiros. Ver. Lat., n. 1, p. 27-31. ene./jun., 1982. CASTELLS, Manuel. A revolução da tecnologia da informação. In: ______. A sociedade em rede. 2. ed. São Paulo: Paz e Terra, 1999. v.1, p. 49-86. CIÊNCIA DA INFORMAÇÃO. Brasília: IBICT, v. x, n.y, ago.2004. Disponível em <http://www.ibict.br/cienciadainformacao>. Acesso 9 dez 2004. CUNHA, H. R. S. Padrão PUC Minas de normalização: normas da ABNT para apresentação de artigos em periódicos científicos. Disponível em: <www3.pucminas.br/documentos/normalizacao_artigos.pdf>. Acesso em: 27 fev. 2005. DATAGRAMAZERO - Revista de Ciência <http://www.dgz.org.br/> . Acesso em: 9 dez.2004. da Informação. Disponível em: FRANÇA, J. L. et al. Manual para normalização de publicações técnico-científicas. 7.ed. rev. e aum. Belo Horizonte: UFMG, 2004. GONZÁLEZ, Javier Ortega. El título en las publicaciones científicas: algunos consejos para su estructuración. Revista Médica IMSS, México, v. 4, n. 41, p.355-358, jul. Ago. 2003. KRZYZANOWSKI, R.F.; FERREIRA, M. C. G. Avaliação de periódicos científicos brasileiros. Ciência da Informação, Brasília, v.27, n.2, p.165-169, maio/ago.1998. LEMOS, Antônio Agenor Briquet de. Presente e futuro do periódico científico. Correio Braziliense, Brasília, 13 jul. 1968. Caderno Cultural, p. 3. Disponível em: < http://www.briquetdelemos.com.br/editor1.htm>. Acesso em: 20 out. 2005. LOPES NETO, D. et al. Análise de títulos de artigos de pesquisas publicadas em um periódico brasileiro de enfermagem. Revista Latino-Americana de Enfermagem, Ribeirão Preto, v.10, n.1, p.77-84, jan./fev. 2002. MEADOWS, A. J. A comunicação científica.Brasília:Briquet de Lemos/Livros, 1999. 268 p. MURRIEL, Gatti. ¿Por qué prestar atención al lenguaje? Boletín Informativo de Temas Lingüísticos del Departamento Académico de Humanidades de la Universidad del Pacífico, Lima, v.1, n.1, jul. 1998. Disponível em <http://www.up.edu.pe/coine/Boletin1/TRASFOND.HTM>. Acesso em: 10 jun. 2005. SALTON, Gerard; McGILL, Michael J. Introduction to modern information retrieval. New York: McGraw Hill Book, 1983. SARACEVIC, T. Evaluation of evaluation in information retrieval. In: ANNUAL INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL, 18., 1995. Seattle. Actas... Seattle: ACM Press, 1995. p.138-146. VALÉRIO, Palmira Moriconi. Espelho da Ciência: avaliação do Programa Setorial de Publicações em Ciência e Tecnologia da FINEP. Brasília: FINEP/IBICT, 1994.