GT 2 : Organização do Conhecimento e Representação da Informação
RECONHECIMENTO DE TÍTULOS DE ARTIGOS NÃO
CONDIZENTES COM SEU CONTEÚDO ATRAVÉS DA UTILIZAÇÃO
DE PALAVRAS-CHAVE
Manoel Palhares Moreira
Doutor em Ciência da Informação,
Pontifícia Universidade Católica de Minas Gerais,
[email protected]
Sergio Murilo Stempliuc
Graduado em Ciência da Computação,
Pontifícia Universidade Católica de Minas Gerais,
[email protected]
Resumo: A possibilidade de suporte para registro de informações através do formato digital e o advento da
Web, permitiram novas formas de disseminação e recuperação de informações nesse ambiente. Os periódicos
científicos encontrados na rede constituem uma destas formas de disseminação. Os processos de recuperação de
informação privilegiam as unidades de textos e entre elas o título possui importante papel pois é através dele que
de forma primeira os usuários realizam buscas bibliográficas. Mas nem sempre títulos de artigos científicos são
condizentes com seu conteúdo. O trabalho apresenta uma solução para o caso através das palavras-chaves
indicadas pelos autores em artigos de revistas científicas digitais, a partir da hipótese de que artigos com pelo
menos uma de suas palavras-chave em seu título possuem conteúdo condizente ao mesmo. São apresentados
dados estatísticos de experimentos realizados em duas revistas científicas brasileiras: DataGramaZero e Ciência
da Informação.
Palavras-chave: organização da informação, artigo científico, título, palavras-chave, recuperação de
informação.
Abstract: The digital format and the web technology allowed new forms of dissemination and retrieval
information. The scientific newspapers found in the net constitute one these dissemination ways. The processes
of information retrieval privilege the units of texts and among them the title is important because it is through
him that in a first way the users accomplish bibliographical searches. But not always titles of scientific goods
correspond to their contents. The work presents one solution for the case through the word-keys indicated by the
authors in articles of digital scientific newspapers, starting from the hypothesis that at least one of its key-words
in its title possesses correspond to the same. It presents quantitative data of experiment accomplished in the
digital newspaper DataGramaZero and Ciência da Informação.
Key words: information representation, scientific article, title, key words, information retrieval.
1 INTRODUÇÃO
A possibilidade do suporte digital, aliada à tecnologia da Web, permitiu que novas
formas de disseminação e recuperação de informações fossem introduzidas através da
disponibilidade dos documentos em rede e do desenvolvimento de sistemas de recuperação de
informação disponíveis nesse ambiente, viabilizando a chamada “sociedade em rede”
(CASTELLS, 1999), onde a informação é produzida e armazenada em lugar distinto do
usuário que a recupera.
A desmaterialização dos objetos informacionais abriu novas perspectivas à
representação e à recuperação dos documentos. Essas tecnologias alteraram também a forma
de comunicação entre os homens e trouxeram mudanças na comunicação científica; contudo,
sem perder o caminho já percorrido, elas devem ao mesmo tempo replicar e simular as formas
já empreendidas na recuperação da informação.
Se hoje nos é dado o acesso facilitado ao conhecimento, honra seja feita à linguagem,
pois é através dela que, principalmente, nos comunicamos com o grupo no qual estamos
inseridos, com o qual trabalhamos ou nos dedicamos ao estudo. A linguagem é a expressão de
nossa língua natural ou nativa, como comumente falamos. Esta linguagem torna abrangente
nossa comunicação, tira-nos de nossos próprios limites.
A linguagem também é o meio pelo qual o homem cria e amplia sua consciência, pois
é através dela que são permitidos atos como simbolizar, conceitualizar e classificar
(MURRIEL, 1998). É nela que nos apoiamos para fixar nossas culturas, nos identificamos
como um povo de determinado lugar e em determinado tempo. Na Web, os sistemas de
recuperação de informação, mais precisamente, as máquinas de busca utilizam-se de
linguagem natural para os processos de recuperação de informações. A linguagem natural é a
linguagem que uma comunidade utiliza em seu dia a dia, em sua comunicação escrita ou
falada. É também a linguagem utilizada nos textos científicos. Consideram-se linguagens de
indexação os instrumentos de representação de informação para a indexação, o
armazenamento e a recuperação de documentos.
Os periódicos científicos nasceram no intuito de proporcionar uma maior comunicação
entre a comunidade de cientistas. Embora produzidos em linguagem natural, obedecem a
determinado formato e possuem normas para sua construção. Além disso, algumas partes
específicas de um texto são prioritárias tanto para quem escreve quanto para quem o lê.
O presente trabalho apresenta experimentos realizados com artigos de dois periódicos
brasileiros. Os títulos tornaram o foco do estudo e foram verificados frente ao conteúdo
apresentado pelos artigos. Encontra-se organizado da seguinte forma: a seguir apresenta-se o
problema investigado, os objetivos da pesquisa realizada e a metodologia empregada; no item
seguinte recupera-se o caminho histórico dos periódicos científicos e as regras gerais que
compõem sua estruturação; logo após apresenta-se o instrumento desenvolvido para o
experimento e a análise dos dados obtidos. E em forma de conclusão, apresentam-se a leitura
deste caminho e as expectativas de sua continuidade.
2. O PROBLEMA INVESTIGADO
Pesquisas em recuperação de informação foram amplamente aplicadas durante anos.
As idéias e experiências dos anos 50 e 60 transformaram-se em bancos de dados próprios para
recuperação de informação e em serviços e sistemas especializados no assunto. O advento da
tecnologia de redes alterou a trajetória mas reforçou estas idéias. Houve desenvolvimento no
setor da indústria de tecnologia da informação e muitos são os profissionais de informação
envolvidos no assunto. A recuperação de informação passou a ser utilizada na Web e é o
ponto central em bibliotecas digitais (SARACEVIC, 1995). Mas permanecem alguns
problemas:
a escolha da linguagem utilizada na indexação, se a linguagem natural ou a linguagem de
indexação. A primeira favorece os processos de indexação automática, mas pode aumentar
a revocação e diminuir a precisão da recuperação de documentos. A segunda, aumenta a
precisão, mas pode distanciar-se da linguagem compreendida e empregada pelos usuários;
• a ausência de padrão para o desenvolvimento de sistemas de informação e das formas de
interação do usuário com esses sistemas, o que leva a perda de tempo do para o usuário
compreender o funcionamento das rotinas que utiliza;
• a inexistência de acompanhamento da atualização dos conceitos empregados em
linguagens de indexação nos sistemas automatizados, possibilitando um histórico do
emprego desses conceitos e termos. Ao contrário, não apresentam essa facilidade e muitas
vezes pelo distanciamento do profissional que constrói estes sistemas e os profissionais de
informação;
• a ausência de ferramentas que possibilitem as revistas científicas assegurar que títulos
sejam coerentes com o conteúdo, em acordo com as regras divulgadas para orientação
nesse sentido;
• o controle da coerência do título frente ao conteúdo do documento como um processo
posterior ao de sua criação, embora sejam os títulos utilizados por máquinas de busca e
outros mecanismos de recuperação de informação para a indexação e a recuperação de
informação.
Pesquisas na área de Ciência da Computação têm sido desenvolvidas para a produção
de índices e listas que auxiliem o processo de recuperação da informação, principalmente na
Web. Muitos deles utilizam os títulos como objeto de pesquisa. Em geral, a indexação de
documentos na Web ocorre através da linguagem natural utilizada na produção do próprio
documento sem que qualquer tratamento prévio seja incluído aos documentos envolvidos no
processo. A maioria dos trabalhos nesta área aprofunda-se em questões relativas ao
desempenho da recuperação e ao poder de revocação com índices de precisão. Mas, estes
trabalhos não são interdisciplinares, não contam com a participação de profissionais da
informação que conheçam as necessidades dos usuários e nem mesmo de profissionais da
própria área abrangida pelo trabalho. Também não existem trabalhos que automatizem a
consistência entre títulos e conteúdos dos textos.
É necessário que sejam desenvolvidas ferramentas para auxílio à indexação que levem
em conta a facilidade de indexação da linguagem natural, sem contudo esquecer os benefícios
do tratamento da informação e das linguagens de indexação, assegurando que esse processo
produza resultados que correspondam à realidade da área.
Neste contexto, os títulos de publicações científicas voltam a figurar em destaque. Um
texto científico possui uma estrutura composta de elementos que podem ser classificados em
elementos pré-textuais, textuais e pós-textuais. Os elementos pré-textuais compõem-se do
título, da autoria do artigo, do resumo e das palavras-chave. Os elementos textuais
correspondem ao texto propriamente dito e os pós-textuais às referências bibliográficas, aos
resumos em outras línguas, às notas de final de texto e anexos (FRANÇA ET AL., 2004;
CUNHA, 2004).
Entre eles, o título sempre representou ponto forte para a recuperação de informação
em documentos já que por pressuposto é o representante do conteúdo que se segue. A
recuperação de informação no meio digital aproveitou também dessa característica e algumas
máquinas de busca privilegiam o encontro das palavras requisitadas no título ao organizar a
resposta a seu usuário. Porém independente do meio onde se encontra o documento, um título
nem sempre corresponde a seu conteúdo. No caso de textos científicos, as revistas onde
geralmente eles são publicados procuram cercar-se de regras de orientação aos autores como
forma de garantir a coerência entre o título e o conteúdo dos documentos.
•
3. UM POUCO SOBRE OS PERIÓDICOS CIENTÍFICOS
Os periódicos científicos surgiram no século XVII, na Inglaterra, logo após a
restauração da monarquia, como conseqüência da reunião de grupos que durante os anos de
guerra civil reuniam-se em locais e cidades diferentes para debater questões filosóficas. Eles
nasceram com o objetivo de facilitar a comunicação entre a comunidade de cientistas. Logo
após este período de guerra, Londres foi escolhida como local oficial para essas reuniões que
acabaram por levar à formação da Royal Society em 1662. Desde sua fundação, essa
instituição preocupou-se com a questão da comunicação científica, influenciada pelas idéias
de Bacon sobre a possibilidade de uma instituição científica. Eram prioridade a coleta e a
análise das informações recebidas e existem registros de que seus membros percorriam países
estrangeiros buscando dados sobre trabalhos neles desenvolvidos. Como a tarefa era
dispendiosa e levava tempo, elegeram então como membros da Royal Society pessoas do
estrangeiro, que cumpriam a tarefa de comunicar à entidade, através de cartas, os trabalhos
desenvolvidos em seus países (MEADOWS, 1999). Só que a solução foi temporal e o
volume de cartas era tão grande que foi preciso encontrar uma outra forma de divulgação dos
trabalhos.
Em 1664, Denis de Sallo, um parisiense envolvido nessa forma de coleta e
disseminação de informação, começou a articular um periódico destinado à publicação do que
acontecia na Europa. Em 5 de janeiro de 1665 foi publicado o primeiro número do Le Journal
des Sçavans, e com ele nascia o periodismo científico. Naquela época, conforme Lemos
(1968) e Meadows (1999), o periódico tinha entre seus compromissos: apresentar um catálogo
dos principais livros ainda não publicados na Europa, com informações sobre seu conteúdo e
sua utilidade; incluir apontamentos necrológios de celebridades da época, com bibliografia de
suas obras; a divulgação de experimentos em física, química e anatomia para a explicação de
fenômenos naturais, assim como a descrição de invenções de máquinas úteis ou curiosas; a
divulgação de decisões dos tribunais civis e eclesiásticos e censuras de universidades, e levar
aos leitores informações diversas para alento à curiosidade humana.
Em março de 1665 a Royal Society publicou sua revista Philosophical Transactions
que, assim como o Journal des Sçavans, possuía cobertura ampla, embora os dois tenham
tomado caminhos mais específicos com o passar do tempo. A partir daí, o crescimento da
literatura científica foi exponencial, e a motivação encontra-se centrada na necessidade de
disseminação e comunicação eficiente para a comunidade científica. Além de auxiliar na
integração e na cooperação dos pesquisadores, contribui também para a legitimação, o
reconhecimento do trabalho e a aceitação do pesquisador na própria comunidade .
Desde sua origem, o periódico científico desempenha a função de registro, de
disseminação e de instituição social. Como registro, é um meio formal de controle da
qualidade da própria revista, além de ser uma fonte do saber científico e do conhecimento
público. Como agente de disseminação da informação, fornece informações de interesse à
comunidade científica e fomenta discussão sobre os pontos que nele são veiculados. Como
instituição social atribui prestígio e reconhecimento aos autores, às instituições, aos editores e
aos avaliadores (VALÈRIO, 1994).
Mas, se de um lado estão os produtores dos documentos desejosos de que seu
conteúdo seja conhecido e disseminado, do outro lado estão os usuários, com toda diversidade
de necessidades. As unidades de informação então se situam entre eles, como veículo
apropriado para a disseminação de informações. E para que este encontro ocorra com eficácia,
processos de indexação e recuperação de informação foram construídos ao longo dos anos,
com esforços no intuito de aperfeiçoar o desempenho dos sistemas de recuperação de
informação. Em linhas gerais, sistemas de recuperação de informação constituem-se do
esforço humano e dos procedimentos implantados que visam facilitar a localização de
informações disponíveis para os usuários, a partir das requisições feitas por estes (ARAÚJO,
1994).
Esses procedimentos dizem respeito às atividades de representação, armazenamento,
organização e acesso aos documentos (SALTON e MCGILL, 1983). A representação é feita
através de processos de indexação, em atividade intelectual realizada por profissionais
especializados em documentação. O armazenamento envolve os processos de gerenciamento
dos documentos, independente da mídia em que se encontram. A organização, assim como a
representação, objetiva facilitar o usuário no acesso à informação desejada.
3.1 A GARANTIA QUE VEM DAS UNIDADES DE TEXTO
Algo particular chamou a atenção para a construção deste trabalho: os textos
científicos obedecem a determinado formato, com normas para sua construção. Isto facilita o
tratamento automatizado por programação favorecendo o reconhecimento destas partes nos
arquivos digitais.
Observa-se que algumas partes específicas de um texto são prioritárias e entre elas o
título, sem dúvida alguma, é uma parte privilegiada. Via de regra os títulos científicos devem
ser:
• explicativos, e dentro do possível devem conter dados relevantes sobre o conteúdo do
trabalho;
• breves, evitando supérfluos linguísticos e sem perder a característica de apresentar o
conteúdo;
• claros, sem conceitos ambíguos ou obscuros;
• atrativos, despertando o usuário a seu conteúdo (GONZALEZ, 2003).
Existem normas editoriais regidas por organismos nacionais nos diversos países. No
caso brasileiro, as normas técnicas da Associação Brasileira de Normas Técnicas (ABNT)
regulamentam a apresentação desta estrutura e das particularidades de cada um destes
elementos. O título deve ser claro e objetivo, podendo ser formado de título e subtítulo e deve
ser sempre apresentado na mesma língua do texto, embora em caso de necessidade de
apresentação em outras línguas, eles sejam apresentados desta forma logo a seguir. Na
composição de um título de publicação científica, deve-se evitar a utilização de parênteses e
fórmulas que dificultam a compreensão de seu conteúdo.
Segundo Krzyzanowski e Ferreira (1998), foi a partir da década de 60 que começaram
a surgir na literatura estudos sobre avaliação de revistas científicas e técnicas, demonstrando a
necessidade de se definirem parâmetros mensuráveis que realmente refletissem a qualidade da
informação registrada. Os autores fazem referência a um artigo publicado por Arends (1968),
onde é relatada uma avaliação dos periódicos médicos venezuelanos, baseada em modelo
criado por um grupo de trabalho da Unesco em 1964, para a seleção de revistas técnicas
latino-americanas. Em 1982, Braga e Oberhofer apud Krzyzanowski e Ferreira (1998)
apresentaram uma proposta para avaliação de periódicos brasileiros científicos e técnicos,
alterando o modelo da Unesco. Esses autores propõem um modelo que procura refletir
aspectos da forma dos periódicos, dentro de parâmetros mensuráveis.
Lopes Neto et al. (2002) apresentam pesquisa realizada em títulos de artigos de um
periódico de enfermagem. Este trabalho merece atenção, já que o problema apresentado por
eles focava-se na adequação dos títulos das pesquisas de enfermagem em traduzir o que
realmente havia sido estudado. De forma geral, os autores chegaram as seguintes conclusões:
• os títulos, de forma geral, possuíam linguagem econômica em palavras como uma
condicionante de objetividade e veracidade;
• os títulos deviam oferecer aos leitores de pesquisas científicas contribuições de forma
direta, facilitando sua busca sem gerar ansiedade e frustração;
os títulos exuberantes, construídos na tentativa de mostrar uma linguagem filosófica e
científica, comumente deixam de expressar o conteúdo trabalhado. O uso de uma
linguagem rebuscada pode decepcionar os leitores, quando o ideal seria motivá-los;
• a maioria dos artigos analisados apresentava títulos considerados adequados, de acordo
com o referencial de análise utilizado, embora uma quantidade significativa de artigos
apresentasse títulos com uma captação apenas parcialmente adequada, uma vez que, de
acordo com a percepção dos autores, não condiziam com o conteúdo expresso no corpo do
trabalho;
• o emprego de metáforas em títulos foi verificado em apenas 7,35 % dos casos e o
pleonasmo em 5,38% dos mesmos;
• títulos longos foram encontrados em 16,37 % dos artigos e títulos com problemas de
pontuação - emprego inadequado de sinais de pontuação como interrogação, dois pontos,
etc. - foram observados em 13,24 % dos títulos analisados;
• em relação à clareza do título, esta foi observada em 66,17% dos casos;
• as palavras-chave utilizadas nos artigos foram parcialmente captadas nos títulos e,
segundo os autores, deve-se dar uma atenção maior a este emprego e estudo.
González (2003) lembra que um título deve ser algo atrativo pois é o primeiro
elemento que o usuário busca em uma pesquisa bibliográfica. E algumas vezes trabalhos
científicos são postos de lado devido a pouca atratividade dos títulos, ou a títulos muito curtos
ou muito longos, que trazem dúvida no ato da escolha do documento. Para o autor, o título
deverá apresentar sempre variáveis em conformidade com o estudo realizado e dentro do
possível, incorporar informações de tempo e lugar onde se realizou a pesquisa. Deve se evitar
abreviaturas, fórmulas e sinais de interrogação. Neste ultimo caso, o autor reforça que não no
título que se apresenta o problema ou a questão levantada no documento científico.
•
4. METODOLOGIA E DESENVOLVIMENTO
O objetivo do trabalho foi verificar a possibilidade de consistência entre título de
artigos e seu conteúdo de forma automatizada. Mais especificamente, se a ocorrência de
palavras-chave nos títulos de artigos constitui um mecanismo aceito para validar a coerência
do título de um trabalho científico frente a seu conteúdo.
A metodologia escolhida foi experimental utilizando tecnologia de computação para a
construção de um instrumento capaz de verificar essa ocorrência. Como estudo de caso foram
selecionados textos científicos em formato eletrônico, disponibilizados pelas revistas
DataGramaZero e Ciência da Informação disponíveis nos respectivos endereços eletrônicos,
em janeiro de 2005. A escolha deu-se: i) por ter sido possível reunir textos de duas coleções
de um mesmo período (1999-2004); ii) pela uniformidade dos temas tratados nos dois
periódicos, envolvendo textos relacionados à Ciência da Informação; iii) pela disponibilidade
dos textos em formato digital, em sua forma integral e na Web e iv) pelo fato de ambos os
periódicos possuírem regras de submissão necessárias à garantia da existência dos títulos e
das palavras-chave.
Em relação a essas regras, a revista DataGramaZero possui normas para submissão de
artigos, porém nestas normas não existe nada especificamente para regulamentação dos
títulos. A revista Ciência da Informação tem em suas regras um parágrafo destinado aos
títulos das publicações. De acordo com ele, o título deve ser breve, específico e descritivo,
contendo as palavras-chave que representem o conteúdo do texto. Esta regra será observada
no instrumento construído neste trabalho.
O período dos artigos selecionados foi direcionado pela disponibilidade das revistas e
por corresponder a um período privilegiado na produção em Ciência da Informação no Brasil,
envolvendo temas relacionados à tecnologia da informação, às ciências gerencias, à área da
cognição, entre outros tantos.
Para este trabalho foram desenvolvidos programas utilizando a linguagem PHP
(acrônimo recursivo para "PHP: Hypertext Preprocessor"), em sua versão 4. A escolha dessa
linguagem deu-se principalmente pelas funções que possui para gerenciamento de string
(conjunto de letras), facilitando o processamento a ser realizado. Para armazenamento dos
dados optou-se pelo gerenciador de banco de dados MySql, software livre, que utiliza a
linguagem SQL (Structured Query Language) como linguagem de manipulação de dados
(DML – data manipulation language). Uma das principais características do MySql é sua
total integração com o PHP.
Os tipos de documentos escolhidos para o experimento foram textos científicos:
artigos, comunicações, relatos de experiência e artigos de revisões de literatura. Esta escolha
baseou-se no fato de ser possível identificar nesses tipos de texto a unidade de texto eleita, o
título, apoiado nos trabalhos de França et al.(2004), Cunha (2004) e nas normas técnicas da
ABNT.
Para cada coleção foi criado um diretório e os artigos foram salvos em sua coleção
específica. Todos os textos colhidos, originalmente em formato html, foram convertidos para
o formato texto (txt) e o nome externo do arquivo seguiu a padronização: artigo + ano + mês
+ número do artigo.txt. Assim, o arquivo artigo1999jan1.txt refere-se ao texto de número um
da edição de janeiro de 1999. Optou-se por não colocar o nome da coleção no nome externo
do arquivo, já que os textos ficaram mantidos em diretórios distintos por coleção.
A coleção e o pano de produção foram considerados como atributos qualificadores de
cada artigo e foram mantidos na base de dados pois facilitariam, posteriormente, a
recuperação de informações estatísticas por estes cortes.
O experimento realizado foi composto dos seguintes passos: reunião dos artigos de
cada coleção em um diretório, já convertidos para o formato txt; confecção de programas para
extração do título e das palavras-chave de cada artigo gerando as bases de dados de artigo e de
palavra-chave; geração de dados estatísticos da ocorrência de palavras-chave nos títulos;
categorização dos artigos cujas palavras-chave não existiam nos títulos; análise quantitativa e
qualitativa dos dados.
A amostra foi composta de 300 textos científicos, todos em língua portuguesa,
publicados entre 1999 e 2004, em duas coleções. A Tabela 1 apresenta o total de textos
classificados por coleção e ano de publicação, dados ilustrados pela Figura 2.
Tabela 1– Quantidade de artigos por ano em cada coleção
Ano
Ciência da Informação
DataGramaZero
1999
32
5
2000
26
16
2001
24
23
2002
31
24
2003
36
23
2004
32
28
Total
181
119
Percentualmente, 60% dos textos pertencem à revista Ciência da Informação e 40% à
revista DataGramaZero. Se classificada por ano, a freqüência de artigos tem um crescimento
linear, sendo que os anos de 2002, 2003 e 2004 são aqueles em que há maior ocorrência de
textos.
A base de palavras-chave foi constituída por 957 palavras-chave. Destas, Destas, 523
originaram-se apenas de textos da revista Ciência da Informação; 349 da revista
DataGramaZero e 85 das duas revistas, simultaneamente. A Figura 3 apresenta esses números
em percentuais.
28 32
23
36
24
31
23
24
26
32
Ano
2003
2001
16
5
1999
0
10
20
30
Dasduas
revistas
9%
40
Datagrama
Ciênciada
Zero
Informação
36%
55%
Qtde de artigos
Ciência da Informação
DataGrama Zero
Figura 2- Quantidade de artigos por ano de
coleção
Figura 3 Distribuição percentual da ocorrência
de palavras-chave nos títulos das coleções
Foram então geradas e armazenadas em bases de dados as estatísticas de ocorrência
das palavras-chave nos títulos dos artigos. Na Revista Ciência da Informação foram
encontrados 137 artigos com alguma palavra-chave em seu título, correspondendo a 76% dos
artigos desta coleção. Na Revista DataGramaZero foram encontrados 94 artigos com alguma
palavra-chave em seu título, correspondendo a 79% desta coleção.
Não foi possível recuperar quando a Revista Ciência da Informação incorporou em
suas regras de submissão a recomendação da existência de palavras-chave no título. Nesta
revista 44 artigos não possuíam nenhuma de suas palavras-chave em seu título,
correspondendo a 24% dos artigos desta coleção. A Figura 4 apresenta uma distribuição dos
artigos onde não foram encontradas as palavras-chave por ano de publicação.
QUantidade de Artigos
14
12
13
12
10
10
8
7
6
6
4
4
2
0
0
2
1
7
5
CIência da
Informação
Datagrama Zero
2
1999 2000 2001
2002 2003 2004
Ano
Figura 4 – Quantidade de artigos sem ocorrência de palavras-chave por ano/coleção
Seguindo o experimento, foram separados os 69 artigos cujas palavras-chave não
ocorriam em seus títulos e verificado se suas palavras-chave ocorriam em outras unidades de
texto eleitas: resumo, corpo do texto e referências bibliográficas.
4.1 ANÁLISE DOS DADOS
Os artigos que possuíam suas palavras-chave em seus títulos foram considerados como
artigos de títulos coerentes com o seu conteúdo. Os artigos foram analisados e foi confirmada
esta hipótese: não foram encontrados nesse grupo artigos cujo título fosse inconsistente com
seu assunto. Porém, curiosamente, encontrou-s um artigo com uma maior e aparente
criatividade na construção de seu título:“O unicórnio (o rinoceronte, o ornitorrinco), a
análise documentária e a linguagem documentária” que possuía as palavras-chave indicadas
no artigo: análise documentária; linguagem documentária; informação documentária;
terminologia; lingüística; semiótica.
A análise do texto confirma que a criatividade foi utilizada pelo autor como forma de
chamar atenção para o artigo. O texto tem como ponto de partida o trecho Marco Polo e o
unicórnio, do livro "Kant e o ornitorrinco", de Umberto Eco, e o autor realiza uma leitura
exploratória criando um paralelo entre o processo de conhecimento e o processo de
representação da informação documentária.
Os artigos cujas palavras-chave não existiam no título foram analisados e distribuídos
em grupos conforme o problema encontrado. A não ocorrência das palavras-chave deu-se,
principalmente, devido:
a) a diferenças de grafias, encontradas em dois grupos distintos: diferenças por plural e
singular e diferenças por construção linguística distinta.
As diferenças de apresentação de plural e singular entre palavras do título e palavraschave ou vice versa ocorreram em quatorze artigos, 20,29% dos casos onde não ocorriam
palavras-chave nos títulos. São exemplos disto:
Título: Webmuseus: aparatos informacionais ...
Palavras-chave: webmuseu; aparto informacional
Título: Biblioteca digital de ...
Palavras-chave: bibliotecas digitais; ...
Estes artigos poderiam ser considerados como possuindo palavras-chave no título,
porém, escolheu-se apresenta-los aqui para ressaltar que em experimentos futuros que
envolvam coincidências de palavras, a questão do plural e do singular deve ser considerada.
As construções lingüísticas distintas entre títulos e palavras-chave e ou emprego de
sinônimos referem-se a escolhas de grafias distintas que fazem os autores entre palavras do
título e palavras-chave. Isto não representa ausência de representação das palavras-chave no
título. Porém, a utilização de filtros ou inteligência na programação durante a comparação de
palavras aumentaria a complexidade do experimento, exigindo um dicionário robusto para
selecionar a possibilidade de sinônimos para as palavras. O ideal é que autores tenham sempre
a mesma conduta na construção linguística entre títulos e palavras-chave. Este fato foi
observado em sete artigos equivalentes a 10,14% dos casos onde não ocorriam palavraschave nos títulos. Exemplificam o fato:
Título: ... uma abordagem bibliométrica
Palavras-chave: bibliometria; ...
Título: ... educação e comunicação ....
Palavras-chave: comunicação e educação
Os artigos contidos neste grupo foram analisados e nenhuma inconsistência entre título
e conteúdo do artigo foi encontrada.
b) a títulos específicos e indicação de palavras-chave genéricas ou vice-versa. Isto são
escolhas dos autores e precisam ser respeitadas. Para os processos de recuperação de
informação é importante que palavras-chave e títulos coincidam de alguma forma e a escolha
deste tipo de construção deve implicar em sintonias entre essas palavras. Os termos utilizados
nas palavras-chave devem ao mesmo seguir regras que localizam o assunto do texto de forma
mais abrangente, mas também devem facilitar aos leitores em suas especificidades.
Geralmente, o número de palavras-chave recomendadas pelos periódicos gira em torno de
cinco palavras, o suficiente para se dar noção do todo e do objeto específico.
A ocorrência de problemas relacionados a títulos específicos e indicação de palavraschave genéricas ou vice-versa ponto foi observada em doze artigos, 17,39% dos casos. São
exemplos destas ocorrências.
Título: Áreas do conhecimento
Palavras-chave: Organização do Conhecimento; Representação do Conhecimento;
Classificação do Conhecimento; Classificação em Ciência e Tecnologia;
Classificação de Projetos de Pesquisa e Desenvolvimento
Título: A formação profissional no século XXI: desafios e dilemas
Palavras-chave: educação dos bibliotecários; profissional da informação
Nenhuma inconsistência entre título e conteúdo foi encontrada nestes artigos.
c) ao emprego de pré-coordenação nas palavras-chave. Isto é fato comum e fácil de
observar em textos científicos. Embora os autores na maioria das vezes dominem o universo
do discurso de sua área de atuação, existe uma tendência em pré-coordenar palavras-chave
como tentativa de coincidência destas com o conteúdo do artigo. A ordem como fazem isto
muitas vezes é distinta da ordem como entram as palavras nos títulos, inviabilizando a
conferência da existência das palavras-chave no título. Além disso, palavras-chave são
utilizadas em recuperação com artifícios de pós-coordenação. Seria ideal que as revistas
disponibilizassem orientação aos autores neste sentido. O fato foi observado em 32 artigos,
46,38% dos casos, nenhum deles entretanto apresentou inconsistência entre títulos e
conteúdos.
d) a títulos mais criativos, com emprego de metáforas ou de palavras com duplo
sentido. Esse tipo de construção é contra indicado pelos autores Gonzalez (2003), França et
al.(2004) e Cunha (2004) assim como é desaconselhado por regras de revistas científicas. Mas
são escolhas dos autores. Foram encontrados nessa condição quatro artigos, correspondendo a
5,80% dos casos. Embora as palavras-chave desses artigos estejam em conformidade com seu
conteúdo, a ausência no título deve-se pela construção escolhida. Foram eles:
Título: O olhar da consciência possível sobre o campo científico
Palavras-chave: Teoria da ciência da informação; Sociologia da informação; História da
ciência da informação; Comunicação científica; Responsabilidade social.
Título: A explosão do filósofo e a obsessão de informação
Palavras-chave: Explosão da Informação; Crescimento do Conhecimento; Sociedade da
Informação; Obsessão Social.
Título: A liberdade das vozes
Palavras-chave: Liberdade da Informação; Tecnologia e Inovação; História da
Informação; Geração de Conhecimento.
Título: A informação em seus momentos de passagem
Palavras-chave : criação da informação; contexto da informação; gerenciamento da
informação; agentes inteligentes; análise textual; ciência da informação
Como alternativa à análise dos dados, buscou-se o resultado do processamento das
palavras-chave nas outras unidades de texto (resumo, corpo do texto e referências
bibliográficas) para os artigos que não possuíam palavras-chave nos títulos.
Verificou-se que em 36% (25 textos) elas não foram encontradas nos resumos; que
13% (nove textos) não possuíam nenhuma de suas palavras-chave no corpo do texto e em
58% (40 textos) nas referências bibliográficas.
Foi então atribuída uma categoria para a análise destes artigos obedecendo a uma
hierarquia de prioridade entre resumo, corpo do texto e referências bibliográficas, através dos
seguintes critérios: 1º) artigos onde as palavras-chave ocorreram no resumo; 2º) artigos onde
as palavras ocorreram no corpo do texto e não ocorreram no resumo; 3º) artigos onde as
palavras-chave ocorreram nas referências bibliográficas e não ocorreram no resumo e no
corpo do texto; 4º) artigos onde as palavras não ocorreram no resumo, no corpo do texto e nas
referencias bibliográficas. Assim, na Tabela 2 se o artigo possui uma de suas palavras-chave
no resumo, independente dele possuir essa palavra-chave no corpo do texto ou nas referências
bibliográficas, ele foi adicionado apenas ao quantitativo de resumo. Análogo para corpo do
texto e referências bibliográficas.
Tabela 2 – Ocorrência das palavras-chave dos artigos sem palavras-chave nos títulos
Categoria de ocorrência das palavras-chave
Pelo menos no resumo
Pelo menos no corpo do texto
Pelo menos nas referências bibliográficas
Não ocorre no resumo, no texto e nas referências bibliográficas
Total de artigos
44
16
1
8
A análise dos artigos através deste agrupamento não acrescentou novos pontos de
análise aos o que já se conhecia anteriormente: grafias diferentes, títulos específicos com
palavras-chave genéricas ou vice-versa, pré-coordenação de palavras-chave e excesso de
criatividade nos títulos.
Na realidade, o maior problema encontra-se no fato de indicação das palavras-chave e
não nos títulos dos artigos. As revistas científicas precisam atentar para a orientação aos
autores nesse sentido.
Trabalhos futuros devem levar em conta algum tipo de reconhecimento para os
problemas de grafias distintas: plural e singular, masculino e feminino, etc.
A verificação das palavras do título nas unidades de texto apresentou uma quantidade
de 22 artigos que possuíam palavras que só ocorriam no título. A análise destes artigos
mostrou que este também pode ser um caminho, mas no caso das coleções aqui utilizadas não
representava títulos com inconsistência com o conteúdo.
5. CONCLUSÃO
Foram separados artigos de duas revistas científicas disponibilizadas na Web.
Verificou-se a ocorrência de palavras-chave nos títulos destes artigos. Alguns artigos não
possuíam palavras-chave em seus títulos. O fato decorre de problemas muito mais devido à
indicação de palavras-chave do que a problemas de inconsistência entre títulos e conteúdos.
Apenas quatro artigos onde nos títulos não ocorrem as palavras-chave indicadas, pouco mais
que 1% da amostra, possuíam algum problema entre os títulos e os conteúdos devido a
criatividade dos autores.
Uma análise qualitativa da amostra foi feita apenas posterior ao experimento.
Verificou-se que não existiam títulos inconsistentes com o conteúdo nestas bases. O que
sobressaiu também nesta análise foram os títulos já mencionados como mais criativos.
Acredita-se que em bases de artigos com problemas de inconsistência entre textos e títulos os
quantitativos aqui apresentados apontem com maior índice o problema.
Reconhecer títulos não consistentes com o conteúdo de forma automatizada é um
problema a ser resolvido. As palavras-chave podem ser um caminho. A presença de palavraschave em títulos de artigo deve ser um indicativo a ser observado durante o processo de
submissão para a verificação do título junto ao conteúdo do artigo. Acredita-se também que as
revistas digitais poderiam ter vocabulários controlados construídos a partir destas palavras.
Isto facilitaria os autores na construção de títulos e na designação de palavras-chave.
Procedimentos neste sentido facilitariam a busca e o encontro de documentos frente à
necessidade dos usuários.
BIBLIOGRAFIA
ARENDS, L. Las revistas médicas venezolanas: evaluación de su cualidad. Acta Cient.
Venezolana. V. 19, p. 145-151, 1968.
ARAÚJO, Vânia M. R. H. Sistemas de recuperação da informação – SRIs. In: ___. Sistemas
de recuperação da informação: nova abordagem teórico-conceitual. 1994. Tese (Doutorado
em Comunicação e Cultura) – Escola de Comunicação, Universidade Federal do Rio de
Janeiro, Rio de Janeiro, 1994. cap. 5, p. 84-122.
BRAGA, G. M., OBERHOPER, A. Diretrizes para avaliação de periódicos científicos e
técnicos brasileiros. Ver. Lat., n. 1, p. 27-31. ene./jun., 1982.
CASTELLS, Manuel. A revolução da tecnologia da informação. In: ______. A sociedade em
rede. 2. ed. São Paulo: Paz e Terra, 1999. v.1, p. 49-86.
CIÊNCIA DA INFORMAÇÃO. Brasília: IBICT, v. x, n.y, ago.2004. Disponível em
<http://www.ibict.br/cienciadainformacao>. Acesso 9 dez 2004.
CUNHA, H. R. S. Padrão PUC Minas de normalização: normas da ABNT para apresentação
de
artigos
em
periódicos
científicos.
Disponível
em:
<www3.pucminas.br/documentos/normalizacao_artigos.pdf>. Acesso em: 27 fev. 2005.
DATAGRAMAZERO - Revista de Ciência
<http://www.dgz.org.br/> . Acesso em: 9 dez.2004.
da
Informação.
Disponível
em:
FRANÇA, J. L. et al. Manual para normalização de publicações técnico-científicas. 7.ed. rev.
e aum. Belo Horizonte: UFMG, 2004.
GONZÁLEZ, Javier Ortega. El título en las publicaciones científicas: algunos consejos para
su estructuración. Revista Médica IMSS, México, v. 4, n. 41, p.355-358, jul. Ago. 2003.
KRZYZANOWSKI, R.F.; FERREIRA, M. C. G. Avaliação de periódicos científicos
brasileiros. Ciência da Informação, Brasília, v.27, n.2, p.165-169, maio/ago.1998.
LEMOS, Antônio Agenor Briquet de. Presente e futuro do periódico científico. Correio
Braziliense, Brasília, 13 jul. 1968. Caderno Cultural, p. 3. Disponível em: <
http://www.briquetdelemos.com.br/editor1.htm>. Acesso em: 20 out. 2005.
LOPES NETO, D. et al. Análise de títulos de artigos de pesquisas publicadas em um
periódico brasileiro de enfermagem. Revista Latino-Americana de Enfermagem, Ribeirão
Preto, v.10, n.1, p.77-84, jan./fev. 2002.
MEADOWS, A. J. A comunicação científica.Brasília:Briquet de Lemos/Livros, 1999. 268 p.
MURRIEL, Gatti. ¿Por qué prestar atención al lenguaje? Boletín Informativo de Temas
Lingüísticos del Departamento Académico de Humanidades de la Universidad del Pacífico,
Lima,
v.1,
n.1,
jul.
1998.
Disponível
em
<http://www.up.edu.pe/coine/Boletin1/TRASFOND.HTM>. Acesso em: 10 jun. 2005.
SALTON, Gerard; McGILL, Michael J. Introduction to modern information retrieval. New
York: McGraw Hill Book, 1983.
SARACEVIC, T. Evaluation of evaluation in information retrieval. In: ANNUAL
INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT
IN INFORMATION RETRIEVAL, 18., 1995. Seattle. Actas... Seattle: ACM Press, 1995.
p.138-146.
VALÉRIO, Palmira Moriconi. Espelho da Ciência: avaliação do Programa Setorial de
Publicações em Ciência e Tecnologia da FINEP. Brasília: FINEP/IBICT, 1994.
Download

1 Introdução - ENANCIB - Encontro Nacional de Pesquisa em