REVISÃO DE VOCABULÁRIO CONTROLADO E CRITÉRIOS PARA A SELEÇÃO DE LITERATURA: o caso da área de Estatística e Probabilidade do ICMC/USP Juliana de Souza Moraes1, Gláucia M. S. Cristianini2 1 Mestrado em Ciência da Informação, Bibliotecária da Biblioteca Professor Achille Bassi, do Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo, São Carlos, SP. 2 Mestrado em Ciência da Informação, Diretora Técnica da Biblioteca Professor Achille Bassi, do Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo, São Carlos, SP. RESUMO Trata sobre a manutenção de linguagens documentárias, em especial sobre a etapa de revisão da terminologia da área de Estatística e Probabilidade do Vocabulário Controlado do SIBi/USP. Pretendeu, além da revisão dos termos propriamente dita, compartilhar a experiência e o processo metodológico aplicado. O método foi fundamentado no consenso ou endosso do usuário e na garantia literária, sendo que para esse estudo houve um diferencial: foram emprestados da Linguística de Corpus os critérios usados na construção de corpus e esses foram aplicados na seleção da literatura representante da etapa garantia literária. Em decorrência disso, o Glossário da Associação Brasileira de Estatística foi selecionado. Quatro pesquisadores da área foram sorteados para serem os juízes na análise dos termos, representando a etapa endosso do usuário. Como resultado da revisão houve pequena quantidade de alteração na terminologia então existente, porém, acredita-se que representem significativa alteração qualitativa. Palavras-Chave: Linguagens documentárias; Vocabulários controlados; Terminologia. ABSTRACT This is about the maintenance of documentary languages, especially on the step of revising the terminology in the area of Statistics and Probability of Controlled Vocabulary SIBi/USP. Intended, beyond the proper review of the terms, share the experience and the methodology applied. The method was based on consensus or endorsement of the user and ensuring literary, and for this study there was a difference: they were borrowed from the Corpus Linguistics criteria used in building corpus and these were applied in the selection of literature representative of the literary stage guarantee. As a result, the Glossary of the Brazilian Association of Statistics has been selected. Four researchers from the area were randomly selected to be judges in the analysis of the terms, representing the step endorsement of the user. As a result of the review there was a small amount of change in existing terminology then, however, is believed to represent a significant qualitative change. Keywords: Documentary languages; Controlled vocabularies; Terminology. 1 INTRODUÇÃO A atualização das linguagens documentárias é um ponto crítico conhecido para quem administra sistemas de informação, para quem trabalha diretamente com as tarefas de representação da informação e para os usuários. Quando se faz a opção pela construção local dessas linguagens e não pela aquisição de exemplares disponíveis no mercado imagina-se atenuar esse ponto crítico, atualizando-as com maior freqüência e imprimindo nelas o contexto do próprio sistema de informação. A revisão da terminologia utilizada nas linguagens documentárias é uma das etapas nesse processo de atualização e a escolha de critérios para a seleção da terminologia passa a ser também uma questão de importância. Dando continuidade à revisão do Vocabulário Controlado do Sistema Integrado de Bibliotecas da USP, a área de Estatística e Probabilidade foi revisada com o método utilizado nas áreas de Ciência da Computação e de Matemática do mesmo vocabulário. Pretendeu-se, além de revisar a área, compartilhar essa experiência, especialmente no seu aspecto metodológico, visando apoiar iniciativas locais. 2 CONTEXTO: BREVE REVISÃO DA LITERATURA As linguagens documentárias são instrumentos há muito conhecidos e utilizados pelos bibliotecários no auxílio das tarefas de representação temática da informação. Observa-se que além do conhecimento técnico do profissional tais linguagens têm grande responsabilidade pela seleção dos pontos de acesso à informação de determinado objeto, uma vez que têm a função primordial de orientar a seleção desses pontos de acesso considerando n variáveis. Os vocabulários controlados são um tipo de linguagem documentária e construídos para promover a organização e a busca da informação em sistemas de recuperação, sistemas de navegação da internet e outros ambientes de pesquisa para identificação e localização de conteúdos. Eles podem estar na forma de uma simples lista de termos, uma taxonomia ou um extenso tesauro com complexa estrutura hierárquica e diversos tipos de relacionamentos entre os termos (NATIONAL, 2005). O Sistema Integrado de Bibliotecas da USP (SIBi/USP) há muito optou pela construção do seu próprio vocabulário, com iniciativa considerada desafiadora em meados dos anos 80 e inovando desde então, onde, atualmente, conta com seu próprio sistema de gestão por meio da web. Através dele a comunidade de bibliotecários indexadores colabora com a manutenção do repertório terminológico do Vocabulário a partir da sugestão de alterações nos termos, sejam diferentes inserções (novos termos, remissivas, notas de escopo) e até mesmo de exclusão. Já a revisão total das áreas de conhecimento do Vocabulário é um trabalho contínuo, que conta com a participação de integrantes do Grupo Gestor do Vocabulário e também de bibliotecários indexadores. É justamente a preocupação com a manutenção, incluindo a etapa das revisões terminológicas, que torna um vocabulário controlado atualizado com a área que pretende representar e um instrumento auxiliar útil e coerente com o seu propósito. A esse respeito Kobashi (2007) cita a manutenção das linguagens documentárias como um desafio permanente, pois deve estar atualizada o bastante para que possa atender à sua função de comunicação. E a terminologia aparece como matéria-prima das linguagens documentárias e também como método na elaboração e sustentabilidade da estrutura das mesmas, dependendo do seu enfoque, seja o concreto ou o teórico-metodológico, respectivamente (BARROS, 2004). Desde 2004 o Instituto de Ciências Matemáticas e de Computação da USP (ICMC/USP) é responsável pela revisão terminológica total de duas áreas do Vocabulário Controlado do SIBi/USP: a Ciência da Computação e a Matemática. Após estudos, para a concretização das revisões, optou-se pela garantia literária e pelo consenso ou endosso do usuário como formas de prospectar novos termos e relacionamentos bem como de confirmar o efetivo uso dos mesmos. Essa opção foi fundamentada nas teorias de Lancaster (1987) quando afirma que esse procedimento metodológico, de coleta de termos a partir do usuário da informação, é reconhecidamente uma das maneiras de compilação e validação da terminologia para a elaboração de linguagens documentárias, e é denominado “garantia do uso comum, endosso do usuário ou consenso”. E, ainda, que “um termo se justifica apenas se ocorre dentro da literatura recente de um determinado assunto, e com algum grau de freqüência”. Com a experiência das revisões anteriores e a respeito da literatura citada por Lancaster, observou-se que muitas variáveis estão presentes no momento da escolha da literatura que atuará como a fonte de informação e validação dos termos de um vocabulário. Não ter critérios para controlar tais variáveis passa a ser um problema no fechamento do processo metodológico, pois além de dificultar a escolha propriamente dita diante de muitas opções de literatura, ainda pode encaminhar tal escolha em função de critérios subjetivos, não formalizados, portanto, tendenciosos. Nesse cenário a fonte de informação seria selecionada já antevendo os resultados pretendidos, não sendo fonte de validação íntegra e imparcial. Nesse raciocínio a Linguística de Corpus foi consultada e introduzida ao contexto da Ciência da Informação, da revisão terminológica para vocabulários controlados, com o objetivo de orientar na seleção da literatura ou fonte de informação. Nesse estudo tratouse a literatura como um corpus a ser ‘construído’ para a etapa de consulta dos termos, embora na prática tenha sido uma seleção e não construção. A Linguística de Corpus ocupa-se da coleta e da exploração de conjunto de dados linguísticos textuais como fonte para pesquisa de uma língua ou variedade linguística, explica Sardinha (2004). O corpus é, assim, esse conjunto de dados linguísticos. É uma coleção de partes de textos, num determinado idioma, armazenada de forma eletrônica, selecionada de acordo com critérios externos para representar, na medida do possível, uma língua ou variedade de língua, como fonte de dados para a pesquisa linguística (SINCLAIR, 2004). Observando que a pesquisa pode ser um estudo de uso de formas lingüísticas. Os critérios adotados pela Linguística de Corpus e utilizados na seleção da literatura foram representatividade dos textos, tempo, tamanho ou extensão, equilíbrio e balanceamento, especificidade e homogeneidade. E embora Sinclair (2004) comente que bom senso e intuição são elementos necessários na construção dos corpora uma vez que os princípios norteadores não são tão bem delimitados, tais critérios certamente norteiam com certa disciplina e coerência a escolha do corpus. A representatividade está muito associada à questão do tamanho do corpus, da sua extensão. Supõe-se que quanto maior o corpus, maiores são as chances de cercar as possibilidades existentes da área estudada. Esse critério também está associado à outra questão, a da amostra. A literatura selecionada precisa ser uma amostra real e satisfatória do universo que ela pretende representar, mas é fato que não há números ou referenciais para definição e posterior comprovação ‘científica’ da representatividade de um texto. O critério tamanho e extensão tratam objetivamente sobre o número de palavras dos textos escolhidos, assim como o critério tempo trata objetivamente sobre períodos de tempo considerados, um ou vários, atuais ou históricos. O critério equilíbrio e balanceamento está vinculado a corpus construído com diferentes tipos de textos, e para um corpus ser pronunciado equilibrado deve haver proporções balanceadas entre os diferentes tipos de texto, sempre considerando o que ocorre no universo real de estudo. A especificidade e homogeneidade dizem respeito a textos de temas específicos, autores específicos, gêneros específicos e assim por diante. Esse critério resulta em um corpus especializado e muitas vezes muito representativo por trabalhar e estudar uma parcela restrita de todo um universo de possibilidades (KENNEDY, 1998; SARDINHA, 2004; SINCLAIR, 2004). A literatura sobre Linguística de Corpus é vasta e muitas são as aplicações e vantagens do uso de corpora. Esse estudo, com o uso dos critérios acima citados, é um pequeno e tímido início dessa aplicação para a área das linguagens documentárias. Acredita-se que a Linguística de Corpus, sua teoria somada às ferramentas computacionais existentes, tem muito a contribuir com a Ciência da Informação. 3 MÉTODO, MATERIAIS E ANÁLISE DOS DADOS O método empregado está fundamentado na garantia literária e no consenso ou endosso do usuário, já proposto por Moraes & Cristianini (2006, 2008) nas revisões das áreas de Ciência da Computação e Matemática. O consenso ou endosso do usuário, também chamado de garantia de uso, visa privilegiar a abordagem temática adotada pelos usuários reais em situação de recuperação da informação, segundo Moura et al (2005). A ideia é que o repertório terminológico da linguagem documentária represente de maneira mais real e precisa possível a forma como determinada comunidade busca a informação desejada. Retomando as etapas do processo metodológico, tem-se: escolha de juízes usuários da área em questão; seleção da literatura da área; checagem da literatura; análise dos dados; elaboração da proposta; correções e alterações, elaboração da proposta final e implementação. Para a seleção da literatura representante da etapa garantia literária foram utilizados os critérios representatividade dos textos, tempo, tamanho, equilíbrio e balanceamento, especificidade e homogeneidade; todos emprestados da Linguística de Corpus. Dentre as fontes disponíveis o Glossário da Associação Brasileira de Estatística1 (ABE) foi o selecionado, sendo características determinantes o texto estar redigido no idioma Português do Brasil e a facilidade de pesquisa dos termos. Os bancos de dados Current Index to Statistics (possui 160 periódicos da área e 11 mil livros) e MathSciNet (possui o Mathematical Reviews, o Current Mathematical Publications e a Mathematics Subject Classification) foram também apontados, mas não participaram da etapa da garantia literária. Para o consenso ou endosso do usuário foram selecionados por sorteio quatro pesquisadores pertencentes ao Departamento de Matemática Aplicada e Estatística do ICMC/USP. A partir do vocabulário existente os pesquisadores opinaram em conjunto sobre todos os termos segundo os aspectos: desconhecimento do termo, qualidade da tradução, organização hierárquica, desuso e necessidade de exclusão e, por último, 1 http://redeabe.org.br/abe.htm sugestão de novos termos, conforme mostra a Tabela 1. Essas opiniões foram registradas e confrontadas com a literatura de consulta. Tabela 1 – Roteiro com os aspectos analisados e seus identificadores Identificador Aspecto ou Problema identificado no termo D Desconhecimento do termo T Qualidade da tradução L Organização hierárquica, lugar no vocabulário E Exclusão e desuso N Novo termo; acréscimo Além da consulta ao Glossário da ABE, esses termos foram também consultados em todo o Vocabulário Controlado do SIBi/USP, com o objetivo de verificar se já estavam contemplados em outras áreas do conhecimento. A análise dos dados foi qualitativa e a necessidade da presença do termo nas duas etapas do método (consenso ou endosso do usuário e garantia literária) ficou relacionada ao aspecto considerado. Para os aspectos ‘exclusão’ e ‘termos desconhecidos’ foi considerada obrigatória a presença do termo nas duas etapas para que a alteração fosse realizada no vocabulário. Isso foi necessário visto que as alterações resultantes desses aspectos é a retirada dos termos do vocabulário e por ser uma ação radical é essencial ter a máxima garantia de que tais termos realmente não são mais necessários no universo que está sendo revisado. Não estar presente na literatura da área e, paralelamente, no ambiente dos juízes, sugere o pouco ou nenhum uso e importância do termo. Reforça essa ideia Moreira e Moura (2006) quando dizem que mesmo necessária só a garantia literária não é suficiente para legitimar a entrada de termos uma vez que aqueles utilizados na escrita pelos autores nem sempre equivalem aos utilizados na recuperação da mesma informação. Por outro lado, para os aspectos ‘tradução’, ‘organização hierárquica’ e ‘novos termos’ foi considerado necessário estar presente em pelo menos uma das etapas, pois a alteração resultante desses aspectos é a inserção do novo termo ou da sua nova forma ou local, o que ainda com certo trabalho é passível de nova alteração e retorno à sistematização original. Tabelas foram geradas para a organização dos dados resultantes, conforme ilustrado abaixo. Tabela 2 – Exemplo de tabela gerada com os dados resultantes Termo Modelos não lineares (Análise de séries temporais) Séries espaciais e direcionais Sistemas não lineares Análise de dados Modelos aleatórios Aspecto / Exclusão Código original Endosso / Juízes CE631.1.7 Exclui CE631.1.11 CE631.1.13 CE631.2.4 CE631.2.20 Exclui Exclui Exclui Exclui Glossário ABE Modelo não-linear Não existe Não existe Análise de dados Não existe Os termos que obedeceram as considerações necessárias para as etapas do processo metodológico, conforme seu tipo de aspecto, foram separados para entrarem na nova terminologia de Estatística e Probabilidade; os que não cumpriram foram separados para comporem uma lista de candidatos a termos. Terminada a consulta à literatura e tendo organizado os dados dela resultantes, a estrutura do vocabulário foi reescrita em função das indicações dadas pelos juízes pesquisadores, pelo Glossário da ABE e pelo Vocabulário Controlado do SIBi/USP. Foram feitas as alterações a seguir: novas traduções, novas relações de sinonímia, qualificadores para os termos homógrafos e duplicados no Vocabulário, realocação de termos na hierarquia e acréscimo de termos. Os termos excluídos foram organizados e separados em tabela para futuras consultas, se necessárias, e ainda para registro do histórico e gerenciamento do vocabulário. Até o presente momento a revisão da terminologia da Estatística e Probabilidade está na fase de correção e aprovação por parte do Grupo Gestor do Vocabulário Controlado do SIBi/USP. Após, será devolvido para esclarecimento de dúvidas e ajustes, se houver, e será imediatamente implementado para uso no banco de dados bibliográficos da USP – Dedalus. 4 RESULTADOS E ANÁLISE A Tabela 3 apresenta os dados organizados e reunidos segundo as maiores ocorrências e as etapas do processo metodológico realizadas. Tabela 3 – Resultado do endosso dos usuários e indicação da obrigatoriedade das duas etapas para as alterações dos termos Aspecto No. de termos Percentual (%) Exclusão e desuso (E) Qualidade da tradução (T) Desconhecimento do termo (D) Organização hierárquica (L) Novo termo (N) 22 20 9,6 8,7 Endosso do usuário Obrigatório Obrigatório Garantia Literária Obrigatório Não obrigatório 07 3 Obrigatório Obrigatório 02 0,9 Obrigatório Não obrigatório 02 0,9 Obrigatório Não obrigatório A partir dos dados do endosso do usuário sugere-se, primeiramente, que o então vocabulário de Estatística e Probabilidade estava desatualizado e necessitando de revisão, tendo em vista o número de sugestões de exclusões, que representaram 9,6%. Os motivos apresentados para a exclusão foram a não pertinência à área em questão e existência de remissivas desnecessárias. Para esse aspecto a etapa da garantia literária foi considerada obrigatória e dos termos assinalados pelos juízes para exclusão 68% deles não constam no Glossário da ABE. Esses termos foram retirados do Vocabulário. O segundo aspecto relevante é a qualidade da tradução dos termos do vocabulário; supõe-se que não sejam as traduções utilizadas e conhecidas da área uma vez que houve significativa discordância das traduções presentes no vocabulário, 8,7% dos termos. Além da tradução propriamente dita, mas utilizando esse aspecto, os juízes fizeram observações a respeito da preferência de termos, das formas singular e plural e da ortografia. Esse aspecto considerou obrigatória a presença dos termos em pelo menos uma das etapas, assim, os termos marcados pelos juízes e as alterações sugeridas foram integralmente implementadas no Vocabulário. Em seguida, 3% dos termos pontuaram os termos desconhecidos, o que pode trazer à tona o método utilizado para a primeira composição desse vocabulário e qual referencial de usuário foi considerado. Para esse aspecto a presença na etapa garantia literária é obrigatória, portanto, após consulta, dentre o percentual de termos desconhecidos apenas 14% deles foi encontrado na literatura, o que corrobora com a preocupação sobre a primeira composição dessa área para o Vocabulário. Os termos assinalados pelos juízes como desconhecidos e não encontrados na literatura foram retirados do Vocabulário. O aspecto ‘novos termos’ foi citado pelos juízes em apenas 0,9%, de onde se pode inferir que o Vocabulário existente está completo e sem necessidade de um volume significativo de acréscimos. Porém, ainda sob a perspectiva do endosso dos usuários, uma sugestão foi marcada pelos juízes apontando a necessidade de inserção de todos os termos presentes no Glossário da ABE não contemplados no Vocabulário Controlado do SIBi/USP. Esse aspecto não contou com a etapa da garantia literária e todos os termos sugeridos formalmente (0,9%) foram implementados no Vocabulário. O aspecto da organização hierárquica foi o menos mencionado pelos juízes, 0,9%, o que sugere que a estrutura do Vocabulário está de acordo com a forma como a comunidade da área compreende e visualiza seu universo. Os juízes indicaram o local mais adequado na hierarquia existente para os termos assinalados nesse aspecto. A garantia literária não foi etapa considerada obrigatória nesse aspecto, inclusive por não poder contribuir uma vez que o glossário selecionado não oferece uma disposição hierárquica dos termos além da lista alfabética e algumas remissões. As alterações de hierarquia sugeridas foram implementadas no Vocabulário. 5 CONSIDERAÇÕES A revisão do vocabulário de Estatística e Probabilidade foi concluída e pretendeu atualizar o repertório terminológico da área bem como sua estrutura hierárquica e as relações de sinonímia. Sob o ponto de vista quantitativo observou-se pequena mudança, pouco mais de 20% do vocabulário foi alterado, estando esse número dentro do padrão esperado. Entretanto, acredita-se que qualitativamente houve mudança significativa que certamente trará melhorias para os profissionais que trabalham com as tarefas de representação da informação e para os usuários. As causas apresentadas para a sugestão de alteração de termos no Vocabulário existente foram, em ordem decrescente: não pertinência à área em questão, remissivas desnecessárias, traduções impróprias, formas não preferidas, formas singular e plural não utilizadas, ortografia errada, necessidade de novos termos, termos desconhecidos e organização hierárquica. Essas causam sugerem que o vocabulário então existente possui consistência em seu núcleo, tendo em vista sua organização hierárquica ser minimamente alterada. Considerando a sugestão de inserção de grande número de termos e de outros para exclusão pode-se sugerir que são alterações decorrentes do próprio desenvolvimento e dinâmica da área. Sob outro ponto de vista, os números indicaram que a revisão da área era mesmo necessária. O método tem sido um elemento muito pontuado e defendido nas revisões terminológicas realizadas pelos bibliotecários do ICMC para o Vocabulário Controlado do SIBi/USP. Além das outras vantagens advindas do método, é oportuno lembrar que o Vocabulário é uma linguagem documentária já em uso e com grande volume de termos. Aos que iniciam suas linguagens documentárias deve haver ênfase no método, na adoção de um padrão para sua construção e revisão. Estando a garantia literária como uma das bases do método empregado, a seleção da literatura a ser utilizada como fonte de informação para os termos é também um elemento importante. Sugere-se, nesse ponto, maior conhecimento e estudo sobre a construção de corpus, sobre suas vantagens para a área das linguagens documentárias, inclusive como demonstração real da prática da interdisciplinaridade, tão presente na Ciência da Informação. 6 REFERÊNCIAS BARROS, L.A. Curso básico de terminologia. São Paulo: EDUSP, 2004. KENNEDY, G. Introduction to corpus linguistics. Harlow, England: Addison-Wesley Longman, 1998. KOBASHI, N.Y. Fundamentos semânticos e pragmáticos da construção de instrumentos de representação de informação. Datagramazero – Revista de Ciência da Informação, v.8, n.6, dez. 2007. Disponível em: <http://www.dgz.org.br/dez07/F_I_art.htm>. Acesso em: 29 jun. 2010. LANCASTER, F.W. Construção MCT/CNPq/IBICT, 1987. e uso de tesauros: curso condensado. Brasília: MORAES, J.S.; CRISTIANINI, G.M.S. Terminologia em Ciência da Computação: revisão da área implementada no Vocabulário Controlado do SIBi/USP. In: SEMINÁRIO NACIONAL DE BIBLIOTECAS UNIVERSITÁRIAS, 15., 2006, Salvador. Anais... Salvador, BA: UFBA/SIBI, 2006. MORAES, J.S.; CRISTIANINI, G.M.S. Terminologia de Matemática: revisão da área para o Vocabulário Controlado da USP. In: SEMINÁRIO NACIONAL DE BIBLIOTECAS UNIVERSITÁRIAS, 16., 2008, São Paulo. Anais... Disponível em: <http://www.sbu.unicamp.br/snbu2008/anais/site/pdfs/3271.pdf>. Acesso em: 24 abr. 2010. MOREIRA, M. P.; MOURA, M.A M. Construindo tesauros a partir de tesauros existentes: a experiência do TCI - Tesauro em Ciência da Informação. DataGramaZero - Revista de Ciência da Informação, v.7, n.4, 2006. Disponível em: http://dgz.org.br/ago06/Art_01.htm. Acesso em 29 jun. 2010. MOURA, M. A et al. Linguagens de indexação em contextos cinematográficos: a experiência de elaboração do tesauro eletrônico do cinema brasileiro. Perspectivas em Ciência da Informação, v. 10, n.1, 2005. Disponível em: <http://portaldeperiodicos.eci.ufmg.br/index.php/pci/article/viewFile/302/105>. Acesso em 29 jun. 2010. NATIONAL Information Standards Organization. Guidelines for the construction, format, and management of monolingual controlled vocabularies, 2005. (ANSI/NISO Z39.19-2005). SARDINHA, T. B. Linguística de corpus. Barueri, SP: Manole, 2004. SINCLAIR, J. Developing linguistic corpora: a guide to good practice. Corpus and text – basic principles. 2004. Disponível em: http://ahds.ac.uk/creating/guides/linguistic-corpora/chapter1.htm. Acesso em 29 jun. 2010.