Uma Abordagem para o Gerenciamento de Tesauro Multilíngüe Baseado em Amostra de Textos Comparáveis Roosewelt L. de Andrade1,2, Percy Nohama1,2, Stefan P. Schulz3, Susanne Hanser3, Olena Medelyan3, Jeferson L. Bitencourt2, Kornel Markó3 1 Curso de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI), Universidade Tecnológica Federal do Paraná (UTFPR), Brasil 2 Programa de Pós-Graduação em Tecnologia em Saúde (PPGTS), Pontifícia Universidade Católica do Paraná, Brasil 3 Departamento de Informática Médica, University of Freiburg, Germany Resumo – Sistemas de Recuperação de Informações Multilingüe normalmente baseiam-se em tesauros e devido a fenômenos lingüísticos, o processo de criação e manutenção é complexo. Um tesauro é projetado para indexar e recuperar documentos num domínio específico. Este artigo descreve uma nova abordagem para auxiliar no gerenciamento da manutenção de um tesauro multilíngüe para a área médica, por meio de amostras representativas de textos bilíngües comparáveis para a detecção de potenciais representações ou classes de sinônimos ou relacionamentos semânticos que venham a prejudicar o desempenho do processo de recuperação de documentos médicos relevantes. A técnica também pode ser aplicada com a utilização de corpora comparáveis e apresentou resultados positivos apesar de utilizar-se de um tesauro consolidado. Palavras-chave: Recuperação de Informações Multilíngüe, Gerenciamento de Tesauro, Corpora Comparáveis. Abstract – Cross-Language Information retrieval system is normally a thesauri-based and due linguistics phenomena the building and the maintenance is complex. A thesaurus is designed for indexing and searching in a specific domain. The goal of this article is to introduce a novel approach to aid the manager of a medical multilingual thesaurus though bilingual samples of representatives texts in order to detect potential representations or classes of synonymous or semantics relationships which can reduce the performance of information retrieval process of relevant medical documents. The technique can also be applied through comparable corpora and it has shown positive result in spite of using a consolidated thesaurus. .Key-words: Thesaurus Management, Cross-Language Information Retrieval, Comparable Corpora. Introdução A linguagem médica apresenta uma combinação de desafios na área da Engenharia da Informação. As bases de documentos médicos, tanto na Web quanto nas bases de dados clínicos são extensas, dinâmicas e multilíngüe. Além disso, os usuários na busca de informações são diversificados. São diversos profissionais da área de saúde que utilizam jargões e outros termos específicos de cada área. Devido à riqueza de expressões, a implementação de sistemas que lidam com linguagens naturais torna-se complexa quando o objetivo é realizar buscas orientadas a conceitos. Diante desse cenário, um sistema de recuperação de informações precisa ter suporte em um tesauro, ou seja, um vocabulário controlado que responda a essas questões [1]. Tesauro no campo da informação e documentação é uma lista organizada de conceitos compilados que serve para indexar e recuperar documentos de um domínio. A idéia não se resume somente à definição de termos na construção do léxico, mas também tratar dos relacionamentos entre eles [2]. O tesauro possui diferentes funções no campo da informação e documentação. Pode ser utilizado para a normalização do vocabulário contido nos documentos, assim como para a construção de uma representação de documentos para uma abordagem de recuperação. De acordo com Foskett (1997), a idéia principal de se utilizar um tesauro é prover um vocabulário controlado de referência a um sistema de recuperação de informações – indexação e busca [3]. Basicamente, existem dois processos principais envolvidos na Recuperação de Informações: A indexação e a recuperação que, por sua vez, podem ou não estar fundamentadas em um tesauro. As abordagens para a construção de tesauro são basicamente duas: a manual e a automática. Normalmente, torna-se necessário e mesmo obrigatório construir manualmente o tesauro devido à complexidade de relacionamentos entre conceitos, as ambigüidades semânticas e o próprio dinamismo inerente a cada língua. A construção demanda muito tempo e sua manutenção é complexa [4]. Portanto, esse cenário necessita de procedimentos que possam auxiliar na monitorização do gerenciamento do tesauro de forma a manter certo nível de produtividade na sua montagem e a qualidade dessa pela manutenção. O objetivo deste trabalho é introduzir uma proposta de monitorização da manutenção através da utilização de amostras de textos comparáveis1 bilíngüe do domínio médico, visando o gerenciamento de tesauros multilíngüe. Pretende-se, por meio dela, detectar potenciais erros contemplados no tesauro. Como workbench, utilizou-se o Sistema Morphosaurus. ambíguas, podendo freqüentemente uma mesma forma corresponder a diferentes flexões de duas ou mais entradas lexicais distintas. Esse fato, aliado à abordagem de subwords, torna o trabalho mais interessante – e trabalhoso. Para linguagens técnicas como a medicina, a indexação de documentos baseados em entidades lexicais semanticamente atômicas mostrou-se muito útil [5]. Porém, equacionar questões relacionadas à delimitação sintática dos termos, relevância lexical, relevância semântica ou, até mesmo, relevância conceitual, não é uma tarefa fácil. Apesar do Sistema Morphosaurus possuir diretrizes que norteiem a criação e a manutenção do tesauro, há situações que são resolvidas pelo bom-senso. Sistema Morphosaurus O Sistema Morphosaurus estrutura-se sobre um tesauro no domínio médico. O tesauro permite certa coordenação no processo de indexação e recuperação de documentos, em um sistema usado para buscar textos potencialmente relevantes em grandes coleções de documentos. O tesauro do Projeto MorphoSaurus2 (MS) foi construído baseado em unidades lexicais semanticamente atômicas, relevantes ao domínio, nomeadamente subwords, basicamente em inglês, alemão e português. As unidades lexicais são agrupadas em classes de equivalências e relacionadas às suas possíveis acepções. Após a realização de um processamento de normalização morfossemântica de textos em linguagem natural, da qual são gerados identificadores semânticos – MIDs (Morphosaurus Identifiers), o sistema Morphosaurus permite a recuperação de documentos relevantes do domínio tanto intra quanto interlingual, pois nesse processo são extraídos fragmentos semanticamente significativos e mapeados para uma linguagem independente de seu identificador. Na figura 1, apresenta-se o modelo do sistema de normalização morfossemântica de documentos e expressões de busca (queries) baseado no tesauro de subwords. As formas gráficas (tokens) que constituem as palavras de um texto são muitas vezes 1 Corpora comparáveis são definidos como textos representativos em pares ou em múltiplas línguas que podem ser contrastadas e comparadas por se tratar de assuntos ou domínio com características comuns. Utilizou-se a expressão “amostra de textos” por se tratar de corpora de tamanhos reduzidos. 2 http://www.morphosaurus.com.br Figura 1 – Modelo Básico do Sistema MS Amostra de Textos Comparáveis Os problemas expostos apontam que uma solução automática para construção de um tesauro com a abordagem por subwords é quase que impossível. Esses problemas devem-se ao fato que os termos não são simplesmente palavras, mesmo que abaixo do nível estruturante da palavra, mas uma unidade com carga semântica inserida num contexto específico realizado por seres humanos. E como tal, sujeito a erros. Esses erros geram ruídos no sistema de recuperação de informação com um todo e precisam ser tratados. A maneira como até então estavam sendo tratados não era uma solução eficaz, pois, normalmente tratava-se de listar problemas pontuais mascarando outros tipos de problemas. A qualidade do tesauro, e conseqüentemente, a diminuição do ruído no sistema é função do equacionamento das questões acima citadas - como se trata da construção de um tesauro com a inferência humana, é de se esperar erros que podem ou não ser sistemáticos. Desta forma, pretende-se através deste projeto descrever uma metodologia que tem por objetivo monitorar a manutenção do tesauro através da utilização de uma amostra representativa de textos comparáveis, portuguêsinglês e alemão-inglês, visando sua utilidade para o gerenciamento da qualidade do léxico e do tesauro. Para avaliação da proposta, utilizou-se a coleção de teste de documentos da área médica OHSUMED3 e o padrão ouro para a impressão das curvas de precisão e cobertura (precision vs. recall). Proposta Textos bilíngües existem de várias formas. Eles podem ser paralelos ou comparáveis. Corpora bilíngües possibilitam realizar investigações entre relacionamentos de léxicos e semânticos entre línguas, além de ser uma importante fonte para verificar contrastes entre elas. Eles podem ser utilizados para os vários estudos que envolvem transferência de informação, idéias e conceitos de uma língua para outra, além disso, também servem de fonte de dados equivalentes para tradução tanto por humanos quanto por motores tradutores. Eles são definidos como coleções de “textos que, independente do idioma ou comunidade, possui a mesma função comunicativa” [6]. O método é baseado no pressuposto que há uma correlação entre os termos normalizados das amostras de textos multilíngüe. Se os termos dos textos bilíngües são mapeados para uma linguagem independente, mantendo sua integridade conceitual, pressupõe-se que ocorrências de cada MID em suas respectivas línguas sejam próximas. Embora efetuem-se refinamentos sucessivos pela equipe de lexicógrafos através de feedback respaldados por relatórios e outras ferramentas computacionais, é imprescindível uma metodologia mais consistente que aponte, de forma mais precisa, possíveis erros contemplados no tesauro. Metodologia a) montagem dos corpora : inglês, alemão, portugues e espanhol, adquiridos do site da Merck (http://www.merck.com); b) normalização morfossemântica dos corpora utilizando a versão do mês de julho de 2005 como referências inicial para montagem das listas de freqüências; c) geração da lista de freqüência das MIDS de cada corpus e das listas de freqüências de ocorrências de MIDS corpus a corpus normalizado. Com base nas listas de freqüências bilíngües, iniciaram-se os trabalhos para detecção de potenciais problemas. Para isso, gerou-se um índice (score - S) que expressa a ocorrência de uma MID numa determinada língua com relação à outra. Esse índice foi parametrizado, conforme as equações (2) e (3) e normalizado entre 0 e 1 – Tabela 1. Como pressuposto, assumiu-se que as MIDs próximas da unidade indicam uma maior probabilidade de estar com algum tipo de problema. S= Amostras de Textos Para a montagem das fontes empregadas no experimento, foram realizados os seguintes procedimentos: 3 http://www.nlm.nih.gov/mesh/ d +S a 3 f 1− f 2 S = d f 1+ f 2 fx S = a ( fx1 + fx 2 )max onde: • • • • Plataforma Todos os procedimentos foram realizados na plataforma Linux. Foram utilizados programas em JAVA, Perl, banco de dados MySQL e o padrão universal de dados estruturados na Web, XML. Para a codificação das informações, utilizou-se o padrão UTF-8. 2S • • (1) (2) (3) f1 representa a freqüência da ocorrência de uma MID num corpus; f2 é a freqüência da ocorrência de uma MID em outro corpus; fx refere-se aos índices de cada linha de lista de MIDS comparáveis (de uma língua em relação à outras); Sd expressa um índice pela diferença de ocorrência das MID´s em um corpus normalizado em relação a outro; que também pode ser entendido como a ocorrência de um conceito num corpus com relação a outro; Sa corresponde à equação para normalização do índice Score entre 0 e 1; S representa o índice final com o objetivo de mostrar indícios de problemas no léxico tesauro. Com base nas listas geradas, correções foram realizadas a partir do maior índice S e as modificações realizadas foram registradas num protocolo pelos lexicógrafos envolvidos. Tabela 1 – Lista de freqüência de MIDs inglês e português f1 MID EqClass f2 Peopleriixypa 500783 6352 0 Fromiwiixxa 060077 4676 0 Icasikprrr 023555 0 3022 Lttroiiyira 500850 10 3331 entre S 0,7155 0,7026 0,6899 0,6884 O protocolo consta basicamente das seguintes informações: situação da classe de equivalência, da descrição do problema, do tipo de problema, a solução e as razões da modificação. Avaliação da Metodologia Para a proposta apresentada, uma das formas de avaliar a melhora na qualidade do tesauro é gerar uma nova lista de índice baseado no léxico de interesse e compará-la com a anterior verificando a queda dos índices. Uma outra forma de avaliar é analisar as curvas de precisão e cobertura ao longo do tempo de correção do tesauro. Conforme Hersh [7], as medidas de cobertura e precisão são definidas pelas equações (4) e (5). processo no parâmetro precisão, computou-se a precisão exata dos primeiros 2 e 3 pontos (TopnP) recuperados e, além disso, computou-se também a média dos 3 pontos e 11 pontos (AVgP11). Nessa avaliação, utilizou-se a coleção de teste OHSUMED [8]. Para efetuar a avaliação ,foram realizados os seguintes procedimentos: (a) as queries originais foram traduzidas para o português, alemão e inglês – objeto da análise; b) os backups do tesauro realizados durante o período de correção foram restaurados e, destes, geradas as versões XML do tesauro; c) para cada versão de tesauro, as seguintes rotinas eram executadas: • normalização morfossemântica da coleção de documentos OHSUMED, • normalização morfossemântica das queries traduzidas; d) indexação da base OHSUMED normalizada; e) geração das curvas para cada versão de léxico. Resultados Cobertura : Pr ecisão : onde: • • • | RA | R | RA | A (4) (5) RA corresponde ao número de elementos relevantes retornados pela pesquisa, R corresponde ao número de elementos no cluster em que está localizado o objeto da consulta e A corresponde ao número de elementos retornado pela pesquisa. Portanto, em um sistema de recuperação de informações, a precisão é definida como a relação entre a quantidade de documentos julgados como relevantes, dentro de um conjunto (cluster/hits) pré-definido, retornados por um MB. O parâmetro precisão é importante porque (1) o usuário possui interesse em adquirir documentos relevantes; i.e, documentos que satisfaçam sua necessidade de informação e (2) que o resultado de precisões, é útil para identificar quais métodos de indexação de documentos utilizados por motores de busca é mais eficiente. O parâmetro cobertura está mais intrinsecamente ligado à cobertura do domínio lingüístico que o sistema possui. Para a verificação da influência do Durante a correção das MID´s bilíngüe e as análises dos índices “S” confirmou-se que muitas (em torno de 90%) das MID’s com índice próximo da unidade apresentaram problemas. Entre elas, os mais freqüentes eram referentes a problemas de classes que estavam indexando, sem haver necessidade, classes com relacionamentos errados ou sem relacionamentos, falta de classes (e/ou lexema redundantes), problemas de delimitação de conceitos, lexemas em classes erradas (problema de sinonímia), entre outros, tanto de forma monolíngüe quanto multilíngüe. Porém, algumas das MIDS com índices próximos à unidade não apresentaram problemas aparentes e vice-versa; ou seja, o mesmo aconteceu para aquelas com índices próximos de zero. Na tabela 3, apresenta-se o resumo das porcentagens de problemas encontrados no experimento com português e alemão em relação ao inglês – tomado como referência, durante o período de 10 semanas. No período compreendido entre o período n e n+1, obtiveram-se os resultados descritos tabela 2, para duas versões do tesauro. Nas figuras 2 e 3, ilustram-se os gráficos de precisão e cobertura do para uma versão de tesauro do dia 23/08/2005 e a situação em 01/09/05 após correções com a aplicação da metodologia. Nota-se incremento da precisão em torno do valor 0,4 para o português e alemão, e em torno de 0,1 para o sueco e espanhol. Tabela 2 – Valores médios da curva de precisão e cobertura para português (02/08/05-01/09/05) Médias PxR Período Período Dif % n n+1 11 pts 0,1612 0,1670 + 3,59 3 pts 0,1723 0,1788 + 3,77 Prim. 3 pts 0,3849 0,3975 + 3,27 Prim. 2 pts 0,3491 0,3616 + 3,58 Tabela 3 – Problemas encontrados durante as correções dos MID´s bilíngüe comparáveis – inglês vs. português e inglês vs. alemão Tipo de Ocorrências Ocorrências Problemas Port-Ing Alem-Ing Sem 22,98% 37,91% relacionamento Falta de lexema 33,90% 18,18% ou classe Mesmo conceito 6,32% 12,34% em duas ou mais classes Dois ou mais 3,74% 5,19% conceitos na mesma classe Termo específico 1,15% 8,44% do idioma Problemas 4,02% 3,25% ortográficos Aparentemente 11,49% 10,44% sem problema Sem 1,72% 5,19% classificação (Não) Indexação 14,94% - Figura 2 – Curva de precisão e cobertura para a versão de tesauro em 23/08/2005 Discussão e Conclusões No começo do experimento, havia a expectativa de haver incrementos significativos após as correções efetuadas no tesauro seguindo a lista proposta na metodologia. Apesar disso, o resultado final mostrou incrementos sensíveis no que diz respeito ao parâmetro precisão dos documentos recuperados, não ultrapassando a 1% na média dos primeiros 3 pontos, tanto no alemão quanto no português. Foi detectada melhora de 0,25% na média dos 11 pontos na primeira semana para o léxico em português. Figura 3 – Curva de precisão e cobertura para a versão de tesauro em 01/09/2005 O incremento, segundo os resultados obtidos, aparentemente se deve: (1) às correções relacionadas com classes mal relacionadas à outras classes, ou até mesmo aquelas sem relacionamentos e (2) aos conceitos que não haviam sido ainda contemplados no léxico; ou seja, falta de classes de equivalências – ou até mesmo isoladas, mas que não eram consideradas no processo por questões heurísticas implementadas nas regras de segmentação. Os baixos incrementos na curva de precisão e revocação decorrem do fato do experimento ter sido realizado com um léxico consolidado nas línguas portuguesa, inglesa e alemã; ou seja, com uma grande quantidade de classes de equivalência suficientemente representativa da terminologia médica trabalhou-se na “curva de saturação” do tesauro. Outro fator, não confirmado, resulta do emprego da coleção de teste OHSUMED, muito grande para a quantidade de correções realizadas. Um problema mal resolvido nesse processo trata-se das classes acusadas na lista como potencial problema (10%) e que após a verificação, nada foi constatado. Há fortes indícios de estar relacionado a termos ambíguos tratado pelo sistema MS. Desta forma, é de se esperar que algumas dessas MIDS obtenham índices errôneos devido a fatores semânticos como, por exemplo, termos raros específico do domínio. Apesar de tudo, a metodologia de confrontar amostras de textos normalizados pelo sistema Morphosaurus, que pode ser estendida à corpora comparáveis, mostrou-se útil para expor de forma direta os problemas contemplados no tesauro. Pelo fato de se tratar de questões subjetivas, como é o caso de resolver ambigüidades e outros aspectos oriundos de fenômenos lingüísticos, tal metodologia constituise numa boa ferramenta para amenizar o processo do gerenciamento do tesauro no que diz respeito à sua monitorização. 4. A. SANCHES P C (1997); "Predictability of Word forms (types) and Lemmas in Linguistic Corpora. A case study based on analysis of the COMBRE Corpus: an 8 -million word corpus of contemporary Spanish." International Journal of Corpus Linguistics, Amsterdã.: 258-280. Agradecimentos 5. LAFFLING J. (1992); On Constructing a transfer dictonary for man and machine. New York, Os autores agradecem ao CNPq pelo apoio financeiro e bolsas, aos lexicógrafos do curso de medicina da PUCPR e da Universidade de Freiburg (Alemanha) envolvidos, assim como à equipe de desenvolvimento das duas instituições. 6. Baeza e Berthier (1999); Modern Information Retrieval . Addisson-Wesley Longman Publishing Co., Boston, EUA. Referências 1. Schulz S, Hahn U (2000); Morpheme-based, cross-lingual indexing for medical document retrieval. in: International Journal of Medical Informatics, 2000; 58-59: 87-99 2. Huge G (1999); Natural Language Information Retrieval. Combining Corpus Linguistics and Human Memory models for Automatic Term Association (1999). 75-98 3. Foskett, D J (1997); Thesaurus. Reading in Information Retrieval, Morgan Kaufmann: p. 111134. 7. HERSH W R (1996); Information Retrival – A Health Care Perspective. New York: Springer. Contato Roosewelt Leite de Andrade Pontifícia Universidade Católica do Paraná Laboratório de Engenharia de Reabilitação Rua Imaculada Conceição, 1155 – Prado Velho. Telefones: (41) 3271-2446 (48) 3228-1187 CEP: 80.215-901 Curitiba – Paraná – Brasil Email: [email protected]