Uma Abordagem para o Gerenciamento de Tesauro Multilíngüe
Baseado em Amostra de Textos Comparáveis
Roosewelt L. de Andrade1,2, Percy Nohama1,2, Stefan P. Schulz3,
Susanne Hanser3, Olena Medelyan3, Jeferson L. Bitencourt2, Kornel Markó3
1
Curso de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI),
Universidade Tecnológica Federal do Paraná (UTFPR), Brasil
2
Programa de Pós-Graduação em Tecnologia em Saúde (PPGTS),
Pontifícia Universidade Católica do Paraná, Brasil
3
Departamento de Informática Médica,
University of Freiburg, Germany
Resumo – Sistemas de Recuperação de Informações Multilingüe normalmente baseiam-se em tesauros e
devido a fenômenos lingüísticos, o processo de criação e manutenção é complexo. Um tesauro é projetado
para indexar e recuperar documentos num domínio específico. Este artigo descreve uma nova abordagem
para auxiliar no gerenciamento da manutenção de um tesauro multilíngüe para a área médica, por meio de
amostras representativas de textos bilíngües comparáveis para a detecção de potenciais representações ou
classes de sinônimos ou relacionamentos semânticos que venham a prejudicar o desempenho do processo
de recuperação de documentos médicos relevantes. A técnica também pode ser aplicada com a utilização
de corpora comparáveis e apresentou resultados positivos apesar de utilizar-se de um tesauro consolidado.
Palavras-chave: Recuperação de Informações Multilíngüe, Gerenciamento de Tesauro, Corpora
Comparáveis.
Abstract – Cross-Language Information retrieval system is normally a thesauri-based and due linguistics
phenomena the building and the maintenance is complex. A thesaurus is designed for indexing and
searching in a specific domain. The goal of this article is to introduce a novel approach to aid the manager of
a medical multilingual thesaurus though bilingual samples of representatives texts in order to detect potential
representations or classes of synonymous or semantics relationships which can reduce the performance of
information retrieval process of relevant medical documents. The technique can also be applied through
comparable corpora and it has shown positive result in spite of using a consolidated thesaurus.
.Key-words: Thesaurus Management, Cross-Language Information Retrieval, Comparable Corpora.
Introdução
A linguagem médica apresenta uma
combinação de desafios na área da Engenharia
da Informação. As bases de documentos
médicos, tanto na Web quanto nas bases de
dados clínicos são extensas, dinâmicas e
multilíngüe. Além disso, os usuários na busca de
informações são diversificados. São diversos
profissionais da área de saúde que utilizam
jargões e outros termos específicos de cada área.
Devido
à
riqueza
de
expressões,
a
implementação de sistemas que lidam com
linguagens naturais torna-se complexa quando o
objetivo é realizar buscas orientadas a conceitos.
Diante desse cenário, um sistema de recuperação
de informações precisa ter suporte em um
tesauro, ou seja, um vocabulário controlado que
responda a essas questões [1].
Tesauro no campo da informação e
documentação é uma lista organizada de
conceitos compilados que serve para indexar e
recuperar documentos de um domínio. A idéia
não se resume somente à definição de termos na
construção do léxico, mas também tratar dos
relacionamentos entre eles [2]. O tesauro
possui diferentes funções no campo da
informação e documentação. Pode ser utilizado
para a normalização do vocabulário contido nos
documentos, assim como para a construção de
uma representação de documentos para uma
abordagem de recuperação.
De acordo com Foskett (1997), a idéia
principal de se utilizar um tesauro é prover um
vocabulário controlado de referência a um
sistema de recuperação de informações –
indexação e busca [3].
Basicamente, existem dois processos
principais envolvidos na Recuperação de
Informações: A indexação e a recuperação que,
por sua vez, podem ou não estar fundamentadas
em um tesauro.
As abordagens para a construção de
tesauro são basicamente duas: a manual e a
automática. Normalmente, torna-se necessário e
mesmo obrigatório construir manualmente o
tesauro
devido
à
complexidade
de
relacionamentos
entre
conceitos,
as
ambigüidades semânticas e o próprio dinamismo
inerente a cada língua. A construção demanda
muito tempo e sua manutenção é complexa [4].
Portanto, esse cenário necessita de
procedimentos
que
possam
auxiliar
na
monitorização do gerenciamento do tesauro de
forma a manter certo nível de produtividade na
sua montagem e a qualidade dessa pela
manutenção.
O objetivo deste trabalho é introduzir uma
proposta de monitorização da manutenção
através da utilização de amostras de textos
comparáveis1 bilíngüe do domínio médico,
visando o gerenciamento de tesauros multilíngüe.
Pretende-se, por meio dela, detectar potenciais
erros
contemplados
no
tesauro.
Como
workbench, utilizou-se o Sistema Morphosaurus.
ambíguas, podendo freqüentemente uma mesma
forma corresponder a diferentes flexões de duas
ou mais entradas lexicais distintas. Esse fato,
aliado à abordagem de subwords, torna o
trabalho mais interessante – e trabalhoso.
Para linguagens técnicas como a medicina,
a indexação de documentos baseados em
entidades lexicais semanticamente atômicas
mostrou-se muito útil [5]. Porém, equacionar
questões relacionadas à delimitação sintática dos
termos, relevância lexical, relevância semântica
ou, até mesmo, relevância conceitual, não é uma
tarefa fácil. Apesar do Sistema Morphosaurus
possuir diretrizes que norteiem a criação e a
manutenção do tesauro, há situações que são
resolvidas pelo bom-senso.
Sistema Morphosaurus
O Sistema Morphosaurus estrutura-se
sobre um tesauro no domínio médico. O tesauro
permite certa coordenação no processo de
indexação e recuperação de documentos, em um
sistema usado para buscar textos potencialmente
relevantes em grandes coleções de documentos.
O tesauro do Projeto MorphoSaurus2 (MS)
foi construído baseado em unidades lexicais
semanticamente atômicas, relevantes ao domínio,
nomeadamente subwords, basicamente em
inglês, alemão e português. As unidades lexicais
são agrupadas em classes de equivalências e
relacionadas às suas possíveis acepções. Após a
realização
de
um
processamento
de
normalização morfossemântica de textos em
linguagem natural, da qual são gerados
identificadores semânticos – MIDs (Morphosaurus
Identifiers), o sistema Morphosaurus permite a
recuperação de documentos relevantes do
domínio tanto intra quanto interlingual, pois nesse
processo
são
extraídos
fragmentos
semanticamente significativos e mapeados para
uma
linguagem
independente
de
seu
identificador. Na figura 1, apresenta-se o modelo
do sistema de normalização morfossemântica de
documentos e expressões de busca (queries)
baseado no tesauro de subwords.
As formas gráficas (tokens) que constituem
as palavras de um texto são muitas vezes
1
Corpora comparáveis são definidos como textos
representativos em pares ou em múltiplas línguas que podem
ser contrastadas e comparadas por se tratar de assuntos ou
domínio com características comuns. Utilizou-se a expressão
“amostra de textos” por se tratar de corpora de tamanhos
reduzidos.
2
http://www.morphosaurus.com.br
Figura 1 – Modelo Básico do Sistema MS
Amostra de Textos Comparáveis
Os problemas expostos apontam que uma
solução automática para construção de um
tesauro com a abordagem por subwords é quase
que impossível. Esses problemas devem-se ao
fato que os termos não são simplesmente
palavras, mesmo que abaixo do nível estruturante
da palavra, mas uma unidade com carga
semântica inserida num contexto específico
realizado por seres humanos. E como tal, sujeito
a erros. Esses erros geram ruídos no sistema de
recuperação de informação com um todo e
precisam ser tratados. A maneira como até então
estavam sendo tratados não era uma solução
eficaz, pois, normalmente tratava-se de listar
problemas pontuais mascarando outros tipos de
problemas.
A
qualidade
do
tesauro,
e
conseqüentemente, a diminuição do ruído no
sistema é função do equacionamento das
questões acima citadas - como se trata da
construção de um tesauro com a inferência
humana, é de se esperar erros que podem ou não
ser sistemáticos. Desta forma, pretende-se
através deste projeto descrever uma metodologia
que tem por objetivo monitorar a manutenção do
tesauro através da utilização de uma amostra
representativa de textos comparáveis, portuguêsinglês e alemão-inglês, visando sua utilidade para
o gerenciamento da qualidade do léxico e do
tesauro. Para avaliação da proposta, utilizou-se a
coleção de teste de documentos da área médica
OHSUMED3 e o padrão ouro para a impressão
das curvas de precisão e cobertura (precision vs.
recall).
Proposta
Textos bilíngües existem de várias formas.
Eles podem ser paralelos ou comparáveis.
Corpora
bilíngües
possibilitam
realizar
investigações entre relacionamentos de
léxicos e semânticos entre línguas, além de
ser uma importante fonte para verificar
contrastes entre elas. Eles podem ser utilizados
para os vários estudos que envolvem
transferência de informação, idéias e conceitos de
uma língua para outra, além disso, também
servem de fonte de dados equivalentes para
tradução tanto por humanos quanto por motores
tradutores. Eles são definidos como coleções de
“textos que, independente do idioma ou
comunidade,
possui
a
mesma
função
comunicativa” [6].
O método é baseado no pressuposto que
há uma correlação entre os termos normalizados
das amostras de textos multilíngüe. Se os termos
dos textos bilíngües são mapeados para uma
linguagem
independente,
mantendo
sua
integridade
conceitual,
pressupõe-se
que
ocorrências de cada MID em suas respectivas
línguas sejam próximas.
Embora
efetuem-se
refinamentos
sucessivos pela equipe de lexicógrafos através de
feedback respaldados por relatórios e outras
ferramentas computacionais, é imprescindível
uma metodologia mais consistente que aponte,
de forma mais precisa, possíveis erros
contemplados no tesauro.
Metodologia
a) montagem dos corpora : inglês, alemão,
portugues e espanhol, adquiridos do site
da Merck (http://www.merck.com);
b) normalização
morfossemântica
dos
corpora utilizando a versão do mês de
julho de 2005 como referências inicial
para montagem das listas de freqüências;
c) geração da lista de freqüência das MIDS
de cada corpus e das listas de
freqüências de ocorrências de MIDS
corpus a corpus normalizado.
Com base nas listas de freqüências
bilíngües, iniciaram-se os trabalhos para detecção
de potenciais problemas. Para isso, gerou-se um
índice (score - S) que expressa a ocorrência de
uma MID numa determinada língua com relação à
outra. Esse índice foi parametrizado, conforme as
equações (2) e (3) e normalizado entre 0 e 1 –
Tabela 1. Como pressuposto, assumiu-se que as
MIDs próximas da unidade indicam uma maior
probabilidade de estar com algum tipo de
problema.
S=
Amostras de Textos
Para a montagem das fontes empregadas
no experimento, foram realizados os seguintes
procedimentos:
3
http://www.nlm.nih.gov/mesh/
d
+S
a
3
f 1− f 2
S =
d
f 1+ f 2
fx
S =
a ( fx1 + fx 2 )max
onde:
•
•
•
•
Plataforma
Todos os procedimentos foram realizados
na plataforma Linux. Foram utilizados programas
em JAVA, Perl, banco de dados MySQL e o
padrão universal de dados estruturados na Web,
XML. Para a codificação das informações,
utilizou-se o padrão UTF-8.
2S
•
•
(1)
(2)
(3)
f1 representa a freqüência da ocorrência
de uma MID num corpus;
f2 é a freqüência da ocorrência de uma
MID em outro corpus;
fx refere-se aos índices de cada linha de
lista de MIDS comparáveis (de uma
língua em relação à outras);
Sd expressa um índice pela diferença de
ocorrência das MID´s em um corpus
normalizado em relação a outro; que
também pode ser entendido como a
ocorrência de um conceito num corpus
com relação a outro;
Sa corresponde à equação para
normalização do índice Score entre 0 e 1;
S representa o índice final com o objetivo
de mostrar indícios de problemas no
léxico tesauro.
Com base nas listas geradas, correções
foram realizadas a partir do maior índice S e as
modificações realizadas foram registradas num
protocolo pelos lexicógrafos envolvidos.
Tabela 1 – Lista de freqüência de MIDs
inglês e português
f1
MID
EqClass
f2
Peopleriixypa 500783 6352
0
Fromiwiixxa
060077 4676
0
Icasikprrr
023555
0
3022
Lttroiiyira
500850
10
3331
entre
S
0,7155
0,7026
0,6899
0,6884
O protocolo consta basicamente das
seguintes informações: situação da classe de
equivalência, da descrição do problema, do tipo
de problema, a solução e as razões da
modificação.
Avaliação da Metodologia
Para a proposta apresentada, uma das
formas de avaliar a melhora na qualidade do
tesauro é gerar uma nova lista de índice baseado
no léxico de interesse e compará-la com a
anterior verificando a queda dos índices.
Uma outra forma de avaliar é analisar as
curvas de precisão e cobertura ao longo do tempo
de correção do tesauro.
Conforme Hersh [7], as medidas de
cobertura e precisão são definidas pelas
equações (4) e (5).
processo no parâmetro precisão, computou-se a
precisão exata dos primeiros 2 e 3 pontos (TopnP)
recuperados e, além disso, computou-se também
a média dos 3 pontos e 11 pontos (AVgP11).
Nessa avaliação, utilizou-se a coleção de
teste OHSUMED [8]. Para efetuar a avaliação
,foram realizados os seguintes procedimentos:
(a) as queries originais foram traduzidas
para o português, alemão e inglês – objeto
da análise;
b) os backups do tesauro realizados
durante o período de correção foram
restaurados e, destes, geradas as versões
XML do tesauro;
c) para cada versão de tesauro, as
seguintes rotinas eram executadas:
• normalização
morfossemântica
da coleção de documentos
OHSUMED,
• normalização
morfossemântica
das queries traduzidas;
d) indexação da base OHSUMED
normalizada;
e) geração das curvas para cada versão de
léxico.
Resultados
Cobertura :
Pr ecisão :
onde:
•
•
•
| RA |
R
| RA |
A
(4)
(5)
RA corresponde ao número de elementos
relevantes retornados pela pesquisa,
R corresponde ao número de elementos
no cluster em que está localizado o objeto
da consulta e
A corresponde ao número de elementos
retornado pela pesquisa.
Portanto, em um sistema de recuperação
de informações, a precisão é definida como a
relação entre a quantidade de documentos
julgados como relevantes, dentro de um conjunto
(cluster/hits) pré-definido, retornados por um MB.
O parâmetro precisão é importante porque (1) o
usuário possui interesse em adquirir documentos
relevantes; i.e, documentos que satisfaçam sua
necessidade de informação e (2) que o resultado
de precisões, é útil para identificar quais métodos
de indexação de documentos utilizados por
motores de busca é mais eficiente. O parâmetro
cobertura está mais intrinsecamente ligado à
cobertura do domínio lingüístico que o sistema
possui.
Para a verificação da influência do
Durante a correção das MID´s bilíngüe e as
análises dos índices “S” confirmou-se que muitas
(em torno de 90%) das MID’s com índice próximo
da unidade apresentaram problemas. Entre elas,
os mais freqüentes eram referentes a problemas
de classes que estavam indexando, sem haver
necessidade, classes com relacionamentos
errados ou sem relacionamentos, falta de classes
(e/ou lexema redundantes), problemas de
delimitação de conceitos, lexemas em classes
erradas (problema de sinonímia), entre outros,
tanto de forma monolíngüe quanto multilíngüe.
Porém, algumas das MIDS com índices próximos
à unidade não apresentaram problemas
aparentes e vice-versa; ou seja, o mesmo
aconteceu para aquelas com índices próximos de
zero. Na tabela 3, apresenta-se o resumo das
porcentagens de problemas encontrados no
experimento com português e alemão em relação
ao inglês – tomado como referência, durante o
período de 10 semanas.
No período compreendido entre o período n
e n+1, obtiveram-se os resultados descritos
tabela 2, para duas versões do tesauro.
Nas figuras 2 e 3, ilustram-se os gráficos de
precisão e cobertura do para uma versão de
tesauro do dia 23/08/2005 e a situação em
01/09/05 após correções com a aplicação da
metodologia. Nota-se incremento da precisão em
torno do valor 0,4 para o português e alemão, e
em torno de 0,1 para o sueco e espanhol.
Tabela 2 – Valores médios da curva de precisão e
cobertura para português (02/08/05-01/09/05)
Médias PxR
Período Período Dif %
n
n+1
11 pts
0,1612
0,1670 + 3,59
3 pts
0,1723
0,1788 + 3,77
Prim. 3 pts
0,3849
0,3975 + 3,27
Prim. 2 pts
0,3491
0,3616 + 3,58
Tabela 3 – Problemas encontrados durante as
correções dos MID´s bilíngüe comparáveis –
inglês vs. português e inglês vs. alemão
Tipo de
Ocorrências Ocorrências
Problemas
Port-Ing
Alem-Ing
Sem
22,98%
37,91%
relacionamento
Falta de lexema
33,90%
18,18%
ou classe
Mesmo conceito
6,32%
12,34%
em duas ou mais
classes
Dois ou mais
3,74%
5,19%
conceitos na
mesma classe
Termo específico
1,15%
8,44%
do idioma
Problemas
4,02%
3,25%
ortográficos
Aparentemente
11,49%
10,44%
sem problema
Sem
1,72%
5,19%
classificação
(Não) Indexação
14,94%
-
Figura 2 – Curva de precisão e cobertura para a
versão de tesauro em 23/08/2005
Discussão e Conclusões
No começo do experimento, havia a
expectativa de haver incrementos significativos
após as correções efetuadas no tesauro seguindo
a lista proposta na metodologia. Apesar disso, o
resultado final mostrou incrementos sensíveis no
que diz respeito ao parâmetro precisão dos
documentos recuperados, não ultrapassando a
1% na média dos primeiros 3 pontos, tanto no
alemão quanto no português. Foi detectada
melhora de 0,25% na média dos 11 pontos na
primeira semana para o léxico em português.
Figura 3 – Curva de precisão e cobertura para a
versão de tesauro em 01/09/2005
O incremento, segundo os resultados
obtidos, aparentemente se deve: (1) às correções
relacionadas com classes mal relacionadas à
outras classes, ou até mesmo aquelas sem
relacionamentos e (2) aos conceitos que não
haviam sido ainda contemplados no léxico; ou
seja, falta de classes de equivalências – ou até
mesmo
isoladas,
mas
que
não
eram
consideradas no processo por questões
heurísticas implementadas nas regras de
segmentação.
Os baixos incrementos na curva de
precisão e revocação decorrem do fato do
experimento ter sido realizado com um léxico
consolidado nas línguas portuguesa, inglesa e
alemã; ou seja, com uma grande quantidade de
classes
de
equivalência
suficientemente
representativa da terminologia médica trabalhou-se na “curva de saturação” do tesauro.
Outro fator, não confirmado, resulta do emprego
da coleção de teste OHSUMED, muito grande
para a quantidade de correções realizadas.
Um problema mal resolvido nesse processo
trata-se das classes acusadas na lista como
potencial problema (10%) e que após a
verificação, nada foi constatado. Há fortes
indícios de estar relacionado a termos ambíguos
tratado pelo sistema MS. Desta forma, é de se
esperar que algumas dessas MIDS obtenham
índices errôneos devido a fatores semânticos
como, por exemplo, termos raros específico do
domínio.
Apesar de tudo, a metodologia de
confrontar amostras de textos normalizados pelo
sistema Morphosaurus, que pode ser estendida à
corpora comparáveis, mostrou-se útil para expor
de forma direta os problemas contemplados no
tesauro.
Pelo fato de se tratar de questões
subjetivas, como é o caso de resolver
ambigüidades e outros aspectos oriundos de
fenômenos lingüísticos, tal metodologia constituise numa boa ferramenta para amenizar o
processo do gerenciamento do tesauro no que diz
respeito à sua monitorização.
4. A. SANCHES P C (1997); "Predictability of
Word forms (types) and Lemmas in Linguistic
Corpora. A case study based on analysis of the
COMBRE Corpus: an 8 -million word corpus of
contemporary Spanish." International Journal of
Corpus Linguistics, Amsterdã.: 258-280.
Agradecimentos
5. LAFFLING J. (1992); On Constructing a
transfer dictonary for man and machine. New
York,
Os autores agradecem ao CNPq pelo apoio
financeiro e bolsas, aos lexicógrafos do curso de
medicina da PUCPR e da Universidade de
Freiburg (Alemanha) envolvidos, assim como à
equipe de desenvolvimento das duas instituições.
6. Baeza e Berthier (1999); Modern Information
Retrieval . Addisson-Wesley Longman Publishing
Co., Boston, EUA.
Referências
1. Schulz S, Hahn U (2000); Morpheme-based,
cross-lingual indexing for medical document
retrieval. in: International Journal of Medical
Informatics, 2000; 58-59: 87-99
2. Huge G (1999); Natural Language Information
Retrieval. Combining Corpus Linguistics and
Human Memory models for Automatic Term
Association (1999). 75-98
3. Foskett, D J (1997); Thesaurus. Reading in
Information Retrieval, Morgan Kaufmann: p. 111134.
7. HERSH W R (1996); Information Retrival – A
Health Care Perspective. New York: Springer.
Contato
Roosewelt Leite de Andrade
Pontifícia Universidade Católica do Paraná
Laboratório de Engenharia de Reabilitação
Rua Imaculada Conceição, 1155 – Prado Velho.
Telefones: (41) 3271-2446
(48) 3228-1187
CEP: 80.215-901
Curitiba – Paraná – Brasil
Email: [email protected]
Download

Artigo