Estrutura Multitesauro para Recuperação de Informações
Luiz Augusto Sangoi Pizzato1, Vera Lúcia Strube de Lima1
1
PPGCC – FACIN - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
{<pizzato>, <vera>}@inf.pucrs.br
Resumo. Neste artigo são apresentados a proposta e o desenvolvimento de uma estrutura
multitesauro para ser utilizada em aplicações de recuperação de informações. A estrutura
multitesauros desenvolvida deve ser utilizada em tarefas de recuperação de informações. Para
avaliar esta estrutura foi criado um método de expansão de consulta que tem como principal
característica utilizar as relações semânticas definidas na estrutura multitesauro. Este trabalho
apresenta a estrutura desenvolvida e a avaliação desta através do método de expansão de
consulta criado.
Palavras-chave: Tesauros, Recuperação de Informações, Processamento da Língua Natural.
1. Introdução
De acordo com [BAE 1999] tesauros são
importantes na recuperação de informações (RI),
pois podem ser utilizados para obter melhor
compreensão de alguns termos de uma consulta em
sistemas de RI. Contudo, sua utilização depende dos
tipos de relações semânticas nele presentes. Assim,
a organização de um tesauro representa um tópico
importante para a RI. Neste artigo abordaremos a
estrutura multitesauro (EM) desenvolvida que se
apresentou útil para a RI, e um método de expansão
de consulta (EC) que utiliza as relações definidas na
estrutura.
Ao desenvolver a EM nos preocupamos com o fato
de que esta pudesse ser empregada em diferentes
ambientes e que seus arquivos pudessem ser
transmitidos pela Internet. A preocupação com que
a EM seja usada na Internet é clara quando sua
finalidade é a RI pois, atualmente, os sites de busca
na Internet são os ambientes de RI mais usados. O
formato XML é facilmente transmitido pela Internet
através de servidores HTTP, tornando-se a escolha
normal quando se tem a preocupação de uso pela
rede.
Optou-se pela EC, para mostrar a utilidade da EM
na RI, pela grande quantidade de trabalhos que
envolvem este tópico aliado ao uso de tesauros (por
exemplo, [CAR 2001], [IMA 1999], [JIN 1994],
[KIM 1990], [ROB 2001], [STR 1999]. O método
que apresentaremos para a EC foi desenvolvido
para utilizar as relações definidas na EM e ponderar
a importância das mesmas. O método tem como
característica a atribuição de pesos para cada tipo de
relação definida.
Este artigo está organizado em quatro seções, sendo
a primeira esta introdução. Na segunda seção
apresentaremos a definição da EM multitesauro. A
terceira seção irá apresentar a maneira como
avaliamos nossa EM; nesta seção também será
apresentado o método de EC desenvolvido. Na
quarta e última seção serão apresentadas uma
análise do que foi obtido por nosso trabalho e as
futuras etapas que serão desenvolvidas.
2. Estrutura multitesauro
A EM foi inicialmente baseada no padrão ISO 2788
[ISO 1986], dado que, atualmente, a maioria dos
tesauros disponíveis pode ser facilmente convertida
para
este
padrão.
Algumas
instituições
generosamente ofereceram seus tesauros para nossa
pesquisa. Os tesauros obtidos apresentam-se de
diferentes formas, mas são igualmente úteis:
“Vocabulário Controlado Básico do Senado”
(VCBS); “Vocabulário Controlado USP” (VCUSP);
“Lista de Descritores da PUCRS” (LDPUCRS);
“Lista de Termos por Cálculo de Similaridade
Sintática” (LTCSS) que é uma lista de palavras
relacionadas construída de forma automática pelas
técnicas descritas em [GRE 1994] adaptadas ao
português em [GAS 2001]. Este tesauro foi
construído utilizando um corpus sintaticamente
etiquetado do jornal “Folha de São Paulo” do ano
de 1994. Depois de analisadas as principais
características dos tesauros citados, desenvolvemos
uma EM que consideramos padrão para representar
todos os tesauros obtidos. A EM definida está
representada na seguinte DTD/XML.
<!ELEMENT
<!ELEMENT
<!ELEMENT
<!ELEMENT
<!ELEMENT
<!ELEMENT
<!ELEMENT
THESAURUS (TERM+)>
TERM (TERM*,BT*,NT*,USE*,UF*,RT*)>
BT
(EMPTY)>
NT
(EMPTY)>
USE (EMPTY)>
UF
(EMPTY)>
RT
(EMPTY)>
XIII Simpósio Brasileiro de Informática na Educação – SBIE – UNISINOS 2002
593
<!ATTLIST
<!ATTLIST
<!ATTLIST
<!ATTLIST
<!ATTLIST
<!ATTLIST
<!ATTLIST
TERM
BT
NT
USE
UF
RT
RT
term CDATA #REQUIRED>
term CDATA #REQUIRED>
term CDATA #REQUIRED>
term CDATA #REQUIRED>
term CDATA #REQUIRED>
term CDATA #REQUIRED>
value CDATA "1">
Na DTD/XML
acima utilizamos a mesma
nomenclatura da norma internacional ISO 2788. BT
significa Broader Term, ou termo mais genérico;
NT significa Narrower Term, ou termo mais
específico; USE significa “utilize”' e relaciona um
termo não preferencial com seu sinônimo
preferencial; UF significa Used For, ou usado por, e
relaciona um termo preferencial com seus
sinônimos não-preferenciais; RT significa Related
Term, ou termo relacionado, e representa uma
relação entre termos não hierárquica e nem
sinônima. Observa-se que a relação RT pode conter
um atributo “value” que serve para representar a
medida de similaridade proveniente do tesauro
LTCSS.
3. Avaliação
A utilidade da EM para a RI é mensurada através do
uso dela em um sistema de RI. Foi construído um
sistema de EC que utiliza diferentes tesauros
organizados de acordo com a EM proposta. Foram
avaliadas as medidas de precisão6 e recall7 obtidas
para a consulta expandida em um sistema de RI.
A ferramenta de EC foi nomeada QET (um
acrônimo para Query Expansion Tool), e foi
desenvolvida orientada a objetos, em Borland Kylix
2.0 - Open Edition, em uma máquina com sistema
operacional Linux.
O QET carrega qualquer
tesauro definido de acordo com nossa EM, sendo
também possível carregar um tesauro separado em
diferentes arquivos, o que nos dá duas
possibilidades interessantes: (1) carregar pequenas
porções de um mesmo tesauro que foram
transmitidas pela Internet; (2) utilizar diferentes
tesauros como um único multitesauro.
Assim como em [MAN. 2000], utilizamos
diferentes tesauros (e de forma conjunta) em nossos
testes. Diferentes tesauros (ou porções de tesauros)
podem conter os mesmos termos e também as
mesmas relações entre termos. Quando estas
situações ocorrem o sistema desconsidera os
termos/relações repetidos, prevenindo que uma
mesma informação esteja presente mais de uma vez
no multitesauro.
6
Porcentagem de documentos relevantes dentre os
recuperados.
7
Porcentagem de documentos relevantes recuperados
dentre todos os documentos relevantes existentes.
Foi desenvolvido um método de EC com tesauros
utilizando diferentes pesos para diferentes tipos de
relações. Este método usa a seguinte heurística:
Consideram-se T1 como o conjunto dos termos
originais de uma consulta e Tk um valor maior que 0
e menor que 1, referente ao tipo de relação entre
dois termos. São encontrados os termos: T ∈ T{n+1}
relacionados aos termos T ∈ Tn através de relações
Rn.
Para cada caminho de termos e relações
R1,R2,...,R(k-1) entre os termos T ∈ T1 e um termo
T ∈ Tk, são calculados valores β iguais a:
β = ∏i =1 Ri
k −1
Como um termo T pode ser encontrado através de
diferentes caminhos, provenientes de um mesmo,
ou de diferentes termos da consulta original, existe
para cada termo um valor δ que representa a soma
de todos os valores β associados a este termo.
Como o número de conjuntos Tn tende a ser muito
grande, limita-se a adicionar valores β que sejam
maiores um determinado valor σ. Desta forma o
processo de busca por novos termos em um
caminho de relações Rn encerra-se quando o valor
de β for menor do que σ. Observa-se que, como Rn
está no intervalo [0,1) o valor β tende a 0. Um
termo T é adicionado na consulta expandida se o
valor δ deste for maior que um limiar λ proposto. O
valor β representa a importância de um termo
T ∈ Tn dado um termo T ∈ T1, enquanto que o valor
δ representa a importância de um termo T ∈ Tn dada
a consulta original T1. O valor σ regula o mínimo de
importância que deve ser considerado para β no
cálculo de δ.
Para avaliar a EM assumimos que é possível
quantificar a importância de um tipo de relação
através dos pesos que forem estabelecidos para ela.
Em uma tentativa de quantificar a importância de
cada tipo de relação, na EC, foi realizado alguns
testes utilizando a consulta “Acidente de
automóvel”. Os pesos para as relações eram
modificados automaticamente enquanto eram
efetuadas consultas no sistema de RI. Da análise
dos dados gerados por este processo chegou-se às
seguintes conclusões quanto aos tipos de relações:
Os pesos das relações USE e UF devem ser
suficientemente altos de modo que possibilitem a
utilização dos termos relacionados como se fossem
os termos originais da relação. O peso destas
relações deve ser 1 ou qualquer valor próximo de 1.
As análises apresentadas por em [ROB 2001]
demonstram que relação de sinonímia sempre
XIII Simpósio Brasileiro de Informática na Educação – SBIE – UNISINOS 2002
594
melhora a resposta dos sistemas de RI, reforçando a
nossa definição de pesos altos para estas relações. A
relação NT é importante na EC, pois a utilização de
um peso alto para esta relação melhora a EC. A
relação BT não deve ter um peso muito alto. Valor
maior para as relações BT demonstra pouco
aumento no recall mas, ao mesmo tempo, uma
diminuição significativa da precisão. A relação RT
demonstra uma relação semântica diferente da
equivalência e hierarquia, que deveria indicar
termos importantes para a RI. Contudo, nossos
testes sugerem que valores altos para o peso das
relações RT diminuem a taxa de precisão enquanto
que mantém o recall estável.
Foram executados alguns testes preliminares
utilizando uma ferramenta de RI para busca em
documentos no mesmo corpus usado para a
construção do LTCSS. Estes testes demonstraram
que a EC acarretou em melhora na RI,
principalmente na taxa de recall. Em nossos testes
preliminares a recuperação de documentos através
da consulta original obteve uma precisão de 57% e
um recall de 31%, enquanto que para a consulta
expandida a precisão foi 47% e o recall 82%.
Estes resultados mostram que a precisão para a
consulta expandida teve uma ligeira queda em
relação à consulta original, enquanto que a medida
de recall aumentou drasticamente. Através de
avaliação preliminar, observamos que o método
proposto de EC demonstrou bons resultados, pois
mesmo com uma precisão um pouco mais baixa, a
grande diferença do recall representa que mais e
melhores documentos foram encontrados.
tesauro na EC e avaliando os resultados obtidos será
possível mensurar a qualidade das relações dos
termos associados.
Referências
[BAE 1999] BAEZA-YATES R.; RIBEIRO-NETO B. Modern
Information Retrieval. ACM-Press, 1999.
[CAR 2001] CARPINETO C.; et al.. An information-theoretic
approach to automatic query expansion. ACM
Transactions on Information Systems (TOIS), 19(1):1,
2001.
[GAS 2001] GASPERIN C.. Extracão automática de relacões
semânticas a partir de relacões sintáticas. Dissertação de
Mestrado, PUCRS, Nov. 2001.
[GRE 1994] GREFENSTETTE G.. Explorations in automatic
thesaurus discovery. EUA, 1994.
[IMA 1999] IMAI H., et al.. A combined query expansion
approach for information retrieval. In Genome
Informatics. 1999.
[ISO 1986] International Organization for Standardization. ISO
2788: Guidelines for the establishment and development
of monolingual thesauri, 2nd edition, 1986.
[JIN 1994] JING Y.; CROFT W. B.. An association thesaurus
for information retrieval. In RIAO '94, Out. 1994.
[KIM 1990] KIMOTO H.; IWADERA T.. Construction of a
dynamic thesaurus and its use for associated information
retrieval. In Proceedings of SIGIR'90. 1990.
[MAN. 2000] MANDALA R.; et al.. Query expansion using
heterogeneous thesauri. Information Processing and
Management, 36(3): 2000.
[ROB 2001] ROBIN J.; RAMALHO F. S.. Empirically
evaluating WordNet-based query expansion in a web
search engine setting. In Proceedings of IR'2001, Set.
2001.
[STR 1999] STRZALKOWSKI T.; et al.. Natural language
information retrieval: TREC-8 report. In Text REtrieval
Conference, 1999.
4. Conclusão
Neste trabalho descrevemos uma EM para a
utilização em sistemas de RI que demonstrou sua
utilidade ao representar diversos tesauros diferentes
e possibilitar a utilização conjunta dos mesmos.
Para a utilização da EM criou-se uma técnica e uma
ferramenta de EC que possibilitou quantificar a
importância de cada relação no processo de RI.
Acreditamos que, no estágio atual, que ao
efetuarmos mais testes poderemos afirmar que
nossa técnica de EC obtém bons resultados. Desta
forma poderemos quantificar a importância das
relações estabelecidas na EM. A descoberta do
conjunto de todos os documentos relevantes para
cada consulta representa nossa principal dificuldade
no testes.
Como trabalho futuro pretendemos intensificar a
análise dos tesauros obtidos, de modo a avaliar a
qualidade das relações presentes nos tesauros
automáticos como o LTOCSS. Utilizando este
XIII Simpósio Brasileiro de Informática na Educação – SBIE – UNISINOS 2002
595
Download

Estrutura Multitesauro para Recuperação de Informações