Estrutura Multitesauro para Recuperação de Informações Luiz Augusto Sangoi Pizzato1, Vera Lúcia Strube de Lima1 1 PPGCC – FACIN - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) {<pizzato>, <vera>}@inf.pucrs.br Resumo. Neste artigo são apresentados a proposta e o desenvolvimento de uma estrutura multitesauro para ser utilizada em aplicações de recuperação de informações. A estrutura multitesauros desenvolvida deve ser utilizada em tarefas de recuperação de informações. Para avaliar esta estrutura foi criado um método de expansão de consulta que tem como principal característica utilizar as relações semânticas definidas na estrutura multitesauro. Este trabalho apresenta a estrutura desenvolvida e a avaliação desta através do método de expansão de consulta criado. Palavras-chave: Tesauros, Recuperação de Informações, Processamento da Língua Natural. 1. Introdução De acordo com [BAE 1999] tesauros são importantes na recuperação de informações (RI), pois podem ser utilizados para obter melhor compreensão de alguns termos de uma consulta em sistemas de RI. Contudo, sua utilização depende dos tipos de relações semânticas nele presentes. Assim, a organização de um tesauro representa um tópico importante para a RI. Neste artigo abordaremos a estrutura multitesauro (EM) desenvolvida que se apresentou útil para a RI, e um método de expansão de consulta (EC) que utiliza as relações definidas na estrutura. Ao desenvolver a EM nos preocupamos com o fato de que esta pudesse ser empregada em diferentes ambientes e que seus arquivos pudessem ser transmitidos pela Internet. A preocupação com que a EM seja usada na Internet é clara quando sua finalidade é a RI pois, atualmente, os sites de busca na Internet são os ambientes de RI mais usados. O formato XML é facilmente transmitido pela Internet através de servidores HTTP, tornando-se a escolha normal quando se tem a preocupação de uso pela rede. Optou-se pela EC, para mostrar a utilidade da EM na RI, pela grande quantidade de trabalhos que envolvem este tópico aliado ao uso de tesauros (por exemplo, [CAR 2001], [IMA 1999], [JIN 1994], [KIM 1990], [ROB 2001], [STR 1999]. O método que apresentaremos para a EC foi desenvolvido para utilizar as relações definidas na EM e ponderar a importância das mesmas. O método tem como característica a atribuição de pesos para cada tipo de relação definida. Este artigo está organizado em quatro seções, sendo a primeira esta introdução. Na segunda seção apresentaremos a definição da EM multitesauro. A terceira seção irá apresentar a maneira como avaliamos nossa EM; nesta seção também será apresentado o método de EC desenvolvido. Na quarta e última seção serão apresentadas uma análise do que foi obtido por nosso trabalho e as futuras etapas que serão desenvolvidas. 2. Estrutura multitesauro A EM foi inicialmente baseada no padrão ISO 2788 [ISO 1986], dado que, atualmente, a maioria dos tesauros disponíveis pode ser facilmente convertida para este padrão. Algumas instituições generosamente ofereceram seus tesauros para nossa pesquisa. Os tesauros obtidos apresentam-se de diferentes formas, mas são igualmente úteis: “Vocabulário Controlado Básico do Senado” (VCBS); “Vocabulário Controlado USP” (VCUSP); “Lista de Descritores da PUCRS” (LDPUCRS); “Lista de Termos por Cálculo de Similaridade Sintática” (LTCSS) que é uma lista de palavras relacionadas construída de forma automática pelas técnicas descritas em [GRE 1994] adaptadas ao português em [GAS 2001]. Este tesauro foi construído utilizando um corpus sintaticamente etiquetado do jornal “Folha de São Paulo” do ano de 1994. Depois de analisadas as principais características dos tesauros citados, desenvolvemos uma EM que consideramos padrão para representar todos os tesauros obtidos. A EM definida está representada na seguinte DTD/XML. <!ELEMENT <!ELEMENT <!ELEMENT <!ELEMENT <!ELEMENT <!ELEMENT <!ELEMENT THESAURUS (TERM+)> TERM (TERM*,BT*,NT*,USE*,UF*,RT*)> BT (EMPTY)> NT (EMPTY)> USE (EMPTY)> UF (EMPTY)> RT (EMPTY)> XIII Simpósio Brasileiro de Informática na Educação – SBIE – UNISINOS 2002 593 <!ATTLIST <!ATTLIST <!ATTLIST <!ATTLIST <!ATTLIST <!ATTLIST <!ATTLIST TERM BT NT USE UF RT RT term CDATA #REQUIRED> term CDATA #REQUIRED> term CDATA #REQUIRED> term CDATA #REQUIRED> term CDATA #REQUIRED> term CDATA #REQUIRED> value CDATA "1"> Na DTD/XML acima utilizamos a mesma nomenclatura da norma internacional ISO 2788. BT significa Broader Term, ou termo mais genérico; NT significa Narrower Term, ou termo mais específico; USE significa “utilize”' e relaciona um termo não preferencial com seu sinônimo preferencial; UF significa Used For, ou usado por, e relaciona um termo preferencial com seus sinônimos não-preferenciais; RT significa Related Term, ou termo relacionado, e representa uma relação entre termos não hierárquica e nem sinônima. Observa-se que a relação RT pode conter um atributo “value” que serve para representar a medida de similaridade proveniente do tesauro LTCSS. 3. Avaliação A utilidade da EM para a RI é mensurada através do uso dela em um sistema de RI. Foi construído um sistema de EC que utiliza diferentes tesauros organizados de acordo com a EM proposta. Foram avaliadas as medidas de precisão6 e recall7 obtidas para a consulta expandida em um sistema de RI. A ferramenta de EC foi nomeada QET (um acrônimo para Query Expansion Tool), e foi desenvolvida orientada a objetos, em Borland Kylix 2.0 - Open Edition, em uma máquina com sistema operacional Linux. O QET carrega qualquer tesauro definido de acordo com nossa EM, sendo também possível carregar um tesauro separado em diferentes arquivos, o que nos dá duas possibilidades interessantes: (1) carregar pequenas porções de um mesmo tesauro que foram transmitidas pela Internet; (2) utilizar diferentes tesauros como um único multitesauro. Assim como em [MAN. 2000], utilizamos diferentes tesauros (e de forma conjunta) em nossos testes. Diferentes tesauros (ou porções de tesauros) podem conter os mesmos termos e também as mesmas relações entre termos. Quando estas situações ocorrem o sistema desconsidera os termos/relações repetidos, prevenindo que uma mesma informação esteja presente mais de uma vez no multitesauro. 6 Porcentagem de documentos relevantes dentre os recuperados. 7 Porcentagem de documentos relevantes recuperados dentre todos os documentos relevantes existentes. Foi desenvolvido um método de EC com tesauros utilizando diferentes pesos para diferentes tipos de relações. Este método usa a seguinte heurística: Consideram-se T1 como o conjunto dos termos originais de uma consulta e Tk um valor maior que 0 e menor que 1, referente ao tipo de relação entre dois termos. São encontrados os termos: T ∈ T{n+1} relacionados aos termos T ∈ Tn através de relações Rn. Para cada caminho de termos e relações R1,R2,...,R(k-1) entre os termos T ∈ T1 e um termo T ∈ Tk, são calculados valores β iguais a: β = ∏i =1 Ri k −1 Como um termo T pode ser encontrado através de diferentes caminhos, provenientes de um mesmo, ou de diferentes termos da consulta original, existe para cada termo um valor δ que representa a soma de todos os valores β associados a este termo. Como o número de conjuntos Tn tende a ser muito grande, limita-se a adicionar valores β que sejam maiores um determinado valor σ. Desta forma o processo de busca por novos termos em um caminho de relações Rn encerra-se quando o valor de β for menor do que σ. Observa-se que, como Rn está no intervalo [0,1) o valor β tende a 0. Um termo T é adicionado na consulta expandida se o valor δ deste for maior que um limiar λ proposto. O valor β representa a importância de um termo T ∈ Tn dado um termo T ∈ T1, enquanto que o valor δ representa a importância de um termo T ∈ Tn dada a consulta original T1. O valor σ regula o mínimo de importância que deve ser considerado para β no cálculo de δ. Para avaliar a EM assumimos que é possível quantificar a importância de um tipo de relação através dos pesos que forem estabelecidos para ela. Em uma tentativa de quantificar a importância de cada tipo de relação, na EC, foi realizado alguns testes utilizando a consulta “Acidente de automóvel”. Os pesos para as relações eram modificados automaticamente enquanto eram efetuadas consultas no sistema de RI. Da análise dos dados gerados por este processo chegou-se às seguintes conclusões quanto aos tipos de relações: Os pesos das relações USE e UF devem ser suficientemente altos de modo que possibilitem a utilização dos termos relacionados como se fossem os termos originais da relação. O peso destas relações deve ser 1 ou qualquer valor próximo de 1. As análises apresentadas por em [ROB 2001] demonstram que relação de sinonímia sempre XIII Simpósio Brasileiro de Informática na Educação – SBIE – UNISINOS 2002 594 melhora a resposta dos sistemas de RI, reforçando a nossa definição de pesos altos para estas relações. A relação NT é importante na EC, pois a utilização de um peso alto para esta relação melhora a EC. A relação BT não deve ter um peso muito alto. Valor maior para as relações BT demonstra pouco aumento no recall mas, ao mesmo tempo, uma diminuição significativa da precisão. A relação RT demonstra uma relação semântica diferente da equivalência e hierarquia, que deveria indicar termos importantes para a RI. Contudo, nossos testes sugerem que valores altos para o peso das relações RT diminuem a taxa de precisão enquanto que mantém o recall estável. Foram executados alguns testes preliminares utilizando uma ferramenta de RI para busca em documentos no mesmo corpus usado para a construção do LTCSS. Estes testes demonstraram que a EC acarretou em melhora na RI, principalmente na taxa de recall. Em nossos testes preliminares a recuperação de documentos através da consulta original obteve uma precisão de 57% e um recall de 31%, enquanto que para a consulta expandida a precisão foi 47% e o recall 82%. Estes resultados mostram que a precisão para a consulta expandida teve uma ligeira queda em relação à consulta original, enquanto que a medida de recall aumentou drasticamente. Através de avaliação preliminar, observamos que o método proposto de EC demonstrou bons resultados, pois mesmo com uma precisão um pouco mais baixa, a grande diferença do recall representa que mais e melhores documentos foram encontrados. tesauro na EC e avaliando os resultados obtidos será possível mensurar a qualidade das relações dos termos associados. Referências [BAE 1999] BAEZA-YATES R.; RIBEIRO-NETO B. Modern Information Retrieval. ACM-Press, 1999. [CAR 2001] CARPINETO C.; et al.. An information-theoretic approach to automatic query expansion. ACM Transactions on Information Systems (TOIS), 19(1):1, 2001. [GAS 2001] GASPERIN C.. Extracão automática de relacões semânticas a partir de relacões sintáticas. Dissertação de Mestrado, PUCRS, Nov. 2001. [GRE 1994] GREFENSTETTE G.. Explorations in automatic thesaurus discovery. EUA, 1994. [IMA 1999] IMAI H., et al.. A combined query expansion approach for information retrieval. In Genome Informatics. 1999. [ISO 1986] International Organization for Standardization. ISO 2788: Guidelines for the establishment and development of monolingual thesauri, 2nd edition, 1986. [JIN 1994] JING Y.; CROFT W. B.. An association thesaurus for information retrieval. In RIAO '94, Out. 1994. [KIM 1990] KIMOTO H.; IWADERA T.. Construction of a dynamic thesaurus and its use for associated information retrieval. In Proceedings of SIGIR'90. 1990. [MAN. 2000] MANDALA R.; et al.. Query expansion using heterogeneous thesauri. Information Processing and Management, 36(3): 2000. [ROB 2001] ROBIN J.; RAMALHO F. S.. Empirically evaluating WordNet-based query expansion in a web search engine setting. In Proceedings of IR'2001, Set. 2001. [STR 1999] STRZALKOWSKI T.; et al.. Natural language information retrieval: TREC-8 report. In Text REtrieval Conference, 1999. 4. Conclusão Neste trabalho descrevemos uma EM para a utilização em sistemas de RI que demonstrou sua utilidade ao representar diversos tesauros diferentes e possibilitar a utilização conjunta dos mesmos. Para a utilização da EM criou-se uma técnica e uma ferramenta de EC que possibilitou quantificar a importância de cada relação no processo de RI. Acreditamos que, no estágio atual, que ao efetuarmos mais testes poderemos afirmar que nossa técnica de EC obtém bons resultados. Desta forma poderemos quantificar a importância das relações estabelecidas na EM. A descoberta do conjunto de todos os documentos relevantes para cada consulta representa nossa principal dificuldade no testes. Como trabalho futuro pretendemos intensificar a análise dos tesauros obtidos, de modo a avaliar a qualidade das relações presentes nos tesauros automáticos como o LTOCSS. Utilizando este XIII Simpósio Brasileiro de Informática na Educação – SBIE – UNISINOS 2002 595