Desenvolvimento e Avaliação de uma Estrutura Multitesauro para a Recuperação de Informações Luiz Augusto Sangoi Pizzato Vera Lúcia Strube de Lima PUCRS I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002 CNPq O que será visto ... PUCRS • Introdução aos conceitos de tesauro e relações semânticas; • Objetivos deste trabalho; • Recursos disponíveis; • Estrutura multitesauro desenvolvida; • Heurística de expansão de consultas implementada; • Avaliação; • Trabalhos relacionados; • Considerações; 2 /28 I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002 CNPq Definição adequada ao contexto da RI / Dissertação O que é um tesauro? PUCRS "É uma compilação ordenada de conceitos, com ênfase na associação entre eles, que serve, no campo da informação e da documentação, para indexação e recuperação em um dado domínio documentário" (Ruge, 1999) Caminhoneiro -> Caminhão, Motorista, Carga Cobra -> Animal, Réptil, Cobra Venenosa Computador -> Processador, CPU, Processamento 3 /28 I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002 CNPq PUCRS Relações semânticas da ISO 2788 • Relação entre sinônimos – Entre Termos Preferenciais (TP) e Termos Não-Preferenciais (TNP). • USE – TNP USE TP – Motorista de caminhão USE Caminhoneiro • UF (Used For) – TP UF TNP – Caminhoneiro UF Motorista de caminhão 4 /28 I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002 CNPq PUCRS Relações semânticas da ISO 2788 • Relações entre TP • Broader Term - BT – Automóvel BT Veículo • Narrower Term - NT – Veículo NT Automóvel • Related Term - RT – Automóvel RT Rodovia 5 /28 I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002 CNPq Objetivos deste trabalho PUCRS • Criar uma estrutura de tesauros que seja útil à Recuperação de Informação (RI). • Demonstrar a possibilidade de utilização de múltiplos tesauros de forma conjunta (multitesauro) através da utilização de uma estrutura padrão. 6 /28 I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002 CNPq Recursos disponíveis PUCRS • Tesauros – LDPUCRS • Lista de descritores da Biblioteca Ir. José Otão – PUCRS; – VCUSP • Vocabulário Controlado da USP – Tesauro em CDROM; – VCBS • Vocabulário Controlado Básico do Senado; – LTOCSS • Lista de termos obtida por cálculo de similaridade sintática através das técnicas descritas por Gasperin (2001). • Tesauro construído automaticamente através do corpus do NILC da “Folha de São Paulo” do ano de 1994. 7 /28 I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002 CNPq PUCRS Desenvolvimento da estrutura multitesauro • Tesauros LDPUCRS, VCUSP, VCBS podem ser facilmente convertidos para a uma estrutura baseada na ISO 2788 • Algumas informações presentes nos tesauros podem ser descartadas – Scope Note (Notas de Escopo) são úteis para bibliotecários, mas não aparentam utilidade na RI automática • As relações semânticas do tesauro LTOCSS apresentam uma medida de similaridade entre os termos. – Como os significados das relações não são conhecidos, elas são associadas à relação RT da ISO 2788. 8 /28 I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002 CNPq Estrutura multitesauro PUCRS ISO 2788 LTOCSS 9 /28 <THESAURUS> <TERM term=“Eletroeletrônicos”> <TERM term=“Televisão”> <UF term=“TV”/> <RT term=“Audiência”/> <RT term=“Telespectador” value=“0.99”/> </TERM> <NT term=“Videocassete”/> </TERM> <TERM term=“Videocassete”> <SN>Utilize este termo quando for um aparelho com mídia em fita magnética.</SN> <BT term=“Eletroeletrônicos”/> </TERM> <TERM term=“Audiência”/> </THESAURUS> I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002 CNPq Estrutura aplicada a RI PUCRS • Desenvolvimento de um heurística de Expansão de Consulta – Objetivos: • Utilizar a estrutura em uma aplicação de RI; • Demonstrar que, através de uma estrutura padrão é possível a utilização conjunta de diferentes tesauros (multitesauro) por uma mesma aplicação. 10 /28 I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002 CNPq Contexto deste trabalho Expansão de consulta? PUCRS • A adição de termos a uma consulta de forma que o conjunto de documentos relevantes encontrados seja maior que o conjunto da consulta original. Termo C Documentos Relevantes Termo A Termo B 11 /28 I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002 CNPq O que é o QET? PUCRS É uma ferramenta de expansão de consulta (EC) que utiliza tesauros definidos de acordo com uma estrutura padrão. O nome QET é um acrônimo para Query Expansion Tool e a ferramenta teve seu desenvolvimento em Borland Kylix 2 Open Edition sobre uma plataforma Linux. 12 /28 I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002 CNPq Heurística da Expansão PUCRS • Um termo t é adicionado à consulta expandida se o valor δ(t) for maior que um limiar λ proposto. • O valor δ(t) é soma de todos valores β(t) > σ . • A cada tipo de relação é atribuído um peso entre (0,1] Carro UF (0.8) Carro UF (0.8) Carro UF (0.8) Automóvel Automóvel Automóvel Acidente 13 /28 β = 0.8 > σ (0.1) RT (0.2) RT (0.2) NT (0.6) Acidente de Trânsito Acidente de Trânsito Acidente de Trânsito β = 0.16 > σ (0.1) RT (0.2) β = 0.032 < σ (0.1) δ = 0.6 + 0.16 I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002 > λ (0.6) CNPq Medidas de avaliação PUCRS Documentos Relevantes Corpus Documentos Recuperados a b c 14 /28 • Precisão: b P c • Recall: b R a • F-Measure: 2 PR F PR I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002 CNPq PUCRS Definição dos pesos para as relações Peso de RT altos diminuem a precisão Peso de BT elevado aumenta o recall mas reduz a precisão 15 /28 I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002 CNPq Avaliação PUCRS • Testes em corpus – Corpus do NILC de artigos diversos da folha de São Paulo do ano de 1994, com 1.323.700 palavras em 5093 artigos. Cada artigo corresponde a um arquivo diferente. – Indexação e consulta aos arquivos realizada pela ferramenta ASPSeek, através de interface Web/CGI. • Verificação manual de relevância. • Geração semi-automática de estatísticas. – Marcação de relevância para 13 assuntos. 16 /28 I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002 CNPq Recall PUCRS 1,0000 0,9000 0,8000 0,7000 Abrangência 0,6000 0,5000 0,4000 0,3000 0,2000 0,1000 0,0000 1 2 3 4 5 6 7 8 9 10 11 12 13 Consultas Consulta Original 17 /28 Consulta Expandida I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002 CNPq Precisão PUCRS 1,0000 0,9000 0,8000 0,7000 Precisão 0,6000 0,5000 0,4000 0,3000 0,2000 0,1000 0,0000 1 2 3 4 5 6 7 8 9 10 11 12 13 Consultas Consulta Original 18 /28 Consulta Expandida I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002 CNPq F-Measure PUCRS 0,8000 0,7000 0,6000 Medida-F 0,5000 0,4000 0,3000 0,2000 0,1000 0,0000 1 2 3 4 5 6 7 8 9 10 11 12 13 Consultas Consulta Original 19 /28 Consulta Expandida I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002 CNPq Avaliação PUCRS • Médias das 13 consultas Médias 20 /28 Precisão Recall F-Measure Consulta Normal 0,4563 0,2336 0,3090 Consulta Expandida 0,3867 0,5247 0,4452 -15,25% +124,61% +44,08% I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002 CNPq Et al. E coautores! Trabalhos Relacionados PUCRS • Sintichakis & Constantopoulus (1997) apresentam um método de efetuar a junção de tesauros monolíngües; • Robin & Ramalho (2001) realizam a expansão de consultas com as relações de sinonímia e hiperonímia da WordNet. • Tudhope et al. (2001) propõem uma técnica para medir a distância semântica entre termos utilizando diferentes pesos para as diferentes relações semânticas. • Mandala et al. (1999) utilizam a WordNet, junto ao tesauro de Roget e outros tesauros gerados automaticamente, na expansão de consultas. 21 /28 I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002 CNPq Considerações PUCRS • A estrutura tesaural desenvolvida possibilita a utilização conjunta de diferentes tipos de tesauros e demonstrou sua utilidade na RI através do método de expansão de consultas desenvolvido. • O método de expansão apresenta bons resultados (F-Measure) e melhora a RI. 22 /28 I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002 CNPq Foco da Dissertação PUCRS • O desenvolvimento da estrutura multitesauro; • A heurística utilizada na expansão de consulta implementada na ferramenta QET. • Uma avaliação da utilização da estrutura na RI. 23 /28 I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002 CNPq Agradecimentos PUCRS • • 24 /28 Artigo/projeto parcialmente suportado pelo convênio DELL/PUCRS Conselho Nacional de Pesquisa Científica • Departamento Técnico do Sistema Integrado de Bibliotecas da USP • Subsecretaria de Biblioteca do Senado Federal • Biblioteca Central da PUCRS • Núcleo Interinstitucional de Lingüistica Computacional I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002 CNPq Referências PUCRS GASPERIN, Caroline Varaschin. Extração automática de relações semânticas a partir de relações sintáticas. Dissertação de Mestrado. Faculdade de Informática da Pontifícia Universidade Católica do Rio Grande do Sul. 2001. ISO 2788. International Organization for Standardization. ISO 2788: Guidelines for the establishment and development of monolingual thesauri. 2nd ed. Geneva: ISO, 1986. MANDALA, Rila; TOKUNAGA, Takenobu; TANAKA, Hozumi. Complementing wordnet with roget's and corpusbased thesauri for information retrieval. In: 9th Conference Of The European Chapter Of The Association For Computational Linguistics (EACL'99), 1999. Proceedings ... . 1999. p.94-101. MANDALA, Rila; TOKUNAGA, Takenobu; TANAKA, Hozumi. Combining multiple evidence from dierent types of thesaurus for query expansion. In: 22nd Annual International ACM SIGIR Conference On Research And Development In Information Retrieval, 1999. Proceedings .... ACM Press, 1999. p.191-197. ROBIN, J.; RAMALHO, F. S. Empirically evaluating WordNet-based query expansion in a web search engine setting. In: IR'2001, 2001,Oulu, Finland. Proceedings … . 2001. RUGE, G. Combining Corpus Linguistics and Human Memory Models for Automatic Term Association. In: STRZALKOWSKI, Tomek. Natural Language Information Retrieval. 1999. p75-98. SINTICHAKIS, Marios; CONSTANTOPOULOS, Panos. A method for monolingual thesauri merging. In: 20th International Conference On Research And Development In Information Retrieval, 1997. Proceedings ... . 1997. p.129-138. TUDHOPE, Douglas; ALANI, Harith; JONES, Christopher. Augmenting thesaurus relationships: possibilities for retrieval. Journal of Digital Information, v.1, n.8, Fevereiro 2001. 25 /28 I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002 CNPq Desenvolvimento e Avaliação de uma Estrutura Multitesauro para a Recuperação de Informações Luiz Augusto Sangoi Pizzato Vera Lúcia Strube de Lima PUCRS http://www.inf.pucrs.br/~pizzato [email protected] I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002 CNPq