Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações Luiz Augusto Sangoi Pizzato [email protected] Vera Lúcia Strube de Lima [email protected] PUCRS CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Introdução Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações • • • • Tesauro Estrutura Multitesaural Recuperação de Informações (RI) Resultados obtidos CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Tesauro? "É uma compilação ordenada de conceitos, com ênfase na associação entre eles, que serve, no campo da informação e da documentação, para indexação e recuperação em um dado domínio documentário" (Ruge, 1999) Caminhoneiro Cobra Computador -> Caminhão, Motorista, Carga -> Animal, Réptil, Cobra Venenosa -> Processador, CPU, Processamento CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Relações Semânticas da ISO 2788 • Relação de Equivalência – Sinonímia, Quase-sinonímia, Equivalentes Lexicais • Computação USE Informática • Relações Hierárquicas – Hiponímia (Narrower Term) • Mamífero NT Leão – Hiperonímia (Broader Term) • Leão BT Mamífero • Relações Associativas – Termos Relacionados • Passageiro RT Automóvel CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Multitesauro • LDPUCRS – Lista de descritores da Biblioteca Ir. José Otão – PUCRS; • VCUSP – Vocabulário Controlado da USP – Tesauro em CDROM; • VCBS – Vocabulário Controlado Básico do Senado; • LTOCSS – Tesauro construído automaticamente através do corpus do NILC da “Folha de São Paulo” do ano de 1994. – Relações obtidas por cálculo de similaridade sintática através das técnicas descritas por Grefenstette (1994), adaptadas ao português por Gasperin (2001). CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Características • Tesauros LDPUCRS, VCUSP e VCBS: – São facilmente convertidos para a uma estrutura baseada na ISO 2788; – Apresentam informações que podem podem ser descartadas • Scope Note (Notas de Escopo) são úteis para bibliotecários, mas não aparentam utilidade na RI automática • Tesauro LTOCSS – Como os significados das relações não são conhecidos, elas são associadas à relação RT da ISO 2788. – As relações semânticas apresentam uma medida de similaridade entre os termos. CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Estrutura Multitesauro ISO 2788 LTOCSS <THESAURUS> <TERM term=“Eletroeletrônicos”> <TERM term=“Televisão”> <UF term=“TV”/> <RT term=“Audiência”/> <RT term=“Telespectador” value=“0.99”/> </TERM> <NT term=“Videocassete”/> </TERM> <TERM term=“Videocassete”> <SN>Utilize este termo quando for um aparelho com mídia em fita magnética.</SN> <BT term=“Eletroeletrônicos”/> </TERM> <TERM term=“Audiência”/> </THESAURUS> CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Recuperação de Informações • Desenvolvimento de uma Heurística de Expansão de Consultas – Utilizar a estrutura em uma aplicação de RI; – Demonstrar que, através de uma estrutura padrão é possível a utilização conjunta de diferentes tesauros (multitesauro) por uma mesma aplicação. CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Expansão de consulta? • A adição de termos a uma consulta de forma que o conjunto de documentos relevantes encontrados seja maior que o conjunto da consulta original. Termo C Documentos Relevantes Termo A Termo B CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002 O que é o QET? É uma ferramenta de expansão de consulta (EC) que utiliza tesauros definidos de acordo com uma estrutura padrão. O nome QET é um acrônimo para Query Expansion Tool e a ferramenta teve seu desenvolvimento em Borland Kylix 2 - Open Edition sobre uma plataforma Linux. CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Heurística de Expansão de Consultas Relação Semântica com pesos em [0,1) Acidente de Carro UF (0.8) β = 0.8 Automóvel RT (0.2) Acidente de Trânsito RT (0.2) Direção Perigosa XXXXXXXXX β = 0.16 β = 0.032 < σ (0.1) CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Heurística de Expansão de Consultas Acidente de Carro UF (0.8) Automóvel NT (0.6) RT (0.2) Acidente de Trânsito β = 0.16 β = 0.6 δ = 0.76 > λ (0.7) CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Medidas de avaliação Documentos Relevantes Corpus Documentos Recuperados a b c • Precisão: P b c • Recall: R • F-Measure: F b a 2 PR PR CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Avaliação • Testes em corpus – Corpus do NILC de artigos diversos da folha de São Paulo do ano de 1994, com 1.323.700 palavras em 5093 artigos. Cada artigo corresponde a um arquivo diferente. – Indexação e consulta aos arquivos realizada pela ferramenta ASPSeek, através de interface Web/CGI. • Verificação manual de relevância. • Geração semi-automática de estatísticas. – Marcação de relevância para 13 assuntos. CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Definição dos pesos para as relações Peso de RT altos diminuem a precisão Peso de BT elevado aumenta o recall mas reduz a precisão CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Recall 1,0000 0,9000 0,8000 0,7000 Abrangência 0,6000 0,5000 0,4000 0,3000 0,2000 0,1000 0,0000 1 2 3 4 5 6 7 8 9 10 11 Consultas Consulta Original Consulta Expandida CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002 12 13 Precisão 1,0000 0,9000 0,8000 0,7000 Precisão 0,6000 0,5000 0,4000 0,3000 0,2000 0,1000 0,0000 1 2 3 4 5 6 7 8 9 10 11 Consultas Consulta Original Consulta Expandida CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002 12 13 F-Measure 0,8000 0,7000 0,6000 Medida-F 0,5000 0,4000 0,3000 0,2000 0,1000 0,0000 1 2 3 4 5 6 7 8 9 10 11 Consultas Consulta Original Consulta Expandida CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002 12 13 Avaliação • Médias das 13 consultas Médias Precisão Recall F-Measure Consulta Normal 0,4563 0,2336 0,3090 Consulta Expandida 0,3867 0,5247 0,4452 -15,25% +124,61% +44,08% CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Considerações • A estrutura tesaural desenvolvida possibilita a utilização conjunta de diferentes tipos de tesauros e demonstrou sua utilidade na RI através do método de expansão de consultas desenvolvido. • O método de expansão apresenta bons resultados (F-Measure) e melhora a RI. CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Trabalhos Futuros • Indexação e recuperação de documentos no QET; • Utilizar outros tipos de tesauros construídos automaticamente; • Descobrir melhores valores para os parâmetros da heurística; CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Foco do estudo • O desenvolvimento da estrutura multitesauro; • A heurística utilizada na expansão de consulta implementada na ferramenta QET. • Uma avaliação da utilização da estrutura na RI. CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Agradecimentos • Artigo/projeto parcialmente suportado pelo convênio DELL/PUCRS • Conselho Nacional de Pesquisa Científica • Departamento Técnico do Sistema Integrado de Bibliotecas da USP • Subsecretaria de Biblioteca do Senado Federal • Biblioteca Ir. José Otão da PUCRS • Núcleo Interinstitucional de Lingüística Computacional CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Referências GASPERIN, Caroline Varaschin. Extração automática de relações semânticas a partir de relações sintáticas. Dissertação de Mestrado. Faculdade de Informática da Pontifícia Universidade Católica do Rio Grande do Sul. 2001. GREFENSTETTE, Gregory. Explorations in Automatic Thesaurus Discovery. EUA: Kluwer Academic Publishers. 1994. 305 p. ISO 2788. International Organization for Standardization. ISO 2788: Guidelines for the establishment and development of monolingual thesauri. 2nd ed. Geneva: ISO, 1986. RUGE, G. Combining Corpus Linguistics and Human Memory Models for Automatic Term Association. In: STRZALKOWSKI, Tomek. Natural Language Information Retrieval. 1999. p75-98. CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações Luiz Augusto Sangoi Pizzato [email protected] Vera Lúcia Strube de Lima [email protected] http://www.inf.pucrs.br/~pizzato PUCRS CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002