Desenvolvimento e Avaliação de uma
Estrutura Multitesauro para
Recuperação de Informações
Luiz Augusto Sangoi Pizzato
[email protected]
Vera Lúcia Strube de Lima
[email protected]
PUCRS
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Introdução
Desenvolvimento e Avaliação de uma
Estrutura Multitesauro para
Recuperação de Informações
•
•
•
•
Tesauro
Estrutura Multitesaural
Recuperação de Informações (RI)
Resultados obtidos
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Tesauro?
"É uma compilação ordenada de conceitos, com ênfase na
associação entre eles, que serve, no campo da informação e da
documentação, para indexação e recuperação em um dado domínio
documentário" (Ruge, 1999)
Caminhoneiro
Cobra
Computador
-> Caminhão, Motorista, Carga
-> Animal, Réptil, Cobra Venenosa
-> Processador, CPU, Processamento
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Relações Semânticas da ISO 2788
• Relação de Equivalência
– Sinonímia, Quase-sinonímia, Equivalentes Lexicais
• Computação USE Informática
• Relações Hierárquicas
– Hiponímia (Narrower Term)
• Mamífero NT Leão
– Hiperonímia (Broader Term)
• Leão BT Mamífero
• Relações Associativas
– Termos Relacionados
• Passageiro RT Automóvel
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Multitesauro
• LDPUCRS
– Lista de descritores da Biblioteca Ir. José Otão – PUCRS;
• VCUSP
– Vocabulário Controlado da USP – Tesauro em CDROM;
• VCBS
– Vocabulário Controlado Básico do Senado;
• LTOCSS
– Tesauro construído automaticamente através do corpus do NILC
da “Folha de São Paulo” do ano de 1994.
– Relações obtidas por cálculo de similaridade sintática através das
técnicas descritas por Grefenstette (1994), adaptadas ao
português por Gasperin (2001).
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Características
• Tesauros LDPUCRS, VCUSP e VCBS:
– São facilmente convertidos para a uma estrutura baseada na ISO
2788;
– Apresentam informações que podem podem ser descartadas
• Scope Note (Notas de Escopo) são úteis para bibliotecários, mas não
aparentam utilidade na RI automática
• Tesauro LTOCSS
– Como os significados das relações não são conhecidos, elas são
associadas à relação RT da ISO 2788.
– As relações semânticas apresentam uma medida de similaridade
entre os termos.
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Estrutura Multitesauro
ISO 2788
LTOCSS
<THESAURUS>
<TERM term=“Eletroeletrônicos”>
<TERM term=“Televisão”>
<UF term=“TV”/>
<RT term=“Audiência”/>
<RT term=“Telespectador” value=“0.99”/>
</TERM>
<NT term=“Videocassete”/>
</TERM>
<TERM term=“Videocassete”>
<SN>Utilize este termo quando for um aparelho
com mídia em fita magnética.</SN>
<BT term=“Eletroeletrônicos”/>
</TERM>
<TERM term=“Audiência”/>
</THESAURUS>
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Recuperação de Informações
• Desenvolvimento de uma Heurística de Expansão
de Consultas
– Utilizar a estrutura em uma aplicação de RI;
– Demonstrar que, através de uma estrutura padrão é
possível a utilização conjunta de diferentes tesauros
(multitesauro) por uma mesma aplicação.
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Expansão de consulta?
• A adição de termos a uma consulta de forma que o
conjunto de documentos relevantes encontrados seja
maior que o conjunto da consulta original.
Termo C
Documentos
Relevantes
Termo A
Termo B
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
O que é o QET?
É uma ferramenta de expansão de
consulta (EC) que utiliza tesauros
definidos de acordo com uma estrutura
padrão.
O nome QET é um acrônimo para
Query Expansion Tool e a ferramenta
teve seu desenvolvimento em Borland
Kylix 2 - Open Edition sobre uma
plataforma Linux.
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Heurística de
Expansão de Consultas
Relação Semântica com
pesos em [0,1)
Acidente de Carro
UF
(0.8)
β = 0.8
Automóvel
RT
(0.2)
Acidente de Trânsito
RT
(0.2)
Direção Perigosa
XXXXXXXXX
β = 0.16
β = 0.032 < σ (0.1)
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Heurística de
Expansão de Consultas
Acidente de Carro
UF
(0.8)
Automóvel
NT
(0.6)
RT
(0.2)
Acidente de Trânsito
β = 0.16
β = 0.6
δ = 0.76 > λ (0.7)
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Medidas de avaliação
Documentos Relevantes
Corpus
Documentos Recuperados
a b c
• Precisão:
P 
b
c
• Recall:
R 
• F-Measure: F 
b
a
2 PR
PR
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Avaliação
• Testes em corpus
– Corpus do NILC de artigos diversos da folha de São
Paulo do ano de 1994, com 1.323.700 palavras em
5093 artigos. Cada artigo corresponde a um arquivo
diferente.
– Indexação e consulta aos arquivos realizada pela
ferramenta ASPSeek, através de interface Web/CGI.
• Verificação manual de relevância.
• Geração semi-automática de estatísticas.
– Marcação de relevância para 13 assuntos.
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Definição dos pesos para as
relações
Peso de RT altos diminuem a precisão
Peso de BT elevado aumenta o recall mas reduz a precisão
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Recall
1,0000
0,9000
0,8000
0,7000
Abrangência
0,6000
0,5000
0,4000
0,3000
0,2000
0,1000
0,0000
1
2
3
4
5
6
7
8
9
10
11
Consultas
Consulta Original
Consulta Expandida
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
12
13
Precisão
1,0000
0,9000
0,8000
0,7000
Precisão
0,6000
0,5000
0,4000
0,3000
0,2000
0,1000
0,0000
1
2
3
4
5
6
7
8
9
10
11
Consultas
Consulta Original
Consulta Expandida
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
12
13
F-Measure
0,8000
0,7000
0,6000
Medida-F
0,5000
0,4000
0,3000
0,2000
0,1000
0,0000
1
2
3
4
5
6
7
8
9
10
11
Consultas
Consulta Original
Consulta Expandida
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
12
13
Avaliação
• Médias das 13 consultas
Médias
Precisão
Recall
F-Measure
Consulta Normal
0,4563
0,2336
0,3090
Consulta Expandida
0,3867
0,5247
0,4452
-15,25%
+124,61%
+44,08%
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Considerações
• A estrutura tesaural desenvolvida possibilita a
utilização conjunta de diferentes tipos de tesauros
e demonstrou sua utilidade na RI através do
método de expansão de consultas desenvolvido.
• O método de expansão apresenta bons
resultados (F-Measure) e melhora a RI.
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Trabalhos Futuros
• Indexação e recuperação de documentos no
QET;
• Utilizar outros tipos de tesauros construídos
automaticamente;
• Descobrir melhores valores para os parâmetros
da heurística;
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Foco do estudo
• O desenvolvimento da estrutura multitesauro;
• A heurística utilizada na expansão de consulta
implementada na ferramenta QET.
• Uma avaliação da utilização da estrutura na RI.
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Agradecimentos
• Artigo/projeto parcialmente suportado pelo convênio
DELL/PUCRS
• Conselho Nacional de Pesquisa Científica
• Departamento Técnico do Sistema Integrado de
Bibliotecas da USP
• Subsecretaria de Biblioteca do Senado Federal
• Biblioteca Ir. José Otão da PUCRS
• Núcleo Interinstitucional de Lingüística Computacional
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Referências
GASPERIN, Caroline Varaschin. Extração automática de relações semânticas a partir
de relações sintáticas. Dissertação de Mestrado. Faculdade de Informática da
Pontifícia Universidade Católica do Rio Grande do Sul. 2001.
GREFENSTETTE, Gregory. Explorations in Automatic Thesaurus Discovery. EUA:
Kluwer Academic Publishers. 1994. 305 p.
ISO 2788. International Organization for Standardization. ISO 2788: Guidelines for the
establishment and development of monolingual thesauri. 2nd ed. Geneva: ISO,
1986.
RUGE, G. Combining Corpus Linguistics and Human Memory Models for Automatic Term
Association. In: STRZALKOWSKI, Tomek. Natural Language Information
Retrieval. 1999. p75-98.
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Desenvolvimento e Avaliação de uma
Estrutura Multitesauro para
Recuperação de Informações
Luiz Augusto Sangoi Pizzato
[email protected]
Vera Lúcia Strube de Lima
[email protected]
http://www.inf.pucrs.br/~pizzato
PUCRS
CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Download

Desenvolvimento e avaliação de uma estrutura multitesauro para