Desenvolvimento e Avaliação de uma
Estrutura Multitesauro para
a Recuperação de Informações
Luiz Augusto Sangoi Pizzato
Vera Lúcia Strube de Lima
PUCRS
I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002
CNPq
O que será visto ...
PUCRS
• Introdução aos conceitos de tesauro e relações
semânticas;
• Objetivos deste trabalho;
• Recursos disponíveis;
• Estrutura multitesauro desenvolvida;
• Heurística de expansão de consultas implementada;
• Avaliação;
• Trabalhos relacionados;
• Considerações;
2 /28
I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002
CNPq
Definição
adequada ao
contexto da RI /
Dissertação
O que é um tesauro?
PUCRS
"É uma compilação ordenada de conceitos, com
ênfase na associação entre eles, que serve, no campo
da informação e da documentação, para indexação e
recuperação em um dado domínio documentário"
(Ruge, 1999)
Caminhoneiro -> Caminhão, Motorista, Carga
Cobra
-> Animal, Réptil, Cobra Venenosa
Computador
-> Processador, CPU, Processamento
3 /28
I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002
CNPq
PUCRS
Relações semânticas da
ISO 2788
• Relação entre sinônimos
– Entre Termos Preferenciais (TP) e Termos Não-Preferenciais
(TNP).
• USE
– TNP USE TP
– Motorista de caminhão USE Caminhoneiro
• UF (Used For)
– TP UF TNP
– Caminhoneiro UF Motorista de caminhão
4 /28
I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002
CNPq
PUCRS
Relações semânticas da
ISO 2788
• Relações entre TP
• Broader Term - BT
– Automóvel BT Veículo
• Narrower Term - NT
– Veículo NT Automóvel
• Related Term - RT
– Automóvel RT Rodovia
5 /28
I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002
CNPq
Objetivos deste trabalho
PUCRS
• Criar uma estrutura de tesauros que seja útil à
Recuperação de Informação (RI).
• Demonstrar a possibilidade de utilização de múltiplos
tesauros de forma conjunta (multitesauro) através da
utilização de uma estrutura padrão.
6 /28
I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002
CNPq
Recursos disponíveis
PUCRS
• Tesauros
– LDPUCRS
• Lista de descritores da Biblioteca Ir. José Otão – PUCRS;
– VCUSP
• Vocabulário Controlado da USP – Tesauro em CDROM;
– VCBS
• Vocabulário Controlado Básico do Senado;
– LTOCSS
• Lista de termos obtida por cálculo de similaridade sintática
através das técnicas descritas por Gasperin (2001).
• Tesauro construído automaticamente através do corpus do NILC
da “Folha de São Paulo” do ano de 1994.
7 /28
I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002
CNPq
PUCRS
Desenvolvimento da estrutura
multitesauro
• Tesauros LDPUCRS, VCUSP, VCBS podem ser
facilmente convertidos para a uma estrutura baseada
na ISO 2788
• Algumas informações presentes nos tesauros podem
ser descartadas
– Scope Note (Notas de Escopo) são úteis para bibliotecários, mas
não aparentam utilidade na RI automática
• As relações semânticas do tesauro LTOCSS
apresentam uma medida de similaridade entre os
termos.
– Como os significados das relações não são conhecidos, elas
são associadas à relação RT da ISO 2788.
8 /28
I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002
CNPq
Estrutura multitesauro
PUCRS
ISO 2788
LTOCSS
9 /28
<THESAURUS>
<TERM term=“Eletroeletrônicos”>
<TERM term=“Televisão”>
<UF term=“TV”/>
<RT term=“Audiência”/>
<RT term=“Telespectador” value=“0.99”/>
</TERM>
<NT term=“Videocassete”/>
</TERM>
<TERM term=“Videocassete”>
<SN>Utilize este termo quando for um aparelho
com mídia em fita magnética.</SN>
<BT term=“Eletroeletrônicos”/>
</TERM>
<TERM term=“Audiência”/>
</THESAURUS>
I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002
CNPq
Estrutura aplicada a RI
PUCRS
• Desenvolvimento de um heurística de Expansão de
Consulta
– Objetivos:
• Utilizar a estrutura em uma aplicação de RI;
• Demonstrar que, através de uma estrutura padrão é possível a
utilização conjunta de diferentes tesauros (multitesauro) por uma
mesma aplicação.
10 /28
I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002
CNPq
Contexto deste
trabalho
Expansão de consulta?
PUCRS
• A adição de termos a uma consulta de forma que o conjunto de
documentos relevantes encontrados seja maior que o conjunto da
consulta original.
Termo C
Documentos
Relevantes
Termo A
Termo B
11 /28
I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002
CNPq
O que é o QET?
PUCRS
É uma ferramenta de expansão de
consulta (EC) que utiliza tesauros
definidos de acordo com uma estrutura
padrão.
O nome QET é um acrônimo para Query
Expansion Tool e a ferramenta teve seu
desenvolvimento em Borland Kylix 2 Open Edition sobre uma plataforma
Linux.
12 /28
I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002
CNPq
Heurística da Expansão
PUCRS
• Um termo t é adicionado à consulta expandida se o
valor δ(t) for maior que um limiar λ proposto.
• O valor δ(t) é soma de todos valores β(t) > σ .
• A cada tipo de relação é atribuído um peso entre (0,1]
Carro
UF
(0.8)
Carro
UF
(0.8)
Carro
UF
(0.8)
Automóvel
Automóvel
Automóvel
Acidente
13 /28
β = 0.8 > σ (0.1)
RT
(0.2)
RT
(0.2)
NT
(0.6)
Acidente de Trânsito
Acidente de Trânsito
Acidente de Trânsito
β = 0.16 > σ (0.1)
RT
(0.2)
β = 0.032 < σ (0.1)
δ = 0.6 + 0.16
I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002
> λ (0.6)
CNPq
Medidas de avaliação
PUCRS
Documentos Relevantes
Corpus
Documentos Recuperados
a b c
14 /28
• Precisão:
b
P
c
• Recall:
b
R
a
• F-Measure:
2 PR
F
PR
I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002
CNPq
PUCRS
Definição dos pesos para as
relações
Peso de RT altos diminuem a precisão
Peso de BT elevado aumenta o recall mas reduz a precisão
15 /28
I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002
CNPq
Avaliação
PUCRS
• Testes em corpus
– Corpus do NILC de artigos diversos da folha de São Paulo do
ano de 1994, com 1.323.700 palavras em 5093 artigos. Cada
artigo corresponde a um arquivo diferente.
– Indexação e consulta aos arquivos realizada pela ferramenta
ASPSeek, através de interface Web/CGI.
• Verificação manual de relevância.
• Geração semi-automática de estatísticas.
– Marcação de relevância para 13 assuntos.
16 /28
I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002
CNPq
Recall
PUCRS
1,0000
0,9000
0,8000
0,7000
Abrangência
0,6000
0,5000
0,4000
0,3000
0,2000
0,1000
0,0000
1
2
3
4
5
6
7
8
9
10
11
12
13
Consultas
Consulta Original
17 /28
Consulta Expandida
I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002
CNPq
Precisão
PUCRS
1,0000
0,9000
0,8000
0,7000
Precisão
0,6000
0,5000
0,4000
0,3000
0,2000
0,1000
0,0000
1
2
3
4
5
6
7
8
9
10
11
12
13
Consultas
Consulta Original
18 /28
Consulta Expandida
I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002
CNPq
F-Measure
PUCRS
0,8000
0,7000
0,6000
Medida-F
0,5000
0,4000
0,3000
0,2000
0,1000
0,0000
1
2
3
4
5
6
7
8
9
10
11
12
13
Consultas
Consulta Original
19 /28
Consulta Expandida
I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002
CNPq
Avaliação
PUCRS
• Médias das 13 consultas
Médias
20 /28
Precisão
Recall
F-Measure
Consulta Normal
0,4563
0,2336
0,3090
Consulta Expandida
0,3867
0,5247
0,4452
-15,25%
+124,61%
+44,08%
I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002
CNPq
Et al.
E coautores!
Trabalhos Relacionados
PUCRS
• Sintichakis & Constantopoulus (1997) apresentam um método de
efetuar a junção de tesauros monolíngües;
• Robin & Ramalho (2001) realizam a expansão de consultas com
as relações de sinonímia e hiperonímia da WordNet.
• Tudhope et al. (2001) propõem uma técnica para medir a
distância semântica entre termos utilizando diferentes pesos para
as diferentes relações semânticas.
• Mandala et al. (1999) utilizam a WordNet, junto ao tesauro de
Roget e outros tesauros gerados automaticamente, na expansão
de consultas.
21 /28
I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002
CNPq
Considerações
PUCRS
• A estrutura tesaural desenvolvida possibilita a
utilização conjunta de diferentes tipos de tesauros e
demonstrou sua utilidade na RI através do método de
expansão de consultas desenvolvido.
• O método de expansão apresenta bons resultados
(F-Measure) e melhora a RI.
22 /28
I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002
CNPq
Foco da Dissertação
PUCRS
• O desenvolvimento da estrutura multitesauro;
• A heurística utilizada na expansão de consulta
implementada na ferramenta QET.
• Uma avaliação da utilização da estrutura na RI.
23 /28
I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002
CNPq
Agradecimentos
PUCRS
•
•
24 /28
Artigo/projeto parcialmente suportado pelo convênio
DELL/PUCRS
Conselho Nacional de Pesquisa Científica
•
Departamento Técnico do Sistema Integrado de
Bibliotecas da USP
•
Subsecretaria de Biblioteca do Senado Federal
•
Biblioteca Central da PUCRS
•
Núcleo Interinstitucional de Lingüistica Computacional
I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002
CNPq
Referências
PUCRS
GASPERIN, Caroline Varaschin. Extração automática de relações semânticas a partir de relações sintáticas.
Dissertação de Mestrado. Faculdade de Informática da Pontifícia Universidade Católica do Rio Grande
do Sul. 2001.
ISO 2788. International Organization for Standardization. ISO 2788: Guidelines for the establishment and
development of monolingual thesauri. 2nd ed. Geneva: ISO, 1986.
MANDALA, Rila; TOKUNAGA, Takenobu; TANAKA, Hozumi. Complementing wordnet with roget's and corpusbased thesauri for information retrieval. In: 9th Conference Of The European Chapter Of The Association
For Computational Linguistics (EACL'99), 1999. Proceedings ... . 1999. p.94-101.
MANDALA, Rila; TOKUNAGA, Takenobu; TANAKA, Hozumi. Combining multiple evidence from dierent types of
thesaurus for query expansion. In: 22nd Annual International ACM SIGIR Conference On Research And
Development In Information Retrieval, 1999. Proceedings .... ACM Press, 1999. p.191-197.
ROBIN, J.; RAMALHO, F. S. Empirically evaluating WordNet-based query expansion in a web search engine
setting. In: IR'2001, 2001,Oulu, Finland. Proceedings … . 2001.
RUGE, G. Combining Corpus Linguistics and Human Memory Models for Automatic Term Association. In:
STRZALKOWSKI, Tomek. Natural Language Information Retrieval. 1999. p75-98.
SINTICHAKIS, Marios; CONSTANTOPOULOS, Panos. A method for monolingual thesauri merging. In: 20th
International Conference On Research And Development In Information Retrieval, 1997. Proceedings ...
. 1997. p.129-138.
TUDHOPE, Douglas; ALANI, Harith; JONES, Christopher. Augmenting thesaurus relationships: possibilities for
retrieval. Journal of Digital Information, v.1, n.8, Fevereiro 2001.
25 /28
I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002
CNPq
Desenvolvimento e Avaliação de uma
Estrutura Multitesauro para
a Recuperação de Informações
Luiz Augusto Sangoi Pizzato
Vera Lúcia Strube de Lima
PUCRS
http://www.inf.pucrs.br/~pizzato
[email protected]
I WTDIA-SBIA’02. Porto de Galinhas, 11-14 Novembro 2002
CNPq
Download

PUCRS