PUCRS
Estrutura Multitesauro para
Recuperação de Informações
Luiz Augusto Sangoi Pizzato
Dissertação de Mestrado
Orientação: Vera Lúcia Strube de Lima
Porto Alegre, 8 de Janeiro de 2003
Introdução
Estrutura Multitesauro para
Recuperação de Informações
 Tesauro
 Recuperação de Informações (RI)
 Estrutura Multitesauro
 Método para validação da estrutura na RI
 Resultados obtidos
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
2/37
Tesauro?
"É uma compilação ordenada de conceitos, com ênfase na
associação entre eles, que serve, no campo da informação e da
documentação, para indexação e recuperação em um dado
domínio documentário" (Ruge, 1999)
Caminhoneiro
Cobra
Computador
-> Caminhão, Motorista, Carga
-> Animal, Réptil, Cobra Venenosa
-> Processador, CPU, Processamento
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
3/37
Relações Semânticas da ISO 2788
 Relação de Equivalência
 Sinonímia, Quase-sinonímia, Equivalentes Lexicais
 Computação USE Informática
 Relações Hierárquicas
 Hiponímia (Narrower Term)
 Mamífero NT Leão

Hiperonímia (Broader Term)
 Leão BT Mamífero
 Relações Associativas
 Termos Relacionados
 Passageiro RT Automóvel
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
4/37
Recuperação de Informações (RI)?
 Problema: Como encontrar os documentos
que o usuário necessita?

Pesquisa em base de documentos através de
uma consulta de usuário
Documentos
Encontrados
Relevantes
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
5/37
RI e Linguagem Natural
 Documentos e consultas estão em linguagem
natural

Linguagem Natural é bastante ambígua
cachorr
o
cã
o
cachorr
o
canalh
a
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
6/37
Expansão de consulta?
 A adição de termos a uma consulta de forma que o
conjunto de documentos relevantes encontrados seja
maior que o conjunto da consulta original.
Termo C
Documentos
Relevantes
Termo A
Termo B
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
7/37
Multitesauro
 LDPUCRS
Lista de descritores da Biblioteca Ir. José Otão – PUCRS;
 VCUSP
 Vocabulário Controlado da USP – Tesauro em CDROM;
 VCBS
 Vocabulário Controlado Básico do Senado;
 LTOCSS
 Tesauro construído automaticamente através do corpus do
NILC da “Folha de São Paulo” do ano de 1994.
 Relações obtidas por cálculo de similaridade sintática
através das técnicas descritas por Grefenstette (1994),
adaptadas ao português por Gasperin (2001).

PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
8/37
Características
 Tesauros LDPUCRS, VCUSP e VCBS:
 São facilmente convertidos para a uma estrutura
baseada na ISO 2788;
 Apresentam informações que podem podem ser
descartadas

Scope Note (Notas de Escopo) são úteis para bibliotecários,
mas não aparentam utilidade na RI automática
 Tesauro LTOCSS
 Como os significados das relações não são
conhecidos, elas são associadas à relação RT da ISO
2788.
 As relações semânticas apresentam uma medida de
similaridade entre os termos.
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
9/37
Estrutura Multitesauro Inicial
<THESAURUS>
<TERM term=“Eletroeletrônicos”>
<TERM term=“Televisão”>
<UF term=“TV”/>
ISO 2788
<RT term=“Audiência”/>
<RT term=“Telespectador” value=“0.99”/>
LTOCSS
</TERM>
<NT term=“Videocassete”/>
</TERM>
<TERM term=“Videocassete”>
<SN>Utilize este termo quando for um aparelho
com mídia em fita magnética.</SN>
<BT term=“Eletroeletrônicos”/>
</TERM>
<TERM term=“Audiência”/>
</THESAURUS>
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
10/37
Estrutura Multitesauro
<THESAURUS>
<TERM term=“Eletroeletrônicos”>
<TERM term=“Televisão”>
<ET term=“TV”/>
<RT term=“Audiência”/>
<SY term=“Telespectador” value=“0.99”/>
</TERM>
<NT term=“Videocassete”/>
</TERM>
<TERM term=“Videocassete”>
<BT term=“Eletroeletrônicos”/>
</TERM>
<TERM term=“Audiência”/>
</THESAURUS>
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
11/37
Estrutura na RI
 Desenvolvimento de uma Heurística de
Expansão de Consultas


Utilizar a estrutura em uma aplicação de RI;
Demonstrar que, através de uma estrutura
padrão é possível a utilização conjunta de
diferentes tesauros (multitesauro) por uma
mesma aplicação.
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
12/37
O que é o QET?
É uma ferramenta de expansão de
consulta (EC) que utiliza tesauros
definidos de acordo com uma
estrutura padrão.
O nome QET é um acrônimo para
Query Expansion Tool e a
ferramenta teve seu
desenvolvimento em Borland Kylix
2 - Open Edition sobre uma
plataforma Linux.
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
13/37
Heurística de
Expansão de Consultas
Relação Semântica com
pesos em [0,1)
Acidente de Carro
UF
(0.8)
β = 0.8
Automóvel
RT
(0.2)
Acidente de Trânsito
RT
(0.2)
Direção Perigosa
XXXXXXXXX
β = 0.16
β = 0.032 < σ (0.1)
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
14/37
Heurística de
Expansão de Consultas
Acidente de Carro
UF
(0.8)
Automóvel
NT
(0.6)
RT
(0.2)
Acidente de Trânsito
β = 0.16
β = 0.6
δ = 0.76 > λ (0.7)
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
15/37
Medidas de avaliação
Documentos Relevantes
Corpus
Documentos Recuperados
a b c
 Precisão:
b
P
c
 Abrangência:
b
R
a
 Medida-F:
2 PR
F
PR
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
16/37
Validação
 Testes em corpus
 Corpus do NILC de artigos diversos da folha
de São Paulo do ano de 1994, com 1.323.700
palavras em 5093 artigos. Cada artigo
corresponde a um arquivo diferente.
 Indexação e consulta aos arquivos realizada
pela ferramenta ASPSeek, através de interface
Web/CGI.



Verificação manual de relevância.
Geração semi-automática de estatísticas.
Marcação de relevância para 13 assuntos.
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
17/37
Abrangência
1,0000
0,9000
0,8000
0,7000
Abrangência
0,6000
0,5000
0,4000
0,3000
0,2000
0,1000
0,0000
1
2
3
4
5
6
7
8
9
10
11
12
13
Consultas
Consulta Original
Consulta Expandida
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
18/37
Precisão
1,0000
0,9000
0,8000
0,7000
Precisão
0,6000
0,5000
0,4000
0,3000
0,2000
0,1000
0,0000
1
2
3
4
5
6
7
8
9
10
11
12
13
Consultas
Consulta Original
Consulta Expandida
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
19/37
Medida-F
0,8000
0,7000
0,6000
Medida-F
0,5000
0,4000
0,3000
0,2000
0,1000
0,0000
1
2
3
4
5
6
7
8
9
10
11
12
13
Consultas
Consulta Original
Consulta Expandida
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
20/37
Validação
 Médias das 13 consultas
Médias
Precisão
Abrangência
Medida-F
Consulta Normal
0,4499
0,2389
0,3121
Consulta Expandida
0,3778
0,5010
0,4307
-16,02%
+109,71%
+38,00%
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
21/37
Definição dos pesos para as
relações
Peso de RT altos diminuem a precisão
Peso de BT elevado aumenta o recall mas reduz a precisão
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
22/37
Definição de λ
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
23/37
Utilização conjunta de tesauros
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
24/37
Validação na Internet
 Analisados os 50 primeiros documentos
retornados pelo portal Alta Vista Brasil para
14 consultas nas formas originais e
expandidas
 Observou-se duas medidas de relevância:

Documentos Relevantes na RI e na WWW
(DRRI e DRWWW)
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
25/37
Abrangência
1,0000
0,9000
0,8000
0,7000
Abrangência
0,6000
0,5000
0,4000
0,3000
0,2000
0,1000
0,0000
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Consultas
Normal DRRI
Expandida DRRI
Normal Web
Expandida Web
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
26/37
Precisão
1,0000
0,9000
0,8000
0,7000
Precisão
0,6000
0,5000
0,4000
0,3000
0,2000
0,1000
0,0000
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Consultas
Normal DRRI
Expandida DRRI
Normal WWW
Expandida WWW
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
27/37
Medida-F
1,0000
0,9000
0,8000
0,7000
Medida-F
0,6000
0,5000
0,4000
0,3000
0,2000
0,1000
0,0000
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Consultas
Normal DRRI
Expandida DRRI
Normal WWW
Expandida WWW
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
28/37
Médias na Internet
 Médias das 14 consultas
Médias DRRI
Precisão
Abrangência
Medida-F
Consulta Normal
0,8677
0,5836
0,6978
Consulta Expandida
0,7387
0,5384
0,6228
-14,87%
-7,75%
-10,75%
Médias DRWWW
Precisão
Abrangência
Medida-F
Consulta Normal
0,7770
0,5181
0,6216
Consulta Expandida
0,6600
0,4814
0,5567
-15,06%
-7,08%
-10,45%
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
29/37
Estimando a Abrangência na Internet
 Médias das 14
consultas
Médias
Recuperados
Precisão
Abrangência
Estimada
Medida-F
Consulta Normal
16864
0,8677
0,2577
0,3190
Consulta Expandida
29319
0,7387
0,5384
0,6114
+73,85%
-14,87%
+108,90%
+91,69%
Médias
Precisão
Abrangência
Medida-F
Consulta Normal
0,4499
0,2389
0,3121
Consulta Expandida
0,3778
0,5010
0,4307
-16,02%
+109,71%
+38,00%
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
30/37
Considerações sobre os resultados
 A estrutura tesaural desenvolvida possibilita a utilização
conjunta de diferentes tipos de tesauros e demonstrou sua
utilidade na RI através do método de expansão de consultas
desenvolvido.
 O método de expansão apresenta bons resultados (F-Measure)
e melhora a RI`em corpus estático.
 Descobrir melhores valores para os parâmetros da heurística é
um trabalho árduo e deve ser realizado no futuro, para que
melhores resultados possam ser obtidos.
 Testes na Internet demonstraram que, o acréscimo de termos
em um portal de busca acarreta em uma degradação na
precisão. Contudo, quando poucos resultados são obtidos na
consulta original, sempre é válida a realização da expansão de
consulta.
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
31/37
Trabalhos Relacionados
 Sintichakis & Constantopoulus (1997) apresentam
um método de efetuar a junção de tesauros
monolíngües;
 Robin & Ramalho (2001) realizam a expansão de
consultas com as relações de sinonímia e
hiperonímia da WordNet.
 Tudhope et al. (2001) propõem uma técnica para
medir a distância semântica entre termos utilizando
diferentes pesos para as diferentes relações
semânticas.
 Mandala et al. (1999) utilizam a WordNet, junto ao
tesauro de Roget e outros tesauros gerados
automaticamente, na expansão de consultas.
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
32/37
Trabalhos publicados em eventos
PIZZATO, Luiz Augusto Sangoi; STRUBE DE LIMA, Vera Lúcia. Desenvolvimento e
Avaliação de uma Estrutura Multitesauro para a Recuperação de Informações.
In: XXVIII Conferencia Latinoamericana de Informática (CLEI 2002).
Proceedings... . Montevideo, Uruguay.25-29 Novembro 2002.
PIZZATO, Luiz Augusto Sangoi; STRUBE DE LIMA, Vera Lúcia. Desenvolvimento e
Avaliação de uma Estrutura Multitesauro para Recuperação de Informações In:
XVI Brazilian Symposium on Artificial Intelligence (SBIA'02), I Workshop de
Teses e Dissertações em Inteligência Artificial (WTDIA). Proceedings... . Porto
de Galinhas, PE, Brazil. 11-14 Novembro 2002.
PIZZATO, Luiz Augusto Sangoi; STRUBE DE LIMA, Vera Lúcia. Estrutura
Multitesauro para Recuperação de Informações. In: XIII Simpósio Brasileira em
Informática na Educação (SBIE'02), Workshop de Ontologias (WONTO).
Proceedings... . São Leopoldo, RS, Brazil. 12-14 Novembro 2002.
PIZZATO, L. A. S., STRUBE DE LIMA, V.L.. Query Expansion based on Thesaurus
Relations: Evaluation over Internet In: CICLing-2003, Computational Linguistics
and Intelligent Text Processing, 2003, Cidade do México, México. Lecture
Notes in Computer Science N 2588. Berlin, Alemanha: Springer-Verlag, 2003
(a ser publicado)
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
33/37
Trabalhos Futuros
 Indexação e recuperação de documentos no QET;
 Utilizar outros tipos de tesauros construídos
automaticamente;
 Descobrir melhores valores para os parâmetros da
heurística;
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
34/37
Foco do estudo
 O desenvolvimento da estrutura multitesauro;
 A heurística utilizada na expansão de consulta
implementada na ferramenta QET.
 Uma avaliação da utilização da estrutura na RI.
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
35/37
Agradecimentos
 Mestrado foi financiado pelo convênio DELL/PUCRS
 Conselho Nacional de Pesquisa Científica
 Departamento Técnico do Sistema Integrado de
Bibliotecas da USP
 Subsecretaria de Biblioteca do Senado Federal
 Biblioteca Ir. José Otão da PUCRS
 Núcleo Interinstitucional de Lingüística
Computacional
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
36/37
Referências
GASPERIN, Caroline Varaschin. Extração automática de relações semânticas a partir de relações
sintáticas. Dissertação de Mestrado. Faculdade de Informática da Pontifícia Universidade Católica
do Rio Grande do Sul. 2001.
ISO 2788. International Organization for Standardization. ISO 2788: Guidelines for the establishment and
development of monolingual thesauri. 2nd ed. Geneva: ISO, 1986.
MANDALA, Rila; TOKUNAGA, Takenobu; TANAKA, Hozumi. Complementing wordnet with roget's and corpusbased thesauri for information retrieval. In: 9th Conference Of The European Chapter Of The
Association For Computational Linguistics (EACL'99), 1999. Proceedings ... . 1999. p.94-101.
MANDALA, Rila; TOKUNAGA, Takenobu; TANAKA, Hozumi. Combining multiple evidence from dierent types of
thesaurus for query expansion. In: 22nd Annual International ACM SIGIR Conference On Research
And Development In Information Retrieval, 1999. Proceedings .... ACM Press, 1999. p.191-197.
ROBIN, J.; RAMALHO, F. S. Empirically evaluating WordNet-based query expansion in a web search engine
setting. In: IR'2001, 2001,Oulu, Finland. Proceedings … . 2001.
RUGE, G. Combining Corpus Linguistics and Human Memory Models for Automatic Term Association. In:
STRZALKOWSKI, Tomek. Natural Language Information Retrieval. 1999. p75-98.
SINTICHAKIS, Marios; CONSTANTOPOULOS, Panos. A method for monolingual thesauri merging. In: 20th
International Conference On Research And Development In Information Retrieval, 1997.
Proceedings ... . 1997. p.129-138.
TUDHOPE, Douglas; ALANI, Harith; JONES, Christopher. Augmenting thesaurus relationships: possibilities for
retrieval. Journal of Digital Information, v.1, n.8, Fevereiro 2001.
PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado
Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
37/37
PUCRS
Estrutura Multitesauro para
Recuperação de Informações
Luiz Augusto Sangoi Pizzato
[email protected]
Dissertação de Mestrado
Orientação: Vera Lúcia Strube de Lima
Porto Alegre, 8 de Janeiro de 2003
Download

Desenvolvimento e avaliação de uma estrutura multitesauro para