Estrutura Multitesauro para
a Recuperação de Informações
Luiz Augusto Sangoi Pizzato
Vera Lúcia Strube de Lima
WONTO-SBIE’02.
Unisinos. São Leopoldo, 13-14 Novembro 2002
PUCRS
O que será visto ...
• Introdução aos conceitos de tesauro e relações
semânticas;
• Objetivos deste trabalho;
• Recursos disponíveis;
• Estrutura multitesauro desenvolvida;
• Heurística de expansão de consultas implementada;
• Avaliação;
• Trabalhos relacionados;
• Considerações;
PUCRS
WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
2 /28
O que é um tesauro?
"É uma compilação ordenada de conceitos, com ênfase
na associação entre eles, que serve, no campo da
informação e da documentação, para indexação e
recuperação em um dado domínio documentário" (Ruge,
1999)
Caminhoneiro -> Caminhão, Motorista, Carga
Cobra
-> Animal, Réptil, Cobra Venenosa
Computador
-> Processador, CPU, Processamento
PUCRS
WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
3 /28
Relações semânticas da
ISO 2788
• Relação entre sinônimos
– Entre Termos Preferenciais (TP) e Termos Não-Preferenciais
(TNP).
• USE
– TNP USE TP
– Motorista de caminhão USE Caminhoneiro
• UF (Used For)
– TP UF TNP
– Caminhoneiro UF Motorista de caminhão
PUCRS
WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
4 /28
Relações semânticas da
ISO 2788
• Relações entre TP
• Broader Term - BT
– Automóvel BT Veículo
• Narrower Term - NT
– Veículo NT Automóvel
• Related Term - RT
– Automóvel RT Rodovia
PUCRS
WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
5 /28
Objetivos deste trabalho
• Criar uma estrutura de tesauros que seja útil à
Recuperação de Informação (RI).
• Demonstrar a possibilidade de utilização de múltiplos
tesauros de forma conjunta (multitesauro) através da
utilização de uma estrutura padrão.
PUCRS
WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
6 /28
Recursos disponíveis
• Tesauros
– LDPUCRS
• Lista de descritores da Biblioteca Ir. José Otão – PUCRS;
– VCUSP
• Vocabulário Controlado da USP – Tesauro em CDROM;
– VCBS
• Vocabulário Controlado Básico do Senado;
– LTOCSS
• Lista de termos obtida por cálculo de similaridade sintática através das
técnicas descritas por Gasperin (2001).
• Tesauro construído automaticamente através do corpus do NILC da
“Folha de São Paulo” do ano de 1994.
PUCRS
WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
7 /28
Desenvolvimento da
estrutura multitesauro
• Tesauros LDPUCRS, VCUSP, VCBS podem ser
facilmente convertidos para a uma estrutura baseada na
ISO 2788
• Algumas informações presentes nos tesauros podem ser
descartadas
– Scope Note (Notas de Escopo) são úteis para bibliotecários, mas não
aparentam utilidade na RI automática
• As relações semânticas do tesauro LTOCSS apresentam
uma medida de similaridade entre os termos.
– Como os significados das relações não são conhecidos, elas são
associadas à relação RT da ISO 2788.
PUCRS
WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
8 /28
Estrutura multitesauro
<THESAURUS>
<TERM term=“Eletroeletrônicos”>
<TERM term=“Televisão”>
<UF term=“TV”/>
ISO 2788
<RT term=“Audiência”/>
LTOCSS
<RT term=“Telespectador” value=“0.99”/>
</TERM>
<NT term=“Videocassete”/>
</TERM>
<TERM term=“Videocassete”>
<SN>Utilize este termo quando for um aparelho
com mídia em fita magnética.</SN>
<BT term=“Eletroeletrônicos”/>
</TERM>
<TERM term=“Audiência”/>
</THESAURUS>
PUCRS
WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
9 /28
Estrutura aplicada a RI
• Desenvolvimento de um heurística de Expansão de
Consulta
– Objetivos:
• Utilizar a estrutura em uma aplicação de RI;
• Demonstrar que, através de uma estrutura padrão é possível a
utilização conjunta de diferentes tesauros (multitesauro) por uma
mesma aplicação.
PUCRS
WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
10 /28
Expansão de consulta?
• A adição de termos a uma consulta de forma que o conjunto de
documentos relevantes encontrados seja maior que o conjunto da
consulta original.
Termo C
Documentos
Relevantes
Termo A
Termo B
PUCRS
WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
11 /28
O que é o QET?
É uma ferramenta de expansão de
consulta (EC) que utiliza tesauros definidos
de acordo com uma estrutura padrão.
O nome QET é um acrônimo para Query
Expansion Tool e a ferramenta teve seu
desenvolvimento em Borland Kylix 2 Open Edition sobre uma plataforma Linux.
PUCRS
WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
12 /28
Heurística da Expansão
• Um termo t é adicionado à consulta expandida se o valor
δ(t) for maior que um limiar λ proposto.
• O valor δ(t) é soma de todos valores β(t) > σ .
• A cada tipo de relação é atribuído um peso entre (0,1]
Carro
UF
(0.8)
Carro
UF
(0.8)
Carro
UF
(0.8)
Automóvel
Automóvel
Automóvel
Acidente
PUCRS
β = 0.8 > σ (0.1)
RT
(0.2)
RT
(0.2)
NT
(0.6)
Acidente de Trânsito
Acidente de Trânsito
Acidente de Trânsito
β = 0.16 > σ (0.1)
RT
(0.2)
β = 0.032 < σ (0.1)
δ = 0.6 + 0.16
WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
> λ (0.6)
13 /28
Medidas de avaliação
Documentos Relevantes
Corpus
Documentos Recuperados
a b c
• Precisão:
b
P
c
• Recall:
b
R
a
2 PR
• F-Measure: F
PR
PUCRS
WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
14 /28
Definição dos pesos para
as relações
Peso de RT altos diminuem a precisão
Peso de BT elevado aumenta o recall mas reduz a precisão
PUCRS
WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
15 /28
Avaliação
• Testes em corpus
– Corpus do NILC de artigos diversos da folha de São Paulo do ano
de 1994, com 1.323.700 palavras em 5093 artigos. Cada artigo
corresponde a um arquivo diferente.
– Indexação e consulta aos arquivos realizada pela ferramenta
ASPSeek, através de interface Web/CGI.
• Verificação manual de relevância.
• Geração semi-automática de estatísticas.
– Marcação de relevância para 13 assuntos.
PUCRS
WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
16 /28
Recall
1,0000
0,9000
0,8000
0,7000
Abrangência
0,6000
0,5000
0,4000
0,3000
0,2000
0,1000
0,0000
1
2
3
4
5
6
7
8
9
10
11
12
13
Consultas
Consulta Original
PUCRS
Consulta Expandida
WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
17 /28
Precisão
1,0000
0,9000
0,8000
0,7000
Precisão
0,6000
0,5000
0,4000
0,3000
0,2000
0,1000
0,0000
1
2
3
4
5
6
7
8
9
10
11
12
13
Consultas
Consulta Original
PUCRS
Consulta Expandida
WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
18 /28
F-Measure
0,8000
0,7000
0,6000
Medida-F
0,5000
0,4000
0,3000
0,2000
0,1000
0,0000
1
2
3
4
5
6
7
8
9
10
11
12
13
Consultas
Consulta Original
PUCRS
Consulta Expandida
WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
19 /28
Avaliação
• Médias das 13 consultas
Médias
PUCRS
Precisão
Recall
F-Measure
Consulta Normal
0,4563
0,2336
0,3090
Consulta Expandida
0,3867
0,5247
0,4452
-15,25%
+124,61%
+44,08%
WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
20 /28
Trabalhos Relacionados
• Sintichakis & Constantopoulus (1997) apresentam um
método de efetuar a junção de tesauros monolíngües;
• Robin & Ramalho (2001) realizam a expansão de
consultas com as relações de sinonímia e hiperonímia da
WordNet.
• Tudhope et al. (2001) propõem uma técnica para medir a
distância semântica entre termos utilizando diferentes
pesos para as diferentes relações semânticas.
• Mandala et al. (1999) utilizam a WordNet, junto ao tesauro
de Roget e outros tesauros gerados automaticamente, na
expansão de consultas.
PUCRS
WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
21 /28
Considerações
• A estrutura tesaural desenvolvida possibilita a utilização
conjunta de diferentes tipos de tesauros e demonstrou
sua utilidade na RI através do método de expansão de
consultas desenvolvido.
• O método de expansão apresenta bons resultados
(F-Measure) e melhora a RI.
PUCRS
WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
22 /28
Foco da Dissertação
• O desenvolvimento da estrutura multitesauro;
• A heurística utilizada na expansão de consulta
implementada na ferramenta QET.
• Uma avaliação da utilização da estrutura na RI.
PUCRS
WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
23 /28
Agradecimentos
•
•
PUCRS
Artigo/projeto parcialmente suportado pelo convênio
DELL/PUCRS
Conselho Nacional de Pesquisa Científica
•
Departamento Técnico do Sistema Integrado de Bibliotecas
da USP
•
Subsecretaria de Biblioteca do Senado Federal
•
Biblioteca Central da PUCRS
•
Núcleo Interinstitucional de Lingüistica Computacional
WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
24 /28
Referências
GASPERIN, Caroline Varaschin. Extração automática de relações semânticas a partir de relações sintáticas.
Dissertação de Mestrado. Faculdade de Informática da Pontifícia Universidade Católica do Rio Grande do Sul.
2001.
ISO 2788. International Organization for Standardization. ISO 2788: Guidelines for the establishment and
development of monolingual thesauri. 2nd ed. Geneva: ISO, 1986.
MANDALA, Rila; TOKUNAGA, Takenobu; TANAKA, Hozumi. Complementing wordnet with roget's and corpus-based
thesauri for information retrieval. In: 9th Conference Of The European Chapter Of The Association For
Computational Linguistics (EACL'99), 1999. Proceedings ... . 1999. p.94-101.
MANDALA, Rila; TOKUNAGA, Takenobu; TANAKA, Hozumi. Combining multiple evidence from dierent types of thesaurus
for query expansion. In: 22nd Annual International ACM SIGIR Conference On Research And Development In
Information Retrieval, 1999. Proceedings .... ACM Press, 1999. p.191-197.
ROBIN, J.; RAMALHO, F. S. Empirically evaluating WordNet-based query expansion in a web search engine setting. In:
IR'2001, 2001,Oulu, Finland. Proceedings … . 2001.
RUGE, G. Combining Corpus Linguistics and Human Memory Models for Automatic Term Association. In:
STRZALKOWSKI, Tomek. Natural Language Information Retrieval. 1999. p75-98.
SINTICHAKIS, Marios; CONSTANTOPOULOS, Panos. A method for monolingual thesauri merging. In: 20th International
Conference On Research And Development In Information Retrieval, 1997. Proceedings ... . 1997. p.129-138.
TUDHOPE, Douglas; ALANI, Harith; JONES, Christopher. Augmenting thesaurus relationships: possibilities for retrieval.
Journal of Digital Information, v.1, n.8, Fevereiro 2001.
PUCRS
WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
25 /28
Estrutura Multitesauro para
a Recuperação de Informações
Luiz Augusto Sangoi Pizzato
Vera Lúcia Strube de Lima
{pizzato,vera}@inf.pucrs.br
WONTO-SBIE’02.
Unisinos. São Leopoldo, 13-14 Novembro 2002
PUCRS