Pontifícia Universidade Católica do Rio Grande do Sul
Faculdade de Informática
Pós-Graduação em Ciência da Computação
Estrutura Multitesauro para
Recuperação de Informações
Luiz Augusto Sangoi Pizzato
Dissertação apresentada como requisito parcial à obtenção do grau de
mestre em Ciência da Computação
Orientadora: Vera Lúcia Strube de Lima
Porto Alegre, janeiro de 2003
Anyone who has lost track of time
when using a computer knows the propensity to dream, the urge to make
dreams come true and the tendency to
miss lunch. - Tim Berners-Lee
ii
Agradecimentos
Agradeço à Deus pela existência de todas as pessoas maravilhosas que
estão presentes em minha vida.
Aos meus pais, Modesto e Carmen: muito obrigado, pelos seus esforços
em minha formação acadêmica e pessoal, pelo constante amor e suporte
recebidos.
À minha querida Fernanda, por sempre estar ao meu lado, por compreender minhas aições e pela conança que sempre teve em mim.
Aos meus irmãos, cunhados e sobrinhos, pela descontração de nossos encontros.
Um agradecimento especial, à Profa. Vera Lúcia, pela dedicação em minha orientação neste mestrado. Seus conselhos e ensinamentos ultrapassam
o contexto deste trabalho e serão levados por toda a vida.
Ao Prof. João Batista S. de Oliveira, pela importante ajuda na formalização da heurística, e ao Prof. José Carlos Bins Filho pelas correções e
boas avaliações de meus trabalhos individuais, plano de estudo e pesquisa, e
seminário de andamento.
À Tania pelo carinho, amizade e respeito que sempre tivemos. Aos meus
amigos de Bento Gonçalves - Luciano, Magro, Mattia e Tigre - que sempre
estiveram ao meu lado.
Aos colegas de mestrado, em especial aos participantes dos churrascos e
das diversas Casa dos mestrandos, pelos alegres dois anos de convivência.
Aos colegas Caroline Gasperin e Marco Gonzalez, pela grande ajuda prestada
em todas as fases do curso de mestrado. À Cássia Marques Serpa, pelo bom
trabalho desempenhado em sua bolsa de Iniciação Cientíca.
Ao convênio Dell/PUCRS, pelo apoio nanceiro, que possibilitou minha
dedicação exclusiva aos estudos que envolvem esta dissertação de mestrado.
Ao PPGCC, pelos recursos disponibilizados e pelo apoio nanceiro na
participação de eventos.
Ao CNPq pelo apoio nanceiro ao projeto SEMA, que disponibilizou o
trabalho de uma bolsista de Iniciação Cientíca.
À Subsecretaria de Biblioteca do Senado Federal, ao departamento técnico
do Sistema Integrado de Bibliotecas da USP (SIBi/USP), ao departamento
técnico da Biblioteca Central Ir. José Otão da PUCRS por fornecer seus
tesauros, que foram de grande valia para este trabalho.
Ao Núcleo Interinstitucional de Lingüística Computacional (NILC) pelo
corpus utilizado.
iv
v
Abstract
This work presents the proposition and the development of a multithesaurus structure oriented to information retrieval applications. The focused
multithesaurus structure was initially based on ISO 2788 standards but it
gradually assumed its own shape. The nal format of the multithesaurus
structure was built considering aspects of dierent thesauri, and important
features certain information retrieval task required.
In order to validate the usefulness of the thesaurus structure in information retrieval, it was created a method of query expansion that uses dierent
weights for dierent types of relations. Those relations are dened at the
multithesaurus structure. This work presents the structure creation process,
its validation, its use for information retrieval, and the result obtained in
information retrieval evaluation.
vi
vii
Resumo
Este trabalho apresenta a proposta e discute o desenvolvimento de uma estrutura multitesauro para uso em aplicações de recuperação de informações.
A estrutura multitesauro em questão foi inicialmente baseada no padrão
ISO 2788, mas foi gradualmente assumindo sua própria forma, uma vez que
esta representa características de diferentes tesauros e deve ser utilizada em
tarefas de recuperação de informações.
De modo a validar a utilidade desta estrutura na recuperação de informações, foi criado um método de expansão de consultas. O método proposto para expansão de consultas tem como principal característica utilizar
diferentes pesos para as relações semânticas denidas na estrutura multitesauro. Este trabalho apresenta a criação da estrutura tesaural proposta, sua
validação, aplicação na expansão de consultas e resultados obtidos para a
recuperação de informações.
viii
Sumário
ABSTRACT
v
RESUMO
vii
LISTA DE TABELAS
xiii
LISTA DE FIGURAS
xv
LISTA DE SÍMBOLOS E ABREVIATURAS
Capítulo 1: Introdução
1.1
1.2
1.3
1.4
1.5
1.6
Recuperação de Informações . . .
Linguagens Naturais . . . . . . .
Tesauro e Vocabulário Controlado
Expansão de Consulta . . . . . .
eXtensible Markup Language . . .
Este trabalho . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
xvii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Capítulo 2: Normas para a organização de tesauros
2.1
2.2
2.3
2.4
Classes de palavras . . . . . . . . . . . . . . . . . . . .
Estruturação de Tesauros . . . . . . . . . . . . . . . . .
Normas . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.1 ISO 2788 . . . . . . . . . . . . . . . . . . . . . .
2.3.2 ANSI/NISO Z39.19 . . . . . . . . . . . . . . . .
2.3.3 Manual de Elaboração de Tesauros Monolíngües
Organização de tesauros . . . . . . . . . . . . . . . . .
2.4.1 TML: A Thesaural Markup Language . . . . . .
2.4.2 Zthes . . . . . . . . . . . . . . . . . . . . . . . .
2.4.3 RDF Thesaurus Specication . . . . . . . . . .
2.4.4 CERES/BRD Thesaurus . . . . . . . . . . . . .
ix
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
2
4
5
7
8
11
11
13
14
14
17
19
21
22
23
23
24
x
SUMÁRIO
2.5
Considerações sobre o capítulo . . . . . . . . . . . . . . . . . . 24
Capítulo 3: Relações semânticas e RI
3.1
3.2
3.3
Relações semânticas nas normas e na RI . . . . . . .
3.1.1 Relações de equivalência . . . . . . . . . . . .
3.1.2 Relações de hierarquia . . . . . . . . . . . . .
3.1.3 Relações associativas . . . . . . . . . . . . . .
Utilização de relações extraídas de forma automática
Considerações sobre o capítulo . . . . . . . . . . . . .
Capítulo 4: Estrutura Multitesauro
4.1
4.2
4.3
4.4
Tesauros utilizados
Estrutura inicial . .
Desenvolvimento da
Considerações sobre
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
Estrutura Multitesauro
o capítulo . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Capítulo 5: Estrutura na Expansão de Consulta
5.1
5.2
5.3
5.4
5.5
Heurística de Expansão de Consultas . . . .
5.1.1 Formalização da Heurística . . . . . .
5.1.2 Modos alternativos para cálculo de δ
Algoritmo de Expansão de Consulta . . . . .
Um exemplo detalhado de funcionamento . .
A ferramenta QET . . . . . . . . . . . . . .
Considerações sobre o capítulo . . . . . . . .
Capítulo 6: Validação
6.1
6.2
6.3
6.4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Processo de validação em corpus estático . . . . . . . . . . . .
6.1.1 Testes em corpus estático . . . . . . . . . . . . . . . .
6.1.2 Denição dos parâmetros . . . . . . . . . . . . . . . . .
6.1.2.1 Pesos para as relações da ISO 2788 . . . . . .
6.1.2.2 Valor λ . . . . . . . . . . . . . . . . . . . . .
6.1.2.3 Considerações sobre a denição de parâmetros
6.1.3 Utilização conjunta de tesauros . . . . . . . . . . . . .
Processo de validação na Internet . . . . . . . . . . . . . . . .
Resultados obtidos: uma apreciação . . . . . . . . . . . . . . .
Considerações sobre o capítulo . . . . . . . . . . . . . . . . . .
25
25
25
27
30
32
33
35
35
36
38
41
43
44
44
48
49
50
52
54
55
55
57
59
59
61
61
61
63
68
69
SUMÁRIO
Capítulo 7: Trabalhos correlatos
7.1
7.2
7.3
7.4
7.5
O trabalho de Sintichakis & Constantopoulos
O trabalho de Mandala et al. . . . . . . . . .
O trabalho de Robin & Ramalho . . . . . . .
O trabalho de Alani et al. . . . . . . . . . . .
Considerações sobre o capítulo . . . . . . . . .
xi
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
71
71
72
73
74
74
Capítulo 8: Conclusão
77
REFERÊNCIAS BIBLIOGRÁFICAS
81
8.1
8.2
Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . 78
Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . 79
Apêndice A: Resultados das consultas em corpus estático
87
Apêndice B: Resultados das consultas na Internet
89
xii
SUMÁRIO
Lista de Tabelas
3.1
Expansão através de relações RT . . . . . . . . . . . . . . . . 31
5.1
5.2
Valores dos parâmetros do exemplo . . . . . . . . . . . . . . . 51
Desambigüação Semântica . . . . . . . . . . . . . . . . . . . . 54
6.1
6.2
6.3
6.4
6.5
6.6
Valores dos parâmetros . . . . . . . . . . . . . . . . . . . . . .
Resultados parciais . . . . . . . . . . . . . . . . . . . . . . . .
Denição dos melhores pesos para os tipos de relações . . . . .
Resultados obtidos com diferentes combinações do valor λ . .
Resultados obtidos através de diferentes combinações de tesauros
Resultados na WWW . . . . . . . . . . . . . . . . . . . . . . .
7.1
Média da precisão obtida para a expansão de consultas . . . . 73
57
59
60
61
62
66
A.1 Resultados em corpus estático para a consulta na forma original 87
A.2 Resultados em corpus estático para a consulta na forma expandida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
B.1
B.2
B.3
B.4
Resultados
Resultados
Resultados
Resultados
DRRI para a consulta na forma original . . . .
DRRI para a consulta na forma expandida . . .
DRWWW para a consulta na forma original . .
DRWWW para a consulta na forma expandida
xiii
.
.
.
.
.
.
.
.
89
90
91
92
xiv
LISTA DE TABELAS
Lista de Figuras
1.1
1.2
Ambigüidade sintática . . . . . . . . . . . . . . . . . . . . . .
Exemplo de consulta expandida . . . . . . . . . . . . . . . . .
3.1
3.2
3.3
3.4
Resolução do contexto de uma
Supremo de consulta ∨ . . . .
Ínmos de consulta ∧ . . . . .
Relações semântica do AAT .
5.1
5.2
Exemplo do funcionamento da expansão de consulta . . . . . . 51
Expansão de consulta com a ferramenta QET . . . . . . . . . 53
6.1
6.2
6.3
6.4
6.5
6.6
6.7
6.8
6.9
Medida de precisão das consultas originais e expandidas . . .
Medida de abrangência nas consultas originais e expandidas
Medida-F nas consultas originais e expandidas . . . . . . . .
Medida de abrangência para DRRI . . . . . . . . . . . . . .
Medida de abrangência para DRWWW . . . . . . . . . . . .
Medida de precisão para DRRI . . . . . . . . . . . . . . . .
Medida de precisão para DRWWW . . . . . . . . . . . . . .
Medida-F para DRRI . . . . . . . . . . . . . . . . . . . . . .
Medida-F para DRWWW . . . . . . . . . . . . . . . . . . .
xv
consulta
. . . . .
. . . . .
. . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
7
28
29
30
31
57
58
58
65
65
66
66
67
67
xvi
LISTA DE FIGURAS
Lista de Símbolos e Abreviaturas
WWW
World Wide Web
1
RI
Recuperação de Informações
1
PLN
Processamento da Linguagem Natural
3
XML
eXtensible Markup Language
7
RDF
Resource Description Framework
7
W3C
World Wide Web Consortium
7
XHTML
Extensible Hypertext Markup Language
7
WML
Wireless Markup Language
7
TP
Termo Preferencial
14
TNP
Termo Não-Preferencial
14
SN
Scope Note
15
UF
Used For
15
BT
Broader Term
16
NT
Narrower Term
16
BTP
Broader Term Partitive
16
NTP
Narrower Term Partitive
16
RT
Related Term
16
TT
Top Term
16
BTG
Broader Term Generic
18
NTG
Narrower Term Generic
18
BTI
Broader Term Instance
18
NTI
Narrower Term Instance
18
xvii
xviii
METM
Df
UP
VD
TG
TGP
TE
TEP
TA
GTO
TML
LE
DTD
BC
NC
URI
AAT
ET
DRRI
DRWWW
LISTA DE SÍMBOLOS E ABREVIATURAS
Manual de Elaboração de Tesauros Monolíngües
Denições
19
19
Usado Por
20
Visto De
21
Termo Genérico
21
Termo Genérico Partitivo
21
Termo Especíco
21
Termo Especíco Partitivo
21
Termo Associado
21
Generic Thesaural Ontology
22
Thesaural Markup Language
22
Linguistic Equivalent
23
Document Type Denition
23
Broader Concept
23
Narrower Concept
23
Universal Resource Identier
23
Art and Architecture Thesaurus
30
Equivalent Term
40
Documentos Relevantes na RI
64
Documentos Relevantes na WWW
64
Capítulo 1
Introdução
A Internet está se tornando um meio de comunicação tão popular quanto
o jornal, o rádio e a televisão. Muitos serviços que anteriormente utilizavam
estes meios estão sendo exclusivamente oferecidos via Internet. O usuário
dessa mídia tende a procurar por uma informação na Internet, antes de partir
para outros meios. Devido à arquitetura da Internet, a busca por informações
tem sido um tópico importante desde seu princípio.
A arquitetura da Internet apresenta computadores interligados em rede
oferecendo serviços. Os diferentes serviços oferecidos, a variedade no tipo e
formação topológica das redes interconectadas na Internet, e a falta de um
controle organizador central, dicultam a busca por uma informação.
Dentre os serviços oferecidos através da Internet, o mais conhecido é a
World Wide Web (WWW), que apresenta-se como arquivos hipertextos ligados uns aos outros, independente de localização.
Devido à facilidade de publicação de documentos na WWW e à falta de
uma organização central, as ferramentas de busca têm sido uma das únicas
maneiras de chegar até uma informação. Assim, atualmente os sites de busca
contêm as ferramentas de recuperação de informações (RI) mais conhecidas
e utilizadas.
1.1 Recuperação de Informações
Recuperação de Informações, segundo Voorhees em [VOO99], foca na
resolução do problema de encontrar, em uma grande base de documentos,
aqueles documentos cujos conteúdos estejam de acordo com uma necessidade
do usuário.
Denições para Recuperação de Dados, conforme [LEW96], não se aplicam a RI, pois a informação representada em um documento em linguagem
1
2
CAPÍTULO 1. INTRODUÇÃO
natural apresenta-se sobre idéias abstratas sujeitas a ambigüidade, característica esta que não deve estar presente quando se deseja recuperar dados. Da
mesma forma, segundo Baeza-Yates & Ribeiro-Neto em [BAE99], a recuperação de dados não aceita resultados imprecisos, enquanto que a RI tem uma
tolerância maior, uma vez que as consultas podem ser feitas em linguagem
natural, sendo assim altamente propensas a interpretações diferentes.
Extração de informação também difere de RI pois, na primeira, o motivo de uma consulta é extrair um conhecimento especíco, enquanto na RI
pretende-se recuperar documentos que podem conter as informações de interesse.
Para que os documentos possam ser encontrados em uma base de dados, eles necessitam ser indexados. A utilização de índices que representam,
de forma correta, o conteúdo do documento, é importante para que este
possa ser encontrado em uma pesquisa futura. Contudo, a escolha de índices abrangentes e relevantes ao conteúdo do documento não garante que
ele seja encontrado sempre que for procurado. Normalmente, os casos onde
um sistema de RI falha (i.e. documentos relevantes não são encontrados e
documentos irrelevantes o são) ocorrem devido a características inerentes às
linguagens naturais, características estas que serão apresentadas na seguinte
seção.
1.2 Linguagens Naturais
Normalmente, os documentos indexados e recuperados com uso de uma
ferramenta de RI apresentam-se em alguma linguagem natural. Isto ocorre
pois a linguagem natural, como o inglês e o português, representa o modo
mais habitual de comunicação humana. Desta forma, as consultas feitas
a um sistema de RI normalmente são formuladas em linguagem natural,
que representa a maneira mais simples e normal de o usuário utilizar uma
ferramenta de busca. A seguir temos dois exemplos de uma mesma consulta:
1. Pousadas e Hotéis de Porto de Galinhas;
2. (Pousadas OU Hotéis) E Porto de Galinhas.
Ambas as consultas apresentadas procuram pelos mesmos documentos,
mas a primeira consulta, em linguagem natural, é muito mais fácil de formular
e também de compreender. Porém, a ferramenta que busca as respostas a
esta consulta deve traduzi-la, da linguagem natural para uma representação
interna. Tal representação interna não deve conter ambigüidade, e esta é
uma das grandes diculdades nestas abordagens, uma vez que a linguagem
natural está sujeita a diferentes tipos de ambigüidades.
1.2. LINGUAGENS NATURAIS
Falei com a moça do celular
3
Falei com a moça do celular
Figura 1.1: Ambigüidade sintática
A tradução de textos em linguagem natural para uma representação interna é objeto de estudo da área de processamento da linguagem natural
(PLN). As grandes diculdades existentes nestas traduções dizem respeito
às diferentes interpretações a que a linguagem natural está sujeita. Seguem
algumas destas diculdades:
• palavras sinônimas: diversas palavras diferentes podem exprimir signicados idênticos ou quase iguais. Por exemplo, as palavras cão e
cachorro, na língua portuguesa empregada no Brasil, têm o mesmo
signicado.
• ambigüidade lexical: uma mesma palavra pode ter diferentes signicados, ou apresentar idéias diferentes. Por exemplo, a palavra cachorro pode tanto signicar um cão, quanto uma pessoa indigna ou
canalha.
• ambigüidade sintática: uma sentença pode ter mais de uma estrutura sintática, o que implica diferentes leituras do conteúdo da sentença.
Por exemplo, como mostrado na Figura 1.1, a sentença Falei com a
moça do celular pode ser representada por duas árvores sintáticas diferentes. A sentença pode ser lida como Falei com a moça a qual estava
com o celular ou Falei com a moça por intermédio do celular.
• ambigüidade semântica: as diculdades apresentadas como ambigüidades lexicais e sintáticas podem também conter ambigüidade
semântica, ao apresentarem signicados diferentes para uma mesma
palavra ou sentença. Em determinadas situações, a ambigüidade semântica permanece, mesmo após a resolução das ambigüidades lexical
e sintática.
Estas e outras características fazem com que uma consulta em linguagem natural seja difícil de ser interpretada, podendo, em muitos casos, gerar
uma interpretação diferente da idéia original do usuário. Para amenizar este
4
CAPÍTULO 1. INTRODUÇÃO
problema, uma ferramenta de busca pode utilizar um dicionário de relações
semânticas1 (como um tesauro) para encontrar o conceito correto apresentado
na consulta do usuário.
1.3 Tesauro e Vocabulário Controlado
Uri Miller em [MIL97] dene tesauro como: Um modelo léxico-semântico
de realidades conceituais ou suas constituintes, expressas na forma de um
sistema de termos e suas relações, que oferece acesso via diferentes aspectos
e é usado como ferramenta de processamento e busca de uma unidade de
recuperação de informação.
O termo tesauro, de origem latina, tem sido utilizado para designar um
tesouro de palavras, pois este tipo de dicionário deve fornecer riqueza em
conceitos e suas relações semânticas, de forma a ter uma grande abrangência
em um determinado domínio de conhecimento.
Um tesauro pode contemplar um domínio de conhecimento especíco (por
exemplo, os encontrados em [SEN01] e [SEN01a]) ou mesmo ser genérico
(por exemplo, os encontrados em [SAN50] e [ROG58]). Segundo Gonzalez,
em [GON01a], os tesauros genéricos são normalmente criados manualmente,
enquanto que a criação automática de tesauros envolve o desenvolvimento de
modelos de tesauros sobre um domínio especíco.
A técnica denominada Vocabulário controlado, utilizada em sistemas de
RI, procura minimizar estas características da linguagem natural utilizando
tesauros para restringir o vocabulário de indexação e de consulta, de forma
que uma idéia possa ser expressa somente de uma única maneira.
A utilização de técnicas de vocabulário controlado está ligada à utilização
de tesauros. Estas técnicas buscam indexar documentos com o uso de índices
que representem conceitos únicos.
Desta forma a indexação de um documento nesta base de dados, normalmente feita de modo manual, ocorre similarmente ao descrito por Will
em [WIL92] e Soergel em [SOE98], como será exemplicado a seguir:
• Ao indexar um documento contendo informações sobre condutores de
caminhão, o sistema irá sugerir a substituição do termo condutores
pelo termo motoristas, pois o termo motoristas é mais usual.
• Tem-se então motoristas de caminhão. Neste momento o sistema
irá sugerir a substituição por caminhoneiros pois este, além de mais
usual, é mais sintético.
1 Usaremos
o termo relações semânticas, a partir deste ponto do trabalho, para indicar
relações semântico-conceituais, ou relações semântico-lexicais (sinonímia e antonímia).
1.4. EXPANSÃO DE CONSULTA
5
• Neste momento, então, o documento será indexado através do termo
caminhoneiros.
O que pode ser daí deduzido é que, sempre que um documento referir-se a
caminhoneiros, mesmo que utilizando outros tipos de expressões, o sistema
fará a indexação sobre um único termo. Conseqüentemente, a pesquisa nesta
base de dados deve ocorrer de forma similar. Ao ser consultado sobre um
determinado assunto, o sistema de RI tentará buscar um termo preferencial
do tesauro sobre o qual os documentos estejam indexados. O processo de
busca ocorre como descrito no exemplo a seguir, onde a consulta Motoristas de cegonhas de Florianópolis ocasionaria um dos dois processamentos
seguintes:
1. O termo cegonha pode ser entendido como uma ave ou como um
tipo de caminhão. Neste momento, dependendo de como o sistema foi
projetado - i.e. se existe ou não alguma ontologia2 que permita ao
sistema compreender que um motorista nunca poderia conduzir uma
ave, ou mesmo, que é mais provável um motorista conduzir um caminhão - poderá ser feita a pergunta ao usuário: O que você quis dizer
com cegonha? Ave ou tipo de caminhão. Conhecendo o signicado de
cegonha, o sistema encontraria motoristas de caminhão como sendo
caminhoneiros e, assim, efetuaria a consulta através de um termo
comum, de acordo com o qual os documentos foram indexados.
2. O sistema pode também conhecer a expressão Motoristas de cegonha
como sendo cegonheiros, e irá saber que o termo cegonheiros representa um termo mais especíco de caminhoneiros. Neste momento
a busca poderá ser feita através do termo comum caminhoneiros de
Florianópolis ou mesmo cegonheiros de Florianópolis.
Segundo Baeza-Yates & Ribeiro-Neto em [BAE99], tesauros são importantes na recuperação de informações, pois eles podem ser utilizados para
obter melhor compreensão de alguns termos de uma consulta, através de
técnicas de expansão de consultas.
1.4 Expansão de Consulta
Segundo Strzalkowski et al. em [STR98], a função da expansão de consulta é fazer a consulta do usuário relembrar, mais elmente, os documentos
2 Entende-se
por ontologia um conjunto de conceitos organizados por uma taxonomia e
um conjunto de regras de como devem ser utilizados estes conceitos.
6
CAPÍTULO 1. INTRODUÇÃO
que se espera recuperar. Desta forma, se uma consulta é feita para lembrar um documento típico sobre determinado assunto, então tudo o que for
pertencente ao texto desta consulta é relevante. Infelizmente, uma consulta
comum especica somente os critérios semânticos mais relevantes, o que normalmente não abrange todos os termos e expressões que são utilizados nos
documentos.
Basicamente, segundo Baeza-Yates & Ribeiro-Neto em [BAE99], expansão de consulta é um processo que adiciona novos termos a uma consulta, em
uma tentativa de inseri-la melhor no contexto da pesquisa do usuário. Este
processo de adicionar termos e adequar uma pesquisa a um determinado contexto é facilitado com a utilização de um tesauro, pois as relações semânticas
nele existentes ajudam a encontrar as palavras que melhor representam um
determinado conceito. Um sistema de consulta pode, por exemplo, incluir
em uma pesquisa os sinônimos e os termos mais especícos das palavras pesquisadas. O exemplo a seguir ilustra uma consulta e sua respectiva expansão
conforme o método apresentado em [SOE98].
A consulta Motoristas de cegonha de Florianópolis pode ser representada pela seguinte consulta booleana: Motoristas E cegonha E Florianópolis. Ao analisar os termos da consulta em um tesauro, os termos desta busca
são expandidos da seguinte forma:
• Motoristas: Condutores, Pilotos;
• Cegonha: Caminhão (obs.: a palavra cegonha, como ave, não tem
sinônimo nem termo mais especíco);
• Florianópolis: Floripa;
• Motoristas de cegonha: cegonheiros, caminhoneiros;
Neste momento os termos da consulta foram expandidos, o que torna
possível a realização da seguinte consulta (melhor expressa na Figura 1.2):
[(motoristas OU condutores OU pilotos) E (cegonha OU caminhão)] OU
(cegonheiros OU caminhoneiros) E (Florianópolis OU Floripa)
A expansão da consulta do exemplo anterior possibilita encontrar uma
quantidade muito grande de documentos sobre o mesmo assunto, independentemente da utilização dos melhores termos na indexação.
Juntamente com a expansão de consulta, ou mesmo com outros métodos
de RI, um tesauro pode ser útil para medir a relevância dos documentos
encontrados. Assim os documentos mais relevantes serão exibidos como melhores opções para o usuário. Estas medidas de relevância podem ser obtidas
através de cálculo de distância semântica, como apresentado em [ALA00].
1.5. EXTENSIBLE MARKUP LANGUAGE
7
E
OU
E
OU
motoristas condutores
OU
pilotos
cegonha
OU
caminhão
cegonheiros
OU
caminhoneiros
Florianópolis
Floripa
Figura 1.2: Exemplo de consulta expandida
As áreas de biblioteconomia e ciência da informação utilizam tesauros
para a escolha correta de índices para os documentos. Para orientar o desenvolvimento de tesauros foram criadas diversas recomendações, pelos comitês
de normas e padrões (ANSI/NISO Z39.19 em [NIS93], ISO 2788 em [ISO86],
entre outros).
Estas normas são importantes, pois a criação de tesauros que seguem os
mesmos padrões para conteúdo, aparência na exibição, métodos de construção e manutenção (como descrito no escopo da norma Z39.19 em [NIS93]),
facilita a utilização de um mesmo tesauro por diferentes sistemas e pessoas.
Outra característica que facilita a portabilidade de um tesauro é sua estruturação através de formatos universais como, hoje em dia, o XML (eXtensible
Markup Language ) e o RDF (Resource Description Framework ).
1.5
eXtensible Markup Language
De acordo com [BRA98], o padrão XML foi adotado, em 1998, pelo World
Wide Web Consortium (W3C)3 como formato universal para troca de dados
e documentos estruturados na Internet. Desde então, estão sendo criados
diversos formatos de acordo com os padrões XML como, por exemplo, RDF,
XHTML e WML, entre outros.
A facilidade de denição de novas linguagens, e a grande variedade de
aplicações que suportam XML, fazem com que esta metalinguagem seja vastamente utilizada e seja bastante portável entre aplicações na Internet.
Atualmente, utilizar XML para a denição de um tesauro é uma escolha
normal, uma vez que a Internet é o cenário mais propício a ferramentas de
3O
W3C foi criado com o propósito de desenvolver protocolos para aumentar a integração e promover a evolução da World Wide Web. É uma parceria de diversas indústrias
administradas pelo Laboratório de Ciência da Computação do MIT (LCS) nos Estados
Unidos, pelo Instituto Nacional de Pesquisa em Informática Aplicada(INRIA) na França
e pela Universidade de Keio no Japão.
8
CAPÍTULO 1. INTRODUÇÃO
recuperação de informação, e o XML, como anteriormente dito, é o padrão
estabelecido para trocas de informação.
Em muitos trabalhos encontrados na bibliograa, o uso da estruturação
XML baseia-se em arquivos RDF (exemplo: [AMA99], [CER01] e [CRO01]).
O modelo de dados RDF/XML foi desenvolvido pelo W3C como recomendação para a representação de dados estruturados na Internet.
RDF é utilizado para descrever semanticamente documentos na Internet,
utilizando a estratégia de gerenciar informação como uma coleção de links
entre entidades únicas. Tal característica, comum à Internet e aos tesauros,
faz com que a escolha deste modelo de dados seja válida para a representação
tanto de documentos na Internet quanto de termos em um tesauro.
1.6 Este trabalho
Neste trabalho é proposta, validada e avaliada uma estrutura tesaural útil
para a recuperação de informações. Denominamos a estrutura como multitesauro por oferecer características que englobam diferentes tesauros, possibilitando a representação destes na estrutura global. A estrutura proposta será
importante em uma etapa futura do projeto SEMA4 , em desenvolvimento na
PUCRS, como parte de um sistema de RI.
Ao desenvolver a estrutura multitesauro, nos preocupamos com o fato de
que esta pudesse ser empregada em diferentes ambientes e, também, seus
arquivos pudessem ser facilmente transmitidos pela Internet. A preocupação
com que a estrutura (e os tesauros denidos com a mesma) seja utilizada
na Internet é clara quando sua nalidade é a RI pois, atualmente, os sites
de busca na Internet são os ambientes de RI mais usados e conhecidos. O
formato XML é facilmente transmitido pela Internet através de servidores
HTTP, tornando-se a escolha normal quando se tem a preocupação de uso
pela rede.
Optou-se pela expansão de consulta, para mostrar a utilidade da estrutura na RI, pela grande quantidade de trabalhos que envolvem este tópico
aliado ao uso de tesauros (por exemplo: [CAR01], [IMA99], [JIN94], [KIM90],
[ROB01] e [STR99]).
A presente dissertação tem por objetivo apresentar uma estrutura tesaural
que represente as características de diferentes tesauros que possam ser úteis à
RI. A utilidade da estrutura multitesauro é validada através de uma técnica
de expansão de consultas, onde diferentes tesauros são utilizados, ao mesmo
tempo, como um único tesauro. A heurística de expansão de consultas foi
4 Mais
informações em http://www.inf.pucrs.br/ ∼linatural/sema/
1.6. ESTE TRABALHO
9
desenvolvida para utilizar as relações denidas na estrutura e ponderar a
importância das mesmas, tendo como principal característica a atribuição de
pesos para cada tipo de relação denida. Desta forma, é possível quanticar
a importância de cada tipo de relação dado o peso que lhe é atribuído.
Neste trabalho, a estratégia de validação da estrutura tesaural deve armar sua característica multitesaural e fornecer meios para julgar a importância individual dos tipos de relações semânticas.
O texto da dissertação está dividido em 8 capítulos, sendo o primeiro esta
introdução. O capítulo 2 apresenta normas internacionais existentes para
organização de tesauros. O capítulo 3 apresenta o modo como as relações
semânticas existentes em um tesauro podem ser utilizadas em tarefas de RI.
O capítulo 4 apresenta a estrutura multitesauro proposta por este trabalho.
O capítulo 5 demonstra um método de expansão de consultas que tem por
objetivo oferecer um meio de validar a utilidade da estrutura proposta na RI.
Esta validação é apresentada no capítulo 6. No capítulo 7 são apresentados
trabalhos correlatos a esta dissertação. No último capítulo são apresentadas
as conclusões desta dissertação.
10
CAPÍTULO 1. INTRODUÇÃO
Capítulo 2
Normas para a organização de
tesauros
Na introdução desta dissertação, foram apresentados o PLN como um tópico importante na recuperação de informação, e os tesauros como um recurso
bastante útil a esta tarefa. A RI apresenta-se como a área responsável pela
busca de documentos relevantes a uma necessidade de informação, expressa
através da consulta de um usuário. Os tesauros, como descrito no capítulo
anterior, surgem como ferramenta de apoio aos sistemas de RI na resolução
da consulta em linguagem natural. Ao empregarmos o termo tesauro neste
trabalho, devemos entender uma base de dados lexical onde os lexemas são
inter-relacionados por algum tipo de relação semântica. Desta forma, temos
a organização de tal base, e sua utilização na RI, como foco principal.
O presente capítulo se concentra na organização e estruturação deste tipo
de léxico. Inicialmente, abordaremos a organização de um tesauro em classes
de palavras e facetas; logo após, apresentaremos normas existentes para o
desenvolvimento de tesauros monolíngües e sua estruturação. Também serão apresentados neste capítulo alguns trabalhos que utilizam as normas de
denição de tesauros existentes, junto a uma estruturação XML.
2.1 Classes de palavras
Um tesauro pode ser organizado, simplesmente, por ordem alfabética de
seus termos. Contudo, apesar de a ordem alfabética ser uma organização já
assimilada e simples de consultar, é possível organizar um tesauro conforme
um sistema de categorias. Desta forma, a compreensão das relações entre as
palavras será facilitada, pois todas elas estarão inclusas em alguma categoria
que, por si própria, já exprime um signicado.
11
12 CAPÍTULO 2. NORMAS PARA A ORGANIZAÇÃO DE TESAUROS
As classes gramaticais como substantivos, adjetivos, verbos e advérbios
podem fornecer um modo de organizar os itens em um tesauro. Contudo,
como a quantidade de substantivos tende a ser maior que a quantidade de
itens das outras categorias, e a classicação de determinados lexemas pode
apresentar alguma diculdade, outras maneiras de organizar são necessárias.
Alguns autores acrescentam a seus tesauros uma estrutura de facetas, que
são as listas de palavras agrupadas em torno de um único conceito. Por exemplo, em um tesauro sobre literatura poderíamos ter as facetas apresentadas
no seguinte exemplo retirado de [GOM90]:
Por elementos da narrativa
ESTRUTURA
ENREDO
PERSONAGENS
ACTANTES
ESPAÇO
TEMPO
Por ponto de vista ou foco narrativo
NARRATIVA EM PRIMEIRA PESSOA
NARRATIVA EM TERCEIRA PESSOA
PERSONAGEM NARRADOR
NARRADOR ONISCIENTE
FLUXO DE CONSCIÊNCIA (LITERATURA)
O tesauro de Roget em [ROG58] organiza seus itens de acordo com um
plano de classicação que pretende facilitar a expressão de idéias e apoiar a
composição literária. O plano de classicação divide as palavras em classes
e em seções destas classes, da maneira como mostrado no exemplo abaixo
(classes e seções em números romanos e divisões de classes em letras).
I. Relações abstratas
i. Existência
ii. Relação
iii. Quantidade
iv. Ordem
v. Número
vi. Tempo
vii. Mudança
viii. Causa
II. Espaço
i. Em geral
ii. Dimensões
iii. Forma
iv. Movimento
III. Matéria
i. Em geral
ii. Inorgânica
iii. Orgânica
IV. Intelecto
a) Formação das idéias
b) Comunicação das idéias
V. Vontade
a) Individual
b) Com referência à sociedade
VI. Afeições
i. Em geral
ii. Pessoais
iii. Simpáticas
iv. Morais
v. Religiosas
2.2. ESTRUTURAÇÃO DE TESAUROS
13
O tesauro de Roget conta com versões para o português do Brasil. Em
[SAN50] o plano de classicação se manteve inalterado, enquanto que em
[SPI52] o plano sofreu pequenas alterações. Estas alterações dizem respeito
à utilização de subdivisões na seções Intelecto, Formação das idéias, Intelecto, Comunicação das idéias, Vontade, Individual e Vontade, Com
referência à sociedade e à utilização de uma nomenclatura diferente para as
classes utilizadas.
2.2 Estruturação de Tesauros
A estruturação de um tesauro é um tópico muito importante, pois denirá
o modo como o mesmo vai ser utilizado, se o mesmo oferece compatibilidade
com outros tesauros existentes, vantagens e limitações em sua utilização.
O conjunto de relações semânticas entre seus itens faz parte da estrutura básica de um tesauro. A seguir são apresentados os principais tipos de
relações semânticas, conforme descritos por Jurafsky & Martin em [JUR00]:
• Homonímia: ocorre quando dois itens lexicais de signicados distintos
têm mesma escrita e pronúncia. Por exemplo, cadeia, segundo Ferreira em [FER99], pode ter diversos signicados distintos, entre eles:
um conjunto de lojas ou estabelecimentos pertencentes a uma mesma
rma e casa de detenção.
• Sinonímia: ocorre quando duas palavras distintas em escrita e pronúncia têm o mesmo signicado. Por exemplo, toca-disco é sinônimo
de vitrola.
• Antonímia: ocorre quando duas palavras têm signicados contrários.
Por exemplo, os adjetivos feliz e triste expressam idéias opostas.
• Hiperonímia: ocorre quando o signicado de um lexema abrange o
signicado de outro lexema, i.e. o signicado de um é mais genérico
que o signicado de outro. Por exemplo, aeronave é um hiperônimo
de teco-teco.
• Hiponímia: é a relação inversa da hiperonímia. Ocorre quando um
termo tem signicado mais restrito que outro termo. Por exemplo,
tico-tico é um hipônimo de ave.
• Meronímia: ocorre quando o signicado de um lexema faz parte ou é
uma porção do signicado de outro lexema. Por exemplo, as palavras
capa e folhas são merônimos de livro.
14 CAPÍTULO 2. NORMAS PARA A ORGANIZAÇÃO DE TESAUROS
Estas relações são expressas de modo variado, em diferentes tesauros.
Numa tentativa de guiar o desenvolvimento de tesauros, normas vêm sendo
criadas. Na seção que segue serão descritas algumas normas existentes, no
que se refere à criação de tesauros.
2.3 Normas
Atualmente existem disponíveis diversas normas, nacionais e internacionais, para criação de tesauros. Com o advento da Internet e a grande
necessidade da utilização de técnicas de RI, estas normas são de extrema
importância em uma situação de possível interação entre tesauros.
É importante que um tesauro não esteja limitado a uma única aplicação:
a possibilidade de utilização de um mesmo tesauro em aplicações diferentes
amplia sua utilidade. Desta forma, a adequação de um tesauro às normas
existentes é uma garantia de que outras aplicações possam utilizá-lo. Nas seções seguintes serão descritas as principais características de algumas normas
existentes para a construção de tesauros. Primeiramente apresentaremos a
norma ISO 2788, depois a norma ANSI/NISO Z39.19 e, por último, um manual de elaboração de tesauros monolíngües desenvolvido para o português
brasileiro.
2.3.1 ISO 2788 [ISO86]
A International Organization for Standardization (ISO1 ) é uma instituição não governamental criada com a missão de promover o desenvolvimento
de padronizações que facilitem a troca internacional de bens e serviços. O
trabalho desenvolvido pela ISO resulta em normas internacionais que são publicadas como padrões ISO. Nesta seção estudaremos o padrão criado pela
ISO para o desenvolvimento de tesauros monolíngües, denominado ISO 2788.
A estrutura estabelecida pela norma ISO 2788 diferencia dois tipos de
termos: (1) termo preferencial (TP), que deve ser utilizado como índice e
deve representar um conceito único; e (2) termo não-preferencial (TNP), que
remete o usuário a um termo preferencial sinônimo, ou quase-sinônimo. Os
TPs podem ser representados por termos de uma ou mais palavras. Contudo,
podem existir TPs homônimos, que requerem a utilização de qualicadores.
Os TPs são anexados aos termos homônimos e devem, eles mesmos, ser
TPs mais genéricos do que o termo que está sendo qualicado. O exemplo a
1 Note
que ISO não é um acrônimo do nome da organização, e sim vem da palavra
isos, do grego, signicando igualdade.
2.3. NORMAS
15
seguir apresenta alguns casos de TPs homônimos e qualicadores (segundo a
norma ISO 2788).
Mercúrio (metal)
Mercúrio (planeta)
Mercúrio (divindade romana)
Receita (medicina)
Receita (economia)
Receita (culinária)
A utilização de qualicadores não deve ser confundida com o uso de notas de escopo. As notas de escopo servem para expandir ou restringir a
utilização de um TP. Uma nota de escopo não faz parte de um TP, como os
qualicadores, e é relacionada a um termo com a utilização da etiqueta SN
(Scope Note ). Enquanto os qualicadores são adicionados somente a palavras
homônimas, as notas de escopo podem ser relacionadas a quaisquer termos.
Nos seguintes exemplos são mostradas algumas notas de escopo (exemplos
de [AIT00]).
Income
SN
Income of individual organization or person.
Otherwise use "National Income"
Interior Lighting
SN
For lighting of specific buildings or spaces,
combine with appropriate terms, e.g. "Shop lightings"
use "Shops" and "Interior lightings".
No primeiro caso mostrado, Income foi restringido e associado a outro
termo, National Income, que deve guiar o usuário no caso de erro na busca.
No segundo caso, foi adicionada uma nota a Interior Lighting para a
utilização correta do termo, no momento de indexação. Mesmo não sendo
uma prática obrigatória, em ambos os itens do exemplo as notas de escopo
levaram o usuário do tesauro a outro termo distinto. A norma ISO 2788 não
prevê mecanismos de controle para inconsistências nas referências recíprocas
em notas de escopo. Entretanto, na norma ANSI/NISO Z39.19, que será
apresentada na seção 2.3.2, esta referência a termos nas notas de escopo é
feita de forma recíproca nos termos envolvidos.
Outras formas de referência entre palavras são denidas com o uso de ligações ou relações semânticas. São denidos três tipos de relações semânticas
nas normas ISO 2788: (1) equivalência; (2) hierarquia; (3) associatividade;
A relação de equivalência, que representa sinônimos, quase-sinônimos e
variantes lexicais (ex. óptica e ótica), é expressa através das ligações semânticas USE e UF (Used For ).
16 CAPÍTULO 2. NORMAS PARA A ORGANIZAÇÃO DE TESAUROS
A relação USE é utilizada para ligar um TNP com um TP (por exemplo,
entulho USE lixo) e a relação recíproca UF leva um TP a um TNP (por
exemplo, lixo UF entulho).
A hierarquia é representada de acordo com as ligações semânticas BT
(Broader Term ) e NT (Narrower Term ). A relação BT (hiperonímia) é
utilizada para ligar um termo especíco a outro termo mais genérico do
mesmo (por exemplo, mamíferos BT vertebrados), e a relação NT (hiponímia) é utilizada de forma contrária: liga um termo genérico a outro mais
especíco (por exemplo, plantas NT árvores). Uma característica importante é que um termo é relacionado a outro por hierarquia somente um
nível por vez; portanto, a hierarquia entre palmeira e plantas (plantas NT
árvores e árvores NT palmeira) não pode ser representada por plantas
NT palmeira.
As relações hierárquicas podem representar as relações entre um objeto e
suas partes constituintes através das ligações BTP (Broader Term Partitive )
e NTP (Narrower Term Partitive ). Estas relações ocorrem quando um termo
é parte constituinte de outro (por exemplo, cordas BTP violão e teclado
NTP teclas).
Outro tipo de relação semântica denido na norma ISO 2788 é a associatividade, que envolve as relações semânticas que não se enquadram na
equivalência nem na hierarquia. Este tipo de ligação semântica é representado por RT (Related Term ), onde as relações podem ser simétricas (por
exemplo, professores RT estudantes e estudantes RT professores) ou
assimétricas (por exemplo, a relação oposta de briga RT raiva não é verdadeira pois, quando ocorre uma briga, normalmente existe raiva entre os
envolvidos, porém a ocorrência do sentimento raiva não implica que uma
briga necessariamente ocorra).
A relação RT é a mais complexa de todas, pois pode representar diversos tipos de informações como: tempo (Papai Noel RT natal), lugar
(ginástica RT academia), produtos (fotografia RT máquina fotográfica), causas (luta RT ódio), agentes (avião RT piloto), instrumentos
(programador RT computador), aplicações (computador RT planilha eletrônica), complementos (marido RT mulher), entre outros.
Existe também, denida na ISO 2788, a relação TT (Top Term ou termo
superior) onde um TP relaciona-se com outro termo ou classe que divide um
tesauro em seções (por exemplo, frutas TT botânica).
Um número bastante grande de trabalhos utiliza as normas ISO 2788
como padrão para relações semânticas. Entre eles podemos citar [AMA99],
[CRO01], [LEE99] e [TAY00].
A seguir apresentamos um fragmento de tesauro (retirado de [SIB01])
estruturado de acordo com a norma ISO 2788.
2.3. NORMAS
Geografia
Cartografia
Cartografia
Cartografia
Cartografia
Cartografia
Cartografia
GeoCartografia
Atlas
Atlas
Atlas
Atlas Geográfico
Atlas Histórico
Globo
Imagem (Cartografia)
Imagem (Cartografia)
Imagem (Cartografia)
Fotogrametria
Imageamento de Radar
Imageamento de Radar
Mapas
Mapas
Cartas Geográficas
17
NT
BT
UF
NT
NT
NT
NT
USE
BT
NT
NT
BT
BT
BT
BT
NT
NT
BT
BT
RT
BT
UF
NT
Cartografia
Geografia
GeoCartografia
Atlas
Globo
Imagem (Cartografia)
Mapas
Cartografia
Cartografia
Atlas Geográfico
Atlas Histórico
Atlas
Atlas
Cartografia
Cartografia
Fotogrametria
Imageamento de Radar
Imagem (Cartografia)
Imagem (Cartografia)
Radar
Cartografia
Cartas Geográficas
Mapas
Na seção seguinte será apresentada a norma para criação de tesauros
monolíngües dos Estados Unidos, denida pela ANSI/NISO.
2.3.2 ANSI/NISO Z39.19 [NIS93]
A organização norte-americana National Information Standards Organization (NISO) é responsável pela denição dos padrões e normas da American
National Standards Institute (ANSI) para a área de informação e biblioteconomia. Isto inclui tópicos como indexação, síntese e enumeração de documentos. Nesta seção apresentaremos uma norma denida pela NISO para o
desenvolvimento de tesauros monolíngües: NISO Z39.19. A norma Z39.19
tem muitos pontos em comum com a norma ISO 2788, o que não invalida a
descrição de suas principais características.
É importante ressaltar que a maioria das normas da NISO deve ser vista
como guias de desenvolvimento - onde são feitas recomendações - e não
como normas inquebráveis ou obrigatórias. O padrão NISO Z39.19 utiliza
as seguintes convenções para indicar a necessidade de determinadas recomendações: deve, quando se trata de algo obrigatório para seguir o padrão;
deveria, quando se trata de algo que é recomendado; e pode, quando se trata
de algo opcional.
18 CAPÍTULO 2. NORMAS PARA A ORGANIZAÇÃO DE TESAUROS
Segundo as normas Z39.19, de modo análogo à norma ISO 2788, temos
descritores e termos de entrada como sendo, respectivamente, termos preferenciais e termos não-preferenciais. Qualicadores são utilizados da mesma
forma que a descrita na seção 2.3.1; contudo, ao contrário da ISO 2788, a
norma Z39.19 sugere a utilização de referências cruzadas quando estas ocorrem nas notas de escopo. Segundo a norma Z39.19, a referência a termos nas
notas de escopo e a referência recíproca deveriam ser feitas como mostrado
a seguir:
Income
SN
Income of individual organization or person.
Otherwise use "National Income"
National Income
X SN
Income
A utilização do símbolo X indica que existe uma referência na nota de
escopo de Income para National Income. Esta referência recíproca deve
garantir que, quando algum destes termos for modicado ou excluído, o outro
termo sofrerá as devidas mudanças.
As relações semânticas denidas na norma Z39.19 são análogas às relações
da ISO 2788, contudo algumas diferenças existem. Por exemplo, a relação
TT não é denida na norma Z39.19. Outra diferença está nas relações de
hierarquia. Segundo a norma Z39.19, estas relações cobrem três situações
diferentes e mutuamente exclusivas: (1) relação genérica; (2) relação de partetodo; e (3) relação de instância.
Na relação genérica, os termos podem se relacionar através das relações
semânticas BTG (Broader Term Generic ) e NTG (Narrower Term Generic ).
Este tipo de relação ocorre quando um termo representa uma classe e o outro
representa um membro desta classe (por exemplo, homem BTG mamífero e
veículos NTG automóveis).
A relação parte-todo é representada pelas ligações BTP e NTP, análogas
às relações denidas na ISO 2788.
Na relação de instância os termos se relacionam através das ligações BTI
(Broader Term Instance ) e NTI (Narrower Term Instance ). Este tipo de
relação ocorre quando um termo é uma instância de outro. O termo genérico é um substantivo comum, porém as instâncias são nomes próprios (por
exemplo: Everest BTI Montanhas e Países NTI Brasil).
Diversos trabalhos utilizam as normas denidas em NISO Z39.19. Entre
eles está o sistema CERES/BRD de tesauros descrito em [CER01]. Este
sistema propõe a integração de diferentes tipos de tesauros através de um
servidor HTTPD, que converteria as representações internas em arquivos
2.3. NORMAS
19
RDF/XML de acordo com a norma NISO Z39.19. Assim, clientes diferentes,
que utilizam as normas ANSI, poderiam utilizar tesauros diferentes, o que
demonstra a utilidade das normas estabelecidas na construção de sistemas
que utilizam tesauros.
Na seção seguinte serão abordadas as principais características descritas
em [GOM90], que conguram um manual para a elaboração de tesauros
monolíngües escrito no Brasil pelo Programa Nacional de Bibliotecas das
Instituições de Ensino Superior.
2.3.3 Manual de Elaboração de Tesauros Monolíngües
[GOM90]
O Manual de Elaboração de Tesauros Monolíngües (METM) foi desenvolvido pelo Programa Nacional de Bibliotecas das Instituições de Ensino Superior sob o patrocínio do Ministério de Educação e do Ministério de Ciência
e Tecnologia. Este trabalho é similar às normas internacionais apresentadas
anteriormente, com a diferença de que foi desenvolvido no Brasil e para o
português do Brasil. Iremos considerar este manual como uma norma para
criação de tesauros.
O METM dene a utilização de contextualizadores para a diferenciação
de sentido entre palavras homônimas. Sua utilização é idêntica à dos qualicadores das normas ANSI e ISO, como pode ser visto no seguinte exemplo.
INDEXAÇÃO (ECONOMIA)
INDEXAÇÃO (DOCUMENTAÇÃO)
Nas normas ANSI e ISO, apresentadas nas seções anteriores, foi descrita
a utilização de notas de escopo para denir, ampliar ou restringir a utilização
dos termos em um tesauro. Estas notas de escopo são denidas no METM
como notas de aplicação e são anexadas junto aos termos, sem a utilização
de código algum, como veremos no exemplo a seguir. A falta de um símbolo
agregado às notas de aplicação diculta a denição XML das normas METM.
ENTRADA DE DOCUMENTOS
Excluir recolhimento e transferência
ABSORÇÃO
Fenômeno. Inclui absorção de radiação eletromagnética.
O próximo exemplo ilustra outra característica denida pelo METM: a
possibilidade de utilização de denições (Df) que explicam o signicado real
dos termos, junto aos mesmos.
20 CAPÍTULO 2. NORMAS PARA A ORGANIZAÇÃO DE TESAUROS
DÍVIDA
Df Saldo acumulado de empréstimos (tomados e ainda não pagos)
DÍVIDA PÚBLICA
Df Dívida tomada pelo governo
A utilização de denições é diferente da utilização de contextualizadores,
pois as denições devem fornecer o máximo de características sobre um conceito denido por um termo, enquanto que os contextualizadores buscam
distinguir dois termos homônimos, e não descrever o seu signicado.
Os termos preferenciais e não-preferenciais da ISO são respectivamente
denominados, neste manual, termos preferidos e não-termos. É feita também
uma diferenciação tipográca entre eles: os termos preferidos são escritos
em maiúsculas enquanto que os não-termos são escritos em minúsculas. O
seguinte exemplo ilustra esta diferenciação tipográca.
BEBIDAS NÃO-ALCOÓLICAS
UP Refrigerantes
Refrigerantes
USE BEBIDAS NÃO-ALCOÓLICAS
A relação semântica utilizada no exemplo anterior é a equivalência, e
é representada através da utilização dos códigos UP (Usado Por) e USE.
Como apresentado no exemplo acima: um termo preferido utiliza a relação
UP para referenciar um não-termo, e um não-termo utiliza a relação USE
para referenciar um termo preferido.
Existem casos onde uma expressão é representada por mais de um conceito. O manual METM dene este tipo de relação como equivalência dupla.
O próximo exemplo ilustra este tipo de relação, onde um sinal + (mais)
é adicionado na notação da relação UP, indicando que a equivalência não é
completa, i.e. existe outro termo que complementa a relação.
Arquivos nacionais de Medicina
USE ARQUIVOS NACIONAIS
E ARQUIVOS DE MEDICINA
ARQUIVOS NACIONAIS
UP+ Arquivos nacionais de Medicina
ARQUIVOS DE MEDICINA
UP+ Arquivos nacionais de Medicina
Outro caso explicado no METM é a equivalência alternativa, onde uma
palavra que é de uso muito geral passa a tornar-se vazia em signicado. A
2.4. ORGANIZAÇÃO DE TESAUROS
21
utilização destas palavras como não-termo em um tesauro deve indicar os
termos preferidos como alternativas para as mesmas. São utilizados, para
este tipo de relação, os símbolos VER e VD (Visto De) indicando que, para
um determinado termo, existem outras alternativas que devem ser vistas. O
próximo exemplo ilustra este tipo de equivalência.
Planta
VER UTILIDADES DE PLANTA INDUSTRIAL
OU PLANTA INDUSTRIAL
OU PLANTA (BOTÂNICA)
OU UNIDADE DE TRATAMENTO
UTILIDADES DE PLANTA INDUSTRIAL
VD Planta
PLANTA INDUSTRIAL
VD Planta
PLANTA (BOTÂNICA)
VD Planta
UNIDADE DE TRATAMENTO
VD Planta
De forma similar à norma ISO, são denidas no METM as relações semânticas de hierarquia como TG (Termo Genérico), TGP (Termo Genérico Partitivo), TE (Termo Especíco) e TEP (Termo Especíco Partitivo).
As relações semânticas partitivas são utilizadas quando um termo é parte
constituinte de outro termo (por exemplo, CABEÇA TEP CORPO e ÁRVORE TGP
RAIZ), e as outras relações de hierarquia (TG e TE) são utilizadas para os
outros casos (instância, etc.).
A última ligação semântica denida pelo METM é o TA (Termo Associado) que, como o RT nas outras normas, é utilizado quando uma relação não
se encaixa nas outras denições anteriores (hierarquia ou equivalência).
Acredita-se que o METM seja muito importante, e possa servir de base
para futuros trabalhos, pois é similar às normas internacionais, com a principal diferença de ter sido desenvolvido para o português do Brasil.
2.4 Organização de tesauros
A seguir descreveremos brevemente trabalhos que demonstraram preocupação com a portabilidade do sistema, desenvolvendo a estrutura de acordo
com alguma norma apresentada anteriormente, e em arquivos de formato
padrão como XML e RDF. Estes trabalhos foram escolhidos por sua proximidade com o foco desta dissertação.
22 CAPÍTULO 2. NORMAS PARA A ORGANIZAÇÃO DE TESAUROS
2.4.1 TML: A Thesaural Markup Language
Este trabalho, apresentado em [LEE99], explora regularidades em tesauros bem conhecidos e baseados em padrões como a ISO 2788, para a criação
de uma ontologia tesaural genérica (GTO2 ). Esta ontologia permite que, com
pequenas adaptações, ou como uma extensão da GTO, um tesauro baseado
no padrão ISO 2788 seja convertido para arquivos TML/XML.
A aplicação de Lee et al. em [LEE99] demonstrou que um suporte genérico
a tesauros é viável, por meio do desenvolvimento de uma ontologia tesaural
genérica e de uma linguagem de marcação, que permite a representação de
diferentes estruturas de tesauros.
A linguagem TML foi criada utilizando as especicações da metalinguagem XML. XML propõe-se a ser um formato universal para troca de dados
na Internet, e permite a criação de linguagens de marcação para representar
diversos tipos de estruturas de dados.
A denição de uma linguagem de marcação para representar, de acordo
com a norma internacional ISO 2788, tesauros em XML, demonstra a preocupação dos autores com a utilização não restrita a um ambiente ou aplicação,
de forma que a linguagem possa ser amplamente utilizada.
O trabalho de Lee et al. é similar ao presente trabalho por ter, como
preocupação, o desenvolvimento e a utilização de uma estrutura que possa
representar uma grande variedade de tesauros. Contudo, o TML preocupa-se
exclusivamente em representar tesauros que estejam de acordo com a norma
ISO 2788, diferentemente de nosso trabalho, onde a preocupação é buscar
uma estrutura voltada à recuperação de informação, mesmo que esta não
tenha uma representação correspondente na norma ISO 2788. Nosso trabalho empregou a norma internacional ISO 2788 como um ponto de partida
para uma representação única, visando a utilização dos tesauros de forma
automática por processos de recuperação de informações.
Embora não tendo uma preocupação com tesauros que utilizam relações
semânticas diferentes da ISO 2788, a linguagem TML consegue ser sucientemente abrangente de forma a representar quaisquer tesauros que contenham
estas relações, mesmo que a estas relações sejam atribuídos diferentes nomes. Esta característica possibilita converter tesauros baseados na norma
ISO 2788 que estejam em formatos diferentes (bancos de dados relacionais,
tabelas ASCII, etc.) mantendo a nomeclatura original das relações entre os
termos deste tesauro.
Isto é interessante pois o tesauro pode ser utilizado como originalmente
proposto, alterando somente o tipo de base de dados. A diferente nomeclatura para os tipos de termos e relações não torna um tesauro incompatível
2 Do
inglês Generic Thesaural Ontology
2.4. ORGANIZAÇÃO DE TESAUROS
23
com a norma ISO 2788. Por exemplo, um tesauro de acordo com a norma
ISO 2788 poderia denir seus termos não-preferenciais com o nome de Termos Proibidos e seus termos preferenciais como Termos Autorizados.
2.4.2 Zthes
Este trabalho, apresentado em [TAY00], descreve um modelo abstrato
para a representação e busca em tesauros representados sob a forma de banco
de dados de termos interconectados. Cada termo individual é representado
como um registro deste banco de dados. Na busca por simplicidade e funcionalidade, mesmo os termos não preferenciais são representados por registros
únicos. Esta característica é seguida em nosso trabalho, onde também é necessária a criação de todos os termos referenciados no tesauro, sejam eles
preferenciais ou não.
Os tipos de relações semânticas denidas em Zthes estão de acordo com
a norma ISO 2788, com exceção da relação LE (Linguistic Equivalent ), denida na norma ISO 5964 (veja [ISO85]), utilizada para representar o mesmo
conceito (ou conceitos "sucientemente parecidos") em linguagens diferentes.
Em [TAY00] é apresentada a descrição de um DTD (Document Type Denition ) para XML que representa esta base de dados, demonstrando a preocupação dos autores em fornecer maior portabilidade para as interfaces Web
para este tesauro.
2.4.3 RDF Thesaurus Specication
Este trabalho, apresentado em [CRO01], propõe uma representação RDF
de diversas relações conceituais típicas de vocabulários controlados (tesauros,
sistemas de classicação, etc.). A meta do trabalho é explorar o uso de RDF
como um formalismo comum para representar uma variedade de diferentes
tesauros, o que é facilitado com a utilização das relações semânticas denidas
na norma ISO 2788.
Em seu trabalho, Cross et al. preferiram separar conceitos e termos, da
seguinte forma: o conceito de cão, por exemplo, será indicado pelos termos de
valores cão e cachorro. Portanto, as relações BT (Broader Term ou termo
mais abrangente) e NT (Narrower Term ou termo mais especíco), denidas
na ISO 2788, são substituídas por BC (Broader Concept ou conceito mais
abrangente) e NC (Narrower Concept ou conceito mais especíco).
Foi criado um esquema RDF/XML que demonstra que este tipo de rede
de termos e conceitos inter-relacionados pode ser utilizado a partir de um
ou mais tesauros, isto sendo possível através da utilização de URI (Universal
24 CAPÍTULO 2. NORMAS PARA A ORGANIZAÇÃO DE TESAUROS
Resource Identier ). É possível também a utilização de diferentes linguagens,
uma vez que um termo pode ser ligado a um identicador de linguagem.
O trabalho de Cross et al. é interessante pois utiliza a norma ISO 2788 de
forma crítica, não se limitando ao que a norma estabelece, trazendo pequenas
mudanças em sua forma de utilização.
2.4.4 CERES/BRD Thesaurus
Este trabalho, apresentado em [CER01], propõe a integração de diferentes
tesauros, de diferentes formatos e armazenados em diferentes tipos de banco
de dados, através da utilização de um servidor HTTPD.
Este servidor converteria as representações internas dos tesauros em uma
representação padrão, em arquivos RDF/XML, de acordo com a norma NISO
Z39.19. Assim, clientes diferentes poderiam utilizar diversos tesauros.
Cada servidor HTTPD é responsável pela conversão de um tesauro, e a
utilização de tesauros diferentes é feita através de URIs, que servem para
identicar localizações ou sites diferentes na Internet.
Este trabalho é interessante pois propõe a integração no uso de diferentes
tesauros, através de uma interface padrão ao usuário.
2.5 Considerações sobre o capítulo
Neste capítulo foram descritos alguns tópicos importantes na organização
da estrutura de um tesauro monolíngüe. Foram apresentadas as principais
normas internacionais (ANSI e ISO) juntamente com um manual brasileiro,
desenvolvido pelo Ministério de Educação e pelo Ministério de Ciência e
Tecnologia.
Optou-se por não apresentar, neste capítulo, a norma britânica para a
construção de tesauros monolíngües BS 5723. Esta norma não oferece grandes mudanças em relação à norma ISO 2788 e, além do mais, não foram
encontrados trabalhos que expliquem ou utilizem esta norma.
Podemos notar que os trabalhos citados na seção 2.4 tiveram em comum
a utilização da norma internacional ISO 2788, e modelos de arquivos XML,
além de estes trabalhos buscarem a representação de uma ampla gama de
tesauros. Isto nos reforça a motivação de que a utilização de normas internacionais, junto ao padrão de troca de arquivos na Internet, XML, seja um
bom caminho para o desenvolvimento de tesauros.
O próximo capítulo descreverá a utilização das relações semânticas de um
tesauro junto a técnicas de RI.
Capítulo 3
Relações semânticas e
recuperação de informação
O capítulo anterior apresentou a organização de um tesauro e sua estruturação através de relações semânticas denidas por normas nacionais
e internacionais, junto a alguns trabalhos que utilizaram as recomendações
presentes nas normas.
O presente capítulo apresenta a utilização de relações semânticas na RI,
sendo que inicialmente serão abordadas as relações semânticas denidas nas
normas já vistas e, logo após, será abordada a utilização de relações semânticas extraídas de forma automática.
3.1 Relações semânticas nas normas e na RI
As relações semânticas explicitadas nas normas estudadas no capítulo 2,
oferecem meios para que sejam aplicadas as técnicas de controle de vocabulário e de expansão de consulta. As normas ANSI e ISO armam que o emprego
de suas relações é útil para a RI, e esta seção buscará analisar onde estas normas podem ser utilizadas. Nesta seção será utilizada a simbologia da norma
ISO, e usaremos os três tipos de relações denidas por ambas as normas ISO
e ANSI, a saber: (1) Equivalência, (2) Hierarquia e (3) Associação.
3.1.1 Relações de equivalência
A relação de equivalência, segundo a norma ANSI para a construção de
tesauros monolíngües em [NIS93], inclui três tipos de relações: (1) palavras
sinônimas, (2) quase-sinônimas e (3) variantes lexicais.
25
26
CAPÍTULO 3. RELAÇÕES SEMÂNTICAS E RI
As relações de equivalência, utilizadas com técnicas de vocabulário controlado, buscam a utilização de TPs como termos de indexação e busca.
Desta forma a busca e a indexação serão feitas sobre os mesmo termos. A
primeira etapa, conforme [LEW96], deve ser a normalização dos termos para
uma forma padrão (por exemplo, a utilização do singular ou do plural, do
masculino ou do feminino). Na etapa seguinte deve ser encontrado um TP
que represente o termo proposto para a indexação ou busca, e os seguintes
casos são possíveis:
• O termo proposto é TP e não existem formas homônimas. Neste caso
deve ser utilizado o próprio termo proposto para a indexação e busca.
• O termo proposto é TNP e não existem formas homônimas. Neste
caso deve ser utilizado o termo TP equivalente ao TNP sugerido para
a indexação e busca.
• Existem formas homônimas TPs ou TNPs. Neste caso deve ser resolvida a ambigüidade, o que pode ser feito de forma manual - perguntando ao usuário Qual o signicado do termo X? e oferecendo os TPs
equivalentes a X - ou automática - encontrando o conceito correto pelo
contexto dos outros termos utilizados.
Segundo Voorhees, em [VOO98], as palavras homônimas diminuem a precisão1 de um sistema pois geram resultados falsos e mascaram o resultado
da consulta a sinônimos, já que resultados verdadeiros podem ser perdidos.
Contudo, pode ocorrer uma melhora na RI caso a busca seja baseada nos
conceitos que a palavra representa, e não na própria palavra.
Esta idéia está bastante presente ao ser feita a diferenciação entre TP e
TNP, em um vocabulário controlado para a indexação de documentos. Nesta
fase procura-se normalizar as palavras-chave de indexação para os respectivos
TP, que representam conceitos e devem ser utilizados futuramente na busca
de informações.
O controle de vocabulário pode ser utilizado quando existe uma política
clara para a indexação de documentos, e existe um controle central deste
processo. Em grandes bases de documentos em que o processo de indexação
é feito automaticamente (como, por exemplo, a Internet) a utilização de
vocabulário controlado passa a ser bastante difícil. Outra forma de utilização
das relações de equivalência, diferente do controle de vocabulário, diz respeito
à expansão dos termos da consulta.
1 Número
de documentos relevantes encontrados dividido pela quantidade total de documentos encontrados.
3.1. RELAÇÕES SEMÂNTICAS NAS NORMAS E NA RI
27
Como já descrito na seção 1.4, a técnica denominada expansão de consulta
consiste em encontrar sentido e contexto corretos para um grupo de termos e,
a partir deste ponto, utilizar outros termos que representem o mesmo sentido.
Esta técnica pode ser utilizada no momento da consulta a uma base de
dados onde os documentos foram indexados livremente (i.e. sem controle do
vocabulário de indexação), para que o maior número de documentos relevantes seja encontrado. A livre indexação de documentos é usualmente realizada
por processos automáticos de catalogação quando grande quantidade de documentos necessitam ser indexados. Podem ser utilizadas como índice as
palavras-chave de um documento, ou mesmo todas as palavras existentes em
um documento. A indexação através de todas as palavras de um documento
é a forma de catalogação utilizada, atualmente, pela maioria das ferramentas
de busca na WWW.
Na expansão de consultas, a função das relações de equivalência é clara,
uma vez que a utilização de termos sinônimos, quase-sinônimos e variantes
lexicais representa conceitos iguais. A busca pelos conceitos corretos ou um
conceito único que expresse uma série de termos é um trabalho mais complexo
e requer a utilização de relações semânticas de hierarquia.
3.1.2 Relações de hierarquia
As relações BT, NT e suas variantes (BTI, NTI, BTP, NTP, etc.) denidas pelas normas apresentadas no capítulo 2, são utilizadas para denir
relações de hiperonímia, hiponímia e meronímia. Estas relações semânticas
têm grande utilidade na RI, pois é possível, através delas, representar árvores
ou reticulados2 muito úteis para sintetizar conceitos ou encontrar o contexto
de consultas e documentos.
A resolução da ambigüidade das palavras homônimas, ou word sense disambiguation, é um processo que utiliza relações hierárquicas. O trabalho
de Voorhees em [VOO98] utiliza a WordNet3 e apresenta a resolução do sentido de uma palavra através da utilização de uma construção chamada hood.
Um hood é uma área da WordNet, representada por ligações hierárquicas
entre synsets 4 , onde uma seqüência de caracteres não é ambígua. Nota-se
2 Um reticulado é um conjunto parcialmente ordenado (neste caso,
de forma hierárquica)
onde toda dupla de elementos A e B possui um único ínmo e um único supremo. Os
elementos ínmos de A e B são os maiores elementos do conjunto de todos os elementos
menores que A e B . Os supremos de A e B são os menores elementos do conjunto de
todos os elementos maiores que A e B .
3 A WordNet é um tesauro que visa modelar o conhecimento lexical de um falante da
língua inglesa. É denida por seus autores como uma base de dados lexicais e pode ser
utilizada online em http://www.cogsci.princeton.edu/ ∼wn/
4 Na WordNet, synsets são conjuntos de palavras sinônimas ou quase-sinônimas que
28
CAPÍTULO 3. RELAÇÕES SEMÂNTICAS E RI
Matérias
Química
Metais
Mercúrio (Metal)
Astronomia
Planetas
Mercúrio (Planeta)
Vênus (Planeta)
Mitologia
Satélites Naturais
Luas
Divindades Romanas
Mercúrio (Divindade)
Vênus (Divindade)
Figura 3.1: Resolução do contexto de uma consulta
que é utilizada a expressão seqüência de caracteres e não termos, i.e. a
palavra protetor por exemplo, poderia delimitar um hood através do termo
protetor solar.
A resolução da ambigüidade pode ser feita ao relacionar a palavra ambígua com outras palavras que ocorram na indexação ou busca. Se algumas
destas palavras ocorrem em um determinado hood, isto é uma pista de que
esta estrutura pode ser o contexto correto da palavra homônima. A Figura 3.1 demonstra este método de resolução de contexto para a consulta
Luas de Mercúrio e Vênus.
A Figura 3.1 representa a resolução da ambigüidade da palavra Mercúrio
através da utilização de hoods da WordNet. Neste sistema existem três
hoods para a palavra Mercúrio: (1) Química - Mercúrio (metal); (2)
Astronomia - Mercúrio (planeta); e (3) Mitologia - Mercúrio (divindade romana). Para a resolução do contexto da consulta luas de Mercúrio e Vênus, são utilizadas as outras palavras da consulta para vericar
se estas aparecem no contexto de alguma hood. A palavra Vênus está inserida
nas hoods 2 e 3, e a palavra Luas está inserida na hood 2. Desta forma a
hood que será utilizada é a 2, pois é a hood em cujo contexto mais palavras
da consulta se encaixam.
Voorhees em [VOO98] arma que o problema das palavras homônimas
diminuindo a precisão na RI não é severo, a menos que uma consulta seja
muito curta, a ponto de não ser encontrado o contexto correto. É o caso
que ocorre quando uma palavra homônima é utilizada na RI, e os diferentes
signicados para esta palavra devem aparecer nos documentos recuperados.
Por outro lado, quando mais palavras são utilizadas na consulta, os sentidos
incorretos da palavra homônima tendem a perder importância na RI.
Em 3.1.1 foi abordada a utilização da expansão de consultas e a necessirepresentam um único conceito.
3.1. RELAÇÕES SEMÂNTICAS NAS NORMAS E NA RI
Nation
The Inferred
Object
0.9
Oriental
State
0.9
0.9
Capitalistic
State
0.9
0.9
0.9
0.9
Japan
0.9
China
0.9
Western
State
0.9
Korean
29
Socialist
State
0.9
0.9 0.9
0.9
0.9
0.9
0.9
0.9
Britain
U.S.A.
France
Russia
The Objects Represented in the Query
Figura 3.2: Supremo de consulta ∨ (retirada de [HAN98])
dade de relações hierárquicas para encontrar um conceito que sintetize outros
conceitos ou termos. A síntese de conceitos e termos é possível através da
interpretação semântica de uma consulta.
Alguns trabalhos (por exemplo, [HAN98] e [COL96]) realizam a síntese de
conceitos através da visualização das relações de hierarquia como uma cadeia
de ordem parcial ou reticulado de conceitos. Desta forma, uma consulta
envolvendo diversos termos e operadores ∨ (ou) poderia buscar um ou mais
conceitos genéricos aos termos envolvidos, através da resolução dos supremos
destes termos. A Figura 3.2, retirada de [HAN98], exemplica a consulta
Korean ∨ Japan ∨ China.
De modo análogo, as consultas que utilizam o operador ∧ (e) buscam
termos mais especícos através da resolução dos ínmos dos termos envolvidos. A Figura 3.3, também retirada de [HAN98], exemplica a consulta
Oriental State ∧ Capitalistic State.
Como é visto na Figura 3.3, a resolução dos termos ínmos desta consulta
retornou mais de um termo, Korean e Japan, pois ambos são instâncias (NTI
na norma ANSI/NISO Z39.19) de Oriental State e Capitalistic State.
Os termos e conceitos retornados através da resolução de conceitos mais
genéricos ou especícos, podem ser incluídos na expansão de consultas, de
modo que outras informações relevantes possam ser encontradas.
A inclusão de um termo mais genérico deve aumentar o número de resultados de uma consulta e, por conseguinte, aumentar o número de resultados
falhos. Contudo, segundo Voorhees em [VOO98], é muito mais danoso para
um sistema de RI perder um bom resultado do que fazer alguns poucos chutes falsos.
A seguir serão abordadas as relações associativas, sua importância e diculdades inerentes na RI.
30
CAPÍTULO 3. RELAÇÕES SEMÂNTICAS E RI
Nation
0.9
0.9
0.9
0.9
The Objects Represented in the Query
Oriental
State
Capitalistic
State
Western
State
0.9
0.9
0.9
0.9
0.9
Korean
Japan
0.9
0.9 0.9
0.9
0.9
0.9
Socialist
State
0.9
0.9
0.9
China
Britain
U.S.A.
France
Russia
The Inferred
Object
Figura 3.3: Ínmos de consulta ∧ (retirada de [HAN98])
3.1.3 Relações associativas
Diversos trabalhos, como [BEC01], [HAN98] e [TUD01], salientam a importância e a diculdade da utilização das relações associativas para a expansão de consulta e a recuperação de informação.
As relações do tipo RT representam uma classe de relações não hierárquicas, para as quais, segundo Tudhope et al. em [TUD01], a construção e
aplicação na RI é menos clara que para outros tipos de relações. Uma relação
RT pode ser muito vaga, o que pode levar à adição de termos inúteis a uma
consulta expandida e ocasionar a queda da precisão do sistema.
Para tentar minimizar este tipo de efeito são utilizadas técnicas que propõem medir a distância entre conceitos semânticos, normalmente baseadas no
número de relações existentes entre dois conceitos. De acordo com [TUD01],
a menos que a consulta relembre bastante uma relação RT, este tipo de medição é mais conável quando utilizado sobre relações hierárquicas.
Tudhope et al. em [TUD01], exemplicam a utilização das relações RT
na expansão de consulta, auxiliadas pelas relações hierárquicas e medidas de
distância entre conceitos.
A Figura 3.4, retirada de [TUD01], apresenta as relações semânticas BT
e RT do Art and Architecture Thesaurus (AAT), ao redor do termo Axes
(weapons). Observe que a relação BT das hierarquias, nalizando nas categorias iniciais (Tools & Equipment e Weapons & Ammunition ), poderia ser
substituída pela relação TT da norma ISO 2788.
Tudhope et al., em [TUD01], realizam a expansão do termo Axes (weapons), de três modos distintos: (1) expansão pelas relações BT/NT; (2)
expansão pelas relações BT/NT e RT; e (3) expansão pelas relações BT/NT
e RT excluindo relações RT de hierarquias diferentes. Para cada expansão
3.1. RELAÇÕES SEMÂNTICAS NAS NORMAS E NA RI
31
Tabela 3.1: Expansão através de relações RT (retirada de [TUD01])
Termo
axes(weapons)
tomahawks(weapons)
battle-axes
edged weapons
axes
halberds
pollaxes
gisarmes
cerimonial axes
throwing axes
hatchets
franciscas
chip axes
berdyshes
sta weapons
sword sticks
harpoons
Distância
Termo
Distância
0
0.6
0.6
1
1
1
1
1
1
1.1
1.4
1.53
1.6
1.6
1.75
1.75
1.75
bayonets
daggers(weapons)
st weapons
swords
<projectiles with ...
adze-hatchets
hewing hatchets
lathing hatchets
shingling hatchets
cutting tools
fasces
Pulaskis
<ceremonial weapons>
<wood-cutting and ...>
arrows
machetes
darts
1.75
1.75
1.75
1.75
1.77
1.9
1.9
1.9
1.9
2
2
2
2
2.15
2.33
2.33
2.33
Tool & Equipment
Weapons & Ammunition
BT
RT(1)
RT(4)
weapons
<cutting tool>
edged weapons
Pulaskis
<wood−cutting and
finishing tools>
Axes
(tools)
Axes
(weapons)
staff weapons
pollaxes
tomahawks
(weapons)
Battle−axes
throwing axes
gisarmes
halberds
hatchets
franciscas
other staff weapons ...
Figura 3.4: Relações semântica do AAT (retirada de retirada de [TUD01])
realizada, foi feita a medição da distância semântica dos termos obtidos ao
termo expandido, o que demonstra a relevância dos termos para a consulta.
As medidas e os termos obtidos (e excluídos) são mostrados na Tabela 3.1,
retirada de [TUD01] (observe que os termos sublinhados representam as relações excluídas, e os termos em itálico representam as relações vindas de
RT).
De acordo com esta técnica, alguns termos, como axes (tools), são excluídos por pertencerem a uma hierarquia diferente, mesmo com uma distância
32
CAPÍTULO 3. RELAÇÕES SEMÂNTICAS E RI
semântica pequena. Devido à implementação mono-hierárquica do tesauro
utilizado por Tudhope et al., alguns termos, como hatchets e machetes, que
são tanto Weapons & Ammunition e Tools & Equipment são excluídos por
só poderem estar representados em uma hierarquia.
Os valores da distância semântica dependem da quantidade de termos
entre um termo e outro e dos tipos de relações entre os termos. Os tipos de
relações têm pesos diferentes: a relação de equivalência e a relação hierárquica
têm pesos menores que as relações associativas. Desta forma, os autores
consideram que as relações de equivalência e as relações hierárquicas relatam
uma proximidade semântica maior que as relações associativas.
3.2 Utilização de relações extraídas de forma
automática
Tesauros construídos de forma manual podem representar relações semânticas ricas em conteúdo, o que é bastante útil na RI. Contudo, o custo do
desenvolvimento manual de um tesauro é alto, o que leva ao desenvolvimento
automático.
O desenvolvimento automático de tesauros é uma alternativa que tem
gerado resultados bastante precisos (veja [GAS01] e [GRE94]). Porém a
utilização, junto à RI, de tesauros criados automaticamente, é mais difícil e
menos clara, pois estes tesauros expressam com diculdade a semântica das
relações entre palavras.
Mesmo em tesauros onde as relações semânticas não estão explicitadas,
é possível fazer uma avaliação de utilidade na RI. Para isto é medida a
relevância dos resultados obtidos quando utilizados tais tesauros na expansão
de consulta.
No trabalho de Jing & Croft em [JIN94] é realizada a expansão de consultas em linguagem natural. Um módulo desenvolvido pelos autores, denominado PhraseFinder, retorna uma lista de termos ordenados por relevância,
associados às palavras da consulta. Dada esta lista, são utilizados os seguintes métodos, em [JIN94], para determinar quais termos serão empregados na
expansão da consulta:
• somente duplicados: somente os termos duplicados são adicionados
às consultas. Um termo é duplicado quando, dada uma consulta, todas
as palavras que constituem este termo formam um subconjunto da consulta original. Por exemplo, para a consulta anotações da escola na
agenda, o termo agenda escolar seria incluído por este método, pois
3.3. CONSIDERAÇÕES SOBRE O CAPÍTULO
33
está associado a agenda, e ambas as palavras pertencem5 à consulta
original.
• não-duplicados: termos não duplicados são adicionados à consulta.
Por exemplo, para a consulta anotações da escola na agenda, os termos notas, colégio e caderno seriam adicionados por este método.
• ambos duplicados e não-duplicados: ambos os tipos de termos
descritos anteriormente seriam adicionados à consulta.
A utilização destes métodos para a expansão de consultas foi avaliada
em [JIN94] e demonstrou ser bastante promissora. Os autores salientam que
algumas questões continuam não resolvidas. Por exemplo, como determinar
qual o número correto de termos que devem ser adicionados a uma determinada consulta? Em determinadas consultas, um número alto de termos
adicionados melhora a eciência, enquanto que, em outras, a eciência é
degradada.
Em outra estratégia de utilização de relações provenientes de tesauros
criados automaticamente, Mandala et al., em [MAN99] e [MAN99a], utilizam
as relações descobertas automaticamente com a utilização de um cálculo de
similaridade entre a consulta e os termos do tesauro, utilizando para isto o
pesos destas relações entre os termos.
Nestes trabalhos, caso a medida calculada de similaridade dos termos do
tesauro com os termos de uma consulta seja maior que determinado valor,
estes termos são adicionados à consulta expandida. Em ambos os estudos
apresentados, Mandala et al. relatam melhora na RI.
3.3 Considerações sobre o capítulo
Este capítulo apresentou a aplicação das relações semânticas entre termos
na RI. Foram apresentados alguns métodos de RI que utilizam as relações
denidas nas normas vistas no capítulo 2, enquanto que, ao nal, foi apresentada a expansão de consulta com a utilização de relações entre termos onde
a semântica das relações não é conhecida.
No próximo capítulo é proposta uma estrutura tesaural que engloba diferentes características de diferentes tesauros. Esta estrutura multitesauro
deverá representar relações que serão utilizadas em tarefas de RI.
5 Observe
que a palavra escola difere de escolar, mas elas são consideradas equivalentes em relação à base ou raiz.
34
CAPÍTULO 3. RELAÇÕES SEMÂNTICAS E RI
Capítulo 4
A Proposta de uma Estrutura
Multitesauro
O capítulo anterior apresentou a utilização de relações semânticas na
RI. Neste capítulo é apresentada a proposta que concentra esta dissertação:
uma estrutura tesaural que englobe diversos aspectos de diferentes tesauros.
Primeiramente, na seção 4.1, são apresentados os tesauros obtidos para a utilização nesta pesquisa. A seção 4.2 apresenta uma estrutura inicial baseada
na norma ISO 2788. A seção 4.3 descreve as etapas efetuadas até a proposta
da estrutura nal empregada neste trabalho.
4.1 Tesauros utilizados
Na introdução desta dissertação, descrevemos a importância da estruturação de tesauros para a RI, contextualizando que a estrutura desenvolvida é
importante no contexto do projeto SEMA, em desenvolvimento nesta Universidade. Nossa estrutura foi inicialmente baseada no padrão ISO 2788 denido
em [ISO86], dado que, atualmente, a maioria dos tesauros disponíveis pode
ser facilmente convertida para este padrão.
Algumas instituições generosamente ofereceram seus tesauros para serem
utilizados em nossa pesquisa. Os tesauros obtidos apresentam-se de diferentes
formas, mas são igualmente úteis:
• Vocabulário Controlado Básico do Senado, ou VCBS, é um tesauro
bastante organizado que contém a grande maioria das características
descritas na norma ISO 2788. A lista de palavras contidas no VCBS cobre diferentes áreas do conhecimento, e é utilizada pelos prossionais da
Biblioteca do Senado Federal na catalogação do material existente em
35
36
CAPÍTULO 4. ESTRUTURA MULTITESAURO
sua biblioteca. Mais informações sobre este tesauro podem ser encontradas no endereço http://webthes.senado.gov.br/thes/, que funciona
como interface Web para consultas a este tesauro.
• Vocabulário Controlado USP, ou VCUSP (veja [SIB01]), contém uma
grande quantidade de conceitos que são muito úteis aos prossionais
de biblioteca, ajudando no processo de indexação de documentos. Este
tesauro cobre muitas áreas diferentes através de relações de equivalência
e hierarquia. O VCUSP é um produto distribuído em CD-ROM e é
normalmente utilizado através de um software agregado ao produto.
Mais informações podem ser obtidas em http://www.usp.br/sibi/.
• Lista de descritores da PUCRS, ou LDPUCRS, é uma lista com 55565
termos, contendo somente a relação de equivalência expressa entre os
termos. O LDPUCRS não foi construído para ser um tesauro, mas
para ser uma lista de termos autorizados, a ser utilizada pela Biblioteca
Central Ir. José Otão, da PUCRS. Por isso muitos termos não contêm
relações com outros termos na lista de descritores. Decidiu-se utilizar
esta lista, pois a relação de equivalência nela existente é importante
e os termos que não apresentam relações com os demais podem ser
utilizados como indicações de termos compostos1 importantes.
• Lista de Termos Obtida por Cálculo de Similaridade Sintática, ou
LTOCSS, é um tesauro construído de forma automática com uso das
técnicas descritas por Grefenstette em [GRE94], e adaptadas para o
português por Gasperin [GAS01a]. Este tesauro é dependente de corpus e foi construído utilizando um corpus sintaticamente etiquetado
do jornal Folha de São Paulo do ano de 1994. Este corpus contém
diferentes seções que tratam de assuntos como: agricultura, esportes,
televisão, informática e variedades. A principal característica do tesauro LTOCSS é que seus diversos termos são relacionados com outros
termos de acordo com uma medida de similaridade. Esta medida é
representada por um valor real variando de 0 (termo não relacionado)
até 1 (termo perfeitamente relacionado).
4.2 Estrutura inicial
Depois de analisadas as principais características dos tesauros citados,
passamos a denir a estrutura que foi utilizada neste estudo. Decidimos
1 Termos
Pessoal.
com mais de uma palavra, por exemplo, Atlas Geográco ou Computador
4.2. ESTRUTURA INICIAL
37
começar pela norma ISO 2788, pois os tesauros obtidos são facilmente transpostos para este padrão. Deste modo, foi denida a seguinte DTD/XML:
<!ELEMENT
<!ELEMENT
<!ELEMENT
<!ELEMENT
<!ELEMENT
<!ELEMENT
<!ELEMENT
<!ELEMENT
THESAURUS(TERM+)>
TERM(SN?,UF*,USE*,BT*,NT*,R\T*)>
SN(CDDATA)>
UF(EMPTY)>
USE(EMPTY)>
BT(EMPTY)>
NT(EMPTY)>
RT(EMPTY)>
<!ATTLIST
<!ATTLIST
<!ATTLIST
<!ATTLIST
<!ATTLIST
<!ATTLIST
TERM
BT
NT
USE
UF
RT
term
term
term
term
term
term
CDATA
CDATA
CDATA
CDATA
CDATA
CDATA
#REQUIRED>
#REQUIRED>
#REQUIRED>
#REQUIRED>
#REQUIRED>
#REQUIRED>
A DTD/XML denida pode ser melhor entendida na representação de
um documento XML, que aparece a seguir:
<THESAURUS>
<TERM term="Arte">
<SN>Usar, também, ligado a assuntos
específicos tratados do ponto
de vista da arte.</SN>
<UF term="Belas Artes"/>
<BT term="Ciências Humanas"/>
<NT term="Fotografia"/>
<RT term="Obra de Arte"/>
</TERMO>
<TERM term="Belas Artes">
<USE term="Arte"/>
</TERM>
<TERM term="Moldura"/>
</THESAURUS>
O documento anterior, segundo a DTD/XML apresentada, dene os termos Arte, Belas Artes e Fotograa e suas relações. O termo Arte
tem: uma nota explicativa nomeada SN (de Scope Note ); uma relação de
equivalência UF (de Used For ) com o termo Belas Artes; uma relação de
termo mais genérico BT (de Broader Term ) com o termo Ciências Humanas; uma relação de termo mais especíco NT (de Narrower Term ) com o
termo Fotograa; e uma relação de termo associado RT (de Related Term )
com o termo Obra de Arte. O termo Belas Artes tem uma relação de
38
CAPÍTULO 4. ESTRUTURA MULTITESAURO
equivalência USE com o termo Arte. O termo Moldura é denido sem
que exista qualquer relação entre ele e outro termo.
A diferença entre as relações USE e UF é a mesma denida pela norma
ISO 2788: um termo preferencial relaciona-se com um termo não preferencial
através de uma relação UF. Já a relação USE ocorre de modo inverso: um
termo não preferencial remete a um termo preferencial através deste tipo de
relação. Um termo preferencial, segundo a norma ISO 2788, deve representar
um conceito único, enquanto que um termo não preferencial deve estar relacionado a um termo preferencial. Observe que, em nosso trabalho, a única
diferenciação entre estes dois tipos de termos é dada através das relações de
sinonímia que eles contêm.
4.3 Desenvolvimento da Estrutura Multitesauro
Neste trabalho é enfocado o desenvolvimento de uma estrutura que possibilita a representação de diferentes tesauros, caracterizando desta forma a
denominação multitesauro. A característica multitesaural da estrutura deve
possibilitar a união de diferentes tesauros como se estes fossem um apenas.
Termos e relações repetidos devem ser unicados, e a utilização dos tesauros
representados por esta estrutura deve ter uma única forma.
Uma vez que a estrutura deve ser utilizada na RI, mesmo que seja possível preencher todos os campos disponíveis com o conteúdo dos tesauros,
algumas características são descartadas. O campo SN (notas de escopo) é
importante quando utilizado no processo manual de catalogação em bibliotecas, ao informar ao prossional sobre a utilização correta de um termo.
Entretanto estas notas não parecem fornecer nova informação semântica que
possa ajudar, em tarefas automáticas. Por este motivo, foi decidido excluir
o campo SN da estrutura.
Estudando o tesauro VCUSP, foi constatado que deveria ser oferecida
uma outra maneira de representar as relações BT e NT. O VCUSP é distribuído como um banco de dados ordenado, e estruturado como uma árvore
de conceitos; então foi decidido adicionar esta mesma característica a nossa
estrutura. Para representar as relações BT e NT, a estrutura passou a aceitar
a inserção das etiquetas de termos entre as etiquetas de início (start-tag ) e
m (end-tag ) de termo. Esta característica é mais bem expressa a seguir:
4.3. DESENVOLVIMENTO DA ESTRUTURA MULTITESAURO
39
<TERM term="Arte">
<TERM term="Teatro">
<UF term="Arte Dramática"/>
<TERM term="Teatro Infantil"/>
</TERM>
<TERM term="Cinema"/>
</TERM>
A representação acima informa que Teatro e Cinema são NT de Arte
(e Arte é BT de Teatro e Cinema), enquanto Teatro tem Arte Dramática como termo equivalente e Teatro Infantil como NT (e Teatro é
BT de Teatro Infantil).
Optou-se por tornar possível a utilização das relações semânticas provenientes dos tesauros construídos de forma automática, de forma diferenciada. Assim, optou-se por desvincular a estrutura multitesauro da ISO 2788.
Foi criada a relação SY para indicar o relacionamento entre dois termos no
tesauro LTOCSS. Cada relação do tipo SY tem um valor agregado representando uma ponderação na relação semântica obtida por cálculo de similaridade sintática entre os dois termos. E novamente, o valor agregado é
qualquer real entre 0, que representaria uma relação inexistente, e 1, que
seria uma relação RT perfeita.
A representação seguinte exemplica a utilização da relação SY com um
valor agregado.
<TERM term = "Arte">
<SY term = "Poesia" value = "0.87"/>
</TERM>
Na prática, observou-se que poderia existir incompatibilidades entre tesauros, devido a um possível conito entre TP e TNP. Abaixo está exemplicada esta situação de conito que ocorre quando dois termos sinônimos
são relacionados, e existem diferenças na concepção de preferencial e nãopreferencial, em diferentes tesauros.
<THESAURUS>
<TERM term="Computação">
<UF term="Informática"/>
</TERM>
<TERM term="Informática">
<USE term="Computação"/>
</TERM>
</THESAURUS>
40
CAPÍTULO 4. ESTRUTURA MULTITESAURO
<THESAURUS>
<TERM term="Informática">
<UF term="Computação"/>
</TERM>
<TERM term="Computação">
<USE term="Informática"/>
</TERM>
</THESAURUS>
Decidiu-se então por extingüir a diferenciação entre as relações USE e
UF. Os tesauros representados no exemplo, seriam então unidos da seguinte
forma:
<THESAURUS>
<TERM term="Computação">
<UF term="Informática"/>
<USE term="Informática"/>
</TERM>
<TERM term="Informática">
<USE term="Computação"/>
<UF term="Computação"/>
</TERM>
</THESAURUS>
De modo a prevenir este tipo de situação, onde um termo se relaciona,
tanto pela relação USE quanto pela relação UF, com um mesmo outro termo,
decidiu-se por agrupar ambas as relações em uma única relação sinônima
denominada ET (Equivalent Term ). Assim, os tesauros anteriores seriam
representados por:
<THESAURUS>
<TERM term="Computação">
<ET term="Informática"/>
</TERM>
<TERM term="Informática">
<ET term="Computação"/>
</TERM>
</THESAURUS>
Reunindo as escolhas aqui apresentadas, nesta dissertação é proposta uma
estrutura que abrange as principais características dos tesauros obtidos, que
pode ser descrita através da seguinte DTD/XML:
4.4. CONSIDERAÇÕES SOBRE O CAPÍTULO
<!ELEMENT
<!ELEMENT
<!ELEMENT
<!ELEMENT
<!ELEMENT
<!ELEMENT
<!ELEMENT
THESAURUS (TERM+)>
TERM (TERM*,ET*,BT*,NT*,RT*,SY*)>
ET
(EMPTY)>
BT
(EMPTY)>
NT
(EMPTY)>
RT
(EMPTY)>
SY
(EMPTY)>
<!ATTLIST
<!ATTLIST
<!ATTLIST
<!ATTLIST
<!ATTLIST
<!ATTLIST
TERM
ET
BT
NT
RT
SY
term
term
term
term
term
term
value
CDATA
CDATA
CDATA
CDATA
CDATA
CDATA
CDATA
41
#REQUIRED>
#REQUIRED>
#REQUIRED>
#REQUIRED>
#REQUIRED>
#REQUIRED
#REQUIRED>
4.4 Considerações sobre o capítulo
O presente capítulo apresentou uma estrutura multitesauro que engloba
diferentes aspectos de determinados tesauros oferecidos a esta pesquisa. Propõe-se que esta estrutura seja padrão para a denição dos diferentes tesauros,
e adequada para a sua utilização em tarefas de RI.
Utilizamos arquivos XML para denir o conteúdo dos tesauros obtidos,
e especicamos a sintaxe padrão destes documentos ao apresentarmos sua
DTD/XML. Os tesauros foram disponibilizados sobre diferentes padrões, e
convertidos para a estrutura multitesauro proposta, por programas simples.
O tesauro VCBS, LDPUCRS, e LTOCSS foram distribuídos em arquivos em
formato texto com uma representação especíca para cada tesauro. O tesauro
VCUSP é distribuído em CD-ROM e seus termos e relações estão em uma
base de dados paradox. Uma vez que as relações semânticas presentes nestes
tesauros são compatíveis com as relações denidas pela estrutura proposta,
a conversão é simples e direta.
No capítulo seguinte será apresentada a aplicação da estrutura proposta
neste capítulo na RI, através de um método proposto para validar e quanticar a importância de suas relações.
42
CAPÍTULO 4. ESTRUTURA MULTITESAURO
Capítulo 5
Estrutura Multitesauro na
Expansão de Consultas
O capítulo anterior apresentou uma estrutura tesaural em XML, que tem
como principais características: representar diferentes tipos de tesauros, e ser
facilmente transmitida através da WWW. Esta estrutura também pode ser
útil à RI, habilidade esta que deve ser conrmada através de uma validação.
A utilidade da estrutura proposta, nesta dissertação, na área de RI deve
ser analisada, a nosso ver, através do uso dessa estrutura em algum sistema
de RI. Assim, foi desenvolvida uma heurística de expansão de consulta e
construído um protótipo que implementa esta heurística. O processo de
expansão de consultas utiliza diferentes tesauros organizados de acordo com
a estrutura tesaural apresentada no capítulo 4.
Neste capítulo é descrita a proposta de uma heurística de expansão de
consultas, que tem como objetivo validar junto à RI a utilidade da estrutura
multitesauro desenvolvida.
Em nossa abordagem para expansão de consultas, procura-se encontrar
termos que sejam semanticamente próximos à consulta a ser expandida. Para
isto, é feito um caminhamento entre os termos do tesauro. A cada passo
deste caminhamento são calculados valores de importância para o termo encontrado, e estes valores são considerados, ao nal do processo, na decisão
de inserção de tal termo na consulta expandida. Este caminhamento é um
processo que inicia nos termos da consulta original, e naliza quando um
caminho já não é mais importante de ser seguido.
Na seção 5.2 deste capítulo, é apresentado o algoritmo que implementa
a heurística de expansão de consultas. Um exemplo detalhado da expansão
de consultas é descrito na seção 5.3. A seguir, na seção 5.4, é apresentada
a ferramenta QET, onde foram implementadas as técnicas descritas neste
capítulo.
43
44
CAPÍTULO 5. ESTRUTURA NA EXPANSÃO DE CONSULTA
5.1 Heurística de Expansão de Consultas
Nesta seção é apresentada a heurística de expansão de consultas desenvolvida, a qual se caracteriza por utilizar tesauros organizados de acordo com
a estrutura multitesauro proposta no capítulo 4.
A técnica de expansão de consulta calcula valores de distância semântica entre os termos de um tesauro e os termos utilizados em uma consulta.
Em nosso método, são atribuídos pesos para as diferentes relações semânticas presentes no multitesauro. Este pesos representam a distância semântica
entre dois termos. Um valor próximo a 0, é considerado mais distante semanticamente que um valor próximo a 1.
Desta forma, para saber a distância semântica entre dois termos no tesauro, encontra-se um caminho de relações entre estes termos e multiplicamse os pesos das relações intermediárias entre eles. A este valor calculado
denominamos valor β . Observa-se que, quanto mais distante um termo está
de outro, mais próximo a 0 será o valor de β .
O valor β serve para medir a importância de determinado termo da estrutura multitesauro, dado um termo em uma consulta de usuário. Mas, para
efetuar a expansão de consultas, é necessário saber a importância de um
termo, dados todos os termos utilizados em uma consulta. Assim denimos
um valor δ que é calculado pela soma de todos os valores β entre os termos
de uma consulta original e um termo no tesauro.
A decisão de inserir um termo na consulta expandida é tomada pela
comparação dos valores δ obtidos, e um limiar λ. Termos com valor δ que
ultrapassam este limiar são inseridos na consulta expandida, enquanto os
termos com δ menor que λ são descartados.
Na seção seguinte é formalizada a técnica utilizada para a expansão de
consultas.
5.1.1 Formalização da Heurística
Foi desenvolvido um método de expansão de consultas com tesauros, utilizando diferentes pesos para diferentes tipos de relações. Para nosso método
assumimos um tesauro como uma tupla (T, ET, N T, BT, RT, SY ) onde:
• T é um conjunto de termos
T = {t1 , t2 , . . . , tm }
• ET , N T , BT , RT e SY são conjuntos de tuplas representando diferentes relações semânticas entre os termos. Estes conjuntos são denidos
5.1. HEURÍSTICA DE EXPANSÃO DE CONSULTAS
45
do seguinte modo :
ET = {(u, v) | u, v ∈ T, v é equivalente a u}
N T = {(u, v) | u, v ∈ T, v é mais especíco que u}
BT = {(u, v) | u, v ∈ T, v é mais genérico que u}
RT = {(u, v) | u, v ∈ T, (u, v) ∈
/ ET ∪ N T ∪ BT }
SY = {(u, v) | u, v ∈ T, relação entre u e v provem de LTOCSS}
A consulta formulada originalmente é um conjunto CO de termos onde:
CO = {c1 , c2 , . . . , cm }
Contudo, na heurística utilizada podemos somente considerar os termos
de CO presentes em T , desta forma a consulta original C é denida como:
C = {c1 , c2 , . . . , ck | ci ∈ T }
Na busca por termos que farão parte da consulta na sua forma expandida,
procuram-se os termos que contêm algum tipo de relação com os termos
da consulta original C . O trabalho de Robin & Ramalho, em [ROB01],
por exemplo, utiliza as palavras relacionadas por sinonímia e hiperonímia às
palavras da consulta original. Em nosso trabalho decidimos não limitar os
tipos de relações a serem utilizadas, mas oferecer pesos diferentes para cada
tipo de relação.
Assim, para cada tipo de relação existente no tesauro é associado um
peso P entre 0 e 1, representando a importância desta relação na expansão
de consulta. Estes valores são denidos da seguinte maneira:
P (ET ) ∈ [0, 1)
P (RT ) ∈ [0, 1)
P (N T ) ∈ [0, 1)
P (SY ) ∈ [0, 1)
P (BT ) ∈ [0, 1)
A cada relação (u, v) associa-se um valor R(u, v) correspondente ao tipo
de relação representada. A seguir denimos os valores R(u, v) associados:
∀(u, v) ∈ ET ∃R(u, v) ∈ [0, 1) | R(u, v) = P (ET )
∀(u, v) ∈ N T ∃R(u, v) ∈ [0, 1) | R(u, v) = P (N T )
∀(u, v) ∈ BT ∃R(u, v) ∈ [0, 1) | R(u, v) = P (BT )
46
CAPÍTULO 5. ESTRUTURA NA EXPANSÃO DE CONSULTA
∀(u, v) ∈ RT ∃R(u, v) ∈ [0, 1) | R(u, v) = P (RT )
∀(u, v) ∈ SY ∃R(u, v) ∈ [0, 1) | R(u, v) = P (SY )
Também associa-se a cada relação (u, v) um valor V (u, v) correspondente
à similaridade via relações não especícas (provenientes de tesauros automáticos). O valor V (u, v) é denido para a relação SY no intervalo de [0, 1]
e para as demais relações (provenientes da ISO 2788) como 1. A seguir
denimos os valores V (u, v) para cada tipo de relação do tesauro.
∀(u, v) ∈ ET ∪ N T ∪ BT ∪ RT ∃V (u, v) = 1
∀(u, v) ∈ SY ∃V (u, v) ∈ [0, 1]
De modo a facilitar a compreensão dos passos seguintes, utilizaremos um
conjunto R para representar quaisquer tipos de relações:
R = ET ∪ N T ∪ BT ∪ RT ∪ SY
Com a utilização de pesos para os diferentes tipos de relações semânticas,
é possível realizar a expansão com quaisquer tipos de tesauros. Se for decidido
não utilizar uma determinada relação semântica, dene-se um peso igual a 0
para esta relação. Outra característica que a utilização de pesos na expansão
oferece, é a possibilidade de utilizar termos indiretamente relacionados com os
termos originais de uma consulta. Por exemplo, é possível utilizar sinônimos
de termos hipônimos, ou hiperônimos de hipônimos, entre outros.
Desta forma, a heurística desenvolvida encontra o conjunto de termos
Tn relacionados com os termos da consulta C . O valor de n corresponde à
profundidade no caminhamento do conjunto de termos em relação aos termos
pertencentes à consulta original. O conjunto Tn é denido por:
T1 ≡ C
Tn = {t | t ∈ T, (v, t) ∈ R, v ∈ Tn−1 }
Assim, temos os conjuntos Rn englobando todos os pesos R(u, v) numa
determinada profundidade n em relação aos termos de uma consulta C :
Rn = {R(u, v) | u ∈ Tn , v ∈ Tn+1 }
Desta forma, podemos encontrar os caminhos não cíclicos entre um termo
a1 e outro termo ak . A este caminho denominamos P (a1 , ak ).
P (a1 , ak ) = {(a1 , a2 ), (a2 , a3 ), . . . , (ak−1 , ak ) | (ai , ai+1 ) ∈ R, al 6= am ↔ l 6= m}
5.1. HEURÍSTICA DE EXPANSÃO DE CONSULTAS
47
A cada caminho P (a1 , ak ) podemos associar um valor de importância.
Assim como em [GON01], a cada incremento n em Tn , os termos t ∈ Tn recebem valores mais próximos de zero, através da divisão dos pesos individuais
dos termos pelo valor de n. Em nosso trabalho decidiu-se utilizar o próprio
valor de R(u, v) para calcular a importância de um caminho P (l, m).
Existe, assim, um valor β associado a cada caminho P (a1 , ak ) relativo
à importância deste. Este valor é o produto de todos os pesos R(ai , ai+1 )
multiplicado pelos pesos V (ai , ai+1 ) das relações (ai , ai+1 ) em um caminho
P (a1 , ak ). O valor β é representado como:
β[P (a1 , ak )] =
k−1
Y
R(ai , ai+1 ) × V (ai , ai+1 )
i=1
Como R(ai , ai+1 ) está no limite [0, 1) e V (ai , ai+1 ) não excede a 1, o
valor β tende a 0 quanto maior for a distância k entre dois termos. Desta
forma o valor β chegará mais cedo próximo a 0 quando os pesos das relações
neste caminho forem menores. Para evitar uma exaustão no processamento
de caminhos, dene-se um valor σ que deve regular o valor β mínimo a ser
calculado. Assim, relações R(u, v) são importantes quando têm peso próximo
ao valor 1, pois possibilitam seguir caminhos maiores de relações.
Desta forma, no método desenvolvido, consideramos somente o conjunto
P V (u, v) de caminhos em que o cálculo do valor β seja maior que um deteminado valor σ :
P V (u, v) = {P (u, v) | β[P (u, v)] ≥ σ}
Numa situação em que é possível chegar a um mesmo termo do tesauro
através de diferentes caminhos, é calculado um valor δ para cada termo individualmente. Este valor δ corresponde à importância de um termo v , dado
todos os termos t ∈ C , pois ele corresponde à soma de todos os β dos caminhos possíveis dos termos de C até v . Primeiramente pensou-se em denir
δ como o maior valor β associado a este termo mas, desta forma, o valor δ
representaria um valor de importância dado seu termo em C mais próximo
semanticamente, e não dada toda uma consulta C .
Portanto, para cada termo relacionado com os termos da consulta C que
tenham um peso P V (u, v) associado, existe um valor δ calculado do seguinte
modo:
k
X
δ[C, v] =
β[P V (ci , v)] | ci ∈ C
1
Como temos calculado um valor que representa a importância de determinados termos, dada toda uma consulta C original, geramos a consulta
48
CAPÍTULO 5. ESTRUTURA NA EXPANSÃO DE CONSULTA
expandida (CE ) com a utilização destes valores. A consulta expandida resultante compõe-se de todos os termos em T cujos valores δ sejam maiores
ou iguais a um valor λ pré-determinado:
CE = {t | t ∈ T, δ[C, t] ≥ λ}
5.1.2 Modos alternativos para cálculo de δ
A maneira proposta para calcular o valor δ faz com que este não tenha
limite superior, o que pode ser normalizado através de diferentes abordagens.
Uma abordagem linear é dividir todos os valores δ pelo maior δ calculado
(abaixo representado por max δ[C, k]):
δ[C, v] =
δ[C, v]
max δ[C, k]
Também é possível utilizar uma abordagem não linear. Para isto, consideremos um conjunto P V (C, v), composto por todos os caminhos P (ci , v)
válidos entre os termos ci em C . Considere P V (C, v)k um caminho especíco
do conjunto P V (C, v):
P V (C, v)n ∈ P V (C, v)
Considere o cálculo de δ[C, v] como sendo δ[C, v]k , onde k é o número de
elementos em P V (C, v), e δ[C, v]1 , δ[C, v]2 , . . . , δ[C, v]k cada etapa no processamento de δ[C, v].
(
0,
se n <= 0;
δ[C, v]n =
δ[C, v]n−1 + (1 − δ[C, v]n−1 ) × β[P V (C, v)n ], caso contrário.
Desta forma, os valores calculados para δ[C, v] aumentam não-linearmente, com limite superior igual a 1. Também é possível o cálculo de δ[C, v] pela
média dos valores de β[P (C, v)].
Observa-se que, a utilização da média deve considerar que determinados
termos da consulta C relacionam-se muito remotamente, ou mesmo não se
relacionam, com alguns termos do tesauro. Caso um termo v não tenha
relação com todos os termos de uma consulta C , devem ser adicionados
valores de β[P (C, v)] iguais a zero para que o valor δ[C, v] seja relativo a
toda a consulta realizada.
Observe que λ é um valor limite de δ[C, v] para inserção dos termos na consulta expandida. A utilização de normalização ou não no cálculo de δ[C, v],
faz com λ tenha signicados diferentes:
5.2. ALGORITMO DE EXPANSÃO DE CONSULTA
49
• Para δ[C, v] não normalizado ou não-linearmente normalizado, λ representa um valor limite mínimo de importância para um termo v dada a
consulta C . Observe que, quando não normalizado, λ pode ser maior
que 1;
• Para δ[C, v] normalizado linearmente, λ representa um valor limite mínimo de importância para um termo v dados a consulta C e todos os
termos k que contenham um valor δ[C, k] associado.
A heurística acima detalhada é implementada através do algoritmo que é
apresentado na próxima seção.
5.2 Algoritmo de Expansão de Consulta
A heurística exposta na seção anterior é implementada no algoritmo a
seguir, e seu funcionamento é melhor explicado na seção 5.3.
Lexemas da Linguagem
Termos do Tesauro
Relações do Tesauro
Pesos das relações
Valor de similaridade
Consulta
Lista de Termos
Lista de Deltas
Consulta Expandida
D = {l1 , l2 , . . . , lk }
T = {t1 , t2 , . . . , tk | ti ∈ D}
R = {(u, v) | u, v ∈ T }
R(u, v) ∈ [0, 1), (u, v) ∈ R
V (u, v) ∈ [0, 1)
C = {c1 , c2 , . . . , ck | ci ∈ D}
L = {t1 , t2 , . . . , tk | ti ∈ T }
D = {δt1 , δt2 , . . . , δtk | δ ∈ [0, ∞], ti ∈ L}
CE = {t1 , t2 , . . . , tk | ti ∈ T }
Entradas(λ,σ )
Retorno(CE )
função Expansão(C )
∀ cn ∈ C
InsereTermos(cn , β = 1)
∀ tn ∈ L
se δtn > λ
CE = CE ∪ {tn }
função InsereTermos(tn ,β )
∀(tn , v) ∈ R
βv ← β × R(tn , v) × V (tn , v)
se βv ≥ σ
L ← L ∪ v
se ¬∃δv
δv ← 0
δv ← δv + βv
InsereTermos(v ,βv )
50
CAPÍTULO 5. ESTRUTURA NA EXPANSÃO DE CONSULTA
O algoritmo desenvolvido implementa o método explicado na seção 5.1,
através de duas funções principais. A função InsereTermos recebe como
parâmetro um termo tn e um valor β . O objetivo desta função é inserir, em
uma lista de termos L, todos os termos que se relacionam diretamente, ou
indiretamente, com o termo tn passado como parâmetro. Observa-se que,
para que ocorra a inserção de termos relacionados de forma indireta, esta
função é chamada de forma recursiva, tendo como parâmetro os termos v
diretamente relacionados a tn . O parâmetro β irá regular o valor δv associado
a um termo v . Os pesos das relações (R(u, v) e V (u, v)) são valores iguais
ou maiores que 0 e menores que 1; desta forma o valor βv para cada termo v ,
parâmetro na chamada recursiva da função InsereTermos, será menor a cada
novo nível de recursão. A chamada recursiva dessa função é interrompida
quando o valor de βv é menor que um valor σ previamente estabelecido.
A função Expansão, denida no algoritmo, recebe uma consulta C como
parâmetro. Depois de utilizada a função InsereTermos para todos os termos
de C , e assim criada a lista de termos L, são adicionados à consulta expandida
os termos de L cujo valor δ for maior que um valor λ pré-estabelecido.
A implementação apresentada difere, em dois aspectos principais, da descrição formal do método proposto:
1. Não são construídos e nem guardados os conjuntos de relações e termos
relacionados para cada nível Tn . Contudo, é construído um conjunto
de termos relacionados, com seus valores δ ;
2. A busca e a construção dos valores β e δ são realizadas em profundidade
no algoritmo, por motivos de performance e economia de memória, uma
vez que a busca horizontal (isto é, um nível n de Tn por vez) necessita
que sejam armazenados os conjuntos de termos e suas relações.
5.3 Um exemplo detalhado de funcionamento
No exemplo apresentado na presente seção utilizamos os pesos denidos
na Tabela 5.1 para os parâmetros da heurística. A Figura 5.1 possibilita
acompanhar o processo de inserção de termos em uma consulta e cálculo dos
valores β e δ dos mesmos.
Quando pesquisado sobre Acidente de carro o sistema separa os tokens 1
da consulta e remete aos seus termos relacionados.
As relações representadas na Figura 5.1, dos termos inseridos a partir
de Acidente, estão representadas por setas contínuas, e seus pesos β por
1 Itens
lexicais mínimos na análise de uma sentença, incluindo palavras, números e sinais
de pontuação.
5.3. UM EXEMPLO DETALHADO DE FUNCIONAMENTO
51
Tabela 5.1: Valores dos parâmetros do exemplo
Parâmetro
Valor
ET
NT
BT
0.90
0.60
0.30
Acidente Aeronáutico
Parâmetro
RT
λ
σ
Valor
0.10
0.65
0.05
Avião
RT (0.1)
0.06 + 0.162
NT (0.6)
0.6
Acidente
Carro
1.0
0.06 + 1.0
NT (0.6)
ET (0.9)
NT (0.6)
ET (0.9)
0.6 + 0.09
RT
(0
.1)
0.27
RT
(0
.1
)
BT (0.3)
Veículo
ET (0.9)
Acidente de Trânsito
Desastre
Automóvel
0.9
0.06 + 0.9
Figura 5.1: Exemplo do funcionamento da expansão de consulta
valores em itálico, enquanto que as relações provenientes de Carro são representadas por setas tracejadas.
Os processos de inserção de termos na lista de termos, e o cálculo de seus
valores δ associados, ocorrem em profundidade no tesauro. Por exemplo, o
termo Acidente de Trânsito é encontrado pela relação NT do termo inicial
da consulta Acidente. A Acidente de Trânsito é associado um valor β , de
0.6, correspondente à relação pela qual este foi encontrado. O processo continua encontrando Automóvel pela relação RT de Acidente de Trânsito, e o
valor β , neste caso 0.06, correspondente aos pesos de NT e RT multiplicados.
Observa-se que o peso de β é equivalente ao produto dos pesos das relações
encontradas no caminho entre o termo inicial da consulta e outro termo. De
modo a facilitar a visualização do cálculo de δ , neste exemplo este valor será
calculado sem que ocorra a normalização no intervalo [0, 1].
O processo de busca em profundidade dos termos continua até que o valor
β calculado for menor que um valor σ pré-determinado. Esta característica
52
CAPÍTULO 5. ESTRUTURA NA EXPANSÃO DE CONSULTA
pode ser observada no exemplo da Figura 5.1, na falta de um valor representado em itálico (proveniente de Acidente) de β para o termo Veículo;
isto ocorre, pois o caminho entre este termo e Acidente é composto pelas
relações NT, RT, BT e o valor β para este caminho é de 0.018, menor que o
valor de σ , denido como 0.05 para este exemplo.
São pesquisados todos os termos relacionados direta ou indiretamente
com os termos da consulta original. Observa-se que o valor β é armazenado
em uma variável δ particular a cada termo. Caso ocorra que um termo seja
relacionado a mais de um termo original, seu valor δ será a soma de todos os
β encontrados entre o termo e os termos originais. Esta característica ocorre
para o exemplo da Figura 5.1 nos termos Carro, Acidente de Trânsito,
Automóvel e Avião.
Ao nal de toda a análise os termos com peso acima do valor λ serão inseridos na consulta expandida. Na Figura 5.1 estes termos estão representados
em negrito.
A heurística formalizada na seção 5.1 e demonstrada no algoritmo descrito em 5.2, é implementada em um protótipo para expansão de consultas
apresentado na seção seguinte.
5.4 A ferramenta QET
A ferramenta de expansão de consulta foi nomeada QET (um acrônimo
para Query Expansion Tool ), e foi desenvolvida orientada a objetos, em Borland Kylix 2.0 Open Edition, em uma máquina com sistema operacional
Linux. A Figura 5.2 apresenta a expansão da consulta lógica matemática
utilizando a ferramenta QET.
O QET carrega qualquer tesauro denido de acordo com nossa estrutura,
sendo também possível carregar um tesauro separado em diferentes arquivos,
o que nos dá duas possibilidades interessantes:
1. carregar pequenas porções de um mesmo tesauro que foram transmitidas pela Internet;
2. utilizar diferentes tesauros como se fossem um grande e único multitesauro.
Uma estrutura tesaural padrão apresenta-se útil em um sistema que possibilita carregar porções de tesauros em separado. Quando é feita a carga de
diferentes tesauros surge um único multitesauro relativo à união dos termos
e relações dos diversos tesauros carregados.
5.4. A FERRAMENTA QET
53
Figura 5.2: Expansão de consulta com a ferramenta QET
Isto é, considerando dois tesauros (Ta , Ra ) e (Tb , Rb ), um multitesauro
M T é o tesauro correspondente à união destes tesauros, onde:
M T = (Ta ∪ Tb , Ra ∪ Rb )
A união dos termos e relações é realizada pelo QET no momento da carga
de cada tesauro. Desta forma, o multitesauro é compilado a cada carga de
tesauro, através da união dele mesmo, multitesauro atual, com o tesauro que
está sendo carregado.
Assim como Mandala et al. em [MAN00], utilizamos diferentes tesauros (e
de forma conjunta) em nossos testes, de modo que todos os tesauros puderam
contribuir para os resultados obtidos. No capítulo 6 demonstraremos que a
utilização conjunta gera melhores resultados do que obteríamos se os tesauros
fossem utilizados de forma separada.
Os arquivos são carregados em memória pelo QET em uma estrutura em
árvore-B de ordem 10. A árvore-B implementada possibilita que sejam carregados os arquivos rápidamente, e realizadas pesquisas dos termos de forma
otimizada. A ordenação dos termos em memória é feita sem diferenciação
de caracteres maiúsculos ou minúsculos, e com a substituição dos caracteres
acentuados pelos equivalentes sem acentuação.
Diferentes tesauros (ou porções de tesauros) podem ter os mesmos termos
e também as mesmas relações entre termos. Quando estas situações ocorrem
o sistema considera apenas os novos termos e as novas relações. Esta característica faz com que termos e relações não sejam duplicados no multitesauro,
quando estes constam em mais de um tesauro. Entretanto, podem ocorrer
situações onde um termo está escrito de forma diferente em diferentes tesauros, situações estas que nossa técnica não irá tratar. Como trabalho futuro
54
CAPÍTULO 5. ESTRUTURA NA EXPANSÃO DE CONSULTA
Tabela 5.2: Desambigüação Semântica
Termo Relacionado
Astronomia
Planetas
Divindades Romanas
Mitologia
Metais
Satélites Naturais
Relações
3 × BT × BT
2 × BT
2 × BT
2 × BT × BT
BT
BT
δ
1.92
1.60
1.60
1.28
0.80
0.80
pode ser realizada a identicação de termos repetidos, como em [SIN97], ou
pode ser usada a técnica de stemming, i.e. um termo sendo reduzido ao seu
radical.
5.5 Considerações sobre o capítulo
O presente capítulo apresentou uma estratégia a ser utilizada na validação
da estrutura proposta no capítulo 4. A estrutura multitesauro é validada
(ver capítulo 6), em sua utilização na RI, através do método de expansão de
consultas apresentado neste capítulo. Esta expansão de consultas tem como
principal característica a utilização de relações semânticas provenientes da
estrutura multitesauro, que estão relacionadas indiretamente com os termos
de uma consulta original.
Nosso método de expansão de consultas utiliza as relações presentes na
estrutura tesaural de forma análoga à descrita no capítulo 3. Os termos
sinônimos aos termos da consulta original podem ser utilizados se denidos
pesos próximos a 1 para a relação de equivalência (ET).
Observa-se que o método desenvolvido pode efetuar uma desambigüação
semântica como a apresentada por Voorhees em [VOO98]. Esta desambigüação semântica foi melhor apresentada na seção 3.1.2 e, assim como o exemplo
apresentado na Figura 3.1, a Tabela 5.2 apresenta os termos melhores relacionados, obtidos por nosso método, com os termos da consulta original Luas
de Mercúrio e Vênus. Na Tabela 5.2 utilizamos um peso 0.8 para a relação
BT e 0 para uma relação NT (isto para uma melhor visualização dos resultados numéricos). Observe que os termos com δ (não normalizados) maiores,
relembram melhor o signicado da consulta (Astronomia e Planetas).
No capítulo seguinte são descritos os testes efetuados com a utilização da
ferramenta QET e os tesauros obtidos, após serem estruturados de acordo
com a DTD proposta no capítulo 4.
Capítulo 6
Validação
Neste capítulo será apresentada a validação da estrutura multitesauro,
proposta no capítulo 4, na RI. Tal avaliação foi realizada através da utilização do método de expansão de consultas apresentado no capítulo anterior.
Este capítulo valida a utilidade da estrutura tesaural na RI, ao mesmo tempo
que avalia a heurística de expansão de consultas proposta. Pretende-se demonstrar que as relações denidas na estrutura são úteis para representar
multitesauros e são utéis na RI.
A seção 6.1 apresenta a aplicação do método proposto na recuperação
de documentos em um corpus estático, com a apresentação de resultados na
seção 6.1.1 e uma tentativa de denição de parâmetros na seção 6.1.2. Na
seção 6.1.3 demonstramos que a utilização conjunta de diferentes tesauros
oferece melhores resultados que a utilização de cada um individualmente. A
seguir, em 6.2, são apresentados os testes de RI em corpus dinâmico (Internet).
6.1 Processo de validação em corpus estático
Foram executados testes em um corpus estático, i.e. em um conjunto de
textos que não sofre, em momento algum, alteração de conteúdo. É importante validar uma técnica neste tipo de ambiente, pois diversos sistemas de
RI são utilizados junto a corpora estáticos como, por exemplo: enciclopédias
em CDROM, jornais e revistas antigos, entre outros.
Em nosso estudo foi utilizado o mesmo corpus da construção do tesauro
LTOCC, onde cada artigo é representado por um documento. Este corpus,
gentilmente cedido pelo NILC, contém 1.323.700 palavras, em 5093 artigos
de assuntos diversos.
Para a indexação e busca destes documentos, foi utilizada a ferramenta
55
56
CAPÍTULO 6. VALIDAÇÃO
ASPSeek1 .
De modo a avaliar a precisão, a abrangência e a medida-F2 , foram realizadas diversas consultas utilizando a ferramenta ASPSeek com o objetivo
de encontrar aproximadamente 100% dos documentos relevantes aos tópicos
das consultas.
A marcação de relevância dos documentos do corpus é um trabalho custoso e foi realizado com a ajuda de bolsista de iniciação cientíca3 . Cada
assunto consultado requereu uma média de 8 horas de buscas para que fosse
garantida a marcação de aproximadamente 100% dos documentos relevantes.
Depois de nalizada a marcação de relevância nos documentos, é possível mensurar a precisão e abrangência para cada consulta sobre um assunto
já marcado. Esta consulta é considerada a consulta original, que é, então,
utilizada pela ferramenta QET. O QET irá oferecer uma consulta na forma
expandida, que é utilizada no sistema de RI, para assim recuperar documentos, possibilitando medir precisão e abrangência da consulta expandida.
Como todos os documentos relevantes são conhecidos, é possível gerar,
de forma automática, através de pequenos programas, diferentes tipos de
estatísticas como, por exemplo: a diferença da precisão e da abrangência para
diferentes combinações dos pesos das relações (veja Tabela 6.3); a evolução
da precisão e da abrangência nos n primeiros documentos retornados pela
ferramenta de RI.
A maioria dos processos é de natureza semi-automática, isto é, utiliza
scripts e programas fora dos sistemas de RI. Como trabalho futuro, para
facilitar a criação de estatísticas e aumentar a usabilidade da ferramenta,
deve ser construída uma ferramenta de consulta junto ao QET.
Os parâmetros utilizados nos testes do presente capítulo são apresentados na Tabela 6.1. Estes foram denidos no processo empírico descrito na
seção 6.1.2. Os valores δ[C, v] foram calculados pelo somatório dos valores
β[P V (C, v)] sem normalização em [0, 1).
1 ASPSeek
é
uma
ferramenta
de
busca
desenvolvida
por
Swsoft
(http://www.sw-soft.com/ ) e licenciada sob os termos da GNU GPL
(http://www.gnu.org/copyleft/gpl.html ). Mais informações sobre a ferramenta podem ser
encontradas em http://www.aspseek.org/.
2 É a média ponderada da precisão e abrangência. Propõe-se a ser uma medida única
de ecácia para um sistema de RI. É calculada através da seguinte fórmula (considere P
×A
para precisão e A para abrangência): 2×P
P +A
3 Cássia Marques Serpa, bolsista do projeto SEMA, nanciada pelo CNPq.
6.1. PROCESSO DE VALIDAÇÃO EM CORPUS ESTÁTICO
57
Tabela 6.1: Valores dos parâmetros
Parâmetro
Valor
ET
NT
BT
RT
0.80
0.60
0.30
0.10
Parâmetro
SY
λ
σ
Valor
0.20
0.60
0.01
1
Consulta Original
Consulta Expandida
0.8
Precisao
0.6
0.4
0.2
0
1
2
3
4
5
6
7
Consulta
8
9
10
11
12
13
Figura 6.1: Medida de precisão das consultas originais e expandidas
6.1.1 Testes em corpus estático
Nesta seção é feita uma análise sobre os dados obtidos com os testes em
corpus estático. Detalhes a respeito das consultas encontram-se no Apêndice A desta dissertação.
Os testes realizados demonstraram que, em média, a expansão acarretou
uma degradação na taxa de precisão mas, por sua vez, também acarretou
uma signicativa melhora na taxa de abrangência. A Figura 6.1 mostra a
evolução da medida de precisão para todos os 13 assuntos marcados e suas
respectivas consultas originais e expandidas. Observe que as consultas 3, 5 e
11 nas suas formas originais não retornaram documentos relevantes.
Na Figura 6.1 é possível observar que a precisão da consulta original é,
em média, maior que a precisão da consulta expandida. Em poucas situações
houve uma precisão maior na consulta expandida. Nestas situações, a alta da
precisão ocorre pois a abrangência da consulta original era muito pequena, e
a abrangência para a consulta expandida é normal.
Mesmo com a precisão normalmente sendo degradada, a medida de abrangência tende a crescer, em todos os casos analisados, com a consulta na forma
58
CAPÍTULO 6. VALIDAÇÃO
1
Consulta Original
Consulta Expandida
Abrangencia
0.8
0.6
0.4
0.2
0
1
2
3
4
5
6
7
Consulta
8
9
10
11
12
13
Figura 6.2: Medida de abrangência nas consultas originais e expandidas
1
Consulta Original
Consulta Expandida
0.8
Medida-F
0.6
0.4
0.2
0
1
2
3
4
5
6
7
Consulta
8
9
10
11
12
13
Figura 6.3: Medida-F nas consultas originais e expandidas
expandida. Este comportamento pode ser observado na Figura 6.2, que representa a abrangência das consultas originais e expandidas feitas ao corpus.
Os resultados apresentados na Figura 6.1 e na Figura 6.2 mostram que
a precisão para a consulta expandida teve ligeira queda, em relação à consulta original, enquanto que as medidas de abrangência aumentaram. Isto
demonstra uma melhora na obtenção dos resultados pois, mesmo com uma
precisão um pouco mais baixa, a grande diferença da abrangência representa
que mais e melhores documentos foram encontrados. Para comprovar que
este aumento da abrangência compensa a diminuição da precisão, utilizamos a medida-F. A Figura 6.3 apresenta os valores obtidos para as consultas
efetuadas.
Observa-se, na Tabela 6.2, que o sistema de expansão de consulta obteve
uma melhora na abrangência de 109.71%, ao mesmo tempo que teve degra-
6.1. PROCESSO DE VALIDAÇÃO EM CORPUS ESTÁTICO
59
dada sua precisão em 16.02%. Estas medidas levaram a um ganho de 38%
na medida-F, para a consulta expandida, em relação à medida-F da consulta
original.
Tabela 6.2: Resultados parciais
Consulta
Original
Expandida
Média
Desvio Padrão
Média
Desvio Padrão
Precisão
0.4499
0.3405
0.3778
0.2382
Abrangência
0.2389
0.2508
0.5010
0.1728
Medida-F
0.3121
0.2462
0.4307
0.1650
Observamos na Tabela 6.2, com as médias das medidas obtidas, que o
método aparenta melhorar, de forma geral, a RI em corpus estático. Esta
conclusão é embasada na melhora da medida-F, normalmente utilizada como
um medida comum para avaliar sistemas de RI.
6.1.2 Denição dos parâmetros
A denição dos parâmetros da heurística (pesos das relações, valores de
λ e σ ) é uma tarefa que foi realizada de forma empírica através dos processos
que serão descritos nas seções 6.1.2.1. Uma especicação desses parâmetros
pode ser estudo futuro a esta dissertação. e 6.1.2.2.
6.1.2.1 Pesos para as relações da ISO 2788
Para validar a estrutura, assumimos que é possível quanticar a importância de um tipo de relação através dos pesos que forem estabelecidos para
ela. Em uma tentativa de quanticar a importância de cada tipo de relação,
na expansão de consulta, foram realizados alguns testes utilizando a consulta
Acidente de automóvel. Os pesos para as relações eram modicados automaticamente enquanto eram efetuadas consultas no sistema de RI. Foi gerada
uma tabela (uma porção da mesma pode ser visualizada na Tabela 6.3) com
as medidas de precisão e de abrangência para cada combinação de pesos.
Da análise dos dados gerados por este processo, identicamos as seguintes
tendências quanto aos pesos dos tipos de relações:
• Os pesos da relação ET devem ser sucientemente altos de modo que
possibilitem a utilização dos termos relacionados como se fossem os
termos originais da relação. O peso deste tipo de relação deve ser um
60
CAPÍTULO 6. VALIDAÇÃO
Tabela 6.3: Denição dos melhores pesos para os tipos de relações
Nro.
ET
NT
BT
RT
Abrangência
Precisão
142
143
144
145
146
147
148
149
150
378
384
390
0.90
0.90
0.90
0.90
0.90
0.90
0.90
0.90
0.90
0.90
0.90
0.90
0.90
0.90
0.90
0.90
0.90
0.90
0.90
0.90
0.90
0.60
0.60
0.60
0.90
0.90
0.90
0.80
0.80
0.80
0.70
0.70
0.70
0.60
0.40
0.20
0.30
0.20
0.10
0.30
0.20
0.10
0.30
0.20
0.10
0.10
0.10
0.10
0.5319
0.5319
0.5319
0.5319
0.5319
0.5319
0.5319
0.5319
0.5319
0.5319
0.5319
0.4894
0.4902
0.5102
0.6579
0.5102
0.5102
0.6579
0.5102
0.6410
0.6579
0.3788
0.4902
0.6053
valor próximo de 1. As análises apresentadas por Robin & Ramalho
em [ROB01] demonstram que relação de sinonímia sempre melhora a
resposta dos sistemas de RI, reforçando nossa denição de pesos altos
para estas relações.
• A relação NT é muito importante na expansão da consulta. A utilização de um peso alto para esta relação melhora a expansão da consulta.
Contudo, em nosso método não é aconselhável atribuir um valor próximo a 1 ao peso de NT, uma vez que a combinação com os pesos de
outros tipos de relações pode acarretar uma explosão na quantidade de
termos que serão analisados.
• A relação BT não deve ter um peso muito alto. Valor maior para as
relações BT demonstra um pequeno aumento na abrangência mas, ao
mesmo tempo, uma diminuição signicativa da precisão. Este comportamento pode ser observado nos testes 378, 384 e 390 da Tabela 6.3.
• A relação RT constitui uma relação semântica diferente da equivalência
e hierarquia, que deveria indicar termos importantes para a RI. Contudo, nossos testes sugerem que valores altos para o peso das relações
RT diminuem a taxa de precisão. Os testes 142 ao 150, na Tabela 6.3,
demonstram que enquanto o valor para RT aumenta, a taxa de precisão
é reduzida. Portanto, isto nos leva à conclusão de que o peso para esta
relação deve ser mantido baixo.
6.1. PROCESSO DE VALIDAÇÃO EM CORPUS ESTÁTICO
61
6.1.2.2 Valor λ
Em uma tentativa de vericar os melhores pesos para o limiar λ para
inserção dos termos na consulta expandida, foi efetuada a expansão gerada
pela consulta original viagem com a utilização dos quatro tesauros obtidos,
variado o valor de λ e efetuadas as consultas expandidas no sistema de RI.
A Tabela 6.4 mostra os resultados encontrados.
Tabela 6.4: Resultados obtidos com diferentes combinações do valor λ
λ
0.2000
0.2500
0.3750
0.5000
1.0000
Termos
52
50
15
04
01
Relevantes
108
108
104
103
064
Total
269
269
274
261
201
Observa-se na Tabela 6.4 que um limiar mais baixo aumenta a quantidade
de documentos e de documentos relevantes encontrados. Isto ocorre, pois a
consulta expandida gerada contém mais termos quando λ tiver um valor
baixo. Entretanto a melhor combinação para esta consulta, entre o número
de termos e a quantidade e qualidade dos documentos retornados, pode ser
vericada no valor do limiar λ equivalente a 0.5, isto é, entre os valores
denidos para os pesos das relações BT (0.3) e NT (0.6). Observa-se que, na
Tabela 6.4, quando o valor de λ equivale a 1.0, a situação é correspondente
a somente utilizar os termos originais da consulta.
6.1.2.3 Considerações sobre a denição de parâmetros
A decisão a respeito dos valores para os parâmetros da heurística de
expansão de consultas deve ser detalhadamente estudada. Os resultados
são bastante distintos para as diferentes combinações de pesos. Denir os
melhores parâmetros possíveis, se existirem, não fará parte do escopo desta
dissertação, devido à grande complexidade requerida para tanto. Acredita-se
que, para a realização deste trabalho futuro, devem ser utilizadas técnicas
estatísticas ou redes neuronais.
6.1.3 Utilização conjunta de tesauros
De maneira a comprovar que a utilização conjunta dos tesauros é mais
eciente que o uso de cada tesauro de forma separada, foram efetuados alguns
testes utilizando o método proposto, junto às diferentes combinações dos
tesauros obtidos.
62
CAPÍTULO 6. VALIDAÇÃO
A Tabela 6.5 apresenta a média dos resultados obtidos, quando combinados os diferentes tesauros para a expansão das 13 consultas marcadas em
corpus estático. Observa-se que os testes estão separados por linhas e as
colunas iniciais representam a utilização ou não de determinados tesauros.
√
A utilização de um tesauro está representada pelo sinal , enquanto a não
utilização do mesmo é representada pelo sinal ×. Observa-se, também, que
a primeira linha da Tabela 6.5 representa a consulta original, sem que seja
feita a expansão com o uso de tesauros.
Tabela 6.5: Resultados obtidos através de diferentes combinações de tesauros
VCBS
VCUSP
LDPUCRS
LTOCSS
×
√
√
√
√
×
×
√
√
√
√
√
√
×
×
×
√
√
×
×
×
×
√
×
√
√
√
√
×
×
√
×
×
×
×
×
×
√
×
√
√
√
×
×
×
×
√
×
×
√
×
√
×
×
√
×
×
√
√
×
√
√
√
√
Recall
0.2278
0.4038
0.4349
0.4349
0.4520
0.2348
0.2348
0.2348
0.2278
0.2278
0.2278
0.4167
0.2348
0.4295
0.4295
0.4520
Precisão
0.4558
0.4042
0.3838
0.3833
0.3434
0.4361
0.4361
0.4361
0.4558
0.4558
0.4558
0.4031
0.4361
0.3776
0.3771
0.3434
F-Measure
0.2708
0.3489
0.3650
0.3648
0.3614
0.2746
0.2746
0.2746
0.2708
0.2708
0.2708
0.3525
0.2746
0.3579
0.3577
0.3614
Pode ser vericado na Tabela 6.5 que o tesauro VCBS ofereceu a melhor
contribuição aos resultados. Quando este tesauro era utilizado, a abrangência aumentou em média 88.53%. A utilização do tesauro VCUSP não
demonstrou um grande aumento na abrangência, quando utilizado em separado dos demais tesauros. Isto se conclui pela pequena diferença de 0.7
pontos percentuais em relação à consulta original. Contudo, a combinação
dos tesauros VCUSP e VCBS obteve um aumento maior na medida de abrangência, quando comparadas as expansões de consultas com a utilização dos
tesauros em separado. Este aumento foi de 85.22%, em relação à expansão do
VCUSP em separado, e 7.70%, quando a expansão foi somente pelo VCBS.
Isto demonstra que a combinação do VCUSP com o tesauro VCBS acarretou
a inclusão de diversos novos termos na consulta expandida.
A LTOCSS não se apresenta importante quando utilizada em separado.
Contudo, quando utilizada em dupla com o VCBS, ou em trio junto ao
VCBS e ao VCUSP, faz com que sejam adicionados novos termos à consulta
expandida. O resultado retornado por esta consulta não obteve melhora
6.2. PROCESSO DE VALIDAÇÃO NA INTERNET
63
em relação à utilização da dupla VCBS e VCUSP. Contudo, o fato de terem
sido adicionados novos termos à consulta expandida demonstra que o tesauro
colaborou para o resultado. Observa-se que os resultados diferem quando da
utilização de diferentes combinações de tesauros.
A LDPUCRS raramente ofereceu termos para o resultado nal da consulta expandida. Os poucos termos oferecidos por LDPUCRS não aumentaram, signicativamente, a abrangência quando combinado ao VCBS, sendo
que diminuiu, levemente, a precisão quando combinado com os tesauros
VCBS e VCUSP. Acredita-se que seus termos e relações possam ser mais
bem aproveitados com uma diferente combinação de parâmetros.
6.2 Processo de validação na Internet
A Internet é, atualmente, o meio de comunicação onde temos o maior
número de documentos publicados. Diariamente, inúmeros documentos são
publicados, modicados e retirados de publicação, o que faz da Internet o
maior e mais dinâmico corpus de documentos existente. Como os portais
de busca na Internet são as ferramentas de RI mais utilizadas e conhecidas,
consideramos importante testar a expansão de consulta realizada pelo QET
neste meio.
Decidimos, para isto, utilizar o portal AltaVista Brasil4 pois este não
apresentou alguns problemas observados em outros portais como:
• Número muito grande de documentos clones. Isto é, os mesmos documentos aparecem mais de uma vez na mesma busca, por estarem em
URIs diferentes. Por exemplo, as seguintes URIs são diferentes, mas o
documento referenciado é o mesmo:
http://host.br/doc.html
http://www.host.br/doc.html
Este problema ocorre, por exemplo, no portal Radix5 .
• Incapacidade de gerenciar consultas booleanas.
ocorre no portal TodoBR6 .
Esta característica
• Incapacidade de gerenciar mais de 10 palavras por consulta. Esta característica ocorre no portal Google7 .
4 http://www.altavista.com.br
5 http://www.radix.com.br
6 http://www.todobr.com.br
7 http://www.google.com
64
CAPÍTULO 6. VALIDAÇÃO
Hoenkamp & Van Vugt, em [HOE01], analisam a inuência no comportamento e na satisfação do usuário ao conhecer a abrangência de uma busca
efetuada em um ambiente WWW. Neste estudo, Hoenkamp & Van Vugt
concluem que o conhecimento desta medida tem pouca inuência sobre a
satisfação do usuário, e que a principal característica que acarreta a sua satisfação é a precisão. Ainda se observa que obter uma correta abrangência
de uma consulta na Internet é virtualmente impossível, devido à alta taxa
de crescimento e modicação de documentos na rede.
Decidiu-se, para este estudo, utilizar os 50 primeiros documentos retornados por cada consulta, e decidiu-se denir, como abrangência deste conjunto
de documentos, o número de documentos relevantes retornados por uma consulta dividido pelo número total de documentos relevantes encontrados, nas
consultas original e expandida. Isto é, considere C1 como o conjunto de
documentos relevantes de uma consulta original, e C2 como o conjunto de
documentos relevantes da consulta expandida. Abrangência é então calculada como: C1 C∪n C2 .
Devido à dinamicidade do ambiente WWW, temos uma característica
interessante nos sistemas de RI que não pode ser ignorada. Devemos considerar como relevante um documento da Web, retornado por uma página de
busca, mesmo quando este não está mais publicado, ou teve seu conteúdo
modicado? Estamos considerando, para este problema, duas medidas de
relevância: documentos relevantes na RI (DRRI) e documentos relevantes
na WWW (DRWWW). A diferença básica é que a primeira medida (DRRI)
propõe-se a avaliar a eciência na ferramenta de RI utilizada pelo portal de
busca, enquanto que a última medida avalia a eciência da busca no âmbito de um corpus extremamente dinâmico. Em DRWWW consideram-se
não-relevantes os documentos inexistentes, indexados e retornados pela ferramenta de RI, mesmo que estes, na época de indexação, fossem relevantes
ao assunto pesquisado. Assim, este erro passa a ser um problema relativo à
taxa de atualização de conteúdo dos portais de busca.
Em nossos testes, foram realizadas 14 consultas, entre elas algumas das 13
consultas efetuadas no corpus estático. Para estas consultas, observamos que
houve uma degradação média, na abrangência da consulta, de 7.75% para a
medida DRRI (Figura 6.4) e de 7.08% para a medida DRWWW (Figura 6.5).
Detalhes das consultas encontram-se no Apêndice B desta dissertação.
Em nossa avaliação, observamos que a precisão do sistema teve uma perda
de até 32%, para a consulta 6, nas medidas em DRRI e em DRWWW. A
precisão obtida nas consultas na WWW é demonstrada na Figura 6.6 para
DRRI, e na Figura 6.7 para DRWWW.
Observamos que a abrangência e a precisão, em determinadas consultas,
não se comportam da mesma forma. Em casos onde temos um número de
6.2. PROCESSO DE VALIDAÇÃO NA INTERNET
65
1
Consulta Original
Consulta Expandida
Abrangencia
0.8
0.6
0.4
0.2
0
1
2
3
4
5
6
7
8
Consulta
9
10
11
12
13
14
Figura 6.4: Medida de abrangência para DRRI
1
Consulta Original
Consulta Expandida
Abrangencia
0.8
0.6
0.4
0.2
0
1
2
3
4
5
6
7
8
Consulta
9
10
11
12
13
14
Figura 6.5: Medida de abrangência para DRWWW
documentos pequenos no retorno da consulta original, e estes são em sua
grande maioria relevantes, temos uma abrangência pequena e uma precisão
alta. Através da medida-F obtemos um valor que assumimos como padrão
para mensurar a qualidade e a melhora efetiva do método para cada consulta.
Nas Figuras 6.8 e 6.9 podemos vericar que é normal a consulta expandida
gerar resultados piores, tanto para DRRI quanto para DRWWW.
A Tabela 6.6 mostra que, em média, a consulta original obtém melhores
resultados, tanto nas medidas de abrangência, quanto em precisão. Isto
demonstra que a estrutura utilizada, combinada com o método de expansão
de consultas desenvolvido, degrada os resultados nos primeiros documentos
retornados quando aplicada na busca na WWW. Observa-se que os resultados
para DRRI e DRWWW são diferentes, e são obtidos melhores valores para
DRRI. Contudo, acredita-se que isto ocorra devido ao grande número de
66
CAPÍTULO 6. VALIDAÇÃO
1
Consulta Original
Consulta Expandida
0.8
Precisao
0.6
0.4
0.2
0
1
2
3
4
5
6
7
8
Consulta
9
10
11
12
13
14
Figura 6.6: Medida de precisão para DRRI
1
Consulta Original
Consulta Expandida
0.8
Precisao
0.6
0.4
0.2
0
1
2
3
4
5
6
7
8
Consulta
9
10
11
12
13
14
Figura 6.7: Medida de precisão para DRWWW
Tabela 6.6: Resultados na WWW
DRRI
Normal
Expandida
DRWWW
Normal
Expandida
Precisão
0.8677
0.7387 (-14.87%)
Precisão
0.7770
0.6600 (-15.06%)
Abrangência
0.5836
0.5384 (-7.75%)
Abrangência
0.5181
0.4814 (-7.08%)
Medida-F
0.6978
0.6228 (-10.75%)
Medida-F
0.6216
0.5567 (-10.45%)
portais WWW que são acessados quando é efetuada uma busca expandida.
Estes portais WWW têm seu conteúdo muito freqüentemente atualizado, o
que normalmente degrada a qualidade das buscas na WWW.
6.2. PROCESSO DE VALIDAÇÃO NA INTERNET
67
1
Consulta Original
Consulta Expandida
0.8
Medida-F
0.6
0.4
0.2
0
1
2
3
4
5
6
7
8
Consulta
9
10
11
12
13
14
Figura 6.8: Medida-F para DRRI
1
Consulta Original
Consulta Expandida
0.8
Medida-F
0.6
0.4
0.2
0
1
2
3
4
5
6
7
8
Consulta
9
10
11
12
13
14
Figura 6.9: Medida-F para DRWWW
Apesar dos resultados terem sido desfavoráveis, para os primeiros 50 documentos retornados na WWW, obtém-se em média 12455 documentos a
mais para a consulta expandida. Assumindo uma precisão constante para a
consulta, é possível estimar uma abrangência total da pesquisa. Estimamos
a abrangência total do seguinte modo:
• Considere P como a precisão dos n primeiros documentos obtidos, T
como o número total de documentos recuperados. Desta forma é calculado RR representando o número estimado de documentos relevantes,
para uma precisão contínua:
RR = P × T
• Considere A como a abrangência calculada para os n primeiros do-
68
CAPÍTULO 6. VALIDAÇÃO
cumentos recuperados. Assim, podemos calcular T R representando o
número estimado de documentos relevantes existentes:
TR =
RR
A
• Considere T Re como o total estimado de documentos relevantes para
a consulta expandida. Este valor será considerado o total estimado de
documentos relevantes, pois o conjunto de documentos relevantes da
consulta original está contido no conjunto de documentos relevantes da
consulta expandida. O valor AE representa a abrangência estimada de
uma consulta:
RR
AE =
T Re
Tendo estimado um valor de abrangência para as consultas na forma
original e na forma expandida, podemos utilizar a precisão conhecida dos
primeiros n documentos, para o cálculo da medida-F.
Para a consulta expandida estimamos uma abrangência média de 53.84%
enquanto que para a consulta original esta passa a ser 25.77%. Da mesma
forma a Medida-F estimada passa a ser 31.90% para a consulta original e
61.14% para a consulta expandida.
6.3 Resultados obtidos: uma apreciação
O método de expansão de consultas apresentou-se útil na recuperação de
informações em corpus estático. A utilização da Internet em nossos testes,
demonstrou que o método degrada a performance da RI para um conjunto de
50 documentos iniciais recuperados. Contudo, observou-se 73.85% a mais de
documentos retornados nas consultas expandidas, o que leva a uma abrangência 108.90% maior para a consulta expandida.
Segundo Voorhees, em [VOO98], é muito mais danoso para a um sistema
de RI perder um bom resultado do que fazer alguns poucos `chutes' falsos.
Desta forma, o grande aumento obtido na medida de abrangência faz com
que tenhamos uma melhora na RI através da expansão de consultas.
Assim, acreditamos que o método de expansão de consultas deva ser adicionado às funcionalidades de uma ferramenta de busca em sites WWW, como
método opcional. Quando, as ferramentas não disponibilizarem sucientes
documentos aos usuários, poderia ser sugerida a utilização de expansão de
consultas para disponibilizar mais documentos.
Observamos que os resultados obtidos pelo teste em corpus estático foram
similares aos resultados dos testes realizados na Internet, ao estimarmos o
6.4. CONSIDERAÇÕES SOBRE O CAPÍTULO
69
valor da abrangência. A queda na precisão da RI pela consulta expandida
foi de aproximadamente 15%, enquanto que o ganho obtido na abrangência
foi de aproximadamente 109%, isto tanto para os testes em corpus estático,
quanto para os testes na WWW.
6.4 Considerações sobre o capítulo
Durante o processo de testes, foi possível vericar que a utilização conjunta dos tesauros gera melhores resultados que a utilização destes de forma
separada. Contudo, quanticar precisamente a importância de cada um destes tesauros na expansão de consultas é uma tarefa que deve ainda ser mais
trabalhada.
Outra tarefa a ser elaborada, identicada no processo de validação, é um
estudo dos melhores parâmetros para o método de expansão apresentado.
Devido à grande quantidade de combinações possíveis, se torna necessária a
elaboração de técnicas estatísticas que comprovem a ecácia dos valores para
cada parâmetro.
Neste capítulo demonstramos a validação da estrutura multitesauro apresentada no capítulo 4, através do método de expansão de consultas detalhado
no capítulo 5. No capítulo seguinte serão descritos alguns trabalhos correlatos ao trabalho desenvolvido, com o objetivo de trazer ao leitor uma visão de
contorno, no que se refere às experiências na área de expansão de consultas
e uso de estruturas multitesauro.
70
CAPÍTULO 6. VALIDAÇÃO
Capítulo 7
Trabalhos correlatos
Os capítulos anteriores mostraram que uma estrutura tesaural padrão
possibilita o uso de múltiplos tesauros de maneira conjunta. A utilização
da combinação de tesauros foi validada ao ser aplicada em tarefas de RI.
No capítulo anterior apresentamos a validação desta estrutura tesaural, e
a avaliação da técnica de expansão de consultas desenvolvida. No presente
capítulo apresentaremos alguns trabalhos que demonstram preocupações da
mesma natureza dos estudos realizados nesta dissertação.
7.1 O trabalho de Sintichakis & Constantopoulos
O trabalho de Sintichakis & Constantopoulos, descrito em [SIN97], apresenta um método para juntar diversos tesauros monolíngües em um único
tesauro que englobe todas as características individuais destes.
O processo de junção de tesauros é realizado em cinco etapas:
• Pré-integração. Nesta etapa, os autores buscam representar os diferentes tesauros em um mesmo modelo de dados.
• Análise. Este etapa tem como objetivo a detecção de termos equivalentes nos diferentes tesauros. No trabalho de Sintichakis & Constantopoulos foi dada uma signicativa importância a esta etapa.
• Conformação. Etapa de detecção e correção de conitos onde a estruturação e as relações entre termos dicultem a junção dos tesauros.
• Integração. Junção dos tesauros em um único repositório.
71
72
CAPÍTULO 7. TRABALHOS CORRELATOS
• Reestruturação. Nesta etapa o tesauro deve ser analisado e, se necessário, reestruturado de forma a representar todos os conceitos de forma
mínima e otimizada.
Sintichakis & Constantopoulos ressaltam a importância da junção de tesauros para a utilização de múltiplos tesauros em um sistema de RI. Em
nosso trabalho, demonstramos que a utilização conjunta de tesauros é mais
efetiva na RI que a utilização dos tesauros em separado, e propomos esta
utilização conjunta sem a necessidade de junção em um único arquivo ou
base de dados.
Em nosso trabalho efetuamos a junção dos tesauros através da etapa de
pré-integração proposta em [SIN97], onde os diferentes tesauros são representados através de uma estrutura padrão em XML. As etapas consequëntes
à pré-integração são realizadas, ou parcialmente realizadas, através de uma
ferramenta de expansão de consulta descrita na seção 5.4.
7.2 O trabalho de Mandala et al.
O trabalho de Mandala et al., em [MAN99], propõe um método para
enriquecer a WordNet com o tesauro de Roget e com dois tesauros construídos
de forma automática.
Os autores propõem uma expansão de consulta utilizando um cálculo
diferenciado de similaridade entre os termos para cada tesauro. É proposto
um cálculo de similaridade entre a consulta e os termos dos tesauros, de modo
que sejam calculados valores que representam pesos para os termos referentes
a toda a consulta e tesauros utilizados.
Mandala et al. demonstraram que a expansão de consultas realizada com
a combinação dos tesauros obteve melhores resultados do que a expansão de
consulta realizada com cada tesauro em separado. A Tabela 7.1 demonstra os
resultados obtidos pelos autores, para a utilização dos tesauros em separado,
e com a utilização de todos os tesauros em conjunto.
Na técnica utilizada em [MAN99] a precisão da consulta, com a utilização
conjunta de tesauros, obteve um ganho de 37.8%, em média, em relação à
consulta original. O ganho obtido pela técnica de expansão de consultas foi
menor, quando utilizado sobre os tesauros em separado. Os autores armam
que o método desenvolvido pelos mesmos não tem grande perda de desempenho com o problema da polissemia, pois a técnica de atribuir pesos aos
termos irá reduzir este problema.
Outro trabalho dos mesmos autores, [MAN99a], apresenta a utilização
conjunta de três tesauros sendo dois destes já apresentados em [MAN99]
7.3. O TRABALHO DE ROBIN & RAMALHO
73
Tabela 7.1: Média da precisão obtida para a expansão de consultas
em [MAN99].
Original
0.1976
Sintático
0.2131
(+7.8%)
WordNet
0.2010
(+1.7%)
Co-ocorência
0.2191
(+10.8%)
Roget
0.1999
(+1.2%)
Todos os Tesauros
0.2724
(+37.8%)
(WordNet e Co-occurrence based thesaurus ). No trabalho os autores concluem que a utilização conjunta de tesauros apresenta melhores resultados
que a utilização dos mesmos tesauros em separado.
O método de expansão de consultas apresentado em [MAN99] e [MAN99a]
utiliza-se de diferentes tesauros ao mesmo tempo. Contudo, estes tesauros
não são utilizados como um único multitesauro. Nosso trabalho apresenta
uma estrutura tesaural e um método de expansão que utiliza diferentes tesauros de forma única. Isto é, sem distinção de técnicas de expansão para
diferentes tesauros, utilizando de forma unicada os termos e relações presentes nos tesauros.
7.3 O trabalho de Robin & Ramalho
Robin & Ramalho, em [ROB01], descrevem a realização de expansão de
consultas utilizando as relações de sinonímia e hiperonímia existentes na
WordNet. As consultas expandidas são utilizadas por uma ferramenta de
busca sobre o conjunto de documentos de teste TIPSTER. O TIPSTER é
uma coleção de documentos contendo aproximadamente 2 Gigabytes de dados, sendo que seus documentos estão marcados por relevância, e é oferecido
também um conjunto de 50 consultas de teste.
Para cada termo na consulta original foram buscados os seus sinônimos
e hiperônimos mais comuns, e estes foram adicionados na consulta expandida. Os resultados obtidos demonstraram que a técnica aplicada era ecaz
e melhorava a recuperação de informações.
Este esforço relaciona-se com o presente trabalho, pois possibilitou avaliar, de certo modo, a utilidade da WordNet na RI. Como nossa estrutura
multitesauro necessita uma validação quanto a sua usabilidade na RI, optamos por uma abordagem semelhante à de Robin & Ramalho, utilizando um
método de expansão de consulta, uma ferramenta de busca e um corpus de
74
CAPÍTULO 7. TRABALHOS CORRELATOS
documentos de assuntos diversos.
O método utilizado na validação da estrutura foi melhor descrito nos
capítulos 5 e 6 desta dissertação.
7.4 O trabalho de Alani et al.
O trabalho de Alani et al., em [ALA00], salienta a diculdade e importância da utilização das relações associativas na RI e na expansão de consultas.
A semântica de uma relação entre termos de um tesauro pode ser muito vaga,
o que acarretaria uma perda de performance em um sistema de RI caso esta
relação fosse utilizada.
Em [ALA00] é proposta uma técnica para medir a distância semântica
entre dois termos, como forma de denir a importância de determinados
termos e relações. No trabalho de Alani et al. é exemplicado o uso das
relações RT, da ISO 2788, na expansão de consulta, auxiliado pelas relações
hierárquicas e medidas de distância entre conceitos semânticos.
Aqueles autores deniram pesos diferentes para os diferentes tipos de relações semânticas do tesauro. Por exemplo, dois termos relacionados por
uma relação NT são mais próximos semânticamente do que dois termos relacionados por uma relação RT. Desta forma, em uma expansão de consulta
é possível desconsiderar termos que sejam diretamente relacionados com termos da consulta original, mas que não fazem parte do assunto ou contexto
desta consulta.
O trabalho de Alani et al. tem diversas características que o aproximam
de nosso trabalho. O principal ponto em comum é a utilização de diferentes
pesos para diferentes tipos de relações. Contudo em nosso trabalho, como
o valor calculado é de importância, ou semelhança, quanto mais próximo de
zero, menos este termo é importante. Em [ALA00] é calculado um valor
de distância semântica, portanto quanto mais longe de zero, mais distante
semanticamente um termo está dos termos da consulta original.
7.5 Considerações sobre o capítulo
Neste capítulo apresentamos alguns trabalhos correlatos, sendo que estes
têm características distintas e complementares a nosso trabalho.
O trabalho de Sintichakis & Constantopoulos em [SIN97] apresenta um
método para a junção de diferentes tesauros, enquanto o trabalho de Mandala
et al., em [MAN99], demonstra que a utilização combinada de diferentes
tesauros melhora a RI.
7.5. CONSIDERAÇÕES SOBRE O CAPÍTULO
75
Robin & Ramalho, em [ROB01], realizam a expansão de consulta utilizando diferentes tipos de relações presentes na WordNet. Alani et al.,
em [ALA00], apresentam uma maneira de medir a distância semântica entre termos em um tesauro, através da atribuição de pesos diferentes para os
diversos tipos de relações existentes.
A seguir passamos às considerações nais desta dissertação.
76
CAPÍTULO 7. TRABALHOS CORRELATOS
Capítulo 8
Conclusão
Nesta dissertação apresentamos a proposta de uma estrutura tesaural
que engloba diferentes características de diferentes tesauros. A estrutura
mostrou-se útil à recuperação de informações, quando utilizada em conjunto
com uma técnica de expansão de consultas. O método de expansão de consultas realiza a validação da estrutura na RI. Este método utiliza as diferentes
relações semânticas denidas na estrutura, atribuindo-lhes diferentes pesos.
No capítulo 6 é apresentada uma validação (e avaliação) da técnica de expansão de consultas e da utilização conjunta dos tesauros.
Para a denição da estrutura proposta, estudamos diferentes formatos
para padronização de tesauros monolíngües como a norma NISO Z39.19,
ISO 2788 e o METM. Estudamos também trabalhos que utilizaram estas
normas ao denir padrões de arquivos de tesauros, oferecendo um meio de
acesso às informações neles existentes.
Em nosso trabalho focamos o desenvolvimento de uma estrutura tesaural
que tivesse as seguintes características: ser útil a processos automáticos de
recuperação de informação; e poder representar diferentes tesauros.
Como base para a estrutura multitesauro proposta, utilizamos quatro tesauros construídos manualmente e um tesauro construído automaticamente.
Uma característica dos tesauros manuais trabalhados é sua fácil transposição para uma estrutura baseada na ISO 2788, enquanto que o tesauro gerado
automaticamente necessitou a criação de uma nova relação semântica na estrutura, com a utilização de um valor de similaridade agregado.
Vericamos que a capacidade de representar diferentes tesauros possibilitou a união destes e, assim, possibilitou desenvolver uma técnica de RI que
utiliza o multitesauro unicado. A validade desta unicação foi apresentada na seção 6.1.3, e demonstrou que a utilização de diferentes tesauros, ao
mesmo tempo, na RI é uma abordagem válida.
No capítulo 6 apresentamos uma validação do trabalho com a utilização
77
78
CAPÍTULO 8. CONCLUSÃO
da expansão de consulta, e sua avaliação sob diferentes aspectos. Os resultados obtidos indicam que a técnica de expansão de consultas desenvolvida
é adequada para a utilização em corpus estático e sob restrições na Internet.
Contudo, devido às innitas combinações de parâmetros que a técnica de expansão de consulta permite, acredita-se que melhores resultados podem ser
obtidos.
Acredita-se que, para a denição dos melhores parâmetros para a técnica
de expansão de consultas, seja necessária a utilização de modelos estatísticos
mais complexos. Por parâmetros da expansão de consultas entendem-se desde
os valores para os tipos de relações, valores de λ e σ , até o modo como calcular
δ (pelo incremento dos β sem normalização, com normalização linear, com
normalização não-linear, ou mesmo pela média dos β ).
Neste trabalho apresentamos a estruturação tesaural como um tópico importante para a recuperação de informações. Validamos a estrutura proposta
como a utilização de uma heurística de expansão de consultas que tem como
principais características o uso de diferentes relações semânticas com valores
de importâncias diferentes associados e a utilização de termos relacionados
indiretamente com os termos originais da consulta.
8.1 Trabalhos Futuros
Diversas tarefas são visualizadas que podem, e devem, ser desenvolvidas
como continuidade a este trabalho.
Acredita-se ser possível avaliar a qualidade das relações provenientes de
LTOCSS através da utilização deste em RI. Este tesauro tem, como principal
característica, valores associados às relações semânticas nele denidas. Conforme estas relações colaboram na RI, podemos assumi-las como melhores
ou piores.
O valor agregado às relações de LTOCSS também está presente em outras
técnicas de construção de tesauros automáticos, como a técnica descrita por
Mandala et al. em [MAN99] e [MAN99a], onde são descobertas relações entre
palavras devido à co-ocorrência destas em documentos de um corpus.
A utilização destes outros tipos de tesauro gerados a partir de corpora, e
sua inclusão na estrutura multitesauro, já estão em desenvolvimento, contudo
uma avaliação dos ganhos obtidos com seu uso ca entendida como trabalho
futuro a esta dissertação.
De forma a facilitar a geração de estatísticas, para melhor avaliar a utilização das técnicas de expansão de consultas descritas neste trabalho, pretendese adicionar à ferramenta QET a funcionalidade da indexação e recuperação
de documentos. Desta forma, serão facilitados os testes sobre as melhores
8.2. CONSIDERAÇÕES FINAIS
79
combinações de pesos para as relações para diversas consultas, e sobre a
evolução da precisão, para todos as consultas efetuadas. Através do desenvolvimento de um sistema de RI junto ao QET, poderão ser testadas novas
métricas e modos de calcular os valores δ nais da heurística aplicada.
Com o desenvolvimento de indexação e busca junto ao QET, será possível efetuar a ranqueamento dos documentos consultados, utilizando os valores δ associados aos termos. Os resultados a serem obtidos desta forma
devem apresentar uma precisão decrescente para os primeiros n documentos recuperados, à medida que o valor n aumenta. Assim, deverão existir
mais documentos relevantes para os primeiros documentos retornados pelo
sistema.
Fica como trabalho futuro a esta dissertação uma análise de complexidade
do algoritmo proposto em 5.2. Assim poderá ser visualizado o desempenho do
algoritmo frente à quantidade de termos existentes no tesauro e nas consultas.
Também através de uma análise deste algoritmo será possível estudar possíveis otimizações que venham a facilitar o seu uso em ferramentas de busca
WWW, onde o desempenho é um tópico de muita importância. Acredita-se
que uma possível otimização possa ser feita através de um cálculo oine de
valores para as consultas muito freqüentes.
Outras análises sobre o algoritmo e sobre os tesauros podem ainda ser
realizadas, como, por exemplo:
• A quantidade média de termos que são pesquisados quando é efetuado
o caminhamento da expansão de consultas;
• A porcentagem de um tesauro que é utilizada em uma consulta padrão;
• Os motivos que fazem com que alguns tesauros sejam melhor aproveitados.
8.2 Considerações Finais
Durante o desenvolvimento desta dissertação publicamos três trabalhos
em evento cientícos, sendo eles:
PIZZATO, Luiz Augusto Sangoi; STRUBE DE LIMA, Vera Lúcia. Desenvolvimento e Avaliação de uma Estrutura Multitesauro para a Recuperação de Informações. In: XXVIII Conferencia Latinoamericana
de Informática (CLEI 2002). Proceedings... . Montevideo, Uruguay.
25-29 Novembro 2002.
80
CAPÍTULO 8. CONCLUSÃO
PIZZATO, Luiz Augusto Sangoi; STRUBE DE LIMA, Vera Lúcia. Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações. In: XVI Brazilian Symposium on Articial
Intelligence (SBIA'02), I Workshop de Teses e Dissertações em Inteligência Articial (WTDIA). Proceedings... . Porto de Galinhas, PE,
Brazil. 11-14 Novembro 2002.
PIZZATO, Luiz Augusto Sangoi; STRUBE DE LIMA, Vera Lúcia. Estrutura Multitesauro para Recuperação de Informações. In: XIII Simpósio
Brasileiro em Informática na Educação (SBIE'02), Workshop de Ontologias (WONTO). Proceedings... . São Leopoldo, RS, Brazil. 12-14
Novembro 2002.
Nestes trabalhos, a relação SY, proveniente de LTOCSS, ainda não era
explícita, e estava associada à relação RT com um valor agregado. Também
a relação ET estava dividida entre relações USE e UF. A antiga estrutura
apresentada nas publicações acima citadas é representada através da seguinte
DTD/XML:
<!ELEMENT
<!ELEMENT
<!ELEMENT
<!ELEMENT
<!ELEMENT
<!ELEMENT
<!ELEMENT
THESAURUS (TERM+)>
TERM (TERM*,USE*,UF*,BT*,NT*,RT*)>
USE (EMPTY)>
UF (EMPTY)>
BT (EMPTY)>
NT (EMPTY)>
RT (EMPTY)>
<!ATTLIST
<!ATTLIST
<!ATTLIST
<!ATTLIST
<!ATTLIST
<!ATTLIST
TERM
USE
UF
BT
NT
RT
term
term
term
term
term
term
value
CDATA
CDATA
CDATA
CDATA
CDATA
CDATA
CDATA
#REQUIRED>
#REQUIRED>
#REQUIRED>
#REQUIRED>
#REQUIRED>
#REQUIRED
"1">
Referências Bibliográcas
[AIT00]
AITCHISON, Jean; GILCHRIST, Alan; BAWDEN, David. Thesaurus construction and use: a practical manual. Chicago:
Fitzroy Dearborn, 2000.
[ALA00]
ALANI, Harith; JONES, Christopher; TUDHOPE, Douglas. Associative and spatial relationships in thesaurus-based retrieval.
In: FOURTH EUROPEAN CONFERENCE ON RESEARCH
AND ADVANCED TECHNOLOGY FOR DIGITAL LIBRARIES (ECDL2000), 2000, Berlin, German. Anais. . . SpringerVerlag, 2000. p.4558.
[AMA99]
AMANN, B.; FUNDULAKI, I. Integrating ontologies and thesauri to build RDF schemas. In: RESEARCH AND ADVANCED TECHNOLOGIES FOR DIGITAL LIBRARIES, LECTURE NOTES IN COMPUTER SCIENCE. THIRD EUROPEAN CONFERENCE ECDL'99, 1999, Paris, France. Anais. . .
Springer-Verlag, 1999. p.234253.
[BAE99]
BAEZA-YATES, Ricardo; RIBEIRO-NETO, Berthier. Modern
information retrieval. New York: ACM-Press, 1999.
[BEC01]
BECHHOFER, Sean; GOBLE, Carole. Thesaurus construction
through knowledge representation. Data & Knowledge Engineering, v.37, n.1, p.2545, Abril 2001.
[BRA98]
BRAY, Tim; PAOLI, Jean; SPERBERG-MCQUEEN, C. M.;
MALER, Eve. Extensible markup language (XML)
1.0 (W3C recommendation). Disponível por WWW em
http://www.w3.org/TR/REC-xml (1998). (Capturado em: 20
Junho 2001).
[CAR01]
CARPINETO, Claudio; MORI, Renato de; ROMANO, Giovanni;
BIGI, Brigitte. An information-theoretic approach to automatic
81
82
REFERÊNCIAS BIBLIOGRÁFICAS
query expansion. ACM Transactions on Information Systems (TOIS), v.19, n.1, p.127, 2001.
[CER01]
CERES/NBII thesaurus partnership project. Disponível por
WWW em http://ceres.ca.gov/thesaurus/ (2001). (Capturado
em: 25 Outubro 2001).
[COL96]
COLE, Richard; EKLUND, Peter W. Applications of formal
concept analysis to information retrieval using an hierarchically
structured thesaurus. In: EKLUND, P. W.; ELLIS, G.; MANN,
G. (Eds.). Conceptual structures: knowledge representation as
interlingua. Lecture Notes in AI. Berlin: Springer-Verlag, 1996.
[CRO01]
CROSS, Phil; BRICKLEY, Dan; TRAUGOTT, Koch. RDF
thesaurus specication (draft). Disponível por WWW em
http://www.ilrt.bris.ac.uk/discovery/2001/01/rdf-thes/ (2001).
(Capturado em: 25 Outubro 2001).
[FER99]
FERREIRA, Aurélio Buarque. Aurélio século XXI: o dicionário da língua portuguesa. Rio de Janeiro: Nova Fronteira, 1999.
p.2128.
[GAS01]
GASPERIN, Caroline V.; LIMA, Vera L. Strube de. Aplicação
de uma técnica baseada em sintaxe para a extração de relações
semânticas entre palavras a partir de corpora. In: ENCONTRO
NACIONAL DE INTELIGÊNCIA ARTIFICIAL - ENIA, 2001,
Fortaleza. Anais. . . 2001.
[GAS01a] GASPERIN, Caroline Varaschin. Extração automática de relações semânticas a partir de relações sintáticas. PósGraduação em Ciência da Computação, Faculdade de Informática, Pontifícia Universidade Católica do Rio Grande do Sul. 2001.
Dissertação de Mestrado.
[GOM90] GOMES, Hagar Espanha. Manual de elaboração de tesauros
monolíngües. Brasília: O Programa, 1990. p.78.
[GON01]
GONZALEZ, Marco A. I.; LIMA, Vera L. S. de. Recuperação
de informação e expansão automática de consulta com thesaurus:
uma avaliação. In: XXVII CONFERENCIA LATINO AMERICANA DE INFORMÁTICA (CLEI'2001), 2001, Ciudad de Mérida, Venezuela. Anais. . . 2001.
REFERÊNCIAS BIBLIOGRÁFICAS
83
[GON01a] GONZALEZ, Marco A. I. Thesauri. 2001. (Trabalho Individual
III, Pós-Graduação em Ciência da Computação, Faculdade de
Informática, Pontifícia Universidade Católica do Rio Grande do
Sul).
[GRE94]
GREFENSTETTE, Gregory. Explorations in automatic thesaurus discovery. EUA: Kluwer Academic Publishers, 1994.
[HAN98]
HAN, J. J.; CHOI, J.H.; PARK, J.J.; YANG, J.D. An objectbased information retrieval model: toward the structural construction of thesauri. In: IEEE FORUM ON RESEARCH AND
TECHNOLOGY ADVANCES IN DIGITAL LIBRARIES. IEEE
ADL'98, 1998, Santa Barbara, CA, USA. Anais. . . IEEE Computer Society, 1998. p.117125.
[HOE01]
HOENKAMP, Eduard; VUGT, Henriette Van. The inuence
of recall feedback in information retrieval on user satisfaction
and user behavior. In: 23rd ANNUAL CONFERENCE OF
THE COGNITIVE SCIENCE SOCIETY, 2001. Anais. . . 2001.
p.423428.
[IMA99]
IMAI, Hisao; COLLIER, Nigel; TSUJII, Jun'ichi. A combined
query expansion approach for information retrieval. In: GENOME INFORMATICS, 1999. Anais. . . Universal Academic
Press Inc., 1999. p.292293.
[ISO85]
International Organization for Standardization. ISO 5964: guidelines for the establishment and development of multilingual thesauri. Geneva: ISO, 1985.
[ISO86]
International Organization for Standardization. ISO 2788: guidelines for the establishment and development of monolingual
thesauri. Geneva: ISO, 1986.
[JIN94]
JING, Yufeng; CROFT, W. Bruce. An association thesaurus for
information retrieval. In: INTELLIGENT MULTIMEDIA INFORMATION RETRIEVAL SYSTEMS AND MANAGEMENT,
RIAO'94, 1994, New York, NY. Anais. . . 1994. p.146160.
[JUR00]
JURAFSKY, Daniel; MARTIN, James H. Speech and language processing: an introduction to natural language processing, computational linguistics, and speech recognition. Upper
Saddle River, NJ: Prentice-Hall, 2000. p.934. (Prentice-Hall Series in Articial Intelligence).
84
REFERÊNCIAS BIBLIOGRÁFICAS
[KIM90]
KIMOTO, Haruo; IWADERA, Toshiaki. Construction of a dynamic thesaurus and its use for associated information retrieval. In: SIGIR'90, 13th INTERNATIONAL CONFERENCE ON
RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL, BRUSSELS, BELGIUM, 5-7 SEPTEMBER 1990,
1990. Anais. . . ACM-Press, 1990. p.227240.
[LEE99]
LEE, Maria; BAILLIE, Stewart; DELL'ORO, Jon. TML: a thesaural markup language. In: FOURTH AUSTRALASIAN DOCUMENT COMPUTING SYMPOSIUM, 1999, Cos Harbour,
NSW, Australia. Anais. . . 1999. p.1522.
[LEW96]
LEWIS, David D.; SPARCK-JONES, Karen. Natural language
processing for information retrieval. Communications of the
ACM, v.39, n.1, p.92101, 1996.
[MAN99]
MANDALA, Rila; TOKUNAGA, Takenobu; TANAKA, Hozumi.
Complementing WordNet with Roget's and corpus-based thesauri
for information retrieval. In: 9th CONFERENCE OF THE EUROPEAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS (EACL'99), 1999. Anais. . . 1999.
p.94101.
[MAN99a] MANDALA, Rila; TOKUNAGA, Takenobu; TANAKA, Hozumi.
Combining multiple evidence from dierent types of thesaurus
for query expansion. In: 22nd ANNUAL INTERNATIONAL
ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL, 1999. Anais. . .
ACM Press, 1999. p.191197.
[MAN00]
MANDALA, Rila; TOKUNAGA, Takenobu; TANAKA, Hozumi.
Query expansion using heterogeneous thesauri. Information
Processing and Management, v.36, n.3, p.361378, 2000.
[MIL97]
MILLER, Uri. Thesaurus construction: problems and their roots.
Information Processing & Management, v.33, n.4, p.481
493, Julho 1997.
[NIS93]
National
Information Standards Organization,
NISO:.
ANSI/NISO Z39.19: guidelines for the construction, format and management of monolingual thesauri. Bethesda, MD,
USA: NISO Press, 1993. p.69.
REFERÊNCIAS BIBLIOGRÁFICAS
85
[ROB01]
ROBIN, Jacques; RAMALHO, Franklin. Empirically evaluating
WordNet-based query expansion in a web search engine setting.
In: IR'2001, 2001, Oulu, Finland. Anais. . . 2001.
[ROG58]
ROGET, Peter M.; ROGET, John L.; ROGET, Samuel R. Thesaurus of English words and phrases. London: Longmans,
Green and Co., 1958.
[SAN50]
SANTOS AZEVEDO, Francisco F. dos. Dicionário analógico
da língua portuguesa (idéias ans). São Paulo: Cia. Ed.
Nacional, 1950.
[SEN01]
SENADO FEDERAL: Subsecretaria de Biblioteca. THES:
thesaurus do senado federal. Disponível por WWW em
http://webthes.senado.gov.br/thes/default-thes.htm
(2001).
(Capturado em: 7 Novembro 2001).
[SEN01a] SENADO FEDERAL: Subsecretaria de Biblioteca. VCBS:
vocabulário controlado básico. Disponível por WWW em
http://webthes.senado.gov.br/thes/default-vcbs.htm
(2001).
(Capturado em: 7 Novembro 2001).
[SIB01]
SIBi/USP. Vocabulário controlado USP: base de dados de descritores em língua portuguesa para indexação e recuperação da
informação. 2001. (Publicado em CD-ROM).
[SIN97]
SINTICHAKIS, Marios; CONSTANTOPOULOS, Panos. A
method for monolingual thesauri merging. In: 20th INTERNATIONAL CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL, 1997. Anais. . . 1997.
p.129138.
[SOE98]
SOERGEL, Dagobert. Thesaurus design and development. 1998.
[SPI52]
SPITZER, Carlos. Dicionário analógico. Porto Alegre: Globo,
1952.
[STR98]
STRZALKOWSKI, Tomek; CARBALLO, Jose Perez; TAPANAINEN, Pasi; JARVINEN, Timo; KARLGREN, Jussi;
HULTH, Anette. Natural language information retrieval: TREC7 report. In: TEXT RETRIEVAL CONFERENCE, 1998.
Anais. . . 1998. p.164173.
86
REFERÊNCIAS BIBLIOGRÁFICAS
[STR99]
STRZALKOWSKI, Tomek; CARBALLO, Jose Perez; TAPANAINEN, Pasi; JARVINEN, Timo; KARLGREN, Jussi;
HULTH, Anette. Natural language information retrieval: TREC8 report. In: TEXT RETRIEVAL CONFERENCE, 1999.
Anais. . . 1999. p.275285.
[TAY00]
TAYLOR, Mike. Zthes: a Z39.50 prole for thesaurus navigation.
Disponível por WWW em http://www.loc.gov/z3950/agency/proles/zthes-04.html"(Novembro 2000). (Capturado em: 10 Outubro 2001).
[TUD01]
TUDHOPE, Douglas; ALANI, Harith; JONES, Christopher.
Augmenting thesaurus relationships: possibilities for retrieval. Journal of Digital Information, v.1, n.8, p.120, Fevereiro 2001.
[VOO98]
VOORHEES, Ellen M. Using WordNet for text retrieval. In:
FELLBAUM, C. (Ed.). WordNet: an electronic lexical database. Cambridge, Massachusetts: The MIT Press, 1998.
[VOO99]
VOORHEES, Ellen M. Natural language processing and information retrieval. In: PAZIENZA, M.T. (Ed.). Information extraction: towards scalable, adaptable systems. New York: Springer,
1999. p.3248.
[WIL92]
WILL, Leonard. Thesaurus principles and practice. In:
WORKSHOP OF THESAURI FOR MUSEUM DOCUMENTATION, 1992, Science Museum, London. Anais. . . 1992.
Apêndice A
Resultados das consultas em
corpus estático
As tabelas seguintes demonstram as consultas realizadas na forma expandida e na forma original, com o resultado de precisão, abrangência e
medida-F, no RI em corpus estático. As consultas são numeradas de acordo
com os resultados apresentados nos grácos das guras da seção 6.1.1.
Tabela A.1: Resultados em corpus estático para a consulta na forma original
Nro
1
2
3
4
5
6
7
8
9
10
11
12
13
Consulta
Abrangência
Viagem de Avião
Acidente de Automóvel
Comércio por Telefone
Aposentadoria
Animal Doméstico
Aluguel de Imóvel
Jogo de Futebol
Música Brasileira
Uso de Computador
Doença Grave
Frutas Tropicais
Viagem Internacional
Aumento de Salário
0.1795
0.1702
0.0000
0.3939
0.0000
0.3182
0.4432
0.1014
0.4043
0.0112
0.0000
0.1887
0.8261
87
Precisão
0.7000
0.5333
0.0000
0.8667
0.0000
0.9333
0.4588
0.5833
0.4872
0.1111
0.0000
0.6250
0.6333
Medida-F
0.2857
0.2581
0.0000
0.5417
0.0000
0.4746
0.4509
0.1728
0.4419
0.0204
0.0000
0.2899
0.7170
88APÊNDICE A. RESULTADOS DAS CONSULTAS EM CORPUS ESTÁTICO
Tabela A.2: Resultados em corpus estático para a consulta na forma expandida
Nro
1
2
3
4
5
6
7
8
9
10
11
12
13
Consulta Expandida
VIAGEM DE AVIAO ou EXPEDICAO ou TURISMO ou VIAGEM AO REDOR DO MUNDO ou AEROPLANO ou AVIAO A
ENERGIA SOLAR
ACIDENTE DE AUTOMOVEIS ou DESASTRE ou ACIDENTE
AERONAUTICO ou ACIDENTE DE TRANSITO ou ACIDENTE DO TRABALHO ou ACIDENTE MARITIMO ou ACIDENTE PESSOAL
COMERCIO POR TELEFONE ou POLITICA COMERCIAL ou
CIRCULACAO DE MERCADORIAS ou ECONOMIA INTERNACIONAL ou COMERCIO INTERNO ou COMERCIO ATACADISTA ou COMERCIO MARITIMO ou APARELHO TELEFONICO
APOSENTADORIA ou APOSENTADORIA POR INVALIDEZ ou APOSENTADORIA POR DOENCA ou SEGUROINVALIDEZ ou APOSENTADORIA POR TEMPO DE SERVICO ou APOSENTADORIA POR VELHICE ou APOSENTADORIA COMPULSORIA ou APOSENTADORIA POR IDADE
ou SEGURO-VELHICE ou APOSENTADORIA VOLUNTARIA
ou APOSENTADORIA ESPONTANEA ou APOSENTADORIA
FACULTATIVA
ANIMAL DOMESTICO ou CAPRINO ou COELHO ou EQUINO
ou GADO ou OVINO ou SUINO
ALUGUEL DE IMOVEL ou LOCACAO ou ALUGUEL ou IMOVEL COMERCIAL ou IMOVEL RESIDENCIAL ou IMOVEL
RURAL ou IMOVEL URBANO ou IMOVEL (DIREITO CIVIL)
ou PROPRIEDADE IMOBILIARIA
JOGO DE FUTEBOL ou CONTRATO DE JOGO E APOSTA
ou JOGO (DIREITO CIVIL) ou LOTERIA ou LOTERIA ESPORTIVA ou LOTERIA FEDERAL ou LOTO ou FUTEBOL DE
CAMPO ou FUTEBOL DE AREIA ou FUTEBOL DE ASFALTO
ou FUTVOLEI
MUSICA BRASILEIRA ou EVENTO MUSICAL ou FORMA
MUSICAL ou HISTORIA DA MUSICA ou MEIO DE EXPRESSAO MUSICAL ou MUSICA TRADICIONAL ou MUSICOS ou
TEORIA MUSICAL
USO DE COMPUTADOR ou COMPUTADOR ELETRONICO
ou COMPUTADOR ANALOGICO ou COMPUTADOR DE
GRANDE PORTE ou COMPUTADOR DE QUINTA GERACAO
ou COMPUTADOR DIGITAL ou COMPUTADOR GRAFICO
ou MICROCOMPUTADOR ou MINICOMPUTADOR ou SUPERCOMPUTADOR ou UNIDADE CENTRAL DE PROCESSAMENTO
DOENCA GRAVE ou ENFERMIDADE ou MOLESTIA ou CANCER OCUPACIONAL
FRUTAS TROPICAIS ou ABACATE ou FRUTA-DE-CONDE
ou GOIABA ou GRAVIOLA ou JABUTICABA ou JACA ou
JAMBO ou JENIPAPO ou MAMAO ou MANGA ou MANGOSTAO ou ABACAXI ou ANANAS ou MARACUJA ou NESPERA
ou PITANGA ou TAMARA ou TAMARINDO ou UMBU ou
ACEROLA ou BANANICULTURA ou CAJA ou CAJU ou CAQUI ou CARAMBOLA ou CUPUACU
VIAGEM INTERNACIONAL ou EXPEDICAO ou TURISMO ou
VIAGEM AO REDOR DO MUNDO
AUMENTO DE SALARIO ou ADICIONAIS ou SALARIO EM
UTILIDADES ou SALARIO MINIMO
Abrangência
Precisão
Medida-F
0.8085
0.4935
0.6129
0.3333
0.0106
0.0205
0.3939
0.8125
0.5306
0.5085
0.2913
0.3704
0.4091
0.7500
0.5294
0.4432
0.4194
0.4309
0.4928
0.3579
0.4146
0.4468
0.2442
0.3158
0.5393
0.5783
0.5581
0.7222
0.3421
0.4643
0.6226
0.2705
0.3771
0.8696
0.3636
0.5128
0.2308
0.0928
0.1324
Apêndice B
Resultados das consultas na
Internet
As tabelas seguintes demonstram as consultas realizadas na forma expandida e na forma original, com o resultado de precisão, abrangência e
medida-F, no RI na Internet. As consultas são numeradas de acordo com os
resultados apresentados nos grácos das guras da seção 6.2. As tabelas B.1
e B.2 apresentam os testes para a medida DRRI, enquanto que as tabelas B.3
e B.4 apresentam os testes para DRWWW.
Tabela B.1: Resultados DRRI para a consulta na forma original
Nro
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Consulta
Abrangência
Tráco de Droga
Viagem Avião
Aposentadoria
Animal Doméstico
Aluguel de Imóvel
Jogo Futebol
Musica Brasileira
Ensino
Uso Computador
Doença Grave
Frutas Tropicais
Campanha eleitoral
Aumento Salário
Viagem Internacional
0.5890
0.1842
0.5952
0.6833
0.5476
0.7037
0.7813
0.5181
0.6774
0.4889
0.4643
0.8605
0.5915
0.5854
89
Precisão
0.8600
0.8750
1.0000
0.8200
0.9200
0.7600
1.0000
0.8600
0.8400
0.8800
0.7800
0.7400
0.8400
0.9600
Medida-F
0.6992
0.3043
0.7463
0.7455
0.6866
0.7308
0.8772
0.6466
0.7500
0.6286
0.5821
0.7957
0.6942
0.7273
90
APÊNDICE B. RESULTADOS DAS CONSULTAS NA INTERNET
Tabela B.2: Resultados DRRI para a consulta na forma expandida
Nro
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Consulta Expandida
TRAFICO DROGAS ou CONTROLE BIOLOGICO DE QUALIDADE DAS DROGAS ou REGISTRO DE DROGAS ou UTILIZACAO DE DROGAS ou CONTROLE FISICO-QUIMICO DE
QUALIDADE DAS DROGAS ou DESENHO DE DROGAS ou
DROGAS DE ORIGEM ANIMAL ou DROGAS DE ORIGEM
VEGETAL ou DROGAS INORGANICAS ou DROGAS SEMISINTETICAS ou DROGAS SINTETICAS ou ESPECIALIDADES FARMACEUTICAS
VIAGEM DE AVIAO ou EXPEDICAO ou TURISMO ou VIAGEM AO REDOR DO MUNDO ou AEROPLANO ou AVIAO A
ENERGIA SOLAR
APOSENTADORIA ou APOSENTADORIA POR INVALIDEZ ou APOSENTADORIA POR DOENCA ou SEGUROINVALIDEZ ou APOSENTADORIA POR TEMPO DE SERVICO ou APOSENTADORIA POR VELHICE ou APOSENTADORIA COMPULSORIA ou APOSENTADORIA POR IDADE
ou SEGURO-VELHICE ou APOSENTADORIA VOLUNTARIA
ou APOSENTADORIA ESPONTANEA ou APOSENTADORIA
FACULTATIVA
ANIMAL DOMESTICO ou CAPRINO ou COELHO ou EQUINO
ou GADO ou OVINO ou SUINO
ALUGUEL DE IMOVEL ou LOCACAO ou ALUGUEL ou IMOVEL COMERCIAL ou IMOVEL RESIDENCIAL ou IMOVEL
RURAL ou IMOVEL URBANO ou IMOVEL (DIREITO CIVIL)
ou PROPRIEDADE IMOBILIARIA
JOGO DE FUTEBOL ou CONTRATO DE JOGO E APOSTA
ou JOGO (DIREITO CIVIL) ou LOTERIA ou LOTERIA ESPORTIVA ou LOTERIA FEDERAL ou LOTO ou FUTEBOL DE
CAMPO ou FUTEBOL DE AREIA ou FUTEBOL DE ASFALTO
ou FUTVOLEI
MUSICA BRASILEIRA ou EVENTO MUSICAL ou FORMA
MUSICAL ou HISTORIA DA MUSICA ou MEIO DE EXPRESSAO MUSICAL ou MUSICA TRADICIONAL ou MUSICOS ou
TEORIA MUSICAL
ENSINO ou AUTODIDATISMO ou ENSINO A DISTANCIA ou
MEIOS AUXILIARES DE ENSINO ou MATERIAL DIDATICO
USO DE COMPUTADOR ou COMPUTADOR ELETRONICO
ou COMPUTADOR ANALOGICO ou COMPUTADOR DE
GRANDE PORTE ou COMPUTADOR DE QUINTA GERACAO
ou COMPUTADOR DIGITAL ou COMPUTADOR GRAFICO
ou MICROCOMPUTADOR ou MINICOMPUTADOR ou SUPERCOMPUTADOR ou UNIDADE CENTRAL DE PROCESSAMENTO
DOENCA GRAVE ou ENFERMIDADE ou MOLESTIA ou CANCER OCUPACIONAL
FRUTAS TROPICAIS ou ABACATE ou FRUTA-DE-CONDE
ou GOIABA ou GRAVIOLA ou JABUTICABA ou JACA ou
JAMBO ou JENIPAPO ou MAMAO ou MANGA ou MANGOSTAO ou ABACAXI ou ANANAS ou MARACUJA ou NESPERA
ou PITANGA ou TAMARA ou TAMARINDO ou UMBU ou
ACEROLA ou BANANICULTURA ou CAJA ou CAJU ou CAQUI ou CARAMBOLA ou CUPUACU
CAMPANHA ELEITORAL ou PLATAFORMA POLITICA ou
PRATICA POLITICA ou FINANCIAMENTO DE CAMPANHA
ELEITORAL ou ESTRATEGIA POLITICA ou PROGRAMA
DE GOVERNO
AUMENTO DE SALARIO ou ADICIONAIS ou SALARIO EM
UTILIDADES ou SALARIO MINIMO
VIAGEM INTERNACIONAL ou EXPEDICAO ou TURISMO ou
VIAGEM AO REDOR DO MUNDO
Abrangência
Precisão
Medida-F
0.8158
0.6200
0.7045
0.5357
0.9000
0.6716
0.4500
0.5400
0.4909
0.4762
0.8000
0.5970
0.4259
0.4600
0.4423
0.5313
0.6800
0.5965
0.4819
0.8000
0.6015
0.4355
0.5400
0.4821
0.5111
0.9200
0.6571
0.5357
0.9000
0.6716
0.8837
0.7600
0.8172
0.4789
0.6800
0.5620
0.4634
0.7600
0.5758
0.5342
0.7800
0.6341
91
Tabela B.3: Resultados DRWWW para a consulta na forma original
Nro
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Consulta
Tráco de Droga
Viagem Avião
Aposentadoria
Animal Doméstico
Aluguel de Imóvel
Jogo Futebol
Musica Brasileira
Ensino
Uso Computador
Doença Grave
Frutas Tropicais
Campanha eleitoral
Aumento Salário
Viagem Internacional
Abrangência
0.5753
0.1842
0.5357
0.5667
0.4881
0.5926
0.7500
0.4699
0.5968
0.4333
0.3810
0.7442
0.4930
0.4878
Precisão
0.8400
0.8750
0.9000
0.6800
0.8200
0.6400
0.9600
0.7800
0.7400
0.7800
0.6400
0.6400
0.7000
0.8000
Medida-F
0.6829
0.3043
0.6716
0.6182
0.6119
0.6154
0.8421
0.5865
0.6607
0.5571
0.4776
0.6882
0.5785
0.6061
92
APÊNDICE B. RESULTADOS DAS CONSULTAS NA INTERNET
Tabela B.4: Resultados DRWWW para a consulta na forma expandida
Nro
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Consulta Expandida
TRAFICO DROGAS ou CONTROLE BIOLOGICO DE QUALIDADE DAS DROGAS ou REGISTRO DE DROGAS ou UTILIZACAO DE DROGAS ou CONTROLE FISICO-QUIMICO DE
QUALIDADE DAS DROGAS ou DESENHO DE DROGAS ou
DROGAS DE ORIGEM ANIMAL ou DROGAS DE ORIGEM
VEGETAL ou DROGAS INORGANICAS ou DROGAS SEMISINTETICAS ou DROGAS SINTETICAS ou ESPECIALIDADES FARMACEUTICAS
VIAGEM DE AVIAO ou EXPEDICAO ou TURISMO ou VIAGEM AO REDOR DO MUNDO ou AEROPLANO ou AVIAO A
ENERGIA SOLAR
APOSENTADORIA ou APOSENTADORIA POR INVALIDEZ ou APOSENTADORIA POR DOENCA ou SEGUROINVALIDEZ ou APOSENTADORIA POR TEMPO DE SERVICO ou APOSENTADORIA POR VELHICE ou APOSENTADORIA COMPULSORIA ou APOSENTADORIA POR IDADE
ou SEGURO-VELHICE ou APOSENTADORIA VOLUNTARIA
ou APOSENTADORIA ESPONTANEA ou APOSENTADORIA
FACULTATIVA
ANIMAL DOMESTICO ou CAPRINO ou COELHO ou EQUINO
ou GADO ou OVINO ou SUINO
ALUGUEL DE IMOVEL ou LOCACAO ou ALUGUEL ou IMOVEL COMERCIAL ou IMOVEL RESIDENCIAL ou IMOVEL
RURAL ou IMOVEL URBANO ou IMOVEL (DIREITO CIVIL)
ou PROPRIEDADE IMOBILIARIA
JOGO DE FUTEBOL ou CONTRATO DE JOGO E APOSTA
ou JOGO (DIREITO CIVIL) ou LOTERIA ou LOTERIA ESPORTIVA ou LOTERIA FEDERAL ou LOTO ou FUTEBOL DE
CAMPO ou FUTEBOL DE AREIA ou FUTEBOL DE ASFALTO
ou FUTVOLEI
MUSICA BRASILEIRA ou EVENTO MUSICAL ou FORMA
MUSICAL ou HISTORIA DA MUSICA ou MEIO DE EXPRESSAO MUSICAL ou MUSICA TRADICIONAL ou MUSICOS ou
TEORIA MUSICAL
ENSINO ou AUTODIDATISMO ou ENSINO A DISTANCIA ou
MEIOS AUXILIARES DE ENSINO ou MATERIAL DIDATICO
USO DE COMPUTADOR ou COMPUTADOR ELETRONICO
ou COMPUTADOR ANALOGICO ou COMPUTADOR DE
GRANDE PORTE ou COMPUTADOR DE QUINTA GERACAO
ou COMPUTADOR DIGITAL ou COMPUTADOR GRAFICO
ou MICROCOMPUTADOR ou MINICOMPUTADOR ou SUPERCOMPUTADOR ou UNIDADE CENTRAL DE PROCESSAMENTO
DOENCA GRAVE ou ENFERMIDADE ou MOLESTIA ou CANCER OCUPACIONAL
FRUTAS TROPICAIS ou ABACATE ou FRUTA-DE-CONDE
ou GOIABA ou GRAVIOLA ou JABUTICABA ou JACA ou
JAMBO ou JENIPAPO ou MAMAO ou MANGA ou MANGOSTAO ou ABACAXI ou ANANAS ou MARACUJA ou NESPERA
ou PITANGA ou TAMARA ou TAMARINDO ou UMBU ou
ACEROLA ou BANANICULTURA ou CAJA ou CAJU ou CAQUI ou CARAMBOLA ou CUPUACU
CAMPANHA ELEITORAL ou PLATAFORMA POLITICA ou
PRATICA POLITICA ou FINANCIAMENTO DE CAMPANHA
ELEITORAL ou ESTRATEGIA POLITICA ou PROGRAMA
DE GOVERNO
AUMENTO DE SALARIO ou ADICIONAIS ou SALARIO EM
UTILIDADES ou SALARIO MINIMO
VIAGEM INTERNACIONAL ou EXPEDICAO ou TURISMO ou
VIAGEM AO REDOR DO MUNDO
Abrangência
Precisão
Medida-F
0.7895
0.6000
0.6818
0.4762
0.8000
0.5970
0.4000
0.4800
0.4364
0.3929
0.6600
0.4925
0.3704
0.4000
0.3846
0.5000
0.6400
0.5614
0.4819
0.8000
0.6015
0.3871
0.4800
0.4286
0.4333
0.7800
0.5571
0.4524
0.7600
0.5672
0.7209
0.6200
0.6667
0.4366
0.6200
0.5124
0.3780
0.6200
0.4697
0.5068
0.7400
0.6016
Download

Pontifícia Universidade Católica do Rio Grande do Sul Faculdade