Pontifícia Universidade Católica do Rio Grande do Sul Faculdade de Informática Pós-Graduação em Ciência da Computação Estrutura Multitesauro para Recuperação de Informações Luiz Augusto Sangoi Pizzato Dissertação apresentada como requisito parcial à obtenção do grau de mestre em Ciência da Computação Orientadora: Vera Lúcia Strube de Lima Porto Alegre, janeiro de 2003 Anyone who has lost track of time when using a computer knows the propensity to dream, the urge to make dreams come true and the tendency to miss lunch. - Tim Berners-Lee ii Agradecimentos Agradeço à Deus pela existência de todas as pessoas maravilhosas que estão presentes em minha vida. Aos meus pais, Modesto e Carmen: muito obrigado, pelos seus esforços em minha formação acadêmica e pessoal, pelo constante amor e suporte recebidos. À minha querida Fernanda, por sempre estar ao meu lado, por compreender minhas aições e pela conança que sempre teve em mim. Aos meus irmãos, cunhados e sobrinhos, pela descontração de nossos encontros. Um agradecimento especial, à Profa. Vera Lúcia, pela dedicação em minha orientação neste mestrado. Seus conselhos e ensinamentos ultrapassam o contexto deste trabalho e serão levados por toda a vida. Ao Prof. João Batista S. de Oliveira, pela importante ajuda na formalização da heurística, e ao Prof. José Carlos Bins Filho pelas correções e boas avaliações de meus trabalhos individuais, plano de estudo e pesquisa, e seminário de andamento. À Tania pelo carinho, amizade e respeito que sempre tivemos. Aos meus amigos de Bento Gonçalves - Luciano, Magro, Mattia e Tigre - que sempre estiveram ao meu lado. Aos colegas de mestrado, em especial aos participantes dos churrascos e das diversas Casa dos mestrandos, pelos alegres dois anos de convivência. Aos colegas Caroline Gasperin e Marco Gonzalez, pela grande ajuda prestada em todas as fases do curso de mestrado. À Cássia Marques Serpa, pelo bom trabalho desempenhado em sua bolsa de Iniciação Cientíca. Ao convênio Dell/PUCRS, pelo apoio nanceiro, que possibilitou minha dedicação exclusiva aos estudos que envolvem esta dissertação de mestrado. Ao PPGCC, pelos recursos disponibilizados e pelo apoio nanceiro na participação de eventos. Ao CNPq pelo apoio nanceiro ao projeto SEMA, que disponibilizou o trabalho de uma bolsista de Iniciação Cientíca. À Subsecretaria de Biblioteca do Senado Federal, ao departamento técnico do Sistema Integrado de Bibliotecas da USP (SIBi/USP), ao departamento técnico da Biblioteca Central Ir. José Otão da PUCRS por fornecer seus tesauros, que foram de grande valia para este trabalho. Ao Núcleo Interinstitucional de Lingüística Computacional (NILC) pelo corpus utilizado. iv v Abstract This work presents the proposition and the development of a multithesaurus structure oriented to information retrieval applications. The focused multithesaurus structure was initially based on ISO 2788 standards but it gradually assumed its own shape. The nal format of the multithesaurus structure was built considering aspects of dierent thesauri, and important features certain information retrieval task required. In order to validate the usefulness of the thesaurus structure in information retrieval, it was created a method of query expansion that uses dierent weights for dierent types of relations. Those relations are dened at the multithesaurus structure. This work presents the structure creation process, its validation, its use for information retrieval, and the result obtained in information retrieval evaluation. vi vii Resumo Este trabalho apresenta a proposta e discute o desenvolvimento de uma estrutura multitesauro para uso em aplicações de recuperação de informações. A estrutura multitesauro em questão foi inicialmente baseada no padrão ISO 2788, mas foi gradualmente assumindo sua própria forma, uma vez que esta representa características de diferentes tesauros e deve ser utilizada em tarefas de recuperação de informações. De modo a validar a utilidade desta estrutura na recuperação de informações, foi criado um método de expansão de consultas. O método proposto para expansão de consultas tem como principal característica utilizar diferentes pesos para as relações semânticas denidas na estrutura multitesauro. Este trabalho apresenta a criação da estrutura tesaural proposta, sua validação, aplicação na expansão de consultas e resultados obtidos para a recuperação de informações. viii Sumário ABSTRACT v RESUMO vii LISTA DE TABELAS xiii LISTA DE FIGURAS xv LISTA DE SÍMBOLOS E ABREVIATURAS Capítulo 1: Introdução 1.1 1.2 1.3 1.4 1.5 1.6 Recuperação de Informações . . . Linguagens Naturais . . . . . . . Tesauro e Vocabulário Controlado Expansão de Consulta . . . . . . eXtensible Markup Language . . . Este trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xvii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Capítulo 2: Normas para a organização de tesauros 2.1 2.2 2.3 2.4 Classes de palavras . . . . . . . . . . . . . . . . . . . . Estruturação de Tesauros . . . . . . . . . . . . . . . . . Normas . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 ISO 2788 . . . . . . . . . . . . . . . . . . . . . . 2.3.2 ANSI/NISO Z39.19 . . . . . . . . . . . . . . . . 2.3.3 Manual de Elaboração de Tesauros Monolíngües Organização de tesauros . . . . . . . . . . . . . . . . . 2.4.1 TML: A Thesaural Markup Language . . . . . . 2.4.2 Zthes . . . . . . . . . . . . . . . . . . . . . . . . 2.4.3 RDF Thesaurus Specication . . . . . . . . . . 2.4.4 CERES/BRD Thesaurus . . . . . . . . . . . . . ix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 2 4 5 7 8 11 11 13 14 14 17 19 21 22 23 23 24 x SUMÁRIO 2.5 Considerações sobre o capítulo . . . . . . . . . . . . . . . . . . 24 Capítulo 3: Relações semânticas e RI 3.1 3.2 3.3 Relações semânticas nas normas e na RI . . . . . . . 3.1.1 Relações de equivalência . . . . . . . . . . . . 3.1.2 Relações de hierarquia . . . . . . . . . . . . . 3.1.3 Relações associativas . . . . . . . . . . . . . . Utilização de relações extraídas de forma automática Considerações sobre o capítulo . . . . . . . . . . . . . Capítulo 4: Estrutura Multitesauro 4.1 4.2 4.3 4.4 Tesauros utilizados Estrutura inicial . . Desenvolvimento da Considerações sobre . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estrutura Multitesauro o capítulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Capítulo 5: Estrutura na Expansão de Consulta 5.1 5.2 5.3 5.4 5.5 Heurística de Expansão de Consultas . . . . 5.1.1 Formalização da Heurística . . . . . . 5.1.2 Modos alternativos para cálculo de δ Algoritmo de Expansão de Consulta . . . . . Um exemplo detalhado de funcionamento . . A ferramenta QET . . . . . . . . . . . . . . Considerações sobre o capítulo . . . . . . . . Capítulo 6: Validação 6.1 6.2 6.3 6.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Processo de validação em corpus estático . . . . . . . . . . . . 6.1.1 Testes em corpus estático . . . . . . . . . . . . . . . . 6.1.2 Denição dos parâmetros . . . . . . . . . . . . . . . . . 6.1.2.1 Pesos para as relações da ISO 2788 . . . . . . 6.1.2.2 Valor λ . . . . . . . . . . . . . . . . . . . . . 6.1.2.3 Considerações sobre a denição de parâmetros 6.1.3 Utilização conjunta de tesauros . . . . . . . . . . . . . Processo de validação na Internet . . . . . . . . . . . . . . . . Resultados obtidos: uma apreciação . . . . . . . . . . . . . . . Considerações sobre o capítulo . . . . . . . . . . . . . . . . . . 25 25 25 27 30 32 33 35 35 36 38 41 43 44 44 48 49 50 52 54 55 55 57 59 59 61 61 61 63 68 69 SUMÁRIO Capítulo 7: Trabalhos correlatos 7.1 7.2 7.3 7.4 7.5 O trabalho de Sintichakis & Constantopoulos O trabalho de Mandala et al. . . . . . . . . . O trabalho de Robin & Ramalho . . . . . . . O trabalho de Alani et al. . . . . . . . . . . . Considerações sobre o capítulo . . . . . . . . . xi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 71 72 73 74 74 Capítulo 8: Conclusão 77 REFERÊNCIAS BIBLIOGRÁFICAS 81 8.1 8.2 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . 78 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . 79 Apêndice A: Resultados das consultas em corpus estático 87 Apêndice B: Resultados das consultas na Internet 89 xii SUMÁRIO Lista de Tabelas 3.1 Expansão através de relações RT . . . . . . . . . . . . . . . . 31 5.1 5.2 Valores dos parâmetros do exemplo . . . . . . . . . . . . . . . 51 Desambigüação Semântica . . . . . . . . . . . . . . . . . . . . 54 6.1 6.2 6.3 6.4 6.5 6.6 Valores dos parâmetros . . . . . . . . . . . . . . . . . . . . . . Resultados parciais . . . . . . . . . . . . . . . . . . . . . . . . Denição dos melhores pesos para os tipos de relações . . . . . Resultados obtidos com diferentes combinações do valor λ . . Resultados obtidos através de diferentes combinações de tesauros Resultados na WWW . . . . . . . . . . . . . . . . . . . . . . . 7.1 Média da precisão obtida para a expansão de consultas . . . . 73 57 59 60 61 62 66 A.1 Resultados em corpus estático para a consulta na forma original 87 A.2 Resultados em corpus estático para a consulta na forma expandida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 B.1 B.2 B.3 B.4 Resultados Resultados Resultados Resultados DRRI para a consulta na forma original . . . . DRRI para a consulta na forma expandida . . . DRWWW para a consulta na forma original . . DRWWW para a consulta na forma expandida xiii . . . . . . . . 89 90 91 92 xiv LISTA DE TABELAS Lista de Figuras 1.1 1.2 Ambigüidade sintática . . . . . . . . . . . . . . . . . . . . . . Exemplo de consulta expandida . . . . . . . . . . . . . . . . . 3.1 3.2 3.3 3.4 Resolução do contexto de uma Supremo de consulta ∨ . . . . Ínmos de consulta ∧ . . . . . Relações semântica do AAT . 5.1 5.2 Exemplo do funcionamento da expansão de consulta . . . . . . 51 Expansão de consulta com a ferramenta QET . . . . . . . . . 53 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 Medida de precisão das consultas originais e expandidas . . . Medida de abrangência nas consultas originais e expandidas Medida-F nas consultas originais e expandidas . . . . . . . . Medida de abrangência para DRRI . . . . . . . . . . . . . . Medida de abrangência para DRWWW . . . . . . . . . . . . Medida de precisão para DRRI . . . . . . . . . . . . . . . . Medida de precisão para DRWWW . . . . . . . . . . . . . . Medida-F para DRRI . . . . . . . . . . . . . . . . . . . . . . Medida-F para DRWWW . . . . . . . . . . . . . . . . . . . xv consulta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 7 28 29 30 31 57 58 58 65 65 66 66 67 67 xvi LISTA DE FIGURAS Lista de Símbolos e Abreviaturas WWW World Wide Web 1 RI Recuperação de Informações 1 PLN Processamento da Linguagem Natural 3 XML eXtensible Markup Language 7 RDF Resource Description Framework 7 W3C World Wide Web Consortium 7 XHTML Extensible Hypertext Markup Language 7 WML Wireless Markup Language 7 TP Termo Preferencial 14 TNP Termo Não-Preferencial 14 SN Scope Note 15 UF Used For 15 BT Broader Term 16 NT Narrower Term 16 BTP Broader Term Partitive 16 NTP Narrower Term Partitive 16 RT Related Term 16 TT Top Term 16 BTG Broader Term Generic 18 NTG Narrower Term Generic 18 BTI Broader Term Instance 18 NTI Narrower Term Instance 18 xvii xviii METM Df UP VD TG TGP TE TEP TA GTO TML LE DTD BC NC URI AAT ET DRRI DRWWW LISTA DE SÍMBOLOS E ABREVIATURAS Manual de Elaboração de Tesauros Monolíngües Denições 19 19 Usado Por 20 Visto De 21 Termo Genérico 21 Termo Genérico Partitivo 21 Termo Especíco 21 Termo Especíco Partitivo 21 Termo Associado 21 Generic Thesaural Ontology 22 Thesaural Markup Language 22 Linguistic Equivalent 23 Document Type Denition 23 Broader Concept 23 Narrower Concept 23 Universal Resource Identier 23 Art and Architecture Thesaurus 30 Equivalent Term 40 Documentos Relevantes na RI 64 Documentos Relevantes na WWW 64 Capítulo 1 Introdução A Internet está se tornando um meio de comunicação tão popular quanto o jornal, o rádio e a televisão. Muitos serviços que anteriormente utilizavam estes meios estão sendo exclusivamente oferecidos via Internet. O usuário dessa mídia tende a procurar por uma informação na Internet, antes de partir para outros meios. Devido à arquitetura da Internet, a busca por informações tem sido um tópico importante desde seu princípio. A arquitetura da Internet apresenta computadores interligados em rede oferecendo serviços. Os diferentes serviços oferecidos, a variedade no tipo e formação topológica das redes interconectadas na Internet, e a falta de um controle organizador central, dicultam a busca por uma informação. Dentre os serviços oferecidos através da Internet, o mais conhecido é a World Wide Web (WWW), que apresenta-se como arquivos hipertextos ligados uns aos outros, independente de localização. Devido à facilidade de publicação de documentos na WWW e à falta de uma organização central, as ferramentas de busca têm sido uma das únicas maneiras de chegar até uma informação. Assim, atualmente os sites de busca contêm as ferramentas de recuperação de informações (RI) mais conhecidas e utilizadas. 1.1 Recuperação de Informações Recuperação de Informações, segundo Voorhees em [VOO99], foca na resolução do problema de encontrar, em uma grande base de documentos, aqueles documentos cujos conteúdos estejam de acordo com uma necessidade do usuário. Denições para Recuperação de Dados, conforme [LEW96], não se aplicam a RI, pois a informação representada em um documento em linguagem 1 2 CAPÍTULO 1. INTRODUÇÃO natural apresenta-se sobre idéias abstratas sujeitas a ambigüidade, característica esta que não deve estar presente quando se deseja recuperar dados. Da mesma forma, segundo Baeza-Yates & Ribeiro-Neto em [BAE99], a recuperação de dados não aceita resultados imprecisos, enquanto que a RI tem uma tolerância maior, uma vez que as consultas podem ser feitas em linguagem natural, sendo assim altamente propensas a interpretações diferentes. Extração de informação também difere de RI pois, na primeira, o motivo de uma consulta é extrair um conhecimento especíco, enquanto na RI pretende-se recuperar documentos que podem conter as informações de interesse. Para que os documentos possam ser encontrados em uma base de dados, eles necessitam ser indexados. A utilização de índices que representam, de forma correta, o conteúdo do documento, é importante para que este possa ser encontrado em uma pesquisa futura. Contudo, a escolha de índices abrangentes e relevantes ao conteúdo do documento não garante que ele seja encontrado sempre que for procurado. Normalmente, os casos onde um sistema de RI falha (i.e. documentos relevantes não são encontrados e documentos irrelevantes o são) ocorrem devido a características inerentes às linguagens naturais, características estas que serão apresentadas na seguinte seção. 1.2 Linguagens Naturais Normalmente, os documentos indexados e recuperados com uso de uma ferramenta de RI apresentam-se em alguma linguagem natural. Isto ocorre pois a linguagem natural, como o inglês e o português, representa o modo mais habitual de comunicação humana. Desta forma, as consultas feitas a um sistema de RI normalmente são formuladas em linguagem natural, que representa a maneira mais simples e normal de o usuário utilizar uma ferramenta de busca. A seguir temos dois exemplos de uma mesma consulta: 1. Pousadas e Hotéis de Porto de Galinhas; 2. (Pousadas OU Hotéis) E Porto de Galinhas. Ambas as consultas apresentadas procuram pelos mesmos documentos, mas a primeira consulta, em linguagem natural, é muito mais fácil de formular e também de compreender. Porém, a ferramenta que busca as respostas a esta consulta deve traduzi-la, da linguagem natural para uma representação interna. Tal representação interna não deve conter ambigüidade, e esta é uma das grandes diculdades nestas abordagens, uma vez que a linguagem natural está sujeita a diferentes tipos de ambigüidades. 1.2. LINGUAGENS NATURAIS Falei com a moça do celular 3 Falei com a moça do celular Figura 1.1: Ambigüidade sintática A tradução de textos em linguagem natural para uma representação interna é objeto de estudo da área de processamento da linguagem natural (PLN). As grandes diculdades existentes nestas traduções dizem respeito às diferentes interpretações a que a linguagem natural está sujeita. Seguem algumas destas diculdades: • palavras sinônimas: diversas palavras diferentes podem exprimir signicados idênticos ou quase iguais. Por exemplo, as palavras cão e cachorro, na língua portuguesa empregada no Brasil, têm o mesmo signicado. • ambigüidade lexical: uma mesma palavra pode ter diferentes signicados, ou apresentar idéias diferentes. Por exemplo, a palavra cachorro pode tanto signicar um cão, quanto uma pessoa indigna ou canalha. • ambigüidade sintática: uma sentença pode ter mais de uma estrutura sintática, o que implica diferentes leituras do conteúdo da sentença. Por exemplo, como mostrado na Figura 1.1, a sentença Falei com a moça do celular pode ser representada por duas árvores sintáticas diferentes. A sentença pode ser lida como Falei com a moça a qual estava com o celular ou Falei com a moça por intermédio do celular. • ambigüidade semântica: as diculdades apresentadas como ambigüidades lexicais e sintáticas podem também conter ambigüidade semântica, ao apresentarem signicados diferentes para uma mesma palavra ou sentença. Em determinadas situações, a ambigüidade semântica permanece, mesmo após a resolução das ambigüidades lexical e sintática. Estas e outras características fazem com que uma consulta em linguagem natural seja difícil de ser interpretada, podendo, em muitos casos, gerar uma interpretação diferente da idéia original do usuário. Para amenizar este 4 CAPÍTULO 1. INTRODUÇÃO problema, uma ferramenta de busca pode utilizar um dicionário de relações semânticas1 (como um tesauro) para encontrar o conceito correto apresentado na consulta do usuário. 1.3 Tesauro e Vocabulário Controlado Uri Miller em [MIL97] dene tesauro como: Um modelo léxico-semântico de realidades conceituais ou suas constituintes, expressas na forma de um sistema de termos e suas relações, que oferece acesso via diferentes aspectos e é usado como ferramenta de processamento e busca de uma unidade de recuperação de informação. O termo tesauro, de origem latina, tem sido utilizado para designar um tesouro de palavras, pois este tipo de dicionário deve fornecer riqueza em conceitos e suas relações semânticas, de forma a ter uma grande abrangência em um determinado domínio de conhecimento. Um tesauro pode contemplar um domínio de conhecimento especíco (por exemplo, os encontrados em [SEN01] e [SEN01a]) ou mesmo ser genérico (por exemplo, os encontrados em [SAN50] e [ROG58]). Segundo Gonzalez, em [GON01a], os tesauros genéricos são normalmente criados manualmente, enquanto que a criação automática de tesauros envolve o desenvolvimento de modelos de tesauros sobre um domínio especíco. A técnica denominada Vocabulário controlado, utilizada em sistemas de RI, procura minimizar estas características da linguagem natural utilizando tesauros para restringir o vocabulário de indexação e de consulta, de forma que uma idéia possa ser expressa somente de uma única maneira. A utilização de técnicas de vocabulário controlado está ligada à utilização de tesauros. Estas técnicas buscam indexar documentos com o uso de índices que representem conceitos únicos. Desta forma a indexação de um documento nesta base de dados, normalmente feita de modo manual, ocorre similarmente ao descrito por Will em [WIL92] e Soergel em [SOE98], como será exemplicado a seguir: • Ao indexar um documento contendo informações sobre condutores de caminhão, o sistema irá sugerir a substituição do termo condutores pelo termo motoristas, pois o termo motoristas é mais usual. • Tem-se então motoristas de caminhão. Neste momento o sistema irá sugerir a substituição por caminhoneiros pois este, além de mais usual, é mais sintético. 1 Usaremos o termo relações semânticas, a partir deste ponto do trabalho, para indicar relações semântico-conceituais, ou relações semântico-lexicais (sinonímia e antonímia). 1.4. EXPANSÃO DE CONSULTA 5 • Neste momento, então, o documento será indexado através do termo caminhoneiros. O que pode ser daí deduzido é que, sempre que um documento referir-se a caminhoneiros, mesmo que utilizando outros tipos de expressões, o sistema fará a indexação sobre um único termo. Conseqüentemente, a pesquisa nesta base de dados deve ocorrer de forma similar. Ao ser consultado sobre um determinado assunto, o sistema de RI tentará buscar um termo preferencial do tesauro sobre o qual os documentos estejam indexados. O processo de busca ocorre como descrito no exemplo a seguir, onde a consulta Motoristas de cegonhas de Florianópolis ocasionaria um dos dois processamentos seguintes: 1. O termo cegonha pode ser entendido como uma ave ou como um tipo de caminhão. Neste momento, dependendo de como o sistema foi projetado - i.e. se existe ou não alguma ontologia2 que permita ao sistema compreender que um motorista nunca poderia conduzir uma ave, ou mesmo, que é mais provável um motorista conduzir um caminhão - poderá ser feita a pergunta ao usuário: O que você quis dizer com cegonha? Ave ou tipo de caminhão. Conhecendo o signicado de cegonha, o sistema encontraria motoristas de caminhão como sendo caminhoneiros e, assim, efetuaria a consulta através de um termo comum, de acordo com o qual os documentos foram indexados. 2. O sistema pode também conhecer a expressão Motoristas de cegonha como sendo cegonheiros, e irá saber que o termo cegonheiros representa um termo mais especíco de caminhoneiros. Neste momento a busca poderá ser feita através do termo comum caminhoneiros de Florianópolis ou mesmo cegonheiros de Florianópolis. Segundo Baeza-Yates & Ribeiro-Neto em [BAE99], tesauros são importantes na recuperação de informações, pois eles podem ser utilizados para obter melhor compreensão de alguns termos de uma consulta, através de técnicas de expansão de consultas. 1.4 Expansão de Consulta Segundo Strzalkowski et al. em [STR98], a função da expansão de consulta é fazer a consulta do usuário relembrar, mais elmente, os documentos 2 Entende-se por ontologia um conjunto de conceitos organizados por uma taxonomia e um conjunto de regras de como devem ser utilizados estes conceitos. 6 CAPÍTULO 1. INTRODUÇÃO que se espera recuperar. Desta forma, se uma consulta é feita para lembrar um documento típico sobre determinado assunto, então tudo o que for pertencente ao texto desta consulta é relevante. Infelizmente, uma consulta comum especica somente os critérios semânticos mais relevantes, o que normalmente não abrange todos os termos e expressões que são utilizados nos documentos. Basicamente, segundo Baeza-Yates & Ribeiro-Neto em [BAE99], expansão de consulta é um processo que adiciona novos termos a uma consulta, em uma tentativa de inseri-la melhor no contexto da pesquisa do usuário. Este processo de adicionar termos e adequar uma pesquisa a um determinado contexto é facilitado com a utilização de um tesauro, pois as relações semânticas nele existentes ajudam a encontrar as palavras que melhor representam um determinado conceito. Um sistema de consulta pode, por exemplo, incluir em uma pesquisa os sinônimos e os termos mais especícos das palavras pesquisadas. O exemplo a seguir ilustra uma consulta e sua respectiva expansão conforme o método apresentado em [SOE98]. A consulta Motoristas de cegonha de Florianópolis pode ser representada pela seguinte consulta booleana: Motoristas E cegonha E Florianópolis. Ao analisar os termos da consulta em um tesauro, os termos desta busca são expandidos da seguinte forma: • Motoristas: Condutores, Pilotos; • Cegonha: Caminhão (obs.: a palavra cegonha, como ave, não tem sinônimo nem termo mais especíco); • Florianópolis: Floripa; • Motoristas de cegonha: cegonheiros, caminhoneiros; Neste momento os termos da consulta foram expandidos, o que torna possível a realização da seguinte consulta (melhor expressa na Figura 1.2): [(motoristas OU condutores OU pilotos) E (cegonha OU caminhão)] OU (cegonheiros OU caminhoneiros) E (Florianópolis OU Floripa) A expansão da consulta do exemplo anterior possibilita encontrar uma quantidade muito grande de documentos sobre o mesmo assunto, independentemente da utilização dos melhores termos na indexação. Juntamente com a expansão de consulta, ou mesmo com outros métodos de RI, um tesauro pode ser útil para medir a relevância dos documentos encontrados. Assim os documentos mais relevantes serão exibidos como melhores opções para o usuário. Estas medidas de relevância podem ser obtidas através de cálculo de distância semântica, como apresentado em [ALA00]. 1.5. EXTENSIBLE MARKUP LANGUAGE 7 E OU E OU motoristas condutores OU pilotos cegonha OU caminhão cegonheiros OU caminhoneiros Florianópolis Floripa Figura 1.2: Exemplo de consulta expandida As áreas de biblioteconomia e ciência da informação utilizam tesauros para a escolha correta de índices para os documentos. Para orientar o desenvolvimento de tesauros foram criadas diversas recomendações, pelos comitês de normas e padrões (ANSI/NISO Z39.19 em [NIS93], ISO 2788 em [ISO86], entre outros). Estas normas são importantes, pois a criação de tesauros que seguem os mesmos padrões para conteúdo, aparência na exibição, métodos de construção e manutenção (como descrito no escopo da norma Z39.19 em [NIS93]), facilita a utilização de um mesmo tesauro por diferentes sistemas e pessoas. Outra característica que facilita a portabilidade de um tesauro é sua estruturação através de formatos universais como, hoje em dia, o XML (eXtensible Markup Language ) e o RDF (Resource Description Framework ). 1.5 eXtensible Markup Language De acordo com [BRA98], o padrão XML foi adotado, em 1998, pelo World Wide Web Consortium (W3C)3 como formato universal para troca de dados e documentos estruturados na Internet. Desde então, estão sendo criados diversos formatos de acordo com os padrões XML como, por exemplo, RDF, XHTML e WML, entre outros. A facilidade de denição de novas linguagens, e a grande variedade de aplicações que suportam XML, fazem com que esta metalinguagem seja vastamente utilizada e seja bastante portável entre aplicações na Internet. Atualmente, utilizar XML para a denição de um tesauro é uma escolha normal, uma vez que a Internet é o cenário mais propício a ferramentas de 3O W3C foi criado com o propósito de desenvolver protocolos para aumentar a integração e promover a evolução da World Wide Web. É uma parceria de diversas indústrias administradas pelo Laboratório de Ciência da Computação do MIT (LCS) nos Estados Unidos, pelo Instituto Nacional de Pesquisa em Informática Aplicada(INRIA) na França e pela Universidade de Keio no Japão. 8 CAPÍTULO 1. INTRODUÇÃO recuperação de informação, e o XML, como anteriormente dito, é o padrão estabelecido para trocas de informação. Em muitos trabalhos encontrados na bibliograa, o uso da estruturação XML baseia-se em arquivos RDF (exemplo: [AMA99], [CER01] e [CRO01]). O modelo de dados RDF/XML foi desenvolvido pelo W3C como recomendação para a representação de dados estruturados na Internet. RDF é utilizado para descrever semanticamente documentos na Internet, utilizando a estratégia de gerenciar informação como uma coleção de links entre entidades únicas. Tal característica, comum à Internet e aos tesauros, faz com que a escolha deste modelo de dados seja válida para a representação tanto de documentos na Internet quanto de termos em um tesauro. 1.6 Este trabalho Neste trabalho é proposta, validada e avaliada uma estrutura tesaural útil para a recuperação de informações. Denominamos a estrutura como multitesauro por oferecer características que englobam diferentes tesauros, possibilitando a representação destes na estrutura global. A estrutura proposta será importante em uma etapa futura do projeto SEMA4 , em desenvolvimento na PUCRS, como parte de um sistema de RI. Ao desenvolver a estrutura multitesauro, nos preocupamos com o fato de que esta pudesse ser empregada em diferentes ambientes e, também, seus arquivos pudessem ser facilmente transmitidos pela Internet. A preocupação com que a estrutura (e os tesauros denidos com a mesma) seja utilizada na Internet é clara quando sua nalidade é a RI pois, atualmente, os sites de busca na Internet são os ambientes de RI mais usados e conhecidos. O formato XML é facilmente transmitido pela Internet através de servidores HTTP, tornando-se a escolha normal quando se tem a preocupação de uso pela rede. Optou-se pela expansão de consulta, para mostrar a utilidade da estrutura na RI, pela grande quantidade de trabalhos que envolvem este tópico aliado ao uso de tesauros (por exemplo: [CAR01], [IMA99], [JIN94], [KIM90], [ROB01] e [STR99]). A presente dissertação tem por objetivo apresentar uma estrutura tesaural que represente as características de diferentes tesauros que possam ser úteis à RI. A utilidade da estrutura multitesauro é validada através de uma técnica de expansão de consultas, onde diferentes tesauros são utilizados, ao mesmo tempo, como um único tesauro. A heurística de expansão de consultas foi 4 Mais informações em http://www.inf.pucrs.br/ ∼linatural/sema/ 1.6. ESTE TRABALHO 9 desenvolvida para utilizar as relações denidas na estrutura e ponderar a importância das mesmas, tendo como principal característica a atribuição de pesos para cada tipo de relação denida. Desta forma, é possível quanticar a importância de cada tipo de relação dado o peso que lhe é atribuído. Neste trabalho, a estratégia de validação da estrutura tesaural deve armar sua característica multitesaural e fornecer meios para julgar a importância individual dos tipos de relações semânticas. O texto da dissertação está dividido em 8 capítulos, sendo o primeiro esta introdução. O capítulo 2 apresenta normas internacionais existentes para organização de tesauros. O capítulo 3 apresenta o modo como as relações semânticas existentes em um tesauro podem ser utilizadas em tarefas de RI. O capítulo 4 apresenta a estrutura multitesauro proposta por este trabalho. O capítulo 5 demonstra um método de expansão de consultas que tem por objetivo oferecer um meio de validar a utilidade da estrutura proposta na RI. Esta validação é apresentada no capítulo 6. No capítulo 7 são apresentados trabalhos correlatos a esta dissertação. No último capítulo são apresentadas as conclusões desta dissertação. 10 CAPÍTULO 1. INTRODUÇÃO Capítulo 2 Normas para a organização de tesauros Na introdução desta dissertação, foram apresentados o PLN como um tópico importante na recuperação de informação, e os tesauros como um recurso bastante útil a esta tarefa. A RI apresenta-se como a área responsável pela busca de documentos relevantes a uma necessidade de informação, expressa através da consulta de um usuário. Os tesauros, como descrito no capítulo anterior, surgem como ferramenta de apoio aos sistemas de RI na resolução da consulta em linguagem natural. Ao empregarmos o termo tesauro neste trabalho, devemos entender uma base de dados lexical onde os lexemas são inter-relacionados por algum tipo de relação semântica. Desta forma, temos a organização de tal base, e sua utilização na RI, como foco principal. O presente capítulo se concentra na organização e estruturação deste tipo de léxico. Inicialmente, abordaremos a organização de um tesauro em classes de palavras e facetas; logo após, apresentaremos normas existentes para o desenvolvimento de tesauros monolíngües e sua estruturação. Também serão apresentados neste capítulo alguns trabalhos que utilizam as normas de denição de tesauros existentes, junto a uma estruturação XML. 2.1 Classes de palavras Um tesauro pode ser organizado, simplesmente, por ordem alfabética de seus termos. Contudo, apesar de a ordem alfabética ser uma organização já assimilada e simples de consultar, é possível organizar um tesauro conforme um sistema de categorias. Desta forma, a compreensão das relações entre as palavras será facilitada, pois todas elas estarão inclusas em alguma categoria que, por si própria, já exprime um signicado. 11 12 CAPÍTULO 2. NORMAS PARA A ORGANIZAÇÃO DE TESAUROS As classes gramaticais como substantivos, adjetivos, verbos e advérbios podem fornecer um modo de organizar os itens em um tesauro. Contudo, como a quantidade de substantivos tende a ser maior que a quantidade de itens das outras categorias, e a classicação de determinados lexemas pode apresentar alguma diculdade, outras maneiras de organizar são necessárias. Alguns autores acrescentam a seus tesauros uma estrutura de facetas, que são as listas de palavras agrupadas em torno de um único conceito. Por exemplo, em um tesauro sobre literatura poderíamos ter as facetas apresentadas no seguinte exemplo retirado de [GOM90]: Por elementos da narrativa ESTRUTURA ENREDO PERSONAGENS ACTANTES ESPAÇO TEMPO Por ponto de vista ou foco narrativo NARRATIVA EM PRIMEIRA PESSOA NARRATIVA EM TERCEIRA PESSOA PERSONAGEM NARRADOR NARRADOR ONISCIENTE FLUXO DE CONSCIÊNCIA (LITERATURA) O tesauro de Roget em [ROG58] organiza seus itens de acordo com um plano de classicação que pretende facilitar a expressão de idéias e apoiar a composição literária. O plano de classicação divide as palavras em classes e em seções destas classes, da maneira como mostrado no exemplo abaixo (classes e seções em números romanos e divisões de classes em letras). I. Relações abstratas i. Existência ii. Relação iii. Quantidade iv. Ordem v. Número vi. Tempo vii. Mudança viii. Causa II. Espaço i. Em geral ii. Dimensões iii. Forma iv. Movimento III. Matéria i. Em geral ii. Inorgânica iii. Orgânica IV. Intelecto a) Formação das idéias b) Comunicação das idéias V. Vontade a) Individual b) Com referência à sociedade VI. Afeições i. Em geral ii. Pessoais iii. Simpáticas iv. Morais v. Religiosas 2.2. ESTRUTURAÇÃO DE TESAUROS 13 O tesauro de Roget conta com versões para o português do Brasil. Em [SAN50] o plano de classicação se manteve inalterado, enquanto que em [SPI52] o plano sofreu pequenas alterações. Estas alterações dizem respeito à utilização de subdivisões na seções Intelecto, Formação das idéias, Intelecto, Comunicação das idéias, Vontade, Individual e Vontade, Com referência à sociedade e à utilização de uma nomenclatura diferente para as classes utilizadas. 2.2 Estruturação de Tesauros A estruturação de um tesauro é um tópico muito importante, pois denirá o modo como o mesmo vai ser utilizado, se o mesmo oferece compatibilidade com outros tesauros existentes, vantagens e limitações em sua utilização. O conjunto de relações semânticas entre seus itens faz parte da estrutura básica de um tesauro. A seguir são apresentados os principais tipos de relações semânticas, conforme descritos por Jurafsky & Martin em [JUR00]: • Homonímia: ocorre quando dois itens lexicais de signicados distintos têm mesma escrita e pronúncia. Por exemplo, cadeia, segundo Ferreira em [FER99], pode ter diversos signicados distintos, entre eles: um conjunto de lojas ou estabelecimentos pertencentes a uma mesma rma e casa de detenção. • Sinonímia: ocorre quando duas palavras distintas em escrita e pronúncia têm o mesmo signicado. Por exemplo, toca-disco é sinônimo de vitrola. • Antonímia: ocorre quando duas palavras têm signicados contrários. Por exemplo, os adjetivos feliz e triste expressam idéias opostas. • Hiperonímia: ocorre quando o signicado de um lexema abrange o signicado de outro lexema, i.e. o signicado de um é mais genérico que o signicado de outro. Por exemplo, aeronave é um hiperônimo de teco-teco. • Hiponímia: é a relação inversa da hiperonímia. Ocorre quando um termo tem signicado mais restrito que outro termo. Por exemplo, tico-tico é um hipônimo de ave. • Meronímia: ocorre quando o signicado de um lexema faz parte ou é uma porção do signicado de outro lexema. Por exemplo, as palavras capa e folhas são merônimos de livro. 14 CAPÍTULO 2. NORMAS PARA A ORGANIZAÇÃO DE TESAUROS Estas relações são expressas de modo variado, em diferentes tesauros. Numa tentativa de guiar o desenvolvimento de tesauros, normas vêm sendo criadas. Na seção que segue serão descritas algumas normas existentes, no que se refere à criação de tesauros. 2.3 Normas Atualmente existem disponíveis diversas normas, nacionais e internacionais, para criação de tesauros. Com o advento da Internet e a grande necessidade da utilização de técnicas de RI, estas normas são de extrema importância em uma situação de possível interação entre tesauros. É importante que um tesauro não esteja limitado a uma única aplicação: a possibilidade de utilização de um mesmo tesauro em aplicações diferentes amplia sua utilidade. Desta forma, a adequação de um tesauro às normas existentes é uma garantia de que outras aplicações possam utilizá-lo. Nas seções seguintes serão descritas as principais características de algumas normas existentes para a construção de tesauros. Primeiramente apresentaremos a norma ISO 2788, depois a norma ANSI/NISO Z39.19 e, por último, um manual de elaboração de tesauros monolíngües desenvolvido para o português brasileiro. 2.3.1 ISO 2788 [ISO86] A International Organization for Standardization (ISO1 ) é uma instituição não governamental criada com a missão de promover o desenvolvimento de padronizações que facilitem a troca internacional de bens e serviços. O trabalho desenvolvido pela ISO resulta em normas internacionais que são publicadas como padrões ISO. Nesta seção estudaremos o padrão criado pela ISO para o desenvolvimento de tesauros monolíngües, denominado ISO 2788. A estrutura estabelecida pela norma ISO 2788 diferencia dois tipos de termos: (1) termo preferencial (TP), que deve ser utilizado como índice e deve representar um conceito único; e (2) termo não-preferencial (TNP), que remete o usuário a um termo preferencial sinônimo, ou quase-sinônimo. Os TPs podem ser representados por termos de uma ou mais palavras. Contudo, podem existir TPs homônimos, que requerem a utilização de qualicadores. Os TPs são anexados aos termos homônimos e devem, eles mesmos, ser TPs mais genéricos do que o termo que está sendo qualicado. O exemplo a 1 Note que ISO não é um acrônimo do nome da organização, e sim vem da palavra isos, do grego, signicando igualdade. 2.3. NORMAS 15 seguir apresenta alguns casos de TPs homônimos e qualicadores (segundo a norma ISO 2788). Mercúrio (metal) Mercúrio (planeta) Mercúrio (divindade romana) Receita (medicina) Receita (economia) Receita (culinária) A utilização de qualicadores não deve ser confundida com o uso de notas de escopo. As notas de escopo servem para expandir ou restringir a utilização de um TP. Uma nota de escopo não faz parte de um TP, como os qualicadores, e é relacionada a um termo com a utilização da etiqueta SN (Scope Note ). Enquanto os qualicadores são adicionados somente a palavras homônimas, as notas de escopo podem ser relacionadas a quaisquer termos. Nos seguintes exemplos são mostradas algumas notas de escopo (exemplos de [AIT00]). Income SN Income of individual organization or person. Otherwise use "National Income" Interior Lighting SN For lighting of specific buildings or spaces, combine with appropriate terms, e.g. "Shop lightings" use "Shops" and "Interior lightings". No primeiro caso mostrado, Income foi restringido e associado a outro termo, National Income, que deve guiar o usuário no caso de erro na busca. No segundo caso, foi adicionada uma nota a Interior Lighting para a utilização correta do termo, no momento de indexação. Mesmo não sendo uma prática obrigatória, em ambos os itens do exemplo as notas de escopo levaram o usuário do tesauro a outro termo distinto. A norma ISO 2788 não prevê mecanismos de controle para inconsistências nas referências recíprocas em notas de escopo. Entretanto, na norma ANSI/NISO Z39.19, que será apresentada na seção 2.3.2, esta referência a termos nas notas de escopo é feita de forma recíproca nos termos envolvidos. Outras formas de referência entre palavras são denidas com o uso de ligações ou relações semânticas. São denidos três tipos de relações semânticas nas normas ISO 2788: (1) equivalência; (2) hierarquia; (3) associatividade; A relação de equivalência, que representa sinônimos, quase-sinônimos e variantes lexicais (ex. óptica e ótica), é expressa através das ligações semânticas USE e UF (Used For ). 16 CAPÍTULO 2. NORMAS PARA A ORGANIZAÇÃO DE TESAUROS A relação USE é utilizada para ligar um TNP com um TP (por exemplo, entulho USE lixo) e a relação recíproca UF leva um TP a um TNP (por exemplo, lixo UF entulho). A hierarquia é representada de acordo com as ligações semânticas BT (Broader Term ) e NT (Narrower Term ). A relação BT (hiperonímia) é utilizada para ligar um termo especíco a outro termo mais genérico do mesmo (por exemplo, mamíferos BT vertebrados), e a relação NT (hiponímia) é utilizada de forma contrária: liga um termo genérico a outro mais especíco (por exemplo, plantas NT árvores). Uma característica importante é que um termo é relacionado a outro por hierarquia somente um nível por vez; portanto, a hierarquia entre palmeira e plantas (plantas NT árvores e árvores NT palmeira) não pode ser representada por plantas NT palmeira. As relações hierárquicas podem representar as relações entre um objeto e suas partes constituintes através das ligações BTP (Broader Term Partitive ) e NTP (Narrower Term Partitive ). Estas relações ocorrem quando um termo é parte constituinte de outro (por exemplo, cordas BTP violão e teclado NTP teclas). Outro tipo de relação semântica denido na norma ISO 2788 é a associatividade, que envolve as relações semânticas que não se enquadram na equivalência nem na hierarquia. Este tipo de ligação semântica é representado por RT (Related Term ), onde as relações podem ser simétricas (por exemplo, professores RT estudantes e estudantes RT professores) ou assimétricas (por exemplo, a relação oposta de briga RT raiva não é verdadeira pois, quando ocorre uma briga, normalmente existe raiva entre os envolvidos, porém a ocorrência do sentimento raiva não implica que uma briga necessariamente ocorra). A relação RT é a mais complexa de todas, pois pode representar diversos tipos de informações como: tempo (Papai Noel RT natal), lugar (ginástica RT academia), produtos (fotografia RT máquina fotográfica), causas (luta RT ódio), agentes (avião RT piloto), instrumentos (programador RT computador), aplicações (computador RT planilha eletrônica), complementos (marido RT mulher), entre outros. Existe também, denida na ISO 2788, a relação TT (Top Term ou termo superior) onde um TP relaciona-se com outro termo ou classe que divide um tesauro em seções (por exemplo, frutas TT botânica). Um número bastante grande de trabalhos utiliza as normas ISO 2788 como padrão para relações semânticas. Entre eles podemos citar [AMA99], [CRO01], [LEE99] e [TAY00]. A seguir apresentamos um fragmento de tesauro (retirado de [SIB01]) estruturado de acordo com a norma ISO 2788. 2.3. NORMAS Geografia Cartografia Cartografia Cartografia Cartografia Cartografia Cartografia GeoCartografia Atlas Atlas Atlas Atlas Geográfico Atlas Histórico Globo Imagem (Cartografia) Imagem (Cartografia) Imagem (Cartografia) Fotogrametria Imageamento de Radar Imageamento de Radar Mapas Mapas Cartas Geográficas 17 NT BT UF NT NT NT NT USE BT NT NT BT BT BT BT NT NT BT BT RT BT UF NT Cartografia Geografia GeoCartografia Atlas Globo Imagem (Cartografia) Mapas Cartografia Cartografia Atlas Geográfico Atlas Histórico Atlas Atlas Cartografia Cartografia Fotogrametria Imageamento de Radar Imagem (Cartografia) Imagem (Cartografia) Radar Cartografia Cartas Geográficas Mapas Na seção seguinte será apresentada a norma para criação de tesauros monolíngües dos Estados Unidos, denida pela ANSI/NISO. 2.3.2 ANSI/NISO Z39.19 [NIS93] A organização norte-americana National Information Standards Organization (NISO) é responsável pela denição dos padrões e normas da American National Standards Institute (ANSI) para a área de informação e biblioteconomia. Isto inclui tópicos como indexação, síntese e enumeração de documentos. Nesta seção apresentaremos uma norma denida pela NISO para o desenvolvimento de tesauros monolíngües: NISO Z39.19. A norma Z39.19 tem muitos pontos em comum com a norma ISO 2788, o que não invalida a descrição de suas principais características. É importante ressaltar que a maioria das normas da NISO deve ser vista como guias de desenvolvimento - onde são feitas recomendações - e não como normas inquebráveis ou obrigatórias. O padrão NISO Z39.19 utiliza as seguintes convenções para indicar a necessidade de determinadas recomendações: deve, quando se trata de algo obrigatório para seguir o padrão; deveria, quando se trata de algo que é recomendado; e pode, quando se trata de algo opcional. 18 CAPÍTULO 2. NORMAS PARA A ORGANIZAÇÃO DE TESAUROS Segundo as normas Z39.19, de modo análogo à norma ISO 2788, temos descritores e termos de entrada como sendo, respectivamente, termos preferenciais e termos não-preferenciais. Qualicadores são utilizados da mesma forma que a descrita na seção 2.3.1; contudo, ao contrário da ISO 2788, a norma Z39.19 sugere a utilização de referências cruzadas quando estas ocorrem nas notas de escopo. Segundo a norma Z39.19, a referência a termos nas notas de escopo e a referência recíproca deveriam ser feitas como mostrado a seguir: Income SN Income of individual organization or person. Otherwise use "National Income" National Income X SN Income A utilização do símbolo X indica que existe uma referência na nota de escopo de Income para National Income. Esta referência recíproca deve garantir que, quando algum destes termos for modicado ou excluído, o outro termo sofrerá as devidas mudanças. As relações semânticas denidas na norma Z39.19 são análogas às relações da ISO 2788, contudo algumas diferenças existem. Por exemplo, a relação TT não é denida na norma Z39.19. Outra diferença está nas relações de hierarquia. Segundo a norma Z39.19, estas relações cobrem três situações diferentes e mutuamente exclusivas: (1) relação genérica; (2) relação de partetodo; e (3) relação de instância. Na relação genérica, os termos podem se relacionar através das relações semânticas BTG (Broader Term Generic ) e NTG (Narrower Term Generic ). Este tipo de relação ocorre quando um termo representa uma classe e o outro representa um membro desta classe (por exemplo, homem BTG mamífero e veículos NTG automóveis). A relação parte-todo é representada pelas ligações BTP e NTP, análogas às relações denidas na ISO 2788. Na relação de instância os termos se relacionam através das ligações BTI (Broader Term Instance ) e NTI (Narrower Term Instance ). Este tipo de relação ocorre quando um termo é uma instância de outro. O termo genérico é um substantivo comum, porém as instâncias são nomes próprios (por exemplo: Everest BTI Montanhas e Países NTI Brasil). Diversos trabalhos utilizam as normas denidas em NISO Z39.19. Entre eles está o sistema CERES/BRD de tesauros descrito em [CER01]. Este sistema propõe a integração de diferentes tipos de tesauros através de um servidor HTTPD, que converteria as representações internas em arquivos 2.3. NORMAS 19 RDF/XML de acordo com a norma NISO Z39.19. Assim, clientes diferentes, que utilizam as normas ANSI, poderiam utilizar tesauros diferentes, o que demonstra a utilidade das normas estabelecidas na construção de sistemas que utilizam tesauros. Na seção seguinte serão abordadas as principais características descritas em [GOM90], que conguram um manual para a elaboração de tesauros monolíngües escrito no Brasil pelo Programa Nacional de Bibliotecas das Instituições de Ensino Superior. 2.3.3 Manual de Elaboração de Tesauros Monolíngües [GOM90] O Manual de Elaboração de Tesauros Monolíngües (METM) foi desenvolvido pelo Programa Nacional de Bibliotecas das Instituições de Ensino Superior sob o patrocínio do Ministério de Educação e do Ministério de Ciência e Tecnologia. Este trabalho é similar às normas internacionais apresentadas anteriormente, com a diferença de que foi desenvolvido no Brasil e para o português do Brasil. Iremos considerar este manual como uma norma para criação de tesauros. O METM dene a utilização de contextualizadores para a diferenciação de sentido entre palavras homônimas. Sua utilização é idêntica à dos qualicadores das normas ANSI e ISO, como pode ser visto no seguinte exemplo. INDEXAÇÃO (ECONOMIA) INDEXAÇÃO (DOCUMENTAÇÃO) Nas normas ANSI e ISO, apresentadas nas seções anteriores, foi descrita a utilização de notas de escopo para denir, ampliar ou restringir a utilização dos termos em um tesauro. Estas notas de escopo são denidas no METM como notas de aplicação e são anexadas junto aos termos, sem a utilização de código algum, como veremos no exemplo a seguir. A falta de um símbolo agregado às notas de aplicação diculta a denição XML das normas METM. ENTRADA DE DOCUMENTOS Excluir recolhimento e transferência ABSORÇÃO Fenômeno. Inclui absorção de radiação eletromagnética. O próximo exemplo ilustra outra característica denida pelo METM: a possibilidade de utilização de denições (Df) que explicam o signicado real dos termos, junto aos mesmos. 20 CAPÍTULO 2. NORMAS PARA A ORGANIZAÇÃO DE TESAUROS DÍVIDA Df Saldo acumulado de empréstimos (tomados e ainda não pagos) DÍVIDA PÚBLICA Df Dívida tomada pelo governo A utilização de denições é diferente da utilização de contextualizadores, pois as denições devem fornecer o máximo de características sobre um conceito denido por um termo, enquanto que os contextualizadores buscam distinguir dois termos homônimos, e não descrever o seu signicado. Os termos preferenciais e não-preferenciais da ISO são respectivamente denominados, neste manual, termos preferidos e não-termos. É feita também uma diferenciação tipográca entre eles: os termos preferidos são escritos em maiúsculas enquanto que os não-termos são escritos em minúsculas. O seguinte exemplo ilustra esta diferenciação tipográca. BEBIDAS NÃO-ALCOÓLICAS UP Refrigerantes Refrigerantes USE BEBIDAS NÃO-ALCOÓLICAS A relação semântica utilizada no exemplo anterior é a equivalência, e é representada através da utilização dos códigos UP (Usado Por) e USE. Como apresentado no exemplo acima: um termo preferido utiliza a relação UP para referenciar um não-termo, e um não-termo utiliza a relação USE para referenciar um termo preferido. Existem casos onde uma expressão é representada por mais de um conceito. O manual METM dene este tipo de relação como equivalência dupla. O próximo exemplo ilustra este tipo de relação, onde um sinal + (mais) é adicionado na notação da relação UP, indicando que a equivalência não é completa, i.e. existe outro termo que complementa a relação. Arquivos nacionais de Medicina USE ARQUIVOS NACIONAIS E ARQUIVOS DE MEDICINA ARQUIVOS NACIONAIS UP+ Arquivos nacionais de Medicina ARQUIVOS DE MEDICINA UP+ Arquivos nacionais de Medicina Outro caso explicado no METM é a equivalência alternativa, onde uma palavra que é de uso muito geral passa a tornar-se vazia em signicado. A 2.4. ORGANIZAÇÃO DE TESAUROS 21 utilização destas palavras como não-termo em um tesauro deve indicar os termos preferidos como alternativas para as mesmas. São utilizados, para este tipo de relação, os símbolos VER e VD (Visto De) indicando que, para um determinado termo, existem outras alternativas que devem ser vistas. O próximo exemplo ilustra este tipo de equivalência. Planta VER UTILIDADES DE PLANTA INDUSTRIAL OU PLANTA INDUSTRIAL OU PLANTA (BOTÂNICA) OU UNIDADE DE TRATAMENTO UTILIDADES DE PLANTA INDUSTRIAL VD Planta PLANTA INDUSTRIAL VD Planta PLANTA (BOTÂNICA) VD Planta UNIDADE DE TRATAMENTO VD Planta De forma similar à norma ISO, são denidas no METM as relações semânticas de hierarquia como TG (Termo Genérico), TGP (Termo Genérico Partitivo), TE (Termo Especíco) e TEP (Termo Especíco Partitivo). As relações semânticas partitivas são utilizadas quando um termo é parte constituinte de outro termo (por exemplo, CABEÇA TEP CORPO e ÁRVORE TGP RAIZ), e as outras relações de hierarquia (TG e TE) são utilizadas para os outros casos (instância, etc.). A última ligação semântica denida pelo METM é o TA (Termo Associado) que, como o RT nas outras normas, é utilizado quando uma relação não se encaixa nas outras denições anteriores (hierarquia ou equivalência). Acredita-se que o METM seja muito importante, e possa servir de base para futuros trabalhos, pois é similar às normas internacionais, com a principal diferença de ter sido desenvolvido para o português do Brasil. 2.4 Organização de tesauros A seguir descreveremos brevemente trabalhos que demonstraram preocupação com a portabilidade do sistema, desenvolvendo a estrutura de acordo com alguma norma apresentada anteriormente, e em arquivos de formato padrão como XML e RDF. Estes trabalhos foram escolhidos por sua proximidade com o foco desta dissertação. 22 CAPÍTULO 2. NORMAS PARA A ORGANIZAÇÃO DE TESAUROS 2.4.1 TML: A Thesaural Markup Language Este trabalho, apresentado em [LEE99], explora regularidades em tesauros bem conhecidos e baseados em padrões como a ISO 2788, para a criação de uma ontologia tesaural genérica (GTO2 ). Esta ontologia permite que, com pequenas adaptações, ou como uma extensão da GTO, um tesauro baseado no padrão ISO 2788 seja convertido para arquivos TML/XML. A aplicação de Lee et al. em [LEE99] demonstrou que um suporte genérico a tesauros é viável, por meio do desenvolvimento de uma ontologia tesaural genérica e de uma linguagem de marcação, que permite a representação de diferentes estruturas de tesauros. A linguagem TML foi criada utilizando as especicações da metalinguagem XML. XML propõe-se a ser um formato universal para troca de dados na Internet, e permite a criação de linguagens de marcação para representar diversos tipos de estruturas de dados. A denição de uma linguagem de marcação para representar, de acordo com a norma internacional ISO 2788, tesauros em XML, demonstra a preocupação dos autores com a utilização não restrita a um ambiente ou aplicação, de forma que a linguagem possa ser amplamente utilizada. O trabalho de Lee et al. é similar ao presente trabalho por ter, como preocupação, o desenvolvimento e a utilização de uma estrutura que possa representar uma grande variedade de tesauros. Contudo, o TML preocupa-se exclusivamente em representar tesauros que estejam de acordo com a norma ISO 2788, diferentemente de nosso trabalho, onde a preocupação é buscar uma estrutura voltada à recuperação de informação, mesmo que esta não tenha uma representação correspondente na norma ISO 2788. Nosso trabalho empregou a norma internacional ISO 2788 como um ponto de partida para uma representação única, visando a utilização dos tesauros de forma automática por processos de recuperação de informações. Embora não tendo uma preocupação com tesauros que utilizam relações semânticas diferentes da ISO 2788, a linguagem TML consegue ser sucientemente abrangente de forma a representar quaisquer tesauros que contenham estas relações, mesmo que a estas relações sejam atribuídos diferentes nomes. Esta característica possibilita converter tesauros baseados na norma ISO 2788 que estejam em formatos diferentes (bancos de dados relacionais, tabelas ASCII, etc.) mantendo a nomeclatura original das relações entre os termos deste tesauro. Isto é interessante pois o tesauro pode ser utilizado como originalmente proposto, alterando somente o tipo de base de dados. A diferente nomeclatura para os tipos de termos e relações não torna um tesauro incompatível 2 Do inglês Generic Thesaural Ontology 2.4. ORGANIZAÇÃO DE TESAUROS 23 com a norma ISO 2788. Por exemplo, um tesauro de acordo com a norma ISO 2788 poderia denir seus termos não-preferenciais com o nome de Termos Proibidos e seus termos preferenciais como Termos Autorizados. 2.4.2 Zthes Este trabalho, apresentado em [TAY00], descreve um modelo abstrato para a representação e busca em tesauros representados sob a forma de banco de dados de termos interconectados. Cada termo individual é representado como um registro deste banco de dados. Na busca por simplicidade e funcionalidade, mesmo os termos não preferenciais são representados por registros únicos. Esta característica é seguida em nosso trabalho, onde também é necessária a criação de todos os termos referenciados no tesauro, sejam eles preferenciais ou não. Os tipos de relações semânticas denidas em Zthes estão de acordo com a norma ISO 2788, com exceção da relação LE (Linguistic Equivalent ), denida na norma ISO 5964 (veja [ISO85]), utilizada para representar o mesmo conceito (ou conceitos "sucientemente parecidos") em linguagens diferentes. Em [TAY00] é apresentada a descrição de um DTD (Document Type Denition ) para XML que representa esta base de dados, demonstrando a preocupação dos autores em fornecer maior portabilidade para as interfaces Web para este tesauro. 2.4.3 RDF Thesaurus Specication Este trabalho, apresentado em [CRO01], propõe uma representação RDF de diversas relações conceituais típicas de vocabulários controlados (tesauros, sistemas de classicação, etc.). A meta do trabalho é explorar o uso de RDF como um formalismo comum para representar uma variedade de diferentes tesauros, o que é facilitado com a utilização das relações semânticas denidas na norma ISO 2788. Em seu trabalho, Cross et al. preferiram separar conceitos e termos, da seguinte forma: o conceito de cão, por exemplo, será indicado pelos termos de valores cão e cachorro. Portanto, as relações BT (Broader Term ou termo mais abrangente) e NT (Narrower Term ou termo mais especíco), denidas na ISO 2788, são substituídas por BC (Broader Concept ou conceito mais abrangente) e NC (Narrower Concept ou conceito mais especíco). Foi criado um esquema RDF/XML que demonstra que este tipo de rede de termos e conceitos inter-relacionados pode ser utilizado a partir de um ou mais tesauros, isto sendo possível através da utilização de URI (Universal 24 CAPÍTULO 2. NORMAS PARA A ORGANIZAÇÃO DE TESAUROS Resource Identier ). É possível também a utilização de diferentes linguagens, uma vez que um termo pode ser ligado a um identicador de linguagem. O trabalho de Cross et al. é interessante pois utiliza a norma ISO 2788 de forma crítica, não se limitando ao que a norma estabelece, trazendo pequenas mudanças em sua forma de utilização. 2.4.4 CERES/BRD Thesaurus Este trabalho, apresentado em [CER01], propõe a integração de diferentes tesauros, de diferentes formatos e armazenados em diferentes tipos de banco de dados, através da utilização de um servidor HTTPD. Este servidor converteria as representações internas dos tesauros em uma representação padrão, em arquivos RDF/XML, de acordo com a norma NISO Z39.19. Assim, clientes diferentes poderiam utilizar diversos tesauros. Cada servidor HTTPD é responsável pela conversão de um tesauro, e a utilização de tesauros diferentes é feita através de URIs, que servem para identicar localizações ou sites diferentes na Internet. Este trabalho é interessante pois propõe a integração no uso de diferentes tesauros, através de uma interface padrão ao usuário. 2.5 Considerações sobre o capítulo Neste capítulo foram descritos alguns tópicos importantes na organização da estrutura de um tesauro monolíngüe. Foram apresentadas as principais normas internacionais (ANSI e ISO) juntamente com um manual brasileiro, desenvolvido pelo Ministério de Educação e pelo Ministério de Ciência e Tecnologia. Optou-se por não apresentar, neste capítulo, a norma britânica para a construção de tesauros monolíngües BS 5723. Esta norma não oferece grandes mudanças em relação à norma ISO 2788 e, além do mais, não foram encontrados trabalhos que expliquem ou utilizem esta norma. Podemos notar que os trabalhos citados na seção 2.4 tiveram em comum a utilização da norma internacional ISO 2788, e modelos de arquivos XML, além de estes trabalhos buscarem a representação de uma ampla gama de tesauros. Isto nos reforça a motivação de que a utilização de normas internacionais, junto ao padrão de troca de arquivos na Internet, XML, seja um bom caminho para o desenvolvimento de tesauros. O próximo capítulo descreverá a utilização das relações semânticas de um tesauro junto a técnicas de RI. Capítulo 3 Relações semânticas e recuperação de informação O capítulo anterior apresentou a organização de um tesauro e sua estruturação através de relações semânticas denidas por normas nacionais e internacionais, junto a alguns trabalhos que utilizaram as recomendações presentes nas normas. O presente capítulo apresenta a utilização de relações semânticas na RI, sendo que inicialmente serão abordadas as relações semânticas denidas nas normas já vistas e, logo após, será abordada a utilização de relações semânticas extraídas de forma automática. 3.1 Relações semânticas nas normas e na RI As relações semânticas explicitadas nas normas estudadas no capítulo 2, oferecem meios para que sejam aplicadas as técnicas de controle de vocabulário e de expansão de consulta. As normas ANSI e ISO armam que o emprego de suas relações é útil para a RI, e esta seção buscará analisar onde estas normas podem ser utilizadas. Nesta seção será utilizada a simbologia da norma ISO, e usaremos os três tipos de relações denidas por ambas as normas ISO e ANSI, a saber: (1) Equivalência, (2) Hierarquia e (3) Associação. 3.1.1 Relações de equivalência A relação de equivalência, segundo a norma ANSI para a construção de tesauros monolíngües em [NIS93], inclui três tipos de relações: (1) palavras sinônimas, (2) quase-sinônimas e (3) variantes lexicais. 25 26 CAPÍTULO 3. RELAÇÕES SEMÂNTICAS E RI As relações de equivalência, utilizadas com técnicas de vocabulário controlado, buscam a utilização de TPs como termos de indexação e busca. Desta forma a busca e a indexação serão feitas sobre os mesmo termos. A primeira etapa, conforme [LEW96], deve ser a normalização dos termos para uma forma padrão (por exemplo, a utilização do singular ou do plural, do masculino ou do feminino). Na etapa seguinte deve ser encontrado um TP que represente o termo proposto para a indexação ou busca, e os seguintes casos são possíveis: • O termo proposto é TP e não existem formas homônimas. Neste caso deve ser utilizado o próprio termo proposto para a indexação e busca. • O termo proposto é TNP e não existem formas homônimas. Neste caso deve ser utilizado o termo TP equivalente ao TNP sugerido para a indexação e busca. • Existem formas homônimas TPs ou TNPs. Neste caso deve ser resolvida a ambigüidade, o que pode ser feito de forma manual - perguntando ao usuário Qual o signicado do termo X? e oferecendo os TPs equivalentes a X - ou automática - encontrando o conceito correto pelo contexto dos outros termos utilizados. Segundo Voorhees, em [VOO98], as palavras homônimas diminuem a precisão1 de um sistema pois geram resultados falsos e mascaram o resultado da consulta a sinônimos, já que resultados verdadeiros podem ser perdidos. Contudo, pode ocorrer uma melhora na RI caso a busca seja baseada nos conceitos que a palavra representa, e não na própria palavra. Esta idéia está bastante presente ao ser feita a diferenciação entre TP e TNP, em um vocabulário controlado para a indexação de documentos. Nesta fase procura-se normalizar as palavras-chave de indexação para os respectivos TP, que representam conceitos e devem ser utilizados futuramente na busca de informações. O controle de vocabulário pode ser utilizado quando existe uma política clara para a indexação de documentos, e existe um controle central deste processo. Em grandes bases de documentos em que o processo de indexação é feito automaticamente (como, por exemplo, a Internet) a utilização de vocabulário controlado passa a ser bastante difícil. Outra forma de utilização das relações de equivalência, diferente do controle de vocabulário, diz respeito à expansão dos termos da consulta. 1 Número de documentos relevantes encontrados dividido pela quantidade total de documentos encontrados. 3.1. RELAÇÕES SEMÂNTICAS NAS NORMAS E NA RI 27 Como já descrito na seção 1.4, a técnica denominada expansão de consulta consiste em encontrar sentido e contexto corretos para um grupo de termos e, a partir deste ponto, utilizar outros termos que representem o mesmo sentido. Esta técnica pode ser utilizada no momento da consulta a uma base de dados onde os documentos foram indexados livremente (i.e. sem controle do vocabulário de indexação), para que o maior número de documentos relevantes seja encontrado. A livre indexação de documentos é usualmente realizada por processos automáticos de catalogação quando grande quantidade de documentos necessitam ser indexados. Podem ser utilizadas como índice as palavras-chave de um documento, ou mesmo todas as palavras existentes em um documento. A indexação através de todas as palavras de um documento é a forma de catalogação utilizada, atualmente, pela maioria das ferramentas de busca na WWW. Na expansão de consultas, a função das relações de equivalência é clara, uma vez que a utilização de termos sinônimos, quase-sinônimos e variantes lexicais representa conceitos iguais. A busca pelos conceitos corretos ou um conceito único que expresse uma série de termos é um trabalho mais complexo e requer a utilização de relações semânticas de hierarquia. 3.1.2 Relações de hierarquia As relações BT, NT e suas variantes (BTI, NTI, BTP, NTP, etc.) denidas pelas normas apresentadas no capítulo 2, são utilizadas para denir relações de hiperonímia, hiponímia e meronímia. Estas relações semânticas têm grande utilidade na RI, pois é possível, através delas, representar árvores ou reticulados2 muito úteis para sintetizar conceitos ou encontrar o contexto de consultas e documentos. A resolução da ambigüidade das palavras homônimas, ou word sense disambiguation, é um processo que utiliza relações hierárquicas. O trabalho de Voorhees em [VOO98] utiliza a WordNet3 e apresenta a resolução do sentido de uma palavra através da utilização de uma construção chamada hood. Um hood é uma área da WordNet, representada por ligações hierárquicas entre synsets 4 , onde uma seqüência de caracteres não é ambígua. Nota-se 2 Um reticulado é um conjunto parcialmente ordenado (neste caso, de forma hierárquica) onde toda dupla de elementos A e B possui um único ínmo e um único supremo. Os elementos ínmos de A e B são os maiores elementos do conjunto de todos os elementos menores que A e B . Os supremos de A e B são os menores elementos do conjunto de todos os elementos maiores que A e B . 3 A WordNet é um tesauro que visa modelar o conhecimento lexical de um falante da língua inglesa. É denida por seus autores como uma base de dados lexicais e pode ser utilizada online em http://www.cogsci.princeton.edu/ ∼wn/ 4 Na WordNet, synsets são conjuntos de palavras sinônimas ou quase-sinônimas que 28 CAPÍTULO 3. RELAÇÕES SEMÂNTICAS E RI Matérias Química Metais Mercúrio (Metal) Astronomia Planetas Mercúrio (Planeta) Vênus (Planeta) Mitologia Satélites Naturais Luas Divindades Romanas Mercúrio (Divindade) Vênus (Divindade) Figura 3.1: Resolução do contexto de uma consulta que é utilizada a expressão seqüência de caracteres e não termos, i.e. a palavra protetor por exemplo, poderia delimitar um hood através do termo protetor solar. A resolução da ambigüidade pode ser feita ao relacionar a palavra ambígua com outras palavras que ocorram na indexação ou busca. Se algumas destas palavras ocorrem em um determinado hood, isto é uma pista de que esta estrutura pode ser o contexto correto da palavra homônima. A Figura 3.1 demonstra este método de resolução de contexto para a consulta Luas de Mercúrio e Vênus. A Figura 3.1 representa a resolução da ambigüidade da palavra Mercúrio através da utilização de hoods da WordNet. Neste sistema existem três hoods para a palavra Mercúrio: (1) Química - Mercúrio (metal); (2) Astronomia - Mercúrio (planeta); e (3) Mitologia - Mercúrio (divindade romana). Para a resolução do contexto da consulta luas de Mercúrio e Vênus, são utilizadas as outras palavras da consulta para vericar se estas aparecem no contexto de alguma hood. A palavra Vênus está inserida nas hoods 2 e 3, e a palavra Luas está inserida na hood 2. Desta forma a hood que será utilizada é a 2, pois é a hood em cujo contexto mais palavras da consulta se encaixam. Voorhees em [VOO98] arma que o problema das palavras homônimas diminuindo a precisão na RI não é severo, a menos que uma consulta seja muito curta, a ponto de não ser encontrado o contexto correto. É o caso que ocorre quando uma palavra homônima é utilizada na RI, e os diferentes signicados para esta palavra devem aparecer nos documentos recuperados. Por outro lado, quando mais palavras são utilizadas na consulta, os sentidos incorretos da palavra homônima tendem a perder importância na RI. Em 3.1.1 foi abordada a utilização da expansão de consultas e a necessirepresentam um único conceito. 3.1. RELAÇÕES SEMÂNTICAS NAS NORMAS E NA RI Nation The Inferred Object 0.9 Oriental State 0.9 0.9 Capitalistic State 0.9 0.9 0.9 0.9 Japan 0.9 China 0.9 Western State 0.9 Korean 29 Socialist State 0.9 0.9 0.9 0.9 0.9 0.9 0.9 0.9 Britain U.S.A. France Russia The Objects Represented in the Query Figura 3.2: Supremo de consulta ∨ (retirada de [HAN98]) dade de relações hierárquicas para encontrar um conceito que sintetize outros conceitos ou termos. A síntese de conceitos e termos é possível através da interpretação semântica de uma consulta. Alguns trabalhos (por exemplo, [HAN98] e [COL96]) realizam a síntese de conceitos através da visualização das relações de hierarquia como uma cadeia de ordem parcial ou reticulado de conceitos. Desta forma, uma consulta envolvendo diversos termos e operadores ∨ (ou) poderia buscar um ou mais conceitos genéricos aos termos envolvidos, através da resolução dos supremos destes termos. A Figura 3.2, retirada de [HAN98], exemplica a consulta Korean ∨ Japan ∨ China. De modo análogo, as consultas que utilizam o operador ∧ (e) buscam termos mais especícos através da resolução dos ínmos dos termos envolvidos. A Figura 3.3, também retirada de [HAN98], exemplica a consulta Oriental State ∧ Capitalistic State. Como é visto na Figura 3.3, a resolução dos termos ínmos desta consulta retornou mais de um termo, Korean e Japan, pois ambos são instâncias (NTI na norma ANSI/NISO Z39.19) de Oriental State e Capitalistic State. Os termos e conceitos retornados através da resolução de conceitos mais genéricos ou especícos, podem ser incluídos na expansão de consultas, de modo que outras informações relevantes possam ser encontradas. A inclusão de um termo mais genérico deve aumentar o número de resultados de uma consulta e, por conseguinte, aumentar o número de resultados falhos. Contudo, segundo Voorhees em [VOO98], é muito mais danoso para um sistema de RI perder um bom resultado do que fazer alguns poucos chutes falsos. A seguir serão abordadas as relações associativas, sua importância e diculdades inerentes na RI. 30 CAPÍTULO 3. RELAÇÕES SEMÂNTICAS E RI Nation 0.9 0.9 0.9 0.9 The Objects Represented in the Query Oriental State Capitalistic State Western State 0.9 0.9 0.9 0.9 0.9 Korean Japan 0.9 0.9 0.9 0.9 0.9 0.9 Socialist State 0.9 0.9 0.9 China Britain U.S.A. France Russia The Inferred Object Figura 3.3: Ínmos de consulta ∧ (retirada de [HAN98]) 3.1.3 Relações associativas Diversos trabalhos, como [BEC01], [HAN98] e [TUD01], salientam a importância e a diculdade da utilização das relações associativas para a expansão de consulta e a recuperação de informação. As relações do tipo RT representam uma classe de relações não hierárquicas, para as quais, segundo Tudhope et al. em [TUD01], a construção e aplicação na RI é menos clara que para outros tipos de relações. Uma relação RT pode ser muito vaga, o que pode levar à adição de termos inúteis a uma consulta expandida e ocasionar a queda da precisão do sistema. Para tentar minimizar este tipo de efeito são utilizadas técnicas que propõem medir a distância entre conceitos semânticos, normalmente baseadas no número de relações existentes entre dois conceitos. De acordo com [TUD01], a menos que a consulta relembre bastante uma relação RT, este tipo de medição é mais conável quando utilizado sobre relações hierárquicas. Tudhope et al. em [TUD01], exemplicam a utilização das relações RT na expansão de consulta, auxiliadas pelas relações hierárquicas e medidas de distância entre conceitos. A Figura 3.4, retirada de [TUD01], apresenta as relações semânticas BT e RT do Art and Architecture Thesaurus (AAT), ao redor do termo Axes (weapons). Observe que a relação BT das hierarquias, nalizando nas categorias iniciais (Tools & Equipment e Weapons & Ammunition ), poderia ser substituída pela relação TT da norma ISO 2788. Tudhope et al., em [TUD01], realizam a expansão do termo Axes (weapons), de três modos distintos: (1) expansão pelas relações BT/NT; (2) expansão pelas relações BT/NT e RT; e (3) expansão pelas relações BT/NT e RT excluindo relações RT de hierarquias diferentes. Para cada expansão 3.1. RELAÇÕES SEMÂNTICAS NAS NORMAS E NA RI 31 Tabela 3.1: Expansão através de relações RT (retirada de [TUD01]) Termo axes(weapons) tomahawks(weapons) battle-axes edged weapons axes halberds pollaxes gisarmes cerimonial axes throwing axes hatchets franciscas chip axes berdyshes sta weapons sword sticks harpoons Distância Termo Distância 0 0.6 0.6 1 1 1 1 1 1 1.1 1.4 1.53 1.6 1.6 1.75 1.75 1.75 bayonets daggers(weapons) st weapons swords <projectiles with ... adze-hatchets hewing hatchets lathing hatchets shingling hatchets cutting tools fasces Pulaskis <ceremonial weapons> <wood-cutting and ...> arrows machetes darts 1.75 1.75 1.75 1.75 1.77 1.9 1.9 1.9 1.9 2 2 2 2 2.15 2.33 2.33 2.33 Tool & Equipment Weapons & Ammunition BT RT(1) RT(4) weapons <cutting tool> edged weapons Pulaskis <wood−cutting and finishing tools> Axes (tools) Axes (weapons) staff weapons pollaxes tomahawks (weapons) Battle−axes throwing axes gisarmes halberds hatchets franciscas other staff weapons ... Figura 3.4: Relações semântica do AAT (retirada de retirada de [TUD01]) realizada, foi feita a medição da distância semântica dos termos obtidos ao termo expandido, o que demonstra a relevância dos termos para a consulta. As medidas e os termos obtidos (e excluídos) são mostrados na Tabela 3.1, retirada de [TUD01] (observe que os termos sublinhados representam as relações excluídas, e os termos em itálico representam as relações vindas de RT). De acordo com esta técnica, alguns termos, como axes (tools), são excluídos por pertencerem a uma hierarquia diferente, mesmo com uma distância 32 CAPÍTULO 3. RELAÇÕES SEMÂNTICAS E RI semântica pequena. Devido à implementação mono-hierárquica do tesauro utilizado por Tudhope et al., alguns termos, como hatchets e machetes, que são tanto Weapons & Ammunition e Tools & Equipment são excluídos por só poderem estar representados em uma hierarquia. Os valores da distância semântica dependem da quantidade de termos entre um termo e outro e dos tipos de relações entre os termos. Os tipos de relações têm pesos diferentes: a relação de equivalência e a relação hierárquica têm pesos menores que as relações associativas. Desta forma, os autores consideram que as relações de equivalência e as relações hierárquicas relatam uma proximidade semântica maior que as relações associativas. 3.2 Utilização de relações extraídas de forma automática Tesauros construídos de forma manual podem representar relações semânticas ricas em conteúdo, o que é bastante útil na RI. Contudo, o custo do desenvolvimento manual de um tesauro é alto, o que leva ao desenvolvimento automático. O desenvolvimento automático de tesauros é uma alternativa que tem gerado resultados bastante precisos (veja [GAS01] e [GRE94]). Porém a utilização, junto à RI, de tesauros criados automaticamente, é mais difícil e menos clara, pois estes tesauros expressam com diculdade a semântica das relações entre palavras. Mesmo em tesauros onde as relações semânticas não estão explicitadas, é possível fazer uma avaliação de utilidade na RI. Para isto é medida a relevância dos resultados obtidos quando utilizados tais tesauros na expansão de consulta. No trabalho de Jing & Croft em [JIN94] é realizada a expansão de consultas em linguagem natural. Um módulo desenvolvido pelos autores, denominado PhraseFinder, retorna uma lista de termos ordenados por relevância, associados às palavras da consulta. Dada esta lista, são utilizados os seguintes métodos, em [JIN94], para determinar quais termos serão empregados na expansão da consulta: • somente duplicados: somente os termos duplicados são adicionados às consultas. Um termo é duplicado quando, dada uma consulta, todas as palavras que constituem este termo formam um subconjunto da consulta original. Por exemplo, para a consulta anotações da escola na agenda, o termo agenda escolar seria incluído por este método, pois 3.3. CONSIDERAÇÕES SOBRE O CAPÍTULO 33 está associado a agenda, e ambas as palavras pertencem5 à consulta original. • não-duplicados: termos não duplicados são adicionados à consulta. Por exemplo, para a consulta anotações da escola na agenda, os termos notas, colégio e caderno seriam adicionados por este método. • ambos duplicados e não-duplicados: ambos os tipos de termos descritos anteriormente seriam adicionados à consulta. A utilização destes métodos para a expansão de consultas foi avaliada em [JIN94] e demonstrou ser bastante promissora. Os autores salientam que algumas questões continuam não resolvidas. Por exemplo, como determinar qual o número correto de termos que devem ser adicionados a uma determinada consulta? Em determinadas consultas, um número alto de termos adicionados melhora a eciência, enquanto que, em outras, a eciência é degradada. Em outra estratégia de utilização de relações provenientes de tesauros criados automaticamente, Mandala et al., em [MAN99] e [MAN99a], utilizam as relações descobertas automaticamente com a utilização de um cálculo de similaridade entre a consulta e os termos do tesauro, utilizando para isto o pesos destas relações entre os termos. Nestes trabalhos, caso a medida calculada de similaridade dos termos do tesauro com os termos de uma consulta seja maior que determinado valor, estes termos são adicionados à consulta expandida. Em ambos os estudos apresentados, Mandala et al. relatam melhora na RI. 3.3 Considerações sobre o capítulo Este capítulo apresentou a aplicação das relações semânticas entre termos na RI. Foram apresentados alguns métodos de RI que utilizam as relações denidas nas normas vistas no capítulo 2, enquanto que, ao nal, foi apresentada a expansão de consulta com a utilização de relações entre termos onde a semântica das relações não é conhecida. No próximo capítulo é proposta uma estrutura tesaural que engloba diferentes características de diferentes tesauros. Esta estrutura multitesauro deverá representar relações que serão utilizadas em tarefas de RI. 5 Observe que a palavra escola difere de escolar, mas elas são consideradas equivalentes em relação à base ou raiz. 34 CAPÍTULO 3. RELAÇÕES SEMÂNTICAS E RI Capítulo 4 A Proposta de uma Estrutura Multitesauro O capítulo anterior apresentou a utilização de relações semânticas na RI. Neste capítulo é apresentada a proposta que concentra esta dissertação: uma estrutura tesaural que englobe diversos aspectos de diferentes tesauros. Primeiramente, na seção 4.1, são apresentados os tesauros obtidos para a utilização nesta pesquisa. A seção 4.2 apresenta uma estrutura inicial baseada na norma ISO 2788. A seção 4.3 descreve as etapas efetuadas até a proposta da estrutura nal empregada neste trabalho. 4.1 Tesauros utilizados Na introdução desta dissertação, descrevemos a importância da estruturação de tesauros para a RI, contextualizando que a estrutura desenvolvida é importante no contexto do projeto SEMA, em desenvolvimento nesta Universidade. Nossa estrutura foi inicialmente baseada no padrão ISO 2788 denido em [ISO86], dado que, atualmente, a maioria dos tesauros disponíveis pode ser facilmente convertida para este padrão. Algumas instituições generosamente ofereceram seus tesauros para serem utilizados em nossa pesquisa. Os tesauros obtidos apresentam-se de diferentes formas, mas são igualmente úteis: • Vocabulário Controlado Básico do Senado, ou VCBS, é um tesauro bastante organizado que contém a grande maioria das características descritas na norma ISO 2788. A lista de palavras contidas no VCBS cobre diferentes áreas do conhecimento, e é utilizada pelos prossionais da Biblioteca do Senado Federal na catalogação do material existente em 35 36 CAPÍTULO 4. ESTRUTURA MULTITESAURO sua biblioteca. Mais informações sobre este tesauro podem ser encontradas no endereço http://webthes.senado.gov.br/thes/, que funciona como interface Web para consultas a este tesauro. • Vocabulário Controlado USP, ou VCUSP (veja [SIB01]), contém uma grande quantidade de conceitos que são muito úteis aos prossionais de biblioteca, ajudando no processo de indexação de documentos. Este tesauro cobre muitas áreas diferentes através de relações de equivalência e hierarquia. O VCUSP é um produto distribuído em CD-ROM e é normalmente utilizado através de um software agregado ao produto. Mais informações podem ser obtidas em http://www.usp.br/sibi/. • Lista de descritores da PUCRS, ou LDPUCRS, é uma lista com 55565 termos, contendo somente a relação de equivalência expressa entre os termos. O LDPUCRS não foi construído para ser um tesauro, mas para ser uma lista de termos autorizados, a ser utilizada pela Biblioteca Central Ir. José Otão, da PUCRS. Por isso muitos termos não contêm relações com outros termos na lista de descritores. Decidiu-se utilizar esta lista, pois a relação de equivalência nela existente é importante e os termos que não apresentam relações com os demais podem ser utilizados como indicações de termos compostos1 importantes. • Lista de Termos Obtida por Cálculo de Similaridade Sintática, ou LTOCSS, é um tesauro construído de forma automática com uso das técnicas descritas por Grefenstette em [GRE94], e adaptadas para o português por Gasperin [GAS01a]. Este tesauro é dependente de corpus e foi construído utilizando um corpus sintaticamente etiquetado do jornal Folha de São Paulo do ano de 1994. Este corpus contém diferentes seções que tratam de assuntos como: agricultura, esportes, televisão, informática e variedades. A principal característica do tesauro LTOCSS é que seus diversos termos são relacionados com outros termos de acordo com uma medida de similaridade. Esta medida é representada por um valor real variando de 0 (termo não relacionado) até 1 (termo perfeitamente relacionado). 4.2 Estrutura inicial Depois de analisadas as principais características dos tesauros citados, passamos a denir a estrutura que foi utilizada neste estudo. Decidimos 1 Termos Pessoal. com mais de uma palavra, por exemplo, Atlas Geográco ou Computador 4.2. ESTRUTURA INICIAL 37 começar pela norma ISO 2788, pois os tesauros obtidos são facilmente transpostos para este padrão. Deste modo, foi denida a seguinte DTD/XML: <!ELEMENT <!ELEMENT <!ELEMENT <!ELEMENT <!ELEMENT <!ELEMENT <!ELEMENT <!ELEMENT THESAURUS(TERM+)> TERM(SN?,UF*,USE*,BT*,NT*,R\T*)> SN(CDDATA)> UF(EMPTY)> USE(EMPTY)> BT(EMPTY)> NT(EMPTY)> RT(EMPTY)> <!ATTLIST <!ATTLIST <!ATTLIST <!ATTLIST <!ATTLIST <!ATTLIST TERM BT NT USE UF RT term term term term term term CDATA CDATA CDATA CDATA CDATA CDATA #REQUIRED> #REQUIRED> #REQUIRED> #REQUIRED> #REQUIRED> #REQUIRED> A DTD/XML denida pode ser melhor entendida na representação de um documento XML, que aparece a seguir: <THESAURUS> <TERM term="Arte"> <SN>Usar, também, ligado a assuntos específicos tratados do ponto de vista da arte.</SN> <UF term="Belas Artes"/> <BT term="Ciências Humanas"/> <NT term="Fotografia"/> <RT term="Obra de Arte"/> </TERMO> <TERM term="Belas Artes"> <USE term="Arte"/> </TERM> <TERM term="Moldura"/> </THESAURUS> O documento anterior, segundo a DTD/XML apresentada, dene os termos Arte, Belas Artes e Fotograa e suas relações. O termo Arte tem: uma nota explicativa nomeada SN (de Scope Note ); uma relação de equivalência UF (de Used For ) com o termo Belas Artes; uma relação de termo mais genérico BT (de Broader Term ) com o termo Ciências Humanas; uma relação de termo mais especíco NT (de Narrower Term ) com o termo Fotograa; e uma relação de termo associado RT (de Related Term ) com o termo Obra de Arte. O termo Belas Artes tem uma relação de 38 CAPÍTULO 4. ESTRUTURA MULTITESAURO equivalência USE com o termo Arte. O termo Moldura é denido sem que exista qualquer relação entre ele e outro termo. A diferença entre as relações USE e UF é a mesma denida pela norma ISO 2788: um termo preferencial relaciona-se com um termo não preferencial através de uma relação UF. Já a relação USE ocorre de modo inverso: um termo não preferencial remete a um termo preferencial através deste tipo de relação. Um termo preferencial, segundo a norma ISO 2788, deve representar um conceito único, enquanto que um termo não preferencial deve estar relacionado a um termo preferencial. Observe que, em nosso trabalho, a única diferenciação entre estes dois tipos de termos é dada através das relações de sinonímia que eles contêm. 4.3 Desenvolvimento da Estrutura Multitesauro Neste trabalho é enfocado o desenvolvimento de uma estrutura que possibilita a representação de diferentes tesauros, caracterizando desta forma a denominação multitesauro. A característica multitesaural da estrutura deve possibilitar a união de diferentes tesauros como se estes fossem um apenas. Termos e relações repetidos devem ser unicados, e a utilização dos tesauros representados por esta estrutura deve ter uma única forma. Uma vez que a estrutura deve ser utilizada na RI, mesmo que seja possível preencher todos os campos disponíveis com o conteúdo dos tesauros, algumas características são descartadas. O campo SN (notas de escopo) é importante quando utilizado no processo manual de catalogação em bibliotecas, ao informar ao prossional sobre a utilização correta de um termo. Entretanto estas notas não parecem fornecer nova informação semântica que possa ajudar, em tarefas automáticas. Por este motivo, foi decidido excluir o campo SN da estrutura. Estudando o tesauro VCUSP, foi constatado que deveria ser oferecida uma outra maneira de representar as relações BT e NT. O VCUSP é distribuído como um banco de dados ordenado, e estruturado como uma árvore de conceitos; então foi decidido adicionar esta mesma característica a nossa estrutura. Para representar as relações BT e NT, a estrutura passou a aceitar a inserção das etiquetas de termos entre as etiquetas de início (start-tag ) e m (end-tag ) de termo. Esta característica é mais bem expressa a seguir: 4.3. DESENVOLVIMENTO DA ESTRUTURA MULTITESAURO 39 <TERM term="Arte"> <TERM term="Teatro"> <UF term="Arte Dramática"/> <TERM term="Teatro Infantil"/> </TERM> <TERM term="Cinema"/> </TERM> A representação acima informa que Teatro e Cinema são NT de Arte (e Arte é BT de Teatro e Cinema), enquanto Teatro tem Arte Dramática como termo equivalente e Teatro Infantil como NT (e Teatro é BT de Teatro Infantil). Optou-se por tornar possível a utilização das relações semânticas provenientes dos tesauros construídos de forma automática, de forma diferenciada. Assim, optou-se por desvincular a estrutura multitesauro da ISO 2788. Foi criada a relação SY para indicar o relacionamento entre dois termos no tesauro LTOCSS. Cada relação do tipo SY tem um valor agregado representando uma ponderação na relação semântica obtida por cálculo de similaridade sintática entre os dois termos. E novamente, o valor agregado é qualquer real entre 0, que representaria uma relação inexistente, e 1, que seria uma relação RT perfeita. A representação seguinte exemplica a utilização da relação SY com um valor agregado. <TERM term = "Arte"> <SY term = "Poesia" value = "0.87"/> </TERM> Na prática, observou-se que poderia existir incompatibilidades entre tesauros, devido a um possível conito entre TP e TNP. Abaixo está exemplicada esta situação de conito que ocorre quando dois termos sinônimos são relacionados, e existem diferenças na concepção de preferencial e nãopreferencial, em diferentes tesauros. <THESAURUS> <TERM term="Computação"> <UF term="Informática"/> </TERM> <TERM term="Informática"> <USE term="Computação"/> </TERM> </THESAURUS> 40 CAPÍTULO 4. ESTRUTURA MULTITESAURO <THESAURUS> <TERM term="Informática"> <UF term="Computação"/> </TERM> <TERM term="Computação"> <USE term="Informática"/> </TERM> </THESAURUS> Decidiu-se então por extingüir a diferenciação entre as relações USE e UF. Os tesauros representados no exemplo, seriam então unidos da seguinte forma: <THESAURUS> <TERM term="Computação"> <UF term="Informática"/> <USE term="Informática"/> </TERM> <TERM term="Informática"> <USE term="Computação"/> <UF term="Computação"/> </TERM> </THESAURUS> De modo a prevenir este tipo de situação, onde um termo se relaciona, tanto pela relação USE quanto pela relação UF, com um mesmo outro termo, decidiu-se por agrupar ambas as relações em uma única relação sinônima denominada ET (Equivalent Term ). Assim, os tesauros anteriores seriam representados por: <THESAURUS> <TERM term="Computação"> <ET term="Informática"/> </TERM> <TERM term="Informática"> <ET term="Computação"/> </TERM> </THESAURUS> Reunindo as escolhas aqui apresentadas, nesta dissertação é proposta uma estrutura que abrange as principais características dos tesauros obtidos, que pode ser descrita através da seguinte DTD/XML: 4.4. CONSIDERAÇÕES SOBRE O CAPÍTULO <!ELEMENT <!ELEMENT <!ELEMENT <!ELEMENT <!ELEMENT <!ELEMENT <!ELEMENT THESAURUS (TERM+)> TERM (TERM*,ET*,BT*,NT*,RT*,SY*)> ET (EMPTY)> BT (EMPTY)> NT (EMPTY)> RT (EMPTY)> SY (EMPTY)> <!ATTLIST <!ATTLIST <!ATTLIST <!ATTLIST <!ATTLIST <!ATTLIST TERM ET BT NT RT SY term term term term term term value CDATA CDATA CDATA CDATA CDATA CDATA CDATA 41 #REQUIRED> #REQUIRED> #REQUIRED> #REQUIRED> #REQUIRED> #REQUIRED #REQUIRED> 4.4 Considerações sobre o capítulo O presente capítulo apresentou uma estrutura multitesauro que engloba diferentes aspectos de determinados tesauros oferecidos a esta pesquisa. Propõe-se que esta estrutura seja padrão para a denição dos diferentes tesauros, e adequada para a sua utilização em tarefas de RI. Utilizamos arquivos XML para denir o conteúdo dos tesauros obtidos, e especicamos a sintaxe padrão destes documentos ao apresentarmos sua DTD/XML. Os tesauros foram disponibilizados sobre diferentes padrões, e convertidos para a estrutura multitesauro proposta, por programas simples. O tesauro VCBS, LDPUCRS, e LTOCSS foram distribuídos em arquivos em formato texto com uma representação especíca para cada tesauro. O tesauro VCUSP é distribuído em CD-ROM e seus termos e relações estão em uma base de dados paradox. Uma vez que as relações semânticas presentes nestes tesauros são compatíveis com as relações denidas pela estrutura proposta, a conversão é simples e direta. No capítulo seguinte será apresentada a aplicação da estrutura proposta neste capítulo na RI, através de um método proposto para validar e quanticar a importância de suas relações. 42 CAPÍTULO 4. ESTRUTURA MULTITESAURO Capítulo 5 Estrutura Multitesauro na Expansão de Consultas O capítulo anterior apresentou uma estrutura tesaural em XML, que tem como principais características: representar diferentes tipos de tesauros, e ser facilmente transmitida através da WWW. Esta estrutura também pode ser útil à RI, habilidade esta que deve ser conrmada através de uma validação. A utilidade da estrutura proposta, nesta dissertação, na área de RI deve ser analisada, a nosso ver, através do uso dessa estrutura em algum sistema de RI. Assim, foi desenvolvida uma heurística de expansão de consulta e construído um protótipo que implementa esta heurística. O processo de expansão de consultas utiliza diferentes tesauros organizados de acordo com a estrutura tesaural apresentada no capítulo 4. Neste capítulo é descrita a proposta de uma heurística de expansão de consultas, que tem como objetivo validar junto à RI a utilidade da estrutura multitesauro desenvolvida. Em nossa abordagem para expansão de consultas, procura-se encontrar termos que sejam semanticamente próximos à consulta a ser expandida. Para isto, é feito um caminhamento entre os termos do tesauro. A cada passo deste caminhamento são calculados valores de importância para o termo encontrado, e estes valores são considerados, ao nal do processo, na decisão de inserção de tal termo na consulta expandida. Este caminhamento é um processo que inicia nos termos da consulta original, e naliza quando um caminho já não é mais importante de ser seguido. Na seção 5.2 deste capítulo, é apresentado o algoritmo que implementa a heurística de expansão de consultas. Um exemplo detalhado da expansão de consultas é descrito na seção 5.3. A seguir, na seção 5.4, é apresentada a ferramenta QET, onde foram implementadas as técnicas descritas neste capítulo. 43 44 CAPÍTULO 5. ESTRUTURA NA EXPANSÃO DE CONSULTA 5.1 Heurística de Expansão de Consultas Nesta seção é apresentada a heurística de expansão de consultas desenvolvida, a qual se caracteriza por utilizar tesauros organizados de acordo com a estrutura multitesauro proposta no capítulo 4. A técnica de expansão de consulta calcula valores de distância semântica entre os termos de um tesauro e os termos utilizados em uma consulta. Em nosso método, são atribuídos pesos para as diferentes relações semânticas presentes no multitesauro. Este pesos representam a distância semântica entre dois termos. Um valor próximo a 0, é considerado mais distante semanticamente que um valor próximo a 1. Desta forma, para saber a distância semântica entre dois termos no tesauro, encontra-se um caminho de relações entre estes termos e multiplicamse os pesos das relações intermediárias entre eles. A este valor calculado denominamos valor β . Observa-se que, quanto mais distante um termo está de outro, mais próximo a 0 será o valor de β . O valor β serve para medir a importância de determinado termo da estrutura multitesauro, dado um termo em uma consulta de usuário. Mas, para efetuar a expansão de consultas, é necessário saber a importância de um termo, dados todos os termos utilizados em uma consulta. Assim denimos um valor δ que é calculado pela soma de todos os valores β entre os termos de uma consulta original e um termo no tesauro. A decisão de inserir um termo na consulta expandida é tomada pela comparação dos valores δ obtidos, e um limiar λ. Termos com valor δ que ultrapassam este limiar são inseridos na consulta expandida, enquanto os termos com δ menor que λ são descartados. Na seção seguinte é formalizada a técnica utilizada para a expansão de consultas. 5.1.1 Formalização da Heurística Foi desenvolvido um método de expansão de consultas com tesauros, utilizando diferentes pesos para diferentes tipos de relações. Para nosso método assumimos um tesauro como uma tupla (T, ET, N T, BT, RT, SY ) onde: • T é um conjunto de termos T = {t1 , t2 , . . . , tm } • ET , N T , BT , RT e SY são conjuntos de tuplas representando diferentes relações semânticas entre os termos. Estes conjuntos são denidos 5.1. HEURÍSTICA DE EXPANSÃO DE CONSULTAS 45 do seguinte modo : ET = {(u, v) | u, v ∈ T, v é equivalente a u} N T = {(u, v) | u, v ∈ T, v é mais especíco que u} BT = {(u, v) | u, v ∈ T, v é mais genérico que u} RT = {(u, v) | u, v ∈ T, (u, v) ∈ / ET ∪ N T ∪ BT } SY = {(u, v) | u, v ∈ T, relação entre u e v provem de LTOCSS} A consulta formulada originalmente é um conjunto CO de termos onde: CO = {c1 , c2 , . . . , cm } Contudo, na heurística utilizada podemos somente considerar os termos de CO presentes em T , desta forma a consulta original C é denida como: C = {c1 , c2 , . . . , ck | ci ∈ T } Na busca por termos que farão parte da consulta na sua forma expandida, procuram-se os termos que contêm algum tipo de relação com os termos da consulta original C . O trabalho de Robin & Ramalho, em [ROB01], por exemplo, utiliza as palavras relacionadas por sinonímia e hiperonímia às palavras da consulta original. Em nosso trabalho decidimos não limitar os tipos de relações a serem utilizadas, mas oferecer pesos diferentes para cada tipo de relação. Assim, para cada tipo de relação existente no tesauro é associado um peso P entre 0 e 1, representando a importância desta relação na expansão de consulta. Estes valores são denidos da seguinte maneira: P (ET ) ∈ [0, 1) P (RT ) ∈ [0, 1) P (N T ) ∈ [0, 1) P (SY ) ∈ [0, 1) P (BT ) ∈ [0, 1) A cada relação (u, v) associa-se um valor R(u, v) correspondente ao tipo de relação representada. A seguir denimos os valores R(u, v) associados: ∀(u, v) ∈ ET ∃R(u, v) ∈ [0, 1) | R(u, v) = P (ET ) ∀(u, v) ∈ N T ∃R(u, v) ∈ [0, 1) | R(u, v) = P (N T ) ∀(u, v) ∈ BT ∃R(u, v) ∈ [0, 1) | R(u, v) = P (BT ) 46 CAPÍTULO 5. ESTRUTURA NA EXPANSÃO DE CONSULTA ∀(u, v) ∈ RT ∃R(u, v) ∈ [0, 1) | R(u, v) = P (RT ) ∀(u, v) ∈ SY ∃R(u, v) ∈ [0, 1) | R(u, v) = P (SY ) Também associa-se a cada relação (u, v) um valor V (u, v) correspondente à similaridade via relações não especícas (provenientes de tesauros automáticos). O valor V (u, v) é denido para a relação SY no intervalo de [0, 1] e para as demais relações (provenientes da ISO 2788) como 1. A seguir denimos os valores V (u, v) para cada tipo de relação do tesauro. ∀(u, v) ∈ ET ∪ N T ∪ BT ∪ RT ∃V (u, v) = 1 ∀(u, v) ∈ SY ∃V (u, v) ∈ [0, 1] De modo a facilitar a compreensão dos passos seguintes, utilizaremos um conjunto R para representar quaisquer tipos de relações: R = ET ∪ N T ∪ BT ∪ RT ∪ SY Com a utilização de pesos para os diferentes tipos de relações semânticas, é possível realizar a expansão com quaisquer tipos de tesauros. Se for decidido não utilizar uma determinada relação semântica, dene-se um peso igual a 0 para esta relação. Outra característica que a utilização de pesos na expansão oferece, é a possibilidade de utilizar termos indiretamente relacionados com os termos originais de uma consulta. Por exemplo, é possível utilizar sinônimos de termos hipônimos, ou hiperônimos de hipônimos, entre outros. Desta forma, a heurística desenvolvida encontra o conjunto de termos Tn relacionados com os termos da consulta C . O valor de n corresponde à profundidade no caminhamento do conjunto de termos em relação aos termos pertencentes à consulta original. O conjunto Tn é denido por: T1 ≡ C Tn = {t | t ∈ T, (v, t) ∈ R, v ∈ Tn−1 } Assim, temos os conjuntos Rn englobando todos os pesos R(u, v) numa determinada profundidade n em relação aos termos de uma consulta C : Rn = {R(u, v) | u ∈ Tn , v ∈ Tn+1 } Desta forma, podemos encontrar os caminhos não cíclicos entre um termo a1 e outro termo ak . A este caminho denominamos P (a1 , ak ). P (a1 , ak ) = {(a1 , a2 ), (a2 , a3 ), . . . , (ak−1 , ak ) | (ai , ai+1 ) ∈ R, al 6= am ↔ l 6= m} 5.1. HEURÍSTICA DE EXPANSÃO DE CONSULTAS 47 A cada caminho P (a1 , ak ) podemos associar um valor de importância. Assim como em [GON01], a cada incremento n em Tn , os termos t ∈ Tn recebem valores mais próximos de zero, através da divisão dos pesos individuais dos termos pelo valor de n. Em nosso trabalho decidiu-se utilizar o próprio valor de R(u, v) para calcular a importância de um caminho P (l, m). Existe, assim, um valor β associado a cada caminho P (a1 , ak ) relativo à importância deste. Este valor é o produto de todos os pesos R(ai , ai+1 ) multiplicado pelos pesos V (ai , ai+1 ) das relações (ai , ai+1 ) em um caminho P (a1 , ak ). O valor β é representado como: β[P (a1 , ak )] = k−1 Y R(ai , ai+1 ) × V (ai , ai+1 ) i=1 Como R(ai , ai+1 ) está no limite [0, 1) e V (ai , ai+1 ) não excede a 1, o valor β tende a 0 quanto maior for a distância k entre dois termos. Desta forma o valor β chegará mais cedo próximo a 0 quando os pesos das relações neste caminho forem menores. Para evitar uma exaustão no processamento de caminhos, dene-se um valor σ que deve regular o valor β mínimo a ser calculado. Assim, relações R(u, v) são importantes quando têm peso próximo ao valor 1, pois possibilitam seguir caminhos maiores de relações. Desta forma, no método desenvolvido, consideramos somente o conjunto P V (u, v) de caminhos em que o cálculo do valor β seja maior que um deteminado valor σ : P V (u, v) = {P (u, v) | β[P (u, v)] ≥ σ} Numa situação em que é possível chegar a um mesmo termo do tesauro através de diferentes caminhos, é calculado um valor δ para cada termo individualmente. Este valor δ corresponde à importância de um termo v , dado todos os termos t ∈ C , pois ele corresponde à soma de todos os β dos caminhos possíveis dos termos de C até v . Primeiramente pensou-se em denir δ como o maior valor β associado a este termo mas, desta forma, o valor δ representaria um valor de importância dado seu termo em C mais próximo semanticamente, e não dada toda uma consulta C . Portanto, para cada termo relacionado com os termos da consulta C que tenham um peso P V (u, v) associado, existe um valor δ calculado do seguinte modo: k X δ[C, v] = β[P V (ci , v)] | ci ∈ C 1 Como temos calculado um valor que representa a importância de determinados termos, dada toda uma consulta C original, geramos a consulta 48 CAPÍTULO 5. ESTRUTURA NA EXPANSÃO DE CONSULTA expandida (CE ) com a utilização destes valores. A consulta expandida resultante compõe-se de todos os termos em T cujos valores δ sejam maiores ou iguais a um valor λ pré-determinado: CE = {t | t ∈ T, δ[C, t] ≥ λ} 5.1.2 Modos alternativos para cálculo de δ A maneira proposta para calcular o valor δ faz com que este não tenha limite superior, o que pode ser normalizado através de diferentes abordagens. Uma abordagem linear é dividir todos os valores δ pelo maior δ calculado (abaixo representado por max δ[C, k]): δ[C, v] = δ[C, v] max δ[C, k] Também é possível utilizar uma abordagem não linear. Para isto, consideremos um conjunto P V (C, v), composto por todos os caminhos P (ci , v) válidos entre os termos ci em C . Considere P V (C, v)k um caminho especíco do conjunto P V (C, v): P V (C, v)n ∈ P V (C, v) Considere o cálculo de δ[C, v] como sendo δ[C, v]k , onde k é o número de elementos em P V (C, v), e δ[C, v]1 , δ[C, v]2 , . . . , δ[C, v]k cada etapa no processamento de δ[C, v]. ( 0, se n <= 0; δ[C, v]n = δ[C, v]n−1 + (1 − δ[C, v]n−1 ) × β[P V (C, v)n ], caso contrário. Desta forma, os valores calculados para δ[C, v] aumentam não-linearmente, com limite superior igual a 1. Também é possível o cálculo de δ[C, v] pela média dos valores de β[P (C, v)]. Observa-se que, a utilização da média deve considerar que determinados termos da consulta C relacionam-se muito remotamente, ou mesmo não se relacionam, com alguns termos do tesauro. Caso um termo v não tenha relação com todos os termos de uma consulta C , devem ser adicionados valores de β[P (C, v)] iguais a zero para que o valor δ[C, v] seja relativo a toda a consulta realizada. Observe que λ é um valor limite de δ[C, v] para inserção dos termos na consulta expandida. A utilização de normalização ou não no cálculo de δ[C, v], faz com λ tenha signicados diferentes: 5.2. ALGORITMO DE EXPANSÃO DE CONSULTA 49 • Para δ[C, v] não normalizado ou não-linearmente normalizado, λ representa um valor limite mínimo de importância para um termo v dada a consulta C . Observe que, quando não normalizado, λ pode ser maior que 1; • Para δ[C, v] normalizado linearmente, λ representa um valor limite mínimo de importância para um termo v dados a consulta C e todos os termos k que contenham um valor δ[C, k] associado. A heurística acima detalhada é implementada através do algoritmo que é apresentado na próxima seção. 5.2 Algoritmo de Expansão de Consulta A heurística exposta na seção anterior é implementada no algoritmo a seguir, e seu funcionamento é melhor explicado na seção 5.3. Lexemas da Linguagem Termos do Tesauro Relações do Tesauro Pesos das relações Valor de similaridade Consulta Lista de Termos Lista de Deltas Consulta Expandida D = {l1 , l2 , . . . , lk } T = {t1 , t2 , . . . , tk | ti ∈ D} R = {(u, v) | u, v ∈ T } R(u, v) ∈ [0, 1), (u, v) ∈ R V (u, v) ∈ [0, 1) C = {c1 , c2 , . . . , ck | ci ∈ D} L = {t1 , t2 , . . . , tk | ti ∈ T } D = {δt1 , δt2 , . . . , δtk | δ ∈ [0, ∞], ti ∈ L} CE = {t1 , t2 , . . . , tk | ti ∈ T } Entradas(λ,σ ) Retorno(CE ) função Expansão(C ) ∀ cn ∈ C InsereTermos(cn , β = 1) ∀ tn ∈ L se δtn > λ CE = CE ∪ {tn } função InsereTermos(tn ,β ) ∀(tn , v) ∈ R βv ← β × R(tn , v) × V (tn , v) se βv ≥ σ L ← L ∪ v se ¬∃δv δv ← 0 δv ← δv + βv InsereTermos(v ,βv ) 50 CAPÍTULO 5. ESTRUTURA NA EXPANSÃO DE CONSULTA O algoritmo desenvolvido implementa o método explicado na seção 5.1, através de duas funções principais. A função InsereTermos recebe como parâmetro um termo tn e um valor β . O objetivo desta função é inserir, em uma lista de termos L, todos os termos que se relacionam diretamente, ou indiretamente, com o termo tn passado como parâmetro. Observa-se que, para que ocorra a inserção de termos relacionados de forma indireta, esta função é chamada de forma recursiva, tendo como parâmetro os termos v diretamente relacionados a tn . O parâmetro β irá regular o valor δv associado a um termo v . Os pesos das relações (R(u, v) e V (u, v)) são valores iguais ou maiores que 0 e menores que 1; desta forma o valor βv para cada termo v , parâmetro na chamada recursiva da função InsereTermos, será menor a cada novo nível de recursão. A chamada recursiva dessa função é interrompida quando o valor de βv é menor que um valor σ previamente estabelecido. A função Expansão, denida no algoritmo, recebe uma consulta C como parâmetro. Depois de utilizada a função InsereTermos para todos os termos de C , e assim criada a lista de termos L, são adicionados à consulta expandida os termos de L cujo valor δ for maior que um valor λ pré-estabelecido. A implementação apresentada difere, em dois aspectos principais, da descrição formal do método proposto: 1. Não são construídos e nem guardados os conjuntos de relações e termos relacionados para cada nível Tn . Contudo, é construído um conjunto de termos relacionados, com seus valores δ ; 2. A busca e a construção dos valores β e δ são realizadas em profundidade no algoritmo, por motivos de performance e economia de memória, uma vez que a busca horizontal (isto é, um nível n de Tn por vez) necessita que sejam armazenados os conjuntos de termos e suas relações. 5.3 Um exemplo detalhado de funcionamento No exemplo apresentado na presente seção utilizamos os pesos denidos na Tabela 5.1 para os parâmetros da heurística. A Figura 5.1 possibilita acompanhar o processo de inserção de termos em uma consulta e cálculo dos valores β e δ dos mesmos. Quando pesquisado sobre Acidente de carro o sistema separa os tokens 1 da consulta e remete aos seus termos relacionados. As relações representadas na Figura 5.1, dos termos inseridos a partir de Acidente, estão representadas por setas contínuas, e seus pesos β por 1 Itens lexicais mínimos na análise de uma sentença, incluindo palavras, números e sinais de pontuação. 5.3. UM EXEMPLO DETALHADO DE FUNCIONAMENTO 51 Tabela 5.1: Valores dos parâmetros do exemplo Parâmetro Valor ET NT BT 0.90 0.60 0.30 Acidente Aeronáutico Parâmetro RT λ σ Valor 0.10 0.65 0.05 Avião RT (0.1) 0.06 + 0.162 NT (0.6) 0.6 Acidente Carro 1.0 0.06 + 1.0 NT (0.6) ET (0.9) NT (0.6) ET (0.9) 0.6 + 0.09 RT (0 .1) 0.27 RT (0 .1 ) BT (0.3) Veículo ET (0.9) Acidente de Trânsito Desastre Automóvel 0.9 0.06 + 0.9 Figura 5.1: Exemplo do funcionamento da expansão de consulta valores em itálico, enquanto que as relações provenientes de Carro são representadas por setas tracejadas. Os processos de inserção de termos na lista de termos, e o cálculo de seus valores δ associados, ocorrem em profundidade no tesauro. Por exemplo, o termo Acidente de Trânsito é encontrado pela relação NT do termo inicial da consulta Acidente. A Acidente de Trânsito é associado um valor β , de 0.6, correspondente à relação pela qual este foi encontrado. O processo continua encontrando Automóvel pela relação RT de Acidente de Trânsito, e o valor β , neste caso 0.06, correspondente aos pesos de NT e RT multiplicados. Observa-se que o peso de β é equivalente ao produto dos pesos das relações encontradas no caminho entre o termo inicial da consulta e outro termo. De modo a facilitar a visualização do cálculo de δ , neste exemplo este valor será calculado sem que ocorra a normalização no intervalo [0, 1]. O processo de busca em profundidade dos termos continua até que o valor β calculado for menor que um valor σ pré-determinado. Esta característica 52 CAPÍTULO 5. ESTRUTURA NA EXPANSÃO DE CONSULTA pode ser observada no exemplo da Figura 5.1, na falta de um valor representado em itálico (proveniente de Acidente) de β para o termo Veículo; isto ocorre, pois o caminho entre este termo e Acidente é composto pelas relações NT, RT, BT e o valor β para este caminho é de 0.018, menor que o valor de σ , denido como 0.05 para este exemplo. São pesquisados todos os termos relacionados direta ou indiretamente com os termos da consulta original. Observa-se que o valor β é armazenado em uma variável δ particular a cada termo. Caso ocorra que um termo seja relacionado a mais de um termo original, seu valor δ será a soma de todos os β encontrados entre o termo e os termos originais. Esta característica ocorre para o exemplo da Figura 5.1 nos termos Carro, Acidente de Trânsito, Automóvel e Avião. Ao nal de toda a análise os termos com peso acima do valor λ serão inseridos na consulta expandida. Na Figura 5.1 estes termos estão representados em negrito. A heurística formalizada na seção 5.1 e demonstrada no algoritmo descrito em 5.2, é implementada em um protótipo para expansão de consultas apresentado na seção seguinte. 5.4 A ferramenta QET A ferramenta de expansão de consulta foi nomeada QET (um acrônimo para Query Expansion Tool ), e foi desenvolvida orientada a objetos, em Borland Kylix 2.0 Open Edition, em uma máquina com sistema operacional Linux. A Figura 5.2 apresenta a expansão da consulta lógica matemática utilizando a ferramenta QET. O QET carrega qualquer tesauro denido de acordo com nossa estrutura, sendo também possível carregar um tesauro separado em diferentes arquivos, o que nos dá duas possibilidades interessantes: 1. carregar pequenas porções de um mesmo tesauro que foram transmitidas pela Internet; 2. utilizar diferentes tesauros como se fossem um grande e único multitesauro. Uma estrutura tesaural padrão apresenta-se útil em um sistema que possibilita carregar porções de tesauros em separado. Quando é feita a carga de diferentes tesauros surge um único multitesauro relativo à união dos termos e relações dos diversos tesauros carregados. 5.4. A FERRAMENTA QET 53 Figura 5.2: Expansão de consulta com a ferramenta QET Isto é, considerando dois tesauros (Ta , Ra ) e (Tb , Rb ), um multitesauro M T é o tesauro correspondente à união destes tesauros, onde: M T = (Ta ∪ Tb , Ra ∪ Rb ) A união dos termos e relações é realizada pelo QET no momento da carga de cada tesauro. Desta forma, o multitesauro é compilado a cada carga de tesauro, através da união dele mesmo, multitesauro atual, com o tesauro que está sendo carregado. Assim como Mandala et al. em [MAN00], utilizamos diferentes tesauros (e de forma conjunta) em nossos testes, de modo que todos os tesauros puderam contribuir para os resultados obtidos. No capítulo 6 demonstraremos que a utilização conjunta gera melhores resultados do que obteríamos se os tesauros fossem utilizados de forma separada. Os arquivos são carregados em memória pelo QET em uma estrutura em árvore-B de ordem 10. A árvore-B implementada possibilita que sejam carregados os arquivos rápidamente, e realizadas pesquisas dos termos de forma otimizada. A ordenação dos termos em memória é feita sem diferenciação de caracteres maiúsculos ou minúsculos, e com a substituição dos caracteres acentuados pelos equivalentes sem acentuação. Diferentes tesauros (ou porções de tesauros) podem ter os mesmos termos e também as mesmas relações entre termos. Quando estas situações ocorrem o sistema considera apenas os novos termos e as novas relações. Esta característica faz com que termos e relações não sejam duplicados no multitesauro, quando estes constam em mais de um tesauro. Entretanto, podem ocorrer situações onde um termo está escrito de forma diferente em diferentes tesauros, situações estas que nossa técnica não irá tratar. Como trabalho futuro 54 CAPÍTULO 5. ESTRUTURA NA EXPANSÃO DE CONSULTA Tabela 5.2: Desambigüação Semântica Termo Relacionado Astronomia Planetas Divindades Romanas Mitologia Metais Satélites Naturais Relações 3 × BT × BT 2 × BT 2 × BT 2 × BT × BT BT BT δ 1.92 1.60 1.60 1.28 0.80 0.80 pode ser realizada a identicação de termos repetidos, como em [SIN97], ou pode ser usada a técnica de stemming, i.e. um termo sendo reduzido ao seu radical. 5.5 Considerações sobre o capítulo O presente capítulo apresentou uma estratégia a ser utilizada na validação da estrutura proposta no capítulo 4. A estrutura multitesauro é validada (ver capítulo 6), em sua utilização na RI, através do método de expansão de consultas apresentado neste capítulo. Esta expansão de consultas tem como principal característica a utilização de relações semânticas provenientes da estrutura multitesauro, que estão relacionadas indiretamente com os termos de uma consulta original. Nosso método de expansão de consultas utiliza as relações presentes na estrutura tesaural de forma análoga à descrita no capítulo 3. Os termos sinônimos aos termos da consulta original podem ser utilizados se denidos pesos próximos a 1 para a relação de equivalência (ET). Observa-se que o método desenvolvido pode efetuar uma desambigüação semântica como a apresentada por Voorhees em [VOO98]. Esta desambigüação semântica foi melhor apresentada na seção 3.1.2 e, assim como o exemplo apresentado na Figura 3.1, a Tabela 5.2 apresenta os termos melhores relacionados, obtidos por nosso método, com os termos da consulta original Luas de Mercúrio e Vênus. Na Tabela 5.2 utilizamos um peso 0.8 para a relação BT e 0 para uma relação NT (isto para uma melhor visualização dos resultados numéricos). Observe que os termos com δ (não normalizados) maiores, relembram melhor o signicado da consulta (Astronomia e Planetas). No capítulo seguinte são descritos os testes efetuados com a utilização da ferramenta QET e os tesauros obtidos, após serem estruturados de acordo com a DTD proposta no capítulo 4. Capítulo 6 Validação Neste capítulo será apresentada a validação da estrutura multitesauro, proposta no capítulo 4, na RI. Tal avaliação foi realizada através da utilização do método de expansão de consultas apresentado no capítulo anterior. Este capítulo valida a utilidade da estrutura tesaural na RI, ao mesmo tempo que avalia a heurística de expansão de consultas proposta. Pretende-se demonstrar que as relações denidas na estrutura são úteis para representar multitesauros e são utéis na RI. A seção 6.1 apresenta a aplicação do método proposto na recuperação de documentos em um corpus estático, com a apresentação de resultados na seção 6.1.1 e uma tentativa de denição de parâmetros na seção 6.1.2. Na seção 6.1.3 demonstramos que a utilização conjunta de diferentes tesauros oferece melhores resultados que a utilização de cada um individualmente. A seguir, em 6.2, são apresentados os testes de RI em corpus dinâmico (Internet). 6.1 Processo de validação em corpus estático Foram executados testes em um corpus estático, i.e. em um conjunto de textos que não sofre, em momento algum, alteração de conteúdo. É importante validar uma técnica neste tipo de ambiente, pois diversos sistemas de RI são utilizados junto a corpora estáticos como, por exemplo: enciclopédias em CDROM, jornais e revistas antigos, entre outros. Em nosso estudo foi utilizado o mesmo corpus da construção do tesauro LTOCC, onde cada artigo é representado por um documento. Este corpus, gentilmente cedido pelo NILC, contém 1.323.700 palavras, em 5093 artigos de assuntos diversos. Para a indexação e busca destes documentos, foi utilizada a ferramenta 55 56 CAPÍTULO 6. VALIDAÇÃO ASPSeek1 . De modo a avaliar a precisão, a abrangência e a medida-F2 , foram realizadas diversas consultas utilizando a ferramenta ASPSeek com o objetivo de encontrar aproximadamente 100% dos documentos relevantes aos tópicos das consultas. A marcação de relevância dos documentos do corpus é um trabalho custoso e foi realizado com a ajuda de bolsista de iniciação cientíca3 . Cada assunto consultado requereu uma média de 8 horas de buscas para que fosse garantida a marcação de aproximadamente 100% dos documentos relevantes. Depois de nalizada a marcação de relevância nos documentos, é possível mensurar a precisão e abrangência para cada consulta sobre um assunto já marcado. Esta consulta é considerada a consulta original, que é, então, utilizada pela ferramenta QET. O QET irá oferecer uma consulta na forma expandida, que é utilizada no sistema de RI, para assim recuperar documentos, possibilitando medir precisão e abrangência da consulta expandida. Como todos os documentos relevantes são conhecidos, é possível gerar, de forma automática, através de pequenos programas, diferentes tipos de estatísticas como, por exemplo: a diferença da precisão e da abrangência para diferentes combinações dos pesos das relações (veja Tabela 6.3); a evolução da precisão e da abrangência nos n primeiros documentos retornados pela ferramenta de RI. A maioria dos processos é de natureza semi-automática, isto é, utiliza scripts e programas fora dos sistemas de RI. Como trabalho futuro, para facilitar a criação de estatísticas e aumentar a usabilidade da ferramenta, deve ser construída uma ferramenta de consulta junto ao QET. Os parâmetros utilizados nos testes do presente capítulo são apresentados na Tabela 6.1. Estes foram denidos no processo empírico descrito na seção 6.1.2. Os valores δ[C, v] foram calculados pelo somatório dos valores β[P V (C, v)] sem normalização em [0, 1). 1 ASPSeek é uma ferramenta de busca desenvolvida por Swsoft (http://www.sw-soft.com/ ) e licenciada sob os termos da GNU GPL (http://www.gnu.org/copyleft/gpl.html ). Mais informações sobre a ferramenta podem ser encontradas em http://www.aspseek.org/. 2 É a média ponderada da precisão e abrangência. Propõe-se a ser uma medida única de ecácia para um sistema de RI. É calculada através da seguinte fórmula (considere P ×A para precisão e A para abrangência): 2×P P +A 3 Cássia Marques Serpa, bolsista do projeto SEMA, nanciada pelo CNPq. 6.1. PROCESSO DE VALIDAÇÃO EM CORPUS ESTÁTICO 57 Tabela 6.1: Valores dos parâmetros Parâmetro Valor ET NT BT RT 0.80 0.60 0.30 0.10 Parâmetro SY λ σ Valor 0.20 0.60 0.01 1 Consulta Original Consulta Expandida 0.8 Precisao 0.6 0.4 0.2 0 1 2 3 4 5 6 7 Consulta 8 9 10 11 12 13 Figura 6.1: Medida de precisão das consultas originais e expandidas 6.1.1 Testes em corpus estático Nesta seção é feita uma análise sobre os dados obtidos com os testes em corpus estático. Detalhes a respeito das consultas encontram-se no Apêndice A desta dissertação. Os testes realizados demonstraram que, em média, a expansão acarretou uma degradação na taxa de precisão mas, por sua vez, também acarretou uma signicativa melhora na taxa de abrangência. A Figura 6.1 mostra a evolução da medida de precisão para todos os 13 assuntos marcados e suas respectivas consultas originais e expandidas. Observe que as consultas 3, 5 e 11 nas suas formas originais não retornaram documentos relevantes. Na Figura 6.1 é possível observar que a precisão da consulta original é, em média, maior que a precisão da consulta expandida. Em poucas situações houve uma precisão maior na consulta expandida. Nestas situações, a alta da precisão ocorre pois a abrangência da consulta original era muito pequena, e a abrangência para a consulta expandida é normal. Mesmo com a precisão normalmente sendo degradada, a medida de abrangência tende a crescer, em todos os casos analisados, com a consulta na forma 58 CAPÍTULO 6. VALIDAÇÃO 1 Consulta Original Consulta Expandida Abrangencia 0.8 0.6 0.4 0.2 0 1 2 3 4 5 6 7 Consulta 8 9 10 11 12 13 Figura 6.2: Medida de abrangência nas consultas originais e expandidas 1 Consulta Original Consulta Expandida 0.8 Medida-F 0.6 0.4 0.2 0 1 2 3 4 5 6 7 Consulta 8 9 10 11 12 13 Figura 6.3: Medida-F nas consultas originais e expandidas expandida. Este comportamento pode ser observado na Figura 6.2, que representa a abrangência das consultas originais e expandidas feitas ao corpus. Os resultados apresentados na Figura 6.1 e na Figura 6.2 mostram que a precisão para a consulta expandida teve ligeira queda, em relação à consulta original, enquanto que as medidas de abrangência aumentaram. Isto demonstra uma melhora na obtenção dos resultados pois, mesmo com uma precisão um pouco mais baixa, a grande diferença da abrangência representa que mais e melhores documentos foram encontrados. Para comprovar que este aumento da abrangência compensa a diminuição da precisão, utilizamos a medida-F. A Figura 6.3 apresenta os valores obtidos para as consultas efetuadas. Observa-se, na Tabela 6.2, que o sistema de expansão de consulta obteve uma melhora na abrangência de 109.71%, ao mesmo tempo que teve degra- 6.1. PROCESSO DE VALIDAÇÃO EM CORPUS ESTÁTICO 59 dada sua precisão em 16.02%. Estas medidas levaram a um ganho de 38% na medida-F, para a consulta expandida, em relação à medida-F da consulta original. Tabela 6.2: Resultados parciais Consulta Original Expandida Média Desvio Padrão Média Desvio Padrão Precisão 0.4499 0.3405 0.3778 0.2382 Abrangência 0.2389 0.2508 0.5010 0.1728 Medida-F 0.3121 0.2462 0.4307 0.1650 Observamos na Tabela 6.2, com as médias das medidas obtidas, que o método aparenta melhorar, de forma geral, a RI em corpus estático. Esta conclusão é embasada na melhora da medida-F, normalmente utilizada como um medida comum para avaliar sistemas de RI. 6.1.2 Denição dos parâmetros A denição dos parâmetros da heurística (pesos das relações, valores de λ e σ ) é uma tarefa que foi realizada de forma empírica através dos processos que serão descritos nas seções 6.1.2.1. Uma especicação desses parâmetros pode ser estudo futuro a esta dissertação. e 6.1.2.2. 6.1.2.1 Pesos para as relações da ISO 2788 Para validar a estrutura, assumimos que é possível quanticar a importância de um tipo de relação através dos pesos que forem estabelecidos para ela. Em uma tentativa de quanticar a importância de cada tipo de relação, na expansão de consulta, foram realizados alguns testes utilizando a consulta Acidente de automóvel. Os pesos para as relações eram modicados automaticamente enquanto eram efetuadas consultas no sistema de RI. Foi gerada uma tabela (uma porção da mesma pode ser visualizada na Tabela 6.3) com as medidas de precisão e de abrangência para cada combinação de pesos. Da análise dos dados gerados por este processo, identicamos as seguintes tendências quanto aos pesos dos tipos de relações: • Os pesos da relação ET devem ser sucientemente altos de modo que possibilitem a utilização dos termos relacionados como se fossem os termos originais da relação. O peso deste tipo de relação deve ser um 60 CAPÍTULO 6. VALIDAÇÃO Tabela 6.3: Denição dos melhores pesos para os tipos de relações Nro. ET NT BT RT Abrangência Precisão 142 143 144 145 146 147 148 149 150 378 384 390 0.90 0.90 0.90 0.90 0.90 0.90 0.90 0.90 0.90 0.90 0.90 0.90 0.90 0.90 0.90 0.90 0.90 0.90 0.90 0.90 0.90 0.60 0.60 0.60 0.90 0.90 0.90 0.80 0.80 0.80 0.70 0.70 0.70 0.60 0.40 0.20 0.30 0.20 0.10 0.30 0.20 0.10 0.30 0.20 0.10 0.10 0.10 0.10 0.5319 0.5319 0.5319 0.5319 0.5319 0.5319 0.5319 0.5319 0.5319 0.5319 0.5319 0.4894 0.4902 0.5102 0.6579 0.5102 0.5102 0.6579 0.5102 0.6410 0.6579 0.3788 0.4902 0.6053 valor próximo de 1. As análises apresentadas por Robin & Ramalho em [ROB01] demonstram que relação de sinonímia sempre melhora a resposta dos sistemas de RI, reforçando nossa denição de pesos altos para estas relações. • A relação NT é muito importante na expansão da consulta. A utilização de um peso alto para esta relação melhora a expansão da consulta. Contudo, em nosso método não é aconselhável atribuir um valor próximo a 1 ao peso de NT, uma vez que a combinação com os pesos de outros tipos de relações pode acarretar uma explosão na quantidade de termos que serão analisados. • A relação BT não deve ter um peso muito alto. Valor maior para as relações BT demonstra um pequeno aumento na abrangência mas, ao mesmo tempo, uma diminuição signicativa da precisão. Este comportamento pode ser observado nos testes 378, 384 e 390 da Tabela 6.3. • A relação RT constitui uma relação semântica diferente da equivalência e hierarquia, que deveria indicar termos importantes para a RI. Contudo, nossos testes sugerem que valores altos para o peso das relações RT diminuem a taxa de precisão. Os testes 142 ao 150, na Tabela 6.3, demonstram que enquanto o valor para RT aumenta, a taxa de precisão é reduzida. Portanto, isto nos leva à conclusão de que o peso para esta relação deve ser mantido baixo. 6.1. PROCESSO DE VALIDAÇÃO EM CORPUS ESTÁTICO 61 6.1.2.2 Valor λ Em uma tentativa de vericar os melhores pesos para o limiar λ para inserção dos termos na consulta expandida, foi efetuada a expansão gerada pela consulta original viagem com a utilização dos quatro tesauros obtidos, variado o valor de λ e efetuadas as consultas expandidas no sistema de RI. A Tabela 6.4 mostra os resultados encontrados. Tabela 6.4: Resultados obtidos com diferentes combinações do valor λ λ 0.2000 0.2500 0.3750 0.5000 1.0000 Termos 52 50 15 04 01 Relevantes 108 108 104 103 064 Total 269 269 274 261 201 Observa-se na Tabela 6.4 que um limiar mais baixo aumenta a quantidade de documentos e de documentos relevantes encontrados. Isto ocorre, pois a consulta expandida gerada contém mais termos quando λ tiver um valor baixo. Entretanto a melhor combinação para esta consulta, entre o número de termos e a quantidade e qualidade dos documentos retornados, pode ser vericada no valor do limiar λ equivalente a 0.5, isto é, entre os valores denidos para os pesos das relações BT (0.3) e NT (0.6). Observa-se que, na Tabela 6.4, quando o valor de λ equivale a 1.0, a situação é correspondente a somente utilizar os termos originais da consulta. 6.1.2.3 Considerações sobre a denição de parâmetros A decisão a respeito dos valores para os parâmetros da heurística de expansão de consultas deve ser detalhadamente estudada. Os resultados são bastante distintos para as diferentes combinações de pesos. Denir os melhores parâmetros possíveis, se existirem, não fará parte do escopo desta dissertação, devido à grande complexidade requerida para tanto. Acredita-se que, para a realização deste trabalho futuro, devem ser utilizadas técnicas estatísticas ou redes neuronais. 6.1.3 Utilização conjunta de tesauros De maneira a comprovar que a utilização conjunta dos tesauros é mais eciente que o uso de cada tesauro de forma separada, foram efetuados alguns testes utilizando o método proposto, junto às diferentes combinações dos tesauros obtidos. 62 CAPÍTULO 6. VALIDAÇÃO A Tabela 6.5 apresenta a média dos resultados obtidos, quando combinados os diferentes tesauros para a expansão das 13 consultas marcadas em corpus estático. Observa-se que os testes estão separados por linhas e as colunas iniciais representam a utilização ou não de determinados tesauros. √ A utilização de um tesauro está representada pelo sinal , enquanto a não utilização do mesmo é representada pelo sinal ×. Observa-se, também, que a primeira linha da Tabela 6.5 representa a consulta original, sem que seja feita a expansão com o uso de tesauros. Tabela 6.5: Resultados obtidos através de diferentes combinações de tesauros VCBS VCUSP LDPUCRS LTOCSS × √ √ √ √ × × √ √ √ √ √ √ × × × √ √ × × × × √ × √ √ √ √ × × √ × × × × × × √ × √ √ √ × × × × √ × × √ × √ × × √ × × √ √ × √ √ √ √ Recall 0.2278 0.4038 0.4349 0.4349 0.4520 0.2348 0.2348 0.2348 0.2278 0.2278 0.2278 0.4167 0.2348 0.4295 0.4295 0.4520 Precisão 0.4558 0.4042 0.3838 0.3833 0.3434 0.4361 0.4361 0.4361 0.4558 0.4558 0.4558 0.4031 0.4361 0.3776 0.3771 0.3434 F-Measure 0.2708 0.3489 0.3650 0.3648 0.3614 0.2746 0.2746 0.2746 0.2708 0.2708 0.2708 0.3525 0.2746 0.3579 0.3577 0.3614 Pode ser vericado na Tabela 6.5 que o tesauro VCBS ofereceu a melhor contribuição aos resultados. Quando este tesauro era utilizado, a abrangência aumentou em média 88.53%. A utilização do tesauro VCUSP não demonstrou um grande aumento na abrangência, quando utilizado em separado dos demais tesauros. Isto se conclui pela pequena diferença de 0.7 pontos percentuais em relação à consulta original. Contudo, a combinação dos tesauros VCUSP e VCBS obteve um aumento maior na medida de abrangência, quando comparadas as expansões de consultas com a utilização dos tesauros em separado. Este aumento foi de 85.22%, em relação à expansão do VCUSP em separado, e 7.70%, quando a expansão foi somente pelo VCBS. Isto demonstra que a combinação do VCUSP com o tesauro VCBS acarretou a inclusão de diversos novos termos na consulta expandida. A LTOCSS não se apresenta importante quando utilizada em separado. Contudo, quando utilizada em dupla com o VCBS, ou em trio junto ao VCBS e ao VCUSP, faz com que sejam adicionados novos termos à consulta expandida. O resultado retornado por esta consulta não obteve melhora 6.2. PROCESSO DE VALIDAÇÃO NA INTERNET 63 em relação à utilização da dupla VCBS e VCUSP. Contudo, o fato de terem sido adicionados novos termos à consulta expandida demonstra que o tesauro colaborou para o resultado. Observa-se que os resultados diferem quando da utilização de diferentes combinações de tesauros. A LDPUCRS raramente ofereceu termos para o resultado nal da consulta expandida. Os poucos termos oferecidos por LDPUCRS não aumentaram, signicativamente, a abrangência quando combinado ao VCBS, sendo que diminuiu, levemente, a precisão quando combinado com os tesauros VCBS e VCUSP. Acredita-se que seus termos e relações possam ser mais bem aproveitados com uma diferente combinação de parâmetros. 6.2 Processo de validação na Internet A Internet é, atualmente, o meio de comunicação onde temos o maior número de documentos publicados. Diariamente, inúmeros documentos são publicados, modicados e retirados de publicação, o que faz da Internet o maior e mais dinâmico corpus de documentos existente. Como os portais de busca na Internet são as ferramentas de RI mais utilizadas e conhecidas, consideramos importante testar a expansão de consulta realizada pelo QET neste meio. Decidimos, para isto, utilizar o portal AltaVista Brasil4 pois este não apresentou alguns problemas observados em outros portais como: • Número muito grande de documentos clones. Isto é, os mesmos documentos aparecem mais de uma vez na mesma busca, por estarem em URIs diferentes. Por exemplo, as seguintes URIs são diferentes, mas o documento referenciado é o mesmo: http://host.br/doc.html http://www.host.br/doc.html Este problema ocorre, por exemplo, no portal Radix5 . • Incapacidade de gerenciar consultas booleanas. ocorre no portal TodoBR6 . Esta característica • Incapacidade de gerenciar mais de 10 palavras por consulta. Esta característica ocorre no portal Google7 . 4 http://www.altavista.com.br 5 http://www.radix.com.br 6 http://www.todobr.com.br 7 http://www.google.com 64 CAPÍTULO 6. VALIDAÇÃO Hoenkamp & Van Vugt, em [HOE01], analisam a inuência no comportamento e na satisfação do usuário ao conhecer a abrangência de uma busca efetuada em um ambiente WWW. Neste estudo, Hoenkamp & Van Vugt concluem que o conhecimento desta medida tem pouca inuência sobre a satisfação do usuário, e que a principal característica que acarreta a sua satisfação é a precisão. Ainda se observa que obter uma correta abrangência de uma consulta na Internet é virtualmente impossível, devido à alta taxa de crescimento e modicação de documentos na rede. Decidiu-se, para este estudo, utilizar os 50 primeiros documentos retornados por cada consulta, e decidiu-se denir, como abrangência deste conjunto de documentos, o número de documentos relevantes retornados por uma consulta dividido pelo número total de documentos relevantes encontrados, nas consultas original e expandida. Isto é, considere C1 como o conjunto de documentos relevantes de uma consulta original, e C2 como o conjunto de documentos relevantes da consulta expandida. Abrangência é então calculada como: C1 C∪n C2 . Devido à dinamicidade do ambiente WWW, temos uma característica interessante nos sistemas de RI que não pode ser ignorada. Devemos considerar como relevante um documento da Web, retornado por uma página de busca, mesmo quando este não está mais publicado, ou teve seu conteúdo modicado? Estamos considerando, para este problema, duas medidas de relevância: documentos relevantes na RI (DRRI) e documentos relevantes na WWW (DRWWW). A diferença básica é que a primeira medida (DRRI) propõe-se a avaliar a eciência na ferramenta de RI utilizada pelo portal de busca, enquanto que a última medida avalia a eciência da busca no âmbito de um corpus extremamente dinâmico. Em DRWWW consideram-se não-relevantes os documentos inexistentes, indexados e retornados pela ferramenta de RI, mesmo que estes, na época de indexação, fossem relevantes ao assunto pesquisado. Assim, este erro passa a ser um problema relativo à taxa de atualização de conteúdo dos portais de busca. Em nossos testes, foram realizadas 14 consultas, entre elas algumas das 13 consultas efetuadas no corpus estático. Para estas consultas, observamos que houve uma degradação média, na abrangência da consulta, de 7.75% para a medida DRRI (Figura 6.4) e de 7.08% para a medida DRWWW (Figura 6.5). Detalhes das consultas encontram-se no Apêndice B desta dissertação. Em nossa avaliação, observamos que a precisão do sistema teve uma perda de até 32%, para a consulta 6, nas medidas em DRRI e em DRWWW. A precisão obtida nas consultas na WWW é demonstrada na Figura 6.6 para DRRI, e na Figura 6.7 para DRWWW. Observamos que a abrangência e a precisão, em determinadas consultas, não se comportam da mesma forma. Em casos onde temos um número de 6.2. PROCESSO DE VALIDAÇÃO NA INTERNET 65 1 Consulta Original Consulta Expandida Abrangencia 0.8 0.6 0.4 0.2 0 1 2 3 4 5 6 7 8 Consulta 9 10 11 12 13 14 Figura 6.4: Medida de abrangência para DRRI 1 Consulta Original Consulta Expandida Abrangencia 0.8 0.6 0.4 0.2 0 1 2 3 4 5 6 7 8 Consulta 9 10 11 12 13 14 Figura 6.5: Medida de abrangência para DRWWW documentos pequenos no retorno da consulta original, e estes são em sua grande maioria relevantes, temos uma abrangência pequena e uma precisão alta. Através da medida-F obtemos um valor que assumimos como padrão para mensurar a qualidade e a melhora efetiva do método para cada consulta. Nas Figuras 6.8 e 6.9 podemos vericar que é normal a consulta expandida gerar resultados piores, tanto para DRRI quanto para DRWWW. A Tabela 6.6 mostra que, em média, a consulta original obtém melhores resultados, tanto nas medidas de abrangência, quanto em precisão. Isto demonstra que a estrutura utilizada, combinada com o método de expansão de consultas desenvolvido, degrada os resultados nos primeiros documentos retornados quando aplicada na busca na WWW. Observa-se que os resultados para DRRI e DRWWW são diferentes, e são obtidos melhores valores para DRRI. Contudo, acredita-se que isto ocorra devido ao grande número de 66 CAPÍTULO 6. VALIDAÇÃO 1 Consulta Original Consulta Expandida 0.8 Precisao 0.6 0.4 0.2 0 1 2 3 4 5 6 7 8 Consulta 9 10 11 12 13 14 Figura 6.6: Medida de precisão para DRRI 1 Consulta Original Consulta Expandida 0.8 Precisao 0.6 0.4 0.2 0 1 2 3 4 5 6 7 8 Consulta 9 10 11 12 13 14 Figura 6.7: Medida de precisão para DRWWW Tabela 6.6: Resultados na WWW DRRI Normal Expandida DRWWW Normal Expandida Precisão 0.8677 0.7387 (-14.87%) Precisão 0.7770 0.6600 (-15.06%) Abrangência 0.5836 0.5384 (-7.75%) Abrangência 0.5181 0.4814 (-7.08%) Medida-F 0.6978 0.6228 (-10.75%) Medida-F 0.6216 0.5567 (-10.45%) portais WWW que são acessados quando é efetuada uma busca expandida. Estes portais WWW têm seu conteúdo muito freqüentemente atualizado, o que normalmente degrada a qualidade das buscas na WWW. 6.2. PROCESSO DE VALIDAÇÃO NA INTERNET 67 1 Consulta Original Consulta Expandida 0.8 Medida-F 0.6 0.4 0.2 0 1 2 3 4 5 6 7 8 Consulta 9 10 11 12 13 14 Figura 6.8: Medida-F para DRRI 1 Consulta Original Consulta Expandida 0.8 Medida-F 0.6 0.4 0.2 0 1 2 3 4 5 6 7 8 Consulta 9 10 11 12 13 14 Figura 6.9: Medida-F para DRWWW Apesar dos resultados terem sido desfavoráveis, para os primeiros 50 documentos retornados na WWW, obtém-se em média 12455 documentos a mais para a consulta expandida. Assumindo uma precisão constante para a consulta, é possível estimar uma abrangência total da pesquisa. Estimamos a abrangência total do seguinte modo: • Considere P como a precisão dos n primeiros documentos obtidos, T como o número total de documentos recuperados. Desta forma é calculado RR representando o número estimado de documentos relevantes, para uma precisão contínua: RR = P × T • Considere A como a abrangência calculada para os n primeiros do- 68 CAPÍTULO 6. VALIDAÇÃO cumentos recuperados. Assim, podemos calcular T R representando o número estimado de documentos relevantes existentes: TR = RR A • Considere T Re como o total estimado de documentos relevantes para a consulta expandida. Este valor será considerado o total estimado de documentos relevantes, pois o conjunto de documentos relevantes da consulta original está contido no conjunto de documentos relevantes da consulta expandida. O valor AE representa a abrangência estimada de uma consulta: RR AE = T Re Tendo estimado um valor de abrangência para as consultas na forma original e na forma expandida, podemos utilizar a precisão conhecida dos primeiros n documentos, para o cálculo da medida-F. Para a consulta expandida estimamos uma abrangência média de 53.84% enquanto que para a consulta original esta passa a ser 25.77%. Da mesma forma a Medida-F estimada passa a ser 31.90% para a consulta original e 61.14% para a consulta expandida. 6.3 Resultados obtidos: uma apreciação O método de expansão de consultas apresentou-se útil na recuperação de informações em corpus estático. A utilização da Internet em nossos testes, demonstrou que o método degrada a performance da RI para um conjunto de 50 documentos iniciais recuperados. Contudo, observou-se 73.85% a mais de documentos retornados nas consultas expandidas, o que leva a uma abrangência 108.90% maior para a consulta expandida. Segundo Voorhees, em [VOO98], é muito mais danoso para a um sistema de RI perder um bom resultado do que fazer alguns poucos `chutes' falsos. Desta forma, o grande aumento obtido na medida de abrangência faz com que tenhamos uma melhora na RI através da expansão de consultas. Assim, acreditamos que o método de expansão de consultas deva ser adicionado às funcionalidades de uma ferramenta de busca em sites WWW, como método opcional. Quando, as ferramentas não disponibilizarem sucientes documentos aos usuários, poderia ser sugerida a utilização de expansão de consultas para disponibilizar mais documentos. Observamos que os resultados obtidos pelo teste em corpus estático foram similares aos resultados dos testes realizados na Internet, ao estimarmos o 6.4. CONSIDERAÇÕES SOBRE O CAPÍTULO 69 valor da abrangência. A queda na precisão da RI pela consulta expandida foi de aproximadamente 15%, enquanto que o ganho obtido na abrangência foi de aproximadamente 109%, isto tanto para os testes em corpus estático, quanto para os testes na WWW. 6.4 Considerações sobre o capítulo Durante o processo de testes, foi possível vericar que a utilização conjunta dos tesauros gera melhores resultados que a utilização destes de forma separada. Contudo, quanticar precisamente a importância de cada um destes tesauros na expansão de consultas é uma tarefa que deve ainda ser mais trabalhada. Outra tarefa a ser elaborada, identicada no processo de validação, é um estudo dos melhores parâmetros para o método de expansão apresentado. Devido à grande quantidade de combinações possíveis, se torna necessária a elaboração de técnicas estatísticas que comprovem a ecácia dos valores para cada parâmetro. Neste capítulo demonstramos a validação da estrutura multitesauro apresentada no capítulo 4, através do método de expansão de consultas detalhado no capítulo 5. No capítulo seguinte serão descritos alguns trabalhos correlatos ao trabalho desenvolvido, com o objetivo de trazer ao leitor uma visão de contorno, no que se refere às experiências na área de expansão de consultas e uso de estruturas multitesauro. 70 CAPÍTULO 6. VALIDAÇÃO Capítulo 7 Trabalhos correlatos Os capítulos anteriores mostraram que uma estrutura tesaural padrão possibilita o uso de múltiplos tesauros de maneira conjunta. A utilização da combinação de tesauros foi validada ao ser aplicada em tarefas de RI. No capítulo anterior apresentamos a validação desta estrutura tesaural, e a avaliação da técnica de expansão de consultas desenvolvida. No presente capítulo apresentaremos alguns trabalhos que demonstram preocupações da mesma natureza dos estudos realizados nesta dissertação. 7.1 O trabalho de Sintichakis & Constantopoulos O trabalho de Sintichakis & Constantopoulos, descrito em [SIN97], apresenta um método para juntar diversos tesauros monolíngües em um único tesauro que englobe todas as características individuais destes. O processo de junção de tesauros é realizado em cinco etapas: • Pré-integração. Nesta etapa, os autores buscam representar os diferentes tesauros em um mesmo modelo de dados. • Análise. Este etapa tem como objetivo a detecção de termos equivalentes nos diferentes tesauros. No trabalho de Sintichakis & Constantopoulos foi dada uma signicativa importância a esta etapa. • Conformação. Etapa de detecção e correção de conitos onde a estruturação e as relações entre termos dicultem a junção dos tesauros. • Integração. Junção dos tesauros em um único repositório. 71 72 CAPÍTULO 7. TRABALHOS CORRELATOS • Reestruturação. Nesta etapa o tesauro deve ser analisado e, se necessário, reestruturado de forma a representar todos os conceitos de forma mínima e otimizada. Sintichakis & Constantopoulos ressaltam a importância da junção de tesauros para a utilização de múltiplos tesauros em um sistema de RI. Em nosso trabalho, demonstramos que a utilização conjunta de tesauros é mais efetiva na RI que a utilização dos tesauros em separado, e propomos esta utilização conjunta sem a necessidade de junção em um único arquivo ou base de dados. Em nosso trabalho efetuamos a junção dos tesauros através da etapa de pré-integração proposta em [SIN97], onde os diferentes tesauros são representados através de uma estrutura padrão em XML. As etapas consequëntes à pré-integração são realizadas, ou parcialmente realizadas, através de uma ferramenta de expansão de consulta descrita na seção 5.4. 7.2 O trabalho de Mandala et al. O trabalho de Mandala et al., em [MAN99], propõe um método para enriquecer a WordNet com o tesauro de Roget e com dois tesauros construídos de forma automática. Os autores propõem uma expansão de consulta utilizando um cálculo diferenciado de similaridade entre os termos para cada tesauro. É proposto um cálculo de similaridade entre a consulta e os termos dos tesauros, de modo que sejam calculados valores que representam pesos para os termos referentes a toda a consulta e tesauros utilizados. Mandala et al. demonstraram que a expansão de consultas realizada com a combinação dos tesauros obteve melhores resultados do que a expansão de consulta realizada com cada tesauro em separado. A Tabela 7.1 demonstra os resultados obtidos pelos autores, para a utilização dos tesauros em separado, e com a utilização de todos os tesauros em conjunto. Na técnica utilizada em [MAN99] a precisão da consulta, com a utilização conjunta de tesauros, obteve um ganho de 37.8%, em média, em relação à consulta original. O ganho obtido pela técnica de expansão de consultas foi menor, quando utilizado sobre os tesauros em separado. Os autores armam que o método desenvolvido pelos mesmos não tem grande perda de desempenho com o problema da polissemia, pois a técnica de atribuir pesos aos termos irá reduzir este problema. Outro trabalho dos mesmos autores, [MAN99a], apresenta a utilização conjunta de três tesauros sendo dois destes já apresentados em [MAN99] 7.3. O TRABALHO DE ROBIN & RAMALHO 73 Tabela 7.1: Média da precisão obtida para a expansão de consultas em [MAN99]. Original 0.1976 Sintático 0.2131 (+7.8%) WordNet 0.2010 (+1.7%) Co-ocorência 0.2191 (+10.8%) Roget 0.1999 (+1.2%) Todos os Tesauros 0.2724 (+37.8%) (WordNet e Co-occurrence based thesaurus ). No trabalho os autores concluem que a utilização conjunta de tesauros apresenta melhores resultados que a utilização dos mesmos tesauros em separado. O método de expansão de consultas apresentado em [MAN99] e [MAN99a] utiliza-se de diferentes tesauros ao mesmo tempo. Contudo, estes tesauros não são utilizados como um único multitesauro. Nosso trabalho apresenta uma estrutura tesaural e um método de expansão que utiliza diferentes tesauros de forma única. Isto é, sem distinção de técnicas de expansão para diferentes tesauros, utilizando de forma unicada os termos e relações presentes nos tesauros. 7.3 O trabalho de Robin & Ramalho Robin & Ramalho, em [ROB01], descrevem a realização de expansão de consultas utilizando as relações de sinonímia e hiperonímia existentes na WordNet. As consultas expandidas são utilizadas por uma ferramenta de busca sobre o conjunto de documentos de teste TIPSTER. O TIPSTER é uma coleção de documentos contendo aproximadamente 2 Gigabytes de dados, sendo que seus documentos estão marcados por relevância, e é oferecido também um conjunto de 50 consultas de teste. Para cada termo na consulta original foram buscados os seus sinônimos e hiperônimos mais comuns, e estes foram adicionados na consulta expandida. Os resultados obtidos demonstraram que a técnica aplicada era ecaz e melhorava a recuperação de informações. Este esforço relaciona-se com o presente trabalho, pois possibilitou avaliar, de certo modo, a utilidade da WordNet na RI. Como nossa estrutura multitesauro necessita uma validação quanto a sua usabilidade na RI, optamos por uma abordagem semelhante à de Robin & Ramalho, utilizando um método de expansão de consulta, uma ferramenta de busca e um corpus de 74 CAPÍTULO 7. TRABALHOS CORRELATOS documentos de assuntos diversos. O método utilizado na validação da estrutura foi melhor descrito nos capítulos 5 e 6 desta dissertação. 7.4 O trabalho de Alani et al. O trabalho de Alani et al., em [ALA00], salienta a diculdade e importância da utilização das relações associativas na RI e na expansão de consultas. A semântica de uma relação entre termos de um tesauro pode ser muito vaga, o que acarretaria uma perda de performance em um sistema de RI caso esta relação fosse utilizada. Em [ALA00] é proposta uma técnica para medir a distância semântica entre dois termos, como forma de denir a importância de determinados termos e relações. No trabalho de Alani et al. é exemplicado o uso das relações RT, da ISO 2788, na expansão de consulta, auxiliado pelas relações hierárquicas e medidas de distância entre conceitos semânticos. Aqueles autores deniram pesos diferentes para os diferentes tipos de relações semânticas do tesauro. Por exemplo, dois termos relacionados por uma relação NT são mais próximos semânticamente do que dois termos relacionados por uma relação RT. Desta forma, em uma expansão de consulta é possível desconsiderar termos que sejam diretamente relacionados com termos da consulta original, mas que não fazem parte do assunto ou contexto desta consulta. O trabalho de Alani et al. tem diversas características que o aproximam de nosso trabalho. O principal ponto em comum é a utilização de diferentes pesos para diferentes tipos de relações. Contudo em nosso trabalho, como o valor calculado é de importância, ou semelhança, quanto mais próximo de zero, menos este termo é importante. Em [ALA00] é calculado um valor de distância semântica, portanto quanto mais longe de zero, mais distante semanticamente um termo está dos termos da consulta original. 7.5 Considerações sobre o capítulo Neste capítulo apresentamos alguns trabalhos correlatos, sendo que estes têm características distintas e complementares a nosso trabalho. O trabalho de Sintichakis & Constantopoulos em [SIN97] apresenta um método para a junção de diferentes tesauros, enquanto o trabalho de Mandala et al., em [MAN99], demonstra que a utilização combinada de diferentes tesauros melhora a RI. 7.5. CONSIDERAÇÕES SOBRE O CAPÍTULO 75 Robin & Ramalho, em [ROB01], realizam a expansão de consulta utilizando diferentes tipos de relações presentes na WordNet. Alani et al., em [ALA00], apresentam uma maneira de medir a distância semântica entre termos em um tesauro, através da atribuição de pesos diferentes para os diversos tipos de relações existentes. A seguir passamos às considerações nais desta dissertação. 76 CAPÍTULO 7. TRABALHOS CORRELATOS Capítulo 8 Conclusão Nesta dissertação apresentamos a proposta de uma estrutura tesaural que engloba diferentes características de diferentes tesauros. A estrutura mostrou-se útil à recuperação de informações, quando utilizada em conjunto com uma técnica de expansão de consultas. O método de expansão de consultas realiza a validação da estrutura na RI. Este método utiliza as diferentes relações semânticas denidas na estrutura, atribuindo-lhes diferentes pesos. No capítulo 6 é apresentada uma validação (e avaliação) da técnica de expansão de consultas e da utilização conjunta dos tesauros. Para a denição da estrutura proposta, estudamos diferentes formatos para padronização de tesauros monolíngües como a norma NISO Z39.19, ISO 2788 e o METM. Estudamos também trabalhos que utilizaram estas normas ao denir padrões de arquivos de tesauros, oferecendo um meio de acesso às informações neles existentes. Em nosso trabalho focamos o desenvolvimento de uma estrutura tesaural que tivesse as seguintes características: ser útil a processos automáticos de recuperação de informação; e poder representar diferentes tesauros. Como base para a estrutura multitesauro proposta, utilizamos quatro tesauros construídos manualmente e um tesauro construído automaticamente. Uma característica dos tesauros manuais trabalhados é sua fácil transposição para uma estrutura baseada na ISO 2788, enquanto que o tesauro gerado automaticamente necessitou a criação de uma nova relação semântica na estrutura, com a utilização de um valor de similaridade agregado. Vericamos que a capacidade de representar diferentes tesauros possibilitou a união destes e, assim, possibilitou desenvolver uma técnica de RI que utiliza o multitesauro unicado. A validade desta unicação foi apresentada na seção 6.1.3, e demonstrou que a utilização de diferentes tesauros, ao mesmo tempo, na RI é uma abordagem válida. No capítulo 6 apresentamos uma validação do trabalho com a utilização 77 78 CAPÍTULO 8. CONCLUSÃO da expansão de consulta, e sua avaliação sob diferentes aspectos. Os resultados obtidos indicam que a técnica de expansão de consultas desenvolvida é adequada para a utilização em corpus estático e sob restrições na Internet. Contudo, devido às innitas combinações de parâmetros que a técnica de expansão de consulta permite, acredita-se que melhores resultados podem ser obtidos. Acredita-se que, para a denição dos melhores parâmetros para a técnica de expansão de consultas, seja necessária a utilização de modelos estatísticos mais complexos. Por parâmetros da expansão de consultas entendem-se desde os valores para os tipos de relações, valores de λ e σ , até o modo como calcular δ (pelo incremento dos β sem normalização, com normalização linear, com normalização não-linear, ou mesmo pela média dos β ). Neste trabalho apresentamos a estruturação tesaural como um tópico importante para a recuperação de informações. Validamos a estrutura proposta como a utilização de uma heurística de expansão de consultas que tem como principais características o uso de diferentes relações semânticas com valores de importâncias diferentes associados e a utilização de termos relacionados indiretamente com os termos originais da consulta. 8.1 Trabalhos Futuros Diversas tarefas são visualizadas que podem, e devem, ser desenvolvidas como continuidade a este trabalho. Acredita-se ser possível avaliar a qualidade das relações provenientes de LTOCSS através da utilização deste em RI. Este tesauro tem, como principal característica, valores associados às relações semânticas nele denidas. Conforme estas relações colaboram na RI, podemos assumi-las como melhores ou piores. O valor agregado às relações de LTOCSS também está presente em outras técnicas de construção de tesauros automáticos, como a técnica descrita por Mandala et al. em [MAN99] e [MAN99a], onde são descobertas relações entre palavras devido à co-ocorrência destas em documentos de um corpus. A utilização destes outros tipos de tesauro gerados a partir de corpora, e sua inclusão na estrutura multitesauro, já estão em desenvolvimento, contudo uma avaliação dos ganhos obtidos com seu uso ca entendida como trabalho futuro a esta dissertação. De forma a facilitar a geração de estatísticas, para melhor avaliar a utilização das técnicas de expansão de consultas descritas neste trabalho, pretendese adicionar à ferramenta QET a funcionalidade da indexação e recuperação de documentos. Desta forma, serão facilitados os testes sobre as melhores 8.2. CONSIDERAÇÕES FINAIS 79 combinações de pesos para as relações para diversas consultas, e sobre a evolução da precisão, para todos as consultas efetuadas. Através do desenvolvimento de um sistema de RI junto ao QET, poderão ser testadas novas métricas e modos de calcular os valores δ nais da heurística aplicada. Com o desenvolvimento de indexação e busca junto ao QET, será possível efetuar a ranqueamento dos documentos consultados, utilizando os valores δ associados aos termos. Os resultados a serem obtidos desta forma devem apresentar uma precisão decrescente para os primeiros n documentos recuperados, à medida que o valor n aumenta. Assim, deverão existir mais documentos relevantes para os primeiros documentos retornados pelo sistema. Fica como trabalho futuro a esta dissertação uma análise de complexidade do algoritmo proposto em 5.2. Assim poderá ser visualizado o desempenho do algoritmo frente à quantidade de termos existentes no tesauro e nas consultas. Também através de uma análise deste algoritmo será possível estudar possíveis otimizações que venham a facilitar o seu uso em ferramentas de busca WWW, onde o desempenho é um tópico de muita importância. Acredita-se que uma possível otimização possa ser feita através de um cálculo oine de valores para as consultas muito freqüentes. Outras análises sobre o algoritmo e sobre os tesauros podem ainda ser realizadas, como, por exemplo: • A quantidade média de termos que são pesquisados quando é efetuado o caminhamento da expansão de consultas; • A porcentagem de um tesauro que é utilizada em uma consulta padrão; • Os motivos que fazem com que alguns tesauros sejam melhor aproveitados. 8.2 Considerações Finais Durante o desenvolvimento desta dissertação publicamos três trabalhos em evento cientícos, sendo eles: PIZZATO, Luiz Augusto Sangoi; STRUBE DE LIMA, Vera Lúcia. Desenvolvimento e Avaliação de uma Estrutura Multitesauro para a Recuperação de Informações. In: XXVIII Conferencia Latinoamericana de Informática (CLEI 2002). Proceedings... . Montevideo, Uruguay. 25-29 Novembro 2002. 80 CAPÍTULO 8. CONCLUSÃO PIZZATO, Luiz Augusto Sangoi; STRUBE DE LIMA, Vera Lúcia. Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações. In: XVI Brazilian Symposium on Articial Intelligence (SBIA'02), I Workshop de Teses e Dissertações em Inteligência Articial (WTDIA). Proceedings... . Porto de Galinhas, PE, Brazil. 11-14 Novembro 2002. PIZZATO, Luiz Augusto Sangoi; STRUBE DE LIMA, Vera Lúcia. Estrutura Multitesauro para Recuperação de Informações. In: XIII Simpósio Brasileiro em Informática na Educação (SBIE'02), Workshop de Ontologias (WONTO). Proceedings... . São Leopoldo, RS, Brazil. 12-14 Novembro 2002. Nestes trabalhos, a relação SY, proveniente de LTOCSS, ainda não era explícita, e estava associada à relação RT com um valor agregado. Também a relação ET estava dividida entre relações USE e UF. A antiga estrutura apresentada nas publicações acima citadas é representada através da seguinte DTD/XML: <!ELEMENT <!ELEMENT <!ELEMENT <!ELEMENT <!ELEMENT <!ELEMENT <!ELEMENT THESAURUS (TERM+)> TERM (TERM*,USE*,UF*,BT*,NT*,RT*)> USE (EMPTY)> UF (EMPTY)> BT (EMPTY)> NT (EMPTY)> RT (EMPTY)> <!ATTLIST <!ATTLIST <!ATTLIST <!ATTLIST <!ATTLIST <!ATTLIST TERM USE UF BT NT RT term term term term term term value CDATA CDATA CDATA CDATA CDATA CDATA CDATA #REQUIRED> #REQUIRED> #REQUIRED> #REQUIRED> #REQUIRED> #REQUIRED "1"> Referências Bibliográcas [AIT00] AITCHISON, Jean; GILCHRIST, Alan; BAWDEN, David. Thesaurus construction and use: a practical manual. Chicago: Fitzroy Dearborn, 2000. [ALA00] ALANI, Harith; JONES, Christopher; TUDHOPE, Douglas. Associative and spatial relationships in thesaurus-based retrieval. In: FOURTH EUROPEAN CONFERENCE ON RESEARCH AND ADVANCED TECHNOLOGY FOR DIGITAL LIBRARIES (ECDL2000), 2000, Berlin, German. Anais. . . SpringerVerlag, 2000. p.4558. [AMA99] AMANN, B.; FUNDULAKI, I. Integrating ontologies and thesauri to build RDF schemas. In: RESEARCH AND ADVANCED TECHNOLOGIES FOR DIGITAL LIBRARIES, LECTURE NOTES IN COMPUTER SCIENCE. THIRD EUROPEAN CONFERENCE ECDL'99, 1999, Paris, France. Anais. . . Springer-Verlag, 1999. p.234253. [BAE99] BAEZA-YATES, Ricardo; RIBEIRO-NETO, Berthier. Modern information retrieval. New York: ACM-Press, 1999. [BEC01] BECHHOFER, Sean; GOBLE, Carole. Thesaurus construction through knowledge representation. Data & Knowledge Engineering, v.37, n.1, p.2545, Abril 2001. [BRA98] BRAY, Tim; PAOLI, Jean; SPERBERG-MCQUEEN, C. M.; MALER, Eve. Extensible markup language (XML) 1.0 (W3C recommendation). Disponível por WWW em http://www.w3.org/TR/REC-xml (1998). (Capturado em: 20 Junho 2001). [CAR01] CARPINETO, Claudio; MORI, Renato de; ROMANO, Giovanni; BIGI, Brigitte. An information-theoretic approach to automatic 81 82 REFERÊNCIAS BIBLIOGRÁFICAS query expansion. ACM Transactions on Information Systems (TOIS), v.19, n.1, p.127, 2001. [CER01] CERES/NBII thesaurus partnership project. Disponível por WWW em http://ceres.ca.gov/thesaurus/ (2001). (Capturado em: 25 Outubro 2001). [COL96] COLE, Richard; EKLUND, Peter W. Applications of formal concept analysis to information retrieval using an hierarchically structured thesaurus. In: EKLUND, P. W.; ELLIS, G.; MANN, G. (Eds.). Conceptual structures: knowledge representation as interlingua. Lecture Notes in AI. Berlin: Springer-Verlag, 1996. [CRO01] CROSS, Phil; BRICKLEY, Dan; TRAUGOTT, Koch. RDF thesaurus specication (draft). Disponível por WWW em http://www.ilrt.bris.ac.uk/discovery/2001/01/rdf-thes/ (2001). (Capturado em: 25 Outubro 2001). [FER99] FERREIRA, Aurélio Buarque. Aurélio século XXI: o dicionário da língua portuguesa. Rio de Janeiro: Nova Fronteira, 1999. p.2128. [GAS01] GASPERIN, Caroline V.; LIMA, Vera L. Strube de. Aplicação de uma técnica baseada em sintaxe para a extração de relações semânticas entre palavras a partir de corpora. In: ENCONTRO NACIONAL DE INTELIGÊNCIA ARTIFICIAL - ENIA, 2001, Fortaleza. Anais. . . 2001. [GAS01a] GASPERIN, Caroline Varaschin. Extração automática de relações semânticas a partir de relações sintáticas. PósGraduação em Ciência da Computação, Faculdade de Informática, Pontifícia Universidade Católica do Rio Grande do Sul. 2001. Dissertação de Mestrado. [GOM90] GOMES, Hagar Espanha. Manual de elaboração de tesauros monolíngües. Brasília: O Programa, 1990. p.78. [GON01] GONZALEZ, Marco A. I.; LIMA, Vera L. S. de. Recuperação de informação e expansão automática de consulta com thesaurus: uma avaliação. In: XXVII CONFERENCIA LATINO AMERICANA DE INFORMÁTICA (CLEI'2001), 2001, Ciudad de Mérida, Venezuela. Anais. . . 2001. REFERÊNCIAS BIBLIOGRÁFICAS 83 [GON01a] GONZALEZ, Marco A. I. Thesauri. 2001. (Trabalho Individual III, Pós-Graduação em Ciência da Computação, Faculdade de Informática, Pontifícia Universidade Católica do Rio Grande do Sul). [GRE94] GREFENSTETTE, Gregory. Explorations in automatic thesaurus discovery. EUA: Kluwer Academic Publishers, 1994. [HAN98] HAN, J. J.; CHOI, J.H.; PARK, J.J.; YANG, J.D. An objectbased information retrieval model: toward the structural construction of thesauri. In: IEEE FORUM ON RESEARCH AND TECHNOLOGY ADVANCES IN DIGITAL LIBRARIES. IEEE ADL'98, 1998, Santa Barbara, CA, USA. Anais. . . IEEE Computer Society, 1998. p.117125. [HOE01] HOENKAMP, Eduard; VUGT, Henriette Van. The inuence of recall feedback in information retrieval on user satisfaction and user behavior. In: 23rd ANNUAL CONFERENCE OF THE COGNITIVE SCIENCE SOCIETY, 2001. Anais. . . 2001. p.423428. [IMA99] IMAI, Hisao; COLLIER, Nigel; TSUJII, Jun'ichi. A combined query expansion approach for information retrieval. In: GENOME INFORMATICS, 1999. Anais. . . Universal Academic Press Inc., 1999. p.292293. [ISO85] International Organization for Standardization. ISO 5964: guidelines for the establishment and development of multilingual thesauri. Geneva: ISO, 1985. [ISO86] International Organization for Standardization. ISO 2788: guidelines for the establishment and development of monolingual thesauri. Geneva: ISO, 1986. [JIN94] JING, Yufeng; CROFT, W. Bruce. An association thesaurus for information retrieval. In: INTELLIGENT MULTIMEDIA INFORMATION RETRIEVAL SYSTEMS AND MANAGEMENT, RIAO'94, 1994, New York, NY. Anais. . . 1994. p.146160. [JUR00] JURAFSKY, Daniel; MARTIN, James H. Speech and language processing: an introduction to natural language processing, computational linguistics, and speech recognition. Upper Saddle River, NJ: Prentice-Hall, 2000. p.934. (Prentice-Hall Series in Articial Intelligence). 84 REFERÊNCIAS BIBLIOGRÁFICAS [KIM90] KIMOTO, Haruo; IWADERA, Toshiaki. Construction of a dynamic thesaurus and its use for associated information retrieval. In: SIGIR'90, 13th INTERNATIONAL CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL, BRUSSELS, BELGIUM, 5-7 SEPTEMBER 1990, 1990. Anais. . . ACM-Press, 1990. p.227240. [LEE99] LEE, Maria; BAILLIE, Stewart; DELL'ORO, Jon. TML: a thesaural markup language. In: FOURTH AUSTRALASIAN DOCUMENT COMPUTING SYMPOSIUM, 1999, Cos Harbour, NSW, Australia. Anais. . . 1999. p.1522. [LEW96] LEWIS, David D.; SPARCK-JONES, Karen. Natural language processing for information retrieval. Communications of the ACM, v.39, n.1, p.92101, 1996. [MAN99] MANDALA, Rila; TOKUNAGA, Takenobu; TANAKA, Hozumi. Complementing WordNet with Roget's and corpus-based thesauri for information retrieval. In: 9th CONFERENCE OF THE EUROPEAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS (EACL'99), 1999. Anais. . . 1999. p.94101. [MAN99a] MANDALA, Rila; TOKUNAGA, Takenobu; TANAKA, Hozumi. Combining multiple evidence from dierent types of thesaurus for query expansion. In: 22nd ANNUAL INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL, 1999. Anais. . . ACM Press, 1999. p.191197. [MAN00] MANDALA, Rila; TOKUNAGA, Takenobu; TANAKA, Hozumi. Query expansion using heterogeneous thesauri. Information Processing and Management, v.36, n.3, p.361378, 2000. [MIL97] MILLER, Uri. Thesaurus construction: problems and their roots. Information Processing & Management, v.33, n.4, p.481 493, Julho 1997. [NIS93] National Information Standards Organization, NISO:. ANSI/NISO Z39.19: guidelines for the construction, format and management of monolingual thesauri. Bethesda, MD, USA: NISO Press, 1993. p.69. REFERÊNCIAS BIBLIOGRÁFICAS 85 [ROB01] ROBIN, Jacques; RAMALHO, Franklin. Empirically evaluating WordNet-based query expansion in a web search engine setting. In: IR'2001, 2001, Oulu, Finland. Anais. . . 2001. [ROG58] ROGET, Peter M.; ROGET, John L.; ROGET, Samuel R. Thesaurus of English words and phrases. London: Longmans, Green and Co., 1958. [SAN50] SANTOS AZEVEDO, Francisco F. dos. Dicionário analógico da língua portuguesa (idéias ans). São Paulo: Cia. Ed. Nacional, 1950. [SEN01] SENADO FEDERAL: Subsecretaria de Biblioteca. THES: thesaurus do senado federal. Disponível por WWW em http://webthes.senado.gov.br/thes/default-thes.htm (2001). (Capturado em: 7 Novembro 2001). [SEN01a] SENADO FEDERAL: Subsecretaria de Biblioteca. VCBS: vocabulário controlado básico. Disponível por WWW em http://webthes.senado.gov.br/thes/default-vcbs.htm (2001). (Capturado em: 7 Novembro 2001). [SIB01] SIBi/USP. Vocabulário controlado USP: base de dados de descritores em língua portuguesa para indexação e recuperação da informação. 2001. (Publicado em CD-ROM). [SIN97] SINTICHAKIS, Marios; CONSTANTOPOULOS, Panos. A method for monolingual thesauri merging. In: 20th INTERNATIONAL CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL, 1997. Anais. . . 1997. p.129138. [SOE98] SOERGEL, Dagobert. Thesaurus design and development. 1998. [SPI52] SPITZER, Carlos. Dicionário analógico. Porto Alegre: Globo, 1952. [STR98] STRZALKOWSKI, Tomek; CARBALLO, Jose Perez; TAPANAINEN, Pasi; JARVINEN, Timo; KARLGREN, Jussi; HULTH, Anette. Natural language information retrieval: TREC7 report. In: TEXT RETRIEVAL CONFERENCE, 1998. Anais. . . 1998. p.164173. 86 REFERÊNCIAS BIBLIOGRÁFICAS [STR99] STRZALKOWSKI, Tomek; CARBALLO, Jose Perez; TAPANAINEN, Pasi; JARVINEN, Timo; KARLGREN, Jussi; HULTH, Anette. Natural language information retrieval: TREC8 report. In: TEXT RETRIEVAL CONFERENCE, 1999. Anais. . . 1999. p.275285. [TAY00] TAYLOR, Mike. Zthes: a Z39.50 prole for thesaurus navigation. Disponível por WWW em http://www.loc.gov/z3950/agency/proles/zthes-04.html"(Novembro 2000). (Capturado em: 10 Outubro 2001). [TUD01] TUDHOPE, Douglas; ALANI, Harith; JONES, Christopher. Augmenting thesaurus relationships: possibilities for retrieval. Journal of Digital Information, v.1, n.8, p.120, Fevereiro 2001. [VOO98] VOORHEES, Ellen M. Using WordNet for text retrieval. In: FELLBAUM, C. (Ed.). WordNet: an electronic lexical database. Cambridge, Massachusetts: The MIT Press, 1998. [VOO99] VOORHEES, Ellen M. Natural language processing and information retrieval. In: PAZIENZA, M.T. (Ed.). Information extraction: towards scalable, adaptable systems. New York: Springer, 1999. p.3248. [WIL92] WILL, Leonard. Thesaurus principles and practice. In: WORKSHOP OF THESAURI FOR MUSEUM DOCUMENTATION, 1992, Science Museum, London. Anais. . . 1992. Apêndice A Resultados das consultas em corpus estático As tabelas seguintes demonstram as consultas realizadas na forma expandida e na forma original, com o resultado de precisão, abrangência e medida-F, no RI em corpus estático. As consultas são numeradas de acordo com os resultados apresentados nos grácos das guras da seção 6.1.1. Tabela A.1: Resultados em corpus estático para a consulta na forma original Nro 1 2 3 4 5 6 7 8 9 10 11 12 13 Consulta Abrangência Viagem de Avião Acidente de Automóvel Comércio por Telefone Aposentadoria Animal Doméstico Aluguel de Imóvel Jogo de Futebol Música Brasileira Uso de Computador Doença Grave Frutas Tropicais Viagem Internacional Aumento de Salário 0.1795 0.1702 0.0000 0.3939 0.0000 0.3182 0.4432 0.1014 0.4043 0.0112 0.0000 0.1887 0.8261 87 Precisão 0.7000 0.5333 0.0000 0.8667 0.0000 0.9333 0.4588 0.5833 0.4872 0.1111 0.0000 0.6250 0.6333 Medida-F 0.2857 0.2581 0.0000 0.5417 0.0000 0.4746 0.4509 0.1728 0.4419 0.0204 0.0000 0.2899 0.7170 88APÊNDICE A. RESULTADOS DAS CONSULTAS EM CORPUS ESTÁTICO Tabela A.2: Resultados em corpus estático para a consulta na forma expandida Nro 1 2 3 4 5 6 7 8 9 10 11 12 13 Consulta Expandida VIAGEM DE AVIAO ou EXPEDICAO ou TURISMO ou VIAGEM AO REDOR DO MUNDO ou AEROPLANO ou AVIAO A ENERGIA SOLAR ACIDENTE DE AUTOMOVEIS ou DESASTRE ou ACIDENTE AERONAUTICO ou ACIDENTE DE TRANSITO ou ACIDENTE DO TRABALHO ou ACIDENTE MARITIMO ou ACIDENTE PESSOAL COMERCIO POR TELEFONE ou POLITICA COMERCIAL ou CIRCULACAO DE MERCADORIAS ou ECONOMIA INTERNACIONAL ou COMERCIO INTERNO ou COMERCIO ATACADISTA ou COMERCIO MARITIMO ou APARELHO TELEFONICO APOSENTADORIA ou APOSENTADORIA POR INVALIDEZ ou APOSENTADORIA POR DOENCA ou SEGUROINVALIDEZ ou APOSENTADORIA POR TEMPO DE SERVICO ou APOSENTADORIA POR VELHICE ou APOSENTADORIA COMPULSORIA ou APOSENTADORIA POR IDADE ou SEGURO-VELHICE ou APOSENTADORIA VOLUNTARIA ou APOSENTADORIA ESPONTANEA ou APOSENTADORIA FACULTATIVA ANIMAL DOMESTICO ou CAPRINO ou COELHO ou EQUINO ou GADO ou OVINO ou SUINO ALUGUEL DE IMOVEL ou LOCACAO ou ALUGUEL ou IMOVEL COMERCIAL ou IMOVEL RESIDENCIAL ou IMOVEL RURAL ou IMOVEL URBANO ou IMOVEL (DIREITO CIVIL) ou PROPRIEDADE IMOBILIARIA JOGO DE FUTEBOL ou CONTRATO DE JOGO E APOSTA ou JOGO (DIREITO CIVIL) ou LOTERIA ou LOTERIA ESPORTIVA ou LOTERIA FEDERAL ou LOTO ou FUTEBOL DE CAMPO ou FUTEBOL DE AREIA ou FUTEBOL DE ASFALTO ou FUTVOLEI MUSICA BRASILEIRA ou EVENTO MUSICAL ou FORMA MUSICAL ou HISTORIA DA MUSICA ou MEIO DE EXPRESSAO MUSICAL ou MUSICA TRADICIONAL ou MUSICOS ou TEORIA MUSICAL USO DE COMPUTADOR ou COMPUTADOR ELETRONICO ou COMPUTADOR ANALOGICO ou COMPUTADOR DE GRANDE PORTE ou COMPUTADOR DE QUINTA GERACAO ou COMPUTADOR DIGITAL ou COMPUTADOR GRAFICO ou MICROCOMPUTADOR ou MINICOMPUTADOR ou SUPERCOMPUTADOR ou UNIDADE CENTRAL DE PROCESSAMENTO DOENCA GRAVE ou ENFERMIDADE ou MOLESTIA ou CANCER OCUPACIONAL FRUTAS TROPICAIS ou ABACATE ou FRUTA-DE-CONDE ou GOIABA ou GRAVIOLA ou JABUTICABA ou JACA ou JAMBO ou JENIPAPO ou MAMAO ou MANGA ou MANGOSTAO ou ABACAXI ou ANANAS ou MARACUJA ou NESPERA ou PITANGA ou TAMARA ou TAMARINDO ou UMBU ou ACEROLA ou BANANICULTURA ou CAJA ou CAJU ou CAQUI ou CARAMBOLA ou CUPUACU VIAGEM INTERNACIONAL ou EXPEDICAO ou TURISMO ou VIAGEM AO REDOR DO MUNDO AUMENTO DE SALARIO ou ADICIONAIS ou SALARIO EM UTILIDADES ou SALARIO MINIMO Abrangência Precisão Medida-F 0.8085 0.4935 0.6129 0.3333 0.0106 0.0205 0.3939 0.8125 0.5306 0.5085 0.2913 0.3704 0.4091 0.7500 0.5294 0.4432 0.4194 0.4309 0.4928 0.3579 0.4146 0.4468 0.2442 0.3158 0.5393 0.5783 0.5581 0.7222 0.3421 0.4643 0.6226 0.2705 0.3771 0.8696 0.3636 0.5128 0.2308 0.0928 0.1324 Apêndice B Resultados das consultas na Internet As tabelas seguintes demonstram as consultas realizadas na forma expandida e na forma original, com o resultado de precisão, abrangência e medida-F, no RI na Internet. As consultas são numeradas de acordo com os resultados apresentados nos grácos das guras da seção 6.2. As tabelas B.1 e B.2 apresentam os testes para a medida DRRI, enquanto que as tabelas B.3 e B.4 apresentam os testes para DRWWW. Tabela B.1: Resultados DRRI para a consulta na forma original Nro 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Consulta Abrangência Tráco de Droga Viagem Avião Aposentadoria Animal Doméstico Aluguel de Imóvel Jogo Futebol Musica Brasileira Ensino Uso Computador Doença Grave Frutas Tropicais Campanha eleitoral Aumento Salário Viagem Internacional 0.5890 0.1842 0.5952 0.6833 0.5476 0.7037 0.7813 0.5181 0.6774 0.4889 0.4643 0.8605 0.5915 0.5854 89 Precisão 0.8600 0.8750 1.0000 0.8200 0.9200 0.7600 1.0000 0.8600 0.8400 0.8800 0.7800 0.7400 0.8400 0.9600 Medida-F 0.6992 0.3043 0.7463 0.7455 0.6866 0.7308 0.8772 0.6466 0.7500 0.6286 0.5821 0.7957 0.6942 0.7273 90 APÊNDICE B. RESULTADOS DAS CONSULTAS NA INTERNET Tabela B.2: Resultados DRRI para a consulta na forma expandida Nro 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Consulta Expandida TRAFICO DROGAS ou CONTROLE BIOLOGICO DE QUALIDADE DAS DROGAS ou REGISTRO DE DROGAS ou UTILIZACAO DE DROGAS ou CONTROLE FISICO-QUIMICO DE QUALIDADE DAS DROGAS ou DESENHO DE DROGAS ou DROGAS DE ORIGEM ANIMAL ou DROGAS DE ORIGEM VEGETAL ou DROGAS INORGANICAS ou DROGAS SEMISINTETICAS ou DROGAS SINTETICAS ou ESPECIALIDADES FARMACEUTICAS VIAGEM DE AVIAO ou EXPEDICAO ou TURISMO ou VIAGEM AO REDOR DO MUNDO ou AEROPLANO ou AVIAO A ENERGIA SOLAR APOSENTADORIA ou APOSENTADORIA POR INVALIDEZ ou APOSENTADORIA POR DOENCA ou SEGUROINVALIDEZ ou APOSENTADORIA POR TEMPO DE SERVICO ou APOSENTADORIA POR VELHICE ou APOSENTADORIA COMPULSORIA ou APOSENTADORIA POR IDADE ou SEGURO-VELHICE ou APOSENTADORIA VOLUNTARIA ou APOSENTADORIA ESPONTANEA ou APOSENTADORIA FACULTATIVA ANIMAL DOMESTICO ou CAPRINO ou COELHO ou EQUINO ou GADO ou OVINO ou SUINO ALUGUEL DE IMOVEL ou LOCACAO ou ALUGUEL ou IMOVEL COMERCIAL ou IMOVEL RESIDENCIAL ou IMOVEL RURAL ou IMOVEL URBANO ou IMOVEL (DIREITO CIVIL) ou PROPRIEDADE IMOBILIARIA JOGO DE FUTEBOL ou CONTRATO DE JOGO E APOSTA ou JOGO (DIREITO CIVIL) ou LOTERIA ou LOTERIA ESPORTIVA ou LOTERIA FEDERAL ou LOTO ou FUTEBOL DE CAMPO ou FUTEBOL DE AREIA ou FUTEBOL DE ASFALTO ou FUTVOLEI MUSICA BRASILEIRA ou EVENTO MUSICAL ou FORMA MUSICAL ou HISTORIA DA MUSICA ou MEIO DE EXPRESSAO MUSICAL ou MUSICA TRADICIONAL ou MUSICOS ou TEORIA MUSICAL ENSINO ou AUTODIDATISMO ou ENSINO A DISTANCIA ou MEIOS AUXILIARES DE ENSINO ou MATERIAL DIDATICO USO DE COMPUTADOR ou COMPUTADOR ELETRONICO ou COMPUTADOR ANALOGICO ou COMPUTADOR DE GRANDE PORTE ou COMPUTADOR DE QUINTA GERACAO ou COMPUTADOR DIGITAL ou COMPUTADOR GRAFICO ou MICROCOMPUTADOR ou MINICOMPUTADOR ou SUPERCOMPUTADOR ou UNIDADE CENTRAL DE PROCESSAMENTO DOENCA GRAVE ou ENFERMIDADE ou MOLESTIA ou CANCER OCUPACIONAL FRUTAS TROPICAIS ou ABACATE ou FRUTA-DE-CONDE ou GOIABA ou GRAVIOLA ou JABUTICABA ou JACA ou JAMBO ou JENIPAPO ou MAMAO ou MANGA ou MANGOSTAO ou ABACAXI ou ANANAS ou MARACUJA ou NESPERA ou PITANGA ou TAMARA ou TAMARINDO ou UMBU ou ACEROLA ou BANANICULTURA ou CAJA ou CAJU ou CAQUI ou CARAMBOLA ou CUPUACU CAMPANHA ELEITORAL ou PLATAFORMA POLITICA ou PRATICA POLITICA ou FINANCIAMENTO DE CAMPANHA ELEITORAL ou ESTRATEGIA POLITICA ou PROGRAMA DE GOVERNO AUMENTO DE SALARIO ou ADICIONAIS ou SALARIO EM UTILIDADES ou SALARIO MINIMO VIAGEM INTERNACIONAL ou EXPEDICAO ou TURISMO ou VIAGEM AO REDOR DO MUNDO Abrangência Precisão Medida-F 0.8158 0.6200 0.7045 0.5357 0.9000 0.6716 0.4500 0.5400 0.4909 0.4762 0.8000 0.5970 0.4259 0.4600 0.4423 0.5313 0.6800 0.5965 0.4819 0.8000 0.6015 0.4355 0.5400 0.4821 0.5111 0.9200 0.6571 0.5357 0.9000 0.6716 0.8837 0.7600 0.8172 0.4789 0.6800 0.5620 0.4634 0.7600 0.5758 0.5342 0.7800 0.6341 91 Tabela B.3: Resultados DRWWW para a consulta na forma original Nro 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Consulta Tráco de Droga Viagem Avião Aposentadoria Animal Doméstico Aluguel de Imóvel Jogo Futebol Musica Brasileira Ensino Uso Computador Doença Grave Frutas Tropicais Campanha eleitoral Aumento Salário Viagem Internacional Abrangência 0.5753 0.1842 0.5357 0.5667 0.4881 0.5926 0.7500 0.4699 0.5968 0.4333 0.3810 0.7442 0.4930 0.4878 Precisão 0.8400 0.8750 0.9000 0.6800 0.8200 0.6400 0.9600 0.7800 0.7400 0.7800 0.6400 0.6400 0.7000 0.8000 Medida-F 0.6829 0.3043 0.6716 0.6182 0.6119 0.6154 0.8421 0.5865 0.6607 0.5571 0.4776 0.6882 0.5785 0.6061 92 APÊNDICE B. RESULTADOS DAS CONSULTAS NA INTERNET Tabela B.4: Resultados DRWWW para a consulta na forma expandida Nro 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Consulta Expandida TRAFICO DROGAS ou CONTROLE BIOLOGICO DE QUALIDADE DAS DROGAS ou REGISTRO DE DROGAS ou UTILIZACAO DE DROGAS ou CONTROLE FISICO-QUIMICO DE QUALIDADE DAS DROGAS ou DESENHO DE DROGAS ou DROGAS DE ORIGEM ANIMAL ou DROGAS DE ORIGEM VEGETAL ou DROGAS INORGANICAS ou DROGAS SEMISINTETICAS ou DROGAS SINTETICAS ou ESPECIALIDADES FARMACEUTICAS VIAGEM DE AVIAO ou EXPEDICAO ou TURISMO ou VIAGEM AO REDOR DO MUNDO ou AEROPLANO ou AVIAO A ENERGIA SOLAR APOSENTADORIA ou APOSENTADORIA POR INVALIDEZ ou APOSENTADORIA POR DOENCA ou SEGUROINVALIDEZ ou APOSENTADORIA POR TEMPO DE SERVICO ou APOSENTADORIA POR VELHICE ou APOSENTADORIA COMPULSORIA ou APOSENTADORIA POR IDADE ou SEGURO-VELHICE ou APOSENTADORIA VOLUNTARIA ou APOSENTADORIA ESPONTANEA ou APOSENTADORIA FACULTATIVA ANIMAL DOMESTICO ou CAPRINO ou COELHO ou EQUINO ou GADO ou OVINO ou SUINO ALUGUEL DE IMOVEL ou LOCACAO ou ALUGUEL ou IMOVEL COMERCIAL ou IMOVEL RESIDENCIAL ou IMOVEL RURAL ou IMOVEL URBANO ou IMOVEL (DIREITO CIVIL) ou PROPRIEDADE IMOBILIARIA JOGO DE FUTEBOL ou CONTRATO DE JOGO E APOSTA ou JOGO (DIREITO CIVIL) ou LOTERIA ou LOTERIA ESPORTIVA ou LOTERIA FEDERAL ou LOTO ou FUTEBOL DE CAMPO ou FUTEBOL DE AREIA ou FUTEBOL DE ASFALTO ou FUTVOLEI MUSICA BRASILEIRA ou EVENTO MUSICAL ou FORMA MUSICAL ou HISTORIA DA MUSICA ou MEIO DE EXPRESSAO MUSICAL ou MUSICA TRADICIONAL ou MUSICOS ou TEORIA MUSICAL ENSINO ou AUTODIDATISMO ou ENSINO A DISTANCIA ou MEIOS AUXILIARES DE ENSINO ou MATERIAL DIDATICO USO DE COMPUTADOR ou COMPUTADOR ELETRONICO ou COMPUTADOR ANALOGICO ou COMPUTADOR DE GRANDE PORTE ou COMPUTADOR DE QUINTA GERACAO ou COMPUTADOR DIGITAL ou COMPUTADOR GRAFICO ou MICROCOMPUTADOR ou MINICOMPUTADOR ou SUPERCOMPUTADOR ou UNIDADE CENTRAL DE PROCESSAMENTO DOENCA GRAVE ou ENFERMIDADE ou MOLESTIA ou CANCER OCUPACIONAL FRUTAS TROPICAIS ou ABACATE ou FRUTA-DE-CONDE ou GOIABA ou GRAVIOLA ou JABUTICABA ou JACA ou JAMBO ou JENIPAPO ou MAMAO ou MANGA ou MANGOSTAO ou ABACAXI ou ANANAS ou MARACUJA ou NESPERA ou PITANGA ou TAMARA ou TAMARINDO ou UMBU ou ACEROLA ou BANANICULTURA ou CAJA ou CAJU ou CAQUI ou CARAMBOLA ou CUPUACU CAMPANHA ELEITORAL ou PLATAFORMA POLITICA ou PRATICA POLITICA ou FINANCIAMENTO DE CAMPANHA ELEITORAL ou ESTRATEGIA POLITICA ou PROGRAMA DE GOVERNO AUMENTO DE SALARIO ou ADICIONAIS ou SALARIO EM UTILIDADES ou SALARIO MINIMO VIAGEM INTERNACIONAL ou EXPEDICAO ou TURISMO ou VIAGEM AO REDOR DO MUNDO Abrangência Precisão Medida-F 0.7895 0.6000 0.6818 0.4762 0.8000 0.5970 0.4000 0.4800 0.4364 0.3929 0.6600 0.4925 0.3704 0.4000 0.3846 0.5000 0.6400 0.5614 0.4819 0.8000 0.6015 0.3871 0.4800 0.4286 0.4333 0.7800 0.5571 0.4524 0.7600 0.5672 0.7209 0.6200 0.6667 0.4366 0.6200 0.5124 0.3780 0.6200 0.4697 0.5068 0.7400 0.6016