UNIVERSIDADE FEDERAL DE SANTA CATARINA - UFSC
PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA E GESTÃO DO CONHECIMENTO
EGC9001-07 – GESTÃO DO CONHECIMENTO E FERRAMENTAS DE BUSCA
Professor: Hugo César Hoeschel, Dr.
Livro: MODERN INFORMATION RETRIEVAL
Autores: Baeza-Yates, Ricardo;Ribeiro-Neto, Berthier.
Editora: Addison-Wesley, England, 1999.
Almir S. Albuquerque
INTRODUÇÃO
 Grande quantidade de informações são produzidas
e disponibilizadas diariamente.
 Com a elevada quantidade de documentos, o
processo de recuperação de informação não é uma
tarefa simples.
 A baixa qualidade associada a boa parte dos
documentos disponíveis prejudica a recuperação
de informações relevantes.
MOTIVAÇÃO E FOCO DO LIVRO
 Escassez de literatura específica voltadas para área
de recuperação de informação.
 Apresenta uma visão global de pesquisa em RI da
perspectiva de um cientista da computação.
 Algoritmos de computador e técnicas usadas em
SRI.
 Além de recuperação de texto que cobre, sistemas
de biblioteca, interfaces do usuário e a Web, discute
também visualização, recuperação de multimídia e
bibliotecas digitais.
RECUPERAÇÃO DE INFORMAÇÃO
 Sistemas de Recuperação de Informação (SRI) são
os
responsáveis
pela
representação,
armazenamento, organização e acesso aos itens
de informação.
 Sistemas de Recuperação de Informação Web (SRI
Web) um
conjunto organizado de
computadores, índices, bases de dados e
algoritmos que, reunidos, trabalham com o intuito
de analisar e indexar documentos Web.
RECUPERAÇÃO DE INFORMAÇÃO
Figura 1: Interação do usuário com o sistema de recuperação por tarefas distintas.
RECUPERAÇÃO DE INFORMAÇÃO
 SRI’s Web - consultas por palavras-chaves, as quais
expressam a necessidade do usuário em adquirir
informação. O principal objetivo é localizar o maior
número de documentos, porém, levando em
consideração alguns fatores, tais como: tempo e
qualidade do resultado.
 Os
documentos
recuperados
pelos
SRI
são
apresentados através de um ranking (lista organizada
de documentos), em uma página da Web e ordenados
de acordo com o grau de relevância em relação à
consulta do usuário. Esta ordenação, segue alguns
critérios, próprios de cada sistema de busca.
O PROCESSO DE RI
O PROCESSO DE RI
 User Interface: é a estrutura responsável para permitir a interação do usuário com
os SRI’s.
 Text Operations: são operações realizadas sobre o texto de modo que seja
reduzido o texto a ser pesquisado, a fim de que o processo de recuperação seja
mais eficiente. Consistem em retirar artigos, conjunções, preposições, acentos e
caracteres especiais e preposições que fazem elo entre as palavras, por exemplo:
“linguagens de marcação” é o texto original digitado pelo usuário, porém, o texto
real para a pesquisa ficaria “linguagens marcação”.
 Query Operations: são operações realizadas sob expressão ou palavra-chave
utilizada pelo usuário para que o SRI possa fazer uma nova busca.
 Searching:é a estrutura que consiste em buscar na base de dados as informações
contidas no módulo Query operation.
 Ranking: consiste em classificar os documentos recuperados na Searching por
ordem decrescente de relevância e apresentá-los ao usuário.
 Indexing: é o processo de criação de índices para os documentos que serão
adicionados à base de dados.
 Index: são os documentos indexados.
 DB Manager Module: Gerente da base de dados.
 Text Database:é a base de dados dos SRI’s.
TÓPICOS DO LIVRO
Figura 3: Tópicos que compõem o livro e as suas relações.
CAPÍTULOS
DO
LIVRO
Figura 4: Estrutura dos capítulos do livro.
Referências Bibliográficas
1) Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier. Modern information
retrieval.
Addison-Wesley,
England,
1999.
http://sunsite.dcc.uchile.cl/irbook/
2) BOTELHO, Rocha Arylma. Estudo e Avaliação dos Sistemas de
recuperação de Informação WEB. Monografia. Centro Universitário
Luterano de Palmas – ULBRA. Palmas-TO.
3) www.dcc.ufmg.br/irbook
Download

Modern Information Retrieval