Biblioteca de suporte para
desenvolvimento de sistemas
de Recuperação de Informação
Bruno Augusto Vivas e Pôssas
09/04/2003
Departamento de Ciência da Computação
Universidade Federal de Minas Gerais
Motivação
Quantas versões de indexadores temos
para cada uma dos grupos presentes?
Esses indexadores eram o foco inicial de
investigação?
Quanto tempo foi gasto na criação da infraestrutura para a investigação em questão?
LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
2
Objetivo
Fomentar a pesquisa em recuperação de
informação
 direcionando todos os esforços de
implementação diretamente no foco de
investigação
 disponibilizando um ambiente integrado de
desenvolvimento e avaliação dos resultados
 facilitando a transmissão de conhecimentos
entre os grupos de pesquisa envolvidos
LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
3
Biblioteca: Composição
Módulos:







Coleta
Processamento
Indexação
Classificação
Filtragem
Busca
...
LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
4
Biblioteca: Composição
Módulos:




Validação e avaliação dos resultados
Coleções de referência
Visualização
...
LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
5
Metodologia de Desenvolvimento
Modelagem inicial de cada módulo a partir
das experiências dos grupos envolvidos
Desenvolvimento guiado por um processo
simples e não burocratizado de
engenharia de software
Documentação e testes de regressão de
cada módulo implementado
LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
6
Decisões de Projeto
Ambiente de desenvolvimento:
 Qualquer ambiente integrado ao savannah
Ambiente de execução:
 Multi-plataforma
Linguagem de programação:
 Ansi C/C++
 Java
 ...
LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
7
Decisões de Projeto
Módulo de Coleta:
 capaz de coletar documentos, imagens,
áudio, vídeo, ...
 implementação baseada no software wget
(http://www.wget.org)
LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
8
Decisões de Projeto
Módulo de Processamento:
 capaz de processar e extrair o conteúdo de
documentos nos seguintes formatos:
• SGML, HTML e XML
• coleções de referência
LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
9
Decisões de Projeto
Módulo de Indexação:
 capaz de indexar grandes coleções de
documentos
•
•
•
•
técnicas de compressão
informação posicional
informação de links
determinação de passagens
LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
10
Decisões de Projeto
Módulo de Busca:
 capaz de recuperar documentos a partir da
necessidade de informação dos usuários para
cada um dos modelos clássicos
• booleano
• vetorial
• probabilístico
 extensão dos modelos implementados
através da análise de links
LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
11
Decisões de Projeto
Módulo de Validação e Avaliação dos
Resultados:
 capaz de validar e avaliar os resultados dos
modelos de recuperação de informação a
partir das métricas usuais:
•
•
•
•
•
revocação (recall)
precisão (precision)
tempo de resposta
recursos utilizados (memória, etc)
...
LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
12
Decisões de Projeto
Módulo para Coleções de Referência:
 capaz de extrair e processar os documentos,
tópicos e conjuntos resposta das principais
coleções de referência
• TReC, CACM, CFC, CISI, MEDL, etc
 capaz de determinar o conjunto resposta de
um determinada consulta a partir da mesma
metodologia utilizada pela NIST
• pool de respostas
LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
13
Decisões de Projeto
Módulo de Visualização:
 capaz de apresentar os documentos
retornados a partir de uma consulta
• simples lista ordenada de documentos baseados
na similaridade com a consulta
LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
14
Prova de Conceito
Combinação dos módulos implementados
para a criação de uma máquina de busca
simplificada
Disponibilização da biblioteca como
contribuição para a comunidade de
recuperação de informação
 mg, smart, ...
LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
15
Decisões de Projeto
Módulo de Classificação:
 capaz de acessar e navegar sobre uma
ontologia representada por um thesaurus
 capaz de determinar a partir de passagens e
do conjunto de definições presentes em um
thesaurus, qual a melhor classificação para
um documento
LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
16
Decisões de Projeto
Módulo de Filtragem:
 capaz de determinar a relevância de um novo
documento a partir de uma consulta
LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
17
Download

Set-Based Model: A New Approach for Information