Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação Bruno Augusto Vivas e Pôssas 09/04/2003 Departamento de Ciência da Computação Universidade Federal de Minas Gerais Motivação Quantas versões de indexadores temos para cada uma dos grupos presentes? Esses indexadores eram o foco inicial de investigação? Quanto tempo foi gasto na criação da infraestrutura para a investigação em questão? LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais 2 Objetivo Fomentar a pesquisa em recuperação de informação direcionando todos os esforços de implementação diretamente no foco de investigação disponibilizando um ambiente integrado de desenvolvimento e avaliação dos resultados facilitando a transmissão de conhecimentos entre os grupos de pesquisa envolvidos LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais 3 Biblioteca: Composição Módulos: Coleta Processamento Indexação Classificação Filtragem Busca ... LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais 4 Biblioteca: Composição Módulos: Validação e avaliação dos resultados Coleções de referência Visualização ... LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais 5 Metodologia de Desenvolvimento Modelagem inicial de cada módulo a partir das experiências dos grupos envolvidos Desenvolvimento guiado por um processo simples e não burocratizado de engenharia de software Documentação e testes de regressão de cada módulo implementado LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais 6 Decisões de Projeto Ambiente de desenvolvimento: Qualquer ambiente integrado ao savannah Ambiente de execução: Multi-plataforma Linguagem de programação: Ansi C/C++ Java ... LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais 7 Decisões de Projeto Módulo de Coleta: capaz de coletar documentos, imagens, áudio, vídeo, ... implementação baseada no software wget (http://www.wget.org) LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais 8 Decisões de Projeto Módulo de Processamento: capaz de processar e extrair o conteúdo de documentos nos seguintes formatos: • SGML, HTML e XML • coleções de referência LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais 9 Decisões de Projeto Módulo de Indexação: capaz de indexar grandes coleções de documentos • • • • técnicas de compressão informação posicional informação de links determinação de passagens LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais 10 Decisões de Projeto Módulo de Busca: capaz de recuperar documentos a partir da necessidade de informação dos usuários para cada um dos modelos clássicos • booleano • vetorial • probabilístico extensão dos modelos implementados através da análise de links LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais 11 Decisões de Projeto Módulo de Validação e Avaliação dos Resultados: capaz de validar e avaliar os resultados dos modelos de recuperação de informação a partir das métricas usuais: • • • • • revocação (recall) precisão (precision) tempo de resposta recursos utilizados (memória, etc) ... LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais 12 Decisões de Projeto Módulo para Coleções de Referência: capaz de extrair e processar os documentos, tópicos e conjuntos resposta das principais coleções de referência • TReC, CACM, CFC, CISI, MEDL, etc capaz de determinar o conjunto resposta de um determinada consulta a partir da mesma metodologia utilizada pela NIST • pool de respostas LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais 13 Decisões de Projeto Módulo de Visualização: capaz de apresentar os documentos retornados a partir de uma consulta • simples lista ordenada de documentos baseados na similaridade com a consulta LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais 14 Prova de Conceito Combinação dos módulos implementados para a criação de uma máquina de busca simplificada Disponibilização da biblioteca como contribuição para a comunidade de recuperação de informação mg, smart, ... LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais 15 Decisões de Projeto Módulo de Classificação: capaz de acessar e navegar sobre uma ontologia representada por um thesaurus capaz de determinar a partir de passagens e do conjunto de definições presentes em um thesaurus, qual a melhor classificação para um documento LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais 16 Decisões de Projeto Módulo de Filtragem: capaz de determinar a relevância de um novo documento a partir de uma consulta LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais 17