Introdução a Teoria da Classificação Suzana Dantas Internet e RI - aula 1 1 Sistema de Recuperação da informação (SRI) Um Sistema de Recuperação da Informação é uma organização para armazenar e tornar disponível informação, explorando-a de modo positivo, com um índice de assunto dos documentos existentes na coleção, permitindo recuperar as referências Internet e RI - aula 1 2 Origem • Existência de computadores – potencial para implementação de “bases de dados” • conjuntos de ficheiros • Software para manter e pesquisar a informação • Sistemas desenvolvidos – SGBD • armazenamento e processamento • informação em linguagens muito restritas – Armazenamento e RI - pesquisa de documentos • necessidade sentida nas bibliotecas nos anos 50 • reforço: proliferação de documentos eletrônicos • mais reforço: WWW Internet e RI - aula 1 3 Conceitos • Recuperação de Informação – no sentido da recuperação de documentos ou de textos • Atividades principais – indexação ( modo de representar documentos e perguntas) – consulta (modo de analisar itens com vista à resposta a perguntas) • Atividades relacionadas - diversificação na forma de pesquisa - ex. browsing - apresentação visual de resultados • Entidades primitivas RI - aula 1 – documentos, termosInternet de eindexação 4 Nomes • Índice: nome genérico para catálogos, bibliografias, índices de artigos, etc… • Registro de documento • cabeçalho: nome do autor, cabeçalho do assunto • descrição: autor, título, edição, editor, paginação • localização Internet e RI - aula 1 5 Indexar • Indexar significa incluir um documento num repositório de informações • Inclui identificar, determinar assuntos e selecionar termos para representar os índices • Utiliza uma linguagem de indexação Internet e RI - aula 1 6 Métodos de Indexação • Por palavra • utiliza as palavras encontradas no título ou no documento • KWIC : Keyword in Context • Por assunto • supõe a análise do conteúdo temático do documento, a decisão sobre os conceitos presentes e a tradução em uma linguagem apropriada (artificial ou controlada) Internet e RI - aula 1 7 Revocação e Precisão • As medidas mais comuns para avaliar a qualidade de um sistema de busca e recuperação de informação são conhecidas com revocação e precisão • Revocação mede a proporção de documentos relevantes recuperados • Precisão mede quantos documentos relevantes foram recuperados Internet e RI - aula 1 8 Revocação e Precisão • Normalmente sistemas de BRI possuem uma curva de Recall x Precision 1 0,8 0,6 0,4 0,2 0 0 0,5 1 Internet e RI - aula 1 9 Revocação e Precisão Itens recuperados Itens não recuperados B C Itens não relevantes A D Itens relevantes Internet e RI - aula 1 10 Revocação e Precisão • Revocação • Relevantes Recuperados/Total de itens relevantes • A/(A+D) • Precisão • Relevantes Recuperados/Total Recuperados • A/(A+B) Internet e RI - aula 1 11 Fatores que governam • Exaustividade • Extensão com que determinado documento é indexado (número de conceitos utilizados) • grau de profundidade da indexação • Especificidade • Exatidão dos descritores • depende da linguagem de indexação Internet e RI - aula 1 12 Relação • Maior exaustividade aumenta a revocação e diminui a precisão • Maior especifidade diminui a revocação e aumenta a precisão Internet e RI - aula 1 13 Linguagens de Indexação • Vocabulário • coleção de termos de indexação • descritores: palavras • cabeçalhos de assuntos • símbolos de classificação • Sintaxe • artifícios empregados para revelar as relações entre os conceitos e as regras para estabelecer os descritores e a ordem de citação Internet e RI - aula 1 14 Elementos Promotores • Revocação: aumentam o número de documentos de uma classe, alargando a definição do descritor e reduzindo o tamanho do vocabulário • Precisão: reduzem o tamanho das classes, restringem a definição dos descritores e aumentam o tamanho do vocabulário Internet e RI - aula 1 15 Provendo Revocação • Controle de sinônimos • Controle de quase-sinônimos • Agrupamento de várias formas de uma palavra (radical comum, singular e plural) • Agrupamento de conceitos semelhantes ou relacionados • Elos hierárquicos Internet e RI - aula 1 16 Promovendo Precisão • • • • • Coordenação Distinção de homônimos Ponderação Elos (links) Papéis ou funções (roles) Internet e RI - aula 1 17 Extensão da Recuperação da Informação Novos meios em documentos – técnicas usadas em texto são extensíveis – documentos são cada vez mais heterogéneos • Documentos em linguagens diversas – noção de documento esbate-se – pesquisas tendem a requerer técnicas híbridas • Para tarefa específica – necessário identificar os seus requisitos de indexação e pesquisa Internet e RI - aula 1 18 Processo de recuperação índice Busca (searching) Operações de query Modelo texto indexação ranking texto Texto operações Interface usuário Pergunta (query) usuário Internet e RI - aula 1 19