Introdução a Teoria da
Classificação
Suzana Dantas
Internet e RI - aula 1
1
Sistema de Recuperação
da informação (SRI)
Um Sistema de Recuperação da Informação é uma
organização para armazenar e tornar disponível
informação, explorando-a de modo positivo, com um
índice de assunto dos documentos existentes na
coleção, permitindo recuperar as referências
Internet e RI - aula 1
2
Origem
• Existência de computadores
– potencial para implementação de “bases de dados”
• conjuntos de ficheiros
• Software para manter e pesquisar a informação
• Sistemas desenvolvidos
– SGBD
• armazenamento e processamento
• informação em linguagens muito restritas
– Armazenamento e RI - pesquisa de documentos
• necessidade sentida nas bibliotecas nos anos 50
• reforço: proliferação de documentos eletrônicos
• mais reforço: WWW
Internet e RI - aula 1
3
Conceitos
• Recuperação de Informação
– no sentido da recuperação de documentos ou de
textos
• Atividades principais
– indexação ( modo de representar documentos e
perguntas)
– consulta (modo de analisar itens com vista à resposta
a perguntas)
• Atividades relacionadas
- diversificação na forma de pesquisa - ex. browsing
- apresentação visual de resultados
• Entidades primitivas
RI - aula 1
– documentos, termosInternet
de eindexação
4
Nomes
• Índice: nome genérico para catálogos, bibliografias,
índices de artigos, etc…
• Registro de documento
• cabeçalho: nome do autor, cabeçalho do assunto
• descrição: autor, título, edição, editor, paginação
• localização
Internet e RI - aula 1
5
Indexar
• Indexar significa incluir um documento num
repositório de informações
• Inclui identificar, determinar assuntos e selecionar
termos para representar os índices
• Utiliza uma linguagem de indexação
Internet e RI - aula 1
6
Métodos de Indexação
• Por palavra
• utiliza as palavras encontradas no título ou no
documento
• KWIC : Keyword in Context
• Por assunto
• supõe a análise do conteúdo temático do
documento, a decisão sobre os conceitos presentes
e a tradução em uma linguagem apropriada
(artificial ou controlada)
Internet e RI - aula 1
7
Revocação e Precisão
• As medidas mais comuns para avaliar a qualidade de
um sistema de busca e recuperação de informação
são conhecidas com revocação e precisão
• Revocação mede a proporção de documentos
relevantes recuperados
• Precisão mede quantos documentos relevantes foram
recuperados
Internet e RI - aula 1
8
Revocação e Precisão
• Normalmente sistemas
de BRI possuem uma
curva de Recall x
Precision
1
0,8
0,6
0,4
0,2
0
0
0,5
1
Internet e RI - aula 1
9
Revocação e Precisão
Itens
recuperados
Itens não
recuperados
B
C
Itens não
relevantes
A
D
Itens
relevantes
Internet e RI - aula 1
10
Revocação e Precisão
• Revocação
• Relevantes Recuperados/Total de itens relevantes
• A/(A+D)
• Precisão
• Relevantes Recuperados/Total Recuperados
• A/(A+B)
Internet e RI - aula 1
11
Fatores que governam
• Exaustividade
• Extensão com que determinado documento é
indexado (número de conceitos utilizados)
• grau de profundidade da indexação
• Especificidade
• Exatidão dos descritores
• depende da linguagem de indexação
Internet e RI - aula 1
12
Relação
• Maior exaustividade aumenta a revocação e diminui
a precisão
• Maior especifidade diminui a revocação e aumenta a
precisão
Internet e RI - aula 1
13
Linguagens de Indexação
• Vocabulário
• coleção de termos de indexação
• descritores: palavras
• cabeçalhos de assuntos
• símbolos de classificação
• Sintaxe
• artifícios empregados para revelar as relações entre
os conceitos e as regras para estabelecer os
descritores e a ordem de citação
Internet e RI - aula 1
14
Elementos Promotores
• Revocação: aumentam o número de documentos de
uma classe, alargando a definição do descritor e
reduzindo o tamanho do vocabulário
• Precisão: reduzem o tamanho das classes, restringem
a definição dos descritores e aumentam o tamanho do
vocabulário
Internet e RI - aula 1
15
Provendo Revocação
• Controle de sinônimos
• Controle de quase-sinônimos
• Agrupamento de várias formas de uma palavra
(radical comum, singular e plural)
• Agrupamento de conceitos semelhantes ou
relacionados
• Elos hierárquicos
Internet e RI - aula 1
16
Promovendo Precisão
•
•
•
•
•
Coordenação
Distinção de homônimos
Ponderação
Elos (links)
Papéis ou funções (roles)
Internet e RI - aula 1
17
Extensão da Recuperação
da Informação
Novos meios em documentos
– técnicas usadas em texto são extensíveis
– documentos são cada vez mais heterogéneos
• Documentos em linguagens diversas
– noção de documento esbate-se
– pesquisas tendem a requerer técnicas híbridas
• Para tarefa específica
– necessário identificar os seus requisitos de
indexação e pesquisa
Internet e RI - aula 1
18
Processo de recuperação
índice
Busca
(searching)
Operações
de query
Modelo
texto
indexação
ranking
texto
Texto
operações
Interface
usuário
Pergunta
(query)
usuário
Internet e RI - aula 1
19
Download

aula 1