Recuperação de Informação
Mariana Lara Neves
([email protected])
Conteúdo da apresentação
Introdução
Técnicas de IR
Aspectos relevantes em IR
Busca na Web
Agentes + IR
Conclusões
Referências
2
Introdução
Crescimento das coleções de textos digitais
(bibliotecas digitais, Internet, Intranets, ...)
+
Crescimento exponencial da World Wide Web
Novas técnicas de recuperação de informações (IR)
3
Introdução
OBJETIVO:
Encontrar (de forma eficiente) os
melhores documentos que
satisfaçam a query do usuário.
4
Técnicas de IR
 Sistema de indexação baseado em palavraschave:
robôs
Constróem (ou atualizam)
o IndexBase (IB)
queries: lista de palavras-chave, expressões booleanas, etc.
5
Técnicas de IR
 Sistema de indexação baseado em palavraschave:
Desvantagens:
 retorna uma grande quantidade de documentos irrelevantes;
 classificação estática (manual e/ou automática).
Exemplos:
 Yahoo!, AltaVista, HotBot, Lycos, Infoseek, Cadê.
6
Técnicas de IR
 Sistema baseado em ontologias:
Classificação dinâmica de páginas, podendo variar de
acordo com as necessidades atuais do usuário.
Utilizando-se ontologias, o usuário pode selecionar os
conceitos para construir seu contexto em cada query.
Objetivo:
 aumentar a precisão da busca.
Vantagens:
 flexibilidade e transparência.
7
Técnicas de IR
 Sistema baseado em ontologias:
Aplicação:
pesquisa realizada no DI-UFPE para o sistema Bright!
 Sistema de busca para uma intranet de uma empresa
de grande porte: ontologias criadas por um especialista
para um domínio restrito e conhecido.
8
Técnicas de IR
Term Frequency-Inverse Document Frequency (TFIDF):
atribui pesos às palavras de um documento.
 TF(w): frequência da palavra w (número de vezes que w
aparece no documento.
 DF(w): frequência de documentos com a palavra w (número
de documentos em que a palavra ocorre).
 D 

TFIDF( )  TF ( )  log

DF
(

)


D = número total de documentos.
9
Aspectos Relevantes em IR
1. Integração de Soluções
Banco de dados
das empresas
Mudanças nas técnicas de
indexação e otimização das
queries (novas linguagens).
Sistema de IR
Capacidade de
multimídia
10
Aspectos Relevantes em IR
2. IR Distribuída
search
engine
ranking de
documentos
search
engine
ranking de
documentos
search
engine
ranking de
documentos
Ranking
único
de
documentos
 Solução: sistema multi-agente.
 Exemplo: Miner.
11
Aspectos Relevantes em IR
3. Eficiência na Indexação
• tempo de resposta da query;
• velocidade de indexação.
Pesquisas na área:
 novos algoritmos para solucionar estes
problemas;
 algoritmos de compressão de textos (diminuindo
o tempo de armazenamento e de manipulação);
 capacidade de lidar com vários tipos de arquivos
(SGML, HTML, Acrobat, etc.).
12
Aspectos Relevantes em IR
4. Expansão do Vocabulário
A informação buscada pode ser expressada por
diferentes palavras nos documentos relevantes.
 Latent Semantic Indexing (LSI): transforma o
documento e a representação da query;
 utilizando-se um dicionário de sinônimos..
13
Aspectos Relevantes em IR
5. Interface do sistema
As interfaces devem tornar o sistema de fácil
uso e compreensão.
Devem suportar funções tais como:
 formulação de queries;
 apresentação da informação recuperada;
 feedback;
 browsing.
14
Aspectos Relevantes em IR
6. Filtragem da Informação
Processo de identificar documentos relevantes
em um conjunto de informações, baseando-se no
profile do usuário.
comparação
usuários + profiles
verdadeiro
um documento
individual
documento
15
Aspectos Relevantes em IR
6. Filtragem da Informação
Eficiência
Deve lidar com um grande volume de documentos (±
10 MB/hora) e muitos usuários (± 10.000).
Eficácia
Algoritmos que fazem uma “podagem”, para separar
os documentos relevantes dos não-relevantes.
16
Aspectos Relevantes em IR
7. Eficácia da Recuperação
Recall
Relação entre o n° de documentos relevantes
retornados e o n° total de documentos relevantes.
Precisão
Relação entre o n° de documentos relevantes
retornados e n° total de documentos retornados.
17
Aspectos Relevantes em IR
7. Eficácia da Recuperação
Todos os documentos
Documentos relevantes
Documentos retornados
Relevantes retornados
Recall =
Precisão =
18
Aspectos Relevantes em IR
8. Recuperação Multimídia
Refere-se às técnicas em desenvolvimento para
que se possa indexar e acessar imagens, vídeos e
sons sem uma descrição para texto.
Soluções gerais para a indexação de de multimídia
são difíceis (soluções específicas).
Reconhecimento de faces
Indexação de imagens pela
distribuição de cores
19
Aspectos Relevantes em IR
9. Extração de Informação
Extrai dados relevantes (para um determinado
objetivo) a partir de documentos digitais.
Etapas:
 reconhecimento do trecho de informação;
 extração da informação.
Exemplo (projeto de mestrado de Carla):
BD (CNCT):
Autor: ....
Ano: ....
Título: ....
Local: ....
20
Aspectos Relevantes em IR
9. Extração de Informação
21
Aspectos Relevantes em IR
10. Feedback
Processo em que o usuário identifica os
documentos relevantes retornados em uma lista
inicial, para em seguida o sistema criar uma
nova query baseada nesta amostra de
documentos.
22
Busca na Web
Gerais
Opções
de busca
Resultado das
pesquisas
Facilidade
de uso
Fonte: Info Exame (nov/99)
23
Busca na Web
Brasileiros
Opções
de busca
Resultado das
pesquisas
Facilidade
de uso
24
Busca na Web
Metabusca
Sites em que
realiza busca
Qualidade da
pesquisa
Organização
dos resultados
Facilidade
de uso
25
Agentes + IR
queries
queries
feedback
Agente
documentos
documentos
26
Agentes + IR
Por quê?
 IR se encaixa no modelo de agente;
 necessidade de acesso a múltiplas
fontes de informação;
 necessidade de distribuição.
27
Conclusões
Fato:
 grande volume de informação;
 necessidade de novas técnicas para buscar toda
esta informação.
O que se pode melhorar?
 Tempo de resposta da busca;
 aumentar a eficiência da busca.
28
Referências
 Barros, Flávia; Gonçalves, Pedro; Ontologies for Enhacing
Web Searches’ Precision and Recall (1998).
 Croft, Bruce; What Do People Want from Information
Retrieval? (1995).
 Lewis, David D., Representation and Learning in
Information Retrieval (1992).
 Ramos, Tagil Oliveira; Irrelevância mata! Ou não? (1999)
InfoExame n° 164 ano 14.
 Ribeiro, Juliana N.; Categorização de Textos usando
Redes Neurais (1997).
29
Referências - WWW
 Universidade de Maryland
http://www.cs.umbc.edu/abir
 Searching the Web
http://www.esrl.lib.md.us/refdesk/searching.html
 Center for Intelligent Information Retrieval
http://ciir.cs.umass.edu/
 Information Retrieval
http://www.dcs.gla.ac.uk/ir/new/pages/IR_Home.html
30