5
Decisões Não Estruturadas
5.1 Recuperação de Informações (RI)
 Motivação: Por que recuperar informações?
■ Informações em banco de dados (DB) são estruturadas
• São recuperadas com uma linguagem formal (SQL)
■ Páginas (html, xml, asp, etc) são semi-estruturadas
• Podem ser recuperadas com uma aplicação simples
■ Informações em outros arquivos não são estruturadas
• Exemplos: xls, doc, ppt, pdf, mp3, avi, mpg, bmp, jpg, etc.
• Como recuperar estas informações?
• Ferramenta de pesquisa do SO
▪ Não é suficiente para muitos propósitos (relevância)
■ Estatística das informações: (fonte empírica)
• 15% DB (linear), 5% páginas (exponencial) e 80% outros
Márcio Moreira
Unidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 1
Sistemas de Apoio à Decisão
Evolução das Ferramentas
 Oferecidas pelos Sistemas Operacionais:
■ File finder:
• Nomes de arquivos que coincidem com um padrão
■ Text finder:
• Texto do arquivo coincide com uma string desejada
 Diretórios Web:
■ Usuários cadastravam dados sobres as páginas
■ Ex (até 2004): Yahoo, Lycos, Alta Vista, Cadê, AOnde
 Web Search:
■ Usam agentes que exploram as páginas em busca de dados
■ Introduziram conceitos de RI (relevância) na Web
■ Ex: Radix  Google  Yahoo, Alta Vista, MSN, etc.
Márcio Moreira
Unidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 2
Sistemas de Apoio à Decisão
Técnicas de RI – Web Search
 Indexação de palavras chaves:
Página inicial
Robôs (Agentes)
Consulta
IndexBase
(Base de
Indexação)
Resposta
 Consultas (querys):
■ Palavras-chave, expressões booleanas, etc.
■ Exemplo de query no Google (Radix, Yahoo, etc.):
• Recuperacao ilmerio (filetype:pdf OR filetype:ppt)
 Retornam:
■ Documentos que enquadram na query na ordem de
relevância
Márcio Moreira
Unidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 3
Sistemas de Apoio à Decisão
Conceitos Fundamentais
Termo (term):
■ Palavras em um documento
■ Ex: Conceitos, termos, palavras, documento, ...
Palavras chaves (keywords):
■ Palavras relevantes – identificam o assunto
■ Ex: Recuperação, informações, termo, ...
Freqüência de termo:
■ Número de vezes que a keyword da query
aparece no documento (quanto  melhor)
Márcio Moreira
Unidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 4
Sistemas de Apoio à Decisão
Ranking dos Documentos
 Freqüência inversa do documento:
■ Em quantos documentos a keywords da query
ocorrem
■ Se poucos então keyword recebe mais
importância
 Links para o documento:
■ Quanto mais links, mais importante o documento
 Ranking:
Márcio Moreira
Freqüência de Termos
Freqüência Inversa
Unidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 5
Links
Sistemas de Apoio à Decisão
Opcionais
 Similaridade:
■ Alfabética:
■ Fonética:
quanto mais letras iguais melhor
similaridade de sons (dep. língua)
 Sinônimos:
■ Ex: motos reparos  motos e (reparos ou manutenção)
 Homônimos:
■ Mesma grafia e semântica diferente
■ Ex: para (preposição ou verbo)
 A decisão de uso destes elementos deve ser
uma escolha do usuário
Márcio Moreira
Unidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 6
Sistemas de Apoio à Decisão
Todos os documentos
Métricas de Relevância
Precisão (precision):
Doc. relevantes
Doc. retornados
Relevantes
retornados
■ % de documentos relevantes retornados que
são parte dos retornados para a query
■ Ex: % de links abertos pelo total de links
Cobertura (recall):
■ % de documentos relevantes retornados do
total de documentos relevantes para a query
■ Ex: % de downloads dos links abertos
Falsos positivos:
■ Links abertos sem download  irrelevante
Márcio Moreira
Unidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 7
Sistemas de Apoio à Decisão
Eficiência da Recuperação
Tempo de resposta da query
■ Este é o principal elemento sob o ponto de vista
do usuário
Premissas:
■ A velocidade de indexação é fundamental
■ Assim, ela deve ser feita antes
■ Daí vem as idéias dos robôs
Outras soluções:
■ Algoritmos de indexação, busca e compressão
■ Filtragem baseada no perfil do usuário
Márcio Moreira
Unidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 8
Sistemas de Apoio à Decisão
Finalizando
Feedback:
■ Refinamentos sucessivos de querys com apoio
do usuário
Recuperação multimídia:
■ Parte mais difícil da RI
• Reconhecimento de pessoas (rosto, digital, etc.)
• Reconhecimento de fala
• Busca de imagens (cores e contornos) e sons
(conteúdo) por similaridade
■ Campo de pesquisa mais promissor da RI
Márcio Moreira
Unidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 9
Sistemas de Apoio à Decisão
Download

Unidade 5 - Decisões Não Estruturadas