5 Decisões Não Estruturadas 5.1 Recuperação de Informações (RI) Motivação: Por que recuperar informações? ■ Informações em banco de dados (DB) são estruturadas • São recuperadas com uma linguagem formal (SQL) ■ Páginas (html, xml, asp, etc) são semi-estruturadas • Podem ser recuperadas com uma aplicação simples ■ Informações em outros arquivos não são estruturadas • Exemplos: xls, doc, ppt, pdf, mp3, avi, mpg, bmp, jpg, etc. • Como recuperar estas informações? • Ferramenta de pesquisa do SO ▪ Não é suficiente para muitos propósitos (relevância) ■ Estatística das informações: (fonte empírica) • 15% DB (linear), 5% páginas (exponencial) e 80% outros Márcio Moreira Unidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 1 Sistemas de Apoio à Decisão Evolução das Ferramentas Oferecidas pelos Sistemas Operacionais: ■ File finder: • Nomes de arquivos que coincidem com um padrão ■ Text finder: • Texto do arquivo coincide com uma string desejada Diretórios Web: ■ Usuários cadastravam dados sobres as páginas ■ Ex (até 2004): Yahoo, Lycos, Alta Vista, Cadê, AOnde Web Search: ■ Usam agentes que exploram as páginas em busca de dados ■ Introduziram conceitos de RI (relevância) na Web ■ Ex: Radix Google Yahoo, Alta Vista, MSN, etc. Márcio Moreira Unidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 2 Sistemas de Apoio à Decisão Técnicas de RI – Web Search Indexação de palavras chaves: Página inicial Robôs (Agentes) Consulta IndexBase (Base de Indexação) Resposta Consultas (querys): ■ Palavras-chave, expressões booleanas, etc. ■ Exemplo de query no Google (Radix, Yahoo, etc.): • Recuperacao ilmerio (filetype:pdf OR filetype:ppt) Retornam: ■ Documentos que enquadram na query na ordem de relevância Márcio Moreira Unidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 3 Sistemas de Apoio à Decisão Conceitos Fundamentais Termo (term): ■ Palavras em um documento ■ Ex: Conceitos, termos, palavras, documento, ... Palavras chaves (keywords): ■ Palavras relevantes – identificam o assunto ■ Ex: Recuperação, informações, termo, ... Freqüência de termo: ■ Número de vezes que a keyword da query aparece no documento (quanto melhor) Márcio Moreira Unidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 4 Sistemas de Apoio à Decisão Ranking dos Documentos Freqüência inversa do documento: ■ Em quantos documentos a keywords da query ocorrem ■ Se poucos então keyword recebe mais importância Links para o documento: ■ Quanto mais links, mais importante o documento Ranking: Márcio Moreira Freqüência de Termos Freqüência Inversa Unidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 5 Links Sistemas de Apoio à Decisão Opcionais Similaridade: ■ Alfabética: ■ Fonética: quanto mais letras iguais melhor similaridade de sons (dep. língua) Sinônimos: ■ Ex: motos reparos motos e (reparos ou manutenção) Homônimos: ■ Mesma grafia e semântica diferente ■ Ex: para (preposição ou verbo) A decisão de uso destes elementos deve ser uma escolha do usuário Márcio Moreira Unidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 6 Sistemas de Apoio à Decisão Todos os documentos Métricas de Relevância Precisão (precision): Doc. relevantes Doc. retornados Relevantes retornados ■ % de documentos relevantes retornados que são parte dos retornados para a query ■ Ex: % de links abertos pelo total de links Cobertura (recall): ■ % de documentos relevantes retornados do total de documentos relevantes para a query ■ Ex: % de downloads dos links abertos Falsos positivos: ■ Links abertos sem download irrelevante Márcio Moreira Unidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 7 Sistemas de Apoio à Decisão Eficiência da Recuperação Tempo de resposta da query ■ Este é o principal elemento sob o ponto de vista do usuário Premissas: ■ A velocidade de indexação é fundamental ■ Assim, ela deve ser feita antes ■ Daí vem as idéias dos robôs Outras soluções: ■ Algoritmos de indexação, busca e compressão ■ Filtragem baseada no perfil do usuário Márcio Moreira Unidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 8 Sistemas de Apoio à Decisão Finalizando Feedback: ■ Refinamentos sucessivos de querys com apoio do usuário Recuperação multimídia: ■ Parte mais difícil da RI • Reconhecimento de pessoas (rosto, digital, etc.) • Reconhecimento de fala • Busca de imagens (cores e contornos) e sons (conteúdo) por similaridade ■ Campo de pesquisa mais promissor da RI Márcio Moreira Unidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 9 Sistemas de Apoio à Decisão