Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm) Introdução P2P-RI WebSearch Social Query Query Routing Aplicações Desafios Conclusão FACTUAL NÃO FACTUAL Responde 78% das consultas Factuais Somente 29% das consultas Não-Factuais Surgimento de sites específicos Sistema de RI com a arquitetura de P2P Ecalabilidade Tolerância a falhas Simula o comportamento de uma rede social ◦ Contêm informação dos peers conhecidos ◦ Infere a categoria de cada peer ◦ Estima precisão e cobertura por topico para os peers Problemas dos engenhos de busca tradicionais: ◦ Engenhos de busca de propósito geral estão sujeitos a baixa precisão e/ou baixa cobertura; ◦ Diretorios proveem referências de alta qualidade, mas não acompanham o crescimento explosivo da web; Engenhos de busca especificos: Retornam frequentemente referências de melhor qualidade do que engenhos de próposito geral, por várias razões: ◦ Detêm um banco de dados mais confiável; ◦ Refletem o esforço de organizações compremetidas em prover e atualizar com informações de boa qualidade; ◦ Menos ambiguidades e outros obstáculos linguísticos para buscas de alta precisão; CONSULTA ◦ Existem várias formas de fazer Roteamento de Consultas; ◦ Explicaremos a Topic-centric Query Routing; Não precisa de acesso total ao engenhos de busca específicos; Compensa a falta de livre acesso aos engenhos de busca com: Neighborhood-based topic identification; Expansão de consulta; Neighborhood-based identification of Search Engine’s Topic: ◦ The front-page method; ◦ The back-link method; Expansão de consulta: ◦ Pega os termos relevantes diretamente da web; ◦ Avalia termos importantes pelo nível de coocorrência; ◦ Usa a técnica pseudo-feedback; Clustering: ◦ Recebe os documentos e termos obtidos na Expansão de Consultas; ◦ Separa os termos em agrupamentos de tópicos diferentes; Gerador de frase tópico: ◦ Frase extraída do conjunto de documentos recuperados da Expansão de consultas; ◦ Para cada cluster será gerado uma frase explicativa; ◦ A frase que contém mais termos tópicos e maior coocorrência será selecionada; Search Engine Rank: ◦ Compara os termos obtidos na expansão de consulta com os termos armazenados na base de índices de engenhos de buscas; ◦ Calcula adequação dos engenhos de busca com a query da seguinte forma: ◦ Para cada cluster, seleciona-se o 3 melhores engenhos para apresentar ao usuário; O que é? ◦ RI que considera relações e opiniões dos usuários. ◦ Desafio em encontrar, ao invés do documento certo, a pessoa certa. ◦ Paradigmas: Biblioteca x Vila Biblioteca -> busca na web tradicional ◦ Consulta concisa com palavras chaves, concreta. ◦ Confiança na autoridade. ◦ Ex: Google, Bing, sistemas de bibliotecas. Vila -> Social Query (ou search) ◦ ◦ ◦ ◦ Consulta com linguagem natural, mais subjetiva. Confiança na intimidade. Considera momento e local da pergunta. Ex: Facebook, Aardvark, Google Social Search. O que tem de bom? ◦ Complementa RI tradicional. ◦ Consultas específicas (região, tempo real, confiança por intimidade). ◦ Trazem opiniões dos usuários dos serviços e não apenas dos fornecedores. O que tem de não tão bom? ◦ Falta de privacidade. ◦ Usuários tem receio de fazer perguntas triviais ou que envolvam assuntos polêmicos. ◦ Necessita de muitos usuários e acessos constantes. Algumas estratégias ◦ Pythia: A Privacy Aware, Peerto-Peer Network for Social Search. Construída a partir de uma rede social pré-existente. Usuários informam os assuntos de interesse (fica oculto). Garante privacidade e faz as perguntas por flooding. ◦ Crowdsourcing Location-based Queries. Integra Twitter e Forsquare, para responder perguntas com base na localização do usuário. Inicialização do usuário Análise da consulta ◦ Verifica se é uma pergunta. ◦ Reconhece o assunto (palavra-chave, usa tesauro). Ranking de usuários ◦ ◦ ◦ ◦ Temas escolhidos para responder. Similaridade dos perfis dos usuários. Proximidade dos nós. Proximidade na localização, etc. Direcionamento da pergunta Outra alternativa: Q-Pilot ◦ Roteamento de consultas centrado no tópico. ◦ Recomenda melhores engenhos de busca para determinada consulta. ◦ Encontrou a categoria adequada da consulta 70% das vezes. ◦ O engenho de busca mais indicado para a consulta ficou entre os 3 primeiros, dentre 144, 40% das vezes. + Engenho de busca social Responde questões subjetivas Perguntas em linguagem natural Informação nas pessoas e não nos documentos Usa dois fatores principais para escolher o usuário que responde: Probabilidade dele responder uma pergunta sobre aquele tema Afinidade entre o usuário que pergunta e o que responde Respostas saem razoavelmente rápido(60% em menos de 10 min) 90% das perguntas são respondidas Respostas têm em média 24 palavras Perguntas têm em média 19 palavras Perguntas em grande parte subjetivas(“procuro um bom restaurante”) Nem todas as respostas estão nos documentos É possível e viável procurar respostas direto com as pessoas Os esforços na área ainda são limitados O ranking e consulta a pessoas é um problema desafiador Bulut, M. F., Yilmaz, Y. S. & Demirbas, M. Crowdsourcing Location-based Queries Nilizadeh, S., Alam, N., Husted, N. & Kapadia, A. - Pythia: A Privacy Aware, Peer-to-Peer Network for Social Search Sugiura, A. & Etzioni, O. - Query routing for Web search engines: architecture and experiments Horowitz, D. & Kamvar, S. D. - The Anatomy of a Large-Scale Social Search Engine GoogleTechTalks - 2010 Google Faculty Summit: The Anatomy of a Large Scale Social Search Engine (video link)