Bruno Cavalcante (bmsc)
Gabriel Monteiro (gam)
João Florêncio (jcpf)
Lucas Marinho (lpm)








Introdução
P2P-RI
WebSearch
Social Query
Query Routing
Aplicações
Desafios
Conclusão
FACTUAL
NÃO FACTUAL


Responde 78% das consultas Factuais
Somente 29% das consultas Não-Factuais

Surgimento de sites específicos




Sistema de RI com a arquitetura de P2P
Ecalabilidade
Tolerância a falhas
Simula o comportamento de uma rede social
◦ Contêm informação dos peers conhecidos
◦ Infere a categoria de cada peer
◦ Estima precisão e cobertura por topico para os
peers

Problemas dos engenhos de busca
tradicionais:
◦ Engenhos de busca de propósito geral estão
sujeitos a baixa precisão e/ou baixa cobertura;
◦ Diretorios proveem referências de alta qualidade,
mas não acompanham o crescimento explosivo da
web;


Engenhos de busca especificos:
Retornam frequentemente referências de
melhor qualidade do que engenhos de
próposito geral, por várias razões:
◦ Detêm um banco de dados mais confiável;
◦ Refletem o esforço de organizações compremetidas
em prover e atualizar com informações de boa
qualidade;
◦ Menos ambiguidades e outros obstáculos
linguísticos para buscas de alta precisão;
CONSULTA
◦ Existem várias formas de fazer Roteamento de
Consultas;
◦ Explicaremos a Topic-centric Query Routing;
 Não precisa de acesso total ao engenhos de busca
específicos;
 Compensa a falta de livre acesso aos engenhos de
busca com:
 Neighborhood-based topic identification;
 Expansão de consulta;

Neighborhood-based identification of Search
Engine’s Topic:
◦ The front-page method;
◦ The back-link method;

Expansão de consulta:
◦ Pega os termos relevantes diretamente da web;
◦ Avalia termos importantes pelo nível de coocorrência;
◦ Usa a técnica pseudo-feedback;

Clustering:
◦ Recebe os documentos e termos obtidos na Expansão de
Consultas;
◦ Separa os termos em agrupamentos de tópicos
diferentes;

Gerador de frase tópico:
◦ Frase extraída do conjunto de documentos recuperados
da Expansão de consultas;
◦ Para cada cluster será gerado uma frase explicativa;
◦ A frase que contém mais termos tópicos e maior coocorrência será selecionada;

Search Engine Rank:
◦ Compara os termos obtidos na expansão de
consulta com os termos armazenados na base de
índices de engenhos de buscas;
◦ Calcula adequação dos engenhos de busca com a
query da seguinte forma:
◦ Para cada cluster, seleciona-se o 3 melhores
engenhos para apresentar ao usuário;

O que é?
◦ RI que considera relações e opiniões dos usuários.
◦ Desafio em encontrar, ao invés do documento
certo, a pessoa certa.
◦ Paradigmas:
Biblioteca
x
Vila

Biblioteca -> busca na web tradicional
◦ Consulta concisa com palavras chaves, concreta.
◦ Confiança na autoridade.
◦ Ex: Google, Bing, sistemas de bibliotecas.

Vila -> Social Query (ou search)
◦
◦
◦
◦
Consulta com linguagem natural, mais subjetiva.
Confiança na intimidade.
Considera momento e local da pergunta.
Ex: Facebook, Aardvark, Google Social Search.

O que tem de bom?
◦ Complementa RI tradicional.
◦ Consultas específicas (região, tempo real, confiança
por intimidade).
◦ Trazem opiniões dos usuários dos serviços e não
apenas dos fornecedores.

O que tem de não tão bom?
◦ Falta de privacidade.
◦ Usuários tem receio de fazer perguntas triviais ou
que envolvam assuntos polêmicos.
◦ Necessita de muitos usuários e acessos constantes.

Algumas estratégias
◦ Pythia: A Privacy Aware, Peerto-Peer Network for Social
Search.
 Construída a partir de uma rede
social pré-existente.
 Usuários informam os assuntos
de interesse (fica oculto).
 Garante privacidade e faz as
perguntas por flooding.
◦ Crowdsourcing Location-based
Queries.
 Integra Twitter e Forsquare,
para responder perguntas com
base na localização do usuário.


Inicialização do usuário
Análise da consulta
◦ Verifica se é uma pergunta.
◦ Reconhece o assunto (palavra-chave, usa tesauro).

Ranking de usuários
◦
◦
◦
◦

Temas escolhidos para responder.
Similaridade dos perfis dos usuários.
Proximidade dos nós.
Proximidade na localização, etc.
Direcionamento da pergunta

Outra alternativa: Q-Pilot
◦ Roteamento de consultas centrado no tópico.
◦ Recomenda melhores engenhos de busca para
determinada consulta.
◦ Encontrou a categoria adequada da consulta 70%
das vezes.
◦ O engenho de busca mais indicado para a consulta
ficou entre os 3 primeiros, dentre 144, 40% das
vezes.
+




Engenho de busca social
Responde questões subjetivas
Perguntas em linguagem natural
Informação nas pessoas e não nos
documentos



Usa dois fatores principais para escolher o
usuário que responde:
Probabilidade dele responder uma pergunta
sobre aquele tema
Afinidade entre o usuário que pergunta e o
que responde





Respostas saem razoavelmente rápido(60%
em menos de 10 min)
90% das perguntas são respondidas
Respostas têm em média 24 palavras
Perguntas têm em média 19 palavras
Perguntas em grande parte
subjetivas(“procuro um bom restaurante”)




Nem todas as respostas estão nos
documentos
É possível e viável procurar respostas direto
com as pessoas
Os esforços na área ainda são limitados
O ranking e consulta a pessoas é um
problema desafiador





Bulut, M. F., Yilmaz, Y. S. & Demirbas, M. Crowdsourcing Location-based Queries
Nilizadeh, S., Alam, N., Husted, N. & Kapadia, A.
- Pythia: A Privacy Aware, Peer-to-Peer Network
for Social Search
Sugiura, A. & Etzioni, O. - Query routing for Web
search engines: architecture and experiments
Horowitz, D. & Kamvar, S. D. - The Anatomy of a
Large-Scale Social Search Engine
GoogleTechTalks - 2010 Google Faculty Summit:
The Anatomy of a Large Scale Social Search
Engine (video link)
Download

Roteamento de Perguntas