+
iGather: Refinamento
de Buscas
Diogo Ribeiro
Glauber Ramos
+
Agenda

O problema



Qual o problema?
Relevância do problema
Solução



Modelos
 O que é uma tag?
 O que é um cluster?
Método
 MCL
 Parâmetros
 Extração de resultados
 Nodo mais representativo
Validação

Trabalhos relacionados

Trabalhos futuros

Considerações Finais
+
Qual o problema?

Sistemas de busca baseados em índices quantitativos (Ex:
PageRank, número de visitas, quantidade de referências, etc)

Usuários ao procurar por um domínio semântico especifico
nesses sistemas podem vir a encontrar o primeiro resultado
correspondente muito além da primeira página.

Nesse trabalho procurou-se agrupar resultados de campos
de conhecimento relacionados a fim de facilitar a pesquisa
do usuário.
+
Relevância do problema

É um assunto atual que atinge um grande número de pessoas
e atualmente várias empresas estão investindo nessa área.

O campo de motores de busca é muito importante e bastante
concorido. A resolução do problema de domínios semânticos
pode vir a ser um diferencial diante do grande número de
ferramentas de buscas existentes.
+
Solução

Para a resolução desse trabalho foi utilizado o Flickr.

Para encontrar grupos semânticos distintos dentro de um
resultado é preciso encontrar semelhanças entre os menbros
de um resultado.

Para encontrar essas semelhanças são utilizadas as tags
específicas de cada resultado de busca do Flickr.
+
O que é uma tag?

Uma tag é um metadado fornecido por um usuário com o
objetivo de descrever um item ao qual é relacionado.

A ocorrência de um par de tags em um resultado é referida
como co-ocorrência e é atribuído a esse par um peso.
+
O que é uma tag?

Para calcular o peso das arestas foi utilizado a métrica de Dice.
WAB 
2 | A B
| A|  | B |

A atribuição de peso leva em conta quantas vezes as duas tags
aparecem em resultados de busca, mas também a quantidade em
que elas aparecem juntas. Isso é muito importante para evitar a
supervalorização de tags que aparecem em grandes quantidades
de resultados.

Quando um par de tags sempre aparece junto o valor do peso de
sua aresta é 1.
+
O que é um cluster?

Um agrupamento de tags é chamado de cluster.

Um cluster representa um domínio semântico e a maioria das
suas tags são sobre o mesmo assunto.

A qualidade de um cluster é medida através das métricas de
coesão e separação:
+
MCL

Para a realização do processo de clusterização dos
resultados foi utilizado o algoritmo MCL que é um processo
iterativo proposto pelo autor Stijn van Dong. Ele se baseia na
clusterização de grafos através da simulação de fluxos
dentro de uma cadeia de Markov.

MCL representa o grafo a ser clusterizado através de uma
matriz estocástica. Cada valor dessa matriz representa a
probabilidade de atingir um nodo i a partir de outro nodo j.
Quanto maior o peso da aresta maior a probabilidade de
atingi-lo.
+
MCL

Para conseguir uma matriz estocástica é preciso realizar o
processo de Normalização.

Neste processo o peso de cada aresta é dividido pela soma
de todos os pesos de todas as arestas ligadas ao nodo i.

Cada linha da matriz terá soma 1 e todos seus valores
representam a probabilidade do nodo i atingir o nodo j.
+
MCL
Download

tag