Desenvolvimento e Implantação de
um Sistema para Recomendação de
Tags utilizando Clustering e
Classificação Textual para o Konnen
Flávio Henrique Moura Stakoviak
Roteiro
• Conceitos
• Clustering + Classificação Textual
• Resultados
• Considerações Finais
Roteiro
• Conceitos
• Clustering + Classificação Textual
• Resultados
• Considerações Finais
Conceitos
• Sistemas de Marcação Social
• Folksonomia
• Recuperação da Informação
• Clustering
• Sistemas de Recomendação
Conceitos
• Sistemas de Marcação Social
• Folksonomia
• Recuperação da Informação
• Clustering
• Sistemas de Recomendação
Sistemas de Marcação Social
• Tags
• Motivação
– Recuperar Informação futuramente
– Compartilhar
– Expressar opiniões
Sistemas de Marcação Social (cont.)
Conceitos
• Sistemas de Marcação Social
• Folksonomia
• Recuperação da Informação
• Clustering
• Sistemas de Recomendação
Folksonomia
• Liberdade ao Usuário
• Marcações Populares nas Tags
• Organização da Web
Folksonomia (cont.)
• Problemas
– Sobrecarga de Informações
– Diferentes Tags para um mesmo conteúdo
– Sistemas não tem interligações
Conceitos
• Sistemas de Marcação Social
• Folksonomia
• Recuperação da Informação
• Clustering
• Sistemas de Recomendação
Recuperação da Informação
• Auxiliar o usuário a busca por informações
• Etapas
– Aquisição
– Preparação
– Indexação
– Busca
– Ordenação
Recuperação da Informação (cont.)
• Técnicas auxiliares
– WebCrawler
– Stop Words
– Lematização
Conceitos
• Sistemas de Marcação Social
• Folksonomia
• Recuperação da Informação
• Clustering
• Sistemas de Recomendação
Clustering
• Clustering
– é um método de descoberta de conhecimento
que identifica agregações ou relações entre
objetos,
sendo
um
método
útil
para
o
agrupamento de documentos similares (WIVES,
1999)
Clustering (cont.)
• Etapas de Clustering
– Representação de Padrões
– Mediação da Proximidade
– Identificação do Clustering (Técnicas)
– Abstração dos Dados
– Validação dos Clusters
Clustering (cont.)
• Técnicas de Clustering
– Clustering Hierárquico
– Algoritmo Particional
– Density based
– Model based
Clustering (cont.)
• Técnicas de Clustering
– Clustering Hierárquico
– Algoritmo Particional
– Density based
– Model based
Conceitos
• Sistemas de Marcação Social
• Folksonomia
• Recuperação da Informação
• Clustering
• Sistemas de Recomendação
Sistemas de Recomendação
Sistema de
Recomendação
Sistemas de Recomendação (cont.)
• Tags
– Uniformizar as marcações
– Melhora a eficiência dos resultados das buscas
– Folksonomia
Roteiro
• Conceitos
• Clustering + Classificação Textual
• Resultados
• Considerações Finais
Clustering + Classificação Textual
K agrupamentos
Documento a ser analisado
Lista de termos
Base de
dados
Peso de cada termo em
cada cluster
Clustering + Classficação Textual (cont.)
∩
Lista de
classificação
de Termos
∩
Lista de
classificação
de Tags
Histórico de
Tags do
Usuário
Clustering + Classficação Textual (cont.)
Lista de Tags Recomendadas
Roteiro
• Conceitos
• Clustering + Classificação Textual
• Resultados
• Considerações Finais
Resultados
• Konnen
Resultados (cont.)
Módulo
Core
Módulo de
Segurança
Outros módulos
Módulo de
Conteúdo
Módulo de
Recomendação
Konnen
Resultados (cont.)
• Konnen em desenvolvimento
• Estrutura em constante evolução
• Falta de conteúdo real para simulação
WebCrawler
Resultados (cont.)
Utility.Util:GenerateData()
Utility.User
Utility.Tag
Utility.ContentTag
Utility.Content / Page
Bibsonomy
Servidor
Local
Lematização
Utility.StopWords
Utility.Util:PrepareData()
Utility.StopWords
LemmaSharp.Ilemmatizer
Utility.Content / Page
Resultados (cont.)
• Duração das Etapas (996 registros)
Tempo
WebCrawler
3 minutos
Lematização
22 minutos
Resultados (cont.)
Mínimo Máximo
Média
Número de tags por post
1
23
1,35
Número de posts por usuário
1
899
39,84
Número de tags por usuário
1
1000
341,56
Resultados (cont.)
Número de tags atribuídas por usuários às postagens
Resultados (cont.)
Módulo de
Recomendação
Clustering
Módulo de
Conteúdo
Konnen
Resultados (cont.)
• Documento: « Visual analytics tools for
analysis of movement data »
• Etapas:
– 5 execuções para cada valor de cluster = { 5, 10,
20, 25, 30 }
– 5 melhores resultados
Resultados (cont.)
• Para 5 clusters
Tempo
Iterações
Recomendações
1ª execução
4,63
3
data, analysis, reasoning, automatic, method
2ª execução
4,89
2
analysis, data, human, time, automatic
3ª execução
4,85
3
human, data, case, method, support
4ª execução
4,66
3
data, analysis, large, method, automatic
5ª execução
4,72
3
data, method, large, study, understanding
Resultados (cont.)
• Para 10 clusters
Tempo
Iterações
Recomendações
1ª execução
8,50
3
data, analysis, scale, support, automatic
2ª execução
14,47
2
analysis, data, large, reasoning e servisse
3ª execução
8,02
3
analysis, data, mobility, framework, human
4ª execução
14,69
4
data, analysis, tool, tools, method
5ª execução
8,34
3
data, analysis, framework, knowledge, visual
Resultados (cont.)
• Para 20 clusters
Tempo
Iterações
Recomendações
1ª execução
28,60
4
data, analysis, support, case, large
2ª execução
37,99
4
knowledge, data, analysis, case e human
3ª execução
36,21
4
data, tools, analysis, case, semantic
4ª execução
19,65
4
data, tools, analysis, support, techinique
5ª execução
10,20
3
data, analysis, large, study, human
Resultados (cont.)
• Para 25 clusters
Tempo
Iterações
Recomendações
1ª execução
12,11
3
data, analysis, human, semantic, visual
2ª execução
22,65
4
data, analysis, human, tools, visual
3ª execução
22,62
4
data, analysis, large, database, studies
4ª execução
11,93
3
data, analysis, support, collection, human
5ª execução
22,59
5
data, analysis, gps, human, visual
Resultados (cont.)
• Para 30 clusters
Tempo
Iterações
Recomendações
1ª execução
27,06
4
human, data, analysis, mobility, pattern
2ª execução
26,57
4
data, analysis, interactive, human, making
3ª execução
14,45
4
data, analysis, human, method, mobility
4ª execução
14,75
3
data, analysis, human, knowledge, mobility
5ª execução
27,38
3
data, analysis, human, semantic, visual
Resultados (cont.)
• Freqüência dos colocados:
– 1o : data(18), analysis(3), human(2), knowledge(1)
– 2o : analysis(16), data(6), tools(2), method(1)
– 3o : human (5), large (5), analysis(4), case, reasoning, scale, mobility, tool, gps
– 4o : method (3), case (3), study(2), support(2), knowledge (2), semantic(2),
human(2), tools(2), automatic(1), time(1), reasoning(1), framework(1),
collection(1), mobility(1)
– 5o : visual(5), human(4), automatic(3), method(2), support(1), understanding(1),
servisse(1), large(1), semantic(1), techinique(1), pattern(1), making(1)
Resultados (cont.)
• Melhores recomendações:
– data, analysis, human/large, method/case, visual
• Tempo de execução muito alto
• Usuário web quer tempo de resposta baixo
Resultados (cont.)
• Para 50 documentos e 3 clusters:
– Tempo de execução: 1,38 segundos
– Recomendação: automatic, knowledge, gps,
method, pattern
• Qualidade da recomendação fraca
Roteiro
• Conceitos
• Clustering + Classificação Textual
• Resultados
• Considerações Finais
Considerações Finais
• Boa performance
• Excelente qualidade das recomendações
• Funciona em qualquer ambiente
Considerações Finais
• Depende de uma base com um bom
vocabulário
• Usuários
online:
documentos
pré-classificação
dos
Desenvolvimento e Implantação de
um Sistema para Recomendação de
Tags utilizando Clustering e
Classificação Textual para o Konnen
Flávio Henrique Moura Stakoviak
Download

Clustering