Desenvolvimento e Implantação de um Sistema para Recomendação de Tags utilizando Clustering e Classificação Textual para o Konnen Flávio Henrique Moura Stakoviak Roteiro • Conceitos • Clustering + Classificação Textual • Resultados • Considerações Finais Roteiro • Conceitos • Clustering + Classificação Textual • Resultados • Considerações Finais Conceitos • Sistemas de Marcação Social • Folksonomia • Recuperação da Informação • Clustering • Sistemas de Recomendação Conceitos • Sistemas de Marcação Social • Folksonomia • Recuperação da Informação • Clustering • Sistemas de Recomendação Sistemas de Marcação Social • Tags • Motivação – Recuperar Informação futuramente – Compartilhar – Expressar opiniões Sistemas de Marcação Social (cont.) Conceitos • Sistemas de Marcação Social • Folksonomia • Recuperação da Informação • Clustering • Sistemas de Recomendação Folksonomia • Liberdade ao Usuário • Marcações Populares nas Tags • Organização da Web Folksonomia (cont.) • Problemas – Sobrecarga de Informações – Diferentes Tags para um mesmo conteúdo – Sistemas não tem interligações Conceitos • Sistemas de Marcação Social • Folksonomia • Recuperação da Informação • Clustering • Sistemas de Recomendação Recuperação da Informação • Auxiliar o usuário a busca por informações • Etapas – Aquisição – Preparação – Indexação – Busca – Ordenação Recuperação da Informação (cont.) • Técnicas auxiliares – WebCrawler – Stop Words – Lematização Conceitos • Sistemas de Marcação Social • Folksonomia • Recuperação da Informação • Clustering • Sistemas de Recomendação Clustering • Clustering – é um método de descoberta de conhecimento que identifica agregações ou relações entre objetos, sendo um método útil para o agrupamento de documentos similares (WIVES, 1999) Clustering (cont.) • Etapas de Clustering – Representação de Padrões – Mediação da Proximidade – Identificação do Clustering (Técnicas) – Abstração dos Dados – Validação dos Clusters Clustering (cont.) • Técnicas de Clustering – Clustering Hierárquico – Algoritmo Particional – Density based – Model based Clustering (cont.) • Técnicas de Clustering – Clustering Hierárquico – Algoritmo Particional – Density based – Model based Conceitos • Sistemas de Marcação Social • Folksonomia • Recuperação da Informação • Clustering • Sistemas de Recomendação Sistemas de Recomendação Sistema de Recomendação Sistemas de Recomendação (cont.) • Tags – Uniformizar as marcações – Melhora a eficiência dos resultados das buscas – Folksonomia Roteiro • Conceitos • Clustering + Classificação Textual • Resultados • Considerações Finais Clustering + Classificação Textual K agrupamentos Documento a ser analisado Lista de termos Base de dados Peso de cada termo em cada cluster Clustering + Classficação Textual (cont.) ∩ Lista de classificação de Termos ∩ Lista de classificação de Tags Histórico de Tags do Usuário Clustering + Classficação Textual (cont.) Lista de Tags Recomendadas Roteiro • Conceitos • Clustering + Classificação Textual • Resultados • Considerações Finais Resultados • Konnen Resultados (cont.) Módulo Core Módulo de Segurança Outros módulos Módulo de Conteúdo Módulo de Recomendação Konnen Resultados (cont.) • Konnen em desenvolvimento • Estrutura em constante evolução • Falta de conteúdo real para simulação WebCrawler Resultados (cont.) Utility.Util:GenerateData() Utility.User Utility.Tag Utility.ContentTag Utility.Content / Page Bibsonomy Servidor Local Lematização Utility.StopWords Utility.Util:PrepareData() Utility.StopWords LemmaSharp.Ilemmatizer Utility.Content / Page Resultados (cont.) • Duração das Etapas (996 registros) Tempo WebCrawler 3 minutos Lematização 22 minutos Resultados (cont.) Mínimo Máximo Média Número de tags por post 1 23 1,35 Número de posts por usuário 1 899 39,84 Número de tags por usuário 1 1000 341,56 Resultados (cont.) Número de tags atribuídas por usuários às postagens Resultados (cont.) Módulo de Recomendação Clustering Módulo de Conteúdo Konnen Resultados (cont.) • Documento: « Visual analytics tools for analysis of movement data » • Etapas: – 5 execuções para cada valor de cluster = { 5, 10, 20, 25, 30 } – 5 melhores resultados Resultados (cont.) • Para 5 clusters Tempo Iterações Recomendações 1ª execução 4,63 3 data, analysis, reasoning, automatic, method 2ª execução 4,89 2 analysis, data, human, time, automatic 3ª execução 4,85 3 human, data, case, method, support 4ª execução 4,66 3 data, analysis, large, method, automatic 5ª execução 4,72 3 data, method, large, study, understanding Resultados (cont.) • Para 10 clusters Tempo Iterações Recomendações 1ª execução 8,50 3 data, analysis, scale, support, automatic 2ª execução 14,47 2 analysis, data, large, reasoning e servisse 3ª execução 8,02 3 analysis, data, mobility, framework, human 4ª execução 14,69 4 data, analysis, tool, tools, method 5ª execução 8,34 3 data, analysis, framework, knowledge, visual Resultados (cont.) • Para 20 clusters Tempo Iterações Recomendações 1ª execução 28,60 4 data, analysis, support, case, large 2ª execução 37,99 4 knowledge, data, analysis, case e human 3ª execução 36,21 4 data, tools, analysis, case, semantic 4ª execução 19,65 4 data, tools, analysis, support, techinique 5ª execução 10,20 3 data, analysis, large, study, human Resultados (cont.) • Para 25 clusters Tempo Iterações Recomendações 1ª execução 12,11 3 data, analysis, human, semantic, visual 2ª execução 22,65 4 data, analysis, human, tools, visual 3ª execução 22,62 4 data, analysis, large, database, studies 4ª execução 11,93 3 data, analysis, support, collection, human 5ª execução 22,59 5 data, analysis, gps, human, visual Resultados (cont.) • Para 30 clusters Tempo Iterações Recomendações 1ª execução 27,06 4 human, data, analysis, mobility, pattern 2ª execução 26,57 4 data, analysis, interactive, human, making 3ª execução 14,45 4 data, analysis, human, method, mobility 4ª execução 14,75 3 data, analysis, human, knowledge, mobility 5ª execução 27,38 3 data, analysis, human, semantic, visual Resultados (cont.) • Freqüência dos colocados: – 1o : data(18), analysis(3), human(2), knowledge(1) – 2o : analysis(16), data(6), tools(2), method(1) – 3o : human (5), large (5), analysis(4), case, reasoning, scale, mobility, tool, gps – 4o : method (3), case (3), study(2), support(2), knowledge (2), semantic(2), human(2), tools(2), automatic(1), time(1), reasoning(1), framework(1), collection(1), mobility(1) – 5o : visual(5), human(4), automatic(3), method(2), support(1), understanding(1), servisse(1), large(1), semantic(1), techinique(1), pattern(1), making(1) Resultados (cont.) • Melhores recomendações: – data, analysis, human/large, method/case, visual • Tempo de execução muito alto • Usuário web quer tempo de resposta baixo Resultados (cont.) • Para 50 documentos e 3 clusters: – Tempo de execução: 1,38 segundos – Recomendação: automatic, knowledge, gps, method, pattern • Qualidade da recomendação fraca Roteiro • Conceitos • Clustering + Classificação Textual • Resultados • Considerações Finais Considerações Finais • Boa performance • Excelente qualidade das recomendações • Funciona em qualquer ambiente Considerações Finais • Depende de uma base com um bom vocabulário • Usuários online: documentos pré-classificação dos Desenvolvimento e Implantação de um Sistema para Recomendação de Tags utilizando Clustering e Classificação Textual para o Konnen Flávio Henrique Moura Stakoviak