Sistemas de Recomendação Mineração da Web Equipe Bruno Rodrigues Danilo Torres David Emmanuel Rodrigo Siqueira Roteiro Motivação Coleta de informações Estratégias Técnicas Filtragem de Informação Arquitetura Exemplos Referências Motivação Diversidade O de opções usuário deseja customização Segmentação Fidelização de mercado Motivação Processo de indicação já bastante conhecido na relação social entre seres humanos Re-edição do tempo onde os vendedores conheciam os clientes E-commerce Empresas lucram com isso!! Coleta de Informações Objetivo: Conhecer o usuário É necessário capturar e armazenar seus dados pessoais e comportamentais Há duas formas habituais de identificação: no Servidor e no Cliente Coleta de Informações Identificação Área de cadastro de informações pessoais O usuário loga no sistema Identificação com precisão Identificação no Servidor no Cliente Utilização de cookies Assume-se que o computador é utilizado por uma única pessoa Mais simples, porém menos confiável Coleta de Informações Coleta de Informações Explícita Coleta de Informações Implícita A partir de dados da navegação, inferemse suas preferências Estratégias de Recomendações Empresas precisam lucrar! Boas estratégias garantem fidelidade de clientes As estratégias são várias e de complexidade variada: Lista de recomendações Avaliação dos usuários Suas recomendações “Interessados por X se interessam por Y” Associação por conteúdo Estratégia 1: Lista de Recomendação Sem análises profundas Tipos populares ordenados Estratégia 2: Avaliação dos usuários Bastante Útil Não utilizada para os potenciais consumidores exige nenhum mecanismo de inteligência na implementação Estratégia 2: Avaliação dos usuários Estratégia 2: Avaliação dos usuários Estratégia 3: Suas recomendações Sugestões feitas especificamente para o usuário implícitas ou explícitas Estratégia 3: Suas recomendações Estratégia 4: “Interessados em X se interessam por Y” Associações entre itens avaliados por usuários comprados, lidos, ... Bastante comum em sites e-commerce Estratégia mais complexa que as outras Estratégia 4: “Interessados em X se interessam por Y” Estratégia 5: Associação por conteúdo Baseado É no conteúdo de determinado item necessário encontrar associações ex: Os livros A e B são freqüentemente vendidos juntos Diferentes técnicas podem ser usadas para esse tipo de estratégia Estratégia 5: Associação por conteúdo Recuperação de Informação (RI) X Filtragem de Informação (FI) RI Envolve armazenamento, índices e tecnologia para recuperação de documentos textuais Mantém uma base com caracterísitica mais estática no armazenamento de informações. Início da interação provocada pelo usuário (query) Baseia-se na percepção de uma necessidade de momento FI Mantém perfil dos interesses do usuário Maior tempo de duração no casamento de interesses Início da interação provocada pelo sistema Não se refere ao momento, mas sim a preferências Técnicas – Filtragem de Informações Nome utilizado para descrever uma variedade de processos que envolvem a entrega de informação para as pessoas que realmente necessitam delas. Quase todo sistema de recomendação vê a filtragem de informações ou seleção de um produto como um problema de classificação. F(usuário, produto) | {gosta, não gosta} Filtragem baseada em conteúdo Baseada na análise de conteúdo dos itens e no perfil do usuário Descrição de interesses do usuário é obtida através de informações fornecidas por ele mesmo ou através de ações como seleção e aquisição de itens Ferramentas utilizam TF-IDF Modelo Vetorial Índices de Busca booleana Filtragem probabilística Interfaces de consulta com linguagem natural Filtragem baseada em conteúdo Como utilizar: Solicita ao usuário uma análise de itens indicando se cada um destes é de interesse ou não Após a avaliação feita pelo usuário o sistema busca itens que “casam” em conteúdo com o que foi classificado como de interesse e desconsidera os que “casam” com o que foi classificado como de não interesse Filtragem baseada em conteúdo Problemas: Conteúdo de dados pouco estruturado é difícil de ser analisado Entendimento do conteúdo do texto prejudicado pelo uso de sinônimos Super-especialização vídeo, som só serão recomendados itens já avaliados, não explorando novas categorias de itens Falta de surpresa na recomendação produtos que não se relacionam com o perfil do usuário jamais serão recomendados Filtragem baseada em conteúdo Exemplos filmes do mesmo gênero que o assistido outros CD’s dos artistas já adquiridos produtos complementares aos adquiridos “DVD player” hometheater Filtragem Colaborativa Desenvolvida para atender pontos que estavam em aberto na filtragem baseada em conteúdo Diferencia-se da filtragem baseada em conteúdo exatamente por não exigir a compreensão ou reconhecimento do conteúdo dos itens Baseado na troca de experiências entre as pessoas que possuem interesses comuns Filtragem Colaborativa Como utilizar: Itens filtrados baseados nas avaliações feitas pelos usuários Usuários dos sistemas colaborativos devem pontuar cada item experimentado, indicando o quanto este item casa com sua necessidade de informação Filtragem Colaborativa Problemas: 1º avaliador: novo item no BD nunca é recomendado até que um usuário o avalie Pontuações esparsas: número de usuários pequeno em relação ao volume de informações no sistema Similaridade: um usuário exótico terá dificuldades para encontrar outros usuários com gostos similares, sendo assim suas recomendações podem se tornar pobres Filtragem Colaborativa Detalhando Calcular o peso de cada usuário em relação à similaridade ao usuário ativo o funcionamento métrica de similaridade Selecionar um subconjunto de usuários com maiores similaridades (vizinhos) para considerar na predição. Normalizar as avaliações e computar as predições ponderando as avaliações dos vizinhos com seus pesos. Filtragem Colaborativa - Exemplo Se quisermos recomendar um produto ao usuário Mauro, procuraremos outros usuários com hábitos de consumos semelhantes Filtragem Híbrida Procura combinar os pontos fortes da filtragem colaborativa e da baseada em conteúdo e ao mesmo tempo eliminar as fraquezas de cada uma Vantagens da Filtragem Híbrida Utilizando recomendações colaborativas, experiências de outros usuários são levadas em consideração; Utilizando recomendações baseadas em conteúdo, é possível lidar com itens não vistos por outros usuários; É possível recomendar bons itens a um usuário mesmo que não haja usuários semelhantes a ele. Arquitetura Um Sistema de Recomendação funcionar como um servidor deve capaz de recuperar, para determinado usuário, suas preferências explícitas, implícitas, conteúdo e ofertas relacionadas a itens nos quais já mostrou interesse Deve ficar em comunicação com o sistema que irá apresentar as recomendações para o usuário Ex.: Servidor Web Tipos de Arquitetura Basicamente existem arquitetura possíveis dois tipo Baseado em técnicas de filtragem informação Baseado em Mineração de Dados de de Baseado em Técnicas de Filtragem de Dados Sistema de Apresentação Banco de Estratégias Módulo Central Consulta dados pessoais Consulta dados Transacionais Baseado em Mineração de Dados Armazena padrões Módulo de Mineração Infere padrões Demográficos e Transacionais Exemplo de Arquitetura Sistema Recommender Sistema de Recomendação Permite que clientes e visitantes do website de uma empresa possam receber, no momento exato, recomendações de produtos e serviços adequados aos seus interesses Recomendações obtidas através de indicações explícitas de preferência ou através da técnica de filtragem colaborativa Exemplo de Arquitetura Exemplo de Arquitetura Recommender Server Utilizado para dar SessionsControllers e recomendações acesso às rotinas aos de Exemplo de Arquitetura Session Controller Ao entrar no site, uma sessão é iniciada para o usuário, onde várias informações são armazenadas sobre sua interação É carregado com todas as informações coletadas no passado sobre o usuário (itens adquiridos, áreas de preferência do site, etc.) Exemplo de Arquitetura StrategyList Guarda vários modelos de recomendação, cada um orientado a um tipo de recomendação específica Baseado em listas armazenadas pelo sistema (mais vendidos, lista de presentes, etc) Baseado em preferências explícitas ou implícitas Difetentes estratégias podem ser criadas e utilizadas em paralelo em um mesmo website Exemplo de Arquitetura InterestList Mantém as preferências explícitas e implícitas do usuário Coleta implícita: Na medida em que o usuário navega, seleciona e adquiri itens, suas preferências são armazenadas na InterestList Coleta Explícita: O usuário indica espontaneamente suas preferências e estas são armazenadas em outra InterestList Mais tarde, todas essas preferências podem ser utilizadas Exemplo de Arquitetura FindingList Complementam as informações que se tem sobre os usuários Utilizado para armazenar características demográficas sobre eles (faixa etária, sexo, ocupação, ...) ou hábitos de consumo (itens adquiridos ou colocados no carrinho de compras) É através desta “lista de achados” que se pode encontrar recomendações precisas para o usuário Implementando Recomendação a partir dos itens comprados pelo usuário: Implementando Recomendação de novidades: Sistemas de recomendação exemplos Referral Web GroupLens Referências Wikipedia Reategui,Eliseo B. e Cazella, Sílvio C. Sistemas de Recomendação Dot.dot.dot