Mineração de Dados na Web SISTEMAS DE RECOMENDAÇÃO EQUIPE Lais Varejão (lvv) Paulo Oliveira (phslfo) Victor Lorena (vlfs) Victor Acioli (vaca) ROTEIRO Introdução Coleta de Informações Estratégias Técnicas Arquitetura Passo a Passo Aplicações Conclusão INTRODUÇÃO MOTIVAÇÃO A Era da Inteligência Coletiva MOTIVAÇÃO Sob o aspecto tecnológico, Inteligência Coletiva é o conjunto de comportamentos, preferências e ideias de um grupo de pessoas para criar novas introspecções. MOTIVAÇÃO Atualmente existe uma grande quantidade de informação disponibilizada de forma facilitada. MOTIVAÇÃO Ao mesmo tempo... MOTIVAÇÃO O usuário tem dificuldade de encontrar informações que são relevantes para ele. PROBLEMA Como identificar quais conteúdos são relevantes para cada usuário em meio a um mar de informação? SISTEMAS DE RECOMENDAÇÃO Sistemas de recomendação realizam a filtragem da informação para recomendar itens, que possam ser interessantes para o usuário. SISTEMAS DE RECOMENDAÇÃO Que filme eu devo ver? Para onde eu devo sair? Qual livro eu devo ler? SISTEMAS DE RECOMENDAÇÃO “Muitas vezes as pessoas só sabem o que querem depois que você mostra a elas.” Steve Jobs SISTEMAS DE RECOMENDAÇÃO Existem empresas que investem em sistemas de recomendação? SISTEMAS DE RECOMENDAÇÃO DESAFIO NETFLIX Netflix É uma locadora de DVDs online, com entrega a domicílio, que recomenda filmes de acordo com locações prévias dos clientes. Dos filmes alugados, 60% vêm de recomendações. 2006, ela anunciou o prêmio de 1 milhão para a primeira pessoa que melhorasse a precisão do seu sistema de recomendação em 10%. Em QUEM FORAM OS PIONEIROS? Nos anos 90, foi desenvolvido o Tapestry. Um sistema de email que avaliava a relevância dos documentos recebidos. Em 1996, o My Yahoo surgiu. O primeiro website a utilizar recomendação em grandes proporções. A técnica customização era utilizada. COLETA DE INFORMAÇÕES COLETA DE INFORMAÇÕES É indispensável conhecer quem é o usuário. COLETA DE INFORMAÇÕES O usuário deve ser identificado no momento em que ele acessa o sistema. Identificação no servidor É necessário fazer um cadastro. Provê maior precisão. Identificação Utiliza no cliente cookies para identificar a máquina. Menos confiável. COLETA DE INFORMAÇÕES As informações podem ser coletadas de forma explícita ou implícita. COLETA DE INFORMAÇÕES Coleta Explícita O usuário indica o que lhe interessa. COLETA DE INFORMAÇÕES Coleta Implícita A partir do comportamento do usuário, infere-se suas necessidades e preferências. TURISMO PROBLEMAS DE PRIVACIDADE Informações do usuário são coletadas e armazenadas sem que ele perceba. Existem empresas que vendem esses dados. POLÍTICAS DE PRIVACIDADE É uma exigência legal que as políticas de privacidade dos sites sejam disponibilizadas. Aumenta a proteção do usuário. POLÍTICAS DE PRIVACIDADE Algumas organizações propõem selos que regulam a política de privacidade de um website. ESTRATÉGIAS ESTRATÉGIAS Diferentes estratégias podem ser usadas para personalizar ofertas para o usuário. Listas de Recomendação Avaliação de Usuários Suas Recomendações Produtos Similares (X Associação Y) por Conteúdo ESTRATÉGIAS Listas de Recomendação São mantidas listas de itens organizadas por tipos de interesse. ESTRATÉGIAS Avaliação de Usuários Além de comprar, o usuário deixa sua avaliação sob o item adquirido. É importante que haja veracidade na opinião. SUAS RECOMENDAÇÕES Itens são oferecidos de acordo com o interesse do usuário. PRODUTOS SIMILARES (X Y) Indica itens similares ao que está sendo comprado no momento. ASSOCIAÇÃO POR CONTEÚDO São utilizados os dados dos próprios produtos e não do usuário. Exemplo: Autor Editora Tema Assunto TÉCNICAS FILTRAGEM DE INFORMAÇÃO É o nome utilizado para descrever uma variedade de processos que envolvem a entrega de informação para as pessoas que realmente necessitam delas. Belvin and Croft - 1992 FILTRAGEM BASEADA EM CONTEÚDO É a forma mais simples de recomendação Considera que usuários sempre gostaram de coisas que gostaram no passado. Analisa apenas os itens e o perfil do usuário. FILTRAGEM BASEADA EM CONTEÚDO Funcionamento: Usuários devem avaliar itens de acordo com seu interesse. O sistema correlaciona os itens em sua base de dados, considerando características de cada item. E indica novos itens que apresentem alto grau de similaridade. EXEMPLO sim(REC, Exoc) Usuário Atual FILTRAGEM BASEADA EM CONTEÚDO Dificuldades: Cálculo da similaridade Análise dos dados restrita Super Especialização Efeito Portfólio FILTRAGEM COLABORATIVA Fechar as lacunas que a filtragem baseada em conteúdo não soluciona. Não exige a extração de características dos itens. O sistema se baseia na troca de experiências entre usuários com gostos similares. FILTRAGEM COLABORATIVA Funcionamento: Usuários devem avaliar itens de acordo com seu interesse. O sistema descobre usuários com padrões similares de comportamento ao do usuário atual. Processa as avaliações feitas por esse subconjunto de usuários. E recomenda itens que o usuário atual ainda não avaliou. EXEMPLO Gosta: 1. Filme A 2. Filme B 3. Filme C Gosta: 1. Filme A 2. Filme B 3. Filme C Usuário Atual Usuário X Similares Usuário Y FILTRAGEM COLABORATIVA Dificuldades: Necessita de vasta base de dados Escalabilidade/estabilidade Partida fria (Usuários e itens novos) Popularidade Ovelha negra Demonstração Facebook FILTRAGEM HÍBRIDA Combina as duas técnicas, para obter um sistema mais eficiente. COMPARATIVO FBC Partida fria (Item) Partida fria (Usuário) Similaridade Dados restritos Especialização Efeito Portfólio Vasta base de dados Popularidade Ovelha negra FC FH CUIDADOS Solicitada ou espontânea? Rodar online ou offline? Recomendar tudo ou filtrar? Só itens novos? Explicar o motivo da escolha? Necessidade ou interesse? ARQUITETURA ARQUITETURA EXEMPLO Recommender Server Utilizado para dar acesso aos SessionsControllers e às rotinas de recomendações. EXEMPLO SessionController Ao entrar no site as informações do usuário são armazenadas sobre sua interação atual. E comparadas com o seu histórico dentro do site. EXEMPLO StrategyList Guarda vários modelos de recomendação. Baseado em listas armazenadas pelo sistema. Baseado em preferências explícitas ou implícitas. Itens mais comuns Itens mais específicos Diferentes estratégias podem ser criadas e utilizadas em paralelo em um mesmo website. EXEMPLO InterestList Mantém Essas as preferências. preferências podem ser utilizadas em conjunto. EXEMPLO FindingList Informações Armazena básicas sobre os usuários. características demográficas e hábitos. Recomendação com precisão. RECOMENDAÇÃO PASSO A PASSO PASSO A PASSO Do que as pessoas gostam? Preferências Como de produtos, serviços e interesses. e onde pegar essas informações. PASSO A PASSO Como as pessoas se parecem? Grupos de pessoas com interesses em comum. Métricas de Similaridade: Coeficiente de Pearson. Distância Euclidiana. PASSO A PASSO Recomendar itens Mostrar algum item que uma pessoa parecida com você viu e você não viu. Tabela de Pesos. PASSO A PASSO Comparação entre itens Encontra a similaridade entre os itens. Ajuda a oferecer um item que provavelmente queira ver. você APLICAÇÕES APLICAÇÕES Aardwark: Sugestões de perguntas a pessoas certas. Associação por Conteúdo. APLICAÇÕES YouTube: Sugestão Lista de vídeos. de recomendação. Associação de conteúdo. APLICAÇÕES Facebook: Sugestão de pessoas que o usuário possa conhecer. Usuários que se interessam por “X” também se interessam por “Y”. APLICAÇÕES Match.com: É uma comunidade mundial de solteiros em busca de um parceiro. Lançado em 1995, foi pioneiro em sites de relacionamentos. Possui mais de 29 milhões de usuários. APLICAÇÕES Match.com: Sugere pessoas através do Daily 5. Suas Recomendações. APLICAÇÕES Amazon: Inicialmente, era uma livraria online. Atualmente, é a maior empresa de comércio eletrônico dos EUA. Realiza grandes investimentos em recomendação, possuindo todas as estratégias. de 38% de suas vendas provêm de suas sugestões. Cerca APLICAÇÕES Amazon: Sugestão de itens que o usuário posso querer comprar. Lista de recomendação. APLICAÇÕES Amazon: Avaliação de Usuários APLICAÇÕES Amazon: Suas Recomendações APLICAÇÕES Amazon: Usuários que se interessam por “X” também se interessam por “Y.” APLICAÇÕES Amazon: Associação por conteúdo DESAFIOS E TENDÊNCIAS TENDÊNCIAS Pesquisa social Busca na web considera as redes sociais que o usuário faz parte. Ex: O sistema responde a uma consulta de um usuário com links relacionados às avaliações dadas por colegas do usuário. TENDÊNCIAS Google Social Search DESAFIOS Melhoria nos algoritmos de recomendação: Eficiência Qualidade do resultado. CONCLUSÃO Sistemas de recomendação podem ser usados para que se possa conhecer melhor os hábitos dos usuários. Aplicar estrategicamente o conhecimento dos hábitos dos usuários, pode melhorar a lucratividade de uma empresa. CONCLUSÃO A tendência é que todos os programas web utilizem recomendação. DÚVIDAS Obrigado! REFERÊNCIAS http://dsc.upe.br/~tcc/20092/TCC_final_AndersonBerg.pdf http://en.wikipedia.org/wiki/Recommender_system Programming Collective Inteligence - OReilly Artigo 2 (Incluir) Artigo 3 (Incluir)