Mineração de Dados Profa. Sandra de Amo Pós-Graduação em Ciência da Computação Faculdade de Computação Universidade Federal de Uberlândia Contexto e Motivação Mineração de dados: Por que ? O que é ? O processo de descoberta de conhecimento Tarefas de mineração: preditivas, descritivas 05/11/2015 Mestrado em Ciencia da Computacao 2008 2 Mineração de Dados: Por que ? Ponto de Vista Comercial Quantidades gigantescas de dados são coletados e armazenados em empresas, corporações, etc Dados de comércio eletrônico, Dados de navegação na internet Dados de compras de clientes em grandes lojas de departamentos, supermercados, Dados de transações bancárias, ou de cartão de crédito Computadores mais baratos e mais potentes Pressão da Competição 05/11/2015 Mestrado em Ciencia da Computacao 2008 3 Mineração de Dados: Por que ? Ponto de Vista Cientifico : Medicina, Biologia, Engenharia Dados coletados e armazenados a velocidades enormes (GB/hora) Sensores remotos em satélites Telescópios Microarrays gerando dados de expressões de genes Simulações científicas gerando terabytes de dados. Técnicas tradicionais não apropriadas para analisar tais dados: ruídos e grande dimensionalidade 05/11/2015 Mestrado em Ciencia da Computacao 2008 4 Mineração de Dados - Por que ? Frequentemente existe informação “escondida” nos dados que não é evidente de ser encontrada utilizando linguagens de consultas tradicionais. Analistas humanos podem levar semanas para correlacionar e descobrir alguma informação útil dentro de uma grande massa de dados. Boa parte dos dados nunca é analisado: “cemitério” de dados. 05/11/2015 Mestrado em Ciencia da Computacao 2008 5 Mineração de Dados: Por que ? Técnicas de Mineração podem ajudar analistas: Entender e prever as necessidades dos clientes Descobrir fraudes Descobrir perfis de comportamento de clientes Técnicas de Mineração podem ajudar cientistas: Classificar e segmentar dados Formular hipóteses 05/11/2015 Mestrado em Ciencia da Computacao 2008 6 Mineração de Dados: O que é ? Não Sim 1. Fazer uma 1. Agrupar documentos consulta no similares retornados pelo Google sobre Google de acordo com “Data Mining ” seu contexto. 2. Procurar um nome numa lista2. Descobrir se certos telefônica nomes aparecem com 3. Fazer uma consulta SQL a um banco de dados. 05/11/2015 mais frequência em determinadas regiões da cidade (periferia, centro, bairros abastados,…) Mestrado em Ciencia da Computacao 2008 7 Exemplos Qual o perfil do cliente que consome mais ? Que produtos são comprados conjuntamente ? E em sequência ? Meu site web tem uma boa estrutura ? Como as chuvas, variação de temperatura, aplicação de pesticidas afetam as colheitas ? Existe uma relação entre o aquecimento global e a frequência e intensidade das perturbações no ecossistema tais como secas, furacões, enchentes ? 05/11/2015 Mestrado em Ciencia da Computacao 2008 8 Etapas do Processo de KDD Limpeza dos Dados Integração dos Dados Seleção Transformação Mineração Avaliação ou Pós-Processamento Visualização dos Resultados 05/11/2015 Mestrado em Ciencia da Computacao 2008 9 Análise do Mineração: Etapa central Resultado do processo de Descoberta de Conhecimento Mineração Dados Relevantes Data Warehouse Seleção Limpeza Integração dos Dados 05/11/2015 Banco de Dados Mestrado em Ciencia da Computacao 2008 10 Tarefas de Mineração Tarefa ato de descobrir um certo tipo de padrão Regras de Associação Análise de Sequências Classificação Agrupamento Outliers 05/11/2015 Mestrado em Ciencia da Computacao 2008 11 Tarefas de Mineração de Dados Tarefas Preditivas predizer o valor de um determinado atributo baseado nos valores de outros atributos Classificação – Predição Tarefas Descritivas Derivar « padrões » : correlações, tendências, anomalias, agrupamentos dentro de uma grande massa de dados. Regras de Associação – Padrões Sequenciais – Agrupamentos - Anomalias 05/11/2015 Mestrado em Ciencia da Computacao 2008 12 Técnicas de Mineração Técnicas Estatísticas Técnicas de Inteligência Artificial Técnicas de Gerenciamento Eficiente de Grandes Volumes de Dados O que é Mineração ? Mineração de Dados Descoberta de Conhecimento (KDD) KDD = Knowledge Discovery in Databases 05/11/2015 Mestrado em Ciencia da Computacao 2008 14 Sistemas de Mineração Intelligent Miner (IBM) DBMiner Enterprise Miner Clementine MineSet Genamics Expressions 05/11/2015 Mestrado em Ciencia da Computacao 2008 15 Tópicos Atuais Mineração de Preferências Sistemas de Recomendação Consulta Quais os pacotes turísticos de menos de 15 dias que você pode me propor em 2011 ? Resposta Minhas Preferências ... Prefiro estadias mais curtas (menos de duas semanas) do que estadias longas (de duas semanas ou mais). Prefiro viajar durante as férias de verão. Para estadias curtas prefiro aquelas nas grandes cidades, pois gosto de ir a museus, bons restaurantes e shows. Para minhas viagens durante as férias de verão, prefiro viajar para a praia, caso eu viaje com a família. Caso eu viajo sozinho, je prefiro ir para uma cidade histórica. Problemas a resolver 1. Como modelar as preferências do usuário ? Usar regras ? Usar scores ? 2. Como obter as preferências do usuário ? 3. Como utilizar as preferências do usuário para “personalizar” as respostas ? 4. Como utilizar as preferências do usuário para “recomendar” produtos (filmes, livros, notícias, pacotes turísticos,...) aos usuários ? 1) Como modelizar preferências Conjunto de regras Regras SE a viagem é durante minhas férias de verão e eu vou viajar com minha família ENTÃO eu prefiro ir para uma praia do que para uma cidade histórica. SE a viagem é durante minhas férias de verão e eu vou viajar sozinho ENTÃO eu prefiro ir para uma cidade histórica do que para uma praia. 2) Como obter as preferências do usuário ? Perguntar ao usuário ? Mostrar algumas respostas e pedir um feedback do usuário se gostou ou não ? Utilizar métodos automáticos ? Mineração de Preferências 3) Como colher as amostras de preferências do usuário Sistema de Amostragem de NOTAS (scores) Sistema de Amostragem de Pares Sistema de Amostragem de Listas 05/11/2015 Mestrado em Ciencia da Computacao 2008 22 Exemplo Internet Movie Database Dados Coletados Pequena amostragem de filmes classificados por um usuário ID Genero Diretor Ano Ator Nota 1 comedy Woody Allen 80 Charlotte Rampling 8 2 comedy Woody Allen 80 Mia Farrow 7 3 romance Joel Coen 80 Charlote Rampling 7 4 drama Woody Allen 70 Charlote Rampling 5 5 comedy Woody Allen 80 Mia Farrow 3 6 romance Joel Coen 70 Charlote Rampling 6 7 comedy Woody Allen 80 Mia Farrow 3 ID Genero Directo Ano Ator Nota 1 comedy Woody Allen 80 Charlotte Rampling 7 2 comedy Woody Allen 80 Mia Farrow 6 3 romance Joel Coen 80 Charlote Rampling ? 4 drama Woody Allen 70 Charlote Rampling 4 5 comedy Woody Allen 80 Mia Farrow ? 6 romance Joel Coen 70 Charlote Rampling 5 7 comedy Woody Allen 80 Mia Farrow 3 Comparando dois filmes pela nota dada ... I Genre Director ANO Actor ID Genre Director' ANO Actor Pref 1 comedy W Allen 80 C.Rampling 2 comedy W. Allen 80 Mia Farrow 1 1 comedy W.Allen 80 C.Rampling 4 drama W.Allen 70 C.Rampling 1 1 comedy W. Allen 80 C.Rampling 6 romanc Joel Coen 70 C.Rampling 1 1 comedy W.Allen 80 C.Rampling 7 comedy W.Allen 80 Mia Farrow 1 2 comedy W.Allen 80 Mia Farrow 4 drama W.Allen 70 C.Rampling 1 2 comedy W.Allen 80 Mia Farrow 6 romanc Joel Coen 70 C.Rampling 1 2 comedy W. Allen 80 Mia Farrow 7 comedy W. Allen 80 Mia Farrow 1 4 drama W.Allen 70 C. Rampling 6 romanc Joel Coen 70 C.Rampling 0 4 drama W.Allen 70 C.Rampling 7 comedy W.Allen 80 Mia Farrow 1 6 romanc J.Coen 70 C.Rampling 7 comedy W.Allen 80 Mia Farrow 1 I GEN Diretor ANO 1 come d y Woody Allen 80 1 come d y Woody Allen 80 2 come d y Woody Allen 80 2 come d y Woody Allen 80 4 dram a Woody Allen 70 4 dram a Woody Allen 6 roma n c e 6 roma n c e Ator ID' GE' Diretor' ANO Charlotte Rampling 3 romance Joel Coen 80 Charlotte Rampling 5 comedy Woody Allen 80 Mia Farrow 3 romance Joel Coen 80 Mia Farrow 5 comedy Woody Allen 80 Charlote Rampling 3 romance Joel Coen 80 70 Charlote Rampling 5 comedy Woody Allen 80 Joel Coen 70 Charlote Rampling 3 romance Joel Coen 80 Joel Coen 70 Charlote Rampling 5 comedy Woody Allen 80 Ator' Pref D Charlote Ramplin g Mia Farrow Charlote Ramplin g Mia Farrow Charlote Ramplin g Mia Farrow Charlote Ramplin g Mia Farrow ? ? ? ? ? ? ? ? Temas de Pesquisa Como “descobrir” as preferências de um usuário a partir de uma amostra de preferências capturada na internet ? Como “descobrir” as preferências comuns a um perfil de usuários ? Como utilizar este conhecimento para recomendar produtos para um novo usuário ? Mineração de Preferências Pesquisa desenvolvidas no Grupo CprefMiner (tese de Mestrado) Otimização de Cprefminer (tese de Mestrado) Uso de Cprefminer no desenvolvimento de um Sistema de recomendação (tese de Mestrado) FPSMining e IncFPSMining: Mineração de Preferências em Data streams (tese de Mestrado). ProfMiner (em colaboração com pesquisadores da Université de Tours (França) Pesquisa em Desenvolvimento Sistemas de Recomendação Sociais Dinâmicos (Tese de Doutorado) Sistema de Recomendação para Imagens (tese de Mestrado) Tarefas Livro Introduction to Data Mining Capitulo 2: Data Capitulo 3: Exploring Data Entrega de Exercicios no dia 14 de Abril Exercicios 16, 17, 19 e 20, Capitulo 2 Exercicios 5, 16 e 17, Capitulo 3.