Mineração de Dados Introdução 1 Introdução 1/ Motivação Explosão de Dados Ferramentas automáticas de coleta de dados +maturidade das tecnologias de bancos de dados enorme quantidade de dados armazenados em bases de dados e outros meios de armazenamento Abundancia de dados ao lado de escassez de conhecimentos 2 Introdução 2/ Motivação Explosão de Dados Solução: data warehousing e mineração de dados descoberta de conhecimentos (regras, regularidades, padrões) a partir de enormes bases de dados 3 KDD: Descoberta de Conhecimentos a partir de bancos de dados Avaliação dos Padrões Mineração de Dados Dados relevantes Data Warehouse Seleção Limpeza de Dados Integração de Dados Bases de dados 4 Introdução 4/ Passos do Processo KDD Estudo do domínio de aplicação conhecimento a priori relevante, objetivo da aplicação Seleção dos dados Limpeza e pre-processamento dos dados (60% do esforço) Redução e transformação de dados seleção de atributos, redução de dimensão 5 Introdução 5/ Passos do Processo KDD Escolha dos modelos de mineração sumário, classificação, regressão, associação, clustering Escolhas dos algoritmos de mineração Mineração de dados: busca de padrões de interesse 6 Introdução 6/ Passos do Processo KDD Avaliação dos padrões e apresentação do conhecimento visualização, transformação, remoção de padrões redundantes Uso do conhecimento descoberto 7 Mineração de Dados e Inteligencia nos Negócios Potencial crescente de apoio a decisões nos negócios Tomador de Decisões Apresentação dos Dados Tecnicas de Visualização Mineração de Dados Descoberta de Informação Usuário Final Analista de Negócios Analista de Dados Exploração de Dados Análise estatística, consultas, relatórios Data Warehouses / Data Marts OLAP Fontes de Dados Papeis, Arquivos, Provedores de Informação, Bases de Dados, OLTP 8 Arquitetura de um sistema usual de mineração de dados Interface Gráfica Avaliação dos Padrões Mineração de Dados Servidor de base de dados ou data warehouse Limpeza e integração de dados Bases de dados Knowledge-base Filtragem Data Warehouse 9 Introdução 9/ Fontes de dados para a mineração Bases de dados relacionais Data warehouses Bases de dados transacionais 10 Introdução 10/ Fontes de dados para a mineração Bases de dados avançadas e repositórios de dados bases de dados orientada objeto e bases de dados objeto-relacional bases de dados espaciais dados temporais e seqüenciais bases de dados textuais e bases de dados multimídia bases de dados heterogêneas WWW 11 Introdução 11/ Funcionalidades da mineração de dados Descrição de conceitos: caracterização e discriminação Generaliza, resume e contrasta as características dos dados Associação: correlação e causualidade associação multi-dimensional versus associação unidimensional “20..29”) ^ renda(X, “20..29K”) compra(X, “PC”) [suporte = 2%, confiancia = 60%] idade(X, 12 Introdução 12/ Funcionalidades da mineração de dados Classificação e previsão Construir modelos (funções) que descrevem e distinguem classes ou conceitos para previsões futuras modelos: redes neurais, arvores de decisão, regras de classificação Previsão: prever valores numéricos ausentes ou desconhecidos 13 Introdução 13/ Funcionalidades da mineração de dados Análise de cluster os rótulos das classes são desconhecidos agrupar dados para formar novas classes O agrupamento é baseado em: maximizar a similaridade intra-classe e minimizar a similaridade inter-classe 14 Introdução 14/ Funcionalidades da mineração de dados Análise de valores aberrantes (outliers) Outilier : um dado que diverge do comportamento geral dos dados Pode ser considerado ruido ou exceção comum em detecção de fraudes e análise de eventos raros 15 Introdução 15/ Funcionalidades da mineração de dados Análise de tendência e evolução tendência e desvio: análise de regressão Mineração de padrões seqüenciais: análise de periodicidade análise baseada em similaridade 16 Introdução 16/ Interesse Um dos padrões descobertos sistema de mineração de dados pode gerar centenas de padrões nem todos são de interesse Um padrão é interessante, se ele é facilmente entendido pelos humanos, validado em dados independentes, potencialmente útil, novo, ou valida alguma hipótese que o usuário 17 procurava confirmar Introdução 17/ Interesse dos padrões descobertos Medidas de interesse de um padrão objetivas: baseadas em estatísticas e estruturas dos padrões (suporte, confiança) subjetivas: baseadas nas crenças do usuário nos dados (novidade inesperada) 18 Mineração de Dados: Confluencia de Multiplas Disciplinas Tecnologia de Bases de Dados Aprendizagem de Máquina Ciências da Informação Estatística Mineração de Dados Visualização Outras Disciplinas 19 Introdução 19/ Mineração de Dados: Classificação Funcionalidade geral Mineração de dados descritiva Mineração de dados preditiva Outros critérios tipo de base de dados a ser minerada tipo de conhecimento a ser descoberto tipo de técnica a ser utilizada tipo de aplicações 20 Introdução 20/ Mineração Base de Dados: Classificação de dados a ser minerada relacional, transacional, orientada objeto, objetorelacional, espacial, temporal, textual, multimídia, heterogênea, WWW Conhecimento a ser minerado Caracterização, descriminação, associação, classificação, clustering, tendência e análise de desvio Funções múltiplas e integradas e mineração a níveis 21 múltiplos Introdução 21/ Mineração Análise de Dados: Aplicações potenciais de bases de dados e suporte a decisão análise de mercado alvo de campanhas, análise de compras, segmentação do mercado, gerencia de relações com clientes, vendas cruzadas análise de risco fidelização de clientes, controle de qualidade, análise de competitividade 22 detecção de fraude Introdução 22/ Mineração de Dados: Aplicações potenciais Análise de bases de dados e suporte a decisão detecção de fraude Outras aplicações Mineração de texto (email, documentos) e web analise 23 Introdução 23/ Análise de Mercado Fontes de dados para análise transações de cartão, cartões de fidelidade, cupons de desconto, queixas de clientes, estudos de estilos de vida Alvo de campanhas encontrar grupos de clientes que partilham as mesmas características: interesse, nível de renda, hábitos de consumo 24 Introdução 24/ Análise de Mercado padrões de compras de clientes no tempo conversão para uma conta conjunta: casamento Análise cruzada de mercado associações/correlações entre vendas de produtos previsão baseada nas informações de associação 25 Introdução 25/ Análise de Mercado perfil de consumidores que tipo de consumidores compra que tipo de produto Identificação das exigências dos consumidores identificação dos melhores produtos para diferentes tipos de clientes encontrar que fatores atrairão novos clientes 26 Introdução 26/ Análise de Mercado sumários relatários muti-dimensionais sumários estatísticos (medidas de tendência central e de dispersão) 27 Introdução 27/ Análise de Risco Plano financeiro e avaliação de recursos análise de fluxo de caixa Planificação de receitas sumário e comparação de receitas e despesas Competição agrupar clientes em classes e oferecer preços baseados em classes 28 Introdução 28/ Detecção de fraudes aplicações planos de saúde, varejo, cartões de crédito, fraude em cartões telefônicos Abordagem uso de dados históricos para construir modelos de comportamento fraudulento e uso de mineração de dados para ajudar a identificar instancias similares 29 Introdução 29/ Detecção de fraudes Exemplos seguro de carros transações monetárias fraudulentas seguro de saúde detecção de tratamento médico inapropriado detecção de fraude telefônica varejo 30 Introdução 30/ Tendências em Mineração metodologia de mineração e iteração com o usuário desempenho e escalabilidade diversidade de tipos de dados aplicações e impactos sociais 31