4.2. Data Mining (Mineração de Dados) Qual a motivação? ■ “Temos tudo informatizado na empresa, mas sinto que faltam mais informações. Falta conhecimento. Parece que morro de sede (conhecimento) num oceano de dados” ■ O Data Warehouse não consegue ter insigths durante as análises de dados ■ SPT e SIG: apóiam tarefas rotineiras ■ SE e DW: apóiam o processo cognitivo ■ Data mining: apóia o processo de descoberta Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 1 Sistemas de Apoio à Decisão Exemplo do Wall-Mart O que fraldas tem a ver com cerveja? Premissas dos gerentes das lojas: ■ Mães compram fraldas seção feminina e de bebês. ■ Homens compram cervejas seção masculina e bebidas. O Terada Warehouse Miner fez a seguinte sugestão: ■ Coloquem a seção de fraldas ao lado da seção de cervejas. Resultado: ■ As vendas de cerveja cresceram 30%. ■ As vendas de fraldas cresceram 40%. Porque? ■ Homens casados, entre 25 e 30 anos, compram fraldas e/ou cervejas no final das tardes de sexta-feira no retorno do trabalho para casa. Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 2 Sistemas de Apoio à Decisão Descoberta de conhecimento em DB “Um processo não trivial de identificação de padrões válidos, novos, úteis e implicitamente presentes em grandes volumes de dados.” (Knowledge Discovery in Database - KDD - Fayyad et al. 1996) ■ Usa várias técnicas para descobrir modelos e relações ocultas em grandes bancos de dados ■ Isto permite inferir regras de comportamento futuros e orientar a tomada de decisões ■ “Torture os dados até eles confessarem” Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 3 Sistemas de Apoio à Decisão Etapas do processo de KDD Paradigmas de Data Mining: ■ ■ ■ ■ Árvores de decisão Regras de inferência Baseado em instâncias (exemplos, fatos passados) Redes neurais, algoritmos estatísticos e genéticos Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 4 Sistemas de Apoio à Decisão KDD x Data Mining Data Mining é o passo do processo de KDD que produz um conjunto de padrões (conhecimento) sob um custo computacional aceitável Incorpora tarefas de escolha do algoritmo adequado, processamento e amostragem de dados e interpretação de resultados O Data Mining fornece os “insights” para gerenciar oportunidades e problemas existentes ou potenciais Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 5 Sistemas de Apoio à Decisão Tipos de Informações do Data Mining Associações ■ Detecta eventos relacionados. Ex: Wall-Mart. Seqüências ■ Comportamento de compras de usuários de cartões. Classificação ■ Quais produtos são mais rentáveis. Aglomeração ■ Identifica agrupamentos nos dados. Ex: locais de crimes. Prognósticos ■ Previsões de vendas, taxa de ocupação de hotéis, etc. Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 6 Sistemas de Apoio à Decisão Tarefas básicas - Previsão Fixa n variáveis e calcula outras k: ■ Cálculo de variáveis de interesse a partir dos valores de um conjunto de variáveis de explicação Normalmente é usada no aprendizado de máquina ou estatística Exemplos: classificação e regressão Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 7 Sistemas de Apoio à Decisão Exemplo de Previsão - Análise de Crédito Legenda: x: crédito recusado o: crédito concedido x débito x x x o o x o x sem crédito o o o o x x o o o t x x ■ Fácil interpretação: ■ Se renda < t sem crédito Exemplo: ■ árvores de decisão ■ indução de regras o x o o x o o o o x o o o t renda Plano paralelo: Márcio Moreira x débito sem crédito renda Plano oblíquo: ■ melhor separação Exemplos: ■ regressão linear ■ perceptron Unidade 4 – Decisões Estruturadas – Data Mining – Slide 8 Sistemas de Apoio à Decisão Exemplo de Previsão - Análise de Crédito Legenda: x: crédito recusado o: crédito concedido x débito x x x x o o x o o o o sem crédito o x x o x o o débito sem crédito x x o x o o x o o o o x o o o t t ■ melhor classificação ■ pior interpretação Baseado em exemplos Exemplos: renda Superfície não linear: Exemplos: ■ perceptrons multicamadas ■ regressão não-linear Márcio Moreira renda ■ k-vizinhos mais próximos ■ raciocínio baseado em casos Unidade 4 – Decisões Estruturadas – Data Mining – Slide 9 Sistemas de Apoio à Decisão Exemplo de Árvore de Decisão Sexo País Idade Compra M França 25 Sim M Inglaterra 21 Sim F França 23 Sim F Inglaterra 34 Sim F França 30 Não M Alemanha 21 Não M Alemanha 20 Não F Alemanha 18 Não F França 34 Não M França 55 Não Márcio Moreira País Inglaterra Alemanha França Não Sim Idade < 25 > 25 Não Sim Dados das vendas por mala direta do livro: “Um guia para restaurantes franceses na Inglaterra”. Fonte: Aurélio, Vellasco e Lopes (1999) Unidade 4 – Decisões Estruturadas – Data Mining – Slide 10 Sistemas de Apoio à Decisão Tarefas básicas - Descrição Reportar relações entre as variáveis do modelo de forma simétrica À princípio, está mais relacionada ao processo de KDD Exemplos: agrupamento, sumarização (inclusive de textos), dependências, análise de desvio Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 11 Sistemas de Apoio à Decisão Exemplo de Descrição Agrupamento Exemplo: Análise de crédito + débito + + + + + + + t +: exemplo Márcio Moreira + + + ■ Vector quantization + + + + + + renda Web Mining: ■ Data Mining aplicado à servidores web ■ Prevê padrões de acesso a servidores Unidade 4 – Decisões Estruturadas – Data Mining – Slide 12 Sistemas de Apoio à Decisão Data Mining - Cases American Express: ■ Software analisa bilhões de compras para: • Criar campanhas de marketing individuais • Detectar fraudes e roubos de cartões de crédito Lojas Brasileiras: ■ Reduziu mix de produtos de 51000 para 14000 ■ Otimizou a organização das gôndolas ■ Exemplo de anomalias detectadas: • Roupas de inverno e guarda chuvas encalhadas no nordeste • Batedeiras 110V a venda em SC (lá só tem 220V) Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 13 Sistemas de Apoio à Decisão Data Mining - Cases Bank of America: ■ ■ ■ ■ Selecionou entre seus 36 milhões de clientes Aqueles com menor risco de dar calotes Tinham filhos com idades entre 18 e 21 anos Resultado: • Em três anos o banco lucrou 30 milhões de dólares com a carteira de empréstimos NASA: ■ Cataloga imagem de satélites classifica eventos similares Empresas de Telecom: ■ Detecção de ligações fraudulentas e clones de celulares Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 14 Sistemas de Apoio à Decisão Data Mining - Produtos Fabricantes: ■ Líderes: Oracle, SPSS e SAS ■ Grandes: IBM e CA Produtos: ■ ■ ■ ■ ■ ■ ■ ■ ■ Oracle Data Mining SPSS SAS – Enterprise Miner IBM DB2 Inteligent Miner PolyAnalist Clementine WizRule e WizWhy Bramining Rule Evolver Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 15 Sistemas de Apoio à Decisão Oracle Data Mining Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Mining – Slide 16 Sistemas de Apoio à Decisão