4.2. Data Mining (Mineração de Dados)
Qual a motivação?
■ “Temos tudo informatizado na empresa, mas
sinto que faltam mais informações. Falta
conhecimento. Parece que morro de sede
(conhecimento) num oceano de dados”
■ O Data Warehouse não consegue ter insigths
durante as análises de dados
■ SPT e SIG: apóiam tarefas rotineiras
■ SE e DW: apóiam o processo cognitivo
■ Data mining: apóia o processo de descoberta
Márcio Moreira
Unidade 4 – Decisões Estruturadas – Data Mining – Slide 1
Sistemas de Apoio à Decisão
Exemplo do Wall-Mart
 O que fraldas tem a ver com cerveja?
 Premissas dos gerentes das lojas:
■ Mães compram fraldas  seção feminina e de bebês.
■ Homens compram cervejas  seção masculina e bebidas.
 O Terada Warehouse Miner fez a seguinte sugestão:
■ Coloquem a seção de fraldas ao lado da seção de cervejas.
 Resultado:
■ As vendas de cerveja cresceram 30%.
■ As vendas de fraldas cresceram 40%.
 Porque?
■ Homens casados, entre 25 e 30 anos, compram fraldas e/ou
cervejas no final das tardes de sexta-feira no retorno do trabalho
para casa.
Márcio Moreira
Unidade 4 – Decisões Estruturadas – Data Mining – Slide 2
Sistemas de Apoio à Decisão
Descoberta de conhecimento em DB
“Um processo não trivial de identificação
de padrões válidos, novos, úteis e
implicitamente presentes em grandes
volumes de dados.” (Knowledge Discovery
in Database - KDD - Fayyad et al. 1996)
■ Usa várias técnicas para descobrir modelos e
relações ocultas em grandes bancos de dados
■ Isto permite inferir regras de comportamento
futuros e orientar a tomada de decisões
■ “Torture os dados até eles confessarem”
Márcio Moreira
Unidade 4 – Decisões Estruturadas – Data Mining – Slide 3
Sistemas de Apoio à Decisão
Etapas do processo de KDD
 Paradigmas de Data Mining:
■
■
■
■
Árvores de decisão
Regras de inferência
Baseado em instâncias (exemplos, fatos passados)
Redes neurais, algoritmos estatísticos e genéticos
Márcio Moreira
Unidade 4 – Decisões Estruturadas – Data Mining – Slide 4
Sistemas de Apoio à Decisão
KDD x Data Mining
Data Mining é o passo do processo de
KDD que produz um conjunto de padrões
(conhecimento) sob um custo
computacional aceitável
Incorpora tarefas de escolha do algoritmo
adequado, processamento e amostragem
de dados e interpretação de resultados
O Data Mining fornece os “insights” para
gerenciar oportunidades e problemas
existentes ou potenciais
Márcio Moreira
Unidade 4 – Decisões Estruturadas – Data Mining – Slide 5
Sistemas de Apoio à Decisão
Tipos de Informações do Data Mining
 Associações
■ Detecta eventos relacionados. Ex: Wall-Mart.
 Seqüências
■ Comportamento de compras de usuários de cartões.
 Classificação
■ Quais produtos são mais rentáveis.
 Aglomeração
■ Identifica agrupamentos nos dados. Ex: locais de crimes.
 Prognósticos
■ Previsões de vendas, taxa de ocupação de hotéis, etc.
Márcio Moreira
Unidade 4 – Decisões Estruturadas – Data Mining – Slide 6
Sistemas de Apoio à Decisão
Tarefas básicas - Previsão
Fixa n variáveis e calcula outras k:
■ Cálculo de variáveis de interesse a partir dos
valores de um conjunto de variáveis de
explicação
Normalmente é usada no aprendizado de
máquina ou estatística
Exemplos: classificação e regressão
Márcio Moreira
Unidade 4 – Decisões Estruturadas – Data Mining – Slide 7
Sistemas de Apoio à Decisão
Exemplo de Previsão - Análise de Crédito
Legenda: x: crédito recusado
o: crédito concedido
x
débito
x
x
x
o
o
x
o
x
sem
crédito
o
o
o
o
x
x
o
o
o
t
x
x
■ Fácil interpretação:
■ Se renda < t  sem crédito
 Exemplo:
■ árvores de decisão
■ indução de regras
o
x
o
o
x
o
o
o
o
x
o
o
o
t
renda
 Plano paralelo:
Márcio Moreira
x
débito
sem
crédito
renda
 Plano oblíquo:
■ melhor separação
 Exemplos:
■ regressão linear
■ perceptron
Unidade 4 – Decisões Estruturadas – Data Mining – Slide 8
Sistemas de Apoio à Decisão
Exemplo de Previsão - Análise de Crédito
Legenda: x: crédito recusado
o: crédito concedido
x
débito
x
x
x
x
o
o
x
o
o
o
o
sem
crédito
o
x
x
o
x
o
o
débito
sem
crédito
x
x
o
x
o
o
x
o
o
o
o
x
o
o
o
t
t
■ melhor classificação
■ pior interpretação
 Baseado em exemplos
 Exemplos:
renda
 Superfície não linear:
 Exemplos:
■ perceptrons multicamadas
■ regressão não-linear
Márcio Moreira
renda
■ k-vizinhos mais próximos
■ raciocínio baseado em
casos
Unidade 4 – Decisões Estruturadas – Data Mining – Slide 9
Sistemas de Apoio à Decisão
Exemplo de Árvore de Decisão
Sexo País
Idade Compra
M
França
25
Sim
M
Inglaterra
21
Sim
F
França
23
Sim
F
Inglaterra
34
Sim
F
França
30
Não
M
Alemanha
21
Não
M
Alemanha
20
Não
F
Alemanha
18
Não
F
França
34
Não
M
França
55
Não
Márcio Moreira
País
Inglaterra
Alemanha
França
Não
Sim
Idade
< 25
> 25
Não
Sim
Dados das vendas por mala direta do livro:
“Um guia para restaurantes franceses na Inglaterra”.
Fonte: Aurélio, Vellasco e Lopes (1999)
Unidade 4 – Decisões Estruturadas – Data Mining – Slide 10
Sistemas de Apoio à Decisão
Tarefas básicas - Descrição
Reportar relações entre as variáveis do
modelo de forma simétrica
À princípio, está mais relacionada ao
processo de KDD
Exemplos: agrupamento, sumarização
(inclusive de textos), dependências,
análise de desvio
Márcio Moreira
Unidade 4 – Decisões Estruturadas – Data Mining – Slide 11
Sistemas de Apoio à Decisão
Exemplo de Descrição
Agrupamento
Exemplo:
Análise de crédito
+
débito
+
+
+
+
+
+
+
t
+: exemplo
Márcio Moreira
+
+
+
■ Vector quantization
+
+
+
+
+
+
renda
Web Mining:
■ Data Mining aplicado à
servidores web
■ Prevê padrões de
acesso a servidores
Unidade 4 – Decisões Estruturadas – Data Mining – Slide 12
Sistemas de Apoio à Decisão
Data Mining - Cases
American Express:
■ Software analisa bilhões de compras para:
• Criar campanhas de marketing individuais
• Detectar fraudes e roubos de cartões de crédito
Lojas Brasileiras:
■ Reduziu mix de produtos de 51000 para 14000
■ Otimizou a organização das gôndolas
■ Exemplo de anomalias detectadas:
• Roupas de inverno e guarda chuvas encalhadas no
nordeste
• Batedeiras 110V a venda em SC (lá só tem 220V)
Márcio Moreira
Unidade 4 – Decisões Estruturadas – Data Mining – Slide 13
Sistemas de Apoio à Decisão
Data Mining - Cases
 Bank of America:
■
■
■
■
Selecionou entre seus 36 milhões de clientes
Aqueles com menor risco de dar calotes
Tinham filhos com idades entre 18 e 21 anos
Resultado:
• Em três anos o banco lucrou 30 milhões de dólares com a
carteira de empréstimos
 NASA:
■ Cataloga imagem de satélites classifica eventos similares
 Empresas de Telecom:
■ Detecção de ligações fraudulentas e clones de celulares
Márcio Moreira
Unidade 4 – Decisões Estruturadas – Data Mining – Slide 14
Sistemas de Apoio à Decisão
Data Mining - Produtos
 Fabricantes:
■ Líderes: Oracle, SPSS e SAS
■ Grandes: IBM e CA
 Produtos:
■
■
■
■
■
■
■
■
■
Oracle Data Mining
SPSS
SAS – Enterprise Miner
IBM DB2 Inteligent Miner
PolyAnalist
Clementine
WizRule e WizWhy
Bramining
Rule Evolver
Márcio Moreira
Unidade 4 – Decisões Estruturadas – Data Mining – Slide 15
Sistemas de Apoio à Decisão
Oracle Data Mining
Márcio Moreira
Unidade 4 – Decisões Estruturadas – Data Mining – Slide 16
Sistemas de Apoio à Decisão
Download

Unidade 4 - Decisões Estruturadas