Mineração de Dados
Introdução
1
Introdução 1/
Motivação
Explosão
de Dados
Ferramentas automáticas de coleta de dados
+maturidade das tecnologias de bancos de dados
enorme quantidade de dados armazenados em
bases de dados e outros meios de armazenamento
Abundancia de dados ao lado de escassez de
conhecimentos
2
Introdução 2/
Motivação
Explosão
de Dados
Solução: data warehousing e mineração de dados
descoberta de conhecimentos (regras,
regularidades, padrões) a partir de enormes bases
de dados
3
KDD: Descoberta de Conhecimentos
a partir de bancos de dados
Avaliação dos Padrões
Mineração de Dados
Dados relevantes
Data Warehouse
Seleção
Limpeza de Dados
Integração de Dados
Bases de
dados
4
Introdução 4/
Passos
do Processo KDD
Estudo
do domínio de aplicação
conhecimento a priori relevante, objetivo da aplicação
Seleção dos dados
Limpeza e pre-processamento dos dados (60% do
esforço)
Redução e transformação de dados
seleção de atributos, redução de dimensão
5
Introdução 5/
Passos
do Processo KDD
Escolha
dos modelos de mineração
sumário, classificação, regressão, associação,
clustering
Escolhas dos algoritmos de mineração
Mineração de dados: busca de padrões de interesse
6
Introdução 6/
Passos
do Processo KDD
Avaliação
dos padrões e apresentação do conhecimento
visualização, transformação, remoção de padrões
redundantes
Uso do conhecimento descoberto
7
Mineração de Dados e Inteligencia nos
Negócios
Potencial crescente
de apoio a decisões
nos negócios
Tomador
de Decisões
Apresentação dos Dados
Tecnicas de Visualização
Mineração de Dados
Descoberta de Informação
Usuário Final
Analista de
Negócios
Analista de
Dados
Exploração de Dados
Análise estatística, consultas, relatórios
Data Warehouses / Data Marts
OLAP
Fontes de Dados
Papeis, Arquivos, Provedores de Informação, Bases de Dados, OLTP
8
Arquitetura de um sistema usual de
mineração de dados
Interface Gráfica
Avaliação dos Padrões
Mineração de Dados
Servidor de base de
dados ou data warehouse
Limpeza e integração de dados
Bases de
dados
Knowledge-base
Filtragem
Data
Warehouse
9
Introdução 9/
Fontes
de dados para a mineração
Bases
de dados relacionais
Data warehouses
Bases de dados transacionais
10
Introdução 10/
Fontes
de dados para a mineração
Bases
de dados avançadas e repositórios de dados
bases de dados orientada objeto e bases de dados
objeto-relacional
bases de dados espaciais
dados temporais e seqüenciais
bases de dados textuais e bases de dados multimídia
bases de dados heterogêneas
WWW
11
Introdução 11/
Funcionalidades
da mineração de dados
Descrição
de conceitos: caracterização e discriminação
Generaliza, resume e contrasta as características dos
dados
Associação: correlação e causualidade
associação multi-dimensional versus associação unidimensional
“20..29”) ^ renda(X, “20..29K”)  compra(X,
“PC”) [suporte = 2%, confiancia = 60%]
idade(X,
12
Introdução 12/
Funcionalidades
da mineração de dados
Classificação
e previsão
Construir modelos (funções) que descrevem e
distinguem classes ou conceitos para previsões futuras
modelos: redes neurais, arvores de decisão, regras
de classificação
Previsão: prever valores numéricos ausentes ou
desconhecidos
13
Introdução 13/
Funcionalidades
da mineração de dados
Análise
de cluster
os rótulos das classes são desconhecidos
agrupar dados para formar novas classes
O agrupamento é baseado em: maximizar a
similaridade intra-classe e minimizar a similaridade
inter-classe
14
Introdução 14/
Funcionalidades
da mineração de dados
Análise
de valores aberrantes (outliers)
Outilier : um dado que diverge do comportamento
geral dos dados
Pode ser considerado ruido ou exceção
comum em detecção de fraudes e análise de
eventos raros
15
Introdução 15/
Funcionalidades
da mineração de dados
Análise
de tendência e evolução
tendência e desvio: análise de regressão
Mineração de padrões seqüenciais: análise de
periodicidade
análise baseada em similaridade
16
Introdução 16/
Interesse
Um
dos padrões descobertos
sistema de mineração de dados pode gerar centenas
de padrões
nem todos são de interesse
Um padrão é interessante,
se ele é facilmente entendido pelos humanos,
validado em dados independentes, potencialmente
útil,
novo, ou valida alguma hipótese que o usuário
17
procurava confirmar
Introdução 17/
Interesse
dos padrões descobertos
Medidas
de interesse de um padrão
objetivas: baseadas em estatísticas e estruturas dos
padrões (suporte, confiança)
subjetivas: baseadas nas crenças do usuário nos dados
(novidade inesperada)
18
Mineração de Dados: Confluencia
de Multiplas Disciplinas
Tecnologia de
Bases de Dados
Aprendizagem
de Máquina
Ciências da
Informação
Estatística
Mineração de
Dados
Visualização
Outras
Disciplinas
19
Introdução 19/
Mineração
de Dados: Classificação
Funcionalidade
geral
Mineração de dados descritiva
Mineração de dados preditiva
Outros critérios
tipo de base de dados a ser minerada
tipo de conhecimento a ser descoberto
tipo de técnica a ser utilizada
tipo de aplicações
20
Introdução 20/
Mineração
Base
de Dados: Classificação
de dados a ser minerada
relacional, transacional, orientada objeto, objetorelacional, espacial, temporal, textual, multimídia,
heterogênea, WWW
Conhecimento a ser minerado
Caracterização, descriminação, associação,
classificação, clustering, tendência e análise de desvio
Funções múltiplas e integradas e mineração a níveis
21
múltiplos
Introdução 21/
Mineração
Análise
de Dados: Aplicações potenciais
de bases de dados e suporte a decisão
análise de mercado
alvo de campanhas, análise de compras,
segmentação do mercado, gerencia de relações com
clientes, vendas cruzadas
análise de risco
fidelização de clientes, controle de qualidade,
análise de competitividade
22
detecção de fraude
Introdução 22/
Mineração
de Dados: Aplicações potenciais
Análise
de bases de dados e suporte a decisão
detecção de fraude
Outras aplicações
Mineração de texto (email, documentos) e web
analise
23
Introdução 23/
Análise
de Mercado
Fontes
de dados para análise
transações de cartão, cartões de fidelidade, cupons de
desconto, queixas de clientes, estudos de estilos de
vida
Alvo de campanhas
encontrar grupos de clientes que partilham as mesmas
características: interesse, nível de renda, hábitos de
consumo
24
Introdução 24/
Análise
de Mercado
padrões
de compras de clientes no tempo
conversão para uma conta conjunta: casamento
Análise cruzada de mercado
associações/correlações entre vendas de produtos
previsão baseada nas informações de associação
25
Introdução 25/
Análise
de Mercado
perfil
de consumidores
que tipo de consumidores compra que tipo de produto
Identificação das exigências dos consumidores
identificação dos melhores produtos para diferentes
tipos de clientes
encontrar que fatores atrairão novos clientes
26
Introdução 26/
Análise
de Mercado
sumários
relatários
muti-dimensionais
sumários estatísticos (medidas de tendência central e
de dispersão)
27
Introdução 27/
Análise
de Risco
Plano
financeiro e avaliação de recursos
análise de fluxo de caixa
Planificação de receitas
sumário e comparação de receitas e despesas
Competição
agrupar clientes em classes e oferecer preços baseados
em classes
28
Introdução 28/
Detecção
de fraudes
aplicações
planos
de saúde, varejo, cartões de crédito, fraude em
cartões telefônicos
Abordagem
uso de dados históricos para construir modelos de
comportamento fraudulento e uso de mineração de
dados para ajudar a identificar instancias similares
29
Introdução 29/
Detecção
de fraudes
Exemplos
seguro
de carros
transações monetárias fraudulentas
seguro de saúde
detecção de tratamento médico inapropriado
detecção de fraude telefônica
varejo
30
Introdução 30/
Tendências
em Mineração
metodologia
de mineração e iteração com o usuário
desempenho e escalabilidade
diversidade de tipos de dados
aplicações e impactos sociais
31
Download

IntroducaoKDD