The
CRISPDM
Process
Model
Rodrigo Cunha
O que é CRISP-DM?
• Metodologia padrão não proprietária que
identifica as diferentes fases na implantação de
um projeto de data mining (DMP).
Metodologias em Data Mining
CRISP-DM
http://www.crisp-dm.org/
Fonte: http://www.kdnuggets.com/polls/
CRoss Industry Standard
Process for Data Mining
Source: http://www.crisp-dm.org/
Níveis do CRISP-DM
Phases
CRISP
Process Model
Generic Tasks
Mapping
Specialized
Tasks
Process
Instances
CRISP
Process
Fluxo do Processo: CRISP-DM
Business
understanding
Data
understanding
Data
preparation
Data
Deployment
Modelling
Evaluation
Processo de Descoberta do
Conhecimento [Fayyad 96]
Interpretation/
Evaluation
Data Mining
Transformation
Preprocessing
Selection
Data
Sources
Target
Data
Patterns /
Models
Transformed
Data
Preprocessed
Data
Knowledge
CRISP-DM X KDD
6. Evaluation
7. Deployment
Interpretation/
Evaluation
5. Modeling
Data Mining
Knowledge
4.3 Construct Data
Transformation
Patterns /
Models
4.2 Clean Data
Preprocessing
Transformed
Data
4.1 Select Data
Selection
Preprocessed
Data
3. Data
Understanding
Data
Sources
2. Business
Understanding
Target
Data
Exemplo: Projeto
Mineração de Dados
Utilizando CRISP-DM
Objetivo do Projeto
 Descrever todo o processo de desenvolvimento da solução
do projeto: Mineração de dados para a diagnóstico de falhas.
 Apresentar a metodologia de desenvolvimento de soluções
padrão em mineração de dados chamada CRISP-DM
Sistema de Telecomunicações da Chesf
SDH-Alcatel
Fase 1 no projeto de DM
Business Understanding:
– Definição dos objetivos do negócio
• Detectar as falhas do sistema, a partir do histórico das
ocorrências e da condição dos alarmes de sinalização de
problemas nos sistemas.
• Extrair conhecimento dos dados através de regras para
o melhor entendimento das circunstâncias que resultam
em falhas.
– Descrever os critérios de resultados para que o projeto
seja considerado um sucesso, assim como a forma de
medir.
• Auxílio para a definição de políticas de manutenção
• Uniformidade no padrão de qualidade do serviço (livre de
fadiga, stress, desgaste emocional)
• Redução do tempo de resposta às consultas
Fase 1 no projeto de DM (cont)
Business Understanding:
– Avaliar situação atual do cliente.
• Recursos Disponíveis
– Dados em um data warehouse (ORACLE)
• Suposições e Restrições
– Alarme Crítico = Falha
– SDH – Alcatel
Fase 1 no projeto de DM (cont)
Business Understanding:
– Determinar os riscos
• Demanda do especialista do domínio
• Qualidade dos dados
• Recebimento dos dados
Fase 1 no projeto de DM (cont)
Business Understanding:
– Determinar tarefas de mineração de dados
• Classificação de padrões
• Regras de classificação
Fase 1 no projeto de DM (cont)
Business Understanding:
– Fazer Plano do Projeto
• Etapa 1:
– Levantamento da situação atual do problema de falhas
• Etapa 2:
– Análise preliminar dos dados sobre as ocorrências de
falhas de equipamentos
• Etapa 3:
– Preparação dos dados
– Modelagem dos dados
– Extração de Regras do conhecimento adquirido
• Etapa 4:
– Interação com especialista do domínio
– Homologação dos resultados
• Etapa 5:
– Implantação do protótipo
Fluxo do Processo: CRISP-DM
Business
understanding
Data
understanding
Data
preparation
Data
Deployment
Modelling
Evaluation
Fase 2 no projeto de DM
Data Understanding
– Coletar dados iniciais
• Dados referentes aos alarmes na rede de
telecomunicações SDH - Alcatel foram
disponibilizados em arquivos textos mensais
nos 14 meses de dez/2001 a jan/2003.
• Junção dos dados em uma única tabela.
(ACCESS).
• Apenas 1 ano fev2002 a jan2003
Fase 2 no projeto de DM
Data Understanding
– Descrever os dados
• 491.127 alarmes
• 75934 (15,46%) são alarmes críticos (falhas).
Campo
NOME DO
CAMPO
1
EQUIPAMENTO
2
ALARME
3
MODULO
4
LOCAL
5
NOME LOCAL
6
GERENCIA
7
SEVERIDA
8
DATAALARME
9
DATANORM
10
ROTA
Fase 2 no projeto de DM
Data Understanding
Descrever os dados
Tipo de alarmes
Freqüência
Percentual
CRITICAL
75934
15,5 %
MAJOR
234780
47,8 %
MINOR
147797
30,1 %
WARNING
32616
6,6 %
Fase 2 no projeto de DM
Data Understanding
Verificar qualidade dos dados
– Boa qualidade dos dados
– 0% de missings
– 0% de outliers
Fluxo do Processo: CRISP-DM
Business
understanding
Data
understanding
Data
preparation
Data
Deployment
Modelling
Evaluation
Fase 3 no projeto de DM
• Data Preparation:
– Preparar os dados para importação no software
de DM.
– Derivar campos calculados (se necessário)
– Integrar bases de dados externas (IBGE,
Correios, etc.)
– Limpeza dos dados: outliers e missings.
– Codificar campos em: irrelevante, categórico e
numérico.
Fase 3 no projeto de DM
• Data preparation:
– Campos Calculados:
• QTD WARNING => Quantidade de alarmes
warnings desde o último alarme crítico.
• QTD MAJOR => Quantidade de alarmes
major desde o último alarme crítico
• QTD MINOR => Quantidade de alarmes
minor desde o último alarme crítico
Fase 3 no projeto de DM
• Data preparation:
– Pré-Processamento:
– 5 (cinco) atributos relevantes
– 3 natureza numérica
• Normalização [0...1]
– 2 natureza categórica
• Transformação 1 de n
– Variável de saída
• ‘WARNING’ para ‘Não-FALHA’
• ‘MINOR’ para ‘Não-FALHA’
• ‘MAJOR’ para ‘Não-FALHA’
• ‘CRITICO’ para ‘FALHA’
Fluxo do Processo: CRISP-DM
Business
understanding
Data
understanding
Data
preparation
Data
Deployment
Modelling
Evaluation
Fase 4 no projeto de DM
• Modeling:
– Selecionar as técnicas de modelagem
• Redes Neurais
• Regras de Classificação
– Catalogar parâmetros utilizados
– 50% para treinamento,
– 25% para validação
– 25% para teste
– Retornar ao Data Preparation
– Software: Tanagra
Tanagra O que é?
• Autor: Ricco RAKOTOMALALA
• Universidade de Lyon - FRANCE
• Tanagra é uma ferramenta free para mineração de
dados
• open source project
• DELPHI (versão 6.0)
Tanagra
Vantagens
• Ferramenta gráfica
• Modular (Componentes)
• Alta produtividade
• Código Aberto
• Integra algoritmos de terceiros
• Muito Eficiente!
Desvantagens
• Help deficiente
• Muitos BUGS
• Pré-Processamento e Preparação dos
Dados
Fase 4 no projeto de DM
Modeling:
Regras de Classificação:
Rede Neural:
Arquitetura
Algoritmo:
Camadas Escondidas:
Neurônios
Escondidos:
MLP
Backpropagation
1
2, 4, 8 e 20
Taxa de Aprendizado:
0,1, 0,01 e 0,001
Número de iterações:
100, 1000 e
10000
Problema:
Número de Entradas:
Número de Saídas
Diagnóstico de
Falhas
16
2
Padrões de
Treinamento
50%
Padrões de Validação
25%
Padrões de Teste
25%
• Regras com abrangência
maior que 5%
Fluxo do Processo: CRISP-DM
Business
understanding
Data
understanding
Data
preparation
Data
Deployment
Modelling
Evaluation
Fase 5 no projeto de DM
Evaluation – Rede Neural:
Falha
Clas.Falha
Clas.Alarme
Total
Alarme Total
18011
3563
21574
972
100235
101207
18983 103798
122781
Erro I = 3.4% (Classificar como falha quando na
verdade é apenas alarme).
Erro II = 5.1% (Classificar como alarme quando na
verdade é uma falha).
Erro Geral = 3.7% (classificação errônea)
Fase 5 no projeto de DM
Evaluation - Regras de Classificação:
Regras que caracterizam situações de falhas:
• SE LOCAL = "XINGO MARGEM ESQUERD"
ENTÃO
FALHA EM 41.45%, REPRESENTANDO
6.9% DA MASSA.
• SE LOCAL = "ANGELIM (REPETIDORA)"
ENTÃO
FALHA EM 38.35%, REPRESENTANDO
8.2% DA MASSA.
• SE QTDWARNI = "DE 0 ATÉ 1"
ENTÃO
FALHA EM 23.30%, REPRESENTANDO
12% DA MASSA.
Fase 5 no projeto de DM
Evaluation - Regras de Classificação:
Regras que caracterizam situações de alarmes:
• SE LOCAL = "RECIFE - COS"
ENTÃO
FALHA EM 00.95%, REPRESENTANDO
25.54% DA MASSA.
• SE LOCAL = "USINA DE SOBRADINHO"
ENTÃO
FALHA EM 01.58%, REPRESENTANDO
11.69% DA MASSA.
• SE QTDMINOR = "DE 1 ATÉ 2"
ENTÃO
FALHA EM 01.63%, REPRESENTANDO
15.60% DA MASSA.
Fluxo do Processo: CRISP-DM
Business
understanding
Data
understanding
Data
preparation
Data
Deployment
Modelling
Evaluation
Fase 6 no projeto de DM
Deployment
• Entrega do produto do projeto de mineração de dados.
– Software em produção (on-line)
– Software analítico (off-line)
– Relatório com um resumo das etapas do
processo CRISP-DM.
– Treinamento e Apresentação para o Usuário
Resumo das Ferramentas
Utilizadas
Nome
Função
Fabricante
Fase
Excel
Planilha
Microsoft
Avaliação de
desempenho
ORACLE
DISCOVERY
Data Warehouse
ORACLE
Entendendo os
dados
Access
Banco de Dados
Microsoft
Entendendo os
dados
Word
Editor de texto
Microsoft
Entendendo o
negócio
Oxedit
Manipulação de grandes
arquivos texto.
OX
Entendendo os
dados
TANAGRA
Mineração de Dados
Universidade
de Lyon
Modelagem
SPSS
Manipulação de dados
SPSS
Preparação dos
dados
Conclusões
• Necessidade de uma ferramenta de mineração
de dados completa.
• Apresentação metodologia CRISP-DM em um
problema prático de mineração de dados.
– Formalização
– Replicação
• Bom poder de classificação da rede neural
(poderia ser colocado em produção)
• Regras extraem conhecimento para tomada de
decisão do especialista (off-line)
Trabalhos Futuros
• Utilização de outros algoritmos de aprendizagem
– KNN
– Regressão Logística
– Análise Discriminante
• Apresentação dos artefatos gerados em cada
uma das fases do CRISP-DM.
Referência Bibliográfica
• Han, J., Kamber M. (2001) Data Mining: Concepts
and techniques. Morgan Kaufman Publishers, San
Francisco, CA.
• Witten, I., Frank, E. (2000) Data Mining: Pratical
Machine Learning Tools and Techniques with Java
Implementations. San Diego, California: Academic
Press.
• FAYYAD, U. M.; PIATETSKY-SHAPIRO, G.;
SMYTH, P. From data mining to knowledge
discovery: An overview : in Fayyad, PiatetskyShapiro, Smyth and Uthurusamy, 1996.
Referência Bibliográfica
• Página do Tanagra - http://eric.univlyon2.fr/~ricco/tanagra/en/tanagra.html
• Página do CRISP-DM – www.crisp-dm.org
• REINARTZ, T.; WIRTH, R.; CLINTON, J.;
KHABAZA, T.; HEJLESEN, J.; CHAPMAN, P.;
KERBER, R. The current CRISP-DM process
model for data mining. Berlin: Technical
University., 1998.
Perguntas?
Download

AulaCRISP-DM