Data Mining como
ferramenta de
Gestão
SIE
INFORMAÇÃO
OPORTUNA
G
I
S
TI
O
I
S
Base de Dados ÚNICA
Funções Empresariais
Denis Rezende
EIS
SAD
ERP
DW
IA
SE
DM
ST
AE
AQUISIÇÃO
DE
CONHECIMENTO
DATA
MINING
SISTEMAS
ESPECIALISTAS
SISTEMAS INTELIGENTES PARA APOIO
NA TOMADA DE DECISÕES PODEM USAR:
ALGORITMOS
GENÉTICOS
REDES
NEURAIS
LÓGICA
FUZZY
RBC
Monard (1997)
Não-planejado
Planejado
Resposta
SI
Tradicionais
Antecipado
Não-antecipado
Estímulo
INTERPRETAÇÃO/
AVALIAÇÃO
DATA
MINING
CONHECIMENTO
?
PADRÕES
TRANSFORMAÇÃO
PRÉ-PROCESSAMENTO
DADO
PROCESSADO
SELEÇÃO
DADO
ANALISADO
DADOS
DADO
TRANSFORMADO
FAYYAD 1996
Tarefas de Data Mining
• Classificação
• Descoberta de Regras de Associação
• Clustering
Classificação
Sexo
M
M
F
F
F
M
M
F
F
M
País
França
Inglaterra
Franca
Inglaterra
França
Alemanha
Alemanha
Alemanha
França
França
Idade
25
21
23
34
30
21
20
18
34
55
Comprar
sim
sim
sim
sim
não
não
não
não
não
não
Classificação
•
•
•
•
SE (país = “Alemanha”) ENTÃO (comprar=“não”)
Se (país = “Inglaterra”) ENTÃO (comprar = “sim”)
SE (país = “França” E idade  25) ENTÃO (comprar = “sim”)
SE (país = “França” E idade > 25) ENTÃO (comprar = “não”)
Classificação
A2
+
+
+
+
+
- + + - - - + +
- - - - + + - - A1
(Freitas 200)
Descoberta de Regras de Associação
Cada registro corresponde a uma transação de um cliente,
com itens assumindo valores binários (sim/não), indicando
se o cliente comprou ou não o respectivo item.
num
1
2
3
4
5
6
7
8
9
10
leite
não
sim
não
sim
não
não
não
não
não
não
café
sim
não
sim
sim
não
não
não
não
não
não
(FREITAS & LAVINGTON 98)
cerveja
não
sim
não
não
sim
não
não
não
não
não
pão
sim
sim
sim
sim
não
não
sim
não
não
não
manteiga
sim
sim
sim
sim
não
sim
não
não
não
não
arroz
não
não
não
não
não
não
não
não
sim
sim
feijão
não
não
não
não
não
não
não
sim
sim
não
Descoberta de Regras de Associação
Uma regra de associação é um relacionamento do tipo:
SE (x) ENTÃO (y)
onde x e y são conjuntos de itens X  Y = 
A cada regra são atribuídos dois fatores:
Suporte
Confiança
Tarefa é descobrir todas a regras de associação com suporte
ao suporte mínimo e confiança  confiança mínima
(Freitas 200)
Descoberta de Regras de Associação
•
•
•
•
•
•
•
SE (café) ENTÃO (pão)
SE (café) ENTÃO (manteiga)
SE (pão) ENTÃO (manteiga)
SE (manteiga) ENTÃO (pão)
SE (café E pão) ENTÃO (manteiga)
SE (café E manteiga) ENTÃO (manteiga)
SE (café) ENTÃO (manteiga E manteiga)
sup=0.3 conf.=1
sup=0.3 conf.=1
sup=0.4 conf.=0.8
sup=0.4 conf.=0.8
sup=0.3 conf.=1
sup=0.3 conf.=1
sup=0.3 conf.=1
(Freitas 200)
Análise de Cluster
Esta técnica agrupa informações homogêneas de grupos
heterogêneos entre os demais e aponta o item que melhor
representa cada grupo, permitindo, desta forma, que
consigamos perceber a característica de cada grupo.
GTI (2002) - Deborah R. Carvalho
Estudo de Caso
• A base de dados 44.361 alunos.
• Primeira fase - cursos de Computação, restringiu-se
a base para 1557 alunos: 459 - PD - 398 - EC, 504 CC e 196 - BSI.
Estudo de Caso
Curso
Tec. Proc. Dados
Eng. Comput.
Ciencia Computação
Bachar. Sistem. Inform.
Feminino
Qtde
%
136
29,63
36
9,05
73
14,48
35
17,86
Masculino
Qtde
%
323
70,37
362
90,95
431
85,52
161
82,14
Estudo de Caso
200
180
160
140
120
100
80
60
40
20
52
47
45
43
41
39
37
35
33
31
29
27
25
23
21
19
17
0
Reprovado
por Nota e
Frequencia
Reprovado
por Nota
Reprovado
por
Frequencia
Reprovado
Nao-Cursou
Aprovado
Estudo de Caso
120,00
100,00
1997
80,00
1998
60,00
1999
2000
40,00
2001
20,00
2002
0,00
Estudo de Caso
GEOMETRIA ANALITICA
ESTRUTURA DE DADOS E GRAFOS
PROJETO DE GRADUACAO
CALCULO DIFERENCIAL E INTEGRAL II
PROGRAMACAO DE COMPUTADORES I
METODOS NUMERICOS
ENGENHARIA DE SOFTWARE I
LOGICA MATEMATICA
CIRCUITOS DIGITAIS
MATERIAIS ELETRICOS
ELETRICIDADE BASICA
20,00
20,91
21,11
22,77
22,94
23,38
24,14
26,92
27,93
28,57
59,09
Estudo de Caso
100
90
80
70
60
Feminino
50
40
Masculino
30
20
10
0
Aprovado
Não-Cursou
Reprovado
por
Freqüência
Reprovado
por Nota
Reprovado
por Nota e
Freqüência
Estudo de Caso
Curso
CC
EC
BSI
PD
Aprovado
54,04
74,17
74,98
82,66
Não-Cursou
17,88
6,66
0,36
4,17
Reprovado por
Reprovado por Reprovado por Nota e
Freqüência
Nota
Freqüência
0,16
11,47
16,46
0,26
8,68
10,23
0,64
10,51
13,51
0,15
6,27
6,75
Estudo de Caso - 4 cursos
•
•
•
•
•
•
•
•
MATEMATICA (A)
<- ARQUIT. COMPUT. RNF (10.7%, 41.3%)
INTROD. LOGICA (A)
<- ARQUIT. COMPUT. (RNF) (10.7%, 43.1%)
CIDADANIA (A)
<- ARQUIT. COMPUT. (RNF) (10.7%, 45.0%)
LINGUAGEM E TEC. PROG. (A)
<- ARQUIT. COMPUT. (RNF) (10.7%,
48.6%)
SISTEMASDECOMPUTACAO (A) <- ARQUIT. COMPUT. (RNF) (10.7%,
48.6%)
INGLES (A)
<- ARQUIT. COMPUT. (RNF) (10.7%, 50.5%)
ALGEBRA BOOLEANA E CIRC LOG (A) <- ARQUIT. COMPUT. (RNF)
(10.7%, 44.0%)
DINAMICA GRUPO E REL. HUM. (A)
<- ARQUIT. COMPUT. (RNF)
(10.7%, 68.8%)
Estudo de Caso - BSI
• INT. COMP. (A)
<- ENG. SW
(RNF)FUND.MAT.(A) (10.5%, 94.7%)
• FUND.MAT.(A)
<- ENG. SW (RNF) INT. COMP.
(A) (11.0%, 90.0%)
• DIN. GRUPO E REL. HUM. A
<- ENG. SW (RNF)
FUND.MAT.(A) (10.5%, 94.7%)
• INT. COMP. (A)
<- ENG. SW (RNF) HAB. ACAD.
(A) (10.5%, 94.7%)
• HAB. ACAD. (A)
<- ENG. SW (RNF) INT. COMP.
(A) (11.0%, 90.0%)
• DIN. GRUPO E REL. HUM. (A)<- ENG. SW (RNF) HAB. ACAD.
(A) (10.5%, 94.7%)
• DIN. GRUPO E REL. HUM. (A) <- ENG. SW (RNF) INT. COMP.
(A) (11.0%, 95.0%)
• DIN. GRUPO E REL. HUM. (A) <- ENG. SW (RNF) LING.
PROG. (A) (10.5%, 94.7%)
Estudo de Caso - CC
• INT. COMP. (A)
(11.4%, 55.0%)
• HAB. ACAD. (A)
(RN) (12.0%, 57.1%)
• PROG. COMP. (RNF)
PROG.(RNF) (15.7%, 67.3%)
• LOG. PROG. (RNF)
(RNF) (16.2%, 64.9%)
• PROG. COMP. (RNF)
(16.0%, 58.9%)
• INT. COMP. (RNF)
(RNF) (16.2%, 57.9%)
• CALC. DIF. INTEG I (RNF)
(16.0%, 55.4%)
• INT. COMP. (RNF)
PROG. COMP. (RNF) (10.5%, 73.0%)
<- LOG. PROG. (RN)
<- PROG. COMP.
<- LOG.
<- PROG. COMP.
<- INT. COMP. (RNF)
<- PROG. COMP.
<- INT. COMP. (RNF)
<- LOG. PROG.(RNF)
Estudo de Caso - EC
• CALC. DIF. INTEG A (RN)
(10.0%, 53.8%)
• DESENHO TEC. (A)
(10.0%, 65.4%)
• ALGEBRA LINEAR (RNF)
(10.4%, 66.7%)
• GEOM. ANAL. (RNF)
(RNF) (12.7%, 54.5%)
• DESENHO TEC. (A)
(RN) (15.4%, 60.0%)
<- GEOM. ANAL. (RN)
<- GEOM. ANAL. (RN)
<- GEOM. ANAL. (RNF)
<- ALGEBRA LINEAR
<- CALC. DIF. INTEG A
Estudo de Caso - PD
• SIST. COMP. (A)<- ARQUIT. COMPUT. (RNF) MATEMATICA (A)
ALGEBRA BOOLEANA E CIRCUITOS LOGICOS (A)
(10.8%, 100.0%)
• INGLES (A) <- ARQUIT. COMPUT. (RNF) INTRODUCAO
LOGICA (A) ALGEBRA BOOLEANA E CIRCUITOS LOGICOS
(A)
DIN.
GRUPO
E
REL.
HUM.
(A)
(11.1%, 100.0%)
• DIN. GRUPO E REL. HUM. (A) <- ESTRUTURA DADOS (RN)
ALGEBRA BOOLEANA E CIRCUITOS LOGICOS (A)
(12.2%, 100.0%)
• INGLES (A) <- ESTRUTURA DADOS (RN) SISTEMAS DE
COMPUTACAO (A) (11.9%, 100.0%)
• DIN. GRUPO E REL. HUM. (A) <- ESTRUTURA DADOS (RN)
SISTEMAS COMPUTACAO (A) (11.9%, 100.0%)
Conclusões:
A Importância dos Dados
• Requisito básico para a realização dos experimentos;
• “Boa” quantidade de dados é uma necessidade. A
qualidade da solução indicada é fortemente
dependente da qualidade dos dados;
• Data mining não pode ser considerado uma alquimia;
não é possível tranformar pedra em ouro.
That’s all folks!
[email protected]
Download

Slides