Mineração de dados
Exercícios sobre
classificação

O que deveria ser feito, na fase de preparação
de dados, para aplicar o método ID3 para
classificação com os dados abaixo?
cor
altura
forma
local
Classe
preto
32,5
largo
Rua Canindé, 123
A
marrom
22,3
Rua Borges, 456/304
C
marrom
15,7
estreito
Rua Chaves, 132
B
amarelo
31,4
estreito
Rua Napoleão, 45/101
C
…
…
…
…
…

O que deveria ser feito, na fase de preparação
de dados, para aplicar o método k-NN para
classificação com os dados abaixo?
cor
altura
comprimento
tipo
peso
Classe
preto
3,25
1057,00
1
50,34
A
marrom
2,23
2343,00
2
45,89
C
marrom
1,57
1956,50
2
23,55
B
amarelo
3,14
3490,00
3
42,50
C
…
…
…
…
…

O que deveria ser feito, na fase de preparação
de dados, considerando uma rede neural
backpropagation para classificação usando os
dados abaixo?
cor
altura
comprimento
tipo
peso
Classe
preto
3,25
1057,00
1
50,34
A
marrom
2,23
2343,00
2
45,89
B
marrom
1,57
1956,50
2
23,55
B
amarelo
3,14
3490,00
3
42,50
A
…
…
…
…
…

O que deveria ser feito, na fase de preparação
de dados, considerando o uso do algoritmo naïve
bayes e os dados abaixo?
cor
altura
comprimento
tipo
peso
Classe
preto
3,25
1057,00
1
50,34
A
marrom
2,23
2343,00
2
45,89
B
marrom
1,57
1956,50
2
23,55
B
amarelo
3,14
3490,00
3
42,50
A
…
…
…
…
…
Considere o seguinte conjunto de treino, em que cada exemplo é definido por
três atributos (A,B,C) e
a classe X.
Sabendo que:
– Entropia (S) = - (p+ log2 p+ + p- log2 p-)
– Ganho (S, A) = Entropia (S) -  ((|Sv| / |S|) * Entropia (Sv)),
onde
Sv = subconjunto de S para um valor do atributo At
|Sv| = número de elementos de Sv
|S| = número de elementos de S
a) Qual a incerteza (entropia) associada ao conjunto de treino inicial?
b) Qual o Ganho de Informação para cada um dos atributos?
(log2 1=0, log2 0,5=-1, log2 0,25=-2 , log2 0,75=-0,415, log2 0,333=-1,585,
log2 0,667=-0,585)
c) Face a este resultado, qual seria a árvore de decisão obtida para este
conjunto de treino, construída de acordo com o critério de maximização do
ganho de informação?
Dada a árvore de decisão abaixo, que regras seriam geradas pelo algoritmo
C4.5?
Considerando os dados de treino abaixo e o algoritmo C4.5, quais
seriam os intervalos de decisão considerados para o atributo Peso?
Peso Idade
Sexo
Classe
Peso Classe
70
jovem
Masc
2
35
1
80
adulto
Masc
2
50
1
60
adulto
Fem
1
60
1
75
jovem
Masc
2
70
2
35
criança
Fem
1
85
adulto
Masc
2
75
2
50
criança
Masc
1
80
2
85
2
Peso <= 65 e peso > 65
Qual a árvore de decisão gerada?
Determine a classificação obtida para o exemplo C11 (Z1=C, Z2=1, Z3=1)
utilizando o algoritmo naive Bayes, considerando os dados de treino
abaixo e sabendo que
P(H|E)=
P( E1 |H ).P( E2 | H)... .P(En | H).P(H )
P( E1 ).P( E2)... .P(En)
Determine a classificação obtida para o exemplo C11 (Z1=C, Z2=1,
Z3=1) utilizando o algoritmo k-NN, considerando os dados abaixo e
k=1.
Determine a classificação obtida para o exemplo C11 (Z1=C, Z2=1,
Z3=1) utilizando o algoritmo k-NN, considerando os dados abaixo,
k=3, e a seguinte tabela de distâncias para o atributo Z1:
A
B
C
A 0
B 1
0
C 2
0,5
0
lágrimas astigma- pressão prescrição LENTES
tismo
normal
sim
normal
hipermetr.
NÃO
normal
não
normal
miopia
GELAT.
normal
sim
normal
miopia
DURA
reduzida
sim
alta
miopia
NÃO
reduzida
não
normal
hipermetr.
NÃO
normal
não
alta
hipermetr.
NÃO
normal
não
alta
miopia
GELAT.
normal
sim
normal
miopia
DURA
normal
sim
alta
hipermetr.
NÃO
normal
sim
alta
miopia
GELAT.
normal
sim
normal
miopia.
DURA
lágrimas
reduzida
normal
1
astigmat.
sim
não
2
prescrição
miopia
4
hipermetr.
3
1. Complete a árvore de decisão colocando no lugar dos números das folhas, a
classe, de forma a minimizar os erros de classificação.
2. Faça a matriz de confusão correspondente.