Mineração de dados Exercícios sobre classificação O que deveria ser feito, na fase de preparação de dados, para aplicar o método ID3 para classificação com os dados abaixo? cor altura forma local Classe preto 32,5 largo Rua Canindé, 123 A marrom 22,3 Rua Borges, 456/304 C marrom 15,7 estreito Rua Chaves, 132 B amarelo 31,4 estreito Rua Napoleão, 45/101 C … … … … … O que deveria ser feito, na fase de preparação de dados, para aplicar o método k-NN para classificação com os dados abaixo? cor altura comprimento tipo peso Classe preto 3,25 1057,00 1 50,34 A marrom 2,23 2343,00 2 45,89 C marrom 1,57 1956,50 2 23,55 B amarelo 3,14 3490,00 3 42,50 C … … … … … O que deveria ser feito, na fase de preparação de dados, considerando uma rede neural backpropagation para classificação usando os dados abaixo? cor altura comprimento tipo peso Classe preto 3,25 1057,00 1 50,34 A marrom 2,23 2343,00 2 45,89 B marrom 1,57 1956,50 2 23,55 B amarelo 3,14 3490,00 3 42,50 A … … … … … O que deveria ser feito, na fase de preparação de dados, considerando o uso do algoritmo naïve bayes e os dados abaixo? cor altura comprimento tipo peso Classe preto 3,25 1057,00 1 50,34 A marrom 2,23 2343,00 2 45,89 B marrom 1,57 1956,50 2 23,55 B amarelo 3,14 3490,00 3 42,50 A … … … … … Considere o seguinte conjunto de treino, em que cada exemplo é definido por três atributos (A,B,C) e a classe X. Sabendo que: – Entropia (S) = - (p+ log2 p+ + p- log2 p-) – Ganho (S, A) = Entropia (S) - ((|Sv| / |S|) * Entropia (Sv)), onde Sv = subconjunto de S para um valor do atributo At |Sv| = número de elementos de Sv |S| = número de elementos de S a) Qual a incerteza (entropia) associada ao conjunto de treino inicial? b) Qual o Ganho de Informação para cada um dos atributos? (log2 1=0, log2 0,5=-1, log2 0,25=-2 , log2 0,75=-0,415, log2 0,333=-1,585, log2 0,667=-0,585) c) Face a este resultado, qual seria a árvore de decisão obtida para este conjunto de treino, construída de acordo com o critério de maximização do ganho de informação? Dada a árvore de decisão abaixo, que regras seriam geradas pelo algoritmo C4.5? Considerando os dados de treino abaixo e o algoritmo C4.5, quais seriam os intervalos de decisão considerados para o atributo Peso? Peso Idade Sexo Classe Peso Classe 70 jovem Masc 2 35 1 80 adulto Masc 2 50 1 60 adulto Fem 1 60 1 75 jovem Masc 2 70 2 35 criança Fem 1 85 adulto Masc 2 75 2 50 criança Masc 1 80 2 85 2 Peso <= 65 e peso > 65 Qual a árvore de decisão gerada? Determine a classificação obtida para o exemplo C11 (Z1=C, Z2=1, Z3=1) utilizando o algoritmo naive Bayes, considerando os dados de treino abaixo e sabendo que P(H|E)= P( E1 |H ).P( E2 | H)... .P(En | H).P(H ) P( E1 ).P( E2)... .P(En) Determine a classificação obtida para o exemplo C11 (Z1=C, Z2=1, Z3=1) utilizando o algoritmo k-NN, considerando os dados abaixo e k=1. Determine a classificação obtida para o exemplo C11 (Z1=C, Z2=1, Z3=1) utilizando o algoritmo k-NN, considerando os dados abaixo, k=3, e a seguinte tabela de distâncias para o atributo Z1: A B C A 0 B 1 0 C 2 0,5 0 lágrimas astigma- pressão prescrição LENTES tismo normal sim normal hipermetr. NÃO normal não normal miopia GELAT. normal sim normal miopia DURA reduzida sim alta miopia NÃO reduzida não normal hipermetr. NÃO normal não alta hipermetr. NÃO normal não alta miopia GELAT. normal sim normal miopia DURA normal sim alta hipermetr. NÃO normal sim alta miopia GELAT. normal sim normal miopia. DURA lágrimas reduzida normal 1 astigmat. sim não 2 prescrição miopia 4 hipermetr. 3 1. Complete a árvore de decisão colocando no lugar dos números das folhas, a classe, de forma a minimizar os erros de classificação. 2. Faça a matriz de confusão correspondente.