Aula Pratica Aprendizagem WEKA Prof. Ivan Gesteira Costa Filho Centro de Informática Universidade Federal de Pernambuco Weka Coleção de Métodos de Aprendizagem de Maquina Implementado em Java Open Source http://www.cs.waikato.ac.nz/ml/weka/ Livro Ian H. Witten, Eibe Frank, Data Mining: Practical Machine Learning Tools and Techniques (Second Edition), Morgan Kaufmann Weka Funcionalidade Escolha de Atributos e Filtros Classificação Arvores de Decisão, Bayesiano Ingênuo, Perceptron, SVM, e muito mais … Agrupamento Seleção de Atributos Visualização Weka Baixar o programa de www.cin.ufpe.br/~igcf/si/ Instalar em c:\temp e rodar ... Abrir arquivo no problema de Jogar Tênis <instalacao weka>/data/weather.arff Weka Formato de entrada (arff) @relation weather @attribute outlook {sunny, overcast, rainy} @attribute temperature real @attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no} @data sunny,85,85,FALSE,no sunny,80,90,TRUE,no overcast,83,86,FALSE,yes Atributos Instancias Weka Rodar Weka … Weka Design Experimental Como avaliar métodos de classificação? Erro no conjunto de treinamento não é valido Pode ser apenas sinal de overfitting Separar Exemplos para validação e teste Validação – escolha de parâmetros Teste – avaliação dos resultados Validação Cruzada – k-fold Treino Teste k=3 X • Quando k = no dados leave-one-out Média Erro e desvio-padrão de desempenho Matriz de confusão Oferece uma medida da efetividade do modelo de classificação Mostra o número de classificações reais contra as classificações preditas, em cada classe Os resultados são sumarizados em uma matriz de duas dimensões Classes verdadeiras x Classes preditas Matriz de confusão M (C i ,C j ) x , h x C j yT y C : i Matriz de confusão Número de predições corretas: diagonal da matriz Outros elementos correspondem números de erros Matriz de confusão Por simplicidade, sejam duas classes: + e - n = TP + TN + FP + FN Matriz de confusão Várias medidas de desempenho podem ser obtidas da matriz de confusão: TP TN Taxa de acerto Ac n TP Sen Sensibilidade ou revocação (recall) TP FN TN Esp Especificidade (precision) FP TN F-measure Novos dados Abrir dados soybean Classificação de Doenças de Soja A partir de sintomas das soja 19 classes e 683 instancias Conjunto de dados Problema: Classificação de câncer a partir do perfil de expressão dos pacientes http://www.cin.ufpe.br/~igcf/weka_format/ golub-1999-v1.arff Conjunto de dados já foi pré-processado para extrair genes mais informativos Originalmente mais de 10.000 Genes