Aula Pratica
Aprendizagem WEKA
Prof. Ivan Gesteira Costa Filho
Centro de Informática
Universidade Federal de Pernambuco
Weka
Coleção de Métodos de Aprendizagem de Maquina
Implementado em Java
Open Source
http://www.cs.waikato.ac.nz/ml/weka/
Livro
Ian H. Witten, Eibe Frank, Data Mining: Practical Machine
Learning Tools and Techniques (Second Edition),
Morgan Kaufmann
Weka
Funcionalidade
Escolha de Atributos e Filtros
Classificação
Arvores de Decisão, Bayesiano Ingênuo, Perceptron,
SVM, e muito mais …
Agrupamento
Seleção de Atributos
Visualização
Weka
Baixar o programa de
www.cin.ufpe.br/~igcf/si/
Instalar em c:\temp e rodar ...
Abrir arquivo no problema de Jogar Tênis
<instalacao weka>/data/weather.arff
Weka
Formato de entrada (arff)
@relation weather
@attribute outlook {sunny, overcast, rainy}
@attribute temperature real
@attribute humidity real
@attribute windy {TRUE, FALSE}
@attribute play {yes, no}
@data
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes
Atributos
Instancias
Weka
Rodar Weka …
Weka Design Experimental
Como avaliar métodos de classificação?
Erro no conjunto de treinamento não é valido
Pode ser apenas sinal de overfitting
Separar Exemplos para validação e teste
Validação – escolha de parâmetros
Teste – avaliação dos resultados
Validação Cruzada – k-fold
Treino
Teste
k=3
X
• Quando k = no dados leave-one-out
Média Erro e
desvio-padrão
de desempenho
Matriz de confusão
Oferece uma medida da efetividade do
modelo de classificação
Mostra o número de classificações reais contra
as classificações preditas, em cada classe
Os resultados são sumarizados em uma matriz
de duas dimensões
Classes verdadeiras x Classes preditas
Matriz de confusão
M (C i ,C j )
x ,
h x C j
yT y C
:
i
Matriz de confusão
Número de predições corretas: diagonal da
matriz
Outros elementos correspondem números de
erros
Matriz de confusão
Por simplicidade, sejam duas classes: + e -
n = TP + TN + FP + FN
Matriz de confusão
Várias medidas de desempenho podem ser obtidas da
matriz de confusão:
TP TN
Taxa de acerto
Ac
n
TP
Sen
Sensibilidade ou revocação (recall)
TP FN
TN
Esp
Especificidade (precision)
FP TN
F-measure
Novos dados
Abrir dados soybean
Classificação de Doenças de Soja
A partir de sintomas das soja
19 classes e 683 instancias
Conjunto de dados
Problema:
Classificação de câncer a partir do perfil de
expressão dos pacientes
http://www.cin.ufpe.br/~igcf/weka_format/
golub-1999-v1.arff
Conjunto de dados já foi pré-processado para extrair
genes mais informativos
Originalmente mais de 10.000 Genes