Aula Pratica
Aprendizagem WEKA
Prof. Ivan Gesteira Costa Filho
Centro de Informática
Universidade Federal de Pernambuco
Weka
 Coleção de Métodos de Aprendizagem de Maquina


Implementado em Java
Open Source
http://www.cs.waikato.ac.nz/ml/weka/
 Livro
Ian H. Witten, Eibe Frank, Data Mining: Practical Machine
Learning Tools and Techniques (Second Edition),
Morgan Kaufmann
Weka
 Funcionalidade


Escolha de Atributos e Filtros
Classificação




Arvores de Decisão, Bayesiano Ingênuo, Perceptron,
SVM, e muito mais …
Agrupamento
Seleção de Atributos
Visualização
Weka
 Baixar o programa de

www.cin.ufpe.br/~igcf/si/
 Instalar em c:\temp e rodar ...
 Abrir arquivo no problema de Jogar Tênis

<instalacao weka>/data/weather.arff
Weka
Formato de entrada (arff)
@relation weather
@attribute outlook {sunny, overcast, rainy}
@attribute temperature real
@attribute humidity real
@attribute windy {TRUE, FALSE}
@attribute play {yes, no}
@data
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes
Atributos
Instancias
Weka
 Rodar Weka …
Weka Design Experimental
 Como avaliar métodos de classificação?
 Erro no conjunto de treinamento não é valido

Pode ser apenas sinal de overfitting
 Separar Exemplos para validação e teste
Validação – escolha de parâmetros
Teste – avaliação dos resultados
Validação Cruzada – k-fold
Treino
Teste
k=3
X
• Quando k = no dados  leave-one-out
Média Erro e
desvio-padrão
de desempenho
Matriz de confusão
 Oferece uma medida da efetividade do
modelo de classificação


Mostra o número de classificações reais contra
as classificações preditas, em cada classe
Os resultados são sumarizados em uma matriz
de duas dimensões

Classes verdadeiras x Classes preditas
Matriz de confusão
M (C i ,C j ) 
  x ,
h x   C j

yT y C 
 : 
i
Matriz de confusão
 Número de predições corretas: diagonal da
matriz

Outros elementos correspondem números de
erros
Matriz de confusão
 Por simplicidade, sejam duas classes: + e -
n = TP + TN + FP + FN
Matriz de confusão
 Várias medidas de desempenho podem ser obtidas da
matriz de confusão:
TP  TN
 Taxa de acerto
Ac 
n
TP
Sen 
 Sensibilidade ou revocação (recall)
TP  FN
TN
Esp 
 Especificidade (precision)
FP  TN

F-measure
Novos dados
 Abrir dados soybean
 Classificação de Doenças de Soja


A partir de sintomas das soja
19 classes e 683 instancias
Conjunto de dados
 Problema:

Classificação de câncer a partir do perfil de
expressão dos pacientes
 http://www.cin.ufpe.br/~igcf/weka_format/
golub-1999-v1.arff

Conjunto de dados já foi pré-processado para extrair
genes mais informativos

Originalmente mais de 10.000 Genes
Download

aula-pratica-weka - Centro de Informática da UFPE