Software Weka
Waikato 2004, Witten & Frank 2000
Ferramenta
• algoritmos de
– preparação de dados
– aprendizagem de máquina (mineração)
– validação de resultados
• /public/soft/linux/weka-3-4/
– Java –jar weka.jar
– Selecione Explorer
– copie os arquivos no dir
/public/soft/linux/weka-3-4/data$ para sua
area
Interface e Funcionalidades
• (A) Open File, Open URL, Open DB
• (B) No botão filter é possível efetuar
sucessivas filtragens de atributos e instâncias
na base de dados previamente carregada
–
–
–
–
Seleção
Discretização
Normalização
Amostragem
Formato arff (header)
% 1. Title: Iris Plants Database
%
% 2. Sources:
% (a) Creator: R.A. Fisher
% (b) Donor: Michael Marshall (MARSHALL%[email protected])
% (c) Date: July, 1988
%
@RELATION iris
@ATTRIBUTE sepallength NUMERIC
@ATTRIBUTE sepalwidth NUMERIC
@ATTRIBUTE petallength NUMERIC
@ATTRIBUTE petalwidth NUMERIC
@ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica}
Laboratório 1
• Abra o arquivo weather.nominal.arff
Perguntas
• Números de instancias, exemplos,
registros??
• Atributos ???
• Quais os valores que o atributo
temperatura pode ter ??
• Repita o processo para outra base.
Editando bases
• Abra a base weather.nominal.arff
• Clique em Editar
• Responda
– Qual é o valor da classe para a instância 8?
– Algum atributo possui valor não ?
• Abra a base iris e responda
– Quantos atributos nominais e numericos a
base possui ??
Aplicar filtros
• Weka possui vários filtros
• Remover atributos
• Escolha Choose... Remove ...
Save..Name
• Abra o arquivo weather.nominal.arff
• Remova todos as instâncias com valor de
atributo humidity high
• Volte aos dados originais
Painel de Visualização
• Abra a base iris.arff (medidas de flores)
• Utilize o menu Visualize para selecionar
algumas instâncias e remover outras.
Classificação
• Observe a saida dos diferentes tipos de classificadores.
=== Classifier model (full training set) ===
J48 pruned tree
-----------------outlook = sunny
| humidity = high: no (3.0)
| humidity = normal: yes (2.0)
outlook = overcast: yes (4.0)
outlook = rainy
| windy = TRUE: no (2.0)
| windy = FALSE: yes (3.0)
Number of Leaves
Responda
• Utilizando a base weather
• Como seria classificada a seguinte
instância ???
• outlook = sunny, temperature = cool,
humidity = high, windy = TRUE
Modo de Testar
• Use training set: Usa toda a base para
teste
• Cross-validation: Divide a base em folds
(disjuntos)
• Percentage split: Divide a base uma
percentagem para treinamento e outra
para teste.
Criando bases de teste
• Escreva uma base de teste e teste com ela
Como são classificadas as instâncias ?? Como fica a matriz de confusão ??
Visualize as instâncias
• Visualize cada instâncias e responda
quais foram classificadas erroneamente
???
Download

Software Weka