Mineração de dados
Dicas para a realização do
Trabalho1
Dicas gerais
Para este trabalho, é melhor que os arquivos
estejam no formato ARFF
 Para gerar um arquivo ARFF, pode-se abrir um
arquivo compatível com o Weka, como o CSV, e
salvar como ARFF, ou criar “a mão” o arquivo no
formato ARFF.
 Quando se abre um arquivo CSV no Weka, o
primeiro registro é usado para nomear as
colunas (atributos)

Salvar e utilizar o modelo de classificação
Salvar:
1.
executar o algoritmo de classificação (por exemplo, o J48) para
realizar o treinamento (geração do modelo)
2.
Clique o botão direito sobre o modelo que deve ser salvo, na
Results list
3.
Selecione Save model e salve o modelo.
Carregar (o modelo salvo anteriormente)
1.
Carregue os dados de teste usando a opção Supplied test set
2.
Clique o botão direito na Results list, selecione Load model e
escolha o modelo salvo para carregar
3.
Selecione Re-evaluate model on current test set
OBS:
- o arquivo usado para teste deve conter os mesmos nomes de
atributos e os mesmos tipos que o arquivo usado para gerar o modelo.
Arquivo a ser entregue

O arquivo a ser entregue junto com o relatório do
trabalho deve ser um arquivo texto, com uma só
coluna, contendo a classe prevista (1 a 7), na
mesma ordem do arquivo contest.txt.
Geração do arquivo

Em Test options, clicar em More options , marcar Output predictions
e desmarcar todas as demais opções.

O arquivo arff a ser gerado a partir de contest.txt deve ter as mesmas
4 colunas (atributos) que o treino.arff , com os mesmos nomes e
tipos de atributo. A coluna correspondente à classe deve ser toda
preenchida com o caractere ?

Carregue os dados contest.arff usando a opção Supplied test set e
execute como visto anteriormente
Formato do resultado da execução
=== Run information ===
Scheme:
weka.classifiers.rules.ZeroR
Relation: treino1-weka.filters.unsupervised.attribute.NumericToNominal-R4
Instances: 1500
Attributes: 4
att1
att2
att3
classe
Test mode: user supplied test set: size unknown (reading incrementally)
=== Predictions on test set ===
inst#, actual, predicted, error, probability distribution
1
?
3:3
+ 0.127 0.084 *0.34 0.133 0.131 0.088 0.098
2
?
3:3
+ 0.127 0.084 *0.34 0.133 0.131 0.088 0.098
3
?
3:3
+ 0.127 0.084 *0.34 0.133 0.131 0.088 0.098
4
?
3:3
+ 0.127 0.084 *0.34 0.133 0.131 0.088 0.098
5
?
3:3
+ 0.127 0.084 *0.34 0.133 0.131 0.088 0.098
6
?
3:3
+ 0.127 0.084 *0.34 0.133 0.131 0.088 0.098
..........
1182
?
3:3
+ 0.127 0.084 *0.34 0.133 0.131 0.088 0.098
Formato do arquivo a ser entregue
3
3
3
3
3
3
3
3
3
3
3
3
…
3
Arquivo texto que
contém uma só
coluna, com a classe
prevista.
Importante: a ordem
dos registros deve ser
a mesma do arquivo
contest.txt fornecido e
deve ter 1182 registros
Download

Steven F. Ashby Center for Applied Scientific Computing Month DD