Software Weka Waikato 2004, Witten & Frank 2000 Ferramenta • algoritmos de – preparação de dados – aprendizagem de máquina (mineração) – validação de resultados • /public/soft/linux/weka-3-4/ – Java –jar weka.jar – Selecione Explorer – copie os arquivos no dir /public/soft/linux/weka-3-4/data$ para sua area Interface e Funcionalidades • (A) Open File, Open URL, Open DB • (B) No botão filter é possível efetuar sucessivas filtragens de atributos e instâncias na base de dados previamente carregada – – – – Seleção Discretização Normalização Amostragem Formato arff (header) % 1. Title: Iris Plants Database % % 2. Sources: % (a) Creator: R.A. Fisher % (b) Donor: Michael Marshall (MARSHALL%[email protected]) % (c) Date: July, 1988 % @RELATION iris @ATTRIBUTE sepallength NUMERIC @ATTRIBUTE sepalwidth NUMERIC @ATTRIBUTE petallength NUMERIC @ATTRIBUTE petalwidth NUMERIC @ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica} Laboratório 1 • Abra o arquivo weather.nominal.arff Perguntas • Números de instancias, exemplos, registros?? • Atributos ??? • Quais os valores que o atributo temperatura pode ter ?? • Repita o processo para outra base. Editando bases • Abra a base weather.nominal.arff • Clique em Editar • Responda – Qual é o valor da classe para a instância 8? – Algum atributo possui valor não ? • Abra a base iris e responda – Quantos atributos nominais e numericos a base possui ?? Aplicar filtros • Weka possui vários filtros • Remover atributos • Escolha Choose... Remove ... Save..Name • Abra o arquivo weather.nominal.arff • Remova todos as instâncias com valor de atributo humidity high • Volte aos dados originais Painel de Visualização • Abra a base iris.arff (medidas de flores) • Utilize o menu Visualize para selecionar algumas instâncias e remover outras. Classificação • Observe a saida dos diferentes tipos de classificadores. === Classifier model (full training set) === J48 pruned tree -----------------outlook = sunny | humidity = high: no (3.0) | humidity = normal: yes (2.0) outlook = overcast: yes (4.0) outlook = rainy | windy = TRUE: no (2.0) | windy = FALSE: yes (3.0) Number of Leaves Responda • Utilizando a base weather • Como seria classificada a seguinte instância ??? • outlook = sunny, temperature = cool, humidity = high, windy = TRUE Modo de Testar • Use training set: Usa toda a base para teste • Cross-validation: Divide a base em folds (disjuntos) • Percentage split: Divide a base uma percentagem para treinamento e outra para teste. Criando bases de teste • Escreva uma base de teste e teste com ela Como são classificadas as instâncias ?? Como fica a matriz de confusão ?? Visualize as instâncias • Visualize cada instâncias e responda quais foram classificadas erroneamente ???