DEIS - Departamento de Engenharia Informática e de Sistemas Mestrado em Informática e Sistemas Tecnologias da Informação e do Conhecimento ANO LETIVO 2011/2012 UNIDADE CURRICULAR: ANÁLISE DE DADOS ANO CURRICULAR: 1º SEMESTRE: 1º Análise de Dados - Práticas Laboratoriais Aluno: Ficha de Trabalho Nº 5b P Pires Pré-Processamento de Dados e Visual Data-Mining 1. Instalação da Base de Dados Base de Dados extraída de "Delivering Business Intelligence with Microsoft SQL Server 2005" MaxMinManufacturingDM Database.sql 1) e 2) Inicia-se o SQL Server Management Studio e através do seu menu principal: | Open | File, procede-se à abertura do ficheiro “Create MaxMinManufacturingDM Database.sql”. 3) Executa-se o script para a criação da base de dados /****** Object: Database [MaxMinManufacturingDM] Script Date: 01/17/2006 22:11:56 ******/ CREATE DATABASE [MaxMinManufacturingDM] ON PRIMARY ( NAME = N'MaxMinManufacturingDM', FILENAME = N'C:\Program Files\Microsoft SQL Server\MSSQL.1\MSSQL\Data\MaxMinManufacturingDM.mdf' , SIZE = 5120KB , MAXSIZE = UNLIMITED, FILEGROWTH = 1024KB ) LOG ON ( NAME = N'MaxMinManufacturingDM_log', FILENAME = N'C:\Program Files\Microsoft SQL Server\MSSQL.1\MSSQL\Data\MaxMinManufacturingDM_log.ldf' , SIZE = 1024KB , MAXSIZE = 2048GB , FILEGROWTH = 10%) COLLATE SQL_Latin1_General_CP1_CI_AS 4) Restauro da MaxMinManufacturingDM Database Backup Após a execução do script fecha-se a janela que contem o mesmo, refresca-se e posteriormente restaura-se a base de dados MaxMinManufacturingDM Database Backup. Lab. 5b P Pires 2/10 1. e 2. Verificação da existência da base de dados 3. Após seleção da base de dados MaxMinManufacturingDM, e com o botão direito do rato, procede-se aos seguintes passos: 4. e 5. Seleção do destino para o restauro 6. Seleção do ficheiro Lab. 5b P Pires 3/10 7. Após seleção do “Add” surge o ecrã “Locate Backup File” 8. Navega-se até à pasta que contem o ficheiro pretendido “MaxMinManufacturingDM Database Backup.BAK” e seleciona-se o mesmo. 9. Clica-se no botão “OK” e regressa-se à janela anterior onde se pode verificar o ficheiro pretendido. 10. e 11. Volta-se a clicar no botão “Ok” para se sair da janela Specify Backup e activa-se selecionando “Select the backup sets to restore”. 12. a 16. Após selecão das opções, clica-se na check box Overwrite the existing database. Lab. 5b P Pires 4/10 Seleciona-se o ficheiro pretendido e após o clique em “Ok” aguarda-se que a base de dados seja restaurada. 17. Por fim e ao clicar no “OK “ sai-se da mensagem de restauro. A base de dados MaxMinManufacturingDM encontra-se pronta para ser utilizada. Lab. 5b P Pires 5/10 2. Criação do Processo de Análise de Dados 1. Abertura do Rapidminer e criação de um novo processo com ligação à base de dados MaxMinManufacturingDM Lab. 5b P Pires 6/10 2. Adição do operador necessário à leitura da tabela ManufacturingFact O presente operador pode ser utilizado para selecionar um atributo (ou um subconjunto), definindo uma expressão regular para o nome do atributo e aplicando os operadores internos ao subconjunto resultante. Leitura da tabela ManufacturingFact: 3. Visualização dos dados graficamente a) Criação de Bubble Graph´s adequados ao objectivo da análise. Gráfico I Lab. 5b P Pires 7/10 Gráfico II Gráfico III Interpretação Pelo gráfico I, constata-se que o maior número de produtos rejeitados ocorre na máquina n.º 2. Porém, e de acordo com o gráfico II verifica-se que o tempo de produção decorrido na máquina 2 é superior ao tempo decorrido nas restantes máquinas. Por outro lado e tendo em consideração o gráfico III, verifica-se a existência de 3 ciclos de tempo decorrido para a produção relativamente aos produtos rejeitados. Lab. 5b P Pires 8/10 b) Criação de Scatter Plot´s adequados ao objectivo da análise. Gráfico IV Gráfico V Interpretação Verificando-se que o n.º de produtos aceites (gráfico V) é muito superior ao n.º de produtos rejeitados (gráfico IV), verifica-se que o atributo tempo decorrido de fabrico influencia ambas as situações, sendo facilmente perceptível a existência de 3 classes de produtos em tempos de fabrico. c) Criação de um Parallel Graph adequado ao objectivo da análise. Lab. 5b P Pires 9/10 Gráfico VI Interpretação Através do n.º do lote, pode-se verificar quais os atributos que detenham maiores valores, ou seja, número maior. Assim, para além dos produtos aceites (já referido através do gráfico V), pode-se visualizar que o atributo tempo decorrido de fabrico terá maior valor do que o código do produto ou o n.º de máquina (que totaliza 6 máquinas). d) As conclusões são coerentes, uma vez que se verificou que o atributo que parece condicionar o fabrico dos produtos, seja a aceitação ou a rejeição, será o tempo decorrido de fabrico, sendo o mesmo caracterizado por 3 classes distintas. 4. Adição ao processo dos operadores necessários para implementação das seguintes operações: a) Cálculo da Média e Desvio Padrão, tendo em consideração os atributos “AcceptedProducts” e “RejectedProducts”. b) Cálculo da Matriz de Covariância, tendo em conta os atributos definidos. c) Cálculo da Matriz de Correlação, tendo em conta os atributos definidos. ElapsedTimeForManufacture REFAZER Lab. 5b P Pires 10/10 a) b) c) a) b) Se Covariância ≈ 0 -> os atributos NÃO têm uma relação linear Lab. 5b P Pires 11/10 c) Correlação positiva dado que o resultado é = 1 para todos. RejectedProduts 5. Comparação dos elementos atrás obtidos com os inicialmente visualizados. Inicialmente parecia que o n.º da máquina (2) era fruto do maior número de produtos rejeitados, contudo e como se pode apurar Lab. 5b P Pires 12/10 Lab. 5b P Pires 13/10