DEIS - Departamento de Engenharia Informática e de Sistemas
Mestrado em Informática e Sistemas
Tecnologias da Informação e do Conhecimento
ANO LETIVO 2011/2012
UNIDADE CURRICULAR: ANÁLISE DE DADOS
ANO CURRICULAR: 1º
SEMESTRE: 1º
Análise de Dados - Práticas Laboratoriais
Aluno:
Ficha de Trabalho Nº 5b
P Pires
Pré-Processamento de Dados e Visual Data-Mining
1. Instalação da Base de Dados
Base de Dados extraída de "Delivering Business Intelligence with Microsoft SQL Server
2005"  MaxMinManufacturingDM Database.sql
1) e 2)
Inicia-se o SQL Server Management Studio e através do seu menu principal: | Open | File,
procede-se à abertura do ficheiro “Create MaxMinManufacturingDM Database.sql”.
3) Executa-se o script para a criação da base de dados
/****** Object: Database [MaxMinManufacturingDM] Script Date: 01/17/2006 22:11:56 ******/
CREATE DATABASE [MaxMinManufacturingDM] ON PRIMARY
( NAME = N'MaxMinManufacturingDM', FILENAME = N'C:\Program Files\Microsoft SQL
Server\MSSQL.1\MSSQL\Data\MaxMinManufacturingDM.mdf' , SIZE = 5120KB , MAXSIZE = UNLIMITED,
FILEGROWTH = 1024KB )
LOG ON
( NAME = N'MaxMinManufacturingDM_log', FILENAME = N'C:\Program Files\Microsoft SQL
Server\MSSQL.1\MSSQL\Data\MaxMinManufacturingDM_log.ldf' , SIZE = 1024KB , MAXSIZE = 2048GB ,
FILEGROWTH = 10%)
COLLATE SQL_Latin1_General_CP1_CI_AS
4) Restauro da MaxMinManufacturingDM Database Backup
Após a execução do script fecha-se a janela que contem o mesmo, refresca-se e
posteriormente restaura-se a base de dados MaxMinManufacturingDM Database Backup.
Lab. 5b
P Pires
2/10
1. e 2. Verificação da existência da base de dados
3. Após seleção da base de dados MaxMinManufacturingDM, e com o botão direito do
rato, procede-se aos seguintes passos:
4. e 5. Seleção do destino para o restauro
6. Seleção do ficheiro
Lab. 5b
P Pires
3/10
7. Após seleção do “Add” surge o ecrã “Locate Backup File”
8. Navega-se até à pasta que contem o ficheiro pretendido “MaxMinManufacturingDM
Database Backup.BAK” e seleciona-se o mesmo.
9. Clica-se no botão “OK” e regressa-se à janela anterior onde se pode verificar o ficheiro
pretendido.
10. e 11. Volta-se a clicar no botão “Ok” para se sair da janela Specify Backup e activa-se
selecionando “Select the backup sets to restore”.
12. a 16. Após selecão das opções, clica-se na check box Overwrite the existing database.
Lab. 5b
P Pires
4/10
Seleciona-se o ficheiro pretendido e após o clique em “Ok” aguarda-se que a base de
dados seja restaurada.
17. Por fim e ao clicar no “OK “ sai-se da mensagem de restauro.
A base de dados MaxMinManufacturingDM encontra-se pronta para ser utilizada.
Lab. 5b
P Pires
5/10
2. Criação do Processo de Análise de Dados
1. Abertura do Rapidminer e criação de um novo processo com ligação à base de dados
MaxMinManufacturingDM
Lab. 5b
P Pires
6/10
2. Adição do operador necessário à leitura da tabela ManufacturingFact
O presente operador pode ser utilizado para selecionar um atributo (ou um subconjunto),
definindo uma expressão regular para o nome do atributo e aplicando os operadores
internos ao subconjunto resultante.
Leitura da tabela ManufacturingFact:
3. Visualização dos dados graficamente
a) Criação de Bubble Graph´s adequados ao objectivo da análise.
Gráfico I
Lab. 5b
P Pires
7/10
Gráfico II
Gráfico III
Interpretação
Pelo gráfico I, constata-se que o maior número de produtos rejeitados ocorre na
máquina n.º 2.
Porém, e de acordo com o gráfico II verifica-se que o tempo de produção
decorrido na máquina 2 é superior ao tempo decorrido nas restantes máquinas.
Por outro lado e tendo em consideração o gráfico III, verifica-se a existência de 3
ciclos de tempo decorrido para a produção relativamente aos produtos rejeitados.
Lab. 5b
P Pires
8/10
b) Criação de Scatter Plot´s adequados ao objectivo da análise.
Gráfico IV
Gráfico V
Interpretação
Verificando-se que o n.º de produtos aceites (gráfico V) é muito superior ao n.º de
produtos rejeitados (gráfico IV), verifica-se que o atributo tempo decorrido de
fabrico influencia ambas as situações, sendo facilmente perceptível a existência de
3 classes de produtos em tempos de fabrico.
c) Criação de um Parallel Graph adequado ao objectivo da análise.
Lab. 5b
P Pires
9/10
Gráfico VI
Interpretação
Através do n.º do lote, pode-se verificar quais os atributos que detenham maiores
valores, ou seja, número maior.
Assim, para além dos produtos aceites (já referido através do gráfico V), pode-se
visualizar que o atributo tempo decorrido de fabrico terá maior valor do que o
código do produto ou o n.º de máquina (que totaliza 6 máquinas).
d) As conclusões são coerentes, uma vez que se verificou que o atributo que parece
condicionar o fabrico dos produtos, seja a aceitação ou a rejeição, será o tempo
decorrido de fabrico, sendo o mesmo caracterizado por 3 classes distintas.
4. Adição ao processo dos operadores necessários para implementação das seguintes
operações:
a) Cálculo da Média e Desvio Padrão, tendo em consideração os atributos
“AcceptedProducts” e “RejectedProducts”.
b) Cálculo da Matriz de Covariância, tendo em conta os atributos definidos.
c) Cálculo da Matriz de Correlação, tendo em conta os atributos definidos.
ElapsedTimeForManufacture
REFAZER
Lab. 5b
P Pires
10/10
a)
b)
c)
a)
b)
Se Covariância ≈ 0 -> os atributos NÃO têm uma relação linear
Lab. 5b
P Pires
11/10
c)
Correlação positiva dado que o resultado é = 1 para todos.
RejectedProduts
5. Comparação dos elementos atrás obtidos com os inicialmente visualizados.
Inicialmente parecia que o n.º da máquina (2) era fruto do maior número de
produtos rejeitados, contudo e como se pode apurar
Lab. 5b
P Pires
12/10
Lab. 5b
P Pires
13/10
Download

DEIS - Departamento de Engenharia Informática e de