O Processo de Preparação de Dados
Prof. Francisco de A. T. de Carvalho
CIN / UFPE
O Processo de Exploração de Dados
processo de vários estágios onde se usa uma metodologia estruturada
para:
•descobrir e avaliar problemas;
•definir soluções e estratégias de implementação
•produzir resultados quantificáveis
Estágios do Processo de Exploração dos Dados
• Exploração do Espaço de Problemas
•Exploração de Espaço de soluções
•Especificação do Método de Implementação
•Mineração de Dados
•Preparação dos Dados
•Inspeção dos Dados
•Modelagem dos Dados
Duração de cada estágio (em % do total)
• Exploração do Espaço de Problemas
•Exploração de Espaço de soluções
•Especificação do Método de Implementação
•Mineração de Dados
•Preparação dos Dados
•Inspeção dos Dados
•Modelagem dos Dados

10
9
1
20
60
15
5
80

Importância de cada estágio (em % do total)
• Exploração do Espaço de Problemas
•Exploração de Espaço de soluções
•Especificação do Método de Implementação
•Mineração de Dados
•Preparação dos Dados
•Inspeção dos Dados
•Modelagem dos Dados
15
14
51


15
3
2
80
20
Estágio 1: Exploração do Espaço de Problemas
Identificação dos Problemas
Identificação dos problemas certos à resolver
Definição precisa do problema
Iniciar definindo problemas de uma maneira precisa:
•decompor enunciados gerais em componentes menores
Mapa Cognitivo (Cognitive Maps)
Figura com:
•os objetos que constituem o espaço de problemas
•as conexões e interações das variáveis
Sol
O sol aumenta a temperatura do
oceano
Temperatura
do oceano
O crescimento da quantidade
de nuvens diminui o aquecimento
do oceano
Nuvens
O aquecimento do oceano aumenta
a quantidade de nuvens
Ordenação Dois a Dois e Construção da matriz do
problema
0.5
Problema
0.25
Importância Dificuldade
0.25
Retorno
a
5
3
2
3.75
b
2
1
4
2.25
c
1
2
6
2.25
d
6
6
3
5.25
e
3
4
1
2.75
f
4
5
5
4.5
Estágio 2: Exploração do Espaço de Soluções
Especificar que produto é desejado:
•relatórios, mapas, gráficos, programas, planilhas, fórmulas,etc.
O produto deve ser específico o bastante para que a solução
possa ser implementada
Estágio 3: Especificação do Método de
Implementação
A exploração de dados não é realizada apenas para descobrir
novas visões: trata-se de aplicar os resultados para
•aumentar os lucros
•melhorar o desempenho
•melhorar a qualidade
•aumentar a satisfação do cliente
•reduzir o desperdício
•diminuir as fraudes
•etc
Estágio 3: Especificação do Método de
Implementação
A especificação da implementação é onde é detalhado como as várias
soluções dos problemas selecionados são realmente aplicadas na pratica
A especificação precisa ser uma definição completa e pratica da solução:
•a que problema ela se destina
•que forma ela toma
•o que fornece
•a quem se destina
•como ela é realizada
•limitações e expectativas
•etc
Estágio 4: Minerar os Dados
Minerar os dados é um processo com múltiplos estágios:
•preparação dos dados para a modelização
•inspeção dos dados
•modelização dos dados
Preparação dos Dados para a Modelização
Preparar os dados também prepara o “garimpeiro”: ele fornece modelos
mais adequados mais rapidamente
“Bons” dados são essenciais para que os modelos sejam efetivos
As ferramentas de preparação de dados formam uma coleção de
técnicas desenvolvidas à partir da experiência na tentativa de “arrumar”
os dados e construir modelos “decentes”
Inspeção dos Dados
É durante a inspeção que se determina se os dados são adequados
A inspeção tenta responder três questões: a) O que contém o conjunto
de dados? b) A partir dele, obterei respostas as minhas questões?
c) Quais são as áreas de perigo?
A inspeção procura a estrutura geral dos dados e relata se ou não há
uma quantidade de informações úteis envolvida no conjunto de dados
A inspeção tenta descobrir se a resposta ao problema a ser modelado
está nos dados antes de investir na construção do modelo
A inspeção tenta identificar as áreas de perigo: viés, escassez,
mudanças rápidas
Modelização dos Dados
Trata-se de um processo de transformação das informações presentes
nos dados para uma forma compreensível para os usuários
Escolhas Básicas
Objetos
Objetos do mundo real: carros, arvores, beleza, justiça, etc
Ponto de vista da mineração: um objeto é uma coleção de
características sobre as quais podem ser realizadas medidas
Medidas
O que é possível medir sobre as características: meu carro é azul
escuro, 2 portas, 6 cilindros, 5 passageiros
Tipos de Medidas
Uma variável representa uma medida que toma um numero particular
de valores, com a possibilidade de valores diferentes para cada
observação.
Variáveis escalares: são expressas por um valor em determinada
escala.
Variáveis vetoriais: são expressas por mais de um valor
Tipos de Medidas
Uma variável representa uma medida que toma um numero particular
de valores, com a possibilidade de valores diferentes para cada
observação.
Variáveis escalares: são expressas por um valor em determinada
escala.
Variáveis vetoriais: são expressas por mais de um valor
Escalas
Escala Intervalar
Nessa escala, existe não apenas uma ordem entre os valores,
mas também existe diferença entre esses valores. O zero é
relativo.
Ex: Temperatura em Graus Celsius
Escala Proporcional
Nessa escala, além da diferença, tem sentido calcular a proporção
entre valores (o zero é absoluto).
Ex: Peso, Altura, etc.
Cardinalidade dos atributos das variáveis
Qualitativo / quantitativo
Variáveis qualitativas: escalas nominais ou ordinais
Variáveis quantitativas: escalas intervalares e proporcionais
Cardinalidade dos atributos das variáveis
Qualitativo / quantitativo
Variáveis qualitativas: escalas nominais ou ordinais
Variáveis quantitativas: escalas intervalares e proporcionais
Cardinalidade: Discreto versus Continuo
Variáveis dicotômicas
Ex: Sexo (M, F)
Valores ausentes e valores inaplicáveis
Um valor ausente é aquele ausente no conjunto de dados mas
existente no contexto em que a medida foi realizada
Um valor inaplicável é um valor ausente e inexistente no
contexto em que a medida foi realizada.
Ex: Sexo = Masculino e Número de Partos = null
Cardinalidade: Discreto versus Continuo
Variáveis binárias
Em geral são codificadas como “0”, “1”
“0” em geral indica ausência de propriedade
Ex: Possui antenas? (Sim , não)
Variáveis Discretas
Qualquer variável que possui mais de 3 valores distintos.
Ex: Departamentos do CIN
Cardinalidade: Discreto versus Continuo
Variáveis contínuas
Podem, em principio, assumir qualquer valor dentro de uma faixa.
Mudança de Escala
Interesse
Muitos modelos só se aplicam à variáveis de mesma escala
Estandardização
Justificativa: unidades diferentes ou dispersões muito heterogêneas
a) y 
xm
s
b) y 
x  min
max  min
c) y 
x
m
Mudança de Escala
Intervalar
Ordinal
Ex: Idade O = [0, 150]
0-20: jovem; 20-60: adulto; >60: idoso
O’={jovem, adulto, idoso}
Trata-se de subdividir O em subintervalos contíguos e associar a
cada um deles uma modalidade
Mudança de Escala
Intervalar
Ordinal
Perda de informação
•Distinção entre objetos de uma mesma categoria
•Amplitude da diferença entre objetos de categorias diferentes
Formas de obtenção das modalidades
•Partição em intervalos iguais
•Partição por efetivos iguais
•Partição em intervalos arbitrários
•Partição por minimização
da variância
Mudança de Escala
Ordinal
Nominal
Basta desconsiderar a ordem entre as modalidades
Ordinal ou Nominal
Binária
Cada modalidade é transformada em uma variável binária
•Codificação disjuntiva
•Codificação aditiva
Mudança de Escala
Ordinal ou Nominal
Binária
Cor: 1(verde), 2(azul), 3(marrom)
Idade: 1(0-20), 2(20-60), 3(> 60)
w
w’
Verde
w
1
w’
0
Cor
1
2
Azul
0
1
Idade
2
1
Marrom
0
0
0-20
1
1
0-60
1
0
>60
0
0
Representação de Dados para a Mineração
Representação dos Dados
Tabelas de Dados (flat file): as colunas representam as variáveis
e as linhas representam as observações
Download

Preparation