O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE O Processo de Exploração de Dados processo de vários estágios onde se usa uma metodologia estruturada para: •descobrir e avaliar problemas; •definir soluções e estratégias de implementação •produzir resultados quantificáveis Estágios do Processo de Exploração dos Dados • Exploração do Espaço de Problemas •Exploração de Espaço de soluções •Especificação do Método de Implementação •Mineração de Dados •Preparação dos Dados •Inspeção dos Dados •Modelagem dos Dados Duração de cada estágio (em % do total) • Exploração do Espaço de Problemas •Exploração de Espaço de soluções •Especificação do Método de Implementação •Mineração de Dados •Preparação dos Dados •Inspeção dos Dados •Modelagem dos Dados 10 9 1 20 60 15 5 80 Importância de cada estágio (em % do total) • Exploração do Espaço de Problemas •Exploração de Espaço de soluções •Especificação do Método de Implementação •Mineração de Dados •Preparação dos Dados •Inspeção dos Dados •Modelagem dos Dados 15 14 51 15 3 2 80 20 Estágio 1: Exploração do Espaço de Problemas Identificação dos Problemas Identificação dos problemas certos à resolver Definição precisa do problema Iniciar definindo problemas de uma maneira precisa: •decompor enunciados gerais em componentes menores Mapa Cognitivo (Cognitive Maps) Figura com: •os objetos que constituem o espaço de problemas •as conexões e interações das variáveis Sol O sol aumenta a temperatura do oceano Temperatura do oceano O crescimento da quantidade de nuvens diminui o aquecimento do oceano Nuvens O aquecimento do oceano aumenta a quantidade de nuvens Ordenação Dois a Dois e Construção da matriz do problema 0.5 Problema 0.25 Importância Dificuldade 0.25 Retorno a 5 3 2 3.75 b 2 1 4 2.25 c 1 2 6 2.25 d 6 6 3 5.25 e 3 4 1 2.75 f 4 5 5 4.5 Estágio 2: Exploração do Espaço de Soluções Especificar que produto é desejado: •relatórios, mapas, gráficos, programas, planilhas, fórmulas,etc. O produto deve ser específico o bastante para que a solução possa ser implementada Estágio 3: Especificação do Método de Implementação A exploração de dados não é realizada apenas para descobrir novas visões: trata-se de aplicar os resultados para •aumentar os lucros •melhorar o desempenho •melhorar a qualidade •aumentar a satisfação do cliente •reduzir o desperdício •diminuir as fraudes •etc Estágio 3: Especificação do Método de Implementação A especificação da implementação é onde é detalhado como as várias soluções dos problemas selecionados são realmente aplicadas na pratica A especificação precisa ser uma definição completa e pratica da solução: •a que problema ela se destina •que forma ela toma •o que fornece •a quem se destina •como ela é realizada •limitações e expectativas •etc Estágio 4: Minerar os Dados Minerar os dados é um processo com múltiplos estágios: •preparação dos dados para a modelização •inspeção dos dados •modelização dos dados Preparação dos Dados para a Modelização Preparar os dados também prepara o “garimpeiro”: ele fornece modelos mais adequados mais rapidamente “Bons” dados são essenciais para que os modelos sejam efetivos As ferramentas de preparação de dados formam uma coleção de técnicas desenvolvidas à partir da experiência na tentativa de “arrumar” os dados e construir modelos “decentes” Inspeção dos Dados É durante a inspeção que se determina se os dados são adequados A inspeção tenta responder três questões: a) O que contém o conjunto de dados? b) A partir dele, obterei respostas as minhas questões? c) Quais são as áreas de perigo? A inspeção procura a estrutura geral dos dados e relata se ou não há uma quantidade de informações úteis envolvida no conjunto de dados A inspeção tenta descobrir se a resposta ao problema a ser modelado está nos dados antes de investir na construção do modelo A inspeção tenta identificar as áreas de perigo: viés, escassez, mudanças rápidas Modelização dos Dados Trata-se de um processo de transformação das informações presentes nos dados para uma forma compreensível para os usuários Escolhas Básicas Objetos Objetos do mundo real: carros, arvores, beleza, justiça, etc Ponto de vista da mineração: um objeto é uma coleção de características sobre as quais podem ser realizadas medidas Medidas O que é possível medir sobre as características: meu carro é azul escuro, 2 portas, 6 cilindros, 5 passageiros Tipos de Medidas Uma variável representa uma medida que toma um numero particular de valores, com a possibilidade de valores diferentes para cada observação. Variáveis escalares: são expressas por um valor em determinada escala. Variáveis vetoriais: são expressas por mais de um valor Tipos de Medidas Uma variável representa uma medida que toma um numero particular de valores, com a possibilidade de valores diferentes para cada observação. Variáveis escalares: são expressas por um valor em determinada escala. Variáveis vetoriais: são expressas por mais de um valor Escalas Escala Intervalar Nessa escala, existe não apenas uma ordem entre os valores, mas também existe diferença entre esses valores. O zero é relativo. Ex: Temperatura em Graus Celsius Escala Proporcional Nessa escala, além da diferença, tem sentido calcular a proporção entre valores (o zero é absoluto). Ex: Peso, Altura, etc. Cardinalidade dos atributos das variáveis Qualitativo / quantitativo Variáveis qualitativas: escalas nominais ou ordinais Variáveis quantitativas: escalas intervalares e proporcionais Cardinalidade dos atributos das variáveis Qualitativo / quantitativo Variáveis qualitativas: escalas nominais ou ordinais Variáveis quantitativas: escalas intervalares e proporcionais Cardinalidade: Discreto versus Continuo Variáveis dicotômicas Ex: Sexo (M, F) Valores ausentes e valores inaplicáveis Um valor ausente é aquele ausente no conjunto de dados mas existente no contexto em que a medida foi realizada Um valor inaplicável é um valor ausente e inexistente no contexto em que a medida foi realizada. Ex: Sexo = Masculino e Número de Partos = null Cardinalidade: Discreto versus Continuo Variáveis binárias Em geral são codificadas como “0”, “1” “0” em geral indica ausência de propriedade Ex: Possui antenas? (Sim , não) Variáveis Discretas Qualquer variável que possui mais de 3 valores distintos. Ex: Departamentos do CIN Cardinalidade: Discreto versus Continuo Variáveis contínuas Podem, em principio, assumir qualquer valor dentro de uma faixa. Mudança de Escala Interesse Muitos modelos só se aplicam à variáveis de mesma escala Estandardização Justificativa: unidades diferentes ou dispersões muito heterogêneas a) y xm s b) y x min max min c) y x m Mudança de Escala Intervalar Ordinal Ex: Idade O = [0, 150] 0-20: jovem; 20-60: adulto; >60: idoso O’={jovem, adulto, idoso} Trata-se de subdividir O em subintervalos contíguos e associar a cada um deles uma modalidade Mudança de Escala Intervalar Ordinal Perda de informação •Distinção entre objetos de uma mesma categoria •Amplitude da diferença entre objetos de categorias diferentes Formas de obtenção das modalidades •Partição em intervalos iguais •Partição por efetivos iguais •Partição em intervalos arbitrários •Partição por minimização da variância Mudança de Escala Ordinal Nominal Basta desconsiderar a ordem entre as modalidades Ordinal ou Nominal Binária Cada modalidade é transformada em uma variável binária •Codificação disjuntiva •Codificação aditiva Mudança de Escala Ordinal ou Nominal Binária Cor: 1(verde), 2(azul), 3(marrom) Idade: 1(0-20), 2(20-60), 3(> 60) w w’ Verde w 1 w’ 0 Cor 1 2 Azul 0 1 Idade 2 1 Marrom 0 0 0-20 1 1 0-60 1 0 >60 0 0 Representação de Dados para a Mineração Representação dos Dados Tabelas de Dados (flat file): as colunas representam as variáveis e as linhas representam as observações