Data Mining: Conceitos e Técnicas DM, DW e OLAP Data Warehousing e OLAP para Data Mining • O que é data warehouse? • De data warehousing para data mining Data Warehousing e OLAP para Data Mining • Data Warehouse: A Memória da Empresa • Data Mining: A Inteligência da Empresa O que é Data Warehouse? • Definido de diversas formas, mas não rigorosamente: – É uma base de dados de suporte que é mantida separadamente da base de dados operacional da organização; – Suporta o processamento de informações provendo uma sólida plataforma de dados históricos e consolidados para análise; O que é Data Warehouse? • 1. 2. 3. 4. • ―Um data warehouse é uma coleção de dados: orientada a assunto (subject-oriented); integrada; variante no tempo, e não-volátil para suporte a decisões de gerenciamento‖.—W. H. Inmon Data warehousing: o processo de construção e uso de data warehouses. Usos do data warehouse • Processamento de Informações: – Suporta consultas, análise estatística básica e relatórios usando tabelas, gráficos, etc. • Processamento analítico: – Análise multi-dimensional doas dados contidos no data warehouse; – Suporta operações OLAP básicas (slice-dice, drilling, pivoting); Usos do data warehouse • Data mining: – Descoberta de conhecimento em padrões; – Suporta associações, construção de modelos analíticos, executa classificação e predição, e apresenta os resultados usando ferramentas de visualização. De OLAP para OLAM Por que OLAM? • Alta qualidade dos dados nos data warehouses; – DW contem dados integrados, consistentes e limpos. • Estrutura para o tratamento de informação disponível no ambiente de DW: – ODBC, OLEDB, acesso à Web, facilidades de serviço, relatórios e ferramentas OLAP; • Análise de dados exploratória baseada em OLAP; – Mineração com drilling, dicing, pivoting, etc. • Seleção on-line das funções de data mining: – Integração e intercâmbio de múltiplas funções de mineração, algoritmos e tarefas. Uma arquitetura OLAM Mining query Mining result Layer4 User Interface User GUI API OLAM Engine OLAP Engine Layer3 OLAP/OLAM Data Cube API Layer2 MDDB MDDB Meta Data Filtering&Integration Database API Filtering Layer1 Data cleaning Databases Data Data integration Warehouse Data Repository Pré-processamento de dados Por que pré-processar os dados ? • Dados reais são “sujos”: – Incompletos: falta de valores de atributos, falta de atributos de interesse ou existência de atributos agregados; – Ruidosos: contem erros e desvios; – Inconsistentes: contem discrepâncias em nomes e na codificação. • Sem dados de qualidade, sem resultados de qualidade em DM: – Decisões de qualidade devem estar baseadas em dados de qualidade; – DW necessita da integração consistente de dados de qualidade. Medida multidimensional da qualidade dos dados • Uma visão multidimensional bem aceita: – – – – – – – – Correção; Completude; Consistência; Atualidade (timeliness); Credibilidade; Valor adicionado; Interpretabilidade; Acessibilidade. • Categorias abrangentes: – Intrínseca, contextual, representacional e acessibilidade. Principais tarefas no préprocessamento dos dados • Limpeza dos dados: – Preenchimento de valores inexistentes, atenuação de dados ruidosos, identificação e remoção de desvios, resolução de inconsistências; • Integração de dados: – Integração de múltiplos DB, data cubos, e arquivos; • Transformações nos dados: – normalização e agregação; • Redução de dados: – Obtenção de uma representação reduzida em volume mas que produz resultados de análise idênticos ou similares. Principais tarefas no préprocessamento dos dados • Limpeza dos dados: Valores faltantes 1. 2. 3. 4. 5. 6. Ignorar a tupla; Preencher o valor manualmente; Usar uma constante global; Usar o valor médio do atributo na base; Usar o valor médio do atributo na classe; Usar o valor mais provável. Principais tarefas no préprocessamento dos dados • Limpeza dos dados: Atenuação de dados ruidosos 1. 2. 3. 4. Discretização; Agrupamento; Interação humana; Regressão. Principais tarefas no préprocessamento dos dados • Limpeza dos dados: Inconsistências 1. Eliminar dados; 2. Corrigir manualmente; 3. Ignorar. Principais tarefas no préprocessamento dos dados • Integração de dados: – Integração de esquemas de BD: problema da identificação de entidades; – Redundâncias; – Detecção e resolução de valores conflitantes nos dados. Principais tarefas no préprocessamento dos dados • Transformações nos dados: – – – – – Suavização (smooting); Agregação; Generalização; Normalização (entre 0 e 1); Construção de atributos. Principais tarefas no préprocessamento dos dados • Redução de dados: – – – – – Agregação de data cubes; Redução de dimensionalidade; Compressão de dados; Redução de instâncias; Geração de hierarquias de conceitos. Formas de pré-processamento de dados Sumário • A preparação do dados é um ponto crucial tanto para data warehousing quanto para data mining; • A preparação de dados inclui: – Limpeza e Integração de dados; – Redução de dados e seleção de características; – Discretização: intervalos iguais, freqüências iguais, agrupamento. • Vários métodos têm sido desenvolvidos, mas ainda é área ativa de pesquisa.