Data Mining:
Conceitos e Técnicas
DM, DW e OLAP
Data Warehousing e OLAP para
Data Mining
• O que é data warehouse?
• De data warehousing para data mining
Data Warehousing e OLAP para
Data Mining
• Data Warehouse: A Memória da Empresa
• Data Mining: A Inteligência da Empresa
O que é Data Warehouse?
• Definido de diversas formas, mas não
rigorosamente:
– É uma base de dados de suporte que é
mantida separadamente da base de dados
operacional da organização;
– Suporta o processamento de informações
provendo uma sólida plataforma de dados
históricos e consolidados para análise;
O que é Data Warehouse?
•
1.
2.
3.
4.
•
―Um data warehouse é uma coleção
de dados:
orientada a assunto (subject-oriented);
integrada;
variante no tempo, e
não-volátil
para suporte a decisões de
gerenciamento‖.—W. H. Inmon
Data warehousing: o processo de
construção e uso de data warehouses.
Usos do data warehouse
• Processamento de Informações:
– Suporta consultas, análise estatística básica e
relatórios usando tabelas, gráficos, etc.
• Processamento analítico:
– Análise multi-dimensional doas dados contidos no
data warehouse;
– Suporta operações OLAP básicas (slice-dice,
drilling, pivoting);
Usos do data warehouse
• Data mining:
– Descoberta de conhecimento em padrões;
– Suporta associações, construção de modelos
analíticos, executa classificação e predição, e
apresenta os resultados usando ferramentas de
visualização.
De OLAP para OLAM
Por que OLAM?
• Alta qualidade dos dados nos data warehouses;
– DW contem dados integrados, consistentes e limpos.
• Estrutura para o tratamento de informação disponível
no ambiente de DW:
– ODBC, OLEDB, acesso à Web, facilidades de serviço, relatórios e
ferramentas OLAP;
• Análise de dados exploratória baseada em OLAP;
– Mineração com drilling, dicing, pivoting, etc.
• Seleção on-line das funções de data mining:
– Integração e intercâmbio de múltiplas funções de mineração,
algoritmos e tarefas.
Uma arquitetura OLAM
Mining query
Mining result
Layer4
User Interface
User GUI API
OLAM
Engine
OLAP
Engine
Layer3
OLAP/OLAM
Data Cube API
Layer2
MDDB
MDDB
Meta Data
Filtering&Integration
Database API
Filtering
Layer1
Data cleaning
Databases
Data
Data integration Warehouse
Data
Repository
Pré-processamento de
dados
Por que pré-processar os dados ?
• Dados reais são “sujos”:
– Incompletos: falta de valores de atributos, falta de
atributos de interesse ou existência de atributos
agregados;
– Ruidosos: contem erros e desvios;
– Inconsistentes: contem discrepâncias em nomes e
na codificação.
• Sem dados de qualidade, sem resultados de
qualidade em DM:
– Decisões de qualidade devem estar baseadas em
dados de qualidade;
– DW necessita da integração consistente de dados
de qualidade.
Medida multidimensional da
qualidade dos dados
• Uma visão multidimensional bem aceita:
–
–
–
–
–
–
–
–
Correção;
Completude;
Consistência;
Atualidade (timeliness);
Credibilidade;
Valor adicionado;
Interpretabilidade;
Acessibilidade.
• Categorias abrangentes:
– Intrínseca, contextual, representacional e
acessibilidade.
Principais tarefas no préprocessamento dos dados
• Limpeza dos dados:
– Preenchimento de valores inexistentes, atenuação
de dados ruidosos, identificação e remoção de
desvios, resolução de inconsistências;
• Integração de dados:
– Integração de múltiplos DB, data cubos, e arquivos;
• Transformações nos dados:
– normalização e agregação;
• Redução de dados:
– Obtenção de uma representação reduzida em
volume mas que produz resultados de análise
idênticos ou similares.
Principais tarefas no préprocessamento dos dados
•
Limpeza dos dados: Valores faltantes
1.
2.
3.
4.
5.
6.
Ignorar a tupla;
Preencher o valor manualmente;
Usar uma constante global;
Usar o valor médio do atributo na base;
Usar o valor médio do atributo na classe;
Usar o valor mais provável.
Principais tarefas no préprocessamento dos dados
•
Limpeza dos dados: Atenuação de
dados ruidosos
1.
2.
3.
4.
Discretização;
Agrupamento;
Interação humana;
Regressão.
Principais tarefas no préprocessamento dos dados
•
Limpeza dos dados: Inconsistências
1. Eliminar dados;
2. Corrigir manualmente;
3. Ignorar.
Principais tarefas no préprocessamento dos dados
• Integração de dados:
– Integração de esquemas de BD: problema
da identificação de entidades;
– Redundâncias;
– Detecção e resolução de valores
conflitantes nos dados.
Principais tarefas no préprocessamento dos dados
• Transformações nos dados:
–
–
–
–
–
Suavização (smooting);
Agregação;
Generalização;
Normalização (entre 0 e 1);
Construção de atributos.
Principais tarefas no préprocessamento dos dados
• Redução de dados:
–
–
–
–
–
Agregação de data cubes;
Redução de dimensionalidade;
Compressão de dados;
Redução de instâncias;
Geração de hierarquias de conceitos.
Formas de pré-processamento
de dados
Sumário
• A preparação do dados é um ponto crucial
tanto para data warehousing quanto para data
mining;
• A preparação de dados inclui:
– Limpeza e Integração de dados;
– Redução de dados e seleção de características;
– Discretização: intervalos iguais, freqüências iguais,
agrupamento.
• Vários métodos têm sido desenvolvidos, mas
ainda é área ativa de pesquisa.
Download

DM, DW e OLAP