DATA WAREHOUSE
Mestrando: Vinicius Prodocimo
Professor: Alcides Calsavara
Data Warehouse - Agenda
 Introdução
 Características
 Arquitetura
 Modelos de Dados
 Desenvolvimento de um Data Warehouse (DW)
 Extração de Informações de um DW
 Conclusão
Data Warehouse - Introdução
 Crescimento de dados relacionados aos negócios mas não
relacionados entre si promoveram o surgimento do DW;
 Características:
 Utilização de dados estratégicos: apoio à tomada de
decisões através de fatos históricos (anteriormente
utilizava-se a experiência dos administradores do negócio);
 Banco de Dado especializado em integração: BD corporativos e fontes externas;
 Não é um produto pronto;
 Consultas à sua base não afetam as bases que o alimentam
 Fornece recursos e informações suficientes para um
Sistema de Apoio à Decisão;
 Possui novas formas de armazenamento, processamento
paralelo e distribuído;
 Integra dados de diferentes plataformas.
Data Warehouse - Características
 Dados classificados por assunto
 Integração de representação para facilitar as consultas
 Variação no tempo
 Dados não são modificados
 Localização
 Credibilidade dos dados
 Granularidade temporal das informações
Data Warehouse - Características
 Orientação por assunto
 Qual a informação mais importante para a organização?
 Análise direcionada à necessidade da organização
 Ex.: Uma empresa que vende produtos alimentícios no varejo
tem seu maior interesse no perfil de seus compradores e não
em quais produtos vende. Portanto o DW deve ser direcionado para o perfil dos compradores.
Data Warehouse - Características
 Integração da representação
 Característica mais importante do DW
 Representação única para as informações provindas de
diversos sistemas.
 Ex.: Representação do sexo de uma pessoa:
AMBIENTE OPERACIONAL
DATA WAREHOUSE
Aplicação X - M ou F
Aplicação Y - H ou M
Aplicação Z - 0 ou 1
M ou F
Data Warehouse - Características
 Variação no tempo
 Informações atualizadas em períodos de 24 horas;
 Pode apresentar-se como:
 Em um DW os dados podem estar presentes em horizontes maiores de 5 anos podendo chegar até o limite
de idade dos dados;
 O metadados também possuem relação temporal;
 Os dados não são mais atualizados.
Data Warehouse - Características
 Variação no tempo
 Os dados em um DW podem ser considerados como:
 Dados detalhados atuais:
 Acontecimentos mais recentes;
 São em grandes volumes;
 Tem baixo nível de granularidade;
 São armazenados em meios de rápido acesso.
 Dados detalhados antigos:
 Acontecimentos mais antigos;
 São normalmente armazenados em fitas.
Data Warehouse - Características
 Não volatilidade
 Não existem alterações no DW;
 É feita somente a carga e consultas posteriores.
Data Warehouse - Características
 Localização
 Os dados podem estar fisicamente armazenados como:
 Um único local, centralizando o DW;
 Distribuído por áreas de interesse (arquitetura federativa);
 Distribuídos por níveis de detalhe (dados altamente
resumidos, dados detalhados, ... ).
Data Warehouse - Características
 Localização
Dados altamente
resumidos
S
Í
N
T
E
S
E
Dados levemente
resumidos
DADOS DETALHADOS ATUAIS
Dados detalhados
antigos
E
N
V
E
L
H
E
C
I
M
E
N
T
O
Data Warehouse - Características
 Credibilidade dos dados
 Precisão: grau de informações que estão corretas;
 Abrangência: grau de dados requisitados e atendidos;
 Consistência: consistência dos dados/liberdade de contradição;
 Coerência: coerência lógica que permite criar relações;
 Tempo de resposta: tempo entre o pedido e a resposta;
 Singularidade: percentual dos dados que têm valores dentro
dos domínios de valores permitidos.
Data Warehouse - Características
 Granularidade
 Diz respeito ao nível de detalhe dos dados numa unidade;
BAIXA
Produto Data
A1
13/09/98
B1
14/09/98
A1
16/09/98
A1
16/09/98
Qtd
10
15
20
90
Valor
100,00
150,00
200,00
890,00
ALTA
Mês/Ano Produto Qtd Valor
09/98
A1
120 1190,00
09/98
B1
15 150,00
Data Warehouse - Características
 Metadados
 São dados sobre os dados;
 Podem ser apresentados em três camadas:
 Metadados operacionais;
 Metadados centrais do DW;
 Metadados do nível do usuário.
Data Warehouse - Características
 Metadados
 Podem ser classificados como:
 Mapeamento;
 Histórico;
 Miscelânea;
 Algoritmos de sumarização;
 Padrões de acesso.
Data Warehouse - Características
 Metadados
 Mantém informações sobre:
 A estrutura dos dados segundo a visão do programador;
 A estrutura dos dados segundo a visão do analista SAD;
 A fonte de dados que alimenta o DW;
 A transformação sofrida pelos dados, na migração p/DW;
 O modelo de dados;
 O relacionamento entre o modelo de dados e o DW;
 O histórico das extrações de dados.
Data Warehouse - Arquitetura
 A arquitetura deve ser constituída de forma à:
 Coletar dados de forma eficiente e rápida;
 Manipular dados de forma eficiente e rápida;
 Representar dados de forma eficiente e rápida.
Data Warehouse - Arquitetura
 Arquitetura genérica segundo Orr:
USUÁRIO
DW
ACESSO
ACESSO À
INFORMAÇÃO AO DADO
DW
ACESSO
TRANSPORTE A DADOS



BD
OPERAC.
BD
EXTERNAS



METADADOS
GERENCIADOR DE PROCESSOS
META
DADOS
Data Warehouse - Arquitetura
 Arquitetura segundo Chaudhuri (fluxos de dados):

Componente
front-end
Data Warehouse
(SGBD)
Repositório de
metadados
Fontes Internas
Componente
back-end
Fontes Externas
Data Warehouse - Arquitetura
 Arquitetura segundo Valente:
CONSULTAS
Data Warehouse
(SGBD)
INTEGRADOR
EXTRATOR
EXTRATOR
Fontes Internas
EXTRATOR
Fontes Externas
Data Warehouse - Modelo de Dados
 Modelo de dados segundo R.Kimball;
 Modelo de dados segundo W.H.Inmon;
Data Warehouse - Modelo de Dados
 Modelo de dados segundo R.Kimball
 É dividido em:
 Modelo empresarial;
 Modelo dimensional;
 Modelo físico.
Data Warehouse - Modelo de Dados
 Modelo de dados segundo R.Kimball - Empresarial
 Primeiro passo: análise do modelo de dados para construir
um modelo E-R normalizado para as regras do negócio;
 Não importa como as informações serão recuperadas ou
utilizadas;
 Foco nas estruturas da informação: atributos e relações;
 Quais são os dados relevantes para o DW;
Data Warehouse - Modelo de Dados
 Modelo de dados segundo R.Kimball - Empresarial
 Segundo passo: normalização do modelo;
 O modelo empresarial não será implementado;
 Terceiro passo: desenvolver um modelo E-R normalizado das
regras de negócio e a definição das regras de integridade.
Data Warehouse - Modelo de Dados
 Modelo de dados segundo R.Kimball - Dimensional
 Visão dos dados em diferentes perspectivas (dimensões);
 A forma de como as agregações são armazenadas podem ser
vista em termos de dimensões e coordenadas, dando origem
ao modelo multidimensional;
 Armazenamento em estruturas relacionais: Modelo Estrela
Data Warehouse - Modelo de Dados
 Modelo de dados segundo R.Kimball - Dimensional
MODELO ESTRELA
 Facilita o entendimento dos termos de negócio para o usuário;
 Composto:
 Tabela de fatos ao centro (tabela dominante)
 Tabelas de dimensão (tabelas conectadas aos fatos)
 A tabela de fatos contém milhares ou milhões de valores
Data Warehouse - Modelo de Dados
 Modelo de dados segundo R.Kimball - Dimensional
MODELO ESTRELA
DIMENSÃO PRODUTO
chave_produto
descrição
marca
categoria
FATOS VENDAS
chave_tempo
chave_produto
chave_loja
reais_vendidos
unidades_vendidas
DIMENSÃO LOJA
chave_loja
nome_loja
endereço
tipo
Data Warehouse - Modelo de Dados
 Modelo de dados segundo R.Kimball - Físico
 Propósito: alcançar os objetivos de desempenho;
 Depende de:
 SGBD
 Configuração de Hardware
 Utilização de processamento paralelo.
Data Warehouse - Modelo de Dados
 Modelo de dados segundo W.H.Inmon
 Dividido em:
 Modelo de alto nível;
 Modelo de nível intermediário;
 Modelo de baixo nível.
Data Warehouse - Modelo de Dados
 Modelo de dados segundo W.H.Inmon - Alto nível
 Apresenta-se somente as entidades e seus relacionamentos;
 Mais alto nível de abstração.
CLIENTE
PEDIDO
ESTOQUE
PRODUÇÃO
Data Warehouse - Modelo de Dados
 Modelo de dados segundo W.H.Inmon - Nível Intermediário
 Criado à partir de áreas de interesse ou entidades;
 Para cada área de interesse ou entidade é criado:
 Agrupamento primário: atributos que aparecem uma vez;
 Agrupamento secundário: atributos que aparecem mais
de uma vez;
 Conector: representa os relacionamentos;
 Tipo dos dados.
Data Warehouse - Modelo de Dados
 Modelo de dados segundo W.H.Inmon - Nível Intermediário
PRODUTO
chave_produto
descrição
marca
categoria
AGRUPAMENTO
PRIMÁRIO
PRODUTO_VENDA
nr_venda
chave_produto
VENDAS
chave_tempo
nr_venda
reais_vendidos
AGRUPAMENTO
SECUNDÁRIO
CONECTOR
Data Warehouse - Modelo de Dados
 Modelo de dados segundo W.H.Inmon - Baixo Nível
 Expande o nível intermediário para que:
 Apresente chaves;
 Características físicas;
 Características de desempenho.
Data Warehouse - Modelo de Dados
Estratégia de conversão do modelo E-R para o modelo DW
 Remoção dos dados puramente operacionais:
MODELO E-R
MODELO DW
#ID Nota Fiscal
Data de Emissão
ID Consumidor
Mensagem
Descrição
Termos
Status
#ID Nota Fiscal
Data de Emissão
ID Consumidor
DADOS OPERACIONAIS
Data Warehouse - Modelo de Dados
Estratégia de conversão do modelo E-R para o modelo DW
 Adição de um elemento de tempo na estrutura da chave:
MODELO E-R
MODELO DW
#ID Consumidor
Nome
Data de Nascimento
Estado Civil
Limite de Crédito
#ID Consumidor
#Data do Snapshot
Nome
Data de Nascimento
Estado Civil
Limite de Crédito
Data Warehouse - Modelo de Dados
Estratégia de conversão do modelo E-R para o modelo DW
 Introdução de dados derivados:
MODELO E-R
MODELO DW
#ID Nota Fiscal
# Item
Código do Produto
Quantidade
Preço Unitário
#ID Nota Fiscal
# Item
Código do Produto
Quantidade
Preço Unitário
Total Comprado
Custo do Produto
DADOS
DERIVADOS
Data Warehouse - Modelo de Dados
Estratégia de conversão do modelo E-R para o modelo DW
 Transformação de Relacionamento entre dados em artefatos
de dados:
MODELO E-R
MODELO E-R
MODELO DW
PRODUTO
# Código do Produto
Descrição
Unidade de Medida
FORNECEDOR PROD.
# Código do Produto
# Código do Consum.
Fornecedor Preferido
PRODUTOS
#Código do Produto
Descrição
Unidade de Medida
Fornecedor Preferido
Cidade do Fornecedor
Estado do Fornecedor
Data Warehouse - Modelo de Dados
Estratégia de conversão do modelo E-R para o modelo DW
 Acomodação dos diferentes níveis de granularidade:
MODELO DW
MODELO E-R
ATIVIDADE DE ENTREGA
Data da Entrega
Código da Entrega
Enviado por
Enviado para
Quantidade
CÓDIGO DO PEDIDO
INVENTÁRIO POR ITEM
ENTREGAS MENSAIS
#Ano/Mês
Número de Entregas
Valor da Entrega
MODELO DW
SUMAR.POR PRODUTO
#Ano/Mês
# Produto
Número de Entregas
Valor da Entrega
Data Warehouse - Modelo de Dados
Estratégia de conversão do modelo E-R para o modelo DW
 União dos dados comuns de diferentes tabelas:
 Devem ser respeitadas as seguintes condições:
 As tabelas compartilham uma chave comum(ou parcial)
 Os dados das diferentes tabelas são usados juntos
 O Padrão de inserção nas tabelas é o mesmo.
Data Warehouse - Modelo de Dados
Estratégia de conversão do modelo E-R para o modelo DW
 Criação de arrays de dados:
MODELO E-R
#COD.Previsão Gasto
Gasto Mensal/Anual
Valor do Gasto
MODELO DW
#COD.Previsão Gasto
# Ano
Valor em Janeiro
Valor em Fevereiro
...
Valor em Dezembro
Data Warehouse - Modelo de Dados
Estratégia de conversão do modelo E-R para o modelo DW
 Separação dos atributos de dados de acordo com
sua estabilidade:
TABELA DE PREÇOS
Código
Descrição
Principal substituta
Quantidade atual
Unidade de compra
Fornecedor
Prazo de entrega
Taxa de rejeição
Transportadora
Local última entrega
Manifesto carga
Raramente é
Alterada
Regularmente é
Alterada
Freqüentemente é
Alterada
Data Warehouse - Desenvolvimento
 Funções no desenvolvimento de um DW:
 Gerente do DW
 Arquiteto de Dados
 Administrador de metadados
 Administrador de BD
 Usuário de nível gerencial
 Analista de processos e aplicações
 Especialista em Aplicações Operacionais
 Analista e programador de conversões
 Especialista em suporte técnico
 Instrutor
Data Warehouse - Desenvolvimento
“Muitas empresas iniciam o processo de Data Warehouse
a partir de uma área específica que normalmente é uma
área carente de informações e cujo trabalho seja relevante
para os negócios da empresa, criando Data Marts, para
depois ir crescendo aos poucos, seguindo uma estratégia
bottom-up ou assunto-por-assunto e assim obtendo um
Data Warehouse corporativo”
Adriano Dal’Alba - Universidade Federal de Caxias - RS
http://www.geocities.com/SiliconValley/Port/5072
Dezembro 1998
Data Warehouse - Desenvolvimento
“Empresas que têm exigências mais modestas, como as
que necessitam construir DW para departamentos individuais podem escolher em construir pequenos Data Marts
que utilizam uma arquitetura baseada em rede”
Adriano Dal’Alba - Universidade Federal de Caxias - RS
http://www.geocities.com/SiliconValley/Port/5072
Dezembro 1998
Data Warehouse - Desenvolvimento
“Pela complexidade de fatores que envolvem um DW
corporativo integral, a construção do projeto é lenta e cara
Para equilibrar os gastos e oferecer resultados em prazos
mais curtos é possível construir Data Marts que são pequenos DW departamentais. Entre as principais vantagens da
utilização de Data Marts está a redução de tempo de implementação (120 dias) e o fator preço (US$ 50 mil a US$ 1
milhão).
Sendo que um DW leva cerca de um ano para ser concluído
e gastos iniciais em torno de US$ 2 milhões”
Adriano Dal’Alba - Universidade Federal de Caxias - RS
http://www.geocities.com/SiliconValley/Port/5072
Dezembro 1998
Data Warehouse - Desenvolvimento
X
Y
Z
DATA
MART
DATA
MART
DATA
MART
DATA
MART
Vendas
Compras
Marketing
Outros
W
DATA WAREHOUSE
Data Warehouse - Extração de Informações
 Formas de extração de dados de um DW:
 Relatórios
 Consultas
 EIS
 Ferramentas de OLAP
 Ferramentas de Data Mining
 Todas estão com tendências de integração com a WEB
Data Warehouse - Extração de Informações
 Formas de acesso ao DW:
 Acesso direto
 Acesso indireto
Data Warehouse - Extração de Informações
 ACESSO DIRETO:
 É uma ocorrência rara
 Sofre uma série de limitações:
 Uma solicitação pode levar 24 horas para ser atendida
 A solicitação deve ser referente a qtde mínima de dados
 Deve existir compatibilidade entre DW e Ambiente Oper.
 Não deve existir formatação de dados
Data Warehouse - Extração de Informações
 ACESSO DIRETO:
APLICAÇÃO
OPERACIONAL
CONSULTA
DATA
WAREHOUSE
RESULTADO DA CONSULTA
Data Warehouse - Extração de Informações
 ACESSO INDIRETO:
 O que normalmente se utiliza
 Eficiente
 Muito rápido
Data Warehouse - Extração de Informações
 ACESSO INDIRETO:
APLICAÇÃO
OPERACIONAL
ARQUIVO DE
INFORMAÇÕES
DATA
WAREHOUSE
PROGRAMA
DE ANÁLISE
Data Warehouse - Conclusões
 Vantagens:
 Simplicidade
 Qualidade dos dados
 Acesso rápido
 Facilidade de uso
 Separa as operações de decisão das de produção
 Vantagem competitiva
 Custo de operação
 Administração do fluxo das informações
Data Warehouse - Conclusões
 Vantagens (continuação):
 Habilidade de processamento paralelo
 Infra-estrutura computacional
 Valores quantitativos
 Segurança
Data Warehouse - Conclusões
 Desvantagens:
 Complexidade de desenvolvimento
 Tempo de desenvolvimento
 Alto custo de desenvolvimento e administração
 Treinamento
 Dificuldade na coleta de dados
 Dimensão de discos e CPUs
Data Warehouse - Bibliografia
 Data Warehouse - Monografia
Adriano Dal’Alba - Universidade Federal de Caxias - RS
http://www.geocities.com/SiliconValley/Port/5072
Dezembro 1998
 Building a Data Warehouse for Decision Support
Vidette Poe - Prentice Hall
ISBN 0-13-371121-8
 The Intranet Data Warehouse
Richard Tanler - Wiley
ISBN 0-471-18004-1
Download

Data Warehouse - Modelo de Dados