Tec
BD
PUC-Rio
Data Warehousing
(UFPA)
Prof. Rubens Melo
Data Warehousing
Tec
BD
PUC-Rio
Data Warehousing
Data Warehouse (DW) é um tipo de Banco de Dados
(BD) voltado ao apoio à tomada de decisões gerenciais
e estratégicas. Esta tecnologia visa promover melhores
negócios à empresa a partir de análises da grande
quantidade de informação que se encontra distribuída
por diversos sistemas de produção e sistemas externos.
O projeto e a implementação de um DW requerem a
utilização de conceitos, técnicas e ferramentas
diferentes das utilizadas nos BDs convencionais.
Data Warehousing
Tec
BD
PUC-Rio
Data Warehousing
 Introdução: Evolução da TI
 Nova tecnologia de BD e DW
Data Warehousing
Tec
BD
PUC-Rio
TECNOLOGIA DA INFORMAÇÃO
TECNOLOGIA
DE
INTERFACE
HOMEM
MÁQUINA
Data Warehousing
TECNOLOGIA
DE REDE
TECNOLOGIA
DE
PROCESSA
MENTO
TECNOLOGIA
DE
ARMAZE
NAMENTO
Tec
BD
PUC-Rio
DEFINIÇÃO DE BANCO DE DADOS
• É o componente da Tecnologia
da Informação voltado para o
armazenamento da informação,
cuja estrutura e comportamento
devem propiciar esse
armazenamento de forma
persistente e consistente.
Data Warehousing
Tec
BD
PUC-Rio
DEFINIÇÃO DE BANCO DE DADOS
Data Warehousing
Tec
BD
PUC-Rio
EVOLUÇÃO DOS BD
SISTEMAS DE
ARQUIVOS
BD REDES
BD HIERÁRQUICOS
BD RELACIONAIS
LINGUAGENS OO
HIPERMÍDIA
BD
SEMÂNTICOS
BD OO
OBJETOS
COMPLEXOS
INTELIGÊNCIA
ARTIFICIAL
RECUPERAÇÃO
DA INFORMAÇÃO
BD
INTELIGENTES
Data Warehousing
Tec
BD
PUC-Rio
FATORES MOTIVADORES
BANCOS DE DADOS
HIERÁRQUICOS
BANCOS DE DADOS
DE REDES
LIMITAÇÕES
HUMANAS
(modelos)
BANCOS DE DADOS
RELACIONAIS
BANCOS DE DADOS
SEMÂNTICOS
BANCOS DE DADOS
OO
BANCOS DE
CONHECIMENTO
Data Warehousing
Tec
BD
PUC-Rio
FATORES MOTIVADORES
BANCOS DE DADOS
CLIENT/SERVER
LIMITAÇÕES
TECNO
LÓGICAS
BANCOS DE DADOS
DISTRIBUÍDOS
BANCOS DE DADOS
PARALELOS
DATA WAREHOUSE
Data Warehousing
Tec
BD
PUC-Rio
Metodologias x Recursos
Métodos de Especificação de Sistemas
Orientados a Processos (Gane, De Marco, .... )
Orientados a Dados
(Chen, .... )
Orientados a Objetos (OMT, Booch, ....UML )
WEB
Objetos distribuídos, CORBA, Internet, Intranet, .... OO
Cliente / Servidor
rede
micro
melhoria de
mini
tecnologia de
hardware
main frame
Recursos de Hardware, Software e Rede
Data Warehousing
Tec
BD
PUC-Rio
Departamento de Informática
Tec
BD
PUC-Rio
Data Warehousing
(Conceitos)
Data Warehousing
Tec
BD
PUC-Rio
William Inmon
cunhou o termo
em 1990
Data
Warehouse
 Suporte à decisão
 Não volátil
 Variante no tempo
 Orientado a assunto
Data Warehousing
OLAP
+ Data
Mining
Tec
BD
PUC-Rio
DWing
ÁREAS DE APLICAÇÃO
• Marketing
• Controle Operacional
– Produtividade
– Custos/Margem
• Planejamento Estratégico
Data Warehousing
Tec
BD
PUC-Rio
DWing
EXEMPLOS DE
APLICAÇÃO
• Marketing Orientado
ao Cliente
• Análise de Crédito
• Gestão de Produto
• Gestão de Canais de
Venda
Data Warehousing
• Quais clientes me dão maior
lucro?
• Como atrair novos clientes e
fidelizar os antigos?
• Como me antecipar às
necessidades dos clientes?
• A quais clientes devo oferecer
tal produto?
• Quais podem ter crédito préaprovado?
Tec
BD
PUC-Rio
DWing
EXEMPLOS DE
APLICAÇÃO
• Marketing Orientado
ao Cliente
• Análise de Crédito
• Gestão de Produto
• Gestão de Canais de
Venda
Data Warehousing
• O método para previsão de
risco é eficaz?
• Como é a variação de
inadimplência por região
demográfica e por produto?
• Qual é o meu mercado para
um novo produto de crédito?
Tec
BD
PUC-Rio
DWing
EXEMPLOS DE
APLICAÇÃO
• Marketing Orientado
ao Cliente
• Análise de Crédito
• Gestão de Produto
• Gestão de Canais de
Venda
Data Warehousing
• Onde há oportunidade de
venda do novo produto para
os atuais clientes?
• Quem está comprando meu
produto, como e onde?
• Qual é o produto mais
rentável em cada grupo?
• Qual é o efeito da
descontinuação de um
produto no lucro total?
Tec
BD
PUC-Rio
DWing
EXEMPLOS DE
APLICAÇÃO
• Marketing Orientado
ao Cliente
• Análise de Crédito
• Gestão de Produto
• Gestão de Canais de
Venda
Data Warehousing
• Como mudar as transações mais
freqüentes, mais demoradas ou
que exijam mais pessoas, para os
canais de venda mais baratos?
• Como aumentar a participação no
mercado?
• Como oferecer mais produtos e
com custos menores?
• Como utilizar melhor os canais de
venda como instrumentos de
marketing?
Tec
BD
PUC-Rio
DW
O que é um Data Warehouse?
Um Data Warehouse é um conjunto de
dados de apoio às decisões gerenciais,
integrado, não-volátil, variável em relação
ao tempo e baseado em assuntos.
William Inmon
Data Warehousing
Tec
BD
PUC-Rio
Fontes de Dados Internos
 Sistemas de contas a pagar
 Sistemas financeiros
BD1
.....
BD4
 Sistemas de vendas
BDn
 Múltiplos BDs
 Múltiplas redes de
BD2
BD3
Data Warehousing
 Sistemas
de Múltiplas
produção plataformas de
sistemas operacionais
 Sistemas logísticos
 Sistemas
de Múltiplas
pessoal plataformas de
HW
comunicação
Tec
BD
PUC-Rio

Data
Warehouse
Repositório de dados
corporativos extraídos
de transações de
sistemas de produção
sistemas para acesso
“ad hoc” por
“knowledge workers”
Data Warehousing


Consolida dados
operacionais e
históricos
Atualizações são,
freqüentemente,
periódicas ou em
“batch”, em vez
de em tempo real
Deve ter alta disponibilidade de uso
Tec
BD
PUC-Rio
DW armazena muitas visões de dados
Geografia
Pedidos
Renda
Capital
Estoque
R
e
c
u
r
s
o
s
Produto
Indústria
Organização
Negócio
Empresa
Uso
T
e
m
p
o
História
Real
Prognóstico
Qualidade
Estratégica
Data Warehousing
Gerencial
Operacional
Tec
BD
PUC-Rio














Clientes
Transações
Financeira
Inventário
R/ H
Pedidos
Pesquisas
.........
Dados
Fontes
Dados
Operacionais
Demográfica
Sociais
Mapeamento
Tempo
Econômica
.........
Dados
Externos
Data Warehousing








Relacional
Multidimensional
Texto
Imagem
Vídeo
Áudio
Espacial
.........
Acesso
DW
 Ferramentas
relacionais
 Ferramentas OLAP
 Data Mining
 .........
Knowledge
Workers
Analistas
.....
Executivos
Tec
BD
PUC-Rio
O que é Data Warehousing?
Data Warehousing não é um produto, e sim uma estratégia
que reconhece a necessidade de se armazenar dados,
separadamente, em sistemas de informação e consolidá-los,
de forma a assistir diversos profissionais de uma empresa na
tomada de decisões de modo rápido e eficaz.
ETLM
DW
Ferramentas OLAP/BI
Data Warehousing
Tec
BD
PUC-Rio
DM
O que são Data Marts?
Data Marts são subconjuntos departamentais
focados em assuntos selecionados (e.g., um
data mart de marketing pode incluir
informações de vendas, produtos e clientes).
Chaudhuri & Dayal
Data Warehousing
Tec
BD
PUC-Rio
O que é um software OLAP?
OLAP = “Online Analytical Processing”
Suportam a análise sofisticada, atendem a um
número de dimensões significativamente
elevado e possibilitam a análise do negócio a
partir de grandes conjuntos de dados.
Microstrategy Incorporated
Data Warehousing
Tec
BD
PUC-Rio
OLTP x OLAP
C ARACTERÍSTICAS
APLICAÇÃO OLTP
APLICAÇÃO OLAP
OPERAÇÃO TÍPICA
atualização
análise
TELAS
não alteráveis
definidas pelo usuário
DADOS POR TRANSAÇÃO
poucos
muitos
NÍVEL DO DADO
detalhado
agregado
IDADE DO DADO
atual
histórica, atual e projetada
ORIENTAÇÃO
registros
vetores, séries de tempo
Data Warehousing
Tec
BD
PUC-Rio
Sistemas OLTP
 Folha de pagamento
 Contas a pagar
 Compra de produtos
 Controle de estoque
Sistemas
OLTP
Acumulam dados
detalhados a partir das
operações do
dia-a-dia dos negócios
On-Line Transaction Processing
Data Warehousing
Tec
BD
PUC-Rio
Sistemas OLAP
São projetados para
suportar os requisitos de
dados “ad hoc” dos
usuários
 Prognóstico
Sistemas
OLAP
 Perfil
 Relatório resumo
 Análise de tendências
On-Line Analytical Processing
Data Warehousing
Tec
BD
PUC-Rio
A Separação entre BD Operacional
e BD Informacional
São diferentes
 Dados para necessidades
operacionais
 Dados para necessidades
informacionais ou
analíticas
 Tecnologia de suporte
para processamento
operacional
 Tecnologia de suporte
para processamento
informacional ou analítico
 Comunidade de usuários
(Operacionais)
 Comunidade de usuários
(tomadores de decisão)
Data Warehousing
Tec
BD
PUC-Rio
O que é um ODS?
ODS
Um Operational Data Store (ODS) é um
conjunto de dados baseado em assuntos,
integrado, volátil (pode ser atualizado), atual
ou recente, de apoio às decisões operacionais
do dia-a-dia.
William Inmon
Data Warehousing
Tec
BD
PUC-Rio
Resumo do Fluxo de Dados
ODS
(dado corrente
ou quase corrente,
dado detalhado)
Transforma dado
e alimenta
Sistemas Transacionais
(dado corrente)
Pode alimentar
Data Warehouse
(dado histórico)
Pode alimentar
Transforma dado
e alimenta
Data Mart
(subconjunto de dados,
dados resumidos,
dados históricos, etc.)
Metadado
Data Warehousing
Tec
BD
PUC-Rio
Prática
1.
2.
3.
4.
Responda sucintamente as questões abaixo
Diferencie aplicações OLTP de aplicações
OLAP.
Exemplifique consultas OLAP vs OLTP.
Diferencie os objetivos de um DW de um
Data Mart e de um ODS .
Cite fatores críticos de sucesso de um projeto
de DW.
Data Warehousing
Tec
BD
PUC-Rio
Departamento de Informática
Tec
BD
PUC-Rio
Data Warehousing
(Arquitetura)
Data Warehousing
Tec
BD
PUC-Rio
Histórico: Evolução dos “relatórios gerenciais”
Sistema
Operacional
BDs de
produção /
arquivos
Sistema
Operacional
BDs de
produção /
arquivos
Data Warehousing
Relatórios para
usuários finais e
gerência
Relatórios para
usuários finais e
gerência
Todos os relatórios
produzidos pela
Tec
área de sistemas
BD
PUC-Rio
Evolução dos “relatórios gerenciais”
Relatórios
predefinidos
Sistema
Operacional
usuário
final
BDs de
produção /
arquivos
usuário
final
Relatórios
customizados
usuário
final
Sistema
Operacional
usuário
final
BDs de
produção /
arquivos
usuário
final
usuário
final
Data Warehousing
Acesso de
usuários finais
a sistemas de
produção
Estruturas de
dados “Legacy”
não são
projetadas para
quem não é de
Tec
sistemas
BD
PUC-Rio
Evolução dos “relatórios gerenciais”
Relatórios
predefinidos
Sistema
Operacional
usuário
final
BDs de
produção /
arquivos
usuário
final
usuário
final
Sobrecarga do
ambiente de
produção
usuário
final
 Acesso de usuários finais tem impacto negativo na performance
dos sistemas OLTP
 Usuários finais devem acessar dados localizados em BDs de
múltiplos sistemas
 Mostrou que o acesso de usuário final devia ser “off-loaded’
Tec
Data Warehousing
BD
PUC-Rio
Evolução dos “relatórios gerenciais”
Sistema
Operacional
BDs de
produção /
arquivos
Sistema
Operacional
BDs de
produção /
arquivos
Data Warehousing
Acesso de Usuários Finais
a Extratos de Dados
usuário
final
usuário
final
usuário
final
usuário
final
Tec
BD
PUC-Rio
Evolução dos “relatórios gerenciais”
Sistema
Operacional
BDs de
produção /
arquivos
Acesso de Usuários Finais
a Extratos de Dados
usuário
final
Extrator
usuário
final
Sistema
Operacional
BDs de
produção /
arquivos
usuário
final
Extratos
de dados
usuário
final
 Computação de usuário final é off-loaded do ambiente

operacional
Ambiente de (DSS) Decision Suport Systems é energizado
Data Warehousing
Tec
BD
PUC-Rio
Porém, mesmos dados, resultados diferentes..
Extrator
Sistema
Operacional
Extrator
BDs de
produção /
arquivos
usuário
final
Extratos de dados
Sistema
Operacional
BDs de
produção /
arquivos
Data Warehousing
usuário
final
Extrator
usuário
final
usuário
final
usuário
final
usuário
Extratos
Dadosde
coletados
em diferentes
tempos
dados
final
 Algoritmos diferentes
 Grupos
diferentessemânticas
obtêm resultados
 Diferentes
diferentes
- credibilidade
em risco !
 Fontes
externas diferentes
Tec
BD
PUC-Rio
2 Arquiteturas
 Data Warehouse
 Data Mart
mutuamente
exclusivas
Data Warehousing
Tec
BD
PUC-Rio
Arquitetura de Acoplamento Forte: DW
Compras
Vendas
Estoque
.....
Folha Pgto
Fontes de
Produção
EXTRAÇÃO
DW
da Empresa
ARQUITETURA DE DADOS UNIFICADA /
MODELO DE DADOS DA EMPRESA
Servidor
da Empresa
ACESSO
Desktops
Inteligentes
Logística
Data Warehousing
Vendas
Marketing
Planejamento
Estratégico
Controle
Tec
BD
PUC-Rio
Data Warehouse
Sistema
Operacional
BDs de
produção /
arquivos
O DW é um BD alimentado por um
ou mais BDs
de transações,
O DW
é o centrosendo
quedeosdistribuição
dados são “limpos”
para eos
reestruturados
para
suportar
dados
de
produção
!
consultas, resumos e análise.
DW
usuário
final
Sistema
Operacional
DW - BD
BDs de
produção /
arquivos
Data Warehousing
usuário
final
usuário
final
Tec
BD
PUC-Rio
Arquitetura de Acoplamento Fraco: DM
Compras
Vendas
.....
Estoque
Folha Pgto
Dados de
Produção
EXTRAÇÃO
DM
Workgroup e
Dept Servers
VSAM
RDBMS
MDDBMS
ACESSO
Desktops
Inteligentes
Logística
Data Warehousing
Vendas
Marketing
Planejamento
Estratégico
Controle
Tec
BD
PUC-Rio
Data Marts
Sistema
Operacional
BDs de
produção /
arquivos
Sistema
Operacional
BDs de
produção /
arquivos
DM
usuário
final
DW
BD
customizado
usuário
final
usuário
final
DM
DW - BD
usuário
final
BD
customizado
usuário
final
usuário
final
DMs
são extraem
subconjuntos
de um DW,
que focalizam
DMs
e ajustam
porções
de DWsuma
aosou mais
áreas
específicas.
Seus dados
obtidos
do DW, desnormalizados
requisitos
específicos
desão
grupos
/ departamentos
!
e indexados para suportar intensa pesquisa Tec
Data Warehousing
BD PUC-Rio
DM em Servidor OLAP
Sistema
Operacional
BDs de
produção /
arquivos
Sistema
Operacional
BDs de
produção /
arquivos
Data Warehousing
SGBDr
Servidor
OLAP
usuário
final
usuário
final
DW - BD
BD
multidimensional
usuário
final
Porções de DWs copiadas para um BD
multidimensional para otimizar
análise de dados
Tec
BD
PUC-Rio
Arquitetura Híbrida
Compras
Vendas
.....
Estoque
Folha Pgto
Fontes de
Produção
EXTRAÇÃO
DW
da Empresa
ARQUITETURA DE DADOS UNIFICADA /
MODELO DE DADOS DA EMPRESA
Servidor
da Empresa
DM
Workgroup e
Dept Servers
EXTRAÇÃO
VSAM
EXTRAÇÃO
MDDBMS
RDBMS
ACESSO
Desktops
Inteligentes
Logística
Data Warehousing
Vendas
Marketing
Planejamento
Estratégico
Controle
Tec
BD
PUC-Rio
Ferramentas OLAP em DWing
1) P/ Consulta e Relatórios simples
2) OLAP tools
ROLAP
MOLAP
HOLAP
DOLAP
EIS
Data Mining
3) Web OLAP
Data Warehousing
Tec
BD
PUC-Rio
Projeto: Abordagem Evolucionária
Iterativa
 Começar pequeno
 Provar utilidade
 Construir sobre sucessos
 Preservar visão de DW
Data Warehousing
Tec
BD
PUC-Rio
Área Piloto
 Área de negócio prioritária,
de interesse imediato da empresa
 Área fértil para mostrar os
benefícios de Data Warehousing
 Área de risco moderado para
Data Warehousing
Data Warehousing
Tec
BD
PUC-Rio
DWing (termos)
Data Warehousing
Tec
BD
PUC-Rio
Departamento de Informática
Tec
BD
PUC-Rio
Data Warehousing
(DW, DM, ODS)
Data Warehousing
Tec
BD
PUC-Rio
Arquiteturas de DW
e
Abordagens
de
Implementação
Data Warehousing
Tec
BD
PUC-Rio
Arquiteturas e Abordagens de
Implementação
• Arquitetura adequada é fundamental =>
–
–
–
–
Qual a Infra-estrutura disponível?
Porte da empresa
Escopo desejado
Recursos...
• Abordagem de Implementação =>
– Bottom-up (DMs) vs Top Down (DW/DMs)
– Tempo, satisfação do usuário,...
Data Warehousing
Tec
BD
PUC-Rio
Arquiteturas
• Arquitetura DW global
– Centralizada
– Distribuída
• Arquitetura Data Marts
– Independentes
– Integrados (difícil)
Data Warehousing
Tec
BD
PUC-Rio
DW e Data Marts
Sistema
Operacional
BDs de
produção /
arquivos
Sistema
Operacional
BDs de
produção /
arquivos

DM
usuário
final
DW
BD
customizado
usuário
final
DM
DW - BD
usuário
final
usuário
final
BD
customizado
DMs extraem e ajustam porções de DWs aos
requisitos específicos de grupos /
departamentos
Data Warehousing
usuário
final
usuário
final
Tec
BD
PUC-Rio
DM em Servidor OLAP
Sistema
Operacional
BDs de
produção /
arquivos
Sistema
Operacional
BDs de
produção /
arquivos
Data Warehousing
DW
Servidor
OLAP
usuário
final
usuário
final
DW - BD
BD
multidimensional
usuário
final
 Porções de DW são copiadas
para um BD multidimensional
para otimizar análise de dados
Tec
BD
PUC-Rio
Abordagens de Implementação
• Top Down
– Análise das fontes de dados
– Extração Transformação e Carga (ETL)
• Uso de ODS (Staging Area)
• Dados e Metadados
– DW => Data Marts
– Dados e metadados
Data Warehousing
Tec
BD
PUC-Rio
ODS-DDS-Staging Area...
• Que é ODS? E DDS?
– Operational vs Dynamic
– Hoje ODS são chamados DDS
– ODS permite análises no ambiente operacional e
auxilia carga de DW
– DDS pode ir crescendo ao longo do tempo com
alterações incrementais
• Staging Area é necessária quando a preparação
(limpeza, sincronizacao etc) é complexa.
Data Warehousing
Tec
BD
PUC-Rio
Abordagens de Implementação
• Bottom UP
– Começa por Data Marts para grupos
independentes de usuários
• Seleciona Fontes de Dados
• Modela os DMs com MMD
• Gera DMs
• Cria as aplicações OLAP
• Depois integra (difícil..) os DMs
Data Warehousing
Tec
BD
PUC-Rio
Vantagens e Desvantagens
• Top Down Vantagens
–
–
–
–
Facilita Manutenção
Visão horizontal
Dados e Metadados centralizados
Controles e regras (ETL) centralizados
• Top Down Desvantagens
– Implem. mais lenta=>Expectativas?
– Maior risco (projeto global)
Data Warehousing
Tec
BD
PUC-Rio
Vantagens e Desvantagens
• Bottom UP Vantagens
– Rapidez
– Ganha confiança e mais investimento
• Bottom UP Desvantagens
– “LegaMarts” (DMs viram legacy)
– Perde-se a visão horizontal
– Múltiplas equipes, ferramentas etc
– Competição entre os DMs
Data Warehousing
Tec
BD
PUC-Rio
Abordagens de Implementação
• DW incremental
– Começa a modelagem global de DW
– Inicia um Data Mart piloto
– Vai criando outros DMs e integrando-os
mantendo a visão horizontal
– Mantem DW e DMs
Data Warehousing
Tec
BD
PUC-Rio
Departamento de Informática
Tec
BD
PUC-Rio
Data Warehousing
(Introdução a Modelagem)
Data Warehousing
Tec
BD
PUC-Rio
Questões importantes para
Modelagem Dimensional
• O modelo ER é orientado a “entidades e
relacionamentos” (object)
• O modelo MMD é orientado a assunto (fato) (subject)
• Modelo ER --> OLTP
• Modelo MMD -> OLAP
• Modelo ER -> BD Relacional Normalizado (BD
volátil)
• Modelo MMD -> BD Relacional Não Normalizado
(BD não volátil)
Data Warehousing
Tec
BD
PUC-Rio
Introdução à Modelagem
Dimensional
•
•
•
•
•
•
Fato: Venda
Quando ? (Tempo)
O que ? (Ex.: Produto) (o “que” analisar do fato)
Onde ? (Localização Geográfica)
Quem ? (Ex.: Vendedor) (agente)
Importantíssimo definir as dimensões, os “pontos
cardeais das estrelas” dos fatos
• Uma célula é a interseção de múltiplas dimensões -->
Idéia de cubo
Data Warehousing
Tec
BD
PUC-Rio
Exemplo de uma Fact Table
(Representação relacional de Fatos)
Chaves que juntam
os fatos às dimensões
Medidas
Prod_Code
Time_Code
Acct_Code
Sales
Qty
101
102
103
103
104
2045
2045
2046
2046
2046
501
501
501
502
502
100
225
200
250
20
1
2
20
25
1
Data Warehousing
Tec
BD
PUC-Rio
Time
Exemplo de um Star-Schema
Time code
Quarter code
Quarter code
Date
Month code
Month Name
Day code
Day of week
Season
Account
Account code
Key Account code
Key account name
Account name
Account type
Account market
Data Warehousing
Sales
Geography code
Time code
Account code
Product code
Sales
Qty
Geography
Geography code
Region code
Region manager
State code
City code
City name
Zip code
Product
Product code
Product name
Brand manager
Brand name
Prod. line code
Prod. line name
Product name
Product color
Product model
Tec
BD
PUC-Rio
Questões importantes para
Modelagem Dimensional
• “Comprador c comprou produto p no lugar l no
tempo t em qtidade q, a preço unit u, etc”
• Quando ? (t) Ex.: Mes, trimestre, ano etc
• O que ? (p) Ex.: sapato, gênero de filme,..
• Onde ? (l) Ex.: Norte, SP, Belem, Brasil
• Quem ? (c) Ex.: Jovens, Classe b, ...
• Fato: Compra (Outros exs: Venda, Exib de filme
• Medidas do fato: q,u,...
• O Modelo Dimensional vem do modelo ER ?
Data Warehousing
Tec
BD
PUC-Rio
Prática de Modelagem
• Uma distribuidora de filmes tem sistema de
controle de seus filmes que contrata dos vários
estúdios
• Filmes são exibidos em sessões diárias em
salas de cinema (com diferentes capacidades)
espalhadas por cidades, estados, regiões do
pais.
• Os clientes buscam filmes por ator, diretor,
gênero, país etc
Data Warehousing
Tec
BD
PUC-Rio
Exercício de Modelagem
• A distribuidora já tem um sistema (OLTP) com
um BD para controle.
• Ex1: Faça um ER do modelo transacional do
BD da distribuidora
Data Warehousing
Tec
BD
PUC-Rio
ER Transacional do exercício
•
•
•
•
•
•
Filme(f,) (0:n) <passa no> (0:n) Cinema(c,)
Filme(f,) (1:1) <vem do> (1:n) Estúdio(e,)
Filme(f,) (1:1) <dirigido por> (0:n) Diretor(d,e,)
Diretor(d,e,) (1:1) <é-do> (1:n) Estúdio(e,)
Ator(a,) (0:n) <atua no> (0:n) Filme(f,)
Diretor(d,e,) (0:1) <é-um> (0:1) Ator(a,)
Data Warehousing
Tec
BD
PUC-Rio
Exercício de Modelagem
• Acontece que os diretores querem analisar seus
negócios e sentiram a necessidade de um DW.
• Após entrevistas com executivos da distribuidora
apareceram requisitos de informação:
– Evolução de público e $$ arrecadado por região,
estado e cidade classificados por gênero e sala.
– Evolução de exibição de filmes por ator e diretor
– Evolução de público por ator e diretor
– Como lançar filmes por períodos do ano
Data Warehousing
Tec
BD
PUC-Rio
Data Warehousing
Tec
BD
PUC-Rio
Exercício de Modelagem
• Ex2: Projetar o DW com MMD
• Qual o fato?
• Quais as dimensões?
–
–
–
–
Onde acontece? (Geo)
Quando? (tempo)
O que? (outras dimensões de análise)
Quem? (agente)
• Quais as medidas do fato?
• Ex3 Esse DW pode sair do ER anterior?
• Ex4: Represente em tabelas esse DW e chequeTec
Data o
Warehousing
com as análises pedidas
BD
PUC-Rio
Tecnologia DW ou OLAP ?
• São diferentes mas complementares
• Tecnologia DW
– Usada efetivamente para armazenar e manter informações
• OLAP
– Usado para recuperar informações (não volátil)
• Tecnologias de DW e OLAP são complementares
– DW deve ser projetado pensando-se na recuperação e
visualização dos dados (OLAP)
– Construir um DW isolado (s/OLAP) é uma fórmula para o
fracasso
– Total exploração do DW depende de OLAP
Data Warehousing
Tec
BD
PUC-Rio
Tecnologia DW e OLAP
• DW usa, basicamente, tecnologia relacional (Oracle,
DB2, Sybase, SQL Server ...) embora não seja BD p/
OLTP
• OLAP usa visões multidimensionais dos dados para
rápido acesso a informações estratégicas
• OLAP normalmente utiliza arquitetura proprietária
• Os dados, na visão multidimensional de OLAP, são
freqüentemente agregados para maximizar sua
eficiência (não normalizados)
Data Warehousing
Tec
BD
PUC-Rio
Tecnologia DW e OLAP
• Dimensões descrevem os componentes de uma área
de análise (subject) e o modo para localização de
valores medidos (nos fatos)
• A habilidade de organizar os dados do modo que os
usuários conhecem seus dados é a tal
multidimensionalidade
• Esta habilidade é o que realmente distingue os
sistemas OLAP dos sistemas tradicionais
• OLAP se aplicam bem em Data Marts
Data Warehousing
Tec
BD
PUC-Rio
Modelagem de DW
Para o DW central é necessário


Criar um modelo de dados
conceitual (ER’ ?)
Otimizar esse modelo apropriadamente para a recuperação de dados
(desnormalizar?) e para suporte à
decisão (agregar?)
Data Warehousing
Tec
BD
PUC-Rio
Modelagem de DW - Itens Críticos
 Entender as diferenças entre o modelo
corporativo totalmente normalizado
(objeto) e um modelo de DW (assunto)
 Transformar o modelo corporativo(ER)
(se existir) em modelo DW:
 Removendo os dados puramente
operacionais (p/ ser informacional)
 Adicionando um elemento de tempo nas
chaves (ficar temporal)
 Incluindo dados resumidos e derivados
no modelo DW (desnormalizar)
Data Warehousing
Tec
BD
PUC-Rio
Modelagem de Dados
Mapeamento de dados operacionais
em informação orientada a assunto


Identifica assuntos de negócios

Nomeia os atributos para cada assunto
de negócio (dimensões)
Define relacionamentos entre assuntos
de negócios (fatos ligados por dim
comuns)
Data Warehousing
Tec
BD
PUC-Rio
ER Transacional => MMD
• Relacionamentos n:n => podem ser fatos (assuntos de
análise)
• Ex. No caso da distribuidora de filmes:
– Filme <passa no> Cinema => fato de interesse
– Ator <atua no> Filme => fato não analisado
• Dica: Primeiro pensar MMD e depois ver de onde
iremos extrair os dados
Data Warehousing
Tec
BD
PUC-Rio
MMD vs ER do exercício
• ER
–
–
–
–
–
–
Filme(f,) (0:n) <passa no> (0:n) Cinema(c,)
Filme(f,) (1:1) <vem do> (1:n) Estúdio(e,)
Filme(f,) (1:1) <dirigido por> (0:n) Diretor(d,e,)
Diretor(d,e,) (1:1) <é-do> (1:n) Estúdio(e,)
Ator(a,) (0:n) <atua no> (0:n) Filme(f,)
Diretor(d,e,) (0:1) <é-um> (0:1) Ator(a,)
• MMD
– Dim: tempo,cidade,ator,diretor,sala,genero
– Fato: Exibição-filme
Data Warehousing
Tec
BD
PUC-Rio
Modelagem de Dados
 Desenvolver um modelo de DW
completo (corporativo) pode ser
complexo e muito demorado...
 Uma melhor abordagem é começar
detalhando alguns assuntos de
interesse imediato para a empresa
(DMs) porém mantendo visão de DW.
Data Warehousing
Tec
BD
PUC-Rio
Enfatizando ER vs MMD
• O modelo ER é orientado a “entidades e
relacionamentos” (object oriented)
• O modelo MMD é orientado a assunto (fato) (subject
oriented)
• Modelo ER --> OLTP, Modelo MMD -> OLAP
• Modelo ER -> BD Relacional Normalizado (BD
volátil)
• Modelo MMD -> BD Relacional Não Normalizado
(BD não volátil)
• Se existir um ER corporativo usá-lo => DW?
• Senão modelar DW usando ER / MMD...
Data Warehousing
Tec
BD
PUC-Rio
Prática: Revisão ERvs MMD
• Porque DW nao é apenas um BD e DMs apenas
Views?
• O que é o modelo MMD? Em que nível ele se aplica
em Modelagem de DW?
• Como se modela DW nos níveis Conceitual, Lógico
e Físico?
• Quais as operações do Modelo Relacional? E do
Modelo MMD?
• Que é: Star schema, Snowflake Schema e
Constelações ? Estes se aplicam em DW ou DM?
• Quais as dimensões tipicas em MMD?
Data Warehousing
Tec
BD
PUC-Rio
Tec
BD
PUC-Rio
Data Warehousing
Prof. Rubens Melo
Data Warehousing
Tec
BD
PUC-Rio
Download

Data Warehousing