Tec BD PUC-Rio Data Warehousing (UFPA) Prof. Rubens Melo Data Warehousing Tec BD PUC-Rio Data Warehousing Data Warehouse (DW) é um tipo de Banco de Dados (BD) voltado ao apoio à tomada de decisões gerenciais e estratégicas. Esta tecnologia visa promover melhores negócios à empresa a partir de análises da grande quantidade de informação que se encontra distribuída por diversos sistemas de produção e sistemas externos. O projeto e a implementação de um DW requerem a utilização de conceitos, técnicas e ferramentas diferentes das utilizadas nos BDs convencionais. Data Warehousing Tec BD PUC-Rio Data Warehousing Introdução: Evolução da TI Nova tecnologia de BD e DW Data Warehousing Tec BD PUC-Rio TECNOLOGIA DA INFORMAÇÃO TECNOLOGIA DE INTERFACE HOMEM MÁQUINA Data Warehousing TECNOLOGIA DE REDE TECNOLOGIA DE PROCESSA MENTO TECNOLOGIA DE ARMAZE NAMENTO Tec BD PUC-Rio DEFINIÇÃO DE BANCO DE DADOS • É o componente da Tecnologia da Informação voltado para o armazenamento da informação, cuja estrutura e comportamento devem propiciar esse armazenamento de forma persistente e consistente. Data Warehousing Tec BD PUC-Rio DEFINIÇÃO DE BANCO DE DADOS Data Warehousing Tec BD PUC-Rio EVOLUÇÃO DOS BD SISTEMAS DE ARQUIVOS BD REDES BD HIERÁRQUICOS BD RELACIONAIS LINGUAGENS OO HIPERMÍDIA BD SEMÂNTICOS BD OO OBJETOS COMPLEXOS INTELIGÊNCIA ARTIFICIAL RECUPERAÇÃO DA INFORMAÇÃO BD INTELIGENTES Data Warehousing Tec BD PUC-Rio FATORES MOTIVADORES BANCOS DE DADOS HIERÁRQUICOS BANCOS DE DADOS DE REDES LIMITAÇÕES HUMANAS (modelos) BANCOS DE DADOS RELACIONAIS BANCOS DE DADOS SEMÂNTICOS BANCOS DE DADOS OO BANCOS DE CONHECIMENTO Data Warehousing Tec BD PUC-Rio FATORES MOTIVADORES BANCOS DE DADOS CLIENT/SERVER LIMITAÇÕES TECNO LÓGICAS BANCOS DE DADOS DISTRIBUÍDOS BANCOS DE DADOS PARALELOS DATA WAREHOUSE Data Warehousing Tec BD PUC-Rio Metodologias x Recursos Métodos de Especificação de Sistemas Orientados a Processos (Gane, De Marco, .... ) Orientados a Dados (Chen, .... ) Orientados a Objetos (OMT, Booch, ....UML ) WEB Objetos distribuídos, CORBA, Internet, Intranet, .... OO Cliente / Servidor rede micro melhoria de mini tecnologia de hardware main frame Recursos de Hardware, Software e Rede Data Warehousing Tec BD PUC-Rio Departamento de Informática Tec BD PUC-Rio Data Warehousing (Conceitos) Data Warehousing Tec BD PUC-Rio William Inmon cunhou o termo em 1990 Data Warehouse Suporte à decisão Não volátil Variante no tempo Orientado a assunto Data Warehousing OLAP + Data Mining Tec BD PUC-Rio DWing ÁREAS DE APLICAÇÃO • Marketing • Controle Operacional – Produtividade – Custos/Margem • Planejamento Estratégico Data Warehousing Tec BD PUC-Rio DWing EXEMPLOS DE APLICAÇÃO • Marketing Orientado ao Cliente • Análise de Crédito • Gestão de Produto • Gestão de Canais de Venda Data Warehousing • Quais clientes me dão maior lucro? • Como atrair novos clientes e fidelizar os antigos? • Como me antecipar às necessidades dos clientes? • A quais clientes devo oferecer tal produto? • Quais podem ter crédito préaprovado? Tec BD PUC-Rio DWing EXEMPLOS DE APLICAÇÃO • Marketing Orientado ao Cliente • Análise de Crédito • Gestão de Produto • Gestão de Canais de Venda Data Warehousing • O método para previsão de risco é eficaz? • Como é a variação de inadimplência por região demográfica e por produto? • Qual é o meu mercado para um novo produto de crédito? Tec BD PUC-Rio DWing EXEMPLOS DE APLICAÇÃO • Marketing Orientado ao Cliente • Análise de Crédito • Gestão de Produto • Gestão de Canais de Venda Data Warehousing • Onde há oportunidade de venda do novo produto para os atuais clientes? • Quem está comprando meu produto, como e onde? • Qual é o produto mais rentável em cada grupo? • Qual é o efeito da descontinuação de um produto no lucro total? Tec BD PUC-Rio DWing EXEMPLOS DE APLICAÇÃO • Marketing Orientado ao Cliente • Análise de Crédito • Gestão de Produto • Gestão de Canais de Venda Data Warehousing • Como mudar as transações mais freqüentes, mais demoradas ou que exijam mais pessoas, para os canais de venda mais baratos? • Como aumentar a participação no mercado? • Como oferecer mais produtos e com custos menores? • Como utilizar melhor os canais de venda como instrumentos de marketing? Tec BD PUC-Rio DW O que é um Data Warehouse? Um Data Warehouse é um conjunto de dados de apoio às decisões gerenciais, integrado, não-volátil, variável em relação ao tempo e baseado em assuntos. William Inmon Data Warehousing Tec BD PUC-Rio Fontes de Dados Internos Sistemas de contas a pagar Sistemas financeiros BD1 ..... BD4 Sistemas de vendas BDn Múltiplos BDs Múltiplas redes de BD2 BD3 Data Warehousing Sistemas de Múltiplas produção plataformas de sistemas operacionais Sistemas logísticos Sistemas de Múltiplas pessoal plataformas de HW comunicação Tec BD PUC-Rio Data Warehouse Repositório de dados corporativos extraídos de transações de sistemas de produção sistemas para acesso “ad hoc” por “knowledge workers” Data Warehousing Consolida dados operacionais e históricos Atualizações são, freqüentemente, periódicas ou em “batch”, em vez de em tempo real Deve ter alta disponibilidade de uso Tec BD PUC-Rio DW armazena muitas visões de dados Geografia Pedidos Renda Capital Estoque R e c u r s o s Produto Indústria Organização Negócio Empresa Uso T e m p o História Real Prognóstico Qualidade Estratégica Data Warehousing Gerencial Operacional Tec BD PUC-Rio Clientes Transações Financeira Inventário R/ H Pedidos Pesquisas ......... Dados Fontes Dados Operacionais Demográfica Sociais Mapeamento Tempo Econômica ......... Dados Externos Data Warehousing Relacional Multidimensional Texto Imagem Vídeo Áudio Espacial ......... Acesso DW Ferramentas relacionais Ferramentas OLAP Data Mining ......... Knowledge Workers Analistas ..... Executivos Tec BD PUC-Rio O que é Data Warehousing? Data Warehousing não é um produto, e sim uma estratégia que reconhece a necessidade de se armazenar dados, separadamente, em sistemas de informação e consolidá-los, de forma a assistir diversos profissionais de uma empresa na tomada de decisões de modo rápido e eficaz. ETLM DW Ferramentas OLAP/BI Data Warehousing Tec BD PUC-Rio DM O que são Data Marts? Data Marts são subconjuntos departamentais focados em assuntos selecionados (e.g., um data mart de marketing pode incluir informações de vendas, produtos e clientes). Chaudhuri & Dayal Data Warehousing Tec BD PUC-Rio O que é um software OLAP? OLAP = “Online Analytical Processing” Suportam a análise sofisticada, atendem a um número de dimensões significativamente elevado e possibilitam a análise do negócio a partir de grandes conjuntos de dados. Microstrategy Incorporated Data Warehousing Tec BD PUC-Rio OLTP x OLAP C ARACTERÍSTICAS APLICAÇÃO OLTP APLICAÇÃO OLAP OPERAÇÃO TÍPICA atualização análise TELAS não alteráveis definidas pelo usuário DADOS POR TRANSAÇÃO poucos muitos NÍVEL DO DADO detalhado agregado IDADE DO DADO atual histórica, atual e projetada ORIENTAÇÃO registros vetores, séries de tempo Data Warehousing Tec BD PUC-Rio Sistemas OLTP Folha de pagamento Contas a pagar Compra de produtos Controle de estoque Sistemas OLTP Acumulam dados detalhados a partir das operações do dia-a-dia dos negócios On-Line Transaction Processing Data Warehousing Tec BD PUC-Rio Sistemas OLAP São projetados para suportar os requisitos de dados “ad hoc” dos usuários Prognóstico Sistemas OLAP Perfil Relatório resumo Análise de tendências On-Line Analytical Processing Data Warehousing Tec BD PUC-Rio A Separação entre BD Operacional e BD Informacional São diferentes Dados para necessidades operacionais Dados para necessidades informacionais ou analíticas Tecnologia de suporte para processamento operacional Tecnologia de suporte para processamento informacional ou analítico Comunidade de usuários (Operacionais) Comunidade de usuários (tomadores de decisão) Data Warehousing Tec BD PUC-Rio O que é um ODS? ODS Um Operational Data Store (ODS) é um conjunto de dados baseado em assuntos, integrado, volátil (pode ser atualizado), atual ou recente, de apoio às decisões operacionais do dia-a-dia. William Inmon Data Warehousing Tec BD PUC-Rio Resumo do Fluxo de Dados ODS (dado corrente ou quase corrente, dado detalhado) Transforma dado e alimenta Sistemas Transacionais (dado corrente) Pode alimentar Data Warehouse (dado histórico) Pode alimentar Transforma dado e alimenta Data Mart (subconjunto de dados, dados resumidos, dados históricos, etc.) Metadado Data Warehousing Tec BD PUC-Rio Prática 1. 2. 3. 4. Responda sucintamente as questões abaixo Diferencie aplicações OLTP de aplicações OLAP. Exemplifique consultas OLAP vs OLTP. Diferencie os objetivos de um DW de um Data Mart e de um ODS . Cite fatores críticos de sucesso de um projeto de DW. Data Warehousing Tec BD PUC-Rio Departamento de Informática Tec BD PUC-Rio Data Warehousing (Arquitetura) Data Warehousing Tec BD PUC-Rio Histórico: Evolução dos “relatórios gerenciais” Sistema Operacional BDs de produção / arquivos Sistema Operacional BDs de produção / arquivos Data Warehousing Relatórios para usuários finais e gerência Relatórios para usuários finais e gerência Todos os relatórios produzidos pela Tec área de sistemas BD PUC-Rio Evolução dos “relatórios gerenciais” Relatórios predefinidos Sistema Operacional usuário final BDs de produção / arquivos usuário final Relatórios customizados usuário final Sistema Operacional usuário final BDs de produção / arquivos usuário final usuário final Data Warehousing Acesso de usuários finais a sistemas de produção Estruturas de dados “Legacy” não são projetadas para quem não é de Tec sistemas BD PUC-Rio Evolução dos “relatórios gerenciais” Relatórios predefinidos Sistema Operacional usuário final BDs de produção / arquivos usuário final usuário final Sobrecarga do ambiente de produção usuário final Acesso de usuários finais tem impacto negativo na performance dos sistemas OLTP Usuários finais devem acessar dados localizados em BDs de múltiplos sistemas Mostrou que o acesso de usuário final devia ser “off-loaded’ Tec Data Warehousing BD PUC-Rio Evolução dos “relatórios gerenciais” Sistema Operacional BDs de produção / arquivos Sistema Operacional BDs de produção / arquivos Data Warehousing Acesso de Usuários Finais a Extratos de Dados usuário final usuário final usuário final usuário final Tec BD PUC-Rio Evolução dos “relatórios gerenciais” Sistema Operacional BDs de produção / arquivos Acesso de Usuários Finais a Extratos de Dados usuário final Extrator usuário final Sistema Operacional BDs de produção / arquivos usuário final Extratos de dados usuário final Computação de usuário final é off-loaded do ambiente operacional Ambiente de (DSS) Decision Suport Systems é energizado Data Warehousing Tec BD PUC-Rio Porém, mesmos dados, resultados diferentes.. Extrator Sistema Operacional Extrator BDs de produção / arquivos usuário final Extratos de dados Sistema Operacional BDs de produção / arquivos Data Warehousing usuário final Extrator usuário final usuário final usuário final usuário Extratos Dadosde coletados em diferentes tempos dados final Algoritmos diferentes Grupos diferentessemânticas obtêm resultados Diferentes diferentes - credibilidade em risco ! Fontes externas diferentes Tec BD PUC-Rio 2 Arquiteturas Data Warehouse Data Mart mutuamente exclusivas Data Warehousing Tec BD PUC-Rio Arquitetura de Acoplamento Forte: DW Compras Vendas Estoque ..... Folha Pgto Fontes de Produção EXTRAÇÃO DW da Empresa ARQUITETURA DE DADOS UNIFICADA / MODELO DE DADOS DA EMPRESA Servidor da Empresa ACESSO Desktops Inteligentes Logística Data Warehousing Vendas Marketing Planejamento Estratégico Controle Tec BD PUC-Rio Data Warehouse Sistema Operacional BDs de produção / arquivos O DW é um BD alimentado por um ou mais BDs de transações, O DW é o centrosendo quedeosdistribuição dados são “limpos” para eos reestruturados para suportar dados de produção ! consultas, resumos e análise. DW usuário final Sistema Operacional DW - BD BDs de produção / arquivos Data Warehousing usuário final usuário final Tec BD PUC-Rio Arquitetura de Acoplamento Fraco: DM Compras Vendas ..... Estoque Folha Pgto Dados de Produção EXTRAÇÃO DM Workgroup e Dept Servers VSAM RDBMS MDDBMS ACESSO Desktops Inteligentes Logística Data Warehousing Vendas Marketing Planejamento Estratégico Controle Tec BD PUC-Rio Data Marts Sistema Operacional BDs de produção / arquivos Sistema Operacional BDs de produção / arquivos DM usuário final DW BD customizado usuário final usuário final DM DW - BD usuário final BD customizado usuário final usuário final DMs são extraem subconjuntos de um DW, que focalizam DMs e ajustam porções de DWsuma aosou mais áreas específicas. Seus dados obtidos do DW, desnormalizados requisitos específicos desão grupos / departamentos ! e indexados para suportar intensa pesquisa Tec Data Warehousing BD PUC-Rio DM em Servidor OLAP Sistema Operacional BDs de produção / arquivos Sistema Operacional BDs de produção / arquivos Data Warehousing SGBDr Servidor OLAP usuário final usuário final DW - BD BD multidimensional usuário final Porções de DWs copiadas para um BD multidimensional para otimizar análise de dados Tec BD PUC-Rio Arquitetura Híbrida Compras Vendas ..... Estoque Folha Pgto Fontes de Produção EXTRAÇÃO DW da Empresa ARQUITETURA DE DADOS UNIFICADA / MODELO DE DADOS DA EMPRESA Servidor da Empresa DM Workgroup e Dept Servers EXTRAÇÃO VSAM EXTRAÇÃO MDDBMS RDBMS ACESSO Desktops Inteligentes Logística Data Warehousing Vendas Marketing Planejamento Estratégico Controle Tec BD PUC-Rio Ferramentas OLAP em DWing 1) P/ Consulta e Relatórios simples 2) OLAP tools ROLAP MOLAP HOLAP DOLAP EIS Data Mining 3) Web OLAP Data Warehousing Tec BD PUC-Rio Projeto: Abordagem Evolucionária Iterativa Começar pequeno Provar utilidade Construir sobre sucessos Preservar visão de DW Data Warehousing Tec BD PUC-Rio Área Piloto Área de negócio prioritária, de interesse imediato da empresa Área fértil para mostrar os benefícios de Data Warehousing Área de risco moderado para Data Warehousing Data Warehousing Tec BD PUC-Rio DWing (termos) Data Warehousing Tec BD PUC-Rio Departamento de Informática Tec BD PUC-Rio Data Warehousing (DW, DM, ODS) Data Warehousing Tec BD PUC-Rio Arquiteturas de DW e Abordagens de Implementação Data Warehousing Tec BD PUC-Rio Arquiteturas e Abordagens de Implementação • Arquitetura adequada é fundamental => – – – – Qual a Infra-estrutura disponível? Porte da empresa Escopo desejado Recursos... • Abordagem de Implementação => – Bottom-up (DMs) vs Top Down (DW/DMs) – Tempo, satisfação do usuário,... Data Warehousing Tec BD PUC-Rio Arquiteturas • Arquitetura DW global – Centralizada – Distribuída • Arquitetura Data Marts – Independentes – Integrados (difícil) Data Warehousing Tec BD PUC-Rio DW e Data Marts Sistema Operacional BDs de produção / arquivos Sistema Operacional BDs de produção / arquivos DM usuário final DW BD customizado usuário final DM DW - BD usuário final usuário final BD customizado DMs extraem e ajustam porções de DWs aos requisitos específicos de grupos / departamentos Data Warehousing usuário final usuário final Tec BD PUC-Rio DM em Servidor OLAP Sistema Operacional BDs de produção / arquivos Sistema Operacional BDs de produção / arquivos Data Warehousing DW Servidor OLAP usuário final usuário final DW - BD BD multidimensional usuário final Porções de DW são copiadas para um BD multidimensional para otimizar análise de dados Tec BD PUC-Rio Abordagens de Implementação • Top Down – Análise das fontes de dados – Extração Transformação e Carga (ETL) • Uso de ODS (Staging Area) • Dados e Metadados – DW => Data Marts – Dados e metadados Data Warehousing Tec BD PUC-Rio ODS-DDS-Staging Area... • Que é ODS? E DDS? – Operational vs Dynamic – Hoje ODS são chamados DDS – ODS permite análises no ambiente operacional e auxilia carga de DW – DDS pode ir crescendo ao longo do tempo com alterações incrementais • Staging Area é necessária quando a preparação (limpeza, sincronizacao etc) é complexa. Data Warehousing Tec BD PUC-Rio Abordagens de Implementação • Bottom UP – Começa por Data Marts para grupos independentes de usuários • Seleciona Fontes de Dados • Modela os DMs com MMD • Gera DMs • Cria as aplicações OLAP • Depois integra (difícil..) os DMs Data Warehousing Tec BD PUC-Rio Vantagens e Desvantagens • Top Down Vantagens – – – – Facilita Manutenção Visão horizontal Dados e Metadados centralizados Controles e regras (ETL) centralizados • Top Down Desvantagens – Implem. mais lenta=>Expectativas? – Maior risco (projeto global) Data Warehousing Tec BD PUC-Rio Vantagens e Desvantagens • Bottom UP Vantagens – Rapidez – Ganha confiança e mais investimento • Bottom UP Desvantagens – “LegaMarts” (DMs viram legacy) – Perde-se a visão horizontal – Múltiplas equipes, ferramentas etc – Competição entre os DMs Data Warehousing Tec BD PUC-Rio Abordagens de Implementação • DW incremental – Começa a modelagem global de DW – Inicia um Data Mart piloto – Vai criando outros DMs e integrando-os mantendo a visão horizontal – Mantem DW e DMs Data Warehousing Tec BD PUC-Rio Departamento de Informática Tec BD PUC-Rio Data Warehousing (Introdução a Modelagem) Data Warehousing Tec BD PUC-Rio Questões importantes para Modelagem Dimensional • O modelo ER é orientado a “entidades e relacionamentos” (object) • O modelo MMD é orientado a assunto (fato) (subject) • Modelo ER --> OLTP • Modelo MMD -> OLAP • Modelo ER -> BD Relacional Normalizado (BD volátil) • Modelo MMD -> BD Relacional Não Normalizado (BD não volátil) Data Warehousing Tec BD PUC-Rio Introdução à Modelagem Dimensional • • • • • • Fato: Venda Quando ? (Tempo) O que ? (Ex.: Produto) (o “que” analisar do fato) Onde ? (Localização Geográfica) Quem ? (Ex.: Vendedor) (agente) Importantíssimo definir as dimensões, os “pontos cardeais das estrelas” dos fatos • Uma célula é a interseção de múltiplas dimensões --> Idéia de cubo Data Warehousing Tec BD PUC-Rio Exemplo de uma Fact Table (Representação relacional de Fatos) Chaves que juntam os fatos às dimensões Medidas Prod_Code Time_Code Acct_Code Sales Qty 101 102 103 103 104 2045 2045 2046 2046 2046 501 501 501 502 502 100 225 200 250 20 1 2 20 25 1 Data Warehousing Tec BD PUC-Rio Time Exemplo de um Star-Schema Time code Quarter code Quarter code Date Month code Month Name Day code Day of week Season Account Account code Key Account code Key account name Account name Account type Account market Data Warehousing Sales Geography code Time code Account code Product code Sales Qty Geography Geography code Region code Region manager State code City code City name Zip code Product Product code Product name Brand manager Brand name Prod. line code Prod. line name Product name Product color Product model Tec BD PUC-Rio Questões importantes para Modelagem Dimensional • “Comprador c comprou produto p no lugar l no tempo t em qtidade q, a preço unit u, etc” • Quando ? (t) Ex.: Mes, trimestre, ano etc • O que ? (p) Ex.: sapato, gênero de filme,.. • Onde ? (l) Ex.: Norte, SP, Belem, Brasil • Quem ? (c) Ex.: Jovens, Classe b, ... • Fato: Compra (Outros exs: Venda, Exib de filme • Medidas do fato: q,u,... • O Modelo Dimensional vem do modelo ER ? Data Warehousing Tec BD PUC-Rio Prática de Modelagem • Uma distribuidora de filmes tem sistema de controle de seus filmes que contrata dos vários estúdios • Filmes são exibidos em sessões diárias em salas de cinema (com diferentes capacidades) espalhadas por cidades, estados, regiões do pais. • Os clientes buscam filmes por ator, diretor, gênero, país etc Data Warehousing Tec BD PUC-Rio Exercício de Modelagem • A distribuidora já tem um sistema (OLTP) com um BD para controle. • Ex1: Faça um ER do modelo transacional do BD da distribuidora Data Warehousing Tec BD PUC-Rio ER Transacional do exercício • • • • • • Filme(f,) (0:n) <passa no> (0:n) Cinema(c,) Filme(f,) (1:1) <vem do> (1:n) Estúdio(e,) Filme(f,) (1:1) <dirigido por> (0:n) Diretor(d,e,) Diretor(d,e,) (1:1) <é-do> (1:n) Estúdio(e,) Ator(a,) (0:n) <atua no> (0:n) Filme(f,) Diretor(d,e,) (0:1) <é-um> (0:1) Ator(a,) Data Warehousing Tec BD PUC-Rio Exercício de Modelagem • Acontece que os diretores querem analisar seus negócios e sentiram a necessidade de um DW. • Após entrevistas com executivos da distribuidora apareceram requisitos de informação: – Evolução de público e $$ arrecadado por região, estado e cidade classificados por gênero e sala. – Evolução de exibição de filmes por ator e diretor – Evolução de público por ator e diretor – Como lançar filmes por períodos do ano Data Warehousing Tec BD PUC-Rio Data Warehousing Tec BD PUC-Rio Exercício de Modelagem • Ex2: Projetar o DW com MMD • Qual o fato? • Quais as dimensões? – – – – Onde acontece? (Geo) Quando? (tempo) O que? (outras dimensões de análise) Quem? (agente) • Quais as medidas do fato? • Ex3 Esse DW pode sair do ER anterior? • Ex4: Represente em tabelas esse DW e chequeTec Data o Warehousing com as análises pedidas BD PUC-Rio Tecnologia DW ou OLAP ? • São diferentes mas complementares • Tecnologia DW – Usada efetivamente para armazenar e manter informações • OLAP – Usado para recuperar informações (não volátil) • Tecnologias de DW e OLAP são complementares – DW deve ser projetado pensando-se na recuperação e visualização dos dados (OLAP) – Construir um DW isolado (s/OLAP) é uma fórmula para o fracasso – Total exploração do DW depende de OLAP Data Warehousing Tec BD PUC-Rio Tecnologia DW e OLAP • DW usa, basicamente, tecnologia relacional (Oracle, DB2, Sybase, SQL Server ...) embora não seja BD p/ OLTP • OLAP usa visões multidimensionais dos dados para rápido acesso a informações estratégicas • OLAP normalmente utiliza arquitetura proprietária • Os dados, na visão multidimensional de OLAP, são freqüentemente agregados para maximizar sua eficiência (não normalizados) Data Warehousing Tec BD PUC-Rio Tecnologia DW e OLAP • Dimensões descrevem os componentes de uma área de análise (subject) e o modo para localização de valores medidos (nos fatos) • A habilidade de organizar os dados do modo que os usuários conhecem seus dados é a tal multidimensionalidade • Esta habilidade é o que realmente distingue os sistemas OLAP dos sistemas tradicionais • OLAP se aplicam bem em Data Marts Data Warehousing Tec BD PUC-Rio Modelagem de DW Para o DW central é necessário Criar um modelo de dados conceitual (ER’ ?) Otimizar esse modelo apropriadamente para a recuperação de dados (desnormalizar?) e para suporte à decisão (agregar?) Data Warehousing Tec BD PUC-Rio Modelagem de DW - Itens Críticos Entender as diferenças entre o modelo corporativo totalmente normalizado (objeto) e um modelo de DW (assunto) Transformar o modelo corporativo(ER) (se existir) em modelo DW: Removendo os dados puramente operacionais (p/ ser informacional) Adicionando um elemento de tempo nas chaves (ficar temporal) Incluindo dados resumidos e derivados no modelo DW (desnormalizar) Data Warehousing Tec BD PUC-Rio Modelagem de Dados Mapeamento de dados operacionais em informação orientada a assunto Identifica assuntos de negócios Nomeia os atributos para cada assunto de negócio (dimensões) Define relacionamentos entre assuntos de negócios (fatos ligados por dim comuns) Data Warehousing Tec BD PUC-Rio ER Transacional => MMD • Relacionamentos n:n => podem ser fatos (assuntos de análise) • Ex. No caso da distribuidora de filmes: – Filme <passa no> Cinema => fato de interesse – Ator <atua no> Filme => fato não analisado • Dica: Primeiro pensar MMD e depois ver de onde iremos extrair os dados Data Warehousing Tec BD PUC-Rio MMD vs ER do exercício • ER – – – – – – Filme(f,) (0:n) <passa no> (0:n) Cinema(c,) Filme(f,) (1:1) <vem do> (1:n) Estúdio(e,) Filme(f,) (1:1) <dirigido por> (0:n) Diretor(d,e,) Diretor(d,e,) (1:1) <é-do> (1:n) Estúdio(e,) Ator(a,) (0:n) <atua no> (0:n) Filme(f,) Diretor(d,e,) (0:1) <é-um> (0:1) Ator(a,) • MMD – Dim: tempo,cidade,ator,diretor,sala,genero – Fato: Exibição-filme Data Warehousing Tec BD PUC-Rio Modelagem de Dados Desenvolver um modelo de DW completo (corporativo) pode ser complexo e muito demorado... Uma melhor abordagem é começar detalhando alguns assuntos de interesse imediato para a empresa (DMs) porém mantendo visão de DW. Data Warehousing Tec BD PUC-Rio Enfatizando ER vs MMD • O modelo ER é orientado a “entidades e relacionamentos” (object oriented) • O modelo MMD é orientado a assunto (fato) (subject oriented) • Modelo ER --> OLTP, Modelo MMD -> OLAP • Modelo ER -> BD Relacional Normalizado (BD volátil) • Modelo MMD -> BD Relacional Não Normalizado (BD não volátil) • Se existir um ER corporativo usá-lo => DW? • Senão modelar DW usando ER / MMD... Data Warehousing Tec BD PUC-Rio Prática: Revisão ERvs MMD • Porque DW nao é apenas um BD e DMs apenas Views? • O que é o modelo MMD? Em que nível ele se aplica em Modelagem de DW? • Como se modela DW nos níveis Conceitual, Lógico e Físico? • Quais as operações do Modelo Relacional? E do Modelo MMD? • Que é: Star schema, Snowflake Schema e Constelações ? Estes se aplicam em DW ou DM? • Quais as dimensões tipicas em MMD? Data Warehousing Tec BD PUC-Rio Tec BD PUC-Rio Data Warehousing Prof. Rubens Melo Data Warehousing Tec BD PUC-Rio