The Data Warehouse Toolkit Guia completo para modelagem dimensional Capítulos 1 e 2 Daniela Resende Silva Orbolato São Carlos - 2009 Roteiro • • • • • Definição de Data Warehouse Objetivos de um DW Componentes de um DW Modelagem dimensional Passos para a criação de um modelo dimensional • Modelagem do estudo de caso de vendas a varejo 2 Definição de Data Warehouse • Segundo, Ralph Kimball: Data warehouse é um conjunto de todos os data marts da organização, onde a informação é sempre armazenada em um modelo dimensional. 3 Objetivos de um Data Warehouse • O DW deve: – permitir o acesso fácil às informações de uma organização – Apresentar as informações de forma consistente – Ser adaptável e flexível a mudanças – Proteger as informações de forma segura – Oferecer dados que suportem a tomada de decisões – Ser aceito pela comunidade de negócio 4 Componentes de um Data Warehouse 5 Componentes de Um Data Warehouse 6 Componentes de Um Data Warehouse 7 Componentes de Um Data Warehouse 8 Componentes de Um Data Warehouse 9 Terminologia da Modelagem Dimensional • Tabela Fato • 3 Tipos de Fatos – Aditivos – Semi-aditivos – Não-aditivo • Grão 10 Dimensional Modeling Vocabulary • Tabela Dimensional 11 Exemplo de Modelo Dimensional 12 Mitos sobre a Modelagem Dimensional • Modelos dimensionais e data marts são apenas para dados resumidos • Modelos dimensionais e data marts são soluções departamentais e não corporativas • Modelos dimensionais e data marts não são escalonáveis • Modelos dimensionais e data marts são apropriados apenas quando existe um padrão de utilização previsível • Modelos dimensionais e os data marts não podem ser integrados e, portanto, levam a soluções isoladas 13 Processo de Criação Dimensional em 4 Etapas 1. Selecione o processo do negócio 2. Declare o grão do processo do negócio 3. Escolha as dimensões que aplicam a cada linha da tabela fato 4. Identifique os fatos numéricos que preencherão cada linha da tabela de fatos 14 Estudo de Caso sobre o Varejo • Empresa do ramo de alimentos – 100 supermercados em 5 estados – Todas as lojas têm os mesmos deptos. – 60.000 produtos individuais, as SKU´s – 55.000 SKU têm código de barras, os UPC´s – 5.000 SKU são internas à rede (produtos a granel) – Coleta de dados no POS e na entrada de mercadorias 15 Modelando esse Caso 1. Selecione o processo do negócio – POS de vendas a varejo 2. Declare o grão – Item individual de venda no POS 3. Escolha as dimensões – Loja, Produto, Data, Promoção, nro. de transação POS 4. Identifique os fatos – ..... 16 Analisando os Fatos Margem de lucro Fatos Aditivos Fato NAO-Aditivo • Porcentagens e proporções são não-aditivas. É possível calculá-las armazenando numerador e denominador, e depois a proporção das somas 17 Dimensão Data 18 Dimensão Produto 19 Dimensão Loja 20 Dimensão Promoção • Divisão em 4 dimensões • Prós – Mais intelegíveis para a comunidade de negócios – Administração mais simples • Contras – Tamanho praticamente o mesmo nos dois casos – Possível ver como os 4 aspectos são correlacionados 21 Extensão do Modelo 22 Normalização das Dimensões • Snowflaking 23 Excesso de Dimensões 24 Outras Considerações • Dimensão de Degeneração – nro. da transação no POS • Chaves substitutas – Sem “inteligência” – Possivelmente menor que chave operacional – Registram condições para dimensões em que não há valor operacional – Seu uso evita complicações com as chaves operacionais reutilizadas – Ao usá-las, evite a composição de chaves unindo chaves de uma dimensão 25