DATA WAREHOUSE Mestrando: Vinicius Prodocimo Professor: Alcides Calsavara Data Warehouse - Agenda Introdução Características Arquitetura Modelos de Dados Desenvolvimento de um Data Warehouse (DW) Extração de Informações de um DW Conclusão Data Warehouse - Introdução Crescimento de dados relacionados aos negócios mas não relacionados entre si promoveram o surgimento do DW; Características: Utilização de dados estratégicos: apoio à tomada de decisões através de fatos históricos (anteriormente utilizava-se a experiência dos administradores do negócio); Banco de Dado especializado em integração: BD corporativos e fontes externas; Não é um produto pronto; Consultas à sua base não afetam as bases que o alimentam Fornece recursos e informações suficientes para um Sistema de Apoio à Decisão; Possui novas formas de armazenamento, processamento paralelo e distribuído; Integra dados de diferentes plataformas. Data Warehouse - Características Dados classificados por assunto Integração de representação para facilitar as consultas Variação no tempo Dados não são modificados Localização Credibilidade dos dados Granularidade temporal das informações Data Warehouse - Características Orientação por assunto Qual a informação mais importante para a organização? Análise direcionada à necessidade da organização Ex.: Uma empresa que vende produtos alimentícios no varejo tem seu maior interesse no perfil de seus compradores e não em quais produtos vende. Portanto o DW deve ser direcionado para o perfil dos compradores. Data Warehouse - Características Integração da representação Característica mais importante do DW Representação única para as informações provindas de diversos sistemas. Ex.: Representação do sexo de uma pessoa: AMBIENTE OPERACIONAL DATA WAREHOUSE Aplicação X - M ou F Aplicação Y - H ou M Aplicação Z - 0 ou 1 M ou F Data Warehouse - Características Variação no tempo Informações atualizadas em períodos de 24 horas; Pode apresentar-se como: Em um DW os dados podem estar presentes em horizontes maiores de 5 anos podendo chegar até o limite de idade dos dados; O metadados também possuem relação temporal; Os dados não são mais atualizados. Data Warehouse - Características Variação no tempo Os dados em um DW podem ser considerados como: Dados detalhados atuais: Acontecimentos mais recentes; São em grandes volumes; Tem baixo nível de granularidade; São armazenados em meios de rápido acesso. Dados detalhados antigos: Acontecimentos mais antigos; São normalmente armazenados em fitas. Data Warehouse - Características Não volatilidade Não existem alterações no DW; É feita somente a carga e consultas posteriores. Data Warehouse - Características Localização Os dados podem estar fisicamente armazenados como: Um único local, centralizando o DW; Distribuído por áreas de interesse (arquitetura federativa); Distribuídos por níveis de detalhe (dados altamente resumidos, dados detalhados, ... ). Data Warehouse - Características Localização Dados altamente resumidos S Í N T E S E Dados levemente resumidos DADOS DETALHADOS ATUAIS Dados detalhados antigos E N V E L H E C I M E N T O Data Warehouse - Características Credibilidade dos dados Precisão: grau de informações que estão corretas; Abrangência: grau de dados requisitados e atendidos; Consistência: consistência dos dados/liberdade de contradição; Coerência: coerência lógica que permite criar relações; Tempo de resposta: tempo entre o pedido e a resposta; Singularidade: percentual dos dados que têm valores dentro dos domínios de valores permitidos. Data Warehouse - Características Granularidade Diz respeito ao nível de detalhe dos dados numa unidade; BAIXA Produto Data A1 13/09/98 B1 14/09/98 A1 16/09/98 A1 16/09/98 Qtd 10 15 20 90 Valor 100,00 150,00 200,00 890,00 ALTA Mês/Ano Produto Qtd Valor 09/98 A1 120 1190,00 09/98 B1 15 150,00 Data Warehouse - Características Metadados São dados sobre os dados; Podem ser apresentados em três camadas: Metadados operacionais; Metadados centrais do DW; Metadados do nível do usuário. Data Warehouse - Características Metadados Podem ser classificados como: Mapeamento; Histórico; Miscelânea; Algoritmos de sumarização; Padrões de acesso. Data Warehouse - Características Metadados Mantém informações sobre: A estrutura dos dados segundo a visão do programador; A estrutura dos dados segundo a visão do analista SAD; A fonte de dados que alimenta o DW; A transformação sofrida pelos dados, na migração p/DW; O modelo de dados; O relacionamento entre o modelo de dados e o DW; O histórico das extrações de dados. Data Warehouse - Arquitetura A arquitetura deve ser constituída de forma à: Coletar dados de forma eficiente e rápida; Manipular dados de forma eficiente e rápida; Representar dados de forma eficiente e rápida. Data Warehouse - Arquitetura Arquitetura genérica segundo Orr: USUÁRIO DW ACESSO ACESSO À INFORMAÇÃO AO DADO DW ACESSO TRANSPORTE A DADOS BD OPERAC. BD EXTERNAS METADADOS GERENCIADOR DE PROCESSOS META DADOS Data Warehouse - Arquitetura Arquitetura segundo Chaudhuri (fluxos de dados): Componente front-end Data Warehouse (SGBD) Repositório de metadados Fontes Internas Componente back-end Fontes Externas Data Warehouse - Arquitetura Arquitetura segundo Valente: CONSULTAS Data Warehouse (SGBD) INTEGRADOR EXTRATOR EXTRATOR Fontes Internas EXTRATOR Fontes Externas Data Warehouse - Modelo de Dados Modelo de dados segundo R.Kimball; Modelo de dados segundo W.H.Inmon; Data Warehouse - Modelo de Dados Modelo de dados segundo R.Kimball É dividido em: Modelo empresarial; Modelo dimensional; Modelo físico. Data Warehouse - Modelo de Dados Modelo de dados segundo R.Kimball - Empresarial Primeiro passo: análise do modelo de dados para construir um modelo E-R normalizado para as regras do negócio; Não importa como as informações serão recuperadas ou utilizadas; Foco nas estruturas da informação: atributos e relações; Quais são os dados relevantes para o DW; Data Warehouse - Modelo de Dados Modelo de dados segundo R.Kimball - Empresarial Segundo passo: normalização do modelo; O modelo empresarial não será implementado; Terceiro passo: desenvolver um modelo E-R normalizado das regras de negócio e a definição das regras de integridade. Data Warehouse - Modelo de Dados Modelo de dados segundo R.Kimball - Dimensional Visão dos dados em diferentes perspectivas (dimensões); A forma de como as agregações são armazenadas podem ser vista em termos de dimensões e coordenadas, dando origem ao modelo multidimensional; Armazenamento em estruturas relacionais: Modelo Estrela Data Warehouse - Modelo de Dados Modelo de dados segundo R.Kimball - Dimensional MODELO ESTRELA Facilita o entendimento dos termos de negócio para o usuário; Composto: Tabela de fatos ao centro (tabela dominante) Tabelas de dimensão (tabelas conectadas aos fatos) A tabela de fatos contém milhares ou milhões de valores Data Warehouse - Modelo de Dados Modelo de dados segundo R.Kimball - Dimensional MODELO ESTRELA DIMENSÃO PRODUTO chave_produto descrição marca categoria FATOS VENDAS chave_tempo chave_produto chave_loja reais_vendidos unidades_vendidas DIMENSÃO LOJA chave_loja nome_loja endereço tipo Data Warehouse - Modelo de Dados Modelo de dados segundo R.Kimball - Físico Propósito: alcançar os objetivos de desempenho; Depende de: SGBD Configuração de Hardware Utilização de processamento paralelo. Data Warehouse - Modelo de Dados Modelo de dados segundo W.H.Inmon Dividido em: Modelo de alto nível; Modelo de nível intermediário; Modelo de baixo nível. Data Warehouse - Modelo de Dados Modelo de dados segundo W.H.Inmon - Alto nível Apresenta-se somente as entidades e seus relacionamentos; Mais alto nível de abstração. CLIENTE PEDIDO ESTOQUE PRODUÇÃO Data Warehouse - Modelo de Dados Modelo de dados segundo W.H.Inmon - Nível Intermediário Criado à partir de áreas de interesse ou entidades; Para cada área de interesse ou entidade é criado: Agrupamento primário: atributos que aparecem uma vez; Agrupamento secundário: atributos que aparecem mais de uma vez; Conector: representa os relacionamentos; Tipo dos dados. Data Warehouse - Modelo de Dados Modelo de dados segundo W.H.Inmon - Nível Intermediário PRODUTO chave_produto descrição marca categoria AGRUPAMENTO PRIMÁRIO PRODUTO_VENDA nr_venda chave_produto VENDAS chave_tempo nr_venda reais_vendidos AGRUPAMENTO SECUNDÁRIO CONECTOR Data Warehouse - Modelo de Dados Modelo de dados segundo W.H.Inmon - Baixo Nível Expande o nível intermediário para que: Apresente chaves; Características físicas; Características de desempenho. Data Warehouse - Modelo de Dados Estratégia de conversão do modelo E-R para o modelo DW Remoção dos dados puramente operacionais: MODELO E-R MODELO DW #ID Nota Fiscal Data de Emissão ID Consumidor Mensagem Descrição Termos Status #ID Nota Fiscal Data de Emissão ID Consumidor DADOS OPERACIONAIS Data Warehouse - Modelo de Dados Estratégia de conversão do modelo E-R para o modelo DW Adição de um elemento de tempo na estrutura da chave: MODELO E-R MODELO DW #ID Consumidor Nome Data de Nascimento Estado Civil Limite de Crédito #ID Consumidor #Data do Snapshot Nome Data de Nascimento Estado Civil Limite de Crédito Data Warehouse - Modelo de Dados Estratégia de conversão do modelo E-R para o modelo DW Introdução de dados derivados: MODELO E-R MODELO DW #ID Nota Fiscal # Item Código do Produto Quantidade Preço Unitário #ID Nota Fiscal # Item Código do Produto Quantidade Preço Unitário Total Comprado Custo do Produto DADOS DERIVADOS Data Warehouse - Modelo de Dados Estratégia de conversão do modelo E-R para o modelo DW Transformação de Relacionamento entre dados em artefatos de dados: MODELO E-R MODELO E-R MODELO DW PRODUTO # Código do Produto Descrição Unidade de Medida FORNECEDOR PROD. # Código do Produto # Código do Consum. Fornecedor Preferido PRODUTOS #Código do Produto Descrição Unidade de Medida Fornecedor Preferido Cidade do Fornecedor Estado do Fornecedor Data Warehouse - Modelo de Dados Estratégia de conversão do modelo E-R para o modelo DW Acomodação dos diferentes níveis de granularidade: MODELO DW MODELO E-R ATIVIDADE DE ENTREGA Data da Entrega Código da Entrega Enviado por Enviado para Quantidade CÓDIGO DO PEDIDO INVENTÁRIO POR ITEM ENTREGAS MENSAIS #Ano/Mês Número de Entregas Valor da Entrega MODELO DW SUMAR.POR PRODUTO #Ano/Mês # Produto Número de Entregas Valor da Entrega Data Warehouse - Modelo de Dados Estratégia de conversão do modelo E-R para o modelo DW União dos dados comuns de diferentes tabelas: Devem ser respeitadas as seguintes condições: As tabelas compartilham uma chave comum(ou parcial) Os dados das diferentes tabelas são usados juntos O Padrão de inserção nas tabelas é o mesmo. Data Warehouse - Modelo de Dados Estratégia de conversão do modelo E-R para o modelo DW Criação de arrays de dados: MODELO E-R #COD.Previsão Gasto Gasto Mensal/Anual Valor do Gasto MODELO DW #COD.Previsão Gasto # Ano Valor em Janeiro Valor em Fevereiro ... Valor em Dezembro Data Warehouse - Modelo de Dados Estratégia de conversão do modelo E-R para o modelo DW Separação dos atributos de dados de acordo com sua estabilidade: TABELA DE PREÇOS Código Descrição Principal substituta Quantidade atual Unidade de compra Fornecedor Prazo de entrega Taxa de rejeição Transportadora Local última entrega Manifesto carga Raramente é Alterada Regularmente é Alterada Freqüentemente é Alterada Data Warehouse - Desenvolvimento Funções no desenvolvimento de um DW: Gerente do DW Arquiteto de Dados Administrador de metadados Administrador de BD Usuário de nível gerencial Analista de processos e aplicações Especialista em Aplicações Operacionais Analista e programador de conversões Especialista em suporte técnico Instrutor Data Warehouse - Desenvolvimento “Muitas empresas iniciam o processo de Data Warehouse a partir de uma área específica que normalmente é uma área carente de informações e cujo trabalho seja relevante para os negócios da empresa, criando Data Marts, para depois ir crescendo aos poucos, seguindo uma estratégia bottom-up ou assunto-por-assunto e assim obtendo um Data Warehouse corporativo” Adriano Dal’Alba - Universidade Federal de Caxias - RS http://www.geocities.com/SiliconValley/Port/5072 Dezembro 1998 Data Warehouse - Desenvolvimento “Empresas que têm exigências mais modestas, como as que necessitam construir DW para departamentos individuais podem escolher em construir pequenos Data Marts que utilizam uma arquitetura baseada em rede” Adriano Dal’Alba - Universidade Federal de Caxias - RS http://www.geocities.com/SiliconValley/Port/5072 Dezembro 1998 Data Warehouse - Desenvolvimento “Pela complexidade de fatores que envolvem um DW corporativo integral, a construção do projeto é lenta e cara Para equilibrar os gastos e oferecer resultados em prazos mais curtos é possível construir Data Marts que são pequenos DW departamentais. Entre as principais vantagens da utilização de Data Marts está a redução de tempo de implementação (120 dias) e o fator preço (US$ 50 mil a US$ 1 milhão). Sendo que um DW leva cerca de um ano para ser concluído e gastos iniciais em torno de US$ 2 milhões” Adriano Dal’Alba - Universidade Federal de Caxias - RS http://www.geocities.com/SiliconValley/Port/5072 Dezembro 1998 Data Warehouse - Desenvolvimento X Y Z DATA MART DATA MART DATA MART DATA MART Vendas Compras Marketing Outros W DATA WAREHOUSE Data Warehouse - Extração de Informações Formas de extração de dados de um DW: Relatórios Consultas EIS Ferramentas de OLAP Ferramentas de Data Mining Todas estão com tendências de integração com a WEB Data Warehouse - Extração de Informações Formas de acesso ao DW: Acesso direto Acesso indireto Data Warehouse - Extração de Informações ACESSO DIRETO: É uma ocorrência rara Sofre uma série de limitações: Uma solicitação pode levar 24 horas para ser atendida A solicitação deve ser referente a qtde mínima de dados Deve existir compatibilidade entre DW e Ambiente Oper. Não deve existir formatação de dados Data Warehouse - Extração de Informações ACESSO DIRETO: APLICAÇÃO OPERACIONAL CONSULTA DATA WAREHOUSE RESULTADO DA CONSULTA Data Warehouse - Extração de Informações ACESSO INDIRETO: O que normalmente se utiliza Eficiente Muito rápido Data Warehouse - Extração de Informações ACESSO INDIRETO: APLICAÇÃO OPERACIONAL ARQUIVO DE INFORMAÇÕES DATA WAREHOUSE PROGRAMA DE ANÁLISE Data Warehouse - Conclusões Vantagens: Simplicidade Qualidade dos dados Acesso rápido Facilidade de uso Separa as operações de decisão das de produção Vantagem competitiva Custo de operação Administração do fluxo das informações Data Warehouse - Conclusões Vantagens (continuação): Habilidade de processamento paralelo Infra-estrutura computacional Valores quantitativos Segurança Data Warehouse - Conclusões Desvantagens: Complexidade de desenvolvimento Tempo de desenvolvimento Alto custo de desenvolvimento e administração Treinamento Dificuldade na coleta de dados Dimensão de discos e CPUs Data Warehouse - Bibliografia Data Warehouse - Monografia Adriano Dal’Alba - Universidade Federal de Caxias - RS http://www.geocities.com/SiliconValley/Port/5072 Dezembro 1998 Building a Data Warehouse for Decision Support Vidette Poe - Prentice Hall ISBN 0-13-371121-8 The Intranet Data Warehouse Richard Tanler - Wiley ISBN 0-471-18004-1