Data Warehouse • • • • • Bruno Estevão Rosa Carlos Alberto Silva Dórian Corradi Drumond Guilherme Duarte Vieira Sérgio José de Sousa • • • • Emerson Barbosa Gonçalves Luiz Carlos de Oliveira Junior Karina Mauro Sistemas de Apoio a Decisão – Faculdade Pitágoras – Campus Divinópolis FACULDADE PITÁGORAS DATA WAREHOUSE CONTEXTO HISTÓRICO Anos 80: novas tecnologias / Controle dos Sistemas e Dados (disseminação do uso de computadores) / Utilização dos dados para tomada de Decisões (SAD - processo de juntar, estruturar, manipular, armazenar, acessar, apresentar e distribuir informações). Anos 90: arquitetura de desenvolvimento espontâneo (teia de aranha – extração de dados sobre extração de dados e assim por diante) / ambiente planejado. Tempos Atuais: ambiente planejado e projetado – Data Warehouse. FACULDADE PITÁGORAS DATA WAREHOUSE INTRODUÇÃO Data Warehouse - Armazém / Depósito de Dados - é uma estratégia de armazenamento em banco de dados e não um produto, com a finalidade de favorecer relatórios, a análise de grandes volumes de dados e a obtenção de informações estratégicas que podem facilitar a tomada de decisões. É como um agrupamento inteligente de dados de uma mesma fonte, como: origem, formato, nomes, tipo de negócio, regras, conexões entre outros. Favorece um resultado completo ao usuário, sem a necessidade de executar várias consultas (relatórios), cruza-las e finalmente chegar a um resultado. Os Dados ganham dinamismo. FACULDADE PITÁGORAS DATA WAREHOUSE INTRODUÇÃO Entrada de Dados Entrada de Dados DATA WAREHOUSE Saída de Dados Tratamento de Dados Objetivo: fornecer uma “imagem única da realidade do negócio”. O armazenamento se dá num depósito único, que seja de rápido acesso para as análises. Tal armazenamento conterá dados históricos advindos de bancos de dados transacionais que servem como back end de sistemas como ERPs e CRMs. FACULDADE PITÁGORAS CARACTERÍSTICAS DATA WAREHOUSE FACULDADE PITÁGORAS DATA WAREHOUSE CARACTERÍSTICAS Segundo Inmon, Data Warehouse é uma coleção de dados orientados por assuntos, integrados, variáveis com o tempo e não voláteis, para dar suporte ao processo de tomada de decisão. Dinamismo dos Dados. Posições históricas das atividades no tempo. Integração de Dados sempre, sem exceção. Sempre inserido, nunca excluído. FACULDADE PITÁGORAS DATA WAREHOUSE CARACTERÍSTICAS Orientado ao assuntos: Permite montar consultas para cada característica em comum que os dados possam apresentar. Integrado: como disse Já Wang (1998 apud COME, 2001, p. 2) DW é o processo pelo qual os dados relacionados de vários sistemas operacionais são fundidos para proporcionar uma única e integrada visão de informação de negócios que abrange todas as divisões da empresa. Ou seja, o fato de ser integrado torna essa uma das principais características. Não Volátil: sempre inserindo dados, nunca é excluso. Variante no tempo: todo DW deve manter todos históricos dos dados. FACULDADE PITÁGORAS DATA WAREHOUSE CARACTERÍSTICAS • Produto: O Data Warehouse não é um produto e não pode ser comprado como um software de banco de dados. O sistema de Data Warehouse é similar ao desenvolvimento de um ERP, ou seja, ele exige análise do negócio, exige o entendimento do que se quer retirar das informações. • A linguagem: O sistema de Data Warehouse não pode ser aprendido ou codificado como uma linguagem, suportando diversas linguagens e programações desde a extração dos dados até sua apresentação. • Projeto: pode ser pensado como uma série de projetos menores que convergem para a criação de um único sistema dinâmico. • Modelagem: O sistema de Data Warehouse não é somente um modelo de banco de dados e não é constituído por mais de um modelo. Existe o processo todo do sistema de BI/DW que compreende todos os procedimentos de ETL, Cleansing e apresentação das informações ao usuário final. FACULDADE PITÁGORAS DATA WAREHOUSE ARQUITETURA DE UMA DATA WAREHOUSE Dados Operacionais Fontes de Dados Externos ERP Reunir Refinar Agregar Armazenar Camada de Aquisição de Informação DWH Camada de Armazenamento de Informação DM Camada de Entrega de Informação Montagem DM LAN Dep 1 Dep 2 FACULDADE PITÁGORAS DATA WAREHOUSE POR QUE DATA WAREHOUSING? • A informação é o bem mais valioso para uma empresa; • Decisões precisam ser tomadas rápida e corretamente, usando todos os dados disponíveis; • Usuários são “experts” em negócios, e não profissionais em tecnologia; • A quantidade de dados dobra cada 18 meses, o que afeta o tempo de resposta e a habilidade de compreender seu conteúdo; • Estratégias de competição - diferencial positivo em relação a concorrência; • Análise do perfil do mercado; • integração do DW com DSS, EIS FACULDADE PITÁGORAS DATA WAREHOUSE ARMAZENAMENTO O esquema de dados mais utilizado é o "Star Schema" (Esquema Estrela), também conhecido como Modelagem Multidimensional. FACULDADE PITÁGORAS DATA WAREHOUSE MODELAGEM MULTIDIMENSIONAL DE DADOS A modelagem multidimensional visa construir um data warehouse com dimensões conformados e fatos afins com grãos os mais próximos possíveis. Esse tipo de modelagem tem dois modelos: • MODELO ESTRELA (STAR SCHEMA). • MODELO FLOCO DE NEVE (SNOW FLAKE). Modelo Estrela: Mais simples de entender, nesse modelo todas as dimensões relacionam-se diretamente com a fato. Modelo Floco de Neve: Visa normalizar o banco, esse modelo fica mais complicado do analista entender, nele temos dimensões auxiliares. FACULDADE PITÁGORAS DATA WAREHOUSE METADADOS O conceito Metadado é considerado como sendo os "dados sobre dados. Um repositório de metadados é uma ferramenta essencial para o gerenciamento de um Data Warehouse no momento de converter dados em informações para o negócio. Entre outras coisas, um repositório de metadados bem construído deve conter informações sobre a origem dos dados, regras de transformação, nomes e alias, formatos de dados, etc. Ou seja, esse "dicionário" deve conter muito mais do que as descrições de colunas e tabelas: deve conter informações que adicionem valor aos dados. FACULDADE PITÁGORAS DATA WAREHOUSE DATA MARTS O Data Warehouse é normalmente acedido através de Data Marts, que são pontos específicos de acesso à subconjuntos do Data Warehouse. Os Data Marts são construídos para responder prováveis perguntas de um tipo específico de usuário. Extraem e ajustam porções de DW aos requisitos específicos de grupos/departamentos. Por exemplo: um Data Mart financeiro poderia armazenar informações consolidadas dia-a-dia para um usuário gerencial e em periodicidades maiores (semana, mês, ano) para um usuário no nível da diretoria. Um Data Mart pode ser composto por um ou mais cubos de dados. Hoje em dia, os conceitos de Data Warehouse e Data Mart fazem parte de um conceito muito maior chamado de Corporate Performance Management. FACULDADE PITÁGORAS DATA WAREHOUSE DATA MARTS Data Mart: são subconjuntos departamentais focados em assuntos selecionados. DWH DM DM DM Consultas Relatórios Análise Multidimensional OLAP Data Mining OLAP: On Line Analytical Processing. Suportam análises sofisticadas, atendem um número de dimensões elevados e permitem a análise do negócio a partir de grandes conjuntos de dados. Tempo Produto Geografia Todas as vendas realizadas em cada região geográfica para cada tipo de produto. FACULDADE PITÁGORAS DATA WAREHOUSE OLAP x OLTP OLTP: On-line Transaction Processing. OLAP: On-line Analytical Processing. FACULDADE PITÁGORAS DATA WAREHOUSE OLAP x OLTP OLTP: é caracterizado por um grande número de curtas transações online (INSERT, UPDATE, DELETE). Realiza rápidas consultas, mantendo a integridade dos dados em ambientes multi-acesso e sua eficácia é medida pelo número de transações por segundo. OLAP: é caracterizado por um volume relativamente baixo de transações. As consultas são frequentemente muito complexas e envolvem agregações. Para os sistemas OLAP um tempo de resposta é uma medida de eficácia. Aplicações OLAP são amplamente utilizadas por técnicas de Data Mining além de serem multi-dimensionais do tipo esquema. FACULDADE PITÁGORAS Perguntas? DATA WAREHOUSE