DATA WAREHOUSE Rafael Ervin Hass Raphael Laércio Zago Roteiro Introdução Aplicações Arquitetura Características Desenvolvimento Estudo de Caso Conclusão Introdução O conceito de "data warehousing" data da metade da década de 1980. Ele consiste em um modelo arquitetural para o fluxo de dados dos sistemas de informação operacionais para os ambientes de suporte à decisão. Ele abrange os mecanismos de obtenção, armazenamento e disponibilização dos dados para os ambientes de suporte à decisão. Aplicações On- Line Analytic Processing (OLAP) para suporte a tomada de decisões; Data mining, que usa o data warehouse como fonte de informações para sistemas de descoberta de dados; Database marketing, que utiliza o data warehouse para prover serviços personalizados para compradores específicos. OLAP – On- Line Analytic Processing Consultas ad- hoc; Slice- and- Dice; Drill Down/ Up; Geração de Queries. Arquitetura Bancos de Dados Operacionais / Camada de Banco de Dados Externo Armazenamento dos dados de sistemas de informação operacionais; Fontes de informação ex ternas, como bancos de dados públicos; Possivelmente Heterogêneos. Camada de Acesso à Informação A camada com a qual o usuário final lida diretamente; Representa as ferramentas que o usuário final normalmente usa no dia a dia; Inclui o hardware e software envolvido na visualização e impressão de relatórios, planilhas, grafos e gráficos para análise e apresentação. Camada de Acesso de Dados Envolvida com a permissão da camada de acesso à informação para "conversar" com a camada operacional. Uso de uma linguagem de dados comum: SQL; Responsável pelo interfaceamento entre ferramentas de acesso à informação e bancos de dados operacionais. Diretório de Dados Repositório de informações de metadados; Metadados são os dados sobre os dados internos à organização; Usuários finais devem ser capazes de acessar dados do data warehouse, sem ter de conhecer onde os dados residem ou a forma na qual ele é armazenado. Camada de Gerenciamento de Processos Escalonamento das várias tarefas que devem ser realizadas para gerar e manter as informações do data warehouse e do diretório de dados; Controlador de alto nível das tarefas para os muitos processos (procedimentos) que devem ocorrer para manter o data warehouse atualizado. Camada de Mensagens de Aplicação Transporte de informação pela rede de computação organizacional; As mensagens de aplicação são também chamadas de "middleware"; Podem ser usadas para isolar aplicações, operacionais ou informacionais, do formato ex ato dos dados no outro lado. Camada de Data Warehouse O núcleo do data warehouse; Onde os dados são primariamente guardados para uso informacional; No data warehouse físico, cópias de dados operacionais ou ex ternos são armazenados em um formato de fácil acesso e altamente flex ível. Camada de Plataforma de Dados Também chamada de gerenciamento de cópia ou gerenciamento de replicação; Inclui todos os processos necessários para selecionar, editar, sumarizar, combinar e carregar data warehouses e dados de informações de acesso de bancos de dados operacionais ou ex ternos. Características Orientado à Assunto; Integrados; Não- Volátil; Variável no Tempo; Accessível; Orientado à Processo. Desenvolvimento de Data Warehouse Desenvolvimento de Data Warehouse É um deposito de dados de fontes múltiplas; Processado para armazenamento em modelos dimensionais; Não é volátil, a informação muda com menos freqüência; Granularidade dos dados mais espessa; Política de atualização. Desenvolviemento de Data Warehouse Componente para aquisição e préprocessamento dos dados; Geralmente são uma ou duas ordens de magnitudes maiores que os banco de dados fontes (terabytes); Modelagem do Data Warehouse Utiliza modelos dimensionais; Gera matrizes multidimensionais a partir relações inerentes aos dados. Chamados cubos de dados; Podem ter mais de 3 dimensões, os chamados hipercubos; Modelo de cubo de dados Modelo de cubo de dados Dados podem ser consultados em qualquer combinação das dimensões; Através do pivoteamento (ou rotação) pode mudar a orientação dimensional de um cubo de dados; Modelo de cubo de dados Rotação em um cubo de dados Modelagem do Data Warehouse Modelos multidimensionais podem ser utilizados em visões hierárquicas; Apresentações r ol l - u p e d r i l l - d ow n; – – Rol l - u p : segue a direção de baixo para cima na hierarquia, agrupa unidades maiores; Dr i l l - d ow n: tem a capacidade oposta, fornece uma visão com uma granularidade mais fina; Modelagem do Data Warehouse Armazenamento multidimensional utiliza tabelas de fatos e dimensões; – – Tabelas de Dimensões: possui atributos de dimensão; Tabelas de fatos: possui uma tupla por fato registrado, são relacionadas às tabelas de dimensão; Modelo de dados multidimensional Esquemas multidimensionais Estrela – Uma tabela de fato possui uma única tabela para cada dimensão; Snow f l ak e – – Variação do esquema estrela; As tabelas do esquema estrela são organizadas hierarquicamente através de sua normalização Esquema Snowflake Indexação Index ação de junção para indexar os dados dimensionais as tuplas na tabela de fatos; Índices de junção são índices tradicionais para a manutenção de relacionamentos entre os valores da chave primária e da chave estrangeira. Construção de um DW Obter uma ampla visão do uso do warehouse; Suporte a consultas ad hoc; Definições sobre como os dados serão obtidos Aquisição dos dados Os dados precisam ser ex traídos de fontes múltiplas e heterogêneas; Os dados precisam ser formatados visando à consistência dentro do warehouse; Os dados precisam ser limpos para assegurar a validade; Os dados precisam ser carregados no DW. Processos de armazenamento Arm azenam ent o dos dados de acordo com m odelo de dados do warehouse; Criação e m anut enção das est rut uras de dados necessárias; Criação e m anut enção de cam inhos de acesso adequados; Fornecim ent o de dados que variam no t em po conform e novos dados são acrescentados; Suport e a at ualização dos dados do warehouse; Atualização dos dados; Elim inação dos dados. Atualização do data warehouse O seu grande volume de dados torna impossível a total recarga; Atualização seletiva; Versões separadas do data warehouse; Mecanismo incremental de atualização de dados. Estudo de Caso: Fingerhut Corp. Empresa de venda por catálogos; O funcionamento da empresa é baseado no uso do seu data warehouse; Possui um corpo de 200 analistas de mercado, 300 d esi g n er s e 40 cientistas estatísticos que utilizam o DW para a separar o mercado em nichos e tomar decisões; Estudo de Caso: Fingerhut Corp. Transformando o departamento de m ar k et i ng em um grupo de usuários com alto grau de especialização em tecnologia, conseguiu elevar constantemente suas vendas desde o final da década de 1980, chegando a 23% em 1995; Divisão de TI possui 550 membros; 16 dedicados ao data warehouse. Estudo de Caso: Fingerhut Corp. Sintonia entre as equipes de m ar k et i n g e TI fazem com que os m ar k et ei r os possam identificar rápidamente nichos demográficos e nuances de comportamento; Agrupa informações de seus clientes com informações compradas de outras organizações. Conclusão DW serve como um foco para a análise e apoio à decisão através de consultas e relatórios; Estruturas de dados altamente sumarizadas; São desenvolvidos iterativamente, isto é, cada área de atuação é desenvolvida como um projeto separado. Conclusão Oferece inúmeras organização: – – – – vantagens para a Vantagens competitivas; Conhecimento aprimorado de relacionamentos entre produtos e serviços; Suporte à Análise; Apoio à decisão; FIM