DATA WAREHOUSE
Rafael Ervin Hass
Raphael Laércio Zago
Roteiro
Introdução
Aplicações
Arquitetura
Características
Desenvolvimento
Estudo de Caso
Conclusão
Introdução
O conceito de "data warehousing" data da
metade da década de 1980. Ele consiste
em um modelo arquitetural para o fluxo de
dados dos sistemas de informação
operacionais para os ambientes de suporte
à decisão. Ele abrange os mecanismos de
obtenção,
armazenamento
e
disponibilização dos dados para os
ambientes de suporte à decisão.
Aplicações
On- Line Analytic Processing (OLAP) para
suporte a tomada de decisões;
Data mining, que usa o data warehouse
como fonte de informações para sistemas
de descoberta de dados;
Database marketing, que utiliza o data
warehouse
para
prover
serviços
personalizados
para
compradores
específicos.
OLAP – On- Line Analytic
Processing
Consultas ad- hoc;
Slice- and- Dice;
Drill Down/ Up;
Geração de Queries.
Arquitetura
Bancos de Dados Operacionais /
Camada de Banco de Dados Externo
Armazenamento dos dados de sistemas de
informação operacionais;
Fontes de informação ex ternas, como
bancos de dados públicos;
Possivelmente Heterogêneos.
Camada de Acesso à Informação
A camada com a qual o usuário final lida
diretamente;
Representa as ferramentas que o usuário
final normalmente usa no dia a dia;
Inclui o hardware e software envolvido na
visualização e impressão de relatórios,
planilhas, grafos e gráficos para análise e
apresentação.
Camada de Acesso de Dados
Envolvida com a permissão da camada de
acesso à informação para "conversar" com
a camada operacional.
Uso de uma linguagem de dados comum:
SQL;
Responsável pelo interfaceamento entre
ferramentas de acesso à informação e
bancos de dados operacionais.
Diretório de Dados
Repositório de informações de metadados;
Metadados são os dados sobre os dados
internos à organização;
Usuários finais devem ser capazes de
acessar dados do data warehouse, sem ter
de conhecer onde os dados residem ou a
forma na qual ele é armazenado.
Camada de Gerenciamento de
Processos
Escalonamento das várias tarefas que
devem ser realizadas para gerar e manter
as informações do data warehouse e do
diretório de dados;
Controlador de alto nível das tarefas para
os muitos processos (procedimentos) que
devem ocorrer para manter o data
warehouse atualizado.
Camada de Mensagens de
Aplicação
Transporte de informação pela rede de
computação organizacional;
As mensagens de aplicação são também
chamadas de "middleware";
Podem ser usadas para isolar aplicações,
operacionais
ou
informacionais,
do
formato ex ato dos dados no outro lado.
Camada de Data Warehouse
O núcleo do data warehouse;
Onde os dados são primariamente
guardados para uso informacional;
No data warehouse físico, cópias de dados
operacionais ou ex ternos são armazenados
em um formato de fácil acesso e altamente
flex ível.
Camada de Plataforma de Dados
Também chamada de gerenciamento de
cópia ou gerenciamento de replicação;
Inclui todos os processos necessários para
selecionar, editar, sumarizar, combinar e
carregar data warehouses e dados de
informações de acesso de bancos de dados
operacionais ou ex ternos.
Características
Orientado à Assunto;
Integrados;
Não- Volátil;
Variável no Tempo;
Accessível;
Orientado à Processo.
Desenvolvimento de Data
Warehouse
Desenvolvimento de Data
Warehouse
É um deposito de dados de fontes
múltiplas;
Processado para armazenamento em
modelos dimensionais;
Não é volátil, a informação muda com
menos freqüência;
Granularidade dos dados mais espessa;
Política de atualização.
Desenvolviemento de Data
Warehouse
Componente para aquisição e préprocessamento dos dados;
Geralmente são uma ou duas ordens de
magnitudes maiores que os banco de
dados fontes (terabytes);
Modelagem do Data Warehouse
Utiliza modelos dimensionais;
Gera matrizes multidimensionais a partir
relações inerentes aos dados.
Chamados cubos de dados;
Podem ter mais de 3 dimensões, os
chamados hipercubos;
Modelo de cubo de dados
Modelo de cubo de dados
Dados podem ser consultados em
qualquer combinação das dimensões;
Através do pivoteamento (ou rotação)
pode mudar a orientação dimensional de
um cubo de dados;
Modelo de cubo de dados
Rotação em um cubo de dados
Modelagem do Data Warehouse
Modelos multidimensionais podem ser
utilizados em visões hierárquicas;
Apresentações r ol l - u p e d r i l l - d ow n;
–
–
Rol l - u p : segue a direção de baixo para cima
na hierarquia, agrupa unidades maiores;
Dr i l l - d ow n: tem a capacidade oposta,
fornece uma visão com uma granularidade
mais fina;
Modelagem do Data Warehouse
Armazenamento multidimensional utiliza
tabelas de fatos e dimensões;
–
–
Tabelas de Dimensões: possui atributos de
dimensão;
Tabelas de fatos: possui uma tupla por fato
registrado, são relacionadas às tabelas de
dimensão;
Modelo de dados multidimensional
Esquemas multidimensionais
Estrela
–
Uma tabela de fato possui uma única tabela
para cada dimensão;
Snow f l ak e
–
–
Variação do esquema estrela;
As tabelas do esquema estrela são
organizadas hierarquicamente através de sua
normalização
Esquema Snowflake
Indexação
Index ação de junção para indexar os
dados dimensionais as tuplas na tabela de
fatos;
Índices de junção são índices tradicionais
para a manutenção de relacionamentos
entre os valores da chave primária e da
chave estrangeira.
Construção de um DW
Obter uma ampla visão do uso do
warehouse;
Suporte a consultas ad hoc;
Definições sobre como os dados serão
obtidos
Aquisição dos dados
Os dados precisam ser ex traídos de
fontes múltiplas e heterogêneas;
Os dados precisam ser formatados
visando à consistência dentro do
warehouse;
Os dados precisam ser limpos para
assegurar a validade;
Os dados precisam ser carregados no DW.
Processos de armazenamento
Arm azenam ent o dos dados de acordo com m odelo de
dados do warehouse;
Criação e m anut enção das est rut uras de dados
necessárias;
Criação e m anut enção de cam inhos de acesso
adequados;
Fornecim ent o de dados que variam no t em po conform e
novos dados são acrescentados;
Suport e a at ualização dos dados do warehouse;
Atualização dos dados;
Elim inação dos dados.
Atualização do data warehouse
O seu grande volume de dados torna
impossível a total recarga;
Atualização seletiva;
Versões separadas do data warehouse;
Mecanismo incremental de atualização de
dados.
Estudo de Caso:
Fingerhut Corp.
Empresa de venda por catálogos;
O funcionamento da empresa é baseado no
uso do seu data warehouse;
Possui um corpo de 200 analistas de
mercado, 300 d esi g n er s e 40 cientistas
estatísticos que utilizam o DW para a separar
o mercado em nichos e tomar decisões;
Estudo de Caso:
Fingerhut Corp.
Transformando
o
departamento
de
m ar k et i ng em um grupo de usuários com
alto grau de especialização em tecnologia,
conseguiu elevar constantemente suas
vendas desde o final da década de 1980,
chegando a 23% em 1995;
Divisão de TI possui 550 membros; 16
dedicados ao data warehouse.
Estudo de Caso:
Fingerhut Corp.
Sintonia entre as equipes de m ar k et i n g e TI
fazem com que os m ar k et ei r os possam
identificar rápidamente nichos demográficos
e nuances de comportamento;
Agrupa informações de seus clientes com
informações
compradas
de
outras
organizações.
Conclusão
DW serve como um foco para a análise e
apoio à decisão através de consultas e
relatórios;
Estruturas de dados altamente sumarizadas;
São desenvolvidos iterativamente, isto é,
cada área de atuação é desenvolvida como
um projeto separado.
Conclusão
Oferece inúmeras
organização:
–
–
–
–
vantagens
para
a
Vantagens competitivas;
Conhecimento aprimorado de relacionamentos
entre produtos e serviços;
Suporte à Análise;
Apoio à decisão;
FIM
Download

Camada de Data Warehouse