Datawarehouse
Um Ambiente Estruturado
Por Michel Andrade de Souza
Primeiro Conceito

Datawarehouse
• consiste
basicamente em uma grande
massa de dados não-voláteis, organizados
em assuntos, integrados e variável em
relação ao tempo
• tecnologia recente
• estudos indicam que não existam produtos
que apliquem todos os requisitos para sua
utilização
Segundo Conceito
•
O Data Warehouse (DW) é um conjunto de
técnicas que aplicadas em conjunto geram
um sistema de dados que nos proporcionam
informações para tomada de decisões.
•
Funciona tipicamente na arquitetura
cliente/servidor.
Objetivo
•
Fornecer os subsídios necessários para a
transformação de uma base de dados de uma
organização de OLTP para OLAP.
OLTP
On-Line Transaction Processing
•
Processamentos que executam as operações
do dia-a-dia da organização
•
Ênfase ao suporte do negócio, através de um
processamento rápido, acurado e eficiente de
dados
• Ex: movimento bancário
Exemplo Processamento. Transação - OLTP
ContaA=R$5000,00
ContaB=R$2,00
Início
Débito
ContaC=R$100,00
Conta A
R$1000,00
Crédito
Conta B
R$ 700,00
Crédito
R$ 300,00
Fim
Conta C
ContaA=R$4000,00
ContaB=R$702,00
ContaC=R$400,00
OLAP
On Line Analytical Processing
•
Processamentos que suportam a tomada de
decisões
•
Permite analisar tendências e padrões em
grande quantidades de dados
• ao longo do tempo (histórico)
• e em diferentes localizações (geográficos)
Ambiente do
DW
Extração e
Integração dos
dados
DW
OLTP
Acesso a
Dados
Níveis de Dados
•
Operacional
•
Atômico
•
Departamental
•
Individual
Operacional
•
Contém apenas dados operacionais e atende
à comunidade de processamento de
transações de alta performance
•
Valores atuais
•
Baseado em aplicações
Atômico
•
Contém dados operacionais que não são
atualizados,
• podendo armazenar dados analíticos
•
Variável no tempo
•
Baseado em negócios
Departamental
•
Contém dados operacionais e analíticos
•
Ex: departamento de contabilidade,
marketing
Individual
•
Onde as análises heurísticas são feitas
•
Baseado em PCs
•
Temporário
Características do Datawarehouse
•
Orientado por temas
•
Integrado
•
Variante no tempo
•
Não volátil
Orientado por Temas
•
•
Refere-se ao fato do DW armazenar
informações sobre temas específicos
importantes para o negócio da empresa.
• Exemplos produtos, atividades, contas,
clientes, etc.
O ambiente operacional é organizado por
aplicações funcionais.
• Exemplo, em uma organização bancária,
estas aplicações incluem empréstimos,
investimentos e seguros.
Integrado
•
Refere-se à consistência de nomes, das
unidades das variáveis.
•
Dados foram transformados até um estado
uniforme.
• Exemplo, considere-se sexo como um
elemento de dado.
Variante no Tempo
•
•
•
Refere-se a algum momento específico,
• Não é atualizável
Enquanto que o dado de produção é
atualizado de acordo com mudanças de
estado do objeto em questão, refletindo, em
geral, o estado do objeto no momento do
acesso.
A cada ocorrência de uma mudança,
• Uma nova entrada é criada, para marcar
esta mudança.
Não Volátil
•
Permite o "load-and-access”
•
Após integração e transformação,
armazenados em bloco para o DW
• Após aos usuários
•
Rollback, recuperação de falhas, commits e
bloqueios
dados
Ambiente do Datawarehousearehouse
w
Arquitetura do Datawarehouse
•
•
Arquitetura Genérica
• Camada de Bancos de Dados Operacionais
• Camada de Acesso à Informação
• Camada de Acesso aos Dados
• Camada de Metadados (Dicionário de Dados)
• Camada de Gerenciamento de Processos
• Camada de Transporte ou Middleware
• Camada do DW
• Camada de Gerenciamento de Replicação
Arquitetura de Dados
Camada de Bancos de Dados
Operacionais
•
Corresponde aos dados das bases de dados
operacionais da organização junto com dados
provenientes de outras fontes externas que
serão tratados e integrados para compôr o
DW.
Camada de Acesso à Informação
•
•
•
É a camada com a qual os usuários finais
interagem.
Representa as ferramentas que o usuário
utiliza no dia a dia
• Exemplo: Planilha de Cálculo MS-Excell
Envolve o hardware e software utilizado
para obtenção de relatórios, planilhas,
gráficos e outros.
• Ex: Data Mining.
Camada de Acesso aos Dados
•
•
Ligação entre as ferramentas de acesso à
informação e os bancos de dados
operacionais.
Comunica-se não só com diferentes SGBDs e
sistemas de arquivos de um mesmo ambiente
como também, idealmente, com outras fontes
sob diferentes protocolos de comunicação, no
que se chama acesso universal de dados.
Camada de Metadados
(Dicionário de Dados)
•
•
•
Metadados: são as informações sobre os
dados mantidos pela empresa
• Ex: (descrições de registro em um
programa COBOL, comandos CREATE do
SQL, informação em um diagrama E-R,
dados em um dicionário de dados
Funcionalidade - > grande variedade de
metadados
Acesso aos dados de um DW sem que tenha
que saber onde residem
Camada de Gerenciamento de
Processos
•
Envolve-se com o controle das diversas
tarefas a serem realizadas para
construir e manter as informações do
dicionário de dados e do DW
•
Responsável pelo gerenciamento dos
processos para manter o DW atualizado
e consistente.
Camada de Transporte Middleware
•
•
•
Gerencia o transporte de informações pelo
ambiente de redes
Usada para isolar aplicações, operacionais ou
informacionais, do formato real dos dados
nas duas extremidades
Inclui a coleta de mensagens e transações e
se encarrega de entregá-las em locais e
tempos determinados.
Camada do DW
•
•
•
O DW propriamente dito corresponde aos
dados usados para fins "informacionais".
Em alguns casos, DW é simplesmente uma
visão lógica ou virtual dos dados
Em um DW que exista fisicamente, cópias dos
dados operacionais e externos são de fato
armazenadas
Camada de Gerenciamento de
Replicação
•
•
•
Inclui todos os processos necessários para
selecionar, editar, resumir, combinar e
carregar o DW e as correspondentes
informações de acesso a partir das bases
operacionais e fontes externas.
Pode envolver programação complexa
Programas de análise da qualidade dos dados
e filtros que identificam padrões nos dados
operacionais
Passos para Aplicação de um DW
•
DW não é um produto que se compra, mas
sim um projeto que envolve:
• Análise
e
implementação,
com
a
participação de várias tecnologias.
•
Sete passos para a criação de um DW, que
pode ser inicialmente um data mart (assunto
específico) até mesmo um DW no nível
corporativo.
1° Passo
•
Os primeiros resultados devem estar
disponíveis a curto prazo. É importante
traduzir rapidamente as necessidades
do negócio em uma especificação que
possa ser construída em etapas.
•
Minimiza riscos e o tempo de
apresentação dos resultados iniciais.
2° Passo
•
•
•
Desafio de integração de sistemas.
• Dados de produção e de fontes externas
precisam ser mapeados para o modelo de
dados do DW.
Sincronismo
• Entre os dados operacionais e os dados de
tomada de decisão.
Sincronia em um banco de dados multidimensional.
3° Passo
•
•
A escolha do banco de dados de suporte ao
DW precisa ser criteriosa.
Critérios
• Desempenho na carga e indexação dos
dados,
• Tempo de resposta,
• Capacidade de armazenamento,
• Paralelismo,
• Escalabilidade.
4° Passo
•
•
Considerar as ferramentas disponíveis no
mercado
Devem prover:
• Interfaces amigáveis,
• Geração de relatórios,
• Análises multi-dimensionais,
• Acesso via Web e data mining.
5° Passo
•
Construir um DW que possa ser expandido,
mantendo níveis aceitáveis de desempenho
até gigabytes.
6° Passo
•
Ambiente DW deve ser aberto para permitir
que os componentes ou ferramentas
identificadas no passo 4 possam ser
substituídas por outras mais atuais e
eficientes.
Ferramentas
7° Passo
•
Considerar o sistema de armazenamento que
fisicamente gerencia
• O tráfego
• Alocação
• Backup
•
Restauração dos dados
Ferramentas de Extração
•
•
Como o DW é um BD que fica separado do
sistema OLTP, existem ferramentas que
automatizam o processo.
Ex:
• Platinum
• Prism
• Power Stage (sybase)
Exemplos de Banco de Dados
•
•
•
•
•
Oracle
Sybase
DB2
Informix
SQL Server
Contatos :
Michel Andrade de Souza
[email protected]
[email protected]
Download

Datawarehouse