Data Warehouse
Equipe:
Gilmar Ferreira
Marcos Costa
Ricardo Araújo
O Cenário

Corporações



Necessitam de decisões rápidas e precisas
Reação rápida a mudanças do ambiente
Obtenção de vantagem competitiva
Centro de Informática - UFPE
2
O Cenário

Dados



Disponíveis em sistemas não integrados
Espalhados em múltiplas e independentes
plataformas
Dificuldade de análise
Centro de Informática - UFPE
3
Conceitos

Processamento Operacional (OLTP)





Funcionalidades do negócio
Processamento de transações: inserção,
atualização, consulta e deleção
Reflete valor corrente, não-redundante e
atualizável
Altamente voláteis
Modelagem E/R
Centro de Informática - UFPE
4
Conceitos

Processamento Analítico (OLAP)




Suporte à tomada de decisão
Dados históricos, não voláteis, ready-only
Integram informações de diversos sistemas
operacionais
Permitem identificações de perfis,
tendências e padrões
Centro de Informática - UFPE
5
Conceitos

Processamento Analítico (OLAP)



Redundância de dados aceita
Alto desempenho na recuperação de dados
versus economia de espaço
Banco de Dados Multidimensional
Centro de Informática - UFPE
6
Conceitos

OLTP X OLAP
OLTP
OLAP
Orientados a aplicações
Orientados a assuntos
As Vezes de Grande tamanho
Quase sempre grandes
Dados granulados
Dados constituídos de sumarizações
Dados de pouca fontes
Dados de múltiplas fontes
Suporta consultas e atualizações
Atualizações em modo batch
Dados que mudam constantemente
Dados mais estáveis
Dados atuais
Dados históricos
Tabela 1 Diferenças entre banco de dados OLTP e OLAP
(fonte: [COR 97])
Centro de Informática - UFPE
7
Conceitos

MOLAP





Banco de dados multidimensional
Conjunto de interfaces, aplicações e banco
de dados
Tecnologia proprietária
Dados armazenados em cubo de n
dimensões
Alta performace
Centro de Informática - UFPE
8
Conceitos

ROLAP


Conjunto de interfaces e aplicações que dá
ao BD relacional características
dimensionais
HOLAP


Combina as tecnologias MOLAP E ROLAP
Objetivo: combinar as melhores
características de ambas
Centro de Informática - UFPE
9
Conceitos

Sistema de Apoio à Decisão (SAD)




Realizam processamento analítico
Provêem as informações necessárias ao
usuário
Permitem análise de situações e tomada de
decisões
Necessidades estratégicas e táticas
Centro de Informática - UFPE
10
Data Warehouse

Data WareHouse



SAD
Fornece informações para auxiliar a
tomada de decisões estratégicas
Une, de forma organizada, informações
espalhadas em diversas fontes
Centro de Informática - UFPE
11
Definição de DW

Data WareHouse


Inmon: Data Warehouse é uma coleção de
dados orientados à assunto, integrada,
dinâmica e não-volátil, para o suporte a
decisões de gerenciamento
Kimball: Data Warehouse é a fonte de
dados de consulta do empreendimento
Centro de Informática - UFPE
12
Data Mart

Data Mart





Subconjunto lógico do DW
Projetado para representar uma função particular
do negócio
Rapidamente implementável e de baixo custo
Controle local, em vez de centralizado
Redução do tempo de resposta a consultas
Centro de Informática - UFPE
13
Data Mart

Problemas


Pode acarretar a fragmentação de dados da
organização
Solução


Deve haver planejamento para futura integração
com um DW único de toda empresa
Construção de um DW na forma de DM
distribuídos em unidades individuais
Centro de Informática - UFPE
14
ODS: Operational Data Store

ODS



Usados para decisões a curto prazo
envolvendo aplicações de missão crítica
Trabalha diretamente com sistemas
legados
Dados mais antigos podem ser movidos e
sumarizados para o DW
Centro de Informática - UFPE
15
Modelagem Processamento Analítico

Problemas da Modelagem E/R



Redução de visão global do negócio para
grandes modelos
Não tem alto desempenho na recuperação
de dados (principalmente joins)
Para cada variação na estrutura do modelo,
há necessidade de reescrever e ajustar as
implementações
Centro de Informática - UFPE
16
Modelagem Processamento Analítico

Modelagem Dimensional




Específica para processamento analítico
Apresentação de dados padronizada,
intuitiva e que permite alto desempenho de
acesso
Dois tipo de tabelas: Fato e dimensão.
Chave primária simples da tabela dimensão
corresponde à chave estrangeira de fato
(Esquema estrela)
Centro de Informática - UFPE
17
O ambiente de um DW
Arquitetura resumida de DW
Centro de Informática - UFPE
18
Características básicas







Orientado por tema
Integrado
Não-volátil
Variante no tempo
Dados sumarizados
Metadados
Dados oriundos de fontes internas e/ou
externas
Centro de Informática - UFPE
19
Orientado por temas

Refere-se ao fato do DW armazenar informações
sobre temas específicos importantes para o
negócio da empresa


Exemplos produtos, atividades, contas, clientes, etc.
O ambiente operacional é organizado por
aplicações funcionais

Exemplo, em uma organização bancária, estas aplicações
incluem empréstimos, investimentos e seguros.
Centro de Informática - UFPE
20
Integrado


Refere-se à consistência de nomes das unidades
das variáveis
Dados foram transformados até um estado
uniforme

Por exemplo, todas as medidas (cm, polegadas,jardas) são
convertidas para metros.
Centro de Informática - UFPE
21
Não volátil


Permite o "load-and-access”
Os
dados
após
serem
extraídos,
transformados e transportados para o DW
estão disponíveis aos usuários somente para
consulta
Centro de Informática - UFPE
22
Variante no tempo


Os DW armazenam dados por um período de
tempo de 5 a 10 anos
Refere-se a algum momento específico


não é atualizável
No DW haverá sempre uma tabela dimensão
ou fato, cuja estrutura registrará o elemento
tempo
Centro de Informática - UFPE
23
Metadados



“Dados sobre dados” [INMON ]
Provêm informações sobre a estrutura de dados
e as relações entre estas dentro ou entre
bancos de dados
“São todas as informações do ambiente do DW
que não são seus próprios dados” [Kimball]
Centro de Informática - UFPE
24
Granularidade



É o nível de detalhes dentro do banco de dados
do DW
Quanto menor a granularidade, maior o nível de
detalhes e, conseqüentemente, maior o volume
de dados armazenado
Exemplo, Registro de Vendas de uma rede de
supermercados:


diária: sumarização de vendas e carga diária no Banco de Dados
mensal: sumarização de dados e carga a cada 30 dias no Banco
de Dados
Centro de Informática - UFPE
25
Agregação


São registros sumarizados logicamente
redundantes com os dados básicos do DW
Finalidades:



melhorar o tempo de reposta as consultas
reduzir o tempo de processamento
reduzir espaço de armazenamento
Centro de Informática - UFPE
26
Modelagem dimensional

Hipercubo, onde cada célula contém um valor a
partir dos lados desse cubo que definem as
dimensões
valor
Centro de Informática - UFPE
27
Modelagem dimensional



Representação voltada para processamento
analítico. Intuitividade para o decisor
Suporte de tecnologias MOLAP, ROLAP ou
HOLAP
Dois tipos principais de estruturas ou
esquemas: estrela (star schema) ou floco de
neve (snowflake schema)
Centro de Informática - UFPE
28
Modelagem dimensional

Tabelas fatos

Contêm as medições numéricas do negócio




Exemplo: unidades_vendidas, custo_dolar
Grande quantidade de dados
Chave primária composta por FKs
Atributos numéricos e valorados
Centro de Informática - UFPE
29
Modelagem dimensional

Tabelas dimensão





Contém dados descritivos do negócio
Chave primária simples
Pequena quantidade de informações se
comparadas com as tabelas fato
Modelos reais contêm entre 4 e 15 dimensões
Modelos com mais de 20 dimensões devem ser
melhor estudados
Centro de Informática - UFPE
30
Esquema estrela
Este esquema é chamado de estrela, por apresentar
a tabela de fatos "dominante" no centro do esquema
e as tabelas de dimensões nas extremidades.
Centro de Informática - UFPE
31
Esquema estrela


Permite projetar o BD da forma como o
usuário pensa em usá-lo analiticamente
Limitações:


Tabela dimensional possui uma quantidade muito
grande de atributos
Soluções:



Múltiplas tabelas de fatos
Tabelas associativas
Tabelas externas
Centro de Informática - UFPE
32
Esquema estrela
Múltiplas tabelas de fato
Centro de Informática - UFPE
33
Esquema estrela
Tabelas associativas
Centro de Informática - UFPE
34
Esquema estrela
Tabelas externas
Centro de Informática - UFPE
35
Esquema floco de neve
Extensão esquema estrela onde cada uma das "pontas"
da estrela passa a ser o centro de outras estrelas
Centro de Informática - UFPE
36
Integração de Data Marts e DW



Possível através do conceito de Data
Warehouse bus
Esquema geral e padronizado de tabelas
dimensão e fato
Permite desenvolvimento evolucionário
Centro de Informática - UFPE
37
Topologias de DWs

Centralizada



Único Banco de Dados Físico
usados onde existe uma necessidade comum de
informações.
Data Warehouse e Data Marts


ligação de vários DM a um DW
Usuário pode pode acessar os DM (gerente de
departamento) ou acessar o DW para obter informações
globais da organização
Centro de Informática - UFPE
38
Topologias de DWs

Distribuída




Vários DW interligados através de uma rede
com forte suporte a processamento distribuído
Usuário pode conectar-se a qualquer DW
Apresenta problemas de desempenho
Será muito utilizada para dar suporte às
aplicações para Web.
Centro de Informática - UFPE
39
Topologias de DWs

Desenvolvimento estratégico
Desenvolvimento botton-up de Data Marts
Desenvolvimento top-down de dados

Possibilita criação de Sistemas flexíveis
e escaláveis
Centro de Informática - UFPE
40
Arquitetura de um DW

Arquitetura de Dados

Uma camada (one tier)


Duas camadas (two tier)


Dados armazenados uma única vez
Dados operacionais e analíticos separados em
camadas distintas
Três camadas (three tier)

Transformação de dados não é executada em
um único passo
Centro de Informática - UFPE
41
Arquitetura de Dados do DW

Uma camada
Centro de Informática - UFPE
42
Arquitetura de Dados do DW

Duas camadas
Centro de Informática - UFPE
43
Arquitetura de Dados do DW

Três camadas
Centro de Informática - UFPE
44
Arquitetura de um DW

Arquitetura de Acesso aos Dados

Duas camadas


Três camadas (ROLAP)


Acesso direto ao DW e Metadados
Servidor de aplicações
Três camadas + (MOLAP)

Servidor de aplicações + Cubo OLAP
Centro de Informática - UFPE
45
Arquitetura de Acesso aos
Dados do DW

Duas camadas
Centro de Informática - UFPE
46
Arquitetura de Acesso aos
Dados do DW

Três camadas
Centro de Informática - UFPE
47
Arquitetura de Acesso aos
Dados do DW

Três camadas +
Centro de Informática - UFPE
48
Arquitetura de um DW

Arquitetura Funcional



Plano geral do que se deseja do Data
Warehouse
Descreve o fluxo de dados em todas as
etapas
Especifica técnicas e ferramentas
necessárias
Centro de Informática - UFPE
49
Arquitetura Funcional do DW
Centro de Informática - UFPE
50
Arquitetura Funcional do DW

Componentes da Área Interna

Sistemas Fontes


Área de Organização de Dados


Sistemas operacionais internos + fontes externas
Lugar onde os valores a serem adicionados são tratados
(Motor do DW)
Servidor de Apresentação


Compartilhado entre as Áreas
Componentes




Data Marts com dados agregados
Data Marts com dados atômicos
Data Warehouse Bus
Catálogo de Metadados
Centro de Informática - UFPE
51
Arquitetura Funcional do DW

Serviços da Área Interna

Extração




Carga incremental
Baseado em transações
Carga completa
Transformação de dados






Integração
Limpeza
Conversão de tipos
Combinação
Agregação
etc.
Centro de Informática - UFPE
52
Arquitetura Funcional do DW

Serviços da Área Interna (cont)

Carga de Dados



Suporte para múltiplos destinos
Otimização do processo de carga
Controle de Dados organizados






Definição e Agendamento de trabalhos
Monitoramento
Arquivo de log
Manipulação de exceções
Manipulação de erros
Notificação
Centro de Informática - UFPE
53
Arquitetura Funcional do DW

Gerenciamento de recursos da Área
Interna



Backup e Recovery
Archive e Retrieval
Metadados da Área Interna

Dos sistemas fonte



Das especificações da fonte
Das informações descritivas da fonte
Dos processos de informação
Centro de Informática - UFPE
54
Arquitetura Funcional do DW

Metadados da Área Interna (cont)

Da área de organização de dados
Das informações de aquisição de dados
 Do gerenciamento das tabelas dimensão
 Das transformações e agregações
 De auditorias, logs de trabalho e
documentação


Do banco de dados
Centro de Informática - UFPE
55
Arquitetura Funcional do DW

Componentes da Área Externa

Servidor de apresentação


Ferramenta de acesso aos dados



Relatórios padronizados (utilização de cache)
Modelos de aplicações


Consultas ad hoc (utilização de cache)
Drill down, Drill up ou roll up, Slice e Dice
Ferramenta geradora de relatórios


Dados disponibilizados para usuário final
Data Mining
Sistemas após o DW

Sistemas de geração de relatórios orientados a
transações (ex.: Sistema de previsão de demanda)
Centro de Informática - UFPE
56
Arquitetura Funcional do DW

Serviços da Área Externa

Warehouse browsing


Serviços de acesso e segurança


Ligados ao cadastro de metadados
Autenticação e autorização
Serviços de monitoramento de atividades

Centrados sobre:

Desempenho, suporte ao usuário, marketing e
planejamento
Centro de Informática - UFPE
57
Arquitetura Funcional do DW

Serviços da Área Externa (cont)

Serviços de gerenciamento de consultas





Simplificação do conteúdo
Reformulação da consulta
Redirecionamento de consulta
Consciência de agregados
Serviços de padronização de relatórios

Permitir criação de relatórios em formatos prédefinidos
Centro de Informática - UFPE
58
Arquitetura Funcional do DW

Metadados da Área Externa





Descrição das colunas, tabelas e
agrupamentos
Consultas pré-formuladas
Perfis de privilégio de usuários
Mapas de acessos à tabelas, visões,
relatórios e dados
Documentação para Usuário Final
Centro de Informática - UFPE
59
Arquitetura Funcional do DW

Tendências Futuras

Área Interna




Sistema de participação de fonte ativa
Envio de dados
Sistemas orientados a objetos
Área Externa



Autenticação e autorização
Centralização dos serviços de acesso
Acesso a clientes baseados na Web
Centro de Informática - UFPE
60
Ferramentas

DBMINER




Procura integrar tecnologias de DW e Data
Mining
Banco de dados analítico MOLAP
Importa um conjunto de tabelas
provenientes de BDRs como MS SQL
Server, MS Acess, Oracle ou Text Files
Possui wizard para montar Data Mart
Centro de Informática - UFPE
61
Ferramentas

MS SQL Server





Conjunto de Aplicativos da Microsoft
Banco de dados relacional, ferramentas
OLAP e MS English Query
Torna possível implementação de sistemas
de suporte à decisão ROLAP, MOLAP, OLAP
Serviços de importação, extração,
transformação, validação e limpeza de
dados heterogêneos
Serviços de gerenciamento e ferramentas
voltadas para o usuário final
Centro de Informática - UFPE
62
Conclusões




Data Warehousing integra grandes
volumes de dados originados em
sistemas separados
Necessitam de grande esforço para seu
desenvolvimento
Torna possível a descoberta de
conhecimento escondido nos dados
Útil para organizações que precisem tomar
decisões estratégicas de risco e que
necessitem se posicionar de forma vantajosa
Centro de Informática - UFPE
63
Conclusões



Desenvolvimento de servidores de BD
paralelos poderá viabilizar o suporte a
Data Warehouses cada vez maiores
Tratará dados multimídia
Data WareHouse deverá também ser
viabilizado na Internet
Centro de Informática - UFPE
64
Download

dw - Centro de Informática da UFPE