4. Decisões Estruturadas
4.1. Data Warehouse (DW)
 Cadeia: SPT  SIG  DW  SAD  BI
■ Os SPT e SIG não eram flexíveis o suficiente
 Importa dados dos DB transacionais
 Disponíveis somente para leitura
■ A importação ocorre periodicamente
 Alto poder de processamento de consultas
 Facilidade de geração de relatórios
 Suporte a decisões táticas e estratégicas
■ Análise, consolidação, sumarização e síntese
■ Usa séries históricas para validar modelos e fazer
novas inferências
Márcio Moreira
Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 1
Sistemas de Apoio à Decisão
Data Warehouse e OLAP
 On-Line Analytical Processing
■ Processamento Analítico On-line (popular para DW)
 A OLAP foi construída para gerar respostas
rápidas à consultas analíticas em dados
multidimensionais compartilhados
■ Técnica:
• Tira uma foto (snapshot) dos dados (que vai usar)
• Estrutura os dados num cubo dimensional
• Processa a consulta usando o cubo
■ Consultas complexas: gasta menos de 1% do DBMS
■ Exemplo: Weekly da Tupperware
Márcio Moreira
Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 2
Sistemas de Apoio à Decisão
Exemplo: Weekly da Tupperware
Tipos de
Pessoas:
Agrupamentos
de Vendas:
Dimensão
Temporal:
Dimensão
Geográfica:
Tipos de
Reunião:
Executivas
Revendedoras
Recrutas
País
Região
Distribuição
Grupos
Ano
Trimestre
Mês
Semana
Distribuição
Distrito
Setor
Bairro
Lançamento
Normal
OLAP: Vendas pessoais na semana (fact table)
Vendas, Presenças, Marcações, Recrutamento
SIG: Vendas pessoais na semana
Relatório:
18 segundos
Relatório: 34 minutos
SPT: Pedidos
Márcio Moreira
Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 3
Sistemas de Apoio à Decisão
DB Relacional x DB Multidimensional
DB Relacional:
Modelo Cor
DB Multidimensional:
Vendas
Cor
Modelo
Totais
van
azul
6
van
verde
8
van
6
8
9
23
van
branca
9
coupe
12
15
-
27
coupe
azul
12
sedan
-
20
13
33
coupe
verde
15
Totais
18
43
22
83
sedan
verde
20
sedan
branca
13
Os agrupamentos multidimensionais e
as sumarizações maximizam o
desempenho de acesso aos dados.
Márcio Moreira
Azul Verde Branca
Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 4
Sistemas de Apoio à Decisão
DW - OLAP
 Estas ferramentas também ajudam na
apresentação e navegação no DW
 A navegação em cubos pode ser feita por:
■
■
■
■
Dimensões
Granularidade (dos detalhes até as sumarizações)
Tem recursos drill dwon e drill up (diminuir ou aumentar)
Tem recursos slice and dice (fatiar os dados, cria visões
para ver os dados sobre outras perspectivas)
 Facilidade de navegação e visualização são as
chaves do OLAP e por conseqüência do DW
Márcio Moreira
Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 5
Sistemas de Apoio à Decisão
DW - Armazenamento
 Precisa armazenar grandes volumes de dados
 Usa Data Marts: unidades lógicas menores
■ São pontos de acesso a subconjuntos de dados
■ São construídos para antecipar consultas de um tipo
específico de usuário
■ Ex: Data Mart financeiro dia-a-dia para gerentes
financeiros e um mensal para os diretores e executivos
■ Podem ser constituídos de um ou mais cubos de dados
 Usam o Esquema Estrela (Star Schema)
■ Modelagem Multidimensional
• Tabela de Fatos (Fact Table)
• Cubos dimensionais da tabela de fatos
 O Star Schema é popular, mas não é o único
Márcio Moreira
Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 6
Sistemas de Apoio à Decisão
DW - Modelagem
 Em DMBS usamos a normalização para:
■ Evitar redundâncias e garantir consistência
■ Gastar o menor espaço possível
■ Ex:
Vendas (CodRev, Grupo, Valor)
■
Revendedoras (CodRev, Nome)
■
Grupos (Grupo, Nome Grupo)
 Em DW privilegiamos a velocidade da consulta
■ A normalização torna-se irrelevante
■ Ex:
Vendas (CodRev, Nome, Grupo, Nome Grupo, Valor)
 Vantagens:
■ As consultas ficam muito mais rápidas
■ Os dados ficam mais intuitivos para os usuários
 Desvantagens:
■ Gasta-se muito mais espaço (que ficou barato hoje em dia)
Márcio Moreira
Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 7
Sistemas de Apoio à Decisão
DW - Metadados
 O DW vai importar dados. Logo, ele precisa saber:
■
■
■
■
■
Onde buscar qual dado (banco, tabela, atributo)
Como transformar o dado original (converter formatos)
Como lidar com ausência de dados (valor default)
Nome e alias (apelido) (Ex: pCod1  Código do Produto)
Dentre outras informações
 Solução: Um repositório de Metadados
■ Um “dicionário” contendo “dados sobre os dados”
■ Onde buscar o dado, como transformá-lo, valor default ...
 Isto é crucial para o DW converter dados
transacionais em informações de negócio
Márcio Moreira
Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 8
Sistemas de Apoio à Decisão
DW - Dicionário dos Metadados
 Origem dos dados
■ Banco, tabela e atributo ou arquivo e colunas ou processo
■ Cada dado só pode ter uma fonte
 Fluxo de dados
■ Quais fluxos transformam este dado
■ Quais dados servem para quais processos
 Formato dos dados
■ Todo dado tem um domínio (tipo, tamanho, formato)
 Nome e alias (apelido)
■ Todo dado tem um nome de negócio ou técnico
■ Podem ser criados alias para nomes existentes
■ Devem ser usados padrões de criação de nomes e alias
 Definições de negócio
■ Qual a utilidade do dado para o negócio
■ Esta definição e a manutenção dela são muito importantes
Márcio Moreira
Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 9
Sistemas de Apoio à Decisão
DW - Dicionário dos Metadados
 Regras de transformação
■ São regras de negócio codificadas
■ São utilizadas no momento da extração
■ Fazem limpeza, verificação e agrupamento
 Atualização de dados
■ Precisamos saber quando o dado foi atualizado
 Requisitos de teste
■ São restrições de domínio: possíveis valores, intervalos, etc.
■ E como cada dado deve ser validado
■ Ex: Gênero = M (masculino) ou F (feminino)
 Indicadores de qualidade dos dados
■ Índices indicando a qualidade, baseados em: origem, número de
transformações, valores atômicos x sumarizados, níveis de uso, ...
 Triggers (gatilhos) automáticos
■ Processos disparados automaticamente durante a extração
Márcio Moreira
Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 10
Sistemas de Apoio à Decisão
DW - Dicionário dos Metadados
 Responsáveis pelas informações
■ Deve ser identificado o responsável por cada dado do DW
■ Assim como o responsável pelos metadados
 Acesso e segurança
■ Os dados devem ser classificados quanto a
confidencialidade (público, restrito, etc.) e o acesso (leitura,
atualização, etc.)
■ Devem ser criados perfis de acesso aos dados e
metadados
■ Deve ser identificado o responsável pela gestão da
segurança
■ Deve ser identificado o administrador do banco de dados
do DW
Márcio Moreira
Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 11
Sistemas de Apoio à Decisão
DW - Extração de Dados
A extração de dados é feita por ferramentas
ETL (Extract Transform Load = Extração,
Transformação e Carga)
Quando existem processos periódicos de
extração:
■ Os dados são copiados da origem para a área de
stage
■ Em seguida os dados são transformados
■ Finalmente eles são gravados nos Data Marts do
DW
Quando o processo é on-line, estas etapas
são executadas de uma vez
Márcio Moreira
Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 12
Sistemas de Apoio à Decisão
Funções dos Metadados
Repositório
Metadados
Gerenciador de Processos
Fonte: Adaptado de Ken Orr (1996 e 2000)
Márcio Moreira
Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 13
Sistemas de Apoio à Decisão
DB Externos
DB de SPT
Acesso a Dados
Transporte
DW
Acesso a Dados
Usuários
Acesso a Informações
Arquitetura Genérica do DW
DW - Camadas
 Camadas de fontes de dados:
■ Bancos de dados de SPT e fontes externas ao DW
 Camada de acesso à informação:
■ Forma de iteração do usuário com o DW (hw e sw)
 Camada de acesso aos dados:
■ Liga o acesso à informação ao DW e às fontes de dados
 Camada de metadados:
■ Repositório do Dicionário de Dados
■ Biblioteca de funções de transformação
 Camada de gerenciamento de processos:
■ Gerencia todos os processos do DW
 Camada de transporte:
■ Gerencia o transporte de dados através da rede
 Camada do Data Warehouse:
■ É o DW propriamente dito (o gerenciador principal)
Márcio Moreira
Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 14
Sistemas de Apoio à Decisão
Data Warehouse - Produtos
 Fabricantes:
■ Líderes:
■ Grandes:
■ Menores:
 Produtos:
■ IBM:
Oracle, Microsoft e IBM
NCR Teradata, HP e Sun Microsystems.
Netezza, Datallegro e Dataupia.
• Retail Business Intelligence Solution (RBIS)
• Analysis and Business Intelligence
DW 2004 - Fonte: TDWI
Outros;
• DB2 Data Warehouse Manager
Teradata;
■ Oracle Data Warehouse
■ NCR Teradata Warehouse
■ DMExpress
Márcio Moreira
8%
9%
Oracle;
44%
IBM; 18%
Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 15
Microsoft;
21%
Sistemas de Apoio à Decisão
Download

Unidade 4 - Decisões Estruturadas