4. Decisões Estruturadas 4.1. Data Warehouse (DW) Cadeia: SPT SIG DW SAD BI ■ Os SPT e SIG não eram flexíveis o suficiente Importa dados dos DB transacionais Disponíveis somente para leitura ■ A importação ocorre periodicamente Alto poder de processamento de consultas Facilidade de geração de relatórios Suporte a decisões táticas e estratégicas ■ Análise, consolidação, sumarização e síntese ■ Usa séries históricas para validar modelos e fazer novas inferências Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 1 Sistemas de Apoio à Decisão Data Warehouse e OLAP On-Line Analytical Processing ■ Processamento Analítico On-line (popular para DW) A OLAP foi construída para gerar respostas rápidas à consultas analíticas em dados multidimensionais compartilhados ■ Técnica: • Tira uma foto (snapshot) dos dados (que vai usar) • Estrutura os dados num cubo dimensional • Processa a consulta usando o cubo ■ Consultas complexas: gasta menos de 1% do DBMS ■ Exemplo: Weekly da Tupperware Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 2 Sistemas de Apoio à Decisão Exemplo: Weekly da Tupperware Tipos de Pessoas: Agrupamentos de Vendas: Dimensão Temporal: Dimensão Geográfica: Tipos de Reunião: Executivas Revendedoras Recrutas País Região Distribuição Grupos Ano Trimestre Mês Semana Distribuição Distrito Setor Bairro Lançamento Normal OLAP: Vendas pessoais na semana (fact table) Vendas, Presenças, Marcações, Recrutamento SIG: Vendas pessoais na semana Relatório: 18 segundos Relatório: 34 minutos SPT: Pedidos Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 3 Sistemas de Apoio à Decisão DB Relacional x DB Multidimensional DB Relacional: Modelo Cor DB Multidimensional: Vendas Cor Modelo Totais van azul 6 van verde 8 van 6 8 9 23 van branca 9 coupe 12 15 - 27 coupe azul 12 sedan - 20 13 33 coupe verde 15 Totais 18 43 22 83 sedan verde 20 sedan branca 13 Os agrupamentos multidimensionais e as sumarizações maximizam o desempenho de acesso aos dados. Márcio Moreira Azul Verde Branca Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 4 Sistemas de Apoio à Decisão DW - OLAP Estas ferramentas também ajudam na apresentação e navegação no DW A navegação em cubos pode ser feita por: ■ ■ ■ ■ Dimensões Granularidade (dos detalhes até as sumarizações) Tem recursos drill dwon e drill up (diminuir ou aumentar) Tem recursos slice and dice (fatiar os dados, cria visões para ver os dados sobre outras perspectivas) Facilidade de navegação e visualização são as chaves do OLAP e por conseqüência do DW Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 5 Sistemas de Apoio à Decisão DW - Armazenamento Precisa armazenar grandes volumes de dados Usa Data Marts: unidades lógicas menores ■ São pontos de acesso a subconjuntos de dados ■ São construídos para antecipar consultas de um tipo específico de usuário ■ Ex: Data Mart financeiro dia-a-dia para gerentes financeiros e um mensal para os diretores e executivos ■ Podem ser constituídos de um ou mais cubos de dados Usam o Esquema Estrela (Star Schema) ■ Modelagem Multidimensional • Tabela de Fatos (Fact Table) • Cubos dimensionais da tabela de fatos O Star Schema é popular, mas não é o único Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 6 Sistemas de Apoio à Decisão DW - Modelagem Em DMBS usamos a normalização para: ■ Evitar redundâncias e garantir consistência ■ Gastar o menor espaço possível ■ Ex: Vendas (CodRev, Grupo, Valor) ■ Revendedoras (CodRev, Nome) ■ Grupos (Grupo, Nome Grupo) Em DW privilegiamos a velocidade da consulta ■ A normalização torna-se irrelevante ■ Ex: Vendas (CodRev, Nome, Grupo, Nome Grupo, Valor) Vantagens: ■ As consultas ficam muito mais rápidas ■ Os dados ficam mais intuitivos para os usuários Desvantagens: ■ Gasta-se muito mais espaço (que ficou barato hoje em dia) Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 7 Sistemas de Apoio à Decisão DW - Metadados O DW vai importar dados. Logo, ele precisa saber: ■ ■ ■ ■ ■ Onde buscar qual dado (banco, tabela, atributo) Como transformar o dado original (converter formatos) Como lidar com ausência de dados (valor default) Nome e alias (apelido) (Ex: pCod1 Código do Produto) Dentre outras informações Solução: Um repositório de Metadados ■ Um “dicionário” contendo “dados sobre os dados” ■ Onde buscar o dado, como transformá-lo, valor default ... Isto é crucial para o DW converter dados transacionais em informações de negócio Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 8 Sistemas de Apoio à Decisão DW - Dicionário dos Metadados Origem dos dados ■ Banco, tabela e atributo ou arquivo e colunas ou processo ■ Cada dado só pode ter uma fonte Fluxo de dados ■ Quais fluxos transformam este dado ■ Quais dados servem para quais processos Formato dos dados ■ Todo dado tem um domínio (tipo, tamanho, formato) Nome e alias (apelido) ■ Todo dado tem um nome de negócio ou técnico ■ Podem ser criados alias para nomes existentes ■ Devem ser usados padrões de criação de nomes e alias Definições de negócio ■ Qual a utilidade do dado para o negócio ■ Esta definição e a manutenção dela são muito importantes Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 9 Sistemas de Apoio à Decisão DW - Dicionário dos Metadados Regras de transformação ■ São regras de negócio codificadas ■ São utilizadas no momento da extração ■ Fazem limpeza, verificação e agrupamento Atualização de dados ■ Precisamos saber quando o dado foi atualizado Requisitos de teste ■ São restrições de domínio: possíveis valores, intervalos, etc. ■ E como cada dado deve ser validado ■ Ex: Gênero = M (masculino) ou F (feminino) Indicadores de qualidade dos dados ■ Índices indicando a qualidade, baseados em: origem, número de transformações, valores atômicos x sumarizados, níveis de uso, ... Triggers (gatilhos) automáticos ■ Processos disparados automaticamente durante a extração Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 10 Sistemas de Apoio à Decisão DW - Dicionário dos Metadados Responsáveis pelas informações ■ Deve ser identificado o responsável por cada dado do DW ■ Assim como o responsável pelos metadados Acesso e segurança ■ Os dados devem ser classificados quanto a confidencialidade (público, restrito, etc.) e o acesso (leitura, atualização, etc.) ■ Devem ser criados perfis de acesso aos dados e metadados ■ Deve ser identificado o responsável pela gestão da segurança ■ Deve ser identificado o administrador do banco de dados do DW Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 11 Sistemas de Apoio à Decisão DW - Extração de Dados A extração de dados é feita por ferramentas ETL (Extract Transform Load = Extração, Transformação e Carga) Quando existem processos periódicos de extração: ■ Os dados são copiados da origem para a área de stage ■ Em seguida os dados são transformados ■ Finalmente eles são gravados nos Data Marts do DW Quando o processo é on-line, estas etapas são executadas de uma vez Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 12 Sistemas de Apoio à Decisão Funções dos Metadados Repositório Metadados Gerenciador de Processos Fonte: Adaptado de Ken Orr (1996 e 2000) Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 13 Sistemas de Apoio à Decisão DB Externos DB de SPT Acesso a Dados Transporte DW Acesso a Dados Usuários Acesso a Informações Arquitetura Genérica do DW DW - Camadas Camadas de fontes de dados: ■ Bancos de dados de SPT e fontes externas ao DW Camada de acesso à informação: ■ Forma de iteração do usuário com o DW (hw e sw) Camada de acesso aos dados: ■ Liga o acesso à informação ao DW e às fontes de dados Camada de metadados: ■ Repositório do Dicionário de Dados ■ Biblioteca de funções de transformação Camada de gerenciamento de processos: ■ Gerencia todos os processos do DW Camada de transporte: ■ Gerencia o transporte de dados através da rede Camada do Data Warehouse: ■ É o DW propriamente dito (o gerenciador principal) Márcio Moreira Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 14 Sistemas de Apoio à Decisão Data Warehouse - Produtos Fabricantes: ■ Líderes: ■ Grandes: ■ Menores: Produtos: ■ IBM: Oracle, Microsoft e IBM NCR Teradata, HP e Sun Microsystems. Netezza, Datallegro e Dataupia. • Retail Business Intelligence Solution (RBIS) • Analysis and Business Intelligence DW 2004 - Fonte: TDWI Outros; • DB2 Data Warehouse Manager Teradata; ■ Oracle Data Warehouse ■ NCR Teradata Warehouse ■ DMExpress Márcio Moreira 8% 9% Oracle; 44% IBM; 18% Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 15 Microsoft; 21% Sistemas de Apoio à Decisão