Data Warehouse Equipe: Gilmar Ferreira Marcos Costa Ricardo Araújo O Cenário Corporações Necessitam de decisões rápidas e precisas Reação rápida a mudanças do ambiente Obtenção de vantagem competitiva Centro de Informática - UFPE 2 O Cenário Dados Disponíveis em sistemas não integrados Espalhados em múltiplas e independentes plataformas Dificuldade de análise Centro de Informática - UFPE 3 Conceitos Processamento Operacional (OLTP) Funcionalidades do negócio Processamento de transações: inserção, atualização, consulta e deleção Reflete valor corrente, não-redundante e atualizável Altamente voláteis Modelagem E/R Centro de Informática - UFPE 4 Conceitos Processamento Analítico (OLAP) Suporte à tomada de decisão Dados históricos, não voláteis, ready-only Integram informações de diversos sistemas operacionais Permitem identificações de perfis, tendências e padrões Centro de Informática - UFPE 5 Conceitos Processamento Analítico (OLAP) Redundância de dados aceita Alto desempenho na recuperação de dados versus economia de espaço Banco de Dados Multidimensional Centro de Informática - UFPE 6 Conceitos OLTP X OLAP OLTP OLAP Orientados a aplicações Orientados a assuntos As Vezes de Grande tamanho Quase sempre grandes Dados granulados Dados constituídos de sumarizações Dados de pouca fontes Dados de múltiplas fontes Suporta consultas e atualizações Atualizações em modo batch Dados que mudam constantemente Dados mais estáveis Dados atuais Dados históricos Tabela 1 Diferenças entre banco de dados OLTP e OLAP (fonte: [COR 97]) Centro de Informática - UFPE 7 Conceitos MOLAP Banco de dados multidimensional Conjunto de interfaces, aplicações e banco de dados Tecnologia proprietária Dados armazenados em cubo de n dimensões Alta performace Centro de Informática - UFPE 8 Conceitos ROLAP Conjunto de interfaces e aplicações que dá ao BD relacional características dimensionais HOLAP Combina as tecnologias MOLAP E ROLAP Objetivo: combinar as melhores características de ambas Centro de Informática - UFPE 9 Conceitos Sistema de Apoio à Decisão (SAD) Realizam processamento analítico Provêem as informações necessárias ao usuário Permitem análise de situações e tomada de decisões Necessidades estratégicas e táticas Centro de Informática - UFPE 10 Data Warehouse Data WareHouse SAD Fornece informações para auxiliar a tomada de decisões estratégicas Une, de forma organizada, informações espalhadas em diversas fontes Centro de Informática - UFPE 11 Definição de DW Data WareHouse Inmon: Data Warehouse é uma coleção de dados orientados à assunto, integrada, dinâmica e não-volátil, para o suporte a decisões de gerenciamento Kimball: Data Warehouse é a fonte de dados de consulta do empreendimento Centro de Informática - UFPE 12 Data Mart Data Mart Subconjunto lógico do DW Projetado para representar uma função particular do negócio Rapidamente implementável e de baixo custo Controle local, em vez de centralizado Redução do tempo de resposta a consultas Centro de Informática - UFPE 13 Data Mart Problemas Pode acarretar a fragmentação de dados da organização Solução Deve haver planejamento para futura integração com um DW único de toda empresa Construção de um DW na forma de DM distribuídos em unidades individuais Centro de Informática - UFPE 14 ODS: Operational Data Store ODS Usados para decisões a curto prazo envolvendo aplicações de missão crítica Trabalha diretamente com sistemas legados Dados mais antigos podem ser movidos e sumarizados para o DW Centro de Informática - UFPE 15 Modelagem Processamento Analítico Problemas da Modelagem E/R Redução de visão global do negócio para grandes modelos Não tem alto desempenho na recuperação de dados (principalmente joins) Para cada variação na estrutura do modelo, há necessidade de reescrever e ajustar as implementações Centro de Informática - UFPE 16 Modelagem Processamento Analítico Modelagem Dimensional Específica para processamento analítico Apresentação de dados padronizada, intuitiva e que permite alto desempenho de acesso Dois tipo de tabelas: Fato e dimensão. Chave primária simples da tabela dimensão corresponde à chave estrangeira de fato (Esquema estrela) Centro de Informática - UFPE 17 O ambiente de um DW Arquitetura resumida de DW Centro de Informática - UFPE 18 Características básicas Orientado por tema Integrado Não-volátil Variante no tempo Dados sumarizados Metadados Dados oriundos de fontes internas e/ou externas Centro de Informática - UFPE 19 Orientado por temas Refere-se ao fato do DW armazenar informações sobre temas específicos importantes para o negócio da empresa Exemplos produtos, atividades, contas, clientes, etc. O ambiente operacional é organizado por aplicações funcionais Exemplo, em uma organização bancária, estas aplicações incluem empréstimos, investimentos e seguros. Centro de Informática - UFPE 20 Integrado Refere-se à consistência de nomes das unidades das variáveis Dados foram transformados até um estado uniforme Por exemplo, todas as medidas (cm, polegadas,jardas) são convertidas para metros. Centro de Informática - UFPE 21 Não volátil Permite o "load-and-access” Os dados após serem extraídos, transformados e transportados para o DW estão disponíveis aos usuários somente para consulta Centro de Informática - UFPE 22 Variante no tempo Os DW armazenam dados por um período de tempo de 5 a 10 anos Refere-se a algum momento específico não é atualizável No DW haverá sempre uma tabela dimensão ou fato, cuja estrutura registrará o elemento tempo Centro de Informática - UFPE 23 Metadados “Dados sobre dados” [INMON ] Provêm informações sobre a estrutura de dados e as relações entre estas dentro ou entre bancos de dados “São todas as informações do ambiente do DW que não são seus próprios dados” [Kimball] Centro de Informática - UFPE 24 Granularidade É o nível de detalhes dentro do banco de dados do DW Quanto menor a granularidade, maior o nível de detalhes e, conseqüentemente, maior o volume de dados armazenado Exemplo, Registro de Vendas de uma rede de supermercados: diária: sumarização de vendas e carga diária no Banco de Dados mensal: sumarização de dados e carga a cada 30 dias no Banco de Dados Centro de Informática - UFPE 25 Agregação São registros sumarizados logicamente redundantes com os dados básicos do DW Finalidades: melhorar o tempo de reposta as consultas reduzir o tempo de processamento reduzir espaço de armazenamento Centro de Informática - UFPE 26 Modelagem dimensional Hipercubo, onde cada célula contém um valor a partir dos lados desse cubo que definem as dimensões valor Centro de Informática - UFPE 27 Modelagem dimensional Representação voltada para processamento analítico. Intuitividade para o decisor Suporte de tecnologias MOLAP, ROLAP ou HOLAP Dois tipos principais de estruturas ou esquemas: estrela (star schema) ou floco de neve (snowflake schema) Centro de Informática - UFPE 28 Modelagem dimensional Tabelas fatos Contêm as medições numéricas do negócio Exemplo: unidades_vendidas, custo_dolar Grande quantidade de dados Chave primária composta por FKs Atributos numéricos e valorados Centro de Informática - UFPE 29 Modelagem dimensional Tabelas dimensão Contém dados descritivos do negócio Chave primária simples Pequena quantidade de informações se comparadas com as tabelas fato Modelos reais contêm entre 4 e 15 dimensões Modelos com mais de 20 dimensões devem ser melhor estudados Centro de Informática - UFPE 30 Esquema estrela Este esquema é chamado de estrela, por apresentar a tabela de fatos "dominante" no centro do esquema e as tabelas de dimensões nas extremidades. Centro de Informática - UFPE 31 Esquema estrela Permite projetar o BD da forma como o usuário pensa em usá-lo analiticamente Limitações: Tabela dimensional possui uma quantidade muito grande de atributos Soluções: Múltiplas tabelas de fatos Tabelas associativas Tabelas externas Centro de Informática - UFPE 32 Esquema estrela Múltiplas tabelas de fato Centro de Informática - UFPE 33 Esquema estrela Tabelas associativas Centro de Informática - UFPE 34 Esquema estrela Tabelas externas Centro de Informática - UFPE 35 Esquema floco de neve Extensão esquema estrela onde cada uma das "pontas" da estrela passa a ser o centro de outras estrelas Centro de Informática - UFPE 36 Integração de Data Marts e DW Possível através do conceito de Data Warehouse bus Esquema geral e padronizado de tabelas dimensão e fato Permite desenvolvimento evolucionário Centro de Informática - UFPE 37 Topologias de DWs Centralizada Único Banco de Dados Físico usados onde existe uma necessidade comum de informações. Data Warehouse e Data Marts ligação de vários DM a um DW Usuário pode pode acessar os DM (gerente de departamento) ou acessar o DW para obter informações globais da organização Centro de Informática - UFPE 38 Topologias de DWs Distribuída Vários DW interligados através de uma rede com forte suporte a processamento distribuído Usuário pode conectar-se a qualquer DW Apresenta problemas de desempenho Será muito utilizada para dar suporte às aplicações para Web. Centro de Informática - UFPE 39 Topologias de DWs Desenvolvimento estratégico Desenvolvimento botton-up de Data Marts Desenvolvimento top-down de dados Possibilita criação de Sistemas flexíveis e escaláveis Centro de Informática - UFPE 40 Arquitetura de um DW Arquitetura de Dados Uma camada (one tier) Duas camadas (two tier) Dados armazenados uma única vez Dados operacionais e analíticos separados em camadas distintas Três camadas (three tier) Transformação de dados não é executada em um único passo Centro de Informática - UFPE 41 Arquitetura de Dados do DW Uma camada Centro de Informática - UFPE 42 Arquitetura de Dados do DW Duas camadas Centro de Informática - UFPE 43 Arquitetura de Dados do DW Três camadas Centro de Informática - UFPE 44 Arquitetura de um DW Arquitetura de Acesso aos Dados Duas camadas Três camadas (ROLAP) Acesso direto ao DW e Metadados Servidor de aplicações Três camadas + (MOLAP) Servidor de aplicações + Cubo OLAP Centro de Informática - UFPE 45 Arquitetura de Acesso aos Dados do DW Duas camadas Centro de Informática - UFPE 46 Arquitetura de Acesso aos Dados do DW Três camadas Centro de Informática - UFPE 47 Arquitetura de Acesso aos Dados do DW Três camadas + Centro de Informática - UFPE 48 Arquitetura de um DW Arquitetura Funcional Plano geral do que se deseja do Data Warehouse Descreve o fluxo de dados em todas as etapas Especifica técnicas e ferramentas necessárias Centro de Informática - UFPE 49 Arquitetura Funcional do DW Centro de Informática - UFPE 50 Arquitetura Funcional do DW Componentes da Área Interna Sistemas Fontes Área de Organização de Dados Sistemas operacionais internos + fontes externas Lugar onde os valores a serem adicionados são tratados (Motor do DW) Servidor de Apresentação Compartilhado entre as Áreas Componentes Data Marts com dados agregados Data Marts com dados atômicos Data Warehouse Bus Catálogo de Metadados Centro de Informática - UFPE 51 Arquitetura Funcional do DW Serviços da Área Interna Extração Carga incremental Baseado em transações Carga completa Transformação de dados Integração Limpeza Conversão de tipos Combinação Agregação etc. Centro de Informática - UFPE 52 Arquitetura Funcional do DW Serviços da Área Interna (cont) Carga de Dados Suporte para múltiplos destinos Otimização do processo de carga Controle de Dados organizados Definição e Agendamento de trabalhos Monitoramento Arquivo de log Manipulação de exceções Manipulação de erros Notificação Centro de Informática - UFPE 53 Arquitetura Funcional do DW Gerenciamento de recursos da Área Interna Backup e Recovery Archive e Retrieval Metadados da Área Interna Dos sistemas fonte Das especificações da fonte Das informações descritivas da fonte Dos processos de informação Centro de Informática - UFPE 54 Arquitetura Funcional do DW Metadados da Área Interna (cont) Da área de organização de dados Das informações de aquisição de dados Do gerenciamento das tabelas dimensão Das transformações e agregações De auditorias, logs de trabalho e documentação Do banco de dados Centro de Informática - UFPE 55 Arquitetura Funcional do DW Componentes da Área Externa Servidor de apresentação Ferramenta de acesso aos dados Relatórios padronizados (utilização de cache) Modelos de aplicações Consultas ad hoc (utilização de cache) Drill down, Drill up ou roll up, Slice e Dice Ferramenta geradora de relatórios Dados disponibilizados para usuário final Data Mining Sistemas após o DW Sistemas de geração de relatórios orientados a transações (ex.: Sistema de previsão de demanda) Centro de Informática - UFPE 56 Arquitetura Funcional do DW Serviços da Área Externa Warehouse browsing Serviços de acesso e segurança Ligados ao cadastro de metadados Autenticação e autorização Serviços de monitoramento de atividades Centrados sobre: Desempenho, suporte ao usuário, marketing e planejamento Centro de Informática - UFPE 57 Arquitetura Funcional do DW Serviços da Área Externa (cont) Serviços de gerenciamento de consultas Simplificação do conteúdo Reformulação da consulta Redirecionamento de consulta Consciência de agregados Serviços de padronização de relatórios Permitir criação de relatórios em formatos prédefinidos Centro de Informática - UFPE 58 Arquitetura Funcional do DW Metadados da Área Externa Descrição das colunas, tabelas e agrupamentos Consultas pré-formuladas Perfis de privilégio de usuários Mapas de acessos à tabelas, visões, relatórios e dados Documentação para Usuário Final Centro de Informática - UFPE 59 Arquitetura Funcional do DW Tendências Futuras Área Interna Sistema de participação de fonte ativa Envio de dados Sistemas orientados a objetos Área Externa Autenticação e autorização Centralização dos serviços de acesso Acesso a clientes baseados na Web Centro de Informática - UFPE 60 Ferramentas DBMINER Procura integrar tecnologias de DW e Data Mining Banco de dados analítico MOLAP Importa um conjunto de tabelas provenientes de BDRs como MS SQL Server, MS Acess, Oracle ou Text Files Possui wizard para montar Data Mart Centro de Informática - UFPE 61 Ferramentas MS SQL Server Conjunto de Aplicativos da Microsoft Banco de dados relacional, ferramentas OLAP e MS English Query Torna possível implementação de sistemas de suporte à decisão ROLAP, MOLAP, OLAP Serviços de importação, extração, transformação, validação e limpeza de dados heterogêneos Serviços de gerenciamento e ferramentas voltadas para o usuário final Centro de Informática - UFPE 62 Conclusões Data Warehousing integra grandes volumes de dados originados em sistemas separados Necessitam de grande esforço para seu desenvolvimento Torna possível a descoberta de conhecimento escondido nos dados Útil para organizações que precisem tomar decisões estratégicas de risco e que necessitem se posicionar de forma vantajosa Centro de Informática - UFPE 63 Conclusões Desenvolvimento de servidores de BD paralelos poderá viabilizar o suporte a Data Warehouses cada vez maiores Tratará dados multimídia Data WareHouse deverá também ser viabilizado na Internet Centro de Informática - UFPE 64