Por que Construir um Data Warehouse ? Professor Edson Emílio Scalabrin telefone: 0xx41-330-1786 e-mail: [email protected] download: http://www.ppgia.pucpr.br/~scalabrin 1 Objetivo Apresentar alguns pontos motivadores da construção de um data warehouse. Metodologia: • Ponto de partida a evolução tecnológica na área de informática 2 Evolução Tecnológica 1as. Edições de Banco de Dados preocupavam-se de forma não separada do: • processamento de transações (online) • processamento em lote • processamento analítico Edições subsequentes promovem a separação destes diversos processamentos: • para atender necessidades operacionais • para atender necessidades informacionais ou analíticas Evolução = PC + Linguagens de Quarta Geração. 3 Evolução Tecnológica Razões da divisão: operacional vs. informacional • os dados que atendem as necessidades operacionais são fisicamente diferentes dos dados que atendem as necessidades informacionais; • a tecnologia de suporte é diferente; • a comunicação dos usuários com os BDs é diferente; • as características de processamento do ambiente operacional e do ambiente informacional são fundamentalmente diferentes. 4 Evolução Tecnológica O que é processamento informacional ? • É o processamento que atende às necessidades dos gerentes durante o processo de tomada de decisões O processamento analítico examina amplos espectros de dados para detectar tendências A execução de um processamento analítico requer o acesso muitos registros. 5 Evolução Tecnológica 1960 Arquivos mestres, relatórios 1965 Explosão dos arquivos mestres • complexidade de manutenção e desenvolvimento • sincronização dos dados • hardware 6 Evolução Tecnológica 1970 DASD (Direct access storage device) • SGBD • BD • “uma única fonte de dados para todo o processamento” 1975 Processamento de transações online e de alta performance 7 Evolução Tecnológica MIS/SAD Processamento de transações 1980 PCs, tecnologia L4G O paradigma de um único BD para todos os fins 8 Evolução Tecnológica Surgimento de programas de extração Trata-se de programas mais simples que varrem um arquivo ou BD, usando alguns critérios de seleção, e, ao encontrar dados que atendem aos critérios, transporta os dados para outro arquivo ou BD. 9 Evolução Tecnológica Natureza do processamento de extração 1985 - PCs, tecnologia L4G Iniciar com alguns parâmetros, pesquisar um arquivo baseado na satisfação dos parâmetros, e, então passar os dados para outro local. Por que processamento de extração ? • Performance e controle 10 Arquitetura de Desenvolvimento Espontâneo SGBD A SGBD B SGBD C Ambiente de sistemas herdados 11 Arquitetura de Desenvolvimento Espontâneo Problemas da arquitetura: • credibilidade dos dados • produtividade • impossibilidade de transformar dados em informação 12 Arquitetura de Desenvolvimento Espontâneo Dept. A 10% SGBD A Business Week Wall Street Journal SGBD B SGBD C Diferencial algorítmico: A) domingo à tarde + contas antigas B) 4a feria à tarde + contas grandes Nenhuma fonte de dados comum para começar Dept. B -20% 13 Arquitetura de Desenvolvimento Espontâneo Caso 1: • a gerência pretende produzir um relatório corporativo utilizando os diversos arquivos e conjuntos de dados que acumulou durante os anos. • O que fazer ? 14 Arquitetura de Desenvolvimento Espontâneo O projetista destacado para a tarefa decide que há três coisas que devem ser feitas para produzir o relatório corporativo • localizar e analisar os dados para o relatório • compilar os dados para o relatório • obter recursos humanos de programação / análise para realizar os pontos acima. E a produtividade ? 15 Arquitetura de desenvolvimento espontâneo: não conduz a produtividade Produzir um relatório corporativo, varrendo todos os dados Para localizar os dados é necessário examinar muitos arquivos x x x x x x x x x x x x x x x x Muitos programas de extração, todos customizados, precisam cruzar diversas barreiras 16 tecnológicas. Arquitetura de D.E. tempo solicitado para a geração do relatório x x x x x x x x x x Localizar os dados 9 - 12 meses Obter os dados 15- 24 meses Programadores/analistas ??? ---------------------------------------------------------3 - 5 anos 1o. Relatório 2o. Relatório ... No. relatório 3 - 5 anos OBS: Exceto ser em raras circunstâncias, o trabalho realizado para o 1o. Relatório não prepara o caminho para os demais. 17 Dos Dados às Informações “. . . já é difícil descobrir quais dados estão associados a um assunto, tentar então extrair informações dessas aplicações segundo um critério geral é quase impossível . . .” Problema: • a construção das aplicações jamais levou em conta a noção de integração ; • decifrar uma informação não é uma tarefa fácil para o analista de SAD. 18 Data Warehouse ou Armazém de Dados Dept. Dept. Dept.BBB -20% -20% 5% Data Warehouse SGBD C SGBD B SGBD A Wall Business Street Week19 Journal Primeiras Considerações A credibilidade dos dados • É melhorada considerando a existência de uma única fonte de dados; A produtividade • É melhorada visto que o trabalho efetuado para produzir o primeiro relatório prepara o ambiente para os demais; A impossibilidade de transformar dados em informação • É atenuada graças a integração dos dados; 20