Por que Construir um Data Warehouse ? Professor Edson Emílio Scalabrin telefone: 0xx41-330-1786 e-mail: [email protected] download: http://www.ppgia.pucpr.br/~scalabrin 1 Próximas aulas 23/07/01 – Data Warehouse – Edson Scalabrin 24/07/01 – Não haverá – Edgard Jamhour 30/07/01 – Aulas práticas de SAD • Metade da turma c/ o Prof. Bráulio Ávila • Metade da turma c/ o Prof. Edson Scalabrin 31/07/01 – Aula téorica – Edgard Jamhour 2 Objetivo Apresentar alguns pontos motivadores da construção de um data warehouse. Metodologia: • Ponto de partida a evolução tecnológica na área de informática 3 Evolução Tecnológica 1as. Edições de Banco de Dados preocupavam-se de forma não separada do: • processamento de transações (online) • processamento em lote • processamento analítico Edições subsequentes promovem a separação destes diversos processamentos: • para atender necessidades operacionais • para atender necessidades informacionais ou analíticas Evolução = PC + Linguagens de Quarta Geração. 4 Evolução Tecnológica Razões da divisão: operacional vs. informacional • os dados que atendem as necessidades operacionais são fisicamente diferentes dos dados que atendem as necessidades informacionais; • a tecnologia de suporte é diferente; • a comunicação dos usuários com os BDs é diferente; • as características de processamento do ambiente operacional e do ambiente informacional são fundamentalmente diferentes. 5 Evolução Tecnológica O que é processamento informacional ? • É o processamento que atende às necessidades dos gerentes durante o processo de tomada de decisões O processamento analítico examina amplos espectros de dados para detectar tendências A execução de um processamento analítico requer o acesso muitos registros. 6 Evolução Tecnológica 1960 Arquivos mestres, relatórios 1965 Explosão dos arquivos mestres • complexidade de manutenção e desenvolvimento • sincronização dos dados • hardware 7 Evolução Tecnológica 1970 DASD (Direct access storage device) • SGBD • BD • “uma única fonte de dados para todo o processamento” 1975 Processamento de transações online e de alta performance 8 Evolução Tecnológica MIS/SAD Processamento de transações 1980 PCs, tecnologia L4G O paradigma de um único BD para todos os fins 9 Evolução Tecnológica Surgimento de programas de extração Trata-se de programas mais simples que varrem um arquivo ou BD, usando alguns critérios de seleção, e, ao encontrar dados que atendem aos critérios, transporta os dados para outro arquivo ou BD. 10 Evolução Tecnológica Natureza do processamento de extração 1985 - PCs, tecnologia L4G Iniciar com alguns parâmetros, pesquisar um arquivo baseado na satisfação dos parâmetros, e, então passar os dados para outro local. Por que processamento de extração ? • Performance e controle 11 Arquitetura de Desenvolvimento Espontâneo SGBD A SGBD B SGBD C Ambiente de sistemas herdados 12 Arquitetura de Desenvolvimento Espontâneo Problemas da arquitetura: • credibilidade dos dados • produtividade • impossibilidade de transformar dados em informação 13 Arquitetura de Desenvolvimento Espontâneo Dept. A 10% SGBD A Business Week Wall Street Journal SGBD B SGBD C Diferencial algorítmico: A) domingo à tarde + contas antigas B) 4a feria à tarde + contas grandes Nenhuma fonte de dados comum para começar Dept. B -20% 14 Arquitetura de Desenvolvimento Espontâneo Caso 1: • a gerência pretende produzir um relatório corporativo utilizando os diversos arquivos e conjuntos de dados que acumulou durante os anos. • O que fazer ? 15 Arquitetura de Desenvolvimento Espontâneo O projetista destacado para a tarefa decide que há três coisas que devem ser feitas para produzir o relatório corporativo • localizar e analisar os dados para o relatório • compilar os dados para o relatório • obter recursos humanos de programação / análise para realizar os pontos acima. E a produtividade ? 16 Arquitetura de desenvolvimento espontâneo: não conduz a produtividade Produzir um relatório corporativo, varrendo todos os dados Para localizar os dados é necessário examinar muitos arquivos x x x x x x x x x x x x x x x x Muitos programas de extração, todos customizados, precisam cruzar diversas barreiras 17 tecnológicas. Arquitetura de D.E. tempo solicitado para a geração do relatório x x x x x x x x x x Localizar os dados 9 - 12 meses Obter os dados 15- 24 meses Programadores/analistas ??? ---------------------------------------------------------3 - 5 anos 1o. Relatório 2o. Relatório ... No. relatório 3 - 5 anos OBS: Exceto ser em raras circunstâncias, o trabalho realizado para o 1o. Relatório não prepara o caminho para os demais. 18 Dos Dados às Informações “. . . já é difícil descobrir quais dados estão associados a um assunto, tentar então extrair informações dessas aplicações segundo um critério geral é quase impossível . . .” Problema: • a construção das aplicações jamais levou em conta a noção de integração ; • decifrar uma informação não é uma tarefa fácil para o analista de SAD. 19 Data Warehouse ou Armazém de Dados Dept. Dept. Dept.BBB -20% -20% 5% Data Warehouse SGBD C SGBD B SGBD A Wall Business Street Week20 Journal Primeiras Considerações A credibilidade dos dados • É melhorada considerando a existência de uma única fonte de dados; A produtividade • É melhorada visto que o trabalho efetuado para produzir o primeiro relatório prepara o ambiente para os demais; A impossibilidade de transformar dados em informação • É atenuada graças a integração dos dados; 21