ANDRÉ LUÍS ANDRADE MENOLLI DEFINIÇÃO DE UMA ARQUITETURA DE DATA WAREHOUSING PARA GESTÃO EM CIÊNCIA E TECNOLOGIA NO BRASIL MARINGÁ 2004 ANDRÉ LUÍS ANDRADE MENOLLI DEFINIÇÃO DE UMA ARQUITETURA DE DATA WAREHOUSING PARA GESTÃO EM CIÊNCIA E TECNOLOGIA NO BRASIL Dissertação apresentada ao Programa de Pós-Graduação em Ciência da Computação da Universidade Estadual de Maringá, como requisito parcial para obtenção do grau de Mestre em Ciência da Computação. Orientadora: Profª. Drª. Maria Madalena Dias MARINGÁ 2004 ANDRÉ LUÍS ANDRADE MENOLLI DEFINIÇÃO DE UMA ARQUITETURA DE DATA WAREHOUSING PARA GESTÃO EM CIÊNCIA E TECNOLOGIA NO BRASIL Dissertação apresentada ao Programa de Pós-Graduação em Ciência da Computação da Universidade Estadual de Maringá, como requisito parcial para obtenção do grau de Mestre em Ciência da Computação. Aprovado em 25/06/2004. BANCA EXAMINADORA Profª. Drª. Maria Madalena Dias Universidade Estadual de Maringá – UEM Profª. Drª. Itana Maria de Souza Gimenes Universidade Estadual de Maringá – UEM Prof. Dr. Roberto Carlos dos Santos Pacheco Universidade Federal de Santa Catarina – UFSC AGRADECIMENTOS Agradeço primeiramente a Deus, que sempre me deu forças e iluminou o meu caminho. Por ter me acompanhado, por ter me dado a vida, saúde, bons amigos e uma ótima família. A minha orientadora, professora Maria Madalena Dias ao professor Wesley Romão e a professora Itana Gimenes, pessoas formidáveis que contribuíram muito para o desenvolvimento do trabalho e para a minha formação como pessoa e pesquisador. Aos grandes amigos do laboratório, que acompanharam e contribuíram para o meu trabalho, em especial ao meu grande amigo Ricardo G. Coelho. Aos meus pais que sempre deram grande apoio, e a meus irmãos que sempre foram grandes amigos, sendo todos eles fundamentais para o meu triunfo. Ao Conselho Nacional de Desenvolvimento Cientifico e Tecnológico - CNPq, pelo ininterrupto apoio financeiro. A todos que direta ou indiretamente contribuíram para a realização deste trabalho. RESUMO A tecnologia de data warehouse (DW) vem sendo amplamente utilizada em empresas com o objetivo de oferecer organização, gerenciamento e integração de bancos de dados. No processo de descoberta de conhecimento em banco de dados, a primeira etapa é a preparação de dados, em que os dados devem ser organizados e armazenados no data warehouse. A construção de um data warehouse é uma tarefa complexa e trabalhosa por exigir um profundo conhecimento das tecnologias envolvidas, tais como banco de dados e integração de dados, sobre o negócio da empresa e, também, sobre o conteúdo das fontes de dados de origem. A escolha de uma arquitetura de data warehousing é uma das primeiras decisões a serem tomadas na construção de um data warehouse. Atualmente, encontra-se em fase de desenvolvimento no Departamento de Informática da Universidade Estadual de Maringá o projeto Intersul, financiado pelo CNPq e Fundação Araucária, cujo objetivo é desenvolver um sistema informatizado de gestão em Ciência e Tecnologia. Um dos objetivos específicos deste sistema é desenvolver técnicas de extração de conhecimentos aplicáveis à Ciência e Tecnologia. A melhor maneira de se extrair conhecimento é a partir de uma base de dados já preparada, tal como um DW. Neste trabalho é apresentada uma arquitetura de data warehousing em camadas proposta para gestão em Ciência e Tecnologia e é descrito como esta arquitetura é aplicada na construção de um data warehouse para o sistema Intersul que integre as bases Institucionais do CNPq e CAPES. Palavras Chaves: Data Warehouse, Ciência e Tecnologia, Integração de Dados. ABSTRACT The data warehouse (DW) technology has been widely used in companies with the aim of offering organization, management and database integration. In the data knowledge discovering process, the first step is the data preparation, where the data must be organized and stored in the data warehouse. The construction of a data warehouse is a complex and laborious task because it demands a high knowledge of the involved company business, and also of the contents of data sources and of the involved technologies, such as database and data integration. The choice of a data warehousing architecture is one of the first decisions to be taken in the data warehouse construction. Currently, the Intersul project is in the development phase in the Department of Computer Science of the State University of Maringá, funded by CNPq and Fundação Araucária. The objective of this project is to develop a management system of Science and Technology. One of the specific objectives of this system is to develop knowledge extration techniques applicable to Science and Technology. The best way to extract knowledge, is from an already prepared database, such as a DW. This work presents a data warehousing layer architecture proposal for management in Science and Technology. This architecture is applied in the construction of a data warehouse for the Intersul system that integrates the Institucional bases of CNPq and CAPES. Keywords: Data Warehouse, Science and Technology, Data Integration LISTA DE ILUSTRAÇÕES Gráfico 1 – PIB gasto em Pesquisa e Desenvolvimento financiada por Empresa ................18 Gráfico 2 – Parcela de Pesquisadores nas Empresas.............................................................18 Quadro 1 – Distribuição dos Professores na Rede de Ensino ...............................................19 Figura 1 – Orientação por Assunto........................................................................................29 Figura 2 – Integração de Dados.............................................................................................30 Figura 3 – Data Warehouse não-volátil ................................................................................32 Figura 4 – Modelo Estrela .....................................................................................................36 Figura 5 – Drill Down e Roll Up ...........................................................................................38 Figura 6 – O balanceamento no gerenciamento da questão da granularidade.......................39 Figura 7 – Data Marts integrados .........................................................................................40 Figura 8 – Arquitetura multicamadas para DW.....................................................................42 Figura 9 – Arquitetura Global ...............................................................................................43 Figura 10 – Fases do Desenvolvimento de Data Marts Incrementais...................................44 Figura 11 – Processo de Desenvolvimento da Pesquisa........................................................52 Figura 12 – Arquitetura de DW Modular ..............................................................................59 Figura 13 – Arquitetura Proposta por Windom ....................................................................60 Figura 14 – Arquitetura Proposta ..........................................................................................61 Figura 15 – Módulo de Migração da Camada ETL...............................................................64 Figura 16 – Matriz de Barramento ........................................................................................68 Figura 17 – A Arquitetura do Sistema Intersul .....................................................................74 Figura 18 – A Arquitetura Geral do Sistema.........................................................................76 Figura 19 – Matriz de Barramento do DW............................................................................78 Figura 20 – Esquema de Criação do Modelo em Oracle ......................................................79 Figura 21 – Tela do Sistema de Migração de Dados.......................................................... 80 Figura 22 – Modelo Parcial e Simplificado da Área de Estágio ...........................................81 Figura 23 – Modelo Parcial e Simplificado do Modelo de Dados do DW proposto.............86 Figura 24 – Esquema de Consulta no DW construído ..........................................................88 Gráfico 3 – Número de Artigos Publicados por Ano ............................................................92 Gráfico 4 – Graduados no Estado do Paraná.........................................................................93 Gráfico 5 – Média de Tempo de Defesa de Mestrado por Regime Letivo............................93 Gráfico 6 – Número de Publicações de Livros ou Capítulos de Livros ................................95 Figura 25 – Tela com store procedures da camada ETL .................................................. 107 Figura 26 – Modelo de Dados da Área de Estágio ............................................................. 108 Figura 27 – Modelo de Dados do Data Mart de Publicação de Artigos ............................ 109 Figura 28 – Modelo de Dados do Data Mart de Publicação de Livros.............................. 110 Figura 29 – Modelo de Dados do Data Mart de Publicação de Teses ............................... 111 Figura 30 – Modelo de Dados do Data Mart de Publicação em Geral .............................. 112 LISTA DE TABELAS Tabela 1 - Vantagens e Desvantagens dos Data Marts incrementais ................................................ 45 Tabela 2 - Resumo dos Métodos ....................................................................................................... 85 LISTA DE SIGLAS C&T Ciência e Tecnologia CAPES Coordenação de Aperfeiçoamento de Pessoal de Nível Superior CNPq Conselho Nacional de Desenvolvimento Cientifico e Tecnológico DM Data Mart DW Data Warehouse DTD Document Type Description ETL Extração, Transformação e Carga EMPRAPA Empresa Brasileira de Pesquisa Agropecuária FAP Fundação de Amparo à Pesquisa FINEP Financiadora de Estudos e Projetos IBGE Instituto Brasileiro de Geografia e Estatísticas MER Modelo de Entidade/Relacionamento ODS Operational Data Store OLAP On-Line Analytic Processing OLTP On-Line Transaction Processing P&D Pesquisa e Desenvolvimento PIB Produto interno Bruto SGBD Sistema Gerenciador de Banco de Dados SQL Struct Query Language UEM Universidade Estadual de Maringá UML Unified Modeling Language XML Extensible Markup Language SUMÁRIO RESUMO ABSTRACT 1 INTRODUÇÃO.................................................................................................................. 12 1.1 OBJETIVO ..................................................................................................................... 12 1.2 JUSTIFICATIVA ........................................................................................................... 13 1.3 ORGANIZAÇÃO DO TRABALHO ............................................................................. 14 2 CIÊNCIA E TECNOLOGIA NO BRASIL........................................................................ 15 2.1 INTRODUÇÃO.............................................................................................................. 15 2.2 O PERFIL DE CIÊNCIA E TECNOLOGIA NO BRASIL ........................................... 16 2.3 PLANEJAMENTO EM C&T ........................................................................................ 20 2.4 INDICADORES E AVALIAÇÃO EM C&T................................................................. 21 2.5 BASES DE CIÊNCIA E TECNOLOGIA NO BRASIL ................................................ 24 2.5.1 Plataforma Lattes..................................................................................................... 24 2.5.2 Diretório de Grupo de Pesquisa no Brasil ............................................................... 25 2.5.3 Plataforma Coleta Capes ......................................................................................... 25 2.6 CONSIDERAÇÕES FINAIS ......................................................................................... 26 3 DATA WAREHOUSING .................................................................................................. 27 3.1 INTRODUÇÃO.............................................................................................................. 27 3.2 AMBIENTE DE DATA WAREHOUSE ....................................................................... 27 3.2.1 Conceitos de DW..................................................................................................... 27 3.2.2 Características de DW ............................................................................................. 28 3.2.3 Modelagem de Dados .............................................................................................. 32 3.2.4 Granularidade .......................................................................................................... 38 3.2.5 Data Mart................................................................................................................. 40 3.2.6 Arquitetura de Data Warehouse .............................................................................. 41 3.2.7 Tipos de Implementações ........................................................................................ 45 3.2.8 Metadados................................................................................................................ 46 3.2.9 Povoando o Data Warehouse.................................................................................. 48 3.3 CONSIDERAÇÕES FINAIS ......................................................................................... 50 4 METODOLOGIA DE DESENVOLVIMENTO DA PESQUISA.................................... 51 4.1 INTRODUÇÃO.............................................................................................................. 51 4.2 MODELO DA PESQUISA ............................................................................................ 51 4.3 PROCESSO DE DESENVOLVIMENTO DA PESQUISA .......................................... 52 4.3.1 Escolha do Tema ..................................................................................................... 52 4.3.2 Revisão da Literatura............................................................................................... 53 4.3.3 Estudo Sobre as Bases de Dados Envolvidas .......................................................... 53 4.3.4 Definição da Arquitetura de Data Warehousing para Gestão em C&T ................. 53 4.3.5 Construção do Data Warehousing Utilizando a Arquitetura Proposta.................... 54 5 A ARQUITETURA PROPOSTA ...................................................................................... 55 5.1 INTRODUÇÃO.............................................................................................................. 55 5.2 DIFICULDADES E DESAFIOS NA DEFINIÇÃO DE UMA ARQUITETURA PARA DATA WAREHOUSE ......................................................................................................... 55 5.3 ARQUITETURA PROPOSTA ...................................................................................... 60 5.3.1 Camada Fonte de Dados .......................................................................................... 63 5.3.2 Camada ETL............................................................................................................ 63 5.3.3 Camada Área de Estágio.......................................................................................... 65 5.3.4 Camada Data Warehouse ........................................................................................ 67 5.3.5 Camada Área de Análise ......................................................................................... 69 5.3.6 Metadados................................................................................................................ 71 5.4 CONSIDERAÇÕES FINAIS ......................................................................................... 72 6 CONSTRUÇÃO DO DW PARA GESTÃO EM C&T..................................................... 74 6.1 INTRODUÇÃO.............................................................................................................. 74 6.2 ABORDAGEM DO PROBLEMA................................................................................. 75 6.3.1 Definição das Fontes de Dados ............................................................................... 76 6.3.2 Construção do Sistema ............................................................................................ 77 6.3.3 Implementação dos Módulos da Camada ETL........................................................ 78 6.3.4 Modelagem da Área de Estágio............................................................................... 81 6.3.5 Definição da Camada DW....................................................................................... 82 6.3.6 Desenvolvimento da Camada Análise..................................................................... 87 6.3.7 Definição do Metadados.......................................................................................... 88 6.4 Considerações Finais ...................................................................................................... 89 7 ESTUDOS DE CASO ........................................................................................................ 91 7.1 INTRODUÇÃO.............................................................................................................. 91 7.2 ESTUDOS DE CASO .................................................................................................... 91 7.2.1 Estudo Sobre a Propriedade Intelectual................................................................... 91 7.2.2 Titulação .................................................................................................................. 92 7.2.3 Tempo de Defesa nos Programas de Mestrado ....................................................... 93 7.2.4 Número de Publicações de Livros ........................................................................... 94 7.3 CONSIDERAÇÕES FINAIS ......................................................................................... 95 8 CONCLUSÃO E TRABALHOS FUTUROS .................................................................... 97 REFERÊNCIAS BIBLIOGRÁFICAS .................................................................................. 101 APÊNDICE A – PROCEDIMENTOS DA CAMADA ETL ................................................ 107 APÊNDICE B – MODELOS DE DADOS ........................................................................... 108 12 1 INTRODUÇÃO Muitas empresas de diferentes ramos de atividade e organizações governamentais possuem dados em diversas fontes de dados que contêm informações importantes para o suporte à tomada de decisões. Para que essas decisões possam ser tomadas são necessárias a compreensão e a preparação desses dados, podendo assim os mesmos serem utilizados adequadamente. Com a construção de um DW (Data Warehouse) é possível a integração de diversas fontes de dados, facilitando a tomada de decisões dentro de uma empresa, através da extração de um grande número de informações. Um data warehousing mune os usuários de ferramentas de apoio à tomada de decisões através da integração dos dados de toda a empresa em um repositório de dados. A partir desse repositório, os usuários finais podem extrair relatórios e realizar análises diretas. O resultado da utilização de um DW para o processamento de informações é um ganho direto de produtividade e tempo. Os dados podem ser facilmente acessados e analisados sem o gasto de tempo envolvido na manipulação e no processamento. As decisões podem ser tomadas rapidamente e com maior segurança, pois os dados estão disponíveis no momento exato que se é necessário e com a consistência necessária. Não só empresas, mas qualquer segmento de mercado em que se queira fazer a integração de bases de dados diversas, pode construir um DW, tornando possível a utilização de uma base de dados integrada na tomada de decisões. A construção de um DW é uma tarefa complexa que exige um profundo conhecimento de várias tecnologias e dos sistemas envolvidos, sendo em geral demorada e custosa. A integração de dados também é um grande problema, considerando que, em geral, o DW tem bases de dados de origem em formatos distintos, o que dificulta esta tarefa. 1.1 OBJETIVO Os objetivos principais deste trabalho são a definição de uma arquitetura de data warehousing e a construção de um data warehouse para o sistema Intersul1 que integre as bases 1 Sistema Inteligente de Apoio à Rede Sul de Pesquisa e Pós-Graduação: http//www.uem.din.uem.br/~intersul 13 Institucionais do CNPq e CAPES com dados regionais. A construção do DW é feita a partir de sistemas transacionais e fontes de dados externas, tendo diferentes tipos de bases de dados, assim como distintos formatos de dados. O DW dará suporte a análise de dados sobre C&T (Ciência e Tecnologia) de pesquisas e pesquisadores regionais. Os objetivos específicos desse trabalho são: • apresentar os elementos teóricos relacionados à construção de um data warehousing; • discutir o modelo de arquitetura proposto, apresentando de forma detalhada cada uma das camadas da arquitetura; • apresentar e comparar tipos de modelagens de dados utilizadas em desenvolvimento de DW; • definir um modelo de dados do DW baseado na modelagem dimensional estrela e conjunto com as outras modelagens estudadas; • construir um DW para gestão em C&T; • apresentar o processo de construção do DW e as dificuldades encontradas neste processo. 1.2 JUSTIFICATIVA A arquitetura utilizada neste trabalho é uma arquitetura em camadas baseada na implementação BUS, que foi definida por Kimball et al. (1998) em conjunto com a metodologia de DM (Data Marts) incrementais. A utilização dessa metodologia permite apresentar resultados mais rápidos, enquanto a construção independente das camadas possibilita a inclusão de novas fontes de dados e a integração de fontes de diferentes formatos. À medida que os sistemas de informação executiva tornam-se mais abrangentes, envolvendo a empresa como um todo, o DW passa a ter um papel de extrema importância por possibilitar análise estratégica, que facilita a tomada de decisões. Na área de C&T, o Brasil conta com algumas bases de dados bastante confiáveis que são de extrema importância para avaliar o sistema de C&T no Brasil. O projeto Intersul, desenvolvido por um grupo de pesquisadores da UEM e UFSC, utilizará essas bases de C&T 14 com dados regionais e tem como um dos principais objetivos desenvolver técnicas de extração de conhecimentos e tomada de decisão aplicáveis a C&T. Com isso, a construção de um DW para o projeto Intersul é de suma importância, considerando que através do DW é possível a utilização de ferramentas OLAP (On-Line Analytic Processing) e de técnicas de mineração de dados para a extração de dados que permitam avaliar o perfil de pesquisadores e pesquisas brasileiros, auxiliando assim na definição de uso dos recursos destinados à C&T. 1.3 ORGANIZAÇÃO DO TRABALHO Além deste capítulo, este trabalho está dividido em 7 capítulos. No capítulo 2 é apresentada uma pequena introdução sobre ciência e tecnologia no Brasil, demonstrando sua evolução e as principais bases de dados de C&T existentes. No terceiro capítulo é apresentada a fundamentação teórica dos conceitos envolvidos no ambiente de DW. O objetivo é descrever sucintamente os principais conceitos necessários para a implementação de um DW. No quarto capítulo é descrita a metodologia de pesquisa utilizada nesse trabalho. No quinto capítulo é detalhada a arquitetura proposta, suas camadas e relação com os conceitos abordados no segundo e terceiro capítulos. No sexto capítulo, é demonstrado como o DW para gestão em C&T foi construído utilizando a arquitetura descrita no capítulo cinco. No sétimo capítulo são discutidos alguns resultados obtidos através de consultas ao DW construído e no oitavo capítulo são apresentadas a conclusão e sugestões para trabalhos futuros. 15 2 CIÊNCIA E TECNOLOGIA NO BRASIL 2.1 INTRODUÇÃO No século passado, o aumento tecnológico foi de grandes proporções, tendo um crescimento superior a qualquer século antecessor. A partir desse crescimento, novos desafios foram criados, surgindo então novas questões em aberto que necessitam que novas teorias sejam formuladas ou explicadas. Com isso, a ciência teve um aumento significativo na qualidade de suas pesquisas, tornando os pesquisadores profissionais cada vez mais capacitados que trabalham em beneficio da humanidade. No Brasil ou em qualquer país que esteja em desenvolvimento, um ponto-chave é fazer com que escassos recursos destinados a C&T sejam utilizados minimizando os desperdícios, fazendo com que os gastos sejam utilizados seguindo um planejamento prévio. Uma alternativa para se conseguir isto, de acordo com Romão (2002), é aumentar os investimentos em P&D (Pesquisa e Desenvolvimento), fazendo com que, através desta área consiga-se conhecer em detalhes a realidade da infra-estrutura e do potencial de pesquisa no país, assim como o perfil de pesquisa dos pesquisadores. Conseguir mais e melhores resultados com menos recursos é o principal desafio para nações em desenvolvimento como o Brasil. Mesmo o Brasil sendo um país com grandes dificuldades, o sistema de C&T tem sofrido avanços significativos. Nesta área pode-se realçar bases de dados importantes que são consolidadas e confiáveis, através das quais é possível traçar um panorama de C&T sobre qualquer região do país. Destacam-se entre estas bases o Diretório dos Grupos de Pesquisa no Brasil (CNPq, 2003a) e o Sistema de Currículo Lattes (CNPq , 2003b), desenvolvidos no âmbito do Conselho Nacional de Desenvolvimento (CNPq), e o Sistema Coleta da CAPES sobre a pós graduação brasileira (CAPES, 2003). Dentro deste contexto, encontra-se o projeto Intersul, que tem como objetivo desenvolver um sistema informatizado de gestão de C&T. Este projeto terá como público alvo, profissionais vinculados às FAPs (Fundação de Amparo à Pesquisa) e profissionais vinculados às instituições executoras de P&D, tais como: universidades (pró-reitores de pesquisa e pós- 16 graduação, coordenadores de cursos de pós-graduação), empresas estatais e privadas que desenvolvam pesquisa. O sistema Intersul utilizará dados de C&T da região Sul do Brasil e deverá ser capaz de responder perguntas como: • Que tipo de conhecimento é viável e relevante para planejar fomento a C&T? • Quais seriam os melhores meios de se obter esses conhecimentos? O projeto Intersul tem como um dos principais objetivo desenvolver técnicas de extração de conhecimentos e tomada de decisão aplicáveis à C&T para contribuir para o processo de avaliação e acompanhamento das agências e tornar disponível, rapidamente, informações sobre o potencial de C&T. Neste capítulo é feita uma breve revisão bibliográfica sobre C&T no Brasil como subsídio à criação de um DW para gestão em C&T. Inicialmente é apresentado um resumo da evolução do sistema de C&T brasileiro. Na seqüência é feita uma breve análise sobre a importância de se realizar planejamento neste contexto e os indicadores de C&T brasileiro. E por fim, são apresentadas as principais bases de ciência e tecnologia no Brasil. 2.2 O PERFIL DE CIÊNCIA E TECNOLOGIA NO BRASIL No Brasil, até a década de 50 não existia um sistema nacional de C&T, o que existia eram trabalhos e iniciativas individuais. O CNPq foi criado em 1951, era o então Conselho Nacional de Pesquisa que, em 1978, foi transformado em Conselho Nacional de Desenvolvimento Cientifico e Tecnológico. A criação da CAPES (Coordenação de Aperfeiçoamento de Pessoal de Nível Superior) também ocorreu em 1951. Seu objetivo era a distribuição de bolsas de estudos no Brasil e no exterior, para assegurar a existência de pessoal especializado para atender às necessidades dos empreendimentos públicos do país, que tinham como objetivo o desenvolvimento econômico e social do Brasil. 17 Foram sendo criadas então novas instituições, organizando a base institucional para a capacitação de recursos humanos, através da implantação da pós-graduação, e para o desenvolvimento de C&T. Um estudo feito por Guimarães (1995) aponta que a Pesquisa Científica e Tecnológica no Brasil é concentrada geograficamente, sendo que 78% dos grupos de pesquisa localizam-se em São Paulo, Rio de Janeiro, Rio Grande do Sul e Minas Gerais. Este estudo revela também que a pesquisa é praticamente realizada por grupos recentes, com cerca de oito anos, e por pesquisadores com titulação bastante diversificada, predominando doutorado e mestrado. De modo geral, é pouco produtiva e caracterizada por Pesquisa Básica. A área de Ciências Humanas apresenta o maior número de grupos de pesquisa. A Pesquisa Básica predomina nas áreas de Ciências Exatas e da Terra e Ciências Biológicas, sendo estas áreas mais consolidadas e produtivas do que aquelas nas quais predomina a pesquisa aplicada. Nos países desenvolvidos, onde o resultado da inovação se faz presente em termos de patentes produzidas e contribuições ao crescimento econômico, a atividade de P&D é predominantemente realizada nas empresas. No Brasil, do total de cientistas e engenheiros atuantes em P&D, em todas as áreas atualmente em torno de 83 mil profissionais, cerca de 68% atuam nas universidades e apenas em torno de 11% exercem suas atividades em centros de pesquisas de empresas privadas (MCT, 2000), enquanto que nos países industrializados pode chegar a 50% (KRIEGER & GALEMBECK, 1996) e mesmo mais de 70% no caso do Japão (ARRUDA, 1994). No Brasil as empresas privadas investem pouco em pesquisa e desenvolvimento, como pode ser visto nos Gráficos 1 e 2. 18 1,9 Parcela do PIB gasta em Pesquisa e Desenvolvimento financiada por empresas Em % 1,62 1,73 1,18 0,78 0,4 0,1 México Brasil Canadá França Alemanha Coréia do Sul EUA Gráfico 1 – PIB gasto em Pesquisa e Desenvolvimento financiada por Empresas (Fonte: LEI..., 2004, p. A9) 82,5 Parcela de pesquisadores na empresas em relação ao total Em% 65,3 58,8 54,5 47 10,3 México 12,7 Brasil Canadá França Alemanha Coréia do Sul EUA Gráfico 2 – Parcela de Pesquisadores nas Empresas (Fonte: LEI..., 2004, p. A9) Estudos recentes mostram que no Brasil o pessoal envolvido com C&T está mais concentrado em instituições públicas. Entretanto, nos últimos anos a quantidade de professores envolvidos em pesquisa nas instituições particulares vem tendo um crescimento surpreendente. Apesar da maioria dos pesquisadores ainda estar concentrada nas instituições públicas, é apontada uma tendência de crescimento da pesquisa nas universidades particulares. O Quadro 1 mostra esses números. 19 Professores Universitários em Tempo Integral...............73.675 Federais................................38.594 Estaduais..............................20.294 Municipais.............................758 Privadas................................14.029 Quadro 1 – Distribuição dos Professores na Rede de Ensino Fonte: (Romão, 2002) O sistema de pós-graduação, que está diretamente ligado à atividade de pesquisa e à produção científica imediata, tem evoluído muito, sendo a cada ano criados novos cursos de Doutorado e Mestrado, o que aumenta a concorrência na distribuição de recursos para pesquisa. Para prosseguir na sua evolução, Krieger (1999 apud Romão et al, p. 6, 2000) destaca os seguintes desafios para a C&T no Brasil: a) promover a educação generalizada; b) aumentar a quantidade e qualidade do pessoal envolvido em C&T; c) aumentar o intercâmbio entre a universidade e o setor produtivo; d) aumentar os investimentos em C&T com relação ao PIB (Produto interno Bruto); e) aumentar a contribuição da indústria nos investimentos de C&T; f) promover projetos estratégicos com impacto socioeconômico; g) obter o desenvolvimento sustentado e a preservação ambiental. Outros estudos, como o realizado por Schwartzman et al. (1995), também apontam um crescimento da ciência e tecnologia no Brasil. Esse estudo concluiu que, nos últimos 25 anos, o Brasil desenvolveu significativamente sua capacidade científica e tecnológica. Revelou também que, desde a última década, este setor vem sendo afetado pela falta de recursos, pela instabilidade institucional e pela falta de definição sobre seu papel na economia, na sociedade e na educação. No Brasil, assim como em outros países em desenvolvimento, além de superar o sistema de carências que ameaça os programas de C&T, transformações deverão ocorrer a partir do uso 20 das novas tecnologias de informação, na qualificação dos pesquisadores e em sua motivação pelo objeto de estudo. 2.3 PLANEJAMENTO EM C&T Para que um país consiga um desenvolvimento próspero, é necessário o planejamento da política científica e tecnológica. Em casos de países como o Brasil, que é um país em desenvolvimento, é necessário um meio eficiente de planejamento e o estabelecimento de políticas. Um dos principais problemas encontrados pelas empresas e instituições é a instabilidade do cenário econômico, exigindo a adoção de uma administração estratégica, onde uma das principais etapas é o planejamento. Uma abordagem que leva em consideração a mudança organizacional é o planejamento estratégico. “O planejamento estratégico é um processo iterativo da análise das oportunidades e ameaças e de pontos fortes e fracos visando à busca de uma equação para a definição de objetivos apropriados ao ajustamento da organização às condições ambientais de mudança. Consiste na utilização de um arcabouço de técnicas direcionadas para a elaboração de uma análise ambiental interna e externa da organização, definição da missão, formulação de objetivos estratégicos, quebra e fixação de novos paradigmas, definição do perfil de negócio e área de negócio, grupos de clientes e produtos ou serviços, formulação de políticas e diretrizes e detalhamento destas em projetos e ações estratégicas” SILVEIRA (1996 apud ROMÃO, p. 19, 2002). O planejamento estratégico utiliza conceitos de outras áreas, e para adaptar esses conceitos no contexto do planejamento em C&T e viabilizar a sua aplicação, é necessário conhecer as políticas públicas e fatos relevantes a respeito de C&T, para que se consiga analisar as oportunidades e criar um plano estratégico. Para se ter um bom planejamento em C&T, é necessário que o decisor tenha informações precisas e seguras para a tomada de decisão; para isto, deve-se utilizar métodos e meios modernos para a obtenção dessas informações. 21 Em um país que investe algo em torno de 0,7% do PIB em C&T e cujos recursos provêm predominantemente dos cofres públicos, sempre sujeitos a descontinuidades, o componente planejamento é fundamental para a aplicação adequada dos recursos. Em agências de promoção de C&T, como o CNPq, CAPES, FINEP (Financiadora de Estudos e Projetos) e Fundações Estaduais, esse planejamento tem como objetivo criar ações de indução do desenvolvimento científico e tecnológico. Para isto é necessário utilizar conhecimento adequado que em boa parte está disponível na forma de indicadores (ROMÃO, 2002). 2.4 INDICADORES E AVALIAÇÃO EM C&T A avaliação de C&T é um processo vinculado ao fomento, ou seja, é necessária uma análise que produza subsídios para a tomada de decisão, determinando os níveis de distribuição de recursos. Para realizar qualquer tipo de análise de informações, é necessário utilizar informações íntegras e que representem de forma concisa a realidade que se pretende analisar. O uso de indicadores pode viabilizar isto. Na área de C&T utilizam-se alguns indicadores específicos, criados para permitir estudos sobre a atividade científica e tecnológica e auxiliar em tarefas tais como: avaliação da pesquisa, planejamento de política científica, etc (ROMÃO, 2002). As agências em geral, além das metodologias tradicionais, utilizam também metodologias próprias. Um dos benefícios que os indicadores de C&T podem trazer é a melhora nos processos de distribuição de recursos para pesquisa entre os vários objetivos socioeconômicos e as disciplinas científicas. Existem diversas maneiras de se medir a atividade científica através de indicadores. Ela pode ser medida de forma absoluta, relativa, ponderada, etc. De um modo geral, o processo de avaliação pode ser dividido em dois grupos: qualitativo e quantitativo ou pela combinação dos dois métodos. Os indicadores viabilizam a condução de estudos em vários níveis para avaliar, por um lado, indivíduos, grupos, instituições e países e, por outro, periódicos, áreas do conhecimento e setores de atividade (SPINAK, 1998). 22 Para analisar C&T de um segmento ou região, é necessário conhecer alguns conceitos quantitativos criados no contexto da atividade científica, como a cientometria e a bibliometria, além da informetria (ROMÃO 2002). Macias-Chapula (1998) enfatiza que “em tudo o que se refere à ciência, os indicadores bibliométricos e cientométricos tornaram-se essenciais”. Estes conceitos são apresentados em Taque-Sutcliffe (apud Macias-Chapula, 1998), conforme segue: Bibliometria: é o estudo dos aspectos quantitativos da produção, disseminação e uso da informação registrada. Seus resultados são usados para elaborar previsões e apoiar a tomada de decisões. Cientometria: é o estudo dos aspectos quantitativos da ciência enquanto uma disciplina ou atividade econômica. É aplicada no desenvolvimento de políticas científicas. Sobrepõe-se a bibliometria. Informetria: é o estudo dos aspectos quantitativos da informação em qualquer formato, não apenas dos cientistas. Através destes conceitos é possível abstrair a realidade e estabelecer parâmetros numéricos capazes de resumir informações generalizadas sobre investimentos, produção e tendências no campo da ciência e da tecnologia. Estes parâmetros são conhecidos como indicadores de C&T. Os indicadores mais utilizados na medição da ciência são os bibliométricos, que são métodos quantitativos derivados das publicações científicas. Segundo Katz (2000 apud Niederauer, p. 16, 2002) a avaliação da atividade científica inclui as seguintes medidas bibliométricas: 1. Tamanho: número de artigos publicados; 2. Reconhecimento: número de citações que um artigo recebe; 3. Impacto: relação citação/artigo; 4. Colaboração: número de co-autores nos artigos. O número de artigos, de citações e de co-autorias forma o tripé de indicadores bibliométricos que compõem a rede de monitoração da produtividade científica, havendo uma série de refinamentos e métricas que se constroem a partir deles (CASTRO, 1986; KOSTOFF, 1997). A explicação para derivar indicadores a partir das publicações científicas é simples: publicar os resultados de uma pesquisa é um compromisso dos cientistas. Essa é a maneira pela qual 23 novas descobertas são divulgadas, garante-se a propriedade intelectual e atinge-se o reconhecimento dos pares. O uso de indicadores quantitativos como descritores do desempenho de pesquisadores e do progresso científico é hoje extremamente útil à gestão de C&T. Na construção de indicadores reside a chave do sucesso dos métodos quantitativos (NIEDERAUER, 2002). A construção de indicadores científicos é feita a partir da medição dos insumos (recursos humanos, financiamento público e privado, etc.) e dos resultados (produção bibliográfica, patentes, etc.) das instituições científicas. Com isso, bancos de dados sobre C&T têm uma relevada importância na medição dos insumos e dos resultados que são bases dos indicadores científicos. Construir bons indicadores não é uma tarefa simples. Existe grande dificuldade em construir indicadores que reflitam com segurança a realidade que se pretende representar e em estabelecer uma relação de causa-efeito entre a atividade científica e tecnológica e o impacto socioeconômico que a própria ciência provoca (BRISOLLA, 1998). Para que seja possível construir bons indicadores é necessária uma participação efetiva de especialistas tanto para concebê-los como para validá-los. É necessário ter um completo conhecimento do contexto, do sistema e do objeto ou processo a ser avaliado, para então extrair deles características e aspectos singulares. Na construção de indicadores, o que importa é a realidade (processo ou sistema) que eles descrevem. Um indicador não é a realidade, mas, tal qual um modelo, uma expressão incompleta da realidade (TRZESNIAK, 1998, p. 164). Segundo Romão (2002), o uso de indicadores quantitativos é muito criticado devido ao seu caráter empresarial e a sua limitação para medir idéias. No caso de publicações, elas podem oferecer contribuições diferentes ao conhecimento científico. De acordo com Niederauer (2002), não há um método perfeito de avaliação da ciência que atenda satisfatoriamente às partes envolvidas: avaliado, avaliadores e gestores de C&T. O que se percebe é uma tendência de utilização de diversos indicadores, pois, se em décadas anteriores havia restrições tecnológicas quanto a manipular grandes quantidades de dados, essa barreira se desfez. A capacidade dos computadores atuais, tanto em termos de hardware 24 como de software, representa um significativo impulso para a medição, avaliação e acompanhamento das atividades de C&T. A Bibliometira, como área tradicional de indicadores em C&T e, particularmente, os preceitos de Katz sobre as dimensões de análise de C&T vêm sendo sensivelmente e gradativamente ampliadas juntamente pelas novas possibilidades em Tecnologia da Informação, formando assim novos indicadores muito mais complexos e dos que os indicadores tradicionais. 2.5 BASES DE CIÊNCIA E TECNOLOGIA NO BRASIL A criação de bases de dados de C&T indicam um crescimento no Brasil nesta área, podendo realçar a existência de algumas bases de dados importantes que são consolidadas e confiáveis, e através delas é possível conseguir dados sobre C&T em qualquer região do país. As três principais bases brasileiras de C&T são: a base da Plataforma Lattes (CNPq), que inclui uma base que trata do indivíduo, com base de currículos; a base do Diretório dos Grupos de Pesquisa no Brasil (CNPq), contendo dados sobre os grupos de pesquisa no Brasil e a base Coleta (CAPES), contendo dados sobre os programas de pós-graduação. 2.5.1 Plataforma Lattes A Plataforma Lattes possui uma base de dados com informações curriculares de pesquisadores do Brasil, compreendendo bolsistas de iniciação científica, bolsistas de mestrado e doutorado, orientadores e outros atores ligados ao sistema nacional de inovação. A Plataforma Lattes tem como objetivos básicos: • avaliação da competência de candidatos à obtenção de bolsas e auxílios; • seleção de consultores, de membros de comitês e de grupos assessores; • subsídio à avaliação da pesquisa e da pós-graduação brasileiras. O Currículo Lattes é o sistema responsável pela coleta das informações que servem de apoio na descrição da pesquisa no país em nível de indivíduo. As informações são originadas de pesquisadores ou usuários do CNPq. 25 2.5.2 Diretório de Grupo de Pesquisa no Brasil O Diretório dos Grupos de Pesquisa no Brasil, coordenado pelo CNPq. Ela é constituída pelos principais grupos de pesquisa do Brasil, seus integrantes e pela produção científica desses grupos. Quando o Diretório foi criado, tinha como objetivo oferecer um suporte de informações atualizadas sobre as atividades de pesquisa, querendo obter, periodicamente, a configuração dos recursos humanos e a organização da produção científica e tecnológica brasileiras. Hoje, o Diretório tem o objetivo de ser uma plataforma de informações básicas sobre parque científico e tecnológico brasileiro, sendo assim, um instrumento essencial para a gestão de C&T (MARTINS & GALVÃO, 1994 (apud ROMÃO, p. 31, 2002)). O Diretório possui três finalidades principais (Guimarães (1994 apud Gonçalves, p. 32, 2000)): • ser um eficiente instrumento para o intercâmbio e a troca de informações, permitindo identificar com rapidez a posição do indivíduo dentro do grupo; • ser uma ferramenta poderosa destinada ao planejamento e gestão das atividades de C&T; • possuir um papel importante na preservação histórica de ciência e tecnologia no Brasil. A base do Diretório pode ser analisada segundo algumas abordagens, entre elas: o próprio grupo de pesquisa, as linhas de pesquisa, os pesquisadores, estudantes, técnicos, áreas do conhecimento e a produção em C&T. Neste primeiro ponto pode-se verificar as principais características dos grupos, tais como a instituição a qual estes pertencem, a área do conhecimento a qual estão vinculados e a produção científica de seus integrantes (GONÇALVES, 2000). 2.5.3 Plataforma Coleta Capes 26 A finalidade da Plataforma Coleta é coletar dados dos programas de pós-graduação (stricto sensu) do país, para subsidiar o processo de avaliação da pós-graduação brasileira. O modelo desta base de dados é bem complexo, permitindo análises importantes sobre o perfil de C&T no país, embora, como a própria agência menciona, estes dados não possuem um caráter censitário. Assim sendo, esta base tem como finalidade o suporte a aplicativos computacionais, captação dos dados junto aos programas e a avaliação dos cursos. 2.6 CONSIDERAÇÕES FINAIS A área de C&T no Brasil teve um significativo crescimento nas últimas décadas, tendo bases de dados importantes, que são confiáveis e que podem ser de grande valia para um crescimento nesta área. Estes dados podem disponibilizar informações estratégicas à tomada de decisão em gestão de C&T, através de um sistema concebido com o objetivo de extrair conhecimento sobre C&T. O DW é uma alternativa para se conseguir isto. Muitas empresas e instituições governamentais estão iniciando a exploração de seus dados, através da construção de DW (DIAS et al., 1998) e ferramentas de extração de conhecimento, com o objetivo de reduzir custos e otimizar a qualidade de seus produtos e serviços. A construção de um DW, integrando as bases de dados descritas neste capítulo, facilitará o processo de busca de conhecimentos interessantes sobre C&T, através do sistema Intersul e de ferramentas OLAP. 27 3 DATA WAREHOUSING 3.1 INTRODUÇÃO O conceito de data warehousing, embora surgido recentemente, baseia-se em idéias que vinham sendo aplicadas em vários sistemas de informação há muitos anos (INMON, 1997). O data warehousing teve um grande crescimento com o surgimento de tecnologias e metodologias para facilitar o desenvolvimento de sistemas de apoio à tomada de decisão. Neste capítulo abordam-se os conceitos, principais elementos, fases da construção e aspectos relacionados à implementação de um data warehousing. 3.2 AMBIENTE DE DATA WAREHOUSE Com o aumento dos sistemas de apoio à decisão, elevou-se a dificuldade do controle e gerenciamento dos dados, necessitando assim de uma nova tecnologia para melhor administrar os dados e tornar possível a tomada de decisão neste novo contexto. Surgiu então o ambiente de DW, que combina os métodos e ferramentas destinados ao suporte à decisão com uma modelagem de dados que permita gerenciar e controlar uma grande quantidade de dados, possibilitando ao usuário final tomar decisões melhores e mais rápidas. O ambiente de DW pode ser considerado uma evolução dos sistemas de apoio à decisão, pois ele combina as consultas e processamentos dos sistemas de apoio à decisão com uma nova forma de armazenamento de dados que permite o armazenamento de grande quantidade de dados, possibilitando uma maior rapidez ao acesso a estes. O presente capítulo tem por objetivo apresentar conceitos e características sobre a tecnologia de DW e trabalhos relacionados. 3.2.1 Conceitos de DW 28 Um DW pode ser considerado uma coleção de dados para dar suporte à tomada de decisões, com dados integrados de múltiplas fontes, orientados por assunto, não voláteis e que sofrem variação no tempo (INMON, 1997). Um DW tem o objetivo de integrar dados de diferentes fontes e formatos. O DW não é construído para suportar o processo funcional ou operacional da empresa, ou seja, não é o fim, mas é o meio para facilitar o uso da informação (KIMBALL et al., 1998). 3.2.2 Características de DW Um DW tem algumas características importantes, como a orientação por assunto, a integração, o fato de não ser volátil e a variação no tempo. Segundo Inmon (1997), essas são as principais características do ambiente DW. A seguir, uma breve abordagem de cada uma dessas características. 1) Orientação por Assunto Enquanto as bases de dados operacionais têm seus dados focados nas aplicações das empresas (transações que acontecem no dia-a-dia da empresa), o DW tem seus dados focados nos assuntos da empresa que são relevantes ao processo de tomada de decisão. Antes de iniciar a construção de um DW, na fase de análise é muito importante que se discuta com os usuários quais são os seus objetivos, para conseguir fazer uma classificação por assunto no DW. Outra diferença entre os dados orientados a aplicações e o DW é que os orientados a aplicações possuem detalhes que satisfazem os requisitos imediatistas do processamento funcional, enquanto que o DW não inclui dados que não serão utilizados para processamento. Na Figura 1 é mostrada a diferença entre os dados do ambiente transacional e os dados no DW. 29 Dados baseados em assuntos de negócio Data Warehouse Ambiente Transacional Pedido, Nota Fiscal Vendas Ordem de Produção, Máquina Produção Falha, produto Qualidade Figura 1 - Orientação por Assunto Fonte: (Machado, 2000) 2) Integração A integração de dados é uma das características mais importantes do DW. Como o DW em geral é composto por diversas fontes de dados, para que estas possam interagir é necessária uma representação única para estes dados. É necessário fazer a integração dos dados das diversas fontes para que se obtenha a consistência de nomes, a consistência de variáveis de medidas, a consistência da codificação das estruturas, a consistência dos atributos físicos dos dados e assim por diante. Um exemplo desse problema é a representação do sexo, como mostrado na Figura 2, no qual, em um sistema a representação poderia ser feita através de um campo alfanumérico, onde “M” representaria masculino e “F” feminino e em outro sistema essa representação seria 1 para masculino e 2 para feminino. Para que o DW possa utilizar os dados provenientes dessas duas fontes, seria necessária uma integração, utilizando um filtro, que transformaria os dados provenientes das fontes de dados de origem para o formato definido no DW. 30 Sexo ‘M’ Sexo ‘F’ Sistema1 Extração Filtro DW Sexo ‘M’ Sexo ‘F’ Sexo 1 Sexo 2 Sistema2 Figura 2 - Integração de Dados Fonte : (Machado, 2000) Dois elementos básicos estão relacionados com a integração: a área de estagiamento de dados e o armazenamento de dados operacionais (ODS) (KIMBALL et al., 1998). Os processos de limpeza, transformação e agregação ocorrem no estagiamento, enquanto a compatibilização e a integração ocorrem no ODS. Inmon (1997) identifica algumas funcionalidades dos processos de extração, transformação e carga (ETL), como são relacionados a seguir: • extrair os dados do ambiente operacional para o ambiente de DW demanda mudança de tecnologia, por exemplo, SGBD (Sistema Gerenciador de Banco de Dados) de DW; • selecionar e validar os dados do ambiente operacional; • reestruturar as chaves de entrada operacionais antes de serem gravadas. Em casos simples, um elemento de tempo é acrescentado à estrutura da chave; • reformatar os dados; • trabalhar com várias fontes de dados, nas quais a lógica deve ser esclarecida para que a fonte de dados apropriada contribua com seus dados segundo o conjunto correto de condições; • intercalar vários arquivos de entrada; • trabalhar com vários resultados de diferentes níveis de resumos produzidos pelo mesmo programa de carga; • extrair os dados com eficiência na escolha dos dados de entrada; • resumir os dados; • alterar nomes de elementos de dados durante a passagem do ambiente operacional para o ambiente de DW e registrar essas alterações; 31 • padronizar os registros de entrada. 3) Variação no Tempo Diferente de bancos de dados OLTP (On-Line Transaction Processing), no qual os dados estão em constantes atualizações e os dados estão sempre com valores atuais, em um DW os dados estão associados a um ponto no tempo (SINGH, 2001). A variação com o tempo significa que todos os dados no DW são precisos em algum instante no tempo. No ambiente operacional, os dados estão corretos no momento do acesso. Por isto os dados estão corretos em algum instante do tempo (INMON et al., 1997a). “O melhor sistema OLTP é um estado instantâneo dos negócios de uma organização, atualizado constantemente à medida que as transações são concretizadas.“ (KIMBALL et al., 1998) Bancos de dados OLTP não possuem um suporte explícito para representar corretamente o histórico do passado, pois eles refletem o valor corrente e sua exatidão é válida para um determinado momento, podendo ser alterado. Já os dados em um DW são um conjunto estático de registros de uma ou mais tabelas, capturados em um determinado momento de tempo. O armazenamento é uma seqüência de tempo explícita, em que são transferidos instantâneos estáticos do OLTP para o DW como uma seqüência de camada de dados, isto é, o DW é uma seqüência de registros no tempo. Os dados no DW trazem uma imagem fiel da época em que foram gerados. Os dados podem, ainda, estar divididos em dois modos: dados atuais e dados antigos. Os dados atuais são os dados mais recentes e que têm maior interesse, sendo os mais importantes no processo de tomada de decisão. Geralmente esses dados são armazenados com um baixo nível de granularidade e devem ser acessados de maneira rápida. Já os dados antigos, são dados que fazem parte do DW, mas não são acessados tão freqüentemente. Geralmente ficam armazenados em meios de custo mais baixo como, por exemplo, fitas. Normalmente o DW possui um grande volume de dados por serem armazenados dados de um grande período de tempo, e são acessados sempre que haja necessidade de extrair informações deles. 4) Não-Volátil 32 Um DW não ser volátil significa que ele não sofre modificações, ou seja, após os dados serem inseridos eles não são mais modificados. No banco de dados transacional, os dados sofrem atualizações em muitas transações, necessitando de um grande trabalho para garantir a integridade e consistência dos dados. Já o DW não requer este grau de controle por não permitir atualizações. A Figura 3 mostra um exemplo de banco de dados transacional e de um DW com as operações possíveis para cada um dos bancos. No DW, só são possíveis as operações de consulta e inclusão, enquanto no banco de dados transacional, as operações de incluir, excluir, alterar e consultar são permitidas. Banco de Dados Transacional Data Warehouse Incluir Excluir Alterar Incluir Consultar Consultar Figura 3 - Data Warehouse não-volátil Fonte: Adaptado de Machado (2000) 5) Armazenamento de Dados Após todas as etapas de extração, limpeza, integração acontece o armazenamento dos dados no DW. “Nesta etapa, vários processos adicionais ainda são realizados, tais como a verificação de restrições de integridade, a ordenação dos dados, a geração de agregações, a construção de índices e a condensação dos dados visando-se diminuir o volume dos dados a ser armazenado” (CIFERRI, 2002). 3.2.3 Modelagem de Dados Um dos assuntos mais críticos na construção de um DW é a compreensão dos dados. A criação de um modelo de dados é o melhor caminho para entender os dados. 33 De acordo com Date (1999) um modelo de dados ajuda em: • determinar os requisitos de negócio de alto nível e a criação de um escopo de documentos; • reunir requisitos adicionais; • construir um modelo de dados físico. A modelagem de dados para DW é totalmente diferente da modelagem utilizada em banco de dados transacionais. Nos bancos de dados transacionais é utilizada a MER (Modelagem Entidade/Relacionamento) a qual usa uma técnica que busca remover qualquer redundância de dados, qualquer transação que atualize os dados será efetuada em apenas um ponto do banco de dados (KIMBALL et al., 1998). Já o DW utiliza a modelagem dimensional como uma técnica que suporta o ambiente para análise multidimensional dos dados (MACHADO, 2000). “A utilização de modelos dimensionais é amplamente aceita como uma técnica viável para a entrega de dados para o usuário final em um DW” (KIMBAL et al., 1998; MEYERE & CANNON, 1998; AXEL & SONG, 1997; DINTER et al., 1998). O objetivo no projeto do modelo de um DW é deixar ele com um fácil entendimento, simples para se carregar com dados operacionais e trazer resultados de consultas o mais rápido possível. (KIMBAL et al., 1998; ADAMSON & VENERABLE, 1998.). O modelo dimensional traz duas principais vantagens na sua utilização em ambientes de DW. Primeiro, um modelo dimensional prove uma análise espacial multidimensional em ambientes de bases de dados relacionais. São analisados dados factuais utilizando dimensões. Segundo, um típico modelo dimensional desnormalizado tem um esquema de estrutura simples, o qual simplifica o processamento de consulta de usuários finais e eleva o desempenho.” ( SONG et al., 2001). Segundo Meyere & Cannon (1998) existem quatro níveis de requisitos de modelo de dados para construir um DW, como segue: • um modelo lógico de alto nível, constituído de um diagrama de área de assuntos coorporativos; • um modelo lógico de nível médio de área de assuntos do negócio, aplicável para uma fase particular da construção do DW; 34 • um modelo de dimensão do DW, o qual reflete a informação e características analíticas do DW; • um modelo físico do DW, o qual reflete as mudanças necessárias para alcançar os objetivos de desempenho. Modelagem dimensional é a técnica em que o modelo proporciona uma representação do banco de dados consistente com o modo que o usuário visualiza e navega pelo DW, combinando tabelas com dados históricos em séries temporais, cujo contexto é descrito através de tabelas de dimensões (BALLARD et al., 1998; HARRISON, 1998). Ferramentas OLAP permitem análise e gerenciamento, proporcionando aos executivos um grande ganho de desempenho através do rápido acesso a uma grande variedade de visões de dados organizados através da base de dados multidimensional. O modelo de dados multidimensional permite, também, um suporte a múltiplas hierarquias (AGRAWAL et al., 1995). Isto porque os membros de uma dimensão não estão em uma única estrutura hierárquica, por exemplo, dados que estão na dimensão tempo podem estar divididos em várias hierarquias, como ano, mês e semana. A modelagem dimensional tem como conceito, três elementos principais: • fatos; • dimensões; • medidas. Um fato é uma coleção de dados. Cada fato representa um item de negócio, uma transação ou um evento de negócio. Os fatos são utilizados para fazer a análise sobre a empresa, ou a instituição. “Fato é tudo aquilo que reflete a evolução dos negócios do dia-a-dia de uma organização” (MACHADO, 2000 p. 64). Dimensões são os elementos que participam de um fato, como por exemplo: tempo, localização e cliente. A dimensão pode ser organizada de maneira hierárquica, sendo constituída de vários níveis. Por exemplo, a dimensão região pode ser constituída de região, estado e cidade. 35 As medidas são os atributos numéricos que representam um fato. Cada medida é constituída pela combinação de dimensões que estão em um fato. Um exemplo de medida é o número de publicações de um determinado autor em um ano. O modelo dimensional permite a visualização de dados na forma de um cubo, onde cada dimensão do cubo representa o contexto de um determinado fato e a intersecção entre as dimensões representa as medidas. Matematicamente, o cubo possui apenas três dimensões. Entretanto, no modelo dimensional, a metáfora do cubo pode possuir quantas dimensões forem necessárias para representar um determinado fato (MACHADO, 2000). Por este motivo este modelo também é chamado de modelo multidimensional. Dentre os modelos de dados dimensionais, o mais comum é o modelo estrela. O modelo estrela possui uma entidade central denominada tabela de fatos e um conjunto de entidades menores, as tabelas de dimensões, relacionadas com a tabela de fatos, como mostra a Figura 4. Como pode ser visto na Figura 4, a tabela de fatos representa relacionamentos muitos-paramuitos entre as tabelas de dimensão, esta tem como chave primária uma chave composta de todas as chaves estrangeiras das tabelas de dimensão. Nas tabelas de dimensões são armazenadas as descrições das dimensões do negócio, e estas tabelas tendem a utilizar tipo caracter ao invés de numérico, de forma que suas linhas são muito mais longas, mas em pouca quantidade, ocupando pequena percentagem de espaço em disco. As tabelas de fatos podem utilizar até 95% da área destinada ao DW (BARQUINI, 1996). 36 Dimensão Tempo Chave_Tempo Dia Mês Ano Dia util Fatos Vendas Dimensão Produto Chave_Tempo Chave_Produto Chave_Loja Valor_Vendido Qtde_Vendida Chave_Produto Descrição Marca Categoria Dimensão Loja Chave_Loja Nome_Loja Endereço Cidade Figura 4 - Modelo Estrela Fonte: Adaptado de Kimball (1996) Outro modelo dimensional que existe é o modelo floco de neve, que pode ser conseguido pela decomposição de uma ou mais dimensões de maneira hierárquica. Um exemplo seria aplicar a decomposição da Dimensão Tempo, em ano, mês e dia no modelo estrela apresentado. A diferença básica entre os dois modelos é que no modelo floco de neve as dimensões são separadas em hierarquias, ou seja, uma tabela para cada nível. Já o modelo estrela possui as mesmas dimensões, com todos os níveis em uma só tabela. Comparando esses dois modelos, tem-se que no modelo estrela o tempo de acesso é mais eficiente do que no floco de neve. No modelo floco de neve são necessárias mais junções entre as tabelas e, conseqüentemente, há um gasto maior de tempo. O modelo floco de neve é esteticamente mais semântico para visualização que o modelo estrela, mas deve-se lembrar que o principal objetivo de um DW é fazer consultas com o máximo de eficiência possível. 37 Existem algumas operações para navegar nos dados de um modelo dimensional, e estas operações são (MACHADO, 2000): • Drill Down; • Roll Up; • Drill Across; • Slice and dice. Através do Drill Down o usuário navega de um nível de detalhe mais alto até um nível de detalhe mais baixo, enquanto no Roll Up o usuário navega de um nível de detalhe mais baixo até um nível mais alto. Estas duas operações podem ser vistas na Figura 5. A operação Drill Across combina várias tabelas de fato que compartilham as mesmas dimensões em um único relatório (KIMBALL, 1996). As operações Slice (Fatiar) e Dice (Mudar a perspectiva da visão) são referentes ao cubo. Na operação Slice, o cubo é fatiado para visualizar melhor um pedaço do cubo, mas mantêm a mesma perspectiva de visualização dos dados. Por exemplo, se a Figura 5 estivesse representando a produção total da UEM (Universidade Estadual de Maringá) no trimestre, em relação a artigos e livros, com a operação Slice seria visualizada somente a produção de artigos ou somente a de livros no trimestre. Já a operação Dice traz uma mudança de perspectiva da visão. Por exemplo, se está sendo visualizado na UEM quantos artigos foram publicados em um certo período de tempo, com a operação Dice se visualizará o número de artigos publicados na UEM, ou seja, o foco deixa de ser a universidade e passa a ser a publicação de artigos. 38 Volume de Produção (em Milhares) Região Sul 1999 RS Trim. 1 78 Trim. 2 67 Trim. 3 22 Trim. 4 56 SC 90 67 88 99 Drill Down – Dimensão Tempo DriRoll Up – Dimensão Tempo Volume de Produção (em Milhares) Região Sul Trimestre 1 RS Janeiro 30 Fevereiro 26 Março 22 SC 28 30 32 Figura 5 - Drill Down e Roll Up Fonte: (Machado, 2000) 3.2.4 Granularidade A granularidade está relacionada com o nível de detalhe em que serão armazenados os dados no DW, sendo que ela é inversamente proporcional ao nível de detalhe, ou seja, quanto maior a granularidade menor o nível de detalhe. A granularidade afeta o desempenho das consultas e o volume dos dados tendo, portanto, uma grande importância para o projeto. Nenhum outro aspecto de projeto terá importância se a granularidade não for conduzida de forma apropriada e se o particionamento não for cuidadosamente projetado e implementado (INMON, 1997). O nível de granularidade deve ser definido no início do projeto, mas é muito difícil determinar esta granularidade, sendo que geralmente a melhor solução consiste em estruturas com alguns níveis de granularidade. Geralmente é utilizada a opção de múltiplos níveis de granularidade, em que se parte de um baixo nível de granularidade, passando por níveis intermediários até um alto nível de granularidade. Uma outra opção é o uso dual de granularidade. Nesta opção são mantidas as informações recentes em um baixo nível de granularidade, para permitir a extração de informações mais 39 detalhadas. À medida que os dados se tornam obsoletos, estes são resumidos em um alto nível de granularidade, aumentando o desempenho de acesso. Alto Nível de Detalhe Baixo Nível de Detalhe Nível de detalhe – responde qualquer questão Grandes volumes de dados Flexibilidade – volume suficientemente pequeno para serem tratados Pequenos volumes Figura 6 - O balanceamento no gerenciamento da questão da granularidade. Fonte: (Inmon, 1997) Na integração de dados de diferentes fontes, a granularidade é um fator muito importante, que normalmente deve-se expressar o menor nível de granularidade comum entre as fontes. Muitas vezes é preciso expressar os dados no menor nível de granularidade para que as consultas possam aprofundar-se com precisão no DW (KIMBALL et al., 1998). Outro fator importante no projeto do DW é o particionamento dos dados. O particionamento consiste em dividir os dados em unidades físicas menores. Como as unidades são separadas, elas podem ser tratadas de forma independente e, por serem menores, permitem maior flexibilidade no gerenciamento dos dados. O particionamento pode ser feito no nível do sistema gerenciador de banco de dados (SGBD) e/ou no nível da aplicação. No particionamento no nível do sistema, o gerenciamento e a infra-estrutura ficam a cargo do SGBD, enquanto que no nível de aplicação o particionamento é feito pelo código da aplicação controlado pelo programador. 40 3.2.5 Data Mart Data Mart (DM) é um banco de dados multidimensional que representa um subconjunto de dados do DW e permite o acesso descentralizado das informações. O DW está relacionado com a empresa toda, permitindo uma visão global do negócio, enquanto que o DM é direcionado a um departamento ou a uma área específica do negócio. Como o DM é direcionado a uma área específica do negócio, o volume de dados é bem menor que no DW e sua implementação é bem mais rápida e a um custo bem mais baixo que a de um DW. Um outro benefício do desenvolvimento do DM para o investimento em um DW completo é o ganho de experiência, mostrando aos usuários o valor de informação de suporte à decisão (PEREIRA & BECKER, 2001). Uma outra característica dos data marts é que eles podem ser integrados ou interconectados através do compartilhamento de dados, provendo um aumento na capacidade e qualidade de visão corporativa dos dados e informações. A Figura 7 representa esta integração. Segundo Kimball et al. (1998), o conjunto de todos os data marts da organização, construídos de forma incremental e compartilhando dimensões e fatos comuns, forma o DW lógico da organização segundo um planejamento prévio. Data Warehouse Sistemas Operacionais DM DM DM Figura 7 - Data Marts integrados Fonte: (Machado, 2000) 41 3.2.6 Arquitetura de Data Warehouse Arquitetura é um conjunto de regras que regulamentam uma estrutura para um produto ou projeto de um sistema (SINGH, 2001). Mais importante que as ferramentas que serão utilizadas para o desenvolvimento do DW, são os fundamentos da arquitetura. Um dos principais fundamentos da arquitetura de DW é a flexibilidade, pois é necessário que a empresa ou organização possa modificar e analisar os dados de acordo com suas necessidades. No projeto de um DW, a escolha da arquitetura e da metodologia de desenvolvimento devem ser umas das primeiras decisões a serem tomadas antes de iniciar o desenvolvimento de um DW, pois toda a organização dos componentes depende dela. Singh (2001) propõe um modelo de arquitetura em múltiplas camadas para um DW, contendo as seguintes camadas, como pode ser visto na Figura 8: • Camada de Mensagem da Aplicação – esta camada tem como responsabilidade o transporte das informações do DW para o resto da empresa; • Camada de Metadados – os metadados são dados sobre os dados, ou seja, são dados que descrevem os dados. Esta camada tem como objetivo o acesso dos dados do DW pelos usuários de forma única, sem que eles necessitem saber onde estão ou quais são os formatos dos dados; • Camada de Acesso à Informação – nesta camada o usuário tem acesso às informações do DW através de relatórios, ferramentas OLAP e mineração de dados, permitindo que o usuário manipule as informações do DW; • Camada de Acesso a Dados – esta camada é a responsável por fazer a conexão entre a camada de dados operacionais e a camada de estágio de dados, realizando esta conexão de modo transparente para o usuário; • Camada DW – esta camada é onde estão armazenados os dados. Normalmente é uma base utilizando a modelagem multidimensional, para permitir um acesso mais rápido e flexível; • Camada de Estágio dos Dados – nesta camada é feita a extração, limpeza e transformação dos dados antes para que eles possam ser carregados no DW; 42 • Camada de Dados Operacionais – nesta camada estão contidas as bases de dados da empresa ou organização; • Camada de Gerenciamento do Processo - esta camada gerencia os diversos processos que estão envolvidos em um DW. Mensagem da Aplicação METADADOS Dados Operacionai s Acesso a Dados Estagiamento de Dados Data Warehouse Acesso a Dados Acesso a Informação GERENCIAMENTO DO PROCESSO Figura 8 - Arquitetura multicamadas para DW Fonte: Adaptado de Singh (2001) 1) Arquitetura Global O DW global é construído a partir das necessidades da empresa como um todo. Nele o armazenamento de dados é composto por um repositório de dados comum de suporte à decisão, disponível para toda a empresa. Esta arquitetura pode ser centralizada ou fisicamente distribuída, isto é, se for centralizada o DW fica em uma única instalação física, enquanto se for distribuída pode ter data marts espalhados em diferentes instalações físicas. Esta arquitetura dá a idéia de desenvolvimento Top-Down e apresenta cinco fases, como é mostrado na Figura 9. 43 Levantamento de todos os dados e requisitos Projeto Lógico e Físico Projeto de implementação e extração Implementação das aplicações clientes Figura 9 - Arquitetura Global Carga de Dados, Operação de Manutenção. Fonte: (Inmon, 1997) Esta arquitetura tem como vantagem o acesso à visão corporativa de dados, entretanto é uma arquitetura com um elevado custo de implementação e que exige um grande tempo de desenvolvimento. 2) Arquitetura de Data Mart Independente Nesta arquitetura os data marts são controlados por um grupo específico, onde cada DM é implementado de forma isolada, sem ter nenhuma interligação com os outros data marts. Os data marts são construídos isoladamente e então são integrados em um único DW (SAMOS et al., 1998). A implementação desta arquitetura é rápida, mas não traz nenhuma visão corporativa. 3) Arquitetura de Data Marts Incrementais Esta arquitetura foi proposta por Kimball et al. (1998). Nela os requisitos devem ser bem definidos e a integração entre os data marts deve ser planejada antes de começar o desenvolvimento dos mesmos. Na arquitetura de data marts integrados, a área de armazenamento é composta por vários data marts projetados de forma a manter a integração dos dados. A interligação dos dados faz-se através do metadados e pelo software SGBD (KIMBALL et al., 1998). A Figura 10 mostra o processo de desenvolvimento desta abordagem. Nesta arquitetura, o desenvolvimento é feito através da combinação das abordagens TopDown e Bottom-Up e é baseado em um processo contínuo. O desenvolvimento nesta arquitetura segue os seguintes passos (KIMBALL et al., 1998): 1. Primeiro é feita uma análise dos requisitos de forma global; 44 2. A partir dos requisitos levantados, surge uma lista dos data marts a serem implementados e como deverão ser integrados; 3. São levantados os requisitos de um dos departamentos integrantes e implementado o DM correspondente; 4. Repete-se o passo anterior de maneira cíclica, até que todos os DM tenham sido desenvolvidos; 5. O conjunto de todos os data marts desenvolvidos constitui o DW da empresa ou organização. Seleção e Instalação Arquitetura Projeto Arquitetura Planejamento Definição dos Requisitos Projeto Lógico Projeto Físico Projeto Área de Apresentação Estágio de Dados, Projeto e desenvolvimento Implantação Impl. Área de Apresentação Figura 10 - Fases do Desenvolvimento de Data Marts Incrementais Fonte: Adaptado de Kimball et al. (1998) Esta arquitetura é dividida em dois grandes componentes, o Back Room e o Front Room, que são descritos a seguir: • Back Room - Extração, Transformação e Carga (ETL) - nele estão todas as ferramentas e os processos para a aquisição das fontes de dados. Após a extração e a transformação, os dados são armazenados na área de estágio para serem inseridos posteriormente no DW e atualizar os metadados. • Front Room - nele estão todas as ferramentas e os processos necessários para interação com o usuário final, como ferramentas OLAP. Também contém ferramentas de busca e apresentação dos dados, acesso e segurança, gerenciamento de consultas, relatórios padronizados e o monitoramento de atividades. A Tabela 1 apresenta as principais vantagens e desvantagens desta arquitetura. 45 Tabela 1 - Vantagens e Desvantagens dos Data Marts incrementais Fonte: (Sell, 2001) Vantagens A apresentação dos primeiros resultados é feita de modo mais rápido e barato do que a abordagem global Desvantagens Complicações políticas por conta da determinação da seqüência de implementação dos data marts e das prioridades de manutenção A integração entre os data marts possibilita a Metadado mais complexo para gerenciar a distribuição e integração dos dados unicidade de representação dos dados e informações mais confiáveis por não existirem redundâncias Os mecanismos de extração são projetados Maior controle no nível de granularidade, uma única vez padronização e nas manutenções das tabelas compartilhadas 3.2.7 Tipos de Implementações Existem alguns tipos de implementações das arquiteturas descritas. A escolha da abordagem de implementação está relacionada com vários fatores, como infra-estrutura de tecnologia, o escopo da implementação, a arquitetura selecionada, o custo, o tempo de implementação e a necessidade ou não de um acesso coorporativo. A seguir são apresentadas três abordagens de implementação: Top-Down, Button-Up e a BUS. A abordagem Top-Down foi proposta por Inmon (1997) e é conhecida como o padrão inicial do conceito de DW. Ela se baseia em um DW central, onde todas as decisões sobre as fontes de dados, segurança, estrutura de dados e padrões de dados devem ser analisadas antes de iniciar o desenvolvimento, resultando em um grande trabalho inicial. Nesta abordagem, o processo de desenvolvimento se inicia na extração, transformação e carga das bases de dados operacionais para uma área de estagiamento ou diretamente para o DW. O DW por sua vez tem o propósito de servir os data marts departamentais com dados e metadados. A abordagem Top-Down tem um custo elevado e um tempo de implementação muito alto, mas em compensação fornece uma base de dados integrada e corporativa. 46 Pela dificuldade e custo de implementação, a abordagem Top-Down não teve muito sucesso, surgindo a implementação Button-Up. Ela é baseada na construção de data marts independentes, sem que seja necessária a definição de uma infra-estrutura corporativa para o DW da empresa. Cada DM tem sua própria área de estágio e processos de extração, transformação e limpeza independentes. Essa abordagem tem como característica a construção de um DW incremental a partir do desenvolvimento dos data marts independentes. Esta abordagem tem uma implementação rápida e um retorno rápido, no entanto existe uma dificuldade em gerenciar os padrões únicos de metadados, além de os processos de extração, transformação e limpeza independentes acarretarem um esforço maior nesta fase do projeto. A implementação BUS é a junção das abordagens Top-Down e Button-Up. A palavra BUS é muito utilizada na elétrica, e é uma estrutura que conecta vários dispositivos, isto é, uma interface padrão que permite diferentes tipos de dispositivos se conectarem. No DW, a implementação BUS tem o mesmo significado, é uma implementação que utiliza dimensões e fatos padronizados. Ela foi proposta por Kimball et al. (1998) e o DW lógico é constituído por data marts integrados. Estes data marts são planejados e integrados a partir do processo de planejamento, conseguindo assim um DW integrado e incremental. Este planejamento especifica uma arquitetura global de dados com um escopo bem definido, então, data marts incrementais são construídos seguindo os padrões da arquitetura planejada. Nesta abordagem, os fatos devem ser padronizados e as dimensões entre os diversos data marts são definidas em nível atômico, ou seja, com menor grão possível. 3.2.8 Metadados Uma parte fundamental do ambiente de DW é o mapeamento do ambiente operacional para o ambiente de DW. Esse mapeamento inclui: • mapeamento de um atributo para o outro; • conversões; • troca de nomes convencionada; • troca das características físicas dos dados; 47 • filtragem de dados, etc. Os metadados são dados sobre os dados e têm a função de dizer onde está o que dentro do DW, ou seja, é necessário saber quais os dados estão disponíveis e onde estão localizados no DW para que possam ser acessados com eficiência. Nos metadados residem informações variadas que são utilizadas e alimentadas por vários componentes da arquitetura. As informações contidas nesse repositório são essenciais para o pleno funcionamento dos componentes e para a sua manutenção, além destas informações, os metadados também podem armazenar dados como (KIMBALL et al., 1998): • estatística de uso de dados; • medições de desempenho; • diferentes elementos por atributo. “O melhor caminho para implementar e manter metadados simples é através do warehouse metadados. O warehouse metadados vai além dos tradicionais dicionários de dados, catálogos de dados e repositórios de dados para prover um help desk particular que traga uma compreensão da fonte de dados” (BRACKETT, p.193, 1996). Um DW que é constituído de um ambiente de metadados bem feito deve ser capaz de a partir dos dados do DW, conseguir voltar para os dados de origem dos sistemas operacionais. Isto é um ponto importante, por exemplo, caso um relatório não seja bem aceito com dúvidas sobre sua veracidade. Se for possível voltar aos dados de origem e mostrar que os dados são verdadeiros, então, a credibilidade do DW estará provada. Uma outra característica do DW, é que ao contrário dos ambientes operacionais, ele possui dados de um grande período de tempo, com isso o metadados precisa ser atualizado. A estrutura do metadados precisa ser atualizada de acordo com que mudanças no DW ocorram, mudando a estrutura dos ambientes operacionais ou inserindo novas fontes de dados (INMON, 2000). Segundo Inmon (2000), no ambiente de DW, alguns dos componentes de metadados são: • a estrutura e o conteúdo do DW. • o mapeamento de dados para o DW; 48 • o histórico de extração/transformação; • a informação de alias; • a informação de estado; • as informações volumétricas; • o critério de envelhecimento e limpeza; • a sumarização/cálculo de dados entre os níveis de DW; • o relacionamento de dados; • o histórico de relacionamento; • as informações sobre proprietário e administradores; • as informações de acesso; • as tabelas de referências; • o modelo de dados. Segundo David (2001) os metadados são divididos em dois tipos, os metadados técnicos e os metadados de negócio. Os metadados técnicos são utilizados pelo pessoal de desenvolvimento e manutenção, especificando a esses todas as descrições técnicas do banco de dados e suas operações. Já os metadados de negócios são utilizados pelos analistas de negócios e provêem uma descrição de negócio dos objetos da informação. Podem especificar o cálculo de um valor, o cálculo de custo de um produto, etc. Um dos problemas dos metadados é que não existe uma estrutura padrão para eles, tendo que ser criada uma antes do início da implementação do DW. Sendo necessária a definição de regras para o componente de extração, modelos de dados e tabelas descritivas para o componente de armazenamento e tabelas descritivas para as aplicações do cliente. 3.2.9 Povoando o Data Warehouse A etapa de povoamento é uma das partes mais críticas na construção de um DW. Esta etapa contempla os processos de extração, filtragem, transformação e migração dos dados. Pela dificuldade de se encontrar ferramentas que dão suporte a todo o processo e pelas ferramentas serem de elevado custo, ela constitui-se uma tarefa crítica. 49 Existem várias opções de extração dos dados do ambiente operacional para o DW, dependendo das características de cada origem dos dados (CHAUDHURI & DAYAL, 1997). • Origens cooperativas: origens que suportam gatilhos (triggers), fazendo com que notificações de mudanças na base de dados possam ser programadas para ocorrer automaticamente; • Origens com log: origens que mantêm um log o qual pode ser consultado, de forma que mudanças possam ser extraídas deste log (ex. Sybase Replication Server e Oracle Replication Server); • Origens consultáveis (time stamps): origens que são modeladas para indicar dados novos e modificados através de time stamps. Desta forma, apurações periódicas podem ser realizadas diretamente sobre essas origens, a fim de isolar as alterações que se tem interesse; • Origens de instantâneos (snapshots): origens que não suportam triggers, logs ou consultas. Neste caso, a solução é realizar periódicos snapshots off-line, onde as mudanças são detectadas, comparando os sucessivos snapshots. Uma vez que os dados são extraídos e colocados na área de estágio, estes devem passar por uma série de tratamentos. O primeiro destes tratamentos refere-se à limpeza ou filtragem dos dados. O objetivo é garantir a integridade dos dados através de programas ou rotinas especiais que tentam identificar anomalias e resolvê-las, deixando os dados em um estado consistente antes de serem instalados no DW. O segundo passo é colocar os dados em uma forma homogênea, aplicando uma metodologia de comparação de representações, que inclua os critérios a serem utilizados na identificação de semelhanças e conflitos de modelagem (BATINI & LENZERINI, 1986). Conflitos de modelagem podem ser divididos em (RIBEIRO, 1995): semânticos e estruturais. Conflitos semânticos são todos aqueles envolvendo o nome ou palavra associada às estruturas de modelagem. Por exemplo, mesmo nome para diferentes entidades ou diferentes nomes para a mesma entidade. Conflitos estruturais englobam os conflitos relativos às estruturas de modelagem escolhidas, tanto no nível de estrutura propriamente dito como no nível de domínios. Os principais tipos de conflito estruturais são os conflitos de domínio de atributo que se caracterizam pelo uso de diferentes tipos de dados para os mesmos campos. 50 Depois de identificados os conflitos de modelagem, deve-se criar as regras de mapeamento de representações equivalentes e de conversão para os padrões estabelecidos pelo DW. 3.3 CONSIDERAÇÕES FINAIS O estudo dos conceitos das tecnologias envolvidas no processo de construção do DW apresentados neste capítulo permitiu uma visão geral das tecnologias envolvidas. Foram descritas as principais arquiteturas de DW, como a arquitetura global e a arquitetura de data marts independentes, a arquitetura de data marts incrementais, que foi proposta por Kimball et al. (1998). Na descrição das arquiteturas foram identificados os tipos de implementações das mesmas, mostrando vantagens e desvantagens de cada uma das abordagens. O modelo de arquitetura do DW definido neste trabalho baseia-se na arquitetura proposta por Kimball et al. (1998), pelo fato dessa arquitetura apresentar um processo incremental de construção de data marts integrados. Baseando-se nas tecnologias e conceitos descritos nesse capítulo, é apresentada no capitulo 5 a arquitetura proposta e no capitulo 6 é descrito como foi construído o DW para gestão em C&T. 51 4 METODOLOGIA DE DESENVOLVIMENTO DA PESQUISA 4.1 INTRODUÇÃO Este capítulo tem como objetivo a apresentação da estrutura geral desta pesquisa, que é composta pelos seguintes elementos: o modelo da pesquisa e o processo de desenvolvimento da pesquisa. 4.2 MODELO DA PESQUISA A metodologia adotada neste trabalho é fundamentada no estudo das várias tecnologias envolvidas, as principais são: sistemas de informação, modelagem de dados, arquitetura de software, integração de dados e data warehousing (metodologias, tipos de implementação, arquiteturas de DW, modelos de metadados). Essas tecnologias foram utilizadas como base para a definição de uma arquitetura e a construção de um DW para gestão em C&T, que tem como principal objetivo avaliar o perfil de C&T na região sul do Brasil. Esta pesquisa pode ser classificada como pesquisa aplicada e experimental. Uma pesquisa é considerada como aplicada porque “objetiva gerar conhecimentos para aplicação à solução de problemas específicos” Silva e Menezes(2000 apud Dias 2001, p.44). Pesquisa experimental porque “determina-se um objeto de estudo, selecionam-se as variáveis capazes de influenciálo, definem-se as formas de controle e de observação dos efeitos que a variável produz no objeto” (Silva e Menezes (2000 apud Dias 2001, p.44)). Para o desenvolvimento deste trabalho foram necessários conhecimentos bastante específicos sobre as principais técnicas e os sistemas envolvidos na construção do DW, além das tecnologias Oracle, Delphi, Sybase, ErWin. Tudo isto visando à definição da arquitetura de data warehousing e a implementação dessa arquitetura com dados de C&T. 52 4.3 PROCESSO DE DESENVOLVIMENTO DA PESQUISA As principais etapas de pesquisa consideradas nesta dissertação foram: escolha do tema, revisão da literatura, estudo sobre as bases de dados envolvidas, definição da arquitetura de data warehousing para gestão em C&T e a construção do DW baseada na arquitetura proposta. A Figura 11 representa as etapas do processo de desenvolvimento da pesquisa. Nesta figura, à esquerda são relacionadas as principais etapas da pesquisa e à direita os elementos envolvidos em cada etapa. Escolha do Tema Revisão da Literatura Estudo das Bases Definição da Arquitetura Construção do DW Arquitetura de Software Data Warehousing Gestão da Informação C&T no Brasil Data Warehousing Modelagem de Dados Integração de Dados Metadados ErWin 4.0 LATTES DataCAPES Arquitetura de Software Data Warehousing ErWin 4.0 Oracle 9.0i Delphi 7.0 ErWin 4.0 Figura 11 - Processo de Desenvolvimento da Pesquisa 4.3.1 Escolha do Tema O tema é fruto de um problema já identificado na pesquisa brasileira através de trabalhos como Romão (2002) e Gonçalves (2000) e proposto como parte de uma solução para esse problema através do projeto Intersul. 53 Foram determinadas as tecnologias específicas a serem aplicadas como base na obtenção de uma arquitetura de data warehousing para gestão em C&T. 4.3.2 Revisão da Literatura A revisão da literatura englobou conceitos e características das seguintes tecnologias adotadas na pesquisa: C&T no Brasil, arquiteturas de data warehousing, tipos de implementação DW, integração de dados, metadados e modelagem de dados para modelos dimensionais. Na revisão da literatura sobre data warehousing, além dos conceitos e características de DW, foram descritas arquiteturas existentes e os tipos de implementações de DW mais comumente utilizados. A revisão da literatura e as técnicas já existentes de integração de dados, modelagem de dados e metadados, além das arquiteturas de DW já sedimentadas deram o suporte necessário à definição de todas as camadas da arquitetura do data warehousing. 4.3.3 Estudo Sobre as Bases de Dados Envolvidas Foram estudados os modelos de dados dos sistemas Lattes e Datacapes e identificadas as principais características das bases, além de ter sido feito um levantamento com possíveis usuários sobre quais dados são necessários para a implementação do DW de maneira eficiente, enfocando o processo decisório e o papel da tecnologia sobre estes sistemas. 4.3.4 Definição da Arquitetura de Data Warehousing para Gestão em C&T Nesta etapa foi proposta uma arquitetura e apontadas as melhorias que podem ser obtidas com o emprego de uma arquitetura em camadas com fases bem definidas e independentes no desenvolvimento de um data warehousing. A arquitetura foi definida baseando-se na implementação BUS e sobre os preceitos da metodologia de data marts incrementais, por se tratar de uma das metodologias mais completas de acordo com Sell (2001), Bomfim (2001). 54 4.3.5 Construção do Data Warehousing Utilizando a Arquitetura Proposta Nesta etapa procurou-se validar o emprego da arquitetura na construção de um data warehousing para C&T no Brasil, sendo realizada a validação de cada uma das camadas e seus componentes e a interação entre as mesmas de acordo com a arquitetura proposta. Os resultados alcançados foram descritos nesta etapa. 55 5 A ARQUITETURA PROPOSTA 5.1 INTRODUÇÃO A pesquisa na área de DW teve um grande crescimento na década de 90, principalmente a partir do ano de 1996. Isto pode ser verificado no estudo feito por Vassiliadis (2000), onde é apontado um aumento no número de publicações relacionadas com DW nos principais congressos de banco de dados. Apesar desse aumento em pesquisas na área de DW, ainda é muito difícil ter um suporte para o desenvolvimento de um DW, pois as pesquisas ainda são muito voltadas para área acadêmica. “A lacuna entre o DW prático e o de pesquisa se tornou óbvio“ (VASSILIADIS, 2000). Um outro ponto importante é a falta de projeto e estrutura no desenvolvimento de DW. Segundo Demarest (1997), o projeto de DW tem como alguns de seus fatores de insucesso: • engenharia de dados problemática; • esquema de projeto não realístico; • falta de um método de projeto. Por estes motivos, é de extrema importância o projeto de uma arquitetura contendo passos bem definidos que possa auxiliar o projetista de DW na conclusão do projeto com sucesso e dentro do prazo estipulado. Neste capítulo são abordadas algumas dificuldades comumente encontradas no desenvolvimento de um DW. Em seguida é apresentada a arquitetura proposta, suas camadas e seus componentes, os benefícios da sua utilização e a aplicação da metodologia de desenvolvimento baseada em data marts incrementais. 5.2 DIFICULDADES E DESAFIOS NA DEFINIÇÃO DE UMA ARQUITETURA PARA DATA WAREHOUSE 56 No desenvolvimento de qualquer sistema, a arquitetura é extremamente importante, através dela o desenvolvedor encontra uma visão do sistema de diversas perspectivas para melhor entender o projeto. Além disso, Jacobson et al. (1999), apresenta importantes decisões em que a arquitetura de software circunda, como: • a organização do sistema de software; • a estrutura dos elementos e suas interfaces que irão compreender o sistema; • o estilo arquitetural, que direciona a organização, os elementos e suas interfaces, suas colaborações e suas composições. Com isso, se faz necessária a definição de um estilo arquitetural, pois através dele é possível determinar a classe a qual pertence a organização de um sistema. Características de componentes (subsistemas) e conectores do sistema, topologia da arquitetura, restrições semânticas e mecanismos de interação entre os componentes (MENDES, 2002). A criação de um DW se inicia com a definição da arquitetura de DW que será utilizada. Para cada tipo de aplicação em que um DW é implementado, é necessária a escolha de uma arquitetura que supra as necessidades identificadas na análise de requisitos. Para que isto aconteça, muitas vezes o projetista de DW deve fazer um estudo das arquiteturas de DW existentes e escolher a mais adequada ao seu projeto. Em outros casos, é necessária a criação de uma nova arquitetura, adaptando-se uma arquitetura ou mais arquiteturas já existentes. Na definição de uma arquitetura de DW existe a etapa de ETL (Extração Transformação e Carga), e nesta etapa encontra-se uma das grandes dificuldades na criação de um DW, que é a integração eficiente de várias fontes de dados distintas. A integração de independentes, mas semânticas bases de dados relacionais, foi um dos tópicos mais pesquisados nos últimos 15 anos. “Muitos dos trabalhos desenvolvidos tiveram foco em técnicas para permitir projetistas a identificar e resolver conflitos estruturais e semânticos entre objetos de metadados e itens de dados localizados nas bases de dados locais e nos sistemas de múltiplas bases de dados” (GERTZ & SCHMITT, 1998). Ao longo dos últimos anos muitas ferramentas para ajudar na integração de dados foram criadas, principalmente ferramentas de DW, como por exemplo, as ferramentas de DW da IBM (DB2 UDB, 2003), Oracle (OWB, 2003) e Microsoft (SQL Server, 2003) e muitas outras que atuam na camada de ETL e auxiliam no processo de integração de dados. Mas em 57 muitos casos são encontrados problemas específicos no desenvolvimento de um DW, como problemas estruturais e semânticos, que são causados principalmente pelo uso de fontes de dados distintas e em formatos diferentes, sendo necessária a criação de um método próprio para a resolução destes problemas. Essa é uma das razões que torna a etapa de ETL, e mais especificamente a de integração de dados, uma das etapas mais problemáticas no desenvolvimento de um DW. Como exemplo de trabalhos voltados para integração de fontes de dados distintas, pode-se citar: Gertz & Sattler (2002), Fan et al. (2001). No trabalho apresentado por Gertz & Sattler (2002), é mostrado um estudo sobre integração de dados baseado em anotações. Tipicamente as fontes de dados a serem integradas oferecem algum tipo de esquema, o qual representa um subconjunto do esquema global. A correspondência entre estruturas de dados existe em um nível semântico somente onde regiões de interesse em documentos podem ser entendidas com instâncias (dados) de esquemas. A integração de documentos e seus dados representam recursos para permitir consultas automáticas ou manuais que determinam as características do documento. Cada característica pode ser representada através de anotações. O artigo de Gertz & Sattler (2002) apresenta um modelo gráfico de anotações, onde cada modelo gráfico representa conceitos, anotações e documentos como nós em um grafo e são conectados pelo tipo de relacionamento. Esse modelo serve como um modelo de integração definindo conexões entre um esquema de metadados global e distribuído e coleções de documentos heterogêneos. O trabalho de Fan et al. (2001) utiliza uma estratégia chamada DIRECT, que, para driblar conflitos semânticos, descobre regras de conversão de dados a partir de dados que estão presentes em múltiplas fontes de dados com redundância. O sistema consiste em dois subsistemas: a preparação de dados e a mineração de regras. A preparação de dados prepara o conjunto de dados e a mineração de dados analisa os dados preparados para gerar candidatos a funções de conversões. Os valores das regras de conversão de dados são então formados utilizando a função de conversão selecionada. A implementação do DIRECT visa aplicações financeiras, e utiliza técnica de medidas lineares, associadas entre variáveis numéricas. 58 Na construção de um DW é muito importante que se consiga trabalhar com várias fontes de dados, que podem ser providas de vários formatos e provenientes de vários lugares, até mesmo da internet. O trabalho de Jensen, Møller & Pedersen (2003) descreve uma aplicação, denominada de construção de esquemas OLAP multidimensional, baseada em fontes de dados da internet. Neste trabalho é fornecido um algoritmo para construção automática de diagramas UML (Unified Modeling Language) a partir de XML (Extensible Markup Language) DTDs (Document Type Description). O algoritmo captura importantes propriedades semânticas dos dados XML como cardinalidade precisa e relacionamento de agregação entre os elementos de dados. No processo de integração de dados, vários tipos de problemas podem ocorrer, sendo que, para alguns desses problemas existem soluções e ferramentas que auxiliam na resolução, enquanto que para outros problemas novas soluções devem ser criadas. A integração de dados é um dos primeiros passos no desenvolvimento do DW, por isso, é muito importante que se verifique os tipos de dados, as estruturas físicas e semânticas dos dados, os tipos de fontes de dados e as co-relações entre os dados. Fazendo isso, é possível verificar a possibilidade de utilizar alguma ferramenta de ETL ou a necessidade de criação de um novo processo de integração a fim de definir a melhor estratégia para integrar os dados de maneira mais rápida, coesa e precisa. Um outro ponto muito importante no desenvolvimento do DW é a arquitetura que será utilizada na sua implementação. É essencial o uso de uma arquitetura que seja flexível o bastante para suportar a integração de várias técnicas em cada uma das etapas do desenvolvimento do DW. Vários trabalhos abordam modelos arquiteturais de DW, como por exemplo, o trabalho de Sell (2001), o qual propõe uma arquitetura modular para ter independência dos componentes no desenvolvimento do DW. Neste trabalho, foi definido um modelo em que a principal preocupação é uma arquitetura que seja flexível o suficiente para integrar fontes de dados distintas e permitir alterações nas fontes ou incorporações de novas fontes se necessário. Neste trabalho são discutidas as principais metodologias utilizadas na criação de um DW e é apresentada uma arquitetura a ser empregada em conjunto com uma metodologia baseada em DW orientado a “processo”, onde o DW é construído de forma incremental e modular através da estruturação de data marts integrados. 59 Uma das vantagens desta arquitetura é que os primeiros resultados são apresentados rapidamente ao usuário, sem perder a visão integrada do negócio, além de permitir uma rápida absorção de novos requisitos, dada a flexibilidade proporcionada pela arquitetura. A arquitetura é dividida em três grandes módulos independentes: extração, armazenamento e apresentação, como pode ser visto na Figura12. Sistema A Bay Ne two rk s Sistema B Sistema C Ba y Net wo rk s Ba y Net wo rk s Área de Armazenamento Módulo Coleta 1 Módulo Coleta 2 Módulo Coleta 3 Data Mart2 Área Comum Área de Estágio Módulo Incorporação Data Mart1 Módulo Transformação Área de Extração Módulo Metadados S D D E F I N I T Y 03 4 Cliente 1 Cliente 2 Cliente 3 Servidor de Aplicação Área de Apresentação Figura 12 -Arquitetura de DW Modular Fonte: (Sell 2001) Uma outra arquitetura é apresentada no trabalho de Widom (1995), mostrada na Figura 13. Nesta arquitetura, as fontes de dados estão na parte abaixo, onde cada uma é conectada ao componente wrapper/monitor. Wrapper é responsável pela tradução da informação da fonte de dados nativa para o formato utilizado pelo DW, enquanto o monitor é o responsável pela detecção automática de mudanças significativas na fonte de dados e informar ao integrator 60 sobre essas mudanças. O integrator é o responsável pela inserção da informação no DW, o que pode incluir alguns filtros de informação, sumarizando ou agrupando informações de várias fontes. Data Integrator Warehouse Wrapper/Monitor Wrapper/Monitor Wrapper/Monitor Inf. Source Inf. Source Inf. Source Figura 13 - Arquitetura Proposta por Windom (1995) O wrapper/monitor pode ter duas funções: tradução da informação da fonte de dados para o modelo que foi definido no DW e detecção de mudanças. Pode-se notar através desses trabalhos que a arquitetura está relacionada diretamente com o objetivo proposto pelo projetista de DW, como: flexibilidade, facilidade de manutenção, facilidade de integração de novas fontes de dados ou outras funcionalidades definidas por ele. Sendo assim, a definição da arquitetura é de suma importância para o desenvolvimento do DW. 5.3 ARQUITETURA PROPOSTA Como foi descrito anteriormente, a área de DW teve um grande aumento no número de trabalhos científicos, mas em sua maioria não possui aplicações práticas, por esse motivo, neste trabalho são propostos uma arquitetura, técnicas e métodos que tentam solucionar problemas comumente encontrados no desenvolvimento de um DW. A arquitetura proposta neste trabalho é uma arquitetura em camadas e tem como principal característica a substituição de fontes de dados de diversos formatos por novas bases de dados analíticas padronizadas, facilitando assim a integração dos dados. A arquitetura é constituída de diversas camadas, como pode ser visto na Figura 14. As flechas grossas representam o 61 carregamento de dados enquanto que as setas finas representam o acesso aos dados. A arquitetura possui cinco camadas, sendo que a camada 2 (ETL) pode ser subdivida em outras duas camadas, dependendo dos tipos de fontes de dados existentes na camada 1. Repositório de Metadados Área de dados Comuns Base de Trabalho1 Data Mart N Base de Trabalho2 Extração, Transformação e Carga Nova Fonte de Dados DW Data Mart 1 Área de Estágio OLAP e Ferramentas de Mineração de Dados Área de Análise Instituições de Educação ETL Grupos de Pesquisas Pesquisadores Fontes de Dados Referência Fontes de Dados em Outros Formatos Fontes de Dados Migração para base de dados referência Figura 14 - Arquitetura Proposta Na arquitetura em camadas, a principal vantagem é a independência das camadas, pois o que acontece na camada antecessora é transparente à camada superior, ou seja, se for necessário alterar ou inserir novos componentes na camada antecessora não haverá problema, desde que, mantenha-se o modo como dados são providos à camada superior. A arquitetura proposta combina tecnologias de DW com tecnologia clássica de base de dados relacional, principalmente na camada Área de Estágio. 62 Na arquitetura proposta, a camada Fonte de Dados armazena todas as fontes de dados que são utilizadas como fornecedores de informações ao DW. A camada ETL é dividida em dois módulos, um módulo de migração e outro de extração, transformação e carga. O módulo de migração transforma dados em diversos formatos para um formato referência, que é o formato escolhido pelo projetista de DW para ser o formato do DW, já o outro módulo, coleta dados relevantes, que são previamente definidos na fase de planejamento e definição dos requisitos, e os armazena na área de estágio, transformados e limpos. Posteriormente, na camada Área de Estágio, os dados são integrados e incorporados aos data marts. As regras de extração, transformação e integração são registradas no repositório de metadados. A partir da análise dos modelos de dados das fontes de origem e de entrevistas com possíveis usuários do sistema, foi definido o modelo de dados dos data marts, de acordo com a modelagem dimensional estrela. Esta modelagem foi escolhida por estar consolidada no ambiente de DW e pelo fato de muitas das ferramentas OLAP e de mineração de dados necessitarem que os dados estejam neste formato. Posteriormente foi definido o modelo de dados do DW. O DW foi construído seguindo a metodologia de data marts incrementais, e a implementação BUS, para que haja uma padronização e uma melhor integração. O DW incremental tem por característica o fato de que, conforme novas necessidades surjam, novos datas marts podem ser implementados ou os existentes podem ser alterados para satisfazer essas novas necessidades. Para que o DW incremental funcione corretamente, é necessário que a arquitetura e a metodologia escolhidas sejam flexíveis o suficiente para permitir essas alterações. Para a definição das regras de integração de dados, foi utilizada a matriz de identificação de interseções entre os data marts, definida na abordagem de implementação BUS, assim as tabelas de fatos e dimensões foram previamente estruturadas de modo a manter integração entre os data marts. Caso haja sobreposição de dimensões nos data marts, é criada uma área comum, como pode ser visto na camada de DW da Figura 14, reduzindo a replicação de dados entre os data marts. As camadas ETL, Área de Estágio e DW foram projetadas e implementadas utilizando recursos, como gatilhos e stored procedures, do SGBD Oracle (Oracle9i, 2002) além de 63 ferramentas como o ERWin (Computer Associates, 2003) para modelagem de dados, Rational Rose (Jacobson et al., 1999) para o projeto das camadas e o Delphi (Delphi 7.0, 2003) para criação do módulo de migração da camada ETL. Cada uma das camadas que fazem parte da arquitetura da Figura 14 é detalhada nas seções seguintes. 5.3.1 Camada Fonte de Dados Em qualquer ambiente de DW é necessário que os dados sejam extraídos de alguma fonte de dados, pois o DW não é um banco de dados convencional, e sim uma base de dados não volátil e, por isso, é um repositório de dados que tem como característica armazenar dados de diversas fontes integrando-os. Na arquitetura proposta só existem dois tipos de dados de origem, que poderão estar em dois tipos de formatos: • formato referência; • formatos distintos. Na arquitetura proposta, o formato referência é escolhido pelo projetista de DW de acordo com o formato em que os dados serão armazenados no DW. Dados que estão em qualquer outro tipo de banco ou em outros formatos (arquivos, planilhas eletrônicas, texto, etc), são migrados na camada de ETL para o modelo normalizado no formato referência. 5.3.2 Camada ETL Esta camada é onde ocorre a extração dos dados das fontes de origem e os armazena na área de estágio. Nesta camada encontram-se os maiores problemas no desenvolvimento de um DW. De acordo com Shilakes & Tylman (1998), estima-se que mais que 1/3 do custo de um DW são gastos com tarefas de ETL e problemas com extração, transformação e limpeza, podem tomar 80% do tempo gasto no desenvolvimento de um DW (MILLET, PARENTE, FIZEL, 2002). 64 Esta camada é composta por dois módulos, o módulo de migração e o módulo de extração transformação e carga. As funções da camada ETL na arquitetura proposta são realizadas através da colaboração entre esses módulos de maneira independente. Cada módulo é uma unidade de programa com um comportamento determinado por parâmetros. A principal vantagem da utilização de módulos é o isolamento das atividades de extração em processos distintos e bem definidos, o que facilita as manutenções que se façam necessárias e a perfeita adaptação e aproveitamento das características de cada ambiente. O primeiro módulo, o módulo de migração, faz a verificação do tipo de formato dos dados de origem. Se os dados não estiverem em um formato referência, a fonte de dados passará por um processo de migração de dados, integrando e transformando no formato referência, como é mostrado na Figura 15. Passo 2 Modelo de Dados Lógico no Formato Referência Migração do Modelo de Dados Lógico para o Formato Referência Passo 1 ou Bases de Dados em formatos Distintos Criação do Modelo Físico de dados no Formato Referência Criação do Modelo Lógico de dados no Formato Referência Passo 1 Base de Dados Física no Formato Referência Migração dos dados Para o Formato Referência Outros Tipos de Arquivos Passo 3 Fontes de Origens Figura 15 – Módulo de Migração da Camada ETL O primeiro passo neste módulo é verificar se a fonte de dados de origem é uma base de dados no formato referência. Se a base de origem estiver no formato referência, os dados já estão preparados para o próximo módulo, senão os dados serão migrados. Após esta verificação inicial é verificado se os dados são uma base de dados ou se são algum outro tipo de arquivo, como por exemplo, arquivos texto. Após essa verificação é gerado um modelo lógico da fonte 65 de dados referência a partir dos dados das fontes de dados de origem. Estando o modelo lógico pronto, o modelo físico no formato referência é gerado e a base de dados é criada. Com a base de dados no formato referência criada, são então gerados os procedimentos de migração de dados, que podem ser feitos manualmente ou com auxílio de ferramentas de ETL. Esta etapa exige muito cuidado, pois deve-se tratar todos os problemas que possam vir a ocorrer na migração devido a não equivalência de muitos aspectos entre as bases de dados, ou mesmo entre arquivos e bases de dados, como por exemplo: problemas com chaves, transformações de tipos de dados, problemas de acentuação. Este processo de migração facilita a manipulação e a consistência dos dados e auxilia na integração de fontes distintas de dados. O módulo de extração, transformação e carga tem como funções a extração, limpeza e integração dos dados na área de estágio. Neste módulo, os dados das bases de origens já migrados são extraídos, seguindo um planejamento prévio, de acordo com o que foi definido na fase de análise de requisitos e seguindo a modelagem feita previamente. Apenas dados que serão utilizados no DW são extraídos. Após essa extração inicial, os dados passam por procedimentos onde são tratados de acordo com a modelagem feita na área de estágio. Os dados são primeiramente limpos, em seguida, podem sofrer transformações e serem integrados a dados de diferentes fontes de dados e, por fim são incorporados na área de estágio. A camada ETL proposta tem como objetivo facilitar a integração de dados de diversas fontes, fazendo com que os dados mantenham a consistência, além de facilitar a manutenção e inserção de novas fontes de dados. 5.3.3 Camada Área de Estágio A área de estágio é um passo intermediário entre os dados de origem e os dados no DW. É na área de estágio que os dados sofrem as primeiras limpezas, transformações e integrações. 66 Em qualquer DW no qual informações existam em múltiplos sistemas não integrados, essas informações precisam ser consolidadas em um único ponto de gravação. O desafio é identificar a melhor fonte, padronizar códigos e formatos, tratar dados irregulares e identificar qualidade de dados. Segundo Dumoulin (2000), a área de estágio de dados simplifica grandes projetos de DW e facilita a etapa de manutenção do DW. A partir do projeto lógico da área de estágio, modeladores de dados têm uma boa idéia dos atributos e fontes necessários para povoar o DW. A área de estágio de dados serve como uma linha divisória entre os sistemas fontes e o DW, devendo conter apenas informações necessárias para povoar o warehouse. A área de estágio tem uma grande interação com a camada ETL, pois todas as ferramentas e procedimentos da camada ETL devem ter como parâmetros os atributos definidos nas bases de dados da área de estágio, sendo que a área de estágio junto com a camada ETL engloba todas as bases de dados e ferramentas que são necessárias para transformar, integrar, carregar, controlar a qualidade e limpar os dados (TOMBROS & HÄBERLI, 2001). A partir das fontes de origem até os dados nos formatados na área de estágio os seguintes passos devem ser executados: 1. Separação dos dados por granularidade. Isto se faz necessário, pois os sistemas de origens em muitos casos incluem dados em diferentes níveis de detalhes. 2. Limpeza dos valores de atributos. Neste passo são tratadas as seguintes situações, entre outras: valores descritivos inconsistentes, decodificações ausentes, códigos inválidos, dados inválidos e dados ausentes. 3. Transformação dos dados. Essas transformações incluem: cálculo aritmético, conversões de tempo, tratamento de valores nulos, conversões de tipo de dados e unidades monetárias. 4. Troca das chaves operacionais por chaves substitutas. Neste passo as chaves são trocadas para facilitar a normalização dos dados. 5. Garantia da qualidade dos dados. Este último passo verifica a consistência dos dados, e de valores contidos nas tabelas. A utilização desses passos traz como benefícios dados de qualidade, padronizados e consistentes, facilitando assim a integração e a carga de dados no DW. 67 A área de estágio, definida neste trabalho, utiliza um modelo de dados normalizado para permitir uma maior consistência dos dados e facilitar o processo de integração entre bases de dados distintas, mas permite a utilização de relacionamentos não normalizados entre tabelas que se transformarão em dimensões e mini-dimensões dessas tabelas. Decisões como determinar se um dado é um atributo de uma dimensão ou deve-se criar uma mini-dimensão para aquele atributo, quais relacionamentos são normalizados e quais não são, devem ser tomadas pelo projetista, pois essas decisões podem facilitar a integração e a consistência dos dados, como pode prejudicar todo o projeto. 5.3.4 Camada Data Warehouse Nesta camada é onde se encontra o DW, que é a área de armazenamento dos dados e segue o modelo proposto por Kimball et al. (1998), utilizando-se da implementação BUS, a qual é baseada em modelos dimensionais mantidos em diversos data marts, contendo tabelas de dimensões e de fatos previamente estruturadas para manter a integração entre os dados dos diversos data marts. A modelagem dimensional é usada porque existem, segundo Song et al. (2001), duas principais vantagens na utilização de modelos dimensionais em ambientes de DW. Primeira, um modelo dimensional fornece uma análise espacial multidimensional em ambientes de base de dados relacionais, onde são analisados dados factuais através das dimensões. Segunda, um típico modelo dimensional desnormalizado tem um esquema de estrutura simples, o qual simplifica o processamento de consulta de usuários finais elevando o desempenho. Para manter a integração entre os data marts, a arquitetura vale-se da estruturação dos data marts seguindo a idéia da arquitetura BUS proposta por Kimball et al. (1998), onde, após um levantamento dos requisitos e das fontes de dados, é elaborada uma matriz para identificação das interseções dos data marts. Deste modo, a definição do modelo de dados segue os seguintes passos: 1. listar os data marts; 2. listar as dimensões de cada data mart; 3. marcar as interseções entre os data marts. 68 No primeiro passo é feito o levantamento dos data marts que estejam em uma única fonte de dados inicialmente. Provavelmente, após este levantamento inicial, seja possível reunir data marts de fontes distintas em um só. No passo 2 são então listadas as dimensões para os data marts criados no passo 1, e são marcadas as intersecções entre os data marts e suas dimensões e, no passo 3, montada a matriz de barramento, como mostrado na Figura 16. A partir da matriz de barramento pronta, deve ser definido o data mart a ser construído. Deve ser considerado para a escolha um data mart que represente um negócio de impacto para a corporação ou instituição. Na seqüência, deve ser declarada a granularidade da tabela de fatos do data mart e verificadas quais dimensões estão relacionadas à tabela de fatos. E por fim, são definidos os fatos que compõem a tabela de fatos. Figura 16 - Matriz de Barramento Seguindo este modelo de implementação, existe a possibilidade de haver sobreposição de fatos entre as tabelas de fatos dos data marts, além de replicação de dimensões. Para resolver este problema, a arquitetura BUS propõe o uso de uma área comum de dados, na qual constam as dimensões e os fatos que são utilizados por vários data marts, além de agregados que integram e sumarizam dados utilizados em conjunto, desde que haja viabilidade técnica. Na camada DW da Figura 14 é ilustrada a área de armazenamento proposta pela arquitetura. 69 Com a definição da área comum, são reduzidas de forma considerável as replicações de dados entre os data marts, fazendo que haja um ganho em desempenho e consistência no processo de incorporação. Na camada DW é onde os dados são armazenados para acesso das ferramentas de consulta e mineração de dados, por isso é de suma importância uma ênfase especial no desenvolvimento de sistemas de controle de qualidade de dados e utilização de ferramentas que auxiliem a correção de erros. Além da qualidade dos dados, também é muito importante que se tenha um acesso rápido a esses dados, e que estes estejam atualizados de acordo com o definido no projeto. Essas bases de dados contêm dados no nível mais baixo de granularidade e alguns dados levemente sumarizados. Utilizando esse método de implementação tem-se a implementação de data marts incrementais, conseguindo-se resultados rapidamente, além de conseguir uma visão corporativa muito abrangente. 5.3.5 Camada Área de Análise Na área de análise figuram os componentes responsáveis pela busca de dados no DW, como ferramentas OLAP, mineração de dados e visões materializadas, sendo que estes disponibilizarão informações aos usuários. Para qualquer tipo de componente que seja utilizado, é necessária uma preparação especial dos dados no uso das ferramentas, além de ser necessária uma grande interação com o metadados. Apesar de não fazer parte deste trabalho a definição de um modelo específico para área de análise, são descritas abaixo algumas características de componentes que podem ser inseridos dentro dessa camada, como ferramentas OLAP e de mineração de dados. As ferramentas OLAP permitem análise e gerenciamento, proporcionando um grande ganho de desempenho como rápido acesso a uma grande variedade de visões de dados organizados 70 através da base de dados multidimensional. Mas essas ferramentas em geral necessitam que os dados estejam em formatos pré-definidos. As ferramentas de mineração de dados em geral são mais complexas do que as ferramentas OLAP. A complexidade dessas ferramentas está relacionada com a complexidade dos algoritmos que implementam as técnicas de mineração de dados, que são baseadas em aprendizagem de máquina, inteligência artificial e métodos estatísticos. O principal objetivo dessas ferramentas é buscar conhecimentos ocultos e relevantes dentro do banco de dados. As ferramentas de mineração de dados necessitam que os dados sejam preparados em um formato específico para que possam ser utilizados, o que pode tomar um grande tempo. Uma solução mais simples do que o uso de técnicas de mineração de dados é a disponibilização dos dados aos usuários através de visões materializadas. A materialização de dados multidimensionais em grandes repositórios de dados facilita rápida análise de dados on-line. Nesta área existem muitos estudos desenvolvendo métodos para geração de consultas e manutenção de cubos de dados. Agrawal et. al. (1997) desenvolveu vários algoritmos para computar coleções de agregações relatadas em cubo de dados. Ross & Srivastava (1997) propôs um algoritmo para computação rápida de cubo de dados sobre relações em cubo de dados esparsas. Uma vantagem da utilização de visões materializadas é que, embora consultas OLAP ocupem pouca saída, o volume de processamento em geral é muito alto. Por exemplo: “Ache o total de volume de vendas dos 10 últimos anos”. O processamento desta consulta pode levar horas “varrendo” grandes tabelas e agregações, enquanto o resultado será apenas 8-bytes, que é um valor que pode ser facilmente armazenado para uso futuro. Uma desvantagem da utilização de visões materializadas é o grande espaço em disco que é necessário para armazenar as consultas. Uma alternativa para esse problema é o uso de um disco exclusivo para o gerenciamento de dados materializados, sendo que este módulo fica totalmente separado do DW, tendo um acesso independente e não prejudicando o desempenho do DW (KOTIDIS & ROUSSOPOULOS, 1999). 71 5.3.6 Metadados No metadados residem informações variadas que são utilizadas e alimentadas por vários componentes da arquitetura. As informações contidas neste repositório são essenciais para o pleno funcionamento dos componentes e para a sua manutenção. A estruturação dos dados reunidos no repositório de metadados é feita através de regras definidas na camada ETL e por modelos de dados e tabelas descritivas da camada DW. As regras para a camada de ETL devem ser definidas e dividas em três partes: • regras para a extração: define a origem dos dados e o local de armazenamento na área de estágio; • transformação: define o código responsável pela limpeza, integração e transformação, entre outros, dos dados existentes na área de estágio; • incorporação: define a origem dos dados da área de estágio e as tabelas dos data marts destino. O metadados do DW deve armazenar as seguintes características: • dados relativos ao projeto lógico, tais como, modelo de dados dos data marts, da área de controle e dos agregados, bem como histórico de incorporações e manutenções no modelo, principalmente as que dizem respeito à criação de agregados, como motivo e resultados obtidos; • dados relativos ao projeto físico, tais como esquema de particionamento, índices e outros; • dados relativos à manutenção, tais como, procedimento de backup, restauração e outros. Na área de análise, os metadados devem guardar informações para possibilitar o acesso das ferramentas de análise, e devendo ser armazenados os seguintes dados: • dados relativos aos usuários, tais como, detalhes de um valor calculado, dados disponíveis e última carga, entre outros; 72 • os dados mantidos para utilização do re-direcionamento das consultas, tais como, hierarquia nas dimensões, conteúdo das tabelas, tempo de resposta, número de registros, descrição dos agregados existentes, entre outros. 5.4 CONSIDERAÇÕES FINAIS Um dos principais pontos na implementação de um DW é a escolha da metodologia de desenvolvimento e a definição da sua arquitetura, pois estes pontos são cruciais para o sucesso do projeto, afetando diretamente variáveis como prazo, custo, satisfação do usuário e requisitos de recursos. A arquitetura apresentada neste capítulo utiliza a implementação BUS em conjunto com a metodologia de data marts incrementais. Cada camada da arquitetura foi projetada de modo a ser independente, facilitando cada uma das etapas da construção do DW. Os principais diferenciais da arquitetura, segundo os seus componentes são: • o processo de extração dos dados dos sistemas operacionais é baseado na padronização dos dados, onde todos os dados devem estar em um mesmo formato para iniciar a limpeza, transformações e integração na área de estágio, facilitando a integração de dados de diferentes fontes de dados, que é um dos maiores problemas no desenvolvimento de um DW; • a área de estágio utiliza a modelagem normalizada em conjunto com a modelagem usada em modelos dimensionais, o que facilita a integração dos dados da área de estágio para o DW; • na camada DW, além dos data marts, existe uma área comum onde residem as tabelas de dimensões comuns aos data marts, além dos agregados, o que facilita o processo de extração e a gerência do metadados; • na área de análise, existe a possibilidade de uso de ferramentas, ou seja, não é determinado nenhum modelo específico para essa área, podendo ser adaptadas novas ferramentas para ser fazer a análise dos dados. 73 O DW construído será utilizado no projeto Intersul, portanto, espera-se que a construção de um DW com dados regionais de C&T ajudará na tomada de decisões nesta área é melhorará a utilização de recursos destinados à C&T. 74 6 CONSTRUÇÃO DO DW PARA GESTÃO EM C&T 6.1 INTRODUÇÃO Em estudos feitos sobre o ambiente de ciência e tecnologia no Brasil verificou-se que 78% dos grupos de pesquisas no Brasil encontram-se no estado de São Paulo (GUIMARÃES, 1995), e que as pesquisas estão totalmente concentradas em universidades, e apenas em torno de 11% exercem suas atividades em centros de pesquisas de empresas privadas (MCT, 2000), enquanto que em países desenvolvidos esse número é de 50%, podendo chegar a mais de 70% no caso do Japão (ARRUDA, 1994). Além da má distribuição dos grupos de pesquisas e das áreas de investimentos, o Brasil ainda enfrenta problemas de verbas insuficientes na área de C&T, causando inúmeras dificuldades como falta de equipamentos e perda de profissionais para universidades e empresas do exterior. O projeto Intersul vem para tentar solucionar muitos desses problemas, e este trabalho se enquadra dentro do projeto Intersul, o qual a arquitetura é mostrada na Figura 17. Pós-Graduação Professores Bolsistas CAPES CNPq Grupos de Pesquisa Data Warehouse Mineração de Dados Site do Intersul INTERSUL Base Integrada Fundações Estaduais da região Sul • Planejamento • Administração • Avaliação • Projetos • Análises Universidades Institutos Centros do Sul Figura 17 - A Arquitetura do Sistema Intersul 75 Neste capítulo é apresentado como a arquitetura discutida no capítulo anterior foi aplicada com sucesso na construção de um DW para gestão em C&T, de forma a poder ajudar no processo decisório. 6.2 ABORDAGEM DO PROBLEMA Na tentativa de buscar soluções para os problemas apresentados neste trabalho, foi proposto o projeto Intersul, que tem como objetivo desenvolver um sistema informatizado de gestão de C&T, atendendo profissionais ligados a esta área. Esse sistema deverá contribuir para o aumento da produtividade e efetividade dos investimentos em C&T na região Sul. O projeto Intersul se concentra nas funcionalidades de planejamento, por considerar o componente planejamento fundamental para que os recursos sejam gastos da melhor forma possível. A construção do DW para gestão em C&T faz parte desse projeto, sendo o DW necessário na aplicação de ferramentas de mineração de dados que darão suporte à tomada de decisão. 6.3 ARQUITETURA DO SISTEMA A arquitetura do sistema de DW para gestão em C&T foi definida segundo o modelo apresentado no capítulo anterior. Desta forma, o sistema foi concebido a partir de camadas, conforme ilustra a Figura 18, cada qual construída de maneira independente para permitir mudanças internas em cada uma das camadas sem causar impacto sobre toda a estrutura. O ambiente de DW possui uma camada onde são armazenadas as bases de dados relativas a C&T, uma camada onde estas bases são extraídas para a área de estágio, uma camada de DW que é onde os dados ficam armazenados e uma camada de análise onde existem ferramentas de acesso aos dados do DW. 76 Área de dados Comuns Base de Trabalho1 Data Mart 2 Base de Trabalho2 Extração, Transformação e Carga ETL Repositório de Metadados Data Mart 1 DW OLAP e Ferramentas de Mineração de Dados Área de Análise Instituições de Educação Área de Estágio Grupos de Pesquisas Pesquisadores Fontes de Dados Migração da base Sybase para Base de Dados Oracle Figura 18 - Arquitetura Geral do Sistema A construção do DW foi realizada seguindo as etapas que são descritas na seqüência. 6.3.1 Definição das Fontes de Dados Na etapa de definição da camada Fonte de Dados foram estudadas algumas das possíveis fontes de dados de origem, a base de dados Lattes e a base do sistema coleta da CAPES. A base de dados Lattes contém dados sempre atualizados, através do currículo Lattes, sobre os pesquisadores brasileiros e a base da Coleta CAPES é uma base que contém dados sobre os programas de pós-graduação do Brasil. 77 Os dados da Plataforma Lattes, utilizados nesta pesquisa, foram obtidos junto ao Grupo Stela2 que possui acordo com o CNPq para utilização restrita à pesquisas e com controle de privacidade das informações. A plataforma Lattes continha dados na sua maioria dos anos de 1997 até 1999. Os dados da plataforma de Coleta Capes estavam no formato Sysbase e para cada instituição existia uma base de dados distinta e não existia as bases de algumas instituições, como a própria UEM. Os dados da base de dados do Coleta Capes são até o ano de 1998. Foram analisados os modelos de dados, os dicionários de dados, o conteúdo de cada tabela e atributos, seus tipos de dados e as possibilidades de integração. Tendo, dessa forma uma grande idéia de quão útil essas fontes de dados podem ser, quanto elas poderão gerar de respostas depois de transformadas e quão difícil será esse processo. 6.3.2 Construção do Sistema A construção de um sistema de DW se dá, inicialmente, através da análise dos requisitos, sendo levantados os principais requisitos que o sistema deve ser capaz de responder, a partir de então são levantadas as medidas necessárias para respondê-los. Com base nas conclusões tiradas a partir de possíveis usuários do sistema, junto com uma compreensão dos principais sistemas de origem, foi feito o esboço de uma matriz de barramento de DW com os principais processos de negócio sendo expressos em linhas e as principais dimensões em colunas. A partir desse momento, cada uma das colunas e dimensões começaram a ser detalhadas. Os processos de negócio dão origem aos data marts e novas dimensões começam a ser criadas para cada um dos data marts. Neste ponto, a granularidade já deve ser decidida, para que seja gerada a matriz de barramento final do projeto. 2 O Grupo Stela consiste no Laboratório de Desenvolvimento de Sistemas de Informações e de Inteligência Artificial do Programa de Pós-Graduação em Engenharia de Produção da Universidade Federal de Santa Catarina. Desde 1997 o Grupo Stela é o responsável pelo desenvolvimento da Plataforma Lattes do CNPq. 78 Após todos estes passos, foi criada a matriz de barramento, como mostrada na Figura 19, fazendo a intersecção entre os data marts e suas dimensões. Durante esta fase foi desenvolvido um conjunto mestre de fatos e dimensões padronizados que possui uma interpretação uniforme, o que estabelece a estrutura da arquitetura de dados. A criação da matriz de barramento do DW é de fundamental importância para o desenvolvimento do DW, por ser essa matriz um dos produtos genéricos preliminares mais importantes de uma implementação de DW. É um recurso híbrido que faz parte da ferramenta de projeto técnico, da ferramenta de gerenciamento de projeto e da ferramenta de comunicação. Figura 19 - Matriz de Barramento do DW 6.3.3 Implementação dos Módulos da Camada ETL Na camada ETL foram implementados todos os módulos de extração, transformação, limpeza e integração dos dados necessários para a camada Área de Estágio. Após o estudo das fontes de dados, a criação da matriz de barramento e a definição dos modelos lógicos da área de estágio, foi verificada a necessidade de se fazer a migração da base de dados do sistema coleta CAPES que está em Sybase para o SGBD Oracle 9i, que foi definido como o formato referência para este projeto. Inicialmente foi feita a conversão do modelo de dados, seguindo o processo mostrado na Figura 20. Para tanto foi utilizada a ferramenta CASE ErWin que possibilitou a geração de 79 um modelo lógico da base de dados Sybase. A partir do modelo lógico gerado, foi criado um modelo físico em Oracle e feita a geração do esquema, criando assim a base de dados correspondente em Oracle. TRANSFORMAÇÃO DO MODELO DE DADOS SYBASE PARA ORACLE Gerar Modelo Lógico Base Sybase Modelo Físico em Oracle Módulo de Migração e Integração dos Dados Modelo Lógico Gerar Modelo Físico em Oracle Base Oracle Figura 20 -Esquema de Criação do Modelo em Oracle Após ser criada a base de dados da coleta CAPES correspondente em Oracle, foi necessário migrar os dados do SGBD Sybase para Oracle, que corresponde a parte em cinza escuro da Figura 20. Após ser realizado um estudo, foi decidido que a melhor solução para fazer essa migração e resolver os conflitos estruturais e semânticos seria a construção de uma ferramenta em Delphi 7.0. A ferramenta de migração foi construída em Delphi 7.0 porque além de migrar os dados foi necessário integrá-los, pois para cada instituição havia uma base de dados distinta. Sendo assim, a ferramenta foi projetada para migrar e integrar os dados de diferentes instituições, tratando dados replicados, problemas com chaves e problemas com a acentuação dos dados que ocorreram. A tela do sistema construído é mostrada na Figura 21. 80 Figura 21 – Tela do Sistema de Migração de Dados Além do módulo de migração de base de dados para Oracle, a camada ETL possui outro módulo que tem a função de extrair, limpar, transformar e integrar os dados na área de estágio. Neste módulo é feita a extração dos dados que serão utilizados na área de estágio de acordo com o modelo de dados da área de estágio. Após os dados serem extraídos, eles são limpos e adequados ao modelo de dados da área de estágio. Todo esse módulo foi implementado através de stored-procedures construídas com a linguagem PL-SQL da Oracle, solução que se mostrou bastante eficiente em termos de desempenho e flexibilidade. O Apêndice A possui uma tela com stored-procedures criadas no projeto. Todos os passos nesta camada são documentados nos metadados, mantidos através de planilhas, as quais são armazenadas informações dos dados, como: • campos de origem; • mapeamento dos atributos; • conversão de atributos; • características físicas de conversões; • troca de nomes; • troca de chaves; • descrições sobre os campos. 81 6.3.4 Modelagem da Área de Estágio A área de estágio é o local onde serão armazenados os dados coletados e posteriormente transformados. Ela foi construída sobre o banco de dados Oracle 9i, devido à robustez deste gerenciador de banco de dados. O metadados da área de estágio é constituído pela documentação completa do modelo, mantida através da ferramenta CASE Er-Win, além das informações adicionais contidas no metadados da camada ETL. A modelagem da área de estágio foi feita utilizando o modelo de dados relacional normalizado em conjunto com técnicas da modelagem dimensional, evitando assim redundância dos dados e facilitando a conversão dos dados para o DW. As tabelas foram modeladas de acordo com a matriz de barramento, sendo que os atributos das tabelas são baseados nas dimensões definidas. Na Figura 22 é mostrada uma parte do modelo da área de estágio proposta para essa arquitetura, os modelos de dados completos são mostrados no Apêndice B. O objetivo principal desse modelo é facilitar a integração de diferentes fontes, mantendo a consistência dos dados. Figura 22 - Modelo Parcial e Simplificado da Área de Estágio Este modelo é dividido basicamente em três partes. As tabelas claras na Figura 22 representam tabelas que posteriormente serão transformadas em dimensões ou tabelas de fatos 82 no DW. As tabelas em cinza claro representam as mini-dimensões, que são explicadas na seção seguinte, e as tabelas cinza em escuro representam o relacionamento entre as tabelas e suas mini-dimensões. Os relacionamentos entre as tabelas e as suas mini-dimensões podem ser de dois tipos: relacionamentos n para n normalizado ou relacionamentos pontes, que são utilizados em modelos não normalizados, como o modelo estrela. A utilização de relacionamentos pontes facilita a inserção desses dados no DW, já que eles devem estar nesse formato no DW. Na Figura 22 o modelo está normalizado, mas também possui em alguns relacionamentos uma modelagem normalmente usada em modelos dimensionais. Essa modelagem é baseada no proposto por Kimball et al. (1998), no qual para tabelas que possuem campos multivalorados é criada uma mini-dimensão para suportar os vários valores do campo. Para relacionar essa mini-dimensão com a tabela da qual foi derivada, é criada uma tabela ponte, onde é definido um grupo de valores para cada indivíduo que possui vários campos na minidimensão. A área de estágio também é responsável pela incorporação em cada DM dos dados transformados existentes na área de estágio. O módulo de incorporação implementado vale-se das regras existentes no metadados, as quais foram implementadas também na linguagem PLSQL da Oracle. 6.3.5 Definição da Camada DW O repositório de dados é parte principal do ambiente de DW. A arquitetura é toda projetada afim de que os dados sejam inseridos e consultados nesse repositório. Nele estão representados todos os dados extraídos dos sistemas operacionais, necessários para o processo de tomada de decisão. A construção do DW se deu de forma incremental, seguindo a implementação BUS e a metodologia de data marts incrementais. Desta forma, a construção do modelo de dados do sistema seguiu os seguintes passos: • levantamento dos data marts; • definição básica da granularidade das tabelas de fatos; 83 • levantamento das dimensões de todo o modelo; • padronização das dimensões de acordo com o método da matriz; • definição lógica e física de data mart e ajustes no processo de extração, de forma incremental. A granularidade escolhida foi o nível mais atômico possível, que é uma linha de fato por pesquisador. Com essa granularidade é possível detalhar as informações de pesquisadores, grupos de pesquisa, instituições, cidades, regiões, países, áreas de conhecimento e qualquer outra medição que se desejar realizar. O processo de modelagem utilizado nesta arquitetura é baseado no processo clássico de modelagem de banco de dados que distingue os modelos conceituais, lógico e físico estendido pelo modelo de implementação proposto por Kimball et al. (1998). De acordo com esta abordagem, antes de começar a modelagem de dados é necessário identificar todos os possíveis data marts e dimensões que serão utilizados no DW. Isto é feito através da matriz de barramento, sendo que as colunas da matriz representam as dimensões comuns usadas nos diversos data marts. Desta forma, as dimensões são modeladas com dados que possam ser utilizados por todos data marts que foram identificados na matriz de barramento. O DW foi projetado de acordo com a modelagem dimensional estrela. Esta modelagem foi escolhida pelas vantagens já apresentadas e porque a utilização de modelos dimensionais é amplamente aceito como uma técnica viável para a entrega de dados para o usuário final em um DW (KIMBAL et al., 1998; MEYERE & CANNON, 1998; AXEL & SONG, 1997; DINTER et al., 1998). No entanto, o esquema estrela não aceita relacionamentos muitos-para-muitos, mas este tipo de relacionamento foi apresentado na área de estágio e deve, assim, ser transformado em relacionamentos muitos-para-muitos entre fatos e dimensões no DW. Segundo Song et al. (2001), este tipo de relacionamento em um modelo dimensional causa vários problemas como a perda da simplicidade da estrutura do modelo estrela, aumentando a complexidade na construção de consultas e piorando o desempenho pela adição de junções. Neste caso, é desejável a representação de relacionamentos muitos-para-muitos com uma semântica correta enquanto ainda é sustentada a estrutura do modelo estrela. Existem diversos 84 trabalhos para resolver este problema, como: (KRIPPENDORF & SONG, 1997; THEODORATOS & SELLIS, 1998; LEHNER; ALBRECHT; WEDEKIND, 1998; PEDERSEN & JENSEN, 1999; MOODY & KORTINK, 2000; KIMBAL et al., 1998). A Tabela 2 apresenta resumidamente um comparativo entre as soluções propostas para fazer relacionamentos muitos-para-muitos em uma modelagem dimensional. Dentre essas soluções, a escolhida foi a de Kimball et al. (1998), por ser uma solução limpa e fácil, sendo ideal para problemas que não tenham um grande número de relacionamentos (SONG et al.,, 2001), o que se enquadra em nosso projeto. 85 Tabela 2 – Resumo dos Métodos: Fonte (Song et al., 2001) Nome Redundância Armazenamento Recomendações Leve Ideal para dimensões sem limites superior no lado muitos e o PF pode ser facilmente calculado ou não é necessário Adicionando novos diagnósticos necessita recalcular a FP 96.1 MB Uma solução limpa Não pode segurar um Fator de Ponderação Requer muitos comandos OR, Processamento de resposta lento Tabela de dimensões lista todas as combinações possíveis, pode ser extremamente grande Pode utilizar uma flag de diagnóstico preliminar Esquema de índice de bitmap pode aumentar a velocidade de processamento da consulta. 10.1 TB ( para 40 diagnosticos) Fator de Ponderação (FP) Consultas Necessário Método A Tabelas Pontes de Kimball Método B Tabela Dimensional Desnormalizada com atributos de Posições-Flag Método C Tabela Dimensional Desnormalizada com atributos não-posicionais & campos concatenados Método C-1 Um-para-Um Método C-2 Um-para-Muitos Método D Tabela de Fatos de baixa granularidade para ajustar o nível dos items Método E Baixa granulardiade e fatos dividido em duas tabelas A atribuição de FP pode ser incomoda Junções adicionais aumentam o tempo da consulta Por causa do requerer muito armazenamento, somente aplicações onde o número de atributos de posições é muito pequeno (menos que 10) e fixo Pode manter a estrutura do esquema estrela para facilitar a compreensão e formar consultas Depende do relacionamento entre tabela de Fatos e Dimensões Uso de atributos concatenados e clausulas LIKE Pode criar um Fator de Ponderação concatenado, mas incomodo O comando LIKE incapacita a indexação Pode usar flags e índices de bitmaps para as flags Pode ser muito grande Veja C-1 e C-2 abaixo Cria muitos valores nulos Pode ser muito grande Use somente quando a dimensão padrão aparecer na tabela de fatos 1-2 vezes 219MB O comando LIKE incapacita a indexação Menos redundância que o método C-1 Pode usar flags e índices de bitmaps para as flags 72.6 MB Não Necessita de um PF View é uma única tabela Pode causar redundância para outras FK´s na tabela de fatos Pode utilizar uma flag de diagnóstico preliminar Necessita calcular agregações Não pode utilizar um Fator de Ponderação por causa da natureza do Um-para-Muitos Use quando o número de valores da dimensão for pequeno e desempenho da consultas for importante 201.1 MB Consultas rápidas Pode utilizar um PF View é uma única tabela Trata duas tabelas de Fato Consultas rápidas Pode causar redundância para outras FK´s na tabela de fatos Pode utilizar uma flag de diagnóstico preliminar É necessário calcular agregações 196.1 MB Use quando a dimensão padrão aparecer na tabela de fatos muitas vezes Requer uma lógica complexa para encontrar registros existentes antes de inserir um novo código A tabela de fatos pode se tornar muito grande. Use somente para um limitado número de atributos e itens de linha por transação Use quando duas tabelas de fatos podem ser usadas separadamente 86 A Figura 23 apresenta uma parte do modelo de dados do DW, nela é possível visualizar os relacionamentos muitos-para-muitos entre fatos e dimensões e os relacionamentos entre dimensões e mini-dimensões apresentados anteriormente. Na Figura 23 também é possível verificar que mais de um fato utilizam uma mesma dimensão, de acordo com o que foi proposto com o uso da matriz de barramento. Figura 23 - Modelo Parcial e Simplificado do Modelo de Dados do DW proposto Um modelo dimensional simplificado e desnormalizado, que melhora o processamento de consulta de usuários finais e eleva o desempenho, foi obitdo através da utilização da modelagem dimensional estrela em conjunto com técnicas de modelagem entre fatos e dimensões muitos-para-muitos e entre dimensões multivaloradas. Os metadados do DW concentram-se principalmente em detalhes lógicos e físicos. Devido ao uso de um único repositório de dados, onde figuram todos os data marts, foram simplificados a manutenção do SGBD e o gerenciamento dos metadados do processo de incorporação e da área de análise. 87 6.3.6 Desenvolvimento da Camada Análise Através da camada de análise consegue-se disponibilizar informações analíticas que podem auxiliar no processo de tomada de decisões, que é o principal objetivo de um DW. Para alcançar isto, são necessárias ferramentas que auxiliem os usuários a interagirem com o ambiente de DW projetado. Na camada análise são encontradas todas as ferramentas que podem ajudar na análise e no processo de tomada de decisões estratégicas, como ferramentas OLAP e de mineração de dados. Nesta camada foram feitos alguns estudos utilizando diferentes tipos de ferramentas. Alguns testes foram realizados com a ferramenta da Oracle9i OLAP, mas a necessidade de seguir passos muito rígidos através um modelo pré-estabelecido dificultou um pouco a sua utilização. O projeto Intersul foi um fator importante na decisão de qual ferramenta utilizar nessa camada, pois nesse projeto está sendo desenvolvida uma ferramenta de mineração de dados que tem como entrada dados do DW construído. Foram realizados alguns pequenos testes de integração com essa ferramenta e foi apontado um resultado bastante satisfatório, não tendo maiores problemas na sua utilização. A maior parte dos resultados foi obtida através de visões materializadas. A materialização de dados tem muitas vantagens, como facilitar rápidas análises de dados on-line, além de ter uma implementação simples (HAN et al., 2001). Outro fator importante a ser considerado no uso de visões materializadas é o fato de ser possível trabalhar com dados que são mais freqüentemente utilizados. Com as visões pode-se criar uma estratégia para seleção e materialização de visões baseada na freqüência de visões acessadas. Isto permite uma adaptação dinâmica do conjunto de elementos vistos para um padrão de retorno (SMITH et al.,1998). A Figura 24 mostra o esquema de consultas através de visões materializadas neste projeto. Utilizando os metadados e o modelo de dados é feita a seleção dos dados do DW, gerando 88 consultas SQL (Struct Query Language). Os resultados dessas consultas são as visões materializadas, que podem tanto interagir com ferramentas para analisar dados e gerar gráficos quanto serem tratadas e interagirem com ferramentas de mineração de dados. Figura 24 - Esquema de Consulta no DW construído 6.3.7 Definição do Metadados Em todas as etapas da construção do DW foram armazenadas informações no repositório de metadados. A estrutura de metadados desse projeto foi feita através da utilização de planilhas, nas quais foram guardadas informações sobre: • dados das fontes de origem; • dados da área de estágio; • dados do DW 89 • mapeamento dos dados; • conversões físicas dos dados; • procedimentos implementados na camada de ETL; • procedimentos implementados para carga no DW. Além de planilhas, foi também utilizada a ferramenta CASE Er-Win, a qual possibilitou armazenar todos os modelos de dados utilizados no projeto com informações detalhadas, como: volume de dados utilizado e informações lógicas e físicas sobre tabelas, atributos e chaves. A enorme complexidade de se definir um metamodelo foi o principal motivo da utilização de planilhas e da ferramenta CASE Er-Win para a implementação da estrutura de metadados. Isto pode ser verificado através de um estudo feito por Bomfim (2001), o qual aponta que a maioria das instituições públicas que implementaram um DW, ainda não possui uma estrutura de metadados que envolva todo o ambiente de DW. As instituições que implementaram metadados fizeram através de soluções próprias com recursos de HTML, ferramentas OLAP, ferramentas CASE. 6.4 CONSIDERAÇÕES FINAIS A disponibilização de informações que permitam uma análise sobre a situação de C&T no Brasil é de fundamental importância para as instituições de pesquisa, auxiliando as decisões que envolvem distribuição de recursos, acompanhamento da evolução dos diversos tipos de pesquisas, entre outros. Neste contexto o emprego de um DW se mostrou a solução adequada. A partir de bases de dados normalizadas disponibilizadas com informações relacionadas aos pesquisadores, instituições e grupos de pesquisas, pôde-se agrupar os dados de maneira a possibilitar a extração de informações analíticas indispensáveis ao processo de tomada de decisão. A aplicação da arquitetura proposta se mostrou bastante eficiente. Apesar de ocorrer algumas mudanças de requisitos no decorrer do projeto, elas foram assimiladas com facilidade, pois eram absorvidas com ajustes isolados nas camadas, sem afetar o conjunto. 90 Seguindo a filosofia de padronização de fontes de dados de origem, foram migradas as bases de dados em formatos distintos para o formato referência escolhido. Desta forma, a integração de dados foi facilitada pelo tratamento de possíveis inconsistências e replicações de dados. Os dois módulos que compõem a camada ETL são guiados através do metadados de ETL, sendo assim, toda modificação que se faça em qualquer uma das etapas desta camada, seja ela na migração dos dados, coleta, limpeza, transformação ou na integração dos dados na área de estágio é armazenada no metadados. A modelagem utilizada na área de estágio ajudou muito o processo de integração de dados, por reduzir o tempo de implementação, devido ao uso de parte da modelagem utilizada no DW, diminuindo o número de fases entre a área de estágio e o DW. A adoção da implementação BUS em conjunto com a metodologia de data marts incrementais e de uma área comum de dados, se mostrou bastante eficiente. Assim, o DW foi construído de forma incremental, o que torna a visualização de resultados mais rápida. Com a estrutura proposta para a área de análise foi possível a obtenção de vários resultados e a integração com uma ferramenta de mineração de dados, o que facilitou a validação da arquitetura e do DW construído. 91 7 ESTUDOS DE CASO 7.1 INTRODUÇÃO O DW tem como objetivo ser uma base de dados de consulta que possa auxiliar no processo de tomada de decisão. Assim, neste capítulo os resultados de estudos de casos realizados com o DW construído. Nestes estudos, foram feitas consultas sobre propriedade intelectual, titulação, tempo de defesa nos programas de mestrado e número de publicações de livros. 7.2 ESTUDOS DE CASO Através de consultas ao DW foram conseguidos alguns resultados, alguns esperados e outros surpreendentes. Na análise dos resultados, deve ser levado em consideração que as bases de dados de origens estão um pouco defasadas (os dados sobre cursos de pós-graduação são do ano de 1998 e do Lattes são de 1997 a 1999) e contêm apenas dados regionais, não podendo assim refletir a realidade nacional, mas mesmo assim, dá-se uma idéia de como se comporta a pesquisa e os pesquisadores de um modo geral no Brasil. 7.2.1 Estudo Sobre a Propriedade Intelectual O Brasil é um país que tem sofrido alguns problemas por não ter a cultura de fazer patentes e registros. Um exemplo disso é o fato de empresas japonesas patentearam o processo de derivados de cupuaçu. Essas empresas têm cinco patentes de processo de elaboração de produtos com cupuaçu. O processo de fabricação foi desenvolvido pela Emprapa (Empresa Brasileira de Pesquisa Agropecuária), um órgão do governo federal, e anunciado há cerca de três anos, mas não havia sido registrado (INDRIUNAS, 2003). Através do DW, foi constatado que dentre todos os processos e produtos criados pelos pesquisadores a partir do ano de 1990, apenas 0,08% geraram patentes. Apesar de ser esperado que no Brasil se gere poucas patentes, este número é muito baixo. No Brasil, quando a pesquisa é feita em instituições públicas, o pesquisador não tem o incentivo de fazer a 92 patente. Como quase a totalidade da pesquisa no Brasil é feita em instituições públicas, o número de patentes e registros é muito baixo. 7.2.2 Titulação Uma outra pesquisa realizada foi a busca do número de artigos publicados. Como era de se esperar o número de artigos publicados no Brasil vem crescendo nos últimos anos, como pode ser visto no Gráfico 3. 1 20 0 9 19 9 7 19 9 19 9 5 3 19 9 1 19 9 9 19 8 7 19 8 5 19 8 3 19 8 1 19 8 9 19 7 19 7 19 7 7 9.000,00 8.000,00 7.000,00 6.000,00 5.000,00 4.000,00 3.000,00 2.000,00 1.000,00 0,00 5 Número de Artigos Número de Artigos Por Ano Ano Gráfico 3 – Número de Artigos Publicados por Ano Através do DW pode-se verificar também que a maioria dos pesquisadores que atuam no Paraná se graduaram nele, como é mostrado no Gráfico 4. Mas este mesmo gráfico mostra que à medida que o pesquisador busca por uma graduação mais elevada, como mestrado ou doutorado, ele necessita se direcionar a outros estados, principalmente São Paulo, onde está concentrada a maior parte dos pesquisadores no Brasil. 93 Titulação 100 80 Form ados (%) 60 40 PR 20 OUTROS 0 Graduação Especialização Mestrado Doutorado Gráfico 4 – Graduados no Estado do Paraná 7.2.3 Tempo de Defesa nos Programas de Mestrado Uma outra pesquisa realizada no DW construído mostrou a relação entre o regime letivo dos programas de mestrado e o tempo de defesa dos alunos. O Gráfico 5 mostra essa relação. Média de Tempo de Defesa em Programas de Mestrado Regime Letivo do Programa Número de Meses 60 50 Media Geral 40 Anual 30 Semestral 20 Quadrimestral 10 Trimestral 0 Geral Antes de 1996 A partir de 1996 Ano de Entrada no Programa Gráfico 5 – Média de Tempo de Defesa de Mestrado por Regime Letivo O Gráfico 5 é dividido em 3 partes. A primeira parte é a média geral de tempo de defesa do mestrado de acordo com os regimes letivos. A segunda parte é a média geral de tempo de conclusão do mestrado de acordo com os regimes letivos para alunos que ingressaram no 94 programa antes de 1996, e a última parte é a média de tempo para alunos que ingressaram nos programas de mestrado a partir de 1996. A média de tempo de defesa do mestrado a partir de alguns anos atrás diminui muito, como pode ser visto no Gráfico 5. Foi usado o ano de 1996 como delimitador, pois, através de consultas percebeu-se que havia uma grande diferença entre o tempo de defesa antes e depois desse ano. Através deste gráfico pode-se verificar que a partir do momento em que a média de tempo de defesa de mestrado diminui, a diferença entre média de tempo dos regimes letivos é muito pequena, apenas programas com regime letivo anual apresentaram uma média de tempo de defesa um pouco superior. 7.2.4 Número de Publicações de Livros A última pesquisa mostrada neste capítulo, compara a diferença entre o número de publicações de livros ou capítulo de livros entre homens e mulheres em diversas faixas de idade. Como pode ser visto no Gráfico 6, a diferença de publicações até os 35 anos entre homens e mulheres é muito pequena. Na faixa dos 35 aos 45 anos essa diferença aumenta e depois diminui novamente. Através deste gráfico, consegue-se perceber que existe uma faixa de idade na qual o número de publicações de livros ou de capítulos de livro aumenta entre homens e mulheres, mas não é possível concluir a razão desse aumento. Uma possível causa seria que nesta faixa de idade as mulheres tiveram filhos, mas esta hipótese não pode ser constatada, pois no DW construído não contém dados pessoais dos pesquisadores que comprovem isto. 95 Número de Publicações Número de Publicações de Livros ou Capítulos de Livros 6 5 4 Mulheres Homens 3 2 1 0 25 de 25 a 35 de 35 a 45 de 45 a 55 55 Faixa de Idade Gráfico 6 – Número de Publicações de Livros ou Capítulos de Livros Com este gráfico fica óbvio que quanto mais dados um DW tiver, conclusões mais precisas podem ser conseguidas. Sendo assim, uma base de dados que seria muito interessante de ser incorporado ao DW criado é a base de dados do IBGE (Instituto Brasileiro de Geografia e Estatística), pois com essa base seria possível verificar fatores externos que influenciam direta e indiretamente a pesquisa e os pesquisadores no Brasil. 7.3 CONSIDERAÇÕES FINAIS Neste capitulo foram apresentados alguns dos estudos realizados e resultados obtidos através do DW criado. Os estudos realizados foram bastante diversificados, como pode ser visto na relação abaixo: • o número de patentes e registros realizados; • o número de artigos publicados por ano no Brasil; • o número de graduados no Paraná nos diversos níveis de graduação; • a média de tempo de defesa de mestrado por regime letivo; • o número de publicações de livros ou capítulos de livros. Todos os estudos mostraram virtudes e defeitos da pesquisa e pesquisadores no Brasil e através deles um gestor de C&T tem suporte para tomar decisões que melhorem a pesquisa. 96 Com isso, um DW para gestão em C&T se faz necessário por trazer dados confiáveis, dando assim um grande suporte aos gestores no processo de tomada de decisão. 97 8 CONCLUSÃO E TRABALHOS FUTUROS Os tomadores de decisão na maioria das empresas não possuem suporte computacional adequado e eficiente para o desempenho de suas tarefas. Muitos deles estão sujeitos ao fracasso em suas decisões de negócio por terem que se basear apenas em sua experiência profissional e/ou em seu "faro para o negócio". Nos últimos anos, muitas pesquisas estão sendo direcionadas ao desenvolvimento de técnicas e sistemas que dêem suporte à tomada de decisões. Ferramentas OLAP e de mineração de dados são classe de sistemas de suporte à tomada de decisões que estão em constante evolução. No entanto, muitas dificuldades ainda são encontradas no desenvolvimento e uso desses tipos de ferramentas. Um tipo de dificuldade está relacionado ao acesso aos dados que geralmente estão espalhados em diferentes bases de dados com diferentes formatos. A solução para este tipo de problema geralmente está na construção de um DW que integra dados originados de diversas fontes em diferentes formatos. No DW, os dados são preparados e direcionados ao negócio da empresa, facilitando a busca de conhecimentos interessantes que darão suporte à tomada de decisões. O sucesso na construção de um DW está diretamente relacionado à definição de uma arquitetura de implementação e à escolha de uma metodologia de desenvolvimento. Este trabalho apresentou a definição de uma arquitetura de DW para gestão em C&T no Brasil e descreveu como o DW foi construído. A arquitetura proposta foi desenvolvida baseando-se na implementação BUS e na metodologia de data marts incrementais. Cada camada da arquitetura foi projetada de forma a conseguir a máxima independência possível, sendo que a camada superior utiliza parâmetros da camada imediatamente inferior a ela. Além disso, na definição da arquitetura preocupou-se com a integração de diferentes fontes de dados. Para facilitar esta integração, foi especificado 98 um formato padrão. Sempre que determinada fonte de dados não estiver de acordo com este formato, a mesma é migrada para ele. A metodologia de data marts incrementais possibilita a integração de diferentes fontes de dados aos poucos, ou seja, os dados de cada base de dados de origem podem ser adicionados em momentos diferentes. Esta característica deste tipo de metodologia facilitou a implementação do DW com dados de bases de C&T, considerando a existência de diferentes fontes de dados. Também torna possível a inclusão de novas fontes de dados no futuro. Foi adotada a modelagem de dados relacional normalizada para a área de estágio definida neste trabalho por permitir uma maior consistência dos dados e facilitar o processo de integração entre bases de dados distintas, ao mesmo tempo que possibilita o uso de relacionamentos não normalizados, o que facilita a integração com o DW. Já no DW foi utilizada a modelagem multidimensional em conjunto com a modelagem de tabelas pontes proposta por Kimball et al. (1998). Após o DW ser construído com dados de C&T, foram realizados alguns alguns estudos de caso objetivando a verificação e a validação do DW construído. Os resultados dos alguns estudos de caso mostraram que o DW construído de acordo com a arquitetura proposta torna bastante eficiente a busca por informações interessantes que possam dar suporte à tomada de decisões. Um DW é, geralmente, utilizado como uma ferramenta de extração de conhecimento, com o objetivo de reduzir custos e otimizar a qualidade de seus produtos e serviços, conseguindo assim mais e melhores resultados com menos recursos. No caso da área de C&T, o DW traz como benefício um melhor conhecimento da realidade da pesquisa e dos pesquisadores brasileiros, possibilitando melhor aproveitamento de investimentos nesta área. No desenvolvimento do DW foram encontrados alguns problemas. Os principais problemas foram relativos às bases de dados de origem. A base de dados do CNPq e da CAPES utilizadas estavam um pouco defasadas. A base de dados do Coleta CAPES, não continha dados de muitas instituições importantes como a própria UEM e havia alguns dados inconsistentes. O dicionário de dados da base de dados do Coleta CAPES não possuía muitas informações importantes, o que dificultou o estudo e entendimento desta base. Tudo isto 99 dificultou o processo de integração de dados. A utilização de dados defasados impossibilitou a realização de determinadas consultas que poderiam resultar em conhecimentos relevantes, e os resultados obtidos nas consultas realizadas não são totalmente confiáveis. O principal motivo das bases de dados de origem estarem defasadas é a grande dificuldade de se conseguir bases de dados do CNPq e CAPES. Existem muitas leis que restringem a utilização dessas bases, tornando assim quase inviável a construção de um DW em C&T com dados atualizados. Mas existem duas possibilidades para se conseguir trabalhar com bases atualizadas, que seriam: • A utilização de dados em XML. Muitos dados já estão sendo disponibilizados neste formato através de webservers. Utilizando dados neste formato seria necessária a inclusão de um módulo de conversão dos dados de XML para bases de dados. • A utilização de dados das próprias universidades e centros. Desta maneira seria mais fácil conseguir dados das próprias instituições onde está se construindo o DW, mas diminuiria muito o escopo do DW. Outro problema que foi detectado no decorrer do projeto é um problema particular no desenvolvimento de DW para C&T. Como os dados em C&T não são atualizados através das transações que ocorrem no dia a dia, e sim, a partir de inserções de dados pelos usuários, é possível que muitos dados não sejam inseridos. Isto ocasiona um problema pelo fato de resultados poderem ser mascarados. Por exemplo, em um certo ano muitos pesquisadores não inserem suas publicações na base de dados e no ano seguinte a maioria cadastra as publicações, quando for feita uma pesquisa, o resultado mostrará que este ano teve um grande aumento nas publicações, o que não seria verdadeiro. Pelo problema apresentado é necessária a definição de um método de análise de resultados que verifique questões como esta, dando confiabilidade nos resultados conseguidos através do DW construído. Outras dificuldades encontradas estão relacionadas à definição do escopo do DW e à definição dos dados a serem mantidos no DW utilizando a arquitetura BUS e a metodologia de data marts incrementais. Como trabalhos futuros podem ser sugeridos os seguintes tópicos: 100 • incorporação de outras fontes de dados, como o Diretório dos Grupos de Pesquisa do Brasil e dados do IBGE, dando mais confiabilidade às consultas, ampliando o escopo dos resultados e aumentando os recursos para suporte ao processo decisório; • desenvolvimento de ferramentas OLAP para busca de conhecimentos no DW; • especificação e implementação de um sistema especialista para gerenciamento do metadados, com regras definidas para a extração e a análise dos dados; • construção de interfaces gráficas para facilitar a análise de conhecimentos descobertos por parte do usuário final. 101 REFERÊNCIAS BIBLIOGRÁFICAS AGRAWAL, R.; GUPTA, A.; SARAWAGI, S. Modeling Multi-Dimensional Databases. IBM Research Report , IBM Almaden Research Center, September 1995. AGRAWAL, S; AGRAWAL, R.; DESHPANDE, P. M.; GUPTA, A.; NAUGHTON, J. E.; RAMAKRISHNAN, R.; SARAWAGI, S. On the computation of multidimensional aggregates. In Proc. Conf. on Very Large Databases (VLDB), p. 506-521, 1997. ADAMSON, C.; VENERABLE, M. Data Warehouse Design Solutions. John Wiley, 1998. ARRUDA, M. F. M. A indústria e o desenvolvimento tecnológico nacional. In: Ciência & Tecnologia: Alicerces do Desenvolvimento, São Paulo, ed. 1, p. 2344, 1994. AXEL, M.; SONG, Y. Data Warehouse Design for Pharmaceutical Drug Discovery Research. Proc. of 8th International Conference and Workshop on Database and Expert Systems Applications (DEXA97), Toulouse, France, p. 644-650, September 1-5, 1997. BALLARD, C ; HERREMAN, D.; SCHAU, D.; BELL, R.; KIM, E.;VALENCIC, A. Modeling Techniques for Data Warehousing. IBM Corporation, 1998. Data BARQUINI, R. Planning and designing the Warehouse. Prentice-Hall, 1996. BATINI, C.; LENZERINI, M. Comparative Analysis Of Methodologies For Database Schema Integration, ACM Computing Surveys. New York, v.18, n. 4, p..323 - 364, Dez. 1986. BOMFIM, M. M. A Implementação e Utilização de Data Warehouse em Instituições Públicas no Brasil : Um estudo descritivo das implicações envolvidas. Programa de PósGraduação em Engenharia de Produção, Florianópolis – SC. Dissertação de Mestrado, UFSC, Florianópolis, 2001. BRACKETT, M. H. The Data Warehouse Challenge. Taming Data,Chaos. John Viley & Sons, 1996. BRISOLLA, S.N. Indicadores para apoio à tomada de decisão. Ciência da Informação, Brasília, v. 27, n. 2, p. 221-225, maio/ago. 1998. CAPES. Brasília. Disponível em <http://www.capes.gov.br>. Acesso em 18 julho 2003. CASTRO, C. M. A questão da qualidade. In: Simon Schwartzman e Cláudio Moura Castro(Orgs.) Pesquisa universitária em questão. São Paulo, 1986. CHAUDHURI, S. & DAYAL, U. An Overview of Data Warehousing and Olap Tecnology, SIGMOD Record, New York, v.26, n. 1, Mar. 1997. 102 CIFERRI, C. D. A. Distribuição dos Dados em Ambiente de Data Warehousing: O sistema WebD2W e Algoritmos Voltados à Fragmentação Horizontal dos Dados. Programa de Pós-Graduação em Ciência da Computação, Recife – PE. Tese de doutorado, Universidade Federal de Pernambuco, Recife, ago. 2002. CNPq. Plataforma Lattes. Disponível em <http://lattes.cnpq.br/>. Acesso em 15 julho 2003a. CNPq. Diretório dos Grupos de Pesquisa no Brasil. Disponível em <http://lattes.cnpq.br/diretorio/>. Acesso em 17 julho 2003b. COMPUTER ASSOCIATES. ERwin Brochure. <http://www.cai.com/products/alm/erwin/erwin pd.pdf>. Acessado em: 18 março 2003. DATE, C. J. Introdução a Sistemas de Bancos de Dados. Campus, 1999. DAVID, M. Building and managing the meta data Repository: A Full Lifecycle Guide, Paperback, 2001. DB2 UDB. DB2 Universal Database Data Warehouse Enterprise Edition. <http://www306.ibm.com/software/data/db2/udb/dwe/> Acessado em 05 junho 2003. DELPHI 7.0. Borland Delphi. <http://www.borland.com/delphi/>. Acessado em 03 fevereiro 2003. DEMAREST, M. The politics of data warehousing. Disponível em <http://www.dmreview.com/whitepaper/wid293.pdf> 1997. Acessado em: 08 novemvro 2003. DIAS, M.M.; MATTOS, M.M.; ROMÃO, W.; TODESCO, J.L.; PACHECO, R.C.S. Data Warehouse -Presente e Futuro. Revista Tecnológica, no.7, p. 59-73, 1998. DIAS, M.M. Um modelo de formalização do processo de desenvolvimento de sistemas de descoberta de conhecimento em banco de dados. Tese de Doutorado. Universidade Federal de Santa Catarina. Florianópolis, Santa Catarina, 2001. DINTER, B.; SAPIA, C.; HOFLING, G.; BLASCHKA, M. The OLAP Market: State of the Art and Research Issues. Proc. of Int’lWorkshop on Data Warehousing and OLAP, Washington, USA, p. 22-27, 1998. DUMOULIN, R. 2000. Architecting Data Warehouses for Flexibility,Maintainability, and Performance. Disponível em <http://www.olap.it/Articles.htm>. FAN, W.; LU, H.; CHEUNG, D.W. Discovering and Reconciling Data Value Conflicts for Numerical Data Integration. Information Systems, vl. 26, no. 8, p. 635-656, 2001. GERTZ, M.; SCHIMITT, I. Data Integration Techniques based on Data Quality Aspects. Proc. of 3rd Workshop “Föderierte Datenbanken” , Magdeburg, 10/11 p. 1-9, Aechen, Dez. 1998. 103 GERTZ, M.; SATTLER, K. Integrating Scientific Data through External, Concept-based Annotations. Second International Workshop on Data Integration over the Web, p. 87-101, Toronto, Canada, 2002. GONÇALVES, A. L. Utilização de Técnicas de Mineração de Dados na Análise dos Grupos de Pesquisa no Brasil. Florianópolis. Dissertação (Mestrado em Engenharia de Produção) – Programa de Pós-graduação em Engenharia de Produção, UFSC, 2000. GUIMARÃES, Reinaldo. A Pesquisa no Brasil. Parte I Organização.Ciência Hoje, v.19, no.109, maio,1995. HAN, J.; PEI, J.; DONG, G.; WANG, K. Efficient Computation of Iceberg Cubes with Complex Measures. Proceding of SIGMOD Conference, p. 1-12, Santa Barbara, CA, 2001. HARRISON, T. Intranet Data Warehouse. Berkeley, 1998. INDRIUNAS, L. Biopiratiaria – O Brasil se Defende. Revista Super Interessante, ed. 193, p. 24, out, 2003. INMON, W. H. Como Construir o Data Warehouse. Rio de Janeiro, 1997. INMON, W. H., HACKATHORN, RICHARD D. Como Usar o Data Warehouse. IBPI, 1997a. INMON, H., W. Metadata in the Data Warehouse. 2000. Disponível em <www.billinmon.com/library/whiteprs>. Acesso em 20 novembro 2003. JACOBSON, I. et al. Rational Unified Software Development Process. [S.I]: AddisonWesley, 1999. JENSEN, M. R.; MØLLER, T. H.; PEDERSEN, T. B. Converting XML DTDs to UML Diagrams for Conceptual Data Integration. ACM Computing Surveys. New York. v. 4, n. 3, p. 323-346, 2003. KIMBALL, R. Data Warehouse Toolkit. Makron Books, 1996. KIMBALL, R.; REEVES L.; ROSS M.; THORNTHWAITE W.The Data Warehouse Lifecycle Toolkit: Expert Methods for Designing, Developing, and Deploying Data Warehouses. John Wiley & Sons Inc., 1998. KOSTOFF, R. N. Science and technology metrics. 1997. Disponível em: <http://www.onr.navy.mil/sci_tech/special/technowatch/>. Acessodo em: 22 set. 2002. KOTIDIS, Y.; ROUSSOPOULOS, N. DynaMat: A Dynamic View Management System for Data Warehouses. SIGMOD 1999, p. 371-382, Philadephia, USA, 1999. KRIEGER, E. M.; GALEMBECK, F. A capacitação brasileira para a pesquisa. In: Simon Schwartzman. Ciência e tecnologia no Brasil: a capacitação para a pesquisa científica e tecnológica, Rio de Janeiro: Editora Fundação Getulio Vargas, p. v.3, p. 1-18, 1996. 104 KRIPPENDORF, M.; SONG, Y. Translation of Star Schema into Entity-Relationship Diagrams. Proc. of 8th International Conference and Workshop on Database and Expert Systems Applications (DEXA97 ), p. 390-395, França,. Setembro, 1997. LEHNER, W.; ALBRECHT, J.; WEDEKIND, H. Normal Forms for Multidimensional Databases.Proc. SSDBM, p. 63-72, 1998,. LEI pode facilitar pesquisa em empresas. Jornal Folha de São Paulo, São Paulo, ano 84, n. 27.396, p. A9, abril 2004. MACHADO, F. N. R.. Projeto de Data Warehouse – Uma visão Multidimensional. Érica, 2000. MACIAS-CHAPULA, C. O papel da informetria e da cienciometria e sua perspectiva nacional e internacional. Ciência da Informação, Brasília, v.27, n.2, p. 134-140, maio/ago. 1998. MCT. Sociedade da Informação no Brasil – Livro Verde. Brasília, DF, Set. 2000. MENDES, A. F. Arquitetura de Software, Editora Campus, 2002. MEYERE, D.; CANNON, C. Building a Better Data Warehouse. Prentice-Hall, 1998. MILLET, I.; PARENTE, D. H; FIZEL, J, L. Data Warehouse Design for Ease of Data Transformation. DMDW, Toronto, Canada, p. 82-89, 2002. MOODY, D.; KORTINK, M.A.R.. From Enterprise Models to Dimensional Models: A Methodology for Data Warehouse and Data Mart design, Proc. of Int’l Workshop on Design and Management of Data Warehouses(DMDW2000), Suécia, 2000. NIEDERAUER, C. A. P. ETHOS: Um Modelo Para Medir A Produtividade Relativa De Pesquisadores Baseado Na Análise Por Envoltória De Dados. Programa de Pós-Graduação em Engenharia de Produção, Florianópolis – SC. Tese de doutorado, UFSC, Florianópolis, 2002. ORACLE9I. Oracle9i Database < http://otn.oracle.com/software/products/oracle9i/> Acessado em: 02 dezembro 2002. OWB. Oracle Warehouse Builder. <http://otn.oracle.com/products/warehouse/index.html> Acessado em: 03 junho 2003. PEDERSEN, T. B.; JENSEN, C.S. Multidimensional Data Modeling for Complex Data. Proc. of 15th ICDE, p. 336-345, Sidney, Australia, 1999. PEREIRA, W. A. L.; BECKER, K. Inserting Data Warehouse In Corporations: A Methodological Approach. In: 3th International Conference on Information Systems, Setúbal, Portugal, 2001. RIBEIRO, C. Bancos de Dados Heterogêneos - Mapeamento dos Esquemas Conceituais em um modelo Orientado a Objetos. 1995. Tese (Doutorado) – Universidade Federal do Rio Grande do Sul, UFRGS, Porto Alegre, 1995. 105 ROMÃO, W. Descoberta de conhecimento interessante em banco de dados sobre ciência e tecnologia. Programa de Pós-Graduação em Engenharia de Produção, Florianópolis – SC. Tese de doutorado, UFSC, Florianópolis, 2002. ROMÃO, W.; PACHECO, R. C. S.; NIEDERAUER, C. A. P. Planejamento Em C&T: Uma Abordagem Para Descoberta De Conhecimento Relevante Em Banco De Dados De Grupos De Pesquisa. Revista Tecnológica, no 9, p. 139-152, Outubro 2000. ROSS, K. A.; SRIVASTAVA, D. Fast computation of sparse datacubes. In Proc. Conf. on Very Large Data-bases (VLDB), 1997. SAMOS J.; SALTOR F.; SISTRAC J.; BARDÉS A. Database Architecture for Data Warehousing: An evolutionary Approach, DEXA, Vienna, 1998. SCHWARTZMAN, Simon; KRIEGER, Eduardo; GALEMBECK, Fernando; GUIMARÃES, Eduardo A.; BERTERO, Carlos Osmar. Ciência e tecnologia no Brasil: Uma nova política para um mundo global. In: Ciência e tecnologia no Brasil: Política Industrial, Mercado de Trabalho e Instituições de Apoio, Rio de Janeiro: Editora da Fundação Getúlio Vargas, 1995, 384p, v.2, p.1-59. SELL, D. Uma Arquitetura para Distribuição de Componentes Tecnológicos de Sistemas de Informações Baseadas em Data Warehouse. Programa de Pós-Graduação em Engenharia de Produção, Florianópolis – SC. Dissertação de Mestrado, UFSC, Florianópolis, 2001. SHILAKES, C.; TYLMAN, J. Enterprise Information Portals. Enterprise Software Team. November 1998. Disponível em <http://www.sagemaker.com/company/downloa s/eip/indepth.pdf.>. Acessado em: 05 maio 2003. SINGH, H. S. Data Warehouse: Conceitos, Tecnologias, Implementação e Gerenciamento. Makron Books, 2001. SMITH, J. R.; LI, C.; CASTELLI, V.; JHINGRAN, A. Dynamic Assembly of Views in Data Cubes. Proc. of the Seventeenth ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems publisher, p. 274-283, Seattle, Washington, June 1-3, 1998. SONG, Y.; ROWEN, W.; MEDSKER, C.; EWEN, E. An Analysis of Many-to-Many Relatioships Between Fact and Dimension Tabels in Dimensional Modeling. Proc. of Int’lWorkshop on Design and Management of Data Warehouse(DMDW 2001),Interlaken, Suiça, 2001. SPINAK, E. Indicadores cientométricos. Ciência da informação, v. 27, n. 2, p. 141-148, maio/ago. 1998. SQL Server. Microsoft Sql Server 2000. <http://www.microsoft.com/sql/default.asp.> Acessado em: 05 junho 2003. TANNENBAUM, A. Metadata Solutions: Using Metamodels, Repositories, X ML, and Enterprise Portals to Generate Information on Demand. Addison Wesley, New York, USA, 2002. 106 THEODORATOS, D.; SELLIS, T. Data Warehouse Schema and Instance Design. Proc. of 17th International Conf. On Conceptual Modeling (ER98), p.363-376, Singapore, Novembro, 1998. TOMBROS, D.; HÄBERLI, C. A Data Warehouse Architecture for MeteoSwiss: An Experience Report. Proceedings of the International Workshop on Design and Management of Data Warehouses (DMDW'2001), Switzerland, June 4, 2001. TRZESNIAK, P. Indicadores quantitativos: reflexões que antecedem seu estabelecimento. Ciência da Informação, v. 27, n. 2, p. 159-164, maio/ago. 1998. WIDOM, J. Research Problems in Data Warehousing. Proc. of the Int’l. Conf. on Information and Knowlege Management. Baltimore, 1995. VASSILIADIS, P. Guliver in the lan of data warehousing: pratical experiences and observations of a researcher. DMDW, Stocolmo, Suécia, Junho 5-6, 2000. 107 APÊNDICE A – PROCEDIMENTOS DA CAMADA ETL 108 APÊNDICE B – MODELOS DE DADOS