Uma Ar quitetur a de Gestão de Dados em Ambiente Data War ehouse Alcione Benacchio (UFPR) E­mail: [email protected] Maria Salete Marcon Gomes Vaz (UEPG, UFPR) E­mail: [email protected] Resumo: O ambiente de data warehouse envolve uma coleção de tecnologias, objetivando o auxílio à administração dos dados e aos processos de tomada de decisão. Este artigo apresenta uma arquitetura para gestão de dados descentralizados, levando em consideração um ambiente de data warehouse. Com essa arquitetura os problemas de integração de dados, processos de auditoria e descentralização dos dados são minimizados, pois todos os dados são tratados, organizados e otimizados em uma estrutura de data warehouse. Palavr as­chave: Gestão de dados, Data Warehouse, OLAP. 1. Intr odução A atividade de armazenamento, pesquisa e recuperação de dados para tomada de decisão envolvem o desenvolvimento, a priori, da extração, tratamento e integração de dados, a fim de facilitar a reutilização, minimizar problemas de inconsistência e simplificar e diminuir o tempo de tomada de decisão. Existem organizações que possuem seus dados descentralizados, organizados e estruturados de formas diferentes, processados por sistemas diferentes, implicando em difícil integração entre os diversos sistemas e dados. Esses dados precisam ser extraídos, tratados e organizados a fim de ajudar na tomada de decisão (SINGH, 2001). Um repositório integra todos os dados dos sistemas utilizados pela organização, facilita a indexação e a recuperação de dados comuns entre sistemas distintos (BERTINO, 2001; DATE, 2003; SILBERCHATZ, 2006). O objetivo deste artigo é apresentar uma arquitetura com os processos de recuperação dos dados manipulados pelos diversos sistemas e o processo de tratamento e armazenamento desses dados numa estrutura em um ambiente de data warehouse. Para tanto este artigo está estruturado como segue. Na Seção 2 são descritas algumas definições inerentes ao ambiente de data warehouse. Na Seção 3 é apresentada a arquitetura para gestão de dados descentralizados, de folha de pagamento, em ambiente data warehouse. E finalmente, a última seção apresenta as considerações finais deste trabalho. 2. Ambiente de Data Warehouse Com o avanço dos negócios, não basta apenas ter a informação em mãos. É necessário processá­la e interpretá­la de modo correto, para obter um resultado satisfatório ao utilizá­la. Muitas empresas possuem vários sistemas espalhados em várias cidades. Cada sistema manipula dados de modos diferentes. Para a união dos bancos de dados desses sistemas foi desenvolvido um Data Warehouse. O Data Warehouse (BARQUIM, 1997; CHAUDHURI, 1997; COREY, 2001) é um banco de dados que possui uma quantidade de dados muito grande que contribui para o sistema de suporte a decisão da empresa. Esse grande banco de dados se baseia nos banco de dados dos vários sistemas da empresa. Ele é responsável por armazenar as informações de maneira a interpretar os dados conforme um determinado padrão.
Formalmente, um data warehouse é uma coleção de dados orientada por assuntos, integrada, variante no tempo, e não volátil, que tem por objetivo dar suporte aos processos de tomada de decisão (KIMBALL, 2002). O data warehouse cria uma visualização única de dados que residem em diversos bancos de dados físicos. Mas antes que o data warehouse possa ser acessado, com eficiência, é necessário entender quais dados estão disponíveis e onde estão localizados. Os metadados fornecem um catálogo dos dados do data warehouse e ponteiros para esses dados. A Ferramenta OLAP (COREY, 2001; GONÇALVES, 2003) entra com o papel de proporcionar uma solução ao problema de síntese, análise e consolidação de dados. Com o auxilio da ferramenta OLAP o usuário consegue obter as informações desejadas mais facilmente, dentre os dados armazenados. Desenvolver um data warehouse para uma empresa é um tanto complexo. Deve­se analisar a arquitetura adequada e a ferramenta que melhor atende às necessidades e expectativas do projeto. Os dados estão por toda à parte. A maioria das organizações não sofre de falta de dados, mas sim de uma abundância de dados redundantes e inconsistentes, difíceis de administrar com eficiência, cada vez mais difíceis de acessar e difíceis de usar para fins de suporte à decisão. Não existem metodologias formais para a implementação de um data warehouse, então há uma busca por ferramentas que se adaptem melhor as características e às expectativas de cada empresa. Na seção seguinte é apresentada uma arquitetura para a gestão de folha de pagamento, que possui sistemas processando dados oriundos de várias fontes, com ferramentas de processamento distintas e com estruturas de armazenamento distintas. 3. Ar quitetur a par a Gestão de Folha de Pagamento Descentr alizada Com o objetivo de otimizar o fluxo dos processos, durante a realização de auditorias capazes de detectar irregularidades e verificar legalidade das vantagens remuneratórias existentes em uma folha de pagamento descentralizada, propõem­se a utilização de um ambiente de Data Warehouse. Nesse contexto, uma empresa com sistemas de informação não padronizados para execução da folha de pagamento, com sistemas processados por diversos órgãos, não permitindo cruzamento de dados dos diversos sistemas, gerando como conseqüência, atrasos e burocratizações no fluxo dos processos organizacionais. Assim, foi construída uma estrutura com todas as informações dos funcionários e das folhas de pagamento processadas, dos diversos órgãos. Em seguida, um mapeamento de cada informação de cada sistema é processado. No mapeamento estão compreendidas todas as regras de transformação necessárias a cada informação. Por exemplo, o sexo tem valor definido como M, F ou I na estrutura origem e valor 0, 1 ou 2 na estrutura destino. Dessa forma o mapeamento desse atributo deve realizar todas as transformações necessárias nas informações de origem para enquadramento na informação destino. Na Figura 1 é apresentada uma arquitetura para solução do problema, bem como uma descrição das características e ações implícitas em cada fase. A fase de extração é responsável por fazer este mapeamento entre dados de origem e dados do Data Warehouse. Este mapeamento é feito através de metadados que descrevem a contextualização das informações.
Figura 1: Fases para Sol ução do Problema Na solução proposta é definido um extrator para A, B, C e D. Na Estrutura A são os dados de aproximadamente 80% da folha de pagamento, processada por uma empresa de consultoria. Na Estrutura B estão 35 mil funcionários, onde seus dados são processados por seus respectivos órgãos de lotação. Na Estrutura B envolve dados de outros órgãos. Após a análise de cada uma, foi definido um mapeamento das entidades e atributos utilizados na coleta dos dados. Para entidade D foi criada uma interface para o recebimento dos dados obtidos por meios magnéticos. Cada organização que entrega os dados, utilizando esse meio, necessita de um extrator intermediário entre os dados e a entidade D. Isso torna o recebimento flexível quanto ao formato e a variedade de dados que são manipulados, garantindo a integridade dos mapeamentos, regras de transformação e carregamento dos dados. Na fase de transformação são aplicadas regras que determinam padronização e homogeneização dos dados que são armazenados no data warehouse. Essas transformações convertem valores diferentes, mas que possuam o mesmo significado para um valor único que poderá então ser utilizado na mineração dos dados. Por exemplo, em um sistema o atributo sexo é armazenado como 0 para Masculino e 1 para Feminino, enquanto em outro sistema o dado está escrito por extenso Masculino e Feminino. Na fase de Transformação esse será convertido em M e 1 para Masculino e 0 e F para Feminino, atendendo dessa forma o domínio de valores para este atributo. Assim, como na fase de extração, nesta fase os metadados têm
um papel importante, sendo responsável pelo armazenamento das regras de transformação e domínio de valores de atributos. Após os dados terem sido coletados e padronizados eles estão prontos para serem carregados no data warehouse. Essa fase é executada pela camada de carregamento, que é responsável por definir como será feita à atualização. Essa pode ser incremental ou completa. Na forma incremental, são os dados como Vendas, Compras e Folha de Pagamento. Já na forma completa, entidades que não possuem controle de atualização. Na seqüência, o Data Warehouse é onde todos os dados que foram extraídos, transformados e carregados estão armazenados. A partir a armazenamento, podem ser executadas rotinas que identificam duplicidade entre registros, determinam quais as pessoas que estão alocadas em organizações distintas e recebendo vencimentos indevidos. Um Data Mart para a folha de pagamento é criado. É o ponto de acesso a um universo de domínio, ou seja, de um determinado assunto. Ele possui um nível de sumarização mais detalhado como, por exemplo, a folha de pagamento do mês, ou as vendas de determinado mês ou ano. Nesse caso, contempla o contexto permitindo simulações necessárias envolvendo os órgãos que fazem parte da folha de pagamento. O Cubo de dados é uma estrutura de dados multidimensional que apresenta a forma como as informações se relacionam. É composto por uma tabela de fatos e por tabelas de dimensões que representam as formas de consulta e visualização dos dados. Neste contexto o cubo é utilizado para cruzar as informações entre as organizações, auxiliando a busca por irregularidades na folha de pagamento. A ferramenta OLAP, processamento analítico em tempo real, compreende uma categoria de programas que proporcionam ao usuário que a utiliza, a capacidade de realizar análises sobre os dados armazenados em um data warehouse. Esta ferramenta torna possível a análise de várias dimensões sobre dados dimensionais. Nesse contexto, a ferramenta cliente OLAP pode ser um navegador Web ou uma aplicação Desktop. Independente do tipo de cliente, o componente essencial do OLAP é o servidor OLAP, o qual situa­se entre o cliente e o sistema gerenciador de banco de dados (SGBD). O servidor OLAP compreende como o dado é organizado e possui funções especiais para analisá­lo. Uma vez que os Cubos e Data Marts estejam construídos, a ferramenta OLAP pode ser utilizada para construir os mais diversos relatórios. Estes relatórios são extremamente personalizáveis ao ponto de tornar possível a construção de simulações, como aumento de percentuais dos vencimentos dos funcionários, uma vez que estas ferramentas permitem a criação de fórmulas sobre os dados projetados. 4. Considerações Finais As informações descentralizadas trazem diversos problemas às organizações, tal como a impossibilidade de obtenção de dados confiáveis e precisos. A solução proposta neste artigo, teve como objetivo principal solucionar problemas existentes em organizações como despadronização dos dados, burocracia e lentidão nos processos de negócios. Através da implantação de um sistema de apoio a decisão utilizando à tecnologia de data warehouse foi possível demonstrar grandes vantagens que facilitam a tomada de decisão por
parte dos gerentes e administradores. A implantação de um ambiente de data warehouse padroniza os dados, otimiza os processos e possibilita a construção de vários tipos de relatórios gerenciais, bem como otimização geral dos processos de negócio. Refer ências BARQUIM, R. C; EDELSTEIN, H. A. Building, Using, and Managing the Data Warehouse. Pretince Hall, 1997. BERTINO, E; CATANIA, B.; ZARRI, G. P. Intelligent Database Systems. Addison­ Wesley, 2001. CHAUDHURI, SURAJ IT E DAYALI, UMESHWAR. An Overview of Data Warehousing and OLAP Technology. Proc. of ACM SIGMOD Records, Mar. 1997. COREY, M.; ABBEY, M; ABRAMSON, I.; TAUB, B. Oracle 8i Data Warehouse. Rio de Janeiro: Campus, 2001. DATE, C. J . Introdução a Sistemas de Bancos de Dados. Tradução da 8 a . Edição Americana. Rio de Janeiro: Elsevier, 2003. GONÇALVES, M. Extração de Dados para Data Warehouse. Rio de Janeiro: Axcel Books, 2003. KIMBALL, ROSS. The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling (Second Edition), Wiley, 2002. SILBERCHATZ, K.; KORTH, H. F.; SUDARSHAN, S. Sistema de Bancos de Dados. Tradução da 5º edição. Editora Makron Books do Brasil. São Paulo – SP, 2006. SINGH, H. S. Data Warehouse: Conceitos, Tecnologias, Implementação e Gerenciamento. São Paulo: Makron Books, 2001.
Download

Uma Arquitetura de Gestão de Dados em Ambiente Data Warehouse