Departamento de Informática em Saúde UNIFESP CBIS'2004 IX Congresso Brasileiro de Informática em Saúde Universidade Federal de São Paulo – UNIFESP Projeto de um Data Warehouse para a Saúde Pública Ricardo S. Santos Marco Antônio Gutierrez Sérgio Furuie Umberto Tachinardi - DIS/Unifesp - INCOR - INCOR - SES-SP www.unifesp.br/dis Departamento de Informática em Saúde UNIFESP Universidade Federal de São Paulo – UNIFESP AGENDA CBIS'2004 IX Congresso Brasileiro de Informática em Saúde • Introdução • A proposta do projeto • Metodologia e Estratégia de Desenvolvimento • A carga dos Dados • A exibição da Informação • Resultados e Discussão • Conclusões www.unifesp.br/dis Departamento de Informática em Saúde CBIS'2004 IX Congresso Brasileiro de Informática em Saúde Universidade Federal de São Paulo – UNIFESP UNIFESP Introdução www.unifesp.br/dis Departamento de Informática em Saúde Universidade Federal de São Paulo – UNIFESP UNIFESP CBIS'2004 IX Congresso Brasileiro de Informática em Saúde OBJETIVO O objetivo deste trabalho é apresentar um projeto de implementação de um Data Warehouse (DW) destinado à gestão da saúde pública. O DW pretende suprir a Secretaria de Estado de Saúde de São Paulo (SES-SP) com informação gerencial obtida através da integração de dados provenientes de diversas fontes isoladas. KDD – Knowledge Discovering in Databases www.unifesp.br/dis Departamento de Informática em Saúde Universidade Federal de São Paulo – UNIFESP UNIFESP CBIS'2004 IX Congresso Brasileiro de Informática em Saúde DEFINIÇÕES Plataforma que contém os dados da organização, centralizados e organizados de forma que usuários, de maneira muito simples, possam extrair relatórios analíticos, complexos, contendo informações gerenciais para apoio à decisão. (Shams, 2001). www.unifesp.br/dis Departamento de Informática em Saúde UNIFESP Universidade Federal de São Paulo – UNIFESP Contexto do DW CBIS'2004 IX Congresso Brasileiro de Informática em Saúde Metadata OLAP Server other sourc es Analysis Extract Transform Load Refresh Data Serve Warehouse Query Reports Data mining Operational DBs Data Marts Data Sources Data Storage OLAP Engine Front-End Tools www.unifesp.br/dis Departamento de Informática em Saúde Universidade Federal de São Paulo – UNIFESP UNIFESP DEFINIÇÕES CBIS'2004 IX Congresso Brasileiro de Informática em Saúde • Metadados: Dados a respeito de dados Descrevem completamente os dados (bases) que representam, permitindo ao usuário decidir sobre a utilização desses dados da melhor forma possível. Um item de um metadado pode dizer do que se trata aquele dado, geralmente uma informação inteligível por um computador. Os metadados facilitam o entendimento dos relacionamentos e a utilidade das informações dos dados. www.unifesp.br/dis Departamento de Informática em Saúde Universidade Federal de São Paulo – UNIFESP UNIFESP DEFINIÇÕES CBIS'2004 IX Congresso Brasileiro de Informática em Saúde • Ferramentas ETL ETL - Extração, Transformação e Carga de Dados O ETL ou ETT (Extração, Transformação e Transporte) Parte do Data Warehouse responsável por ler os dados do sistema origem, Tratar, Limpar, Transformar e Carregar esses dados no Data Warehouse. Uma das fases mais criticas de um Data Warehouse: envolve a movimentação dos dados. Poderosa fonte de geração de metadados, e que contribuem muito para a produtividade da equipe de TI. • 1. definir fontes de dados e fazer a extração deles • 2. transformar e limpar os dados, padronizar (reduzir inconsistência e lixo) • 3. integrar todas fontes de dados num único banco (garantir integridade dos dados) www.unifesp.br/dis Departamento de Informática em Saúde Universidade Federal de São Paulo – UNIFESP UNIFESP DEFINIÇÕES CBIS'2004 IX Congresso Brasileiro de Informática em Saúde • Ferramentas OLAP - On-line Analytical Processing • • • • • • • Voltadas para o suporte à decisão. para acesso e manipulação de grandes depósitos de dados; integração de informações provenientes de fontes diversas software que permite analisar e visualizar dados corporativos de forma rápida, consistente e principalmente interativa permitem análises estatísticas sofisticadas e simulação eficiente de novas associações entre os dados. espaço multidimensional, onde cada eixo representa uma dimensão e os pontos neste espaço com um valor medido correspondente a interseção dos elementos correspondentes em dada dimensão . ferramenta de Business Inteligente utilizada para apoiar as empresas na análise ad-hoc de suas informações, visando obter novos conhecimentos que são empregados na tomada de decisão. www.unifesp.br/dis Departamento de Informática em Saúde UNIFESP Universidade Federal de São Paulo – UNIFESP CBIS'2004 IX Congresso Brasileiro de Informática em Saúde Hierarquia: 1. Geografia 2. País 3. Estado 4. Cidade 5. Etc... Termos do Olap Dimensões Cubo Medidas: É representada por uma dimensão especial utilizada para realizar comparações. Inclui membros como: custos, lucros ou taxas. Membros www.unifesp.br/dis Departamento de Informática em Saúde Universidade Federal de São Paulo – UNIFESP UNIFESP CBIS'2004 IX Congresso Brasileiro de Informática em Saúde DEFINIÇÕES • Data mining • • estudo comportamental dos dados vinculado à disciplinas como redes neurais, inteligência artificial e lógica nebulosa • Objetivo: fazer modelos de previsão e apresentar tendências e relações ocultas entre os dados www.unifesp.br/dis Departamento de Informática em Saúde UNIFESP Universidade Federal de São Paulo – UNIFESP CBIS'2004 IX Congresso Brasileiro de Informática em Saúde EXEMPLOS DE FERRAMENTAS COMERCIAIS • Ferramentas ETL • DTS (Data Transformation Service) • Data Stage, ETI, Acta e Sagent • Cognos Business Intelligence Platform • MicroStrategy; 7i Platform; Aplix • Ferramentas OLAP • OLAP Option, da Oracle • Analysis Services, da Microsoft. • DSS MicroStrategy • Maestro Ferramentas Data mining • SAS Enterprise Miner • IBM Intelligent Miner • Oracle Darwin Data Mining Software • www.unifesp.br/dis Departamento de Informática em Saúde CBIS'2004 IX Congresso Brasileiro de Informática em Saúde Universidade Federal de São Paulo – UNIFESP UNIFESP A Proposta do Projeto www.unifesp.br/dis Departamento de Informática em Saúde UNIFESP Universidade Federal de São Paulo – UNIFESP ESCOPO DO PROJETO DATASUS CBIS'2004 IX Congresso Brasileiro de Informática em Saúde SIA SIH IEV IEP PS MAT Carga XLS DOC WEB As fontes de dados correspondem às bases de dados provenientes dos sistemas do DATASUS, além de planilhas e documentos internos. DW SESSP Front-End Coordena -dorias Diretorias Regionais Gestores Município As informações produzidas devem atender aos gestores municipais, diretores regionais e os coordenadores. www.unifesp.br/dis Departamento de Informática em Saúde CBIS'2004 IX Congresso Brasileiro de Informática em Saúde Universidade Federal de São Paulo – UNIFESP UNIFESP Metodologia e Estratégia de Desenvolvimento www.unifesp.br/dis Departamento de Informática em Saúde Universidade Federal de São Paulo – UNIFESP UNIFESP CBIS'2004 IX Congresso Brasileiro de Informática em Saúde METODOLOGIA INMON www.unifesp.br/dis Departamento de Informática em Saúde Universidade Federal de São Paulo – UNIFESP UNIFESP CBIS'2004 IX Congresso Brasileiro de Informática em Saúde METODOLOGIA PROPOSTA www.unifesp.br/dis Departamento de Informática em Saúde UNIFESP Universidade Federal de São Paulo – UNIFESP CBIS'2004 IX Congresso Brasileiro de Informática em Saúde ESTRATÉGIA PROPOSTA R e la t ó r io s / C o n s u lt a s B D D im e n s io n a l B D R e la c io n a l A estratégia adotada é a criação de um banco de dados relacional (operacional) além do dimensional. O principal motivo é manter os dados fontes em um meio mais seguro. A r q u iv o s S U S www.unifesp.br/dis Departamento de Informática em Saúde Universidade Federal de São Paulo – UNIFESP UNIFESP CBIS'2004 IX Congresso Brasileiro de Informática em Saúde FERRAMENTAS UTILIZADAS www.unifesp.br/dis Departamento de Informática em Saúde CBIS'2004 IX Congresso Brasileiro de Informática em Saúde Universidade Federal de São Paulo – UNIFESP UNIFESP O processo de Carga www.unifesp.br/dis Departamento de Informática em Saúde UNIFESP Universidade Federal de São Paulo – UNIFESP CBIS'2004 IX Congresso Brasileiro de Informática em Saúde ETAPAS DA CARGA Na primeira fase os dados dos sistemas fontes (DATASUS) são carregados em um banco relacional, e posteriormente, são transportados para o banco dimensional. R e la t ó r io s / C o n s u lt a s B D D im e n s io n a l Oracle Warehouse Buider B D R e la c io n a l Ferramenta Desenvolvida A r q u iv o s S U S www.unifesp.br/dis Departamento de Informática em Saúde UNIFESP Universidade Federal de São Paulo – UNIFESP CBIS'2004 IX Congresso Brasileiro de Informática em Saúde FERRAMENTA DESENVOLVIDA Efetua Download, compara e atualiza a estrutura, verifica conteúdo e unifica movimentos. www.unifesp.br/dis Departamento de Informática em Saúde CBIS'2004 IX Congresso Brasileiro de Informática em Saúde Universidade Federal de São Paulo – UNIFESP UNIFESP A exibição da Informação www.unifesp.br/dis Departamento de Informática em Saúde Universidade Federal de São Paulo – UNIFESP UNIFESP CBIS'2004 IX Congresso Brasileiro de Informática em Saúde FERRAMENTA OLAP - Cadastramento das descrições dos dados e das regras de negócio no metadados. - Desenvolvimento de relatórios e consultas prédefinidos para atender os principais requisitos. www.unifesp.br/dis Departamento de Informática em Saúde CBIS'2004 IX Congresso Brasileiro de Informática em Saúde Universidade Federal de São Paulo – UNIFESP UNIFESP Resultados e Discussão www.unifesp.br/dis Departamento de Informática em Saúde Universidade Federal de São Paulo – UNIFESP UNIFESP CBIS'2004 IX Congresso Brasileiro de Informática em Saúde STATUS DO PROJETO • Fase final de implementação do primeiro módulo (SAI Sistemas de Informações Ambulatoriais). • Considerando apenas o módulo SIA, o volume mensal de dados para serem carregados no DW é de 1.800.000 registros, que corresponde a aproximadamente a 211 Mb. Acrescentando as tabelas auxiliares, este número aproxima-se de 250 Mb. Isto corresponde a 2,9 Gb por ano. •Os tempos para o processo de carga estão plenamente satisfatórios, mesmo sendo realizados os testes de performance em um ambiente muito inferior ao ambiente de produção. (Primeira fase = 2 Horas, Segunda fase = 10 Minutos) www.unifesp.br/dis Departamento de Informática em Saúde Universidade Federal de São Paulo – UNIFESP UNIFESP CBIS'2004 IX Congresso Brasileiro de Informática em Saúde DESAFIOS E AÇOES ADOTADAS www.unifesp.br/dis Departamento de Informática em Saúde CBIS'2004 IX Congresso Brasileiro de Informática em Saúde Universidade Federal de São Paulo – UNIFESP UNIFESP Conclusões www.unifesp.br/dis Departamento de Informática em Saúde Universidade Federal de São Paulo – UNIFESP UNIFESP CBIS'2004 IX Congresso Brasileiro de Informática em Saúde • O estágio atual do projeto, mostra um resultado positivo que supera as expectativas iniciais e encoraja a implementação dos demais módulos. • O projeto foi desenvolvido utilizando um conjunto de ferramentas robustas e adotando metodologia adequada para garantir o sucesso do empreendimento. • Os fatores mensuráveis apresentaram números positivos. O volume de dados é razoável, comparado a outros projetos, e o desempenho dos procedimentos de carga está plenamente satisfatório. • Os próximos passos, já em andamento, são a avaliação da satisfação dos usuários para o módulo desenvolvido e a implementação dos demais módulos. www.unifesp.br/dis Departamento de Informática em Saúde UNIFESP CBIS'2004 IX Congresso Brasileiro de Informática em Saúde Universidade Federal de São Paulo – UNIFESP Projeto de um Data Warehouse para a Saúde Pública Contato: [email protected] [email protected] www.unifesp.br/dis