15 1 INTRODUÇÃO A Oncologia é uma disciplina complexa, que é auxiliada por outras especialidades, como cirurgia, pediatria, patologia, radiologia, psiquiatria, que faz do sucesso um mérito das ações multidisciplinares. Na Oncologia existem três objetivos principais no atendimento ao paciente, a primeira é de tratar, de curar e devolvê-los a sociedade, e a segunda está na remissão longa e satisfatória, buscando deixar o paciente bem consigo durante o maior tempo possível, e quando a chance de remissão é remota, o objetivo passa a ser o de controlar a doença e seus sintomas pelo uso correto de terapias paliativas, e a terceira está na melhora de vida do paciente. O Centro de Endoscopia e Assistência à Fertilidade no que tange a Oncologia diz: “Nosso objetivo quanto ao câncer é conhecê-lo para intervir e, à medida que aumentamos nosso conhecimento, preveni-lo. O esforço é atingir o processo não visível do problema que, como um iceberg, é muito maior do que parece ser. Certamente já se avançou muito, como pode ser verificado no manifesto da atual abordagem das neoplasias malignas”. Como o Hospital Regional do Oeste (HRO) é um importante Centro de Tratamento Oncológico na região e também no Estado, pois oferece tratamentos como Radioterapia, Quimioterapia, Cirurgia Oncológica entre outros. Também busca atingir aos três objetivos principais da oncologia que estão focados na cura e na melhora da qualidade de vida do paciente. Este trabalho propõe a construção de um protótipo que possibilite a definição de um ambiente utilizando-se de um Data Warehouse (Armazém de Dados) para aplicação de técnicas de Data Mining (Mineração de Dados) e On-Line Analytic Processing (OLAP), tendo como função conhecer os casos tratados no HRO. No desenvolvimento do protótipo serão utilizados para validação dados dos atendimentos realizados como: nome do paciente, sexo, idade, diagnóstico, cidade, cor, religião. Além destes são utilizados dados clínicos, cirúrgicos, exames auxiliares, avaliação nutricional e terapias que serão utilizadas para gerar um Data Mart. O protótipo tem por objetivo propiciar a criação de ambiente Data Warehouse, auxiliando na identificação de padrões através de técnicas Data Mining (Mineração de dados) e On-Line Analytic Processing (OLAP), fornecendo subsídio aos profissionais de oncologia no processo de tomada de decisão. 16 O estudo de caso será realizado no Hospital Regional do Oeste (HRO), com intuito de oferecer uma ferramenta de apoio, para extração de informações que possam ser relevantes no tratamento dos pacientes oncológicos. 1.1 OBJETIVOS Os objetivos estão divididos em gerais e específicos. 1.1.1 Gerais Construir um protótipo que permita a equipe técnica de oncologia, criar um ambiente Data Warehouse utilizando-se técnicas de Data Mining e OLAP buscando oferecer subsídio a tomada de decisão. 1.1.2 Específicos Para atingir o objetivo geral, as seguintes etapas se fazem necessárias: • compreender a oncologia; • estudar Data Warehouse (Armazém de Dados) e Data Mart; • estudar as técnicas de Data Mining para extração de informações; • avaliar as etapas para construção de um Sistema de Apoio a Tomada de Decisão; • levantar os requisitos necessários para o desenvolvimento do protótipo; • desenvolver o protótipo permitindo a criação de um ambiente Data Warehouse, aplicando de técnicas de Data Mining e OLAP. 17 1.2 PROBLEMATIZAÇÃO De acordo com especialistas, muitos casos de câncer podem ser relacionados a fatores ambientais, como excesso de exposição ao sol (câncer de pele), o consumo do cigarro (câncer de pulmão, boca), e ainda existem estudos para detectar outros fatores ou hábitos que levam a ocorrência do câncer. Atualmente no Brasil os dados estatísticos com relação ao câncer são muito falhos e insuficientes, não retratando a realidade que vivemos. O Instituto Nacional do Câncer (INCA) tem como atribuição desenvolver uma política de prevenção, detecção e tratamento do câncer, visando à qualificação no tratamento e o acompanhamento eficiente dos casos da doença no Brasil, além de pesquisas sobre os fatores motivadores da doença. A situação verificada no Brasil também faz parte da realidade no estado de Santa Catarina, bem como na Região Oeste, onde o principal centro de tratamento desta doença no Hospital Regional do Oeste (HRO), disponibilizando profissionais das mais variadas especialidades como: radioterapeutas, oncologistas, cirurgiões oncologistas, físico, nutricionistas, assistentes sociais, enfermeiros, fisioterapeutas, psicólogos entre outros. Esta estrutura fornece terapias como radioterapia, quimioterapia, cirurgia oncologia, acompanhamento clinico, nutricional, psicológico e assistencial, visando ao bem estar do paciente em tratamento e de seus familiares. A falta de registros estatísticos é uma realidade que parece não importar a sociedade, mas o crescente aumento no número de casos, refletindo no aumento de pessoas que convivem com está neoplasia, torna o tema de alta relevância, pois se conhecermos os hábitos, costumes dos pacientes tratados, será possível modificar hábitos, costumes, permitindo a prevenção, a detecção precoce, visando reduzir o índice de mortalidade. O uso das novas tecnologias de Sistemas de Informação (SI) visam permitir que os dados sejam gerados e avaliados de forma otimizada e eficiente, através das novas técnicas, disponíveis como: Data Warehouse (DW), Data Mining (DM), Business Intelligence (BI). A proposta deste projeto é desenvolver um protótipo que possibilite a criação de um ambiente Data Warehouse, utilizando técnicas de mineração de dados, gráficos, tabelas e relatórios, que permitam aos profissionais a identificação de hábitos, tendências e históricos familiares que auxiliem no aperfeiçoamento do tratamento de pacientes. 18 O uso dos SI’s permitem que os profissionais identifiquem informações que antes eram desconhecidas, já que o processo de cruzamento de informações dos casos tratados era realizado de forma manual, o que dificultava substancialmente a identificação de padrões. 1.3 JUSTIFICATIVA O câncer pode surgir de várias causas, e o seu surgimento pode ser derivado de uma seqüência de eventos. Câncer (ou neoplasia, ou tumor maligno) é uma classe de doenças caracterizadas pelo crescimento descontrolado de células aberrantes, e pode matar devido à invasão destrutiva de órgãos normais por estas células, por extensão direta ou por disseminação à distância, que pode ser através do sangue, linfa ou superfície serosa (SASSE, 2002). As neoplasias é a terceira maior causa de morte no Brasil (superadas apenas pelas doenças do aparelho circulatório e pelas causas externas / violência). Estima-se que durante o século 21 o câncer já seja a principal causa de morte no Brasil (INCA, 2002). De acordo com o Instituto Nacional do Câncer (INCA), que tem como função assistir ao Ministério da Saúde na formulação de políticas de prevenção, diagnóstico e tratamento de neoplasias malignas e afecções correlatas. O objetivo é planejar, organizar, executar, dirigir, controlar e supervisionar planos, programas, projetos e atividades em âmbito nacional, (INCA, 2002). Como estas atividades também são desempenhadas no HRO, é necessário que a instituição também possa avaliar, planejar, organizar, executar e supervisionar seus serviços, tendo como meta a qualidade, eficiência e eficácia no tratamento dos pacientes. Como o sucesso da terapia contra o câncer depende da escolha das modalidades de tratamento que mais se adaptam ao paciente e à sua doença, faz-se necessário a cooperação entre especialidades, tornando o conhecimento de casos já atendidos e seus resultados alcançados um fator de grande importância. Este projeto visa fornecer uma ferramenta que permita aos profissionais de oncologia, identificar, investigar e avaliar padrões que possam dar maior consistência as decisões. As decisões podem estar vinculadas a tratamentos, campanhas de prevenção e projetos educacionais, visando à melhoria da qualidade de vida e redução de futuros casos. 19 Como as técnicas de Data Warehouse e Data Mining têm sido muito utilizadas em âmbito comercial, possibilitando aos empresários definir estratégias futuras para sua empresa, porque não utilizá-las também para profissionais e gestores de serviços de saúde? A proposta deste trabalho consiste em fornecer uma ferramenta que permita a definição de um ambiente com os dados considerados relevantes, através da extração, validação, transformação e carga. Após estas etapas necessárias para obtenção de informações é possível a busca de conhecimentos que transmitam maior confiabilidade no tratamento indicado, bem como possíveis formas de evitar eventos que possam levar as ocorrências destas neoplasias. Atualmente o HRO utiliza-se de fichas e formulários impressos onde são coletadas informações sobre hábitos gerais dos pacientes (alimentação, práticas de esporte), informações pessoais (nome, idade, sexo, cidade), históricos familiares e tratamentos (procedimento, médico, diagnóstico). Portanto, a importância deste trabalho está em otimizar a coleta de informações através de arquivos textos, ou ainda, inserindo os dados coletados através de fichas diretamente na base. Com isso é possível o cruzamento de informações e a identificação de informações de forma rápida, não necessitando de um trabalho exaustivo de contagem manual, o que torna o processo demorado, evitando que informações relevantes sejam desperdiçadas. 1.4 PROCEDIMENTOS METODOLÓGICOS No desenvolvimento do protótipo foi necessária uma pesquisa ampla sobre câncer, oncologia, Data Warehouse, OLAP, Data Mining e suas técnicas. Também foi necessário obter conhecimento dos procedimentos envolvidos nos serviços da oncologia do Hospital Regional do Oeste (HRO), onde foi aplicada a pesquisa e validado o protótipo. O protótipo possui uma abordagem quantitativa considerando que os dados foram avaliados e minerados, mas também qualitativa, pois o resultado desta mineração permitirá a análise e a busca por padrões que objetivam melhorar a qualidade dos tratamentos oncológicos prestados pelo HRO. A pesquisa teve como objetivo o desenvolvimento de um protótipo que possibilite aos profissionais que atuam na área oncológica, acesso a informações relacionadas à pacientes atendidos, diagnosticados e tratados. 20 Para auxiliar na construção do estudo de caso utilizou-se materiais bibliográficos como: livros, revistas, monografias, além de manuais e artigos disponíveis na internet e também nos Serviços de Oncologia do HRO. Conforme exposto a pesquisa foi aplicada, quantitativa e qualitativa, exploratória, bibliográfica, documental, sendo o estudo de caso realizado no HRO. 1.5 ORGANIZAÇÃO DO TRABALHO O trabalho é composto por sete capítulos, sendo dividido em itens e sub-itens. No capítulo dois é abordado o tema oncologia, câncer, conceitos, tratamento e informações sobre o tema. No capítulo três serão abordados assuntos como Business Intelligence, evolução dos sistemas de apoio à decisão, além de aspectos sobre Data Warehouse (Armazém de Dados), os elementos básicos, arquitetura, suas etapas de construção, o modelo de dados utilizado, o que são metadados e um estudo sobre data mart. Também será abordado o tema Data Mining, relatando seu funcionamento, etapas e técnicas. No capítulo quatro, o principal objetivo é apresentar um estudo do ambiente, que é de suma importância para permitir que seja proposto um modelo. Neste estudo é importante conhecer o histórico, a estrutura organizacional, como está definido o fluxo de informações e levantamento de requisitos. No capítulo cinco tem como prioridade demonstrar as ferramentas utilizadas, e a apresentação do protótipo desenvolvido, levando em consideração a revisão bibliográfica. As especificações coletadas no levantamento de requisitos foram utilizadas na validação do protótipo. No capítulo seis, são enfatizadas recomendações para trabalhos futuros. as considerações finais, contribuições e 21 2 ONCOLOGIA - ESTUDO DOS TUMORES (CÂNCER) Este capítulo tem como objetivo compreender o que é oncologia, o que é o câncer, como se ocorre sua formação, quais os tipos, as modalidades terapêuticas, como evitar e como está sendo o registro dos casos no Mundo e no Brasil. 2.1 ONCOLOGIA A origem da palavra é do grego ogkos (tumor) mais logos (tratar de), que tem como significado o estudo dos tumores (Dicionário). Segundo Sasse (2002), a oncologia tornou-se uma disciplina ampla e muito interessante, sendo auxiliada por várias especialidades, ou seja, multidisciplinares, pois envolve áreas diversas como: cirurgia, pediatria, patologia, radiologia, psiquiatria, nutrição, fisioterapia entre outras. Na oncologia três objetivos são considerados primordiais, que consistem em curar o paciente o mais breve possível, não sendo possível, o segundo objetivo é postergar o máximo e o terceiro é com a melhor qualidade possível, permitindo que o paciente tenha uma vida menos sofrida. Também é levado em consideração a sensibilidade e o bom senso. Como relata Cenafert (2003), o objetivo da oncologia é conhecer o câncer, para tratar, e com o domínio do conhecimento, preveni-lo. Há uns 40 anos até mesmo para os profissionais médicos comunicarem ao seu paciente o problema era complicado, normalmente esse contato era feito com familiares, a mudança de cultura e as possibilidades de cura minimizaram este fato, já ficou muito mais fácil discutir com o próprio paciente sobre seu problema e as possibilidades de tratamento. Antigamente o conhecimento da doença partia do diagnóstico, constatado em fases avançadas. Nesta época pouco se podia fazer para o conhecimento das alterações morfológicas nas células, pelo microscópio, quando a doença é incipiente. O avanço seguiu ainda mais e estamos no estágio onde, em alguns casos, dispomos de tecnologia para detectar alterações que estão em andamento na molécula e que podem ser desencadeadoras de uma neoplasia no futuro. A ação preventiva, nesse caso pode ser bastante precose (CENAFERT, 2003). 22 Como relata Cenafert (2003) quarenta por cento dos tumores são preveníveis e uma outra quantidade igual é controlável, e os outros vinte por cento estão sendo pesquisados e estudados constantemente. 2.2 DEFINIÇÃO DO CÂNCER O câncer, ou neoplasias, ou ainda tumor maligno são células descaracterizadas que passam por um crescimento descontrolado, podendo levar a morte devido à invasão destrutiva de órgãos normais, por extensão direta ou por disseminação à distância, que pode ser disseminada pelo sangue, linfa ou superfície serosa. “Este comportamento anormal das células cancerosas é geralmente espelhado por mutações genéticas, expressões de características ontológicas, ou secreção anormal de hormônios ou enzimas” (SASSE, 2002). Segundo Inca (2002), o câncer é um conjunto de 100 doenças com crescimento desordenado, maligno, que invadem células e órgãos, disseminando-se por outras partes do corpo, também é conhecido como metástase. A divisão descontrolada destas células ocasionão tumores (acúmulo de células cancerosas), que são definidas como neoplasias malignas, já os tumores benignos são simplesmente células que são muito parecidas com as normais e que se dividem vagarosamente sem fornecer risco à vida do paciente. Todos os cânceres têm o potencial de invasão ou de metastalização, mas cada tipo específico tem características clínicas e biológicas, que devem ser estudadas para um adequado diagnóstico, tratamento e acompanhamento (SASSE, 2002). A figura abaixo demonstra como atuam as células anormais (cancerosas), que infiltram tecidos até atingir órgãos. Figura 1: Ilustração de como ocorre a formação do tumor (INCA, 2002) 23 2.3 CAUSAS DO CÂNCER A seqüência de eventos pode desencadear a ocorrência, ou auxiliar no surgimento dos tumores, através de modificações genéticas que transformem células normais em células destrutivas, que não seguem os padrões das outras células (SASSE, 2002). As causas de câncer são variadas, podendo ser externas ou internas ao organismo, estando ambas inter- relacionadas. As causas externas relacionam-se ao meio ambiente e aos hábitos ou costumes próprios de um ambiente social e cultural. As causas internas são, na maioria das vezes, geneticamente pré-determinadas, estão ligadas à capacidade do organismo de se defender das agressões externas. Esses fatores causais podem interagir de várias formas, aumentando a probabilidade de transformações malignas nas células normais (INCA, 2002). Segundo Inca (2002), a maioria dos cânceres, em torno de 80 ou 90%, são ocasionados por fatores ambientais, incentivados por hábitos como: cigarro, que causa principalmente o câncer de pulmão, exposição muito longa ao sol que causa câncer de pele, entre outros, também podendo ser ocasionados por vírus que causam, por exemplo, a leucemia (câncer no sangue). Segundo Inca (2002) casos que sejam efetivamente causados por fatores hereditários, familiares e étnicos, são raros, apesar de existirem alguns casos tipo de portadores de retinoblastoma, que em 10% tem um histórico familiar de tumores, bem como alguns tipos de câncer de mama, estômago e intestino, que possuem um componente familiar bastante significativo. Também existem alguns dados com relação a grupos étnicos como orientais que apresentam casos raros de leucemia linfocítica e negros com o Sarcoma de Ewing. 2.4 ESTADIAMENTO GERAL DO CÂNCER O Cenafert (2003) apresenta um demonstrativo simplificado de como são divididos os estágios do câncer: Estágio 1. Localizado: Está em geral dentro do órgão de origem, normalmente possível de cura com cirurgia e irradiação no local afetado; 24 Estágio 2. Localizado mas extenso: Quando sai para fora do órgão origem, fica normalmente próximo, em certo momentos curável com cirurgia e irradiação, em conjunto com a quimioterapia; Estágio 3. Disseminado regionalmente: Ultrapassa os limites do órgão origem, passando por muitos tecidos, podendo atingir gânglios (linfonodos), pode ser curado, mas em muitos casos não ocorre a cura e o tratamento do local ou do sistema depende do tumor; Estágio 4. Disseminado difusamente: Quanto já atingiu vários órgãos distantes, os casos de cura são muito raros. 2.5 MODALIDADES TERAPÊUTICAS Abaixo são demonstradas as modalidades terapêuticas utilizadas segundo Sasse (2002). Cirurgia: Utilizada para tumores localizados em situações anatômicas favoráveis. É uma modalidade muito importante na cura, mas que no caso de tumores disseminados não é suficiente. Radioterapia: Medido em rads, utilizados em tumores que costumam retornar após cirurgia, podendo ocasionar lesões em células próximas ao tumor, e a quantidade de aplicação depende do tumor. Quimioterapia: Utilizam medicamentos que causam danos às células, utilizando vários medicamentos considerando-se sensibilidades diferentes às drogas antineoplasicas, em geral lesão de DNA celular. A causa da maioria dos efeitos colaterais como: náuseas, vômitos, anemia, mielossupressão são devido à toxicidade contra células normais. Normalmente utilizada depois de outras terapias como: tratamento cirúrgico, radioterápico em caso de câncer de leucemias, linfomas, testículo, etc. Terapia biológica: Uso de modificadores biológicos, fazendo com que as células tumorais sejam de fácil controle e que permitam ao próprio organismo o combate à doença. 2.6 TIPOS DE CÂNCER Os tipos de câncer e seus fatores de risco conforme o Infocâncer (2004) são: 25 2.6.1. Câncer de Boca Para Infocâncer (2004), os fatores que podem levar ao câncer de boca são os vícios de fumar cachimbos e cigarros, o consumo de álcool, a má higiene bucal e o uso de próteses dentárias mal-ajustadas. 2.6.2. Câncer do Colo do Útero Os fatores sociais, ambientais e os hábitos de vida, tais como baixas condições sócioeconômicas, atividade sexual antes dos 18 anos de idade, pluralidade de parceiros sexuais, vício de fumar (diretamente relacionado à quantidade de cigarros fumados), hábitos de higiene e o uso prolongado de contraceptivos orais são os principais motivos da doença. Estudos recentes mostram ainda que o vírus do papiloma humano (HPV) e o Herpesvírus Tipo II (HSV) têm papel importante no desenvolvimento da displasia das células cervicais e na sua transformação em células cancerosas. O vírus do papiloma humano (HPV) está presente em 94% dos casos de câncer do colo do útero (INFOCÂNCER, 2004). 2.6.3. Câncer de Fígado Cerca de 50% dos pacientes com carcinoma hepatocelular apresentam cirrose hepática, que pode estar associada ao etilismo (Consumo de Bebida alcoólica) ou hepatite crônica, cujo fator etiológico predominante é a infeccão pelo vírus da hepatite B, segundo (INFOCÂNCER, 2004). 2.6.4. Câncer de Laringe Conforme Infocâncer (2004) há uma forte associação entre a ingestão excessiva de álcool e o vício de fumar, com o desenvolvimento de câncer nas vias aerodigestivas superiores. O tabagismo é o maior fator de risco para o desenvolvimento do câncer de laringe. Quando a ingestão excessiva de álcool é adicionada ao fumo, o risco aumenta para o câncer supraglótico. Pacientes com câncer de laringe que continuam a fumar e beber tem probabilidade de cura reduzida e aumentam o risco de aparecimento de um segundo tumor primário na área de cabeça e pescoço. 2.6.5. Câncer de Mama Segundo Infocâncer (2004), as causas de câncer de mama ainda são desconhecidas. O histórico familiar constitui o fator de risco mais importante, especialmente se o câncer ocorreu na mãe ou em irmã, se foi bilateral e se desenvolveu antes da menopausa. Outro fator de risco é a exposição à radiação ionizante antes dos 35 anos. A menopausa tardia 26 (além dos 50 anos, em média) está associada a uma maior incidência, assim como a primeira gravidez após os 30 anos de idade. No entanto, ainda não está comprovado se a mulher que retarda intencionalmente a gravidez para depois dos 30 anos tem maior risco de que aquelas cuja gravidez não pôde ocorrer espontaneamente. Continua sendo alvo de muita controvérsia o uso de contraceptivos orais no que diz respeito à sua associação com o câncer de mama. Aparentemente, certos subgrupos de mulheres, com destaque para as que usaram pílulas com dosagens elevadas de estrogênios ou por longo período de tempo, têm maior risco. Outro fator de risco é a ingestão regular de álcool, mesmo que em quantidade moderada, que gera um aumento moderado do risco de câncer de mama. 2.6.6. Câncer de Próstata Os antecedentes familiares têm particular importância, pois elevam o risco em três vezes ou mais para os descendentes de doentes de câncer de próstata. Quanto aos fatores ambientais, existem muitas relações possíveis, entre as quais com substâncias químicas utilizadas na indústria de fertilizantes, ferro, cromo, cádmio borracha e chumbo, embora não seja comprovada a correlação entre esses fatores e uma maior incidência do câncer de próstata (INFOCÂNCER, 2004). Outros fatores importantes para Infocâncer (2004) são as dietas ricas em gordura animal que podem aumentar as taxas de androgênios e estrogênios e relacionar-se com o aumento dos tumores da próstata, ao contrário da gordura vegetal e dos frutos do mar. Calcula-se que de 75% a 80% dos tumores não se expressam clinicamente, e apenas 20% a 25% manifestarão sintomas. Destes, 10% são focais, 40% são iniciais e talvez curáveis e 50% são avançados. Estes números variam com a maior ou menor possibilidade de detecção precoce da doença. Os tumores encontrados nas necropsias são geralmente pequenos, bem diferenciados e estão confinados à glândula, ao contrário do que ocorre com os homens que morrem de câncer de próstata, que portam tumores grandes ou invasivos. O retardo do diagnóstico prende-se a diversos fatores: a falta de informação da população leiga, que mantém crenças ultrapassadas e negativas sobre o câncer e seu prognóstico; a falta de alerta dos profissionais da saúde para o diagnóstico precoce dos casos; o preconceito contra o câncer e contra o toque retal; a inexistência de um exame específico e sensível que possa detectar tumor em fase microscópica e a falta de rotinas abrangentes programadas nos serviços de saúde públicos e privados que favoreça a detecção do câncer, inclusive o de próstata. 27 2.6.7. Câncer de Pulmão Independentemente do tipo celular ou subcelular, o tabagismo é o principal fator de risco do câncer pulmonar, sendo responsável por 90% dos casos. Outros fatores relacionados são certos agentes químicos (como o arsênico, asbestos, berílio, cromo, radônio, níquel, cádmio e cloreto de vinila, principalmente encontrados no ambiente ocupacional), fatores dietéticos (baixo consumo de frutas e verduras), a doença pulmonar obstrutiva crônica (enfisema pulmonar e bronquite crônica), fatores genéticos (que predispõem à ação carcinogênica de compostos inorgânicos de asbesto e hidrocarbonetos policíclicos aromáticos) e história familiar de câncer de pulmão (INFOCÂNCER, 2004). 2.6.8. Câncer de Ovário As mulheres que apresentam diagnóstico de câncer de mama ou intestino, ou têm parentes próximos com esses tipos de cânceres são propensas a desenvolver o câncer de ovário. As mulheres que nunca tiveram filhos também têm mais chances de desenvolver a doença. Nesse caso, a ovulação é incessante, portanto a possibilidade de haver problemas no ovário é maior. Já a gravidez e a menopausa produzem o efeito contrário: reduzem o risco deste tipo de câncer. A amamentação também protege a mulher contra o câncer de ovário. A presença de cistos no ovário, bastante comum entre as mulheres, não deve ser motivo para pânico. O perigo só existe quando eles são maiores que 10 cm e possuem áreas sólidas e líquidas. Nesse caso, quando detectado o cisto, a cirurgia é o tratamento indicado (INFOCÂNCER, 2004). 2.6.9. Leucemia A leucemia é uma doença maligna dos glóbulos brancos (leucócitos) de causa não conhecida. Ela tem como principal característica o acúmulo de células na medula óssea. A medula é o local de formação das células sangüíneas, ocupa a cavidade dos ossos e é conhecida popularmente por tutano. Nela são encontradas as células mães ou precursoras que originam os elementos figurados do sangue (glóbulos brancos, glóbulos vermelhos ou hemácias ou eritrócitos e plaquetas). Os principais sintomas de leucemia decorrem do acúmulo dessas células na medula óssea, prejudicando ou impedindo a produção dos glóbulos vermelhos (causando anemia), glóbulos brancos (causando infecções) e plaquetas (causando hemorragias e manchas roxas). Depois de instalada, a doença progride rapidamente, exigindo início de tratamento rápido. (INFOCÂNCER, 2004). 28 2.6.10. Melanoma ou Câncer de Pele Os fatores de risco levantados por Infocâncer (2004), em ordem de importância é a sensibilidade ao sol (queimadura pelo sol e não bronzeamento), a pele clara, a exposição excessiva ao sol, a história prévia de câncer de pele, história familiar de melanoma, nevo congênito (pinta escura), maturidade (após 15 anos de idade a propensão para este tipo de câncer aumenta), xeroderma pigmentoso (doença congênita que se caracteriza pela intolerância total da pelo ao sol, com queimaduras externas, lesões crônicas e tumores múltiplos) e nevo displásico (lesões escuras da pele com alterações celulares précancerosas). 2.6.11. Tumores de Ewing (Tumor de Askin) Para Infocâncer (2004), a causa é desconhecida. Não parece ser hereditária. São tumores extremamente raros em negros e asiáticos. 2.7 CONSIDERAÇÕES FINAIS DO CAPÍTULO Neste capítulo foi visto sobre o que é oncologia, câncer, as causas, os estágios, seus tratamentos e tipos de cânceres, a seguir começaremos a conhecer as tecnologias a serem utilizadas para o desenvolvimento do projeto. 29 3 BUSINESS INTELLIGENCE – BI Neste capítulo serão abordados assuntos como Business Intelligence, evolução dos sistemas de apoio à decisão, além de aspectos sobre Data Warehouse (Armazém de Dados), os elementos básicos, arquitetura, suas etapas de construção, o modelo de dados utilizado, o que são os metadados e um estudo sobre data mart. Também será abordado o tema Data Mining, relatando seu funcionamento, etapas e técnicas. Inicialmente é importante o entendimento dos termos que constituem esse conceito: Business (negócio) e Intelligence (inteligência), ou seja, inteligência de negócio. O objetivo do BI está em servir de auxilio para tratamento da base de dados existente, de forma a melhorar o processo de tomada de decisão. O BI engloba o uso de ferramentas sofisticadas, como por exemplo, a Inteligência Artificial (IA), propiciando informações mais trabalhadas, gerando uma base de conhecimento, obtida através da base de dados existente, sendo disseminado pela empresa em um contínuo processo de verificação e aprimoramento. De acordo com Data Warehouse (1999) apud Smaniotto (2001), BI é a união de conceitos e metodologias, utilizando-se de fatos que forneçam suporte a tomada de decisão. Para MV2 (2001) apud Smaniotto (2001), BI ou “Inteligência Empresarial” tem como objetivo apresentar informações de maneira e formato corretos e em tempo hábil para dar suporte à tomada de decisões. A figura abaixo demonstra uma visão geral da arquitetura de um BI: Figura 2. Visão Geral da Arquitetura de um Business Intelligence (ALCÄNTARA, 2003) 30 Conceituando seus componentes: • operacional: são os dados do dia-a-dia da empresa. Segundo Inmon (1997), "é denominado desta forma, pois, está relacionado com operações de negócios diárias da corporação". • staging area (SA): é área de tratamento, padronização e transformação da informação. Também denominadas por Inmon (1997) como "camada de integração e transformação". • operational data store (ODS): Para Inmon (1997), ”ODS é uma base de dados integrada, volátil, de valores correntes, e que contém somente dados detalhados”. • data warehouse (DW): Para Kimball (1998), “é a fonte de dados para consultas na organização, ou seja, a união de todos os Data Marts já constituídos”. • data mart (DM): Segundo Kimball (1998), “que os data marts são subconjuntos de um DW completo”. • near line store (NLS): “armazenagem complementar ao DW, a fim de manter dados raramente acessados” (INMON, 1997). • exploration warehouse (EW): Para Inmon (1997), “um ambiente ideal para análises pesadas e inexploradas ainda por serem efetuadas, isolado do warehouse corporativo”. • metadados: Pode-se definir metadados como os dados que definem os elementos de dados da arquitetura BI. • ETL: Sigla derivada de Extract, Transformation and Load, consiste no processo de busca dos dados de sua origem para serem utilizadas em um ambiente BI, sua transformação, padronização e posterior carga no DW (ou DM ou ODS). • OLAP: Advindo da expressão On-Line Analytic Processing, Kimball (1998), define como “a atividade de consulta e apresentação de dados textuais e numéricos em um DW”. • Drill: Operação de detalhamento (drill-down) ou agregação (drill-up, também conhecido como roll-up) em um processo OLAP (INMON, 1997). 31 3.1 EVOLUÇÃO DOS SISTEMAS DE APOIO À DECISÃO Para Inmon (1997), os Sistemas de Apoio à Decisão tem origem com os computadores, porém à evolução principal ocorreu entre os anos 60 e 80, estando divididos em cinco fases, que são descritas abaixo: • Inicio década de 1960, sistemas individuais, que faziam uso de arquivos principais (mestres), que eram armazenados em fitas magnéticas; • Em 1965 aproximadamente, devido à complexidade tanto na criação e manutenção de programas, e o crescimento de arquivos mestres, surgiram enormes dificuldades devido à necessidade de hardware; • Em meados de 1970, surgiram os SGBD’s ou Sistemas de Gerenciamento de Banco de Dados, e também um novo conceito que definia que todo o processamento deveria ser realizado sobre uma base única, que é o conceito de banco de dados. Além disso, surgiu a tecnologia conhecida com direct access storage device (DASD) armazenamento em disco, que substituiu as fitas magnéticas permitindo a criação dos SGBD’s; • Já em 1975, surgiu o conceito de transações online, ou seja, com as atualizações instantâneas nos SGBD’s; • Com todas as evoluções anteriores por volta do início dos anos 80, novas tecnologias apareceram como PC (Personal Computers – Computadores Pessoais) e as L4Gs (Linguagens de Quarta Geração), possibilitando a criação dos MIS (management information systems – Sistemas de Informações Gerenciais). Para Campos e Filho (1999), as aplicações podem ser classificadas em dois grupos: 1. aplicações do negócio: são as aplicações que trabalham com o nível operacional, que atendem ao dia a dia da empresa, conhecidos como sistemas de produção; 2. aplicações sobre o negócio: são as aplicações que permitem interpretar, analisar e definir estratégias, também conhecidos como Sistemas de Apoio à Tomada de Decisões (SAD) e Sistemas de Informações Executivas (SIE-IES). Segundo Campos e Filho (1999), a arquitetura ideal baseia-se em um ambiente de bancos de dados operacionais e outro para suporte às decisões, conforme a figura 3: 32 Figura 3. Arquitetura de Dados Ideal (B.Boar, 1993 apud CAMPOS e FILHO,1999) 3.1.1 Dados Operacionais versus Dados Informacionais Sistemas de Apoio à Decisão (SAD) e Sistemas de Informações Executivos (SIE) apresentam funcionalidades e desempenho diferenciados dos sistemas de produção da empresa. (CAMPOS e FILHO, 1999): • Sistemas de Produção: atendem a muitos usuários e o tempo de resposta é fator crítico, geralmente trabalham com poucos registros; • SAD e SIE: atendem a poucos usuários e o tempo de resposta não é fator critico, utiliza-se uma grande quantidade de registros, tendo em vista que suas consultas são complexas e imprevisíveis; • SAD e SIE: devem apresentar dados consistentes, muitas vezes carregados de vários sistemas de produção, são organizados permitindo a utilização adequada de ferramentas de análise dos dados, bancos de dados que dêem suporte à SAD e SIE devem ser capazes de oferecer um bom tempo de resposta para consultas que recuperam grandes conjuntos de dados agregados e históricos; • SAD e SIE: normalmente lidam com tendências, para isto são acompanhados do período a que se referem os dados. 33 Para Furlan (1994), os EIS ou SIE são desenvolvidos para servirem de consulta sem manipulação dos dados e atendendo aos executivos da empresa, enquanto os SAD’s são desenvolvidos para atenderem ao nível gerencial, a figura abaixo apresenta as divisões de níveis dos sistemas: EIS – SISTEMAS DE INFORMAÇÕES EXECUTIVAS Estratégicos SAD- SISTEMA DE APOIO À DECISÃO Gerenciais SIG – SISTEMAS DE INFORMAÇÕES GERENCIAIS FATURAMENTO, FOLHA PAGAMENTO, CONTABIL Operacionais AUTOMAÇÃO INDUSTRIAL, COMERCIAL DE ESCRITÓRIO Automação Figura 4 – A Pirâmide de Sistemas (FURLAN, 1994) 3.2 DATA WAREHOUSE Este conceito consiste em organizar os dados corporativos da melhor maneira, oferecendo subsídio através de informações aos gerentes e diretores das empresas para tomada de decisão. Tudo isso num banco de dados paralelo aos sistemas operacionais da empresa. Segundo Inmon (1997), o Data Warehouse são dados agrupados, modificado com o tempo, por atividade, não-volátil, utilizado no apoio a tomada de decisões. Uma importante característica do Data Warehouse é a integração. Para Souza (2004), data warehouse é uma imensa base de dados não-volátil, organizada por assunto, integrada e variável em relação ao tempo. Também pode ser definido como sendo a união de técnicas quem geram um sistema de dados que propiciam conhecimentos para tomada de decisões. O desenvolvimento de sistemas de DW tem se tornado nos dias atuais uma grande área de estudo e aplicação nas empresas. A possibilidade de acessar informações confiáveis com boa velocidade e garantia de qualidade de dados está cativando os diretores das 34 organizações que cada vez mais necessitam de um controle mais efetivo dos dados da empresa sem depender de intermediários para poder tomar suas decisões (SOUZA, 2004). As informações contidas nos tradicionais sistemas orientados à transação não suprem as necessidades de consultas dos gerentes que precisam acessar longos períodos históricos, muitas vezes de vários anos, os quais certamente não estarão disponíveis nos sistemas utilizados para gerenciar as tarefas do dia-a-dia da empresa (SOUZA, 2004). Para Souza (2004) os bancos de dados são de vital importância para as empresas e devemos observar que sempre foi difícil analisar os dados neles existentes. Tudo isso porque geralmente grandes empresas detêm um volume enorme de dados e esses estão em diversos sistemas. Não era possível buscar informações que permitissem tomarmos decisões embasadas num histórico dos dados. Com este histórico podemos identificar tendências e posicionar a empresa estratégicamente para ser mais competitiva e consequentemente maximizar os lucros diminuindo o índice de erros na tomada de decisão. • dispõem de habilidade para extrair, tratar e agregar dados de múltiplos sistemas operacionais em Data Marts ou data warehouses separados; • armazenam dados frequentemente em formato de cubo (OLAP) multi-dimensional permitindo rápido agregamento de dados e detalhamento das análises (drilldown); • disponibilizam visualizações informativas, pesquisando, reportando e modelando capacidades que vão além dos padrões de sistemas operacionais frequentemente oferecidos. 3.2.1 Arquitetura do Data Warehouse Existem ferramentas para extração de dados de diversas bases de dados operacionais e de fontes externas, ferramentas para limpeza, transformação e integração destes dados, para carga de dados no DW e ainda outras para atualização periódica do warehouse a fim de refletir as atualizações ocorridas nas fontes (DATA WAREHOUSE 1999). Além do DW podem existir vários Data Marts (DMs), que departamentalizam os dados separando-os por setor dentro da organização. Os dados contidos no DW e nos DMs são gerenciados por um ou mais servidores de warehouse, os quais apresentam visões multidimensionais dos dados para uma variedade de ferramentas front end. 35 Figura 5: Arquitetura Conceitual do Data Warehouse (CHAUDHURI, 1997) A visão multidimensional em forma de cubo de dados indica que as informações são visualizadas em linhas e colunas como o formato tradicional das planilhas, porém existem mais dimensões, sendo que o cubo teria apenas mais uma dimensão. Esta característica organiza e facilita a consulta aos dados de maneira que se pode ter, por exemplo, numa dimensão do cubo os meses do ano, na segunda dimensão estariam às cidades de origem dos clientes e na terceira dimensão o médico que encaminhou o cliente para o hospital. Finalmente, existe um repositório para armazenagem e gerenciamento dos metadados acompanhados de ferramentas para monitorização e administração do sistema. 3.2.2 Modelo de Dados Sendo o DW interativo é de suma importância o papel do modelo de dados. Quando os esforços de desenvolvimentos são baseados em um único modelo de dados sempre que for necessário unir estes esforços os níveis de sobreposição de trabalho e desenvolvimento desconexo serão muito baixos, pois todos os componentes do sistema estarão utilizando a mesma estrutura de dados (ANDREATTO, 1999). 3.2.2.1 Modelo de Dimensões Segundo Andreatto (1999) obtenção de respostas à questões na análise dos negócios de uma empresa, em geral, requer que os dados sejam visualizados de diferentes perspectivas. Por diversas vezes as questões levantadas podem ser respondidas através do ambiente tradicional de banco de dados, porém o tempo de resposta muito longo o tornam 36 ineficaz, sendo assim, buscou-se tecnologias que possam atender as necessidades de consultas deste tipo via acesso interativo aos bancos de dados. Teoricamente, quaisquer dados podem ser considerados multidimensionais. Entretanto, o termo normalmente se refere aos dados representando objetos ou eventos que podem ser descritos, portanto, classificados por dois ou mais de seus atributos. Estruturas relacionais podem ser usadas para a representação e o armazenamento de dados multidimensionais. Neste caso, as abordagens encontradas incluem desde a adoção de formas específicas de modelagem (os chamados esquemas estrela e floco de neve) até mecanismos sofisticados de indexação. 3.2.2.2 Os Esquemas do tipo Estrela e Floco de Neve Em um esquema do tipo estrela ou "star" as instâncias são armazenadas em uma tabela contendo o identificador de instância, valores das dimensões descritivas para cada instância, e valores dos fatos, ou medidas, para aquela instância (tabela de fatos). Além disso, pelo menos uma tabela é usada, para cada dimensão, para armazenar dados sobre a dimensão (tabela de dimensão). No caso mais simples, a tabela de dimensão tem uma linha para cada valor válido da dimensão. Esses valores correspondem a valores encontrados na coluna referente àquela dimensão na tabela de fatos (ANDREATTO, 1999). Este esquema é chamado de estrela, por apresentar a tabela de fatos "dominante" no centro do esquema e as tabelas de dimensões nas extremidades. A tabela de fatos é ligada as demais tabelas por múltiplas junções, enquanto as tabelas de dimensões se ligam apenas a tabela central por uma única junção. A Figura 6 mostra um exemplo de um modelo tipo estrela, onde as dimensões seriam as pontas das estrelas e a tabela de fatos o centro. 37 DIMENSÃO PACIENTE DIMENSÃO TEMPO Chave_tempo Dia Mês ano Chave_paciente Nome Idade Sexo FATOSONCOLOGICOS Chave_tempo Chave_paciente Chave_diagnostico Tempo_tratamento DIMENSÃO DIAGNOSTICO Chave_diagnostico descricao Figura 6 – Modelo Estrela. A tabela de fatos é onde as medidas quantitativas ou valoradas do fato representado estão armazenadas. Cada uma destas medidas é tomada segundo a interseção de todas as dimensões. No caso do exemplo, uma consulta típica selecionaria fatos da tabela FATOSONCOLOGICOS a partir de valores fornecidos relativos a cada dimensão (ANDREATTO, 1999). Outro tipo de estrutura bastante comum é o esquema do tipo floco de neve ou "snowflake", que consiste em uma extensão do esquema estrela onde cada uma das "pontas" da estrela passa a ser o centro de outras estrelas. Isto porque cada tabela de dimensão seria normalizada, "quebrando-se" a tabela original ao longo de hierarquias existentes em seus atributos. No caso do exemplo, a dimensão paciente possui uma hierarquia definida onde cidade se divide em estado e estado se divide em paciente (Figura 7). Da mesma forma, a dimensão tempo inclui ano que contem mês e mês que contem dia. Cada um destes relacionamentos muitos-para-um geraria uma nova tabela em um esquema floco de neve (ANDREATTO, 1999). DIMENSAO PACIENTE Chave_Paciente Nome Idade Chave_Cidade Chave_Cidade Nome CEP Chave_Estado Chave_Estado Nome UF Figura 7 – A dimensão do atendimento normalizada. 38 3.2.2.3 MOLAP - Multidimensional OLAP Segundo Data Warehouse (1999), é uma classe de sistemas que permite a execução de análises sofisticadas usando como gerenciador de dados um banco de dados multidimensional. “Em um banco de dados MOLAP os dados são mantidos em arranjos e indexados de maneira a prover um ótimo desempenho no acesso a qualquer elemento. O indexamento, a antecipação da maneira como os dados serão acessados, e ainda, o alto nível de agregação dos dados, fazem com que sistema MOLAP tenha um excelente desempenho. Além de serem rápidos, outra grande vantagem destes sistemas é o rico e complexo conjunto de funções de análise que oferecem”. Na figura abaixo podemos verificar um Data Mart com três dimensões utilizando um Banco de Dados Multidimensional onde as três dimensões são: geografia (região), produto e tempo: Figura 8. Banco de Dados Multidimensional (CHAUDHURI, 1997) 3.2.2.4 ROLAP - Relacional OLAP Sistemas ROLAP fornecem análise multidimensional de dados armazenados em uma base de dados relacional. Atualmente existem duas maneiras de se fazer este trabalho: • Fazer todo o processamento dos dados no servidor da base de dados. O servidor OLAP gera os comandos SQL em múltiplos passos e as tabelas temporárias necessárias para o processamento das consultas; • Ou executar comandos SQL para recuperar os dados, mas fazer todo o processamento no servidor OLAP (DATA WAREHOUSE, 1999). 39 Além das características básicas de sistemas OLAP, servidores ROLAP devem também: • Utilizar metadados para descrever o modelo dos dados e para auxiliar na construção das consultas. Desta maneira um analista pode executar suas análises utilizando seus próprios termos. • Criar comandos SQL otimizados para os bancos de dados com o qual trabalha. Para Data Warehouse (1999), a principal vantagem de se adotar uma solução ROLAP reside na utilização de uma tecnologia estabelecida, de arquitetura aberta e padronizada como é a relacional, beneficiando-se da diversidade de plataformas, escalabilidade e paralelismo. 3.2.3 Granularidade Para Inmon (1997), granularidade está vinculada ao nível de detalhamento dos dados existentes no Data Mart ou Data Warehouse, quanto mais baixo o nível de granularidade mais alto é o nível detalhamento. A granularidade influencia diretamente no volume de dados, bem como o tipo de consulta que pode ser realizada. 3.2.3.1 Estimativa Bruta Segundo Inmon (1997), o nível adequado de granularidade depende da identificação das tabelas e o número de registros que serão inseridos. Para Kimball (1998), quase sempre os dados devem estar expressos no menor nível de granularidade, pela necessidade de se obter uma informação específica. 3.2.3.2 Definição dos níveis de granularidade Segundo De Toni (2000), a definição de granularidade pode gerar falta de detalhes necessários ao usuário, ou ainda, falta de recursos para processar os dados, isto pode ocorrer pelo fato de haver poucas informações (falta de detalhes), ou excesso de informações que tornaria necessário elevado uso de recursos de hardware para seu processamento. Segundo Inmon apud De Toni (2000), existem técnicas para auxiliar no ciclo de definição da granularidade: 40 • construir as primeiras partes do DW em passos muito pequenos e rápidos e ouvir cuidadosamente os comentários dos usuários finais. • usar prototipação se possível, e permitir que o ciclo de feedback funcione usando observações colhidas a partir do protótipo. • verificar como outras empresas tem construído o DW. • trabalhar com usuários experientes. • examinar tudo aquilo de que a empresa dispõe no momento e que parece estar funcionando. • realizar reuniões com usuários e simular resultados. 3.2.3.3 Níveis duais de granularidade Segundo Inmon (1997), para uma organização com um grande volume de dados no Data Warehouse, é necessário avaliar a utilização de dois ou mais níveis de granularidade, podendo ser necessário mais de um nível. Para Di Domenico (2001), a utilização de dois níveis de granularidade, permite atender a processamentos “levemente resumidos” e também quando a necessidade de maior detalhamento. A Figura abaixo exemplifica a utilização do nível dual de granularidade. Figura 9 - Nível Dual de Granularidade (INMON, 1997). 41 3.2.4 Metadados Segundo Inmon (1997), os metadados são definidos como dados dos dados. Só que a complexidade desses dados no DW aumenta muito. Num sistema OLTP (On-line Transaction Processing – Processamento On-line de Transações), gera-se documentos somente sobre o levantamento dos dados, banco de dados e o sistema que alimenta o mesmo. No DW além do banco, gera-se uma documentação muito maior. Além de falar sobre o levantamento de dados e o banco, temos ainda o levantamento dos relatórios a serem gerados, de onde vem os dados para alimentar o DW, processos de extração, tratamento e rotinas de carga dos dados. Metadados podem ser gerados a partir de regras de negócio da empresa e todas as mudanças que elas podem ter sofrido, e também a frequência de acesso aos dados. Segundo Inmon (1997), os metadados englobam o DW e mantém as informações sobre onde está cada dado. Ele ainda define quais informações os metadados mantêm: • a estrutura dos dados segundo a visão do programador; • a estrutura dos dados segundo a visão dos analistas de SAD (Sistemas de Apoio a Tomada de Decisões); • a fonte de dados que alimenta o DW; • a transformação sofrida pelos dados no momento de sua migração para o DW; • o modelo de dados; • o relacionamento entre o modelo de dados e o DW; • o histórico das extrações de dados; • dados referentes aos relatórios que são gerados pelas ferramentas OLAP (On-line Analytical Processing – Processamento Analítico On-line) assim como os que são gerados nas camadas semânticas. Os metadados podem surgir de vários processos durante o desenvolvimento do projeto. Dentre as formas pode-se citar o repositório de ferramentas case, os quais geralmente já estão estruturados, facilitando a integração entre a origem e o repositório dos metadados. Essa fonte de metadados é riquíssima. Outros dados que devem ser guardados no repositório de metadados, é o material que surgirá das entrevistas com os usuários. Destas entrevistas podem-se obter informações preciosas que não estão documentadas, além de regras para validação dos dados após carga do DW. Como o volume de metadados gerados é muito grande, estão disponíveis algumas ferramentas que fazem única e exclusivamente o gerenciamento dos metadados. Estas possuem algumas características peculiares, de forma bem simples essas ferramentas conseguem mapear o dado em todas as etapas de desenvolvimento do projeto, desde a conceitual até a de visualização dos dados. 42 De acordo com Inmon (1999), geralmente os metadados são apresentados em três diferentes camadas: Metadados Operacionais: Definem a estrutura dos dados mantidos pelos bancos operacionais, usados pelas aplicações de produção da empresa; Metadados Centrais: São orientados por assunto e definem como os dados transformados devem ser interpretados, devem incluir definições de agregação e campos calculados, bem como visões sobre cruzamentos de assuntos. Metadados do Nível de Usuário: Organizam os metadados do DW para conceitos que sejam familiares e adequados ao usuário final. 3.3 DATA MART Inicialmente os projetos sobre DW referiam-se a uma arquitetura centralizada. Embora fosse interessante, pois fornece uniformidade, controle e maior segurança, a implementação desta abordagem não é uma tarefa fácil. Requer uma metodologia rigorosa e uma completa compreensão dos negócios da empresa. Esta abordagem pode ser longa e dispendiosa e por isto sua implementação exige um planejamento bem detalhado. Com o aparecimento de data mart ou warehouse departamental, a abordagem descentralizada passou a ser uma das opções de arquitetura data warehouse. A data marts pode surgir de duas maneiras. A primeira é top-down e a outra é a botton-up. • Top-down: é quando a empresa cria um DW e depois parte para a segmentação, ou seja, divide o DW em áreas menores gerando assim pequenos bancos orientados por assuntos departamentalizados. Esta técnica foi introduzida por Inmon, a figura abaixo demonstra esta técnica: Figura 10. Técnica Top-down introduzida por Inmon 43 • Botton-up: é quando a situação é inversa. A empresa por desconhecer a tecnologia, prefere inicialmente criar um banco de dados para somente uma área. Com isso os custos são bem inferiores de um projeto de DW completo. A partir da visualização dos primeiros resultados, parte para outra área e assim sucessivamente até resultar um DW. Esta técnica foi introduzida por Ralph Kimball, conforme demonstra a figura abaixo: Figura 11: Técnica Botton-Up introduzida por Kimball A tecnologia usada tanto no DW como no Data Mart é a mesma, as variações que ocorrem são mínimas, sendo em volume de dados e na complexidade de carga. A principal diferença é a de que os Data Marts são voltados somente para uma determinada área, ou ainda departamental, já o DW é voltado para os assuntos da empresa toda. O maior atrativo ao implementar um data Mart é o seu custo e prazo. 3.4 ETL- EXTRAÇÃO, FILTRAGEM E CARREGAMENTO O processo de carga dos dados dos sistemas operacionais para o DW ou DM, passam por três etapas: extração, filtragem e carga. A figura 12 abaixo demonstra o processo de utilização do ETL: Figura 12 – Processo de utilização da ETL 44 3.4.1 Extração A extração dos dados é um processo critico, levando em consideração que muitas vezes os dados são transferidos de banco de dados hierárquicos para SGBD’s, ou ainda de arquivos texto, planilhas. Também ocorrem casos onde é necessário agrupar e desagrupar dados para atender aos requisitos do DW (ANDREATTO, 1999). 3.4.2 Filtragem A filtragem consiste em colocar todos os dados em um padrão pré-estabelecido (ANDREATTO, 1999). 3.4.3 Carga A carga dos dados ainda, deve passar pela verificação das integridades dos dados, como consistência de chaves primárias, chaves estrangeiras (relacionamentos) (ANDREATTO, 1999). 3.5 POVOANDO O DATA WAREHOUSE Para Campos e filho (1999), a extração, limpeza, transformação e migração de dados dos sistemas existentes para o DW são atividades críticas e que determinam o funcionamento de forma eficiente. Apesar de existirem ferramentas que auxiliam na detecção de problemas na qualidade dos dados e geram programas de extração. A maioria das informações necessárias para o desenvolvimento de regras para o mapeamento e transformação está apenas na cabeça dos analistas e usuários. Além destes, outros fatores influenciam na estimativa de tempo para as atividades, que são o número de fontes e a qualidade dos metadados. Também existe outra importante preocupação que são: validação de domínios, regras de derivação e dependências entre elementos de dados. “Se estas regras tiverem de ser extraídas do código fonte das aplicações, o tempo para mapeamento e integração pode dobrar”. 3.5.1 Extração Para Campos e filho (1999), existem várias alternativas que possibilitam balancear desempenho, restrições de tempo e de armazenamento. Uma forma consiste em submeter 45 consultas diretamente ao banco de dados, podendo ocasionar uma queda de desempenho devido à ocorrência de transações concorrentes. As rotinas de extração devem ser capazes de isolar somente aqueles dados que foram inseridos e atualizados desde a última extração, este processo é conhecido como refresh. Para Dal’Alba (1999), a melhor política de refresh deve ser avaliada pelo administrador do DW, que deve considerar características como: necessidades dos usuários finais, tráfego na rede e períodos de menor sobrecarga, tanto das origens dos dados quanto do DW. 3.5.2 Transformação e filtros Após a extração dos dados e a inserção dos mesmos em uma área temporária, estes devem ser tratados, passando por uma limpeza e filtragem, onde o objetivo é garantir a integridade através de programas e/ou rotinas que identifiquem distorções e façam o tratamento adequado, garantindo que os dados estejam consistentes antes de serem inseridos no DW. Esta limpeza tem como objetivos detectarem: • erros de digitação; • violações de integridade; • caracteres desconhecidos; • falta de padronização de abreviações. Uma outra etapa consiste em aplicar uma metodologia de comparação de representações, que inclua critérios de identificação de semelhanças e conflitos de modelagem, sendo estes divididos em: semânticos e estruturais. Conflitos semânticos são aqueles envolvendo o nome ou palavra associada às estruturas de modelagem, por exemplo, mesmo nome para diferentes entidades ou diferentes nomes para a mesma entidade. Conflitos estruturais englobam os conflitos relativos às estruturas de modelagem escolhidas, tanto no nível de estrutura propriamente dito como no nível de domínios. Os principais tipos de conflitos estruturais são os conflitos de domínio de atributo que se caracterizam pelo uso de diferentes tipos de dados para os mesmos campos. Conflitos típicos de domínio de atributo são: • diferenças de unidades; • diferenças de precisão; • diferenças em códigos ou expressões; • diferenças de granularidade; • diferenças de abstração. 46 Para Dal’Alba (1999), “depois de identificados os conflitos de modelagem, deve-se criar as regras de mapeamento de representações equivalentes e de conversão para os padrões estabelecidos pelo DW”. 3.5.3 Derivação e Sumarização Para Campos e Filho (1999), podemos derivar os dados durante o processo de carga e armazenamento no ambiente relacional corporativo, uma outra opção está em derivar quando o servidor de replicação distribui os dados para os DW, ou ainda, derivar os dados quando o usuário submeter uma consulta ou lançar uma simulação. 3.6 OLAP (ON-LINE ANALYTIC PROCESSING) 3.6.1 Introdução e Conceitos A sigla OLAP deriva de On-Line Analytic Processing é uma contraposição a OLTP de On-Line Transaction Processing, correspondendo a duas modalidades de processamento: Processamento analítico on-line e processamento de transação on-line. De acordo com Baptista (2001), “antes de ser uma tecnologia, OLAP é um rótulo”. É aplicada aos softwares que permitam de forma simples à execução de consultas e análise de dados utilizados no processamento de informações de apoio a decisão. Para Kimball (1998) apud Baptista (2001), afirma ser OLAP “um termo inventado para descrever uma abordagem dimensional para o suporte a decisão”. Segue um alinhamento com o modelo dimensional também conhecido com esquema tipo estrela. Para Baptista (2001), a filosofia OLAP, “ainda necessita de critérios mais específicos para ser aceita como padrão de comparação para sistemas de suporte à decisão”. Para Bispo (1999) apud Baptista (2001), OLAP são tecnologias que dão suporte aos usuários (analistas, gerentes, executivos), no processo decisório através do uso de consultas, análises e cálculos dos dados corporativos, estejam estes armazenados em DW ou não. Para Baptista (2001), os sistemas OLAP são projetados com o objetivo de auxiliar no processo de tomada de decisões e em planejamentos estratégicos, através de consultas utilizadas por determinadas áreas de uma organização. 3.6.2 Características gerais De acordo com Baptista (2001), os aplicativos ou ferramentas OLAP em geral executam cinco funções básicas: 47 • interface – as telas e métodos usados para direcionar instruções internas a outras funções baseadas nas seleções dos usuários; • consulta - a lógica do aplicativo usada para gerar o código SQL; • processo – a lógica do aplicativo que executa a análise de dados no conjunto de resultados retornado pela consulta ao banco de dados; • formato – a lógica do aplicativo requerida para rotular propriamente linhas e colunas de dados e criar um arquivo padrão; • exibição – apresentação do arquivo formatado, como relatório ou gráfico, para visualização pelo usuário. Para Baptista (2001), geralmente o OLAP se refere a quatro capacidades computacionais analíticas: • consulta e relatório – oferecem o esquema básico de análise de dados OLAP, geralmente compatíveis com os recursos dos Sistemas Gerenciadores de Bancos de Dados. Facilitam a especificação de consultas “adhoc” e proporcionam rica formatação de relatórios e recursos gráficos. Interface padrão Windows; • análise multidimensional – emprega funções mais complexas, permitindo que os usuários entrem em qualquer dimensão do banco Data Warehouse e trafeguem livremente por todas as outras; • análise estatística – trabalha com um nível de complexidade ainda maior, podendo calcular médias e outras formas estatísticas mais sofisticadas como regressão, correlação, fatoração e agrupamentos; • data mining – acrescenta funções mais complexas como redes neurais para identificação de modelos e relações e algoritmos de aprendizado para trabalhar com previsões. Para Baptista (2001), as estruturas de aplicativo OLAP subdividem a aplicação em camadas cabendo a cada qual uma parte importante no conjunto: • camada de dados – responsável pela aquisição dos dados; • camada lógica – responsável pelas funções de consulta, processo e formato; • camada de apresentação – responsável pelas tarefas de interfaceamento e exibição. Segundo Baptista (2001), “as ferramentas OLAP podem ser construídas a partir de dois esquemas estruturais diferenciados”: 48 • aplicativos em duas camadas – tradicionalmente usado em soluções cliente/servidor neste tipo de aplicativo a primeira camada executa as funções de apresentação (interface e exibição) e de processamento (consulta e formatação) e funciona como um programa simples instalado no lado cliente da relação cliente/servidor. O banco Data Warehouse corresponde à segunda camada e executa o papel de servidor de dados. A figura 13 ilustra uma estrutura de duas camadas típicas. Figura 13 – Estrutura de aplicativo em duas camadas • aplicativos em três camadas – uma nova técnica de estruturar os aplicativos OLAP, mais direcionada para intranets, desloca total ou parcialmente as funções da camada lógica para servidores de aplicativos, formando um esquema de três camadas, conforme mostrado na figura 14. Figura 14 – Estrutura de aplicativo em três camadas 49 3.7 DATA MINING Conforme Pereira (1999), no inicio do DW, Data Mining era visto como parte das atividades do warehouse, porém atualmente os caminhos do DW e do DM estão divergindo. Enquanto o DW pode ser uma boa fonte de dados para minerar, o DM foi reconhecido como uma atividade única, e não mais como uma parte do DW. Mesmo com a popularização do Data Mining, ainda existe muitas divergências quanto a sua definição. Data Mining (ou mineração de dados) é o processo de extrair informação válida, previamente desconhecida e de máxima abrangência a partir de grandes bases de dados, usando-as para efetuar decisões cruciais. Data Mining vai muito além da simples consulta a um banco de dados, no sentido de que permite aos usuários explorar e inferir informações úteis a partir dos dados, descobrindo relacionamentos escondidos no banco de dados. Pode ser considerada uma forma de descobrimento de conhecimento em bancos de dados (KDD - Knowledge Discovery in Databases), área de pesquisa de bastante evidência no momento, envolvendo Inteligência Artificial e Banco de Dados (CAMPOS E FILHO, 1999). Para Pinheiro (1999), consiste em um ambiente de apoio à tomada de decisões, integrando técnicas de DM sobre um ambiente de DW, possibilitando um vasto número de aplicações, que já estão sendo implementadas em diversas áreas buscando identificar perfis dos consumidores, seguros, detecção de fraude, dentre outros. Para Data Warehouse (1999) DM pode ser aplicado com os seguintes objetivos: • explanatório: demostrar algum evento ou medida observada; • confirmatório: confirmar uma hipótese; • exploratório: analisar os dados buscando relacionamentos novos e não previstos. Para Bigolin (2000), DM é o processo de descobrir conhecimentos que visam identificar padrões definidos através de bancos de dados com grandes volumes de dados. 50 3.7.1 O processo de Data Mining Para Data Warehouse (1999) existem três classes de Data Mining: descobrimento, modelagem de prognóstico e análise prévia. Descobrimento consiste em identificar padrões ocultos sem a existência de uma idéia ou hipótese, em síntese é o programa encontrar padrões sem que o usuário tenha uma idéia prévia. Na modelagem de prognóstico, consiste em gerar expectativas futuras utilizando-se de padrões identificados no banco de dados. Para Data Warehouse (1999), “enquanto o processo de descobrimento encontra padrões em dados, o processo de modelagem de prognóstico aplica estes padrões para supor valores nos novos itens de dados”. A análise prévia é a utilização dos padrões encontrados para identificar anomalias ou elementos de dados raros. Ainda para Data Warehouse (1999) existem três tipos de atividade de data mining em um ambiente corporativo: episodic mining, strategic mining e continuous mining. Episodic Mining: busca dados de uma situação específica, para entender este conjunto de dados ou usá-lo para prognóstico de novas situações similares. Strategic Mining: consiste em analisar um conjunto largo de dados com a intensão de obter conhecimento global de uma situação especifica. Exemplo: Quais os hábitos dos pacientes com diagnóstico de câncer de pele? Continuous Mining: identifica quais fatores determinaram uma alteração em determinado período e o que o ocasionou a mesma. 3.7.2 Técnicas de Data Mining O uso das técnicas de DM possibilitam a identificação de padrões e tendências, permitindo a visualização e avaliação destes. Segundo Freitas Junior apud Sonza (2002), “a familiaridade com as técnicas é necessária para proporcionar a melhor abordagem de acordo com os problemas 51 apresentados. Portanto, para cada classe de aplicação deve-se aplicar um conjunto de algoritmos com o objetivo de extrais padrões e relações dentro de uma base de dados”. Para Bispo (1999), as técnicas que utilizamos são continuidade natural de generalizações e metodologias analiticas que já são conhecidas há anos. Entre as técnicas de DM pode-se citar: associação, séries temporais similares, classificação e regressão, clusterização, árvores de decisão e visualização. 3.7.2.1 Associações Para Data Warehouse (1999), são relacionamentos significativos entre itens e dados armazenados. O objetivo deste tipo de operação é encontrar tendências que são detectadas pelo grande número de transações que possam ser usadas para entender e explorar padrões de comportamento dos dados. São informações similares anteriormente desconhecidas, não óbvias e que podem ser interpretadas por um especialista no assunto (NETO, 2001). Segundo Dw Brasil (2000), as regras associativas são iguais as de classificação, diferenciando-se pela capacidade de predizer características comuns. Para DW Brasil (2000), suporte é a quantidade de instâncias para a qual a regra associativa é verdadeira, e a exatidão é proporção entre as instâncias verdadeiras e todas as instâncias correspondentes. É bastante comum determinar a exatidão mínima e apresentar apenas a regra mais forte para o usuário, evitando com isso a produção de um grande número de regras. 3.7.2.2 Séries Temporais Similares Identificam séries similares que estão armazenadas na base de dados e que variam de forma semelhante ao longo de um período de tempo. (DATA WAREHOUSE, 1999). Para Dw Brasil (2000), são modelos matemáticos clássicos que demonstram o comportamento dos dados, necessitando o envolvimento de usuários experientes na construção destes modelos. 52 3.7.2.3 Classificação e regressão Para Data Warehouse (1999), classificação e regressão utilizam dados armazenados para criar modelos de comportamento variáveis. É criado um “conjunto de treinamento", denominação dada a um grupo inicial de registros que são tomados como padrão, classificando-se os demais registros a partir destes padrões. Uma vez definido o padrão de comportamento das variáveis, pode-se determinar quais registros estão fora deste padrão e ainda assim saber o próprio distanciamento deste padrão, o que pode confirmar e de certa forma explicar a verificação de algumas anomalias (DATA WAREHOUSE ,1999). Para Carvalho (2001), “a classificação é uma técnica mais utilizada simplesmente por ser uma das tarefas cognitivas humanas mais realizada no auxilio a compreensão do ambiente em que vivemos”. 3.7.2.4 Clusterização Data Warehouse (1999) define clusterização como sendo a informação disponível e segmentada em conjuntos definidos, homogêneos e baseados em atributos específicos. Este conceito já é conhecido em diversas áreas, porém, em Data Mining passou por uma especialização a fim de permitir a sua aplicação em itens não numéricos. Neste tipo de algoritmo não é informado ao sistema os tipos de classes existentes, ficando a cargo do computador descobrir classes a partir das alternativas encontradas na base de dados. Para Gimenes (2000), “a proposta da clusterização é basicamente endereçada a problemas de segmentação, na qual se faz um corte de um grande número de atributos em pequeno conjunto de grupos ou segmentos”. 3.7.2.5 Árvores de Decisão Segundo Data Warehouse (1999), árvores de decisão são formas de representar os resultados obtidos pelo DM, que se parecem com os gráficos organizacionais horizontais. A árvore é montada através de nódulos que foram comparados a determinada constante. Para Data Warehouse (1999), entre as principais vantagens das árvores de decisão é a clareza em que a grande maioria das pessoas consegue interpretar seus resultados, pois leva em consideração as regras que são mais importantes. 53 3.7.2.6 Visualização Para Data Warehouse (1999), a visualização organiza os dados conforme as dimensões definidas. Esta técnica pode ser utilizada em vários momentos da mineração, permitindo a seleção de dados, exibir resultados, e ainda minerar, quando utilizada em conjunto com uma ferramenta adequada de exploração interativa. 3.7.2.7 Redes Neurais Para Data Warehouse (1999), esta tecnologia é a que oferece o mais profundo poder de mineração, mas é também a mais difícil de entender. As redes neurais tentam construir representações internas de modelos ou padrões encontrados nos dados, mas essas representações não são apresentadas para o usuário. Com elas, o processo de descoberta de padrões é tratado pelos programas de DM dentro de um processo “caixa-preta”. Estruturalmente, uma rede neural consiste em um número de elementos interconectados (chamados neurônios) organizados em camadas que aprendem pela modificação. Geralmente constroem superfícies equacionais complexas através de interações repetidas, cada hora ajustando os parâmetros. Depois de muitas repetições, uma superfície pode ser internamente definida que se aproxima muito dos pontos dentro do grupo de dados. A função básica de cada neurônio é: (a) avaliar valores de entrada, (b) calcular o total para valores de entrada combinados, (c) compara o total com um valor limiar, (d) determinar o que será a saída. Enquanto a operação de cada neurônio é razoavelmente simples, procedimentos complexos podem ser criados pela conexão de um conjunto de neurônios. Tipicamente, as entradas dos neurônios são ligadas a uma camada intermediária (ou várias camadas intermediárias) que é então conectada com a camada de saída. 3.7.2.8 Indução de Regras Segundo Data Warehouse (1999), a Indução de Regras, ou Rule Induction, se refere à detecção de tendências dentro de grupos de dados, ou de “regras” sobre o dado. As regras são, então, apresentadas aos usuários como uma lista “não encomendada”. Vários algoritmos e índices são colocados para executar esse processo, incluindo o Gini, o C 4.5 e o CHAID. Na IR, a grande maioria do processo é feito pela máquina, e uma pequena parte é feita pelo usuário. 54 Por exemplo, a tradução das regras para dentro de um modelo aproveitável é feito pelo usuário, ou por uma interface de árvores de decisão. Do ponto de vista do usuário, o maior problema com as regras é que o programa de DM não faz o ranking das regras por sua importância. O analista de negócio é então forçado a encarregar-se de criar um manual de análise para todas as regras relatadas a fim de determinar aquelas que são mais importantes no modelo de DM, e para os assuntos de negócio envolvidos. E isso pode ser um processo tedioso. O objetivo deste capítulo foi abordar Business Intelligence, destacando a evolução dos sistemas de apoio à decisão, o tema Data Warehouse, Data Mining e suas técnicas. No próximo capítulo será apresentado o modelo atual e o protótipo desenvolvido com base no estudo realizado. 55 4 MODELO ATUAL Este capítulo tem como objetivo principal conhecer o ambiente onde o estudo está sendo proposto, e com base nestas informações será possível apresentar o modelo que dará origem ao protótipo. 4.1 CONTEXTUALIZAÇÃO DO AMBIENTE O HRO possui na área de Tecnologia da Informação 83 microcomputadores, interligados em rede, utilizando-se de cabeamento par traçado categoria 5, 100 MBits (Mega Bits por Segundo)., com placas de rede fast ethernet. Como servidores a Seção de Tecnologia da Informação (STI) possui: 01 servidor com sistema operacional Novell 4.11, onde, é centralizado o sistema de gestão módulos de atendimento (recepção), suprimentos, faturamento, financeiro, contabilidade. Um servidor linux para internet e 01 servidor linux para sistemas de apoio (Manutenção, Lavanderia, Refeitório, etc...). A área de Recursos Humanos também possui um servidor exclusivo integrando com a área financeira e contábil. Os serviços oncológicos possuem atualmente os seguintes equipamentos, conforme tabela abaixo: Tabela 1: Relação de Equipamentos dos Serviços de Oncologia Setor Especificações Sist. Oper. Memória Hd Proc. DURON 1300 Quimioterapia - R.Câncer Microcomputador Win 2000 LEXMARK Impressora 3200 Estabilizador Monitor Teclado 128 MB 10 GB Quimioterapia - Recepção Microcomputador WIN 95 Impressora LX 300 Nobreak Monitor Teclado 32 MB 1.2 GB PENTIUM 166 Quimioterapia – Farmácia Microcomputador WIN 95 Impressora LX 300 Estabilizador 32 MB 1.7 GB PENTIUM 75 Continua à 56 Continua à Monitor Teclado Radioterapia - Recepção Microcomputador WIN 98 Impressora HP 710 Nobreak Monitor Teclado 64 MB 20 GB PENTIUM III 750 Radioterapia - Dr Rodrigo Microcomputador WIN 98 Monitor Teclado 64 MB 20 GB PENTIUM III 750 Radioterapia - Físico Microcomputador WIN 98 Monitor Nobreak Teclado 64 MB 20 GB PENTIUM III 750 Radioterapia - Dr Poli Microcomputador WIN 98 Monitor Teclado 64 MB 20 GB PENTIUM III 750 4.1.1 Histórico do Hospital Regional do Oeste A ASSOCIAÇÃO HOSPITALAR LENOIR VARGAS FERREIRA, é uma Associação civil, fundada em 26 de agosto de 1997, com seus atos constitutivos registrados no livro A 9 sob o n.º 2.380 no Cartório de Registros de Títulos e Documentos da Comarca de Chapecó SC, sem fins lucrativos e de fins filantrópicos. A Associação utiliza o nome fantasia HOSPITAL REGIONAL DO OESTE - HRO. Constitui missão da Associação: promover gratuitamente, assistência à saúde, administrando o Hospital Regional Lenoir Vargas Ferreira, dentro dos preceitos éticos e legais, visando sempre o benefício da comunidade, em cada caso, estabelecendo regimento apropriado de acordo com as respectivas particularidades e natureza que permitam apoiar as políticas públicas, objetivando: I. Prestar serviços de excelência para a melhora na qualidade de vida do cidadão, visando à elevação do nível de saúde da população, através de atividades de fins não econômicos; 57 II. Promover o desenvolvimento de programas de saúde de âmbito nacional, estadual e municipal de interesse público, voltada principalmente para os segmentos de saúde; III. Apoiar o desenvolvimento de programação na área de saúde voltada à prestação de serviços essenciais à população de baixa renda; IV. Promover a integração com entidades afins, buscando permanente cooperação técnica para o alcance de objetivos comuns. Visando ao desenvolvimento e o incremento de suas finalidades, poderá a Associação firmar convênios com Entidades que desenvolvam atividades relacionadas com seus objetivos, observadas as disposições legais aplicáveis. Segundo o Estatuto Social do HRO (2004), a estrutura administrativa e organizacional é composta pelos seguintes órgãos, conforme pode ser visualizado na Figura 15: Assembléia Geral, Conselho Fiscal, Coordenação Executiva e Coordenação Técnica. A Assembléia Geral é instância máxima e soberana do grupo, sendo constituída por todos os membros fundadores efetivos e especiais, obedecendo às normas previstas no Estatuto. 4.1.2 Organograma Na Figura 15 é representado o organograma do Hospital Regional do Oeste, aprovado pelo Conselho de Administração em 13/04/2004. 58 Asse m bléi a Ge ral C o nselho F isc al C o nselh o de A dm in istr ação A ud ito ria D iretor ia E xecu tiv a Com is sã o Con trole In fecçã o Hos p italar D ir eto r C línico A ss es s oria de M ark etin g e Com un icaç ão A ssesso ria J urid ic a A ss oc iaçã o V olun tá rios HR O D ireto r G e ral P asto ral d a Sa ú de Se cretaria G er al D ireto r En ferm ag em Ser viço s de En ferm ag em D ire to r Té cnico D iretor A dm /F in a nc eiro Se rv iç os A dm inistr ativ o s Ser viço s d e A p o io S erv iço s de S AD T S eção de B erç ario S eç ão C o m erc ial Se çã o de Con tr. e S eg ur . P atrim onial Seç ão d e A n at. P ato ló gico S eção d e A ne stesia Seç ão d e C en tro C irú rg ic o S eção C o ntab il. F in ance ir a Seç ão H ig ie n e e L im pez a S eção de B a nco de S ang ue S eção de C li n. C irú rg ica Seç ão d e C en tro O b stétric o Seç ão de F atura m ento S eção de M an ute n ção Se ção de F isio ter ap ia S eção de C li n. M éd ic as Se ção de C lin ica M édica A e B Seç ão de M a teriais Seç ão N u trição e D ietétic a Se ção de H em o d iálise S eção de C li n. P ed iatrica Se ção de C M E Seç ão R e cu rsos H u m ano s S eç ão P r oc ess. d e R o u p as Se ção de Im ag e m Seç ão G inec o /O b stetricia Se ção de C lin ica C irú rg ic a S eçã o d e Tecn olog ia da I nform açã o Se ção de L abo r ató rio S eção N eu ro . N e uro ciru rg ia S eção T r aça do s G rafico s Seç ão d e P ro nto S o co rro Se ção de C lín ica P ed iátr ic a Ser viço C ontr ole I nfe cçã o Hos pitalar Se rv iç os d e M édico s Se ção de C lin ica O n co ló g ica S eção d e Trau m ato lo g ia S eção de M ater nid ad e Se ção de U .T .I Ce ntr al d e Capt aç ão e Tr an s p lante d e Ór gã os S eção de P riv ativ a Seç ão d e P S A m b u latór io L ege nd a: S eção de Q u im io terap ia S erviç os de T erc eiros A ssessoria S eção de R ad io ter api a S eção d e Tr at. D ep . Q u im ic a Seç ão d e U .T .I H O SP IT A L R E G I O N A L D O O E ST E A S S O C I A Ç Ã O H O S P I T A LA R L E N O IR V A R G A S F E R R E IR A A p ro v a d o p elo C o ns e lh o d e A dm in is tra ç ã o e m 1 3 / 0 4 / 2 0 04 Figura 15: Organograma Hospital Regional do Oeste Na Figura 15 os serviços em destaque são relacionados aos de oncologia do Hospital Regional do Oeste permitindo observar a complexidade e a necessidade da interação entre estes, permitindo que todo e qualquer conhecimento seja utilizado de forma eficiente. 59 Alguns serviços que são realizados pelos profissionais de enfermagem, como enfermeiras, técnicos de enfermagem e auxiliares compõem estão subordinados ao Diretor de Enfermagem que por sua vez é subordinado ao Diretor Geral, também encontramos outros que são subordinados aos serviços médicos, que estão subordinados ao Diretor Técnico que por sua vez é subordinado ao Diretor Geral, além de serviços de apoio que estão subordinados ao Diretor Administrativo que é subordinado ao Diretor Geral. Assembléia Geral é a instância máxima na estrutura hierárquica da instituição. O Conselho Fiscal aparece na seqüência, a Auditoria presta assessoria ao Conselho de Administração, a Diretoria Executiva tem assessoria da Comissão de Controle de Infecção Hospitalar, Marketing e Comunicação, Associação de Voluntários, Diretor Clinico e Jurídico. O Diretor Geral tem assessoria da Pastoral de Saúde e Secretária Geral. Estão subordinados ao Diretor Geral: o Diretor de Enfermagem, Diretor Administrativo/Financeiro e Diretor Técnico. O Diretor de Enfermagem é responsável pelos serviços de enfermagem, que atendem as diversas clinicas de internação, como: maternidade, UTI, clinica médica, entre outras. O Diretor Administrativo/Financeiro é responsável direto pelos serviços administrativos, dentre os quais pode destacar: contabilidade, faturamento, tecnologia da informação, entre outros. Também administra o serviço de apoio, onde se encaixa: nutrição, manutenção, higiene, entre outros. É responsável pelos serviços de apoio ao tratamento e diagnóstico, onde estão inclusos os serviços terceirizados como: laboratório, banco de sangue e serviço de imagem. O Diretor Técnico é responsável pelos serviços médicos, dentre os quais a ala cirúrgica, anestésica, entre outros. O Serviço de Controle de Infecção Hospitalar e Serviço de Captação de Órgãos também são subordinados ao Diretor Técnico. 4.2 FLUXO DE INFORMAÇÃO ATUAL O Serviço de Oncologia do HRO consiste em várias atividades que visam ao bemestar e melhora dos pacientes portadores de câncer, estando entre os principais serviços o tratamento clínico, cirúrgico, radioterápico, quimioterapico, sendo estes serviços oferecidos por médicos oncologistas, radioterapeutas, clínicos gerais, cirurgiões, além dos profissionais médicos outros profissionais participam efetivamente do tratamento, entre eles estão os enfermeiros, auxiliares de enfermagem e técnicos de enfermagem. Durante o tratamento faz- 60 se necessário o acompanhamento psicológico, nutricional e de assistência social, envolvendo vários profissionais, o que torna essa atividade multidisciplinar. Atualmente o fluxo existente inicia com o encaminhamento do paciente ao Serviço de Quimioterapia, através de uma prescrição relatando o motivo do encaminhamento e com exames realizados que confirmem ou indícios que caracterizem sintomas do câncer. Os pacientes são cadastrados pela recepção deste serviço e encaminhados ao médico oncologista, que avalia os exames recebidos e pode ou não solicitar novos exames para identificar o grau da doença, ou ainda, que permita a confirmação do diagnóstico. Após a identificação o médico oncologista vai determinar qual o tipo de tratamento será utilizado no tratamento deste paciente, este processo pode incluir o radioterapeuta que recebe o paciente encaminhado pelo médico oncologista, faz uma avaliação encaminha para avaliação nutricional e psicológica. Em caso de confirmada a necessidade de utilização da radioterapia este paciente é encaminhado ao físico-médico que faz uma avaliação e simulação das aplicações de radiação, visando o melhor tratamento possível sem que ocorra uma rejeição pelo organismo do paciente. Este processo é realizado através de incidências periódicas, bem como consultas com o médico oncologista e o médico radioterapeuta. Durante o tratamento pode se fazer necessária intervenção cirúrgica, acompanhada de radioterapia e quimioterapia. Todo este processo é acompanhado por avaliações de enfermagem, nutricionistas, psicólogas e assistentes sociais. A Figura 16 demonstra de o fluxo dos serviços oncológicos do Hospital Regional do Oeste. 61 Figura 16: Fluxo de Dados da Oncologia 62 4.3 ANÁLISE DO SISTEMA EXISTENTE O processo de análise do sistema existente foi realizado através de entrevistas e coleta de documentos. Durante este processo percebeu-se que existe uma grande deficiência de um sistema transacional (OLTP) que permita o lançamento dos registros e acompanhamentos dos procedimentos, exames e avaliações coletadas durante todo o tratamento. O reflexo da falta de um sistema OLTP é a inexistência de informações que permitam análises e estratégias apoiadas por um sistema de apoio à tomada de decisões. Esta realidade condiz com a maioria dos hospitais de nossa região, estado e país que tem dificuldades para gerenciar e aprimorar os seus serviços através da utilização de sistemas de apoio à tomada de decisões. 4.4 LEVANTAMENTO DE REQUISITOS Durante o processo de fundamentação teórica e pesquisa do ambiente foram determinados requisitos importantes para elaboração do protótipo. Abaixo são relatados os principais requisitos obtidos Tabela 2: Lista de Requisitos No Requisito Descrição 01 Definição de Ambiente O ambiente configurável e determinado pelo usuário 02 Criação de Tabela, Permitir que as tabelas, atributos, relacionamentos e Atributos, Relacionamento e regras para transformação possam ser definidas pelo 03 Transformações. usuário. Extração Permitir inserção de dados diretamente no protótipo, bem como importar de arquivos Dataflex e também arquivos texto. Os dados extraídos devem ser carregados para uma área de estagiamento. 63 04 Transformação Os dados devem passar pelo processo de limpeza e transformação na área de estagiamento. 05 Carga Os dados devem ser carregados para o ambiente definido disponibilizando dados para consulta. 06 Visualização Consulta através de Gráficos e tabelas configuráveis. 07 Mineração Disponibilizar Técnicas de mineração como: árvore de decisão, clusterização e visualização. 08 Restringir Tamanho da Base Disponibilizar formas de filtragem visando restringir a de Dados quantidade de dados a serem lidos nas consultas e visualizações. 4.5 CONSIDERAÇÕES FINAIS DO CAPÍTULO Este capítulo teve como objetivo estudar a instituição onde o trabalho foi desenvolvido, destacando o ambiente na área de tecnologia da informação, o histórico do Hospital Regional do Oeste, avaliação da estrutura organizacional para indicar o enfoque do trabalho, o fluxo de informação atual, bem como uma avaliação sobre o sistema de informação no serviço de oncologia. No próximo capítulo será dado enfoque as tecnologias utilizadas e também ao protótipo. 64 5 DESENVOLVIMENTO DO PROTÓTIPO Este capítulo tem por objetivo descrever sobre as ferramentas e a apresentação do protótipo, utilizando como base a revisão bibliográfica. As especificações coletadas no levantamento de requisitos constituíram a base para validação do protótipo. 5.1 FERRAMENTAS UTILIZADAS Para desenvolvimento do protótipo foram utilizadas as ferramentas: Visual Dataflex e o gerador de relatórios Crystal Reports. 5.1.1 Visual Dataflex O Visual Dataflex é uma ferramenta desenvolvida pela Data Access Corporation, base em ambiente Windows. Fazem parte do ambiente de desenvolvimento do Visual Dataflex um Ambiente Integrado de Desenvolvimento – IDE, o utilitário para definição dos arquivos da base de dados e o dicionário de dados (Database Builder), o Winprint, um Utilitário gráfico programável de impressão, o Database Explorer (ferramenta para pesquisa no Banco de Dados) (RODRIGUES, 1999). Para Rodrigues (1999), uma das principais características do Visual Dataflex é a produtividade, podendo o ambiente de desenvolvimento ser configurado oferecendo uma maior comodidade na criação dos aplicativos. Podendo com a reutilização de código reduzir o tempo de desenvolvimento de aplicações. Conforme Visual Dataflex (2004), as principais características da ferramenta são: • a criação de aplicações para Windows e Web rapidamente; • aumentar as funcionalidades das aplicações utilizando as mais recentes tecnologias; • conectar as aplicações aos principais bancos de dados da indústria; • distribuir facilmente as aplicações em pequenas e grandes corporações; • gerenciar todo ambiente com total controle e transparência; 65 • arquitetura 3 camadas. Como desvantagens do Visual Dataflex, tem-se: - conexão com Sistemas Gerenciadores de Banco de Dados que não o nativo, necessariamente são realizados com drives específicos. - toda tecnologia é paga, tanto de desenvolvimento como aplicativos de conexão com Sistemas Gerenciadores de Bancos de Dados. 5.1.2 Crystal Reports Este gerador de relatório é desenvolvido pela empresa norte-americana Business Objects S/A e está disponível tanto para ambiente Windows, como para Web. Segundo Visual Dataflex (2004) o Crystal Reports inclui mais de 30 drivers de acesso a diversos SGBD’s. Conforme Visual Dataflex (2004) o Crystal Reports possui ferramentas para analisar tendências, mostrar relacionamentos ou focalizar fatos. Algumas funcionalidades: • Analyser: permite zoom interativo, drill down e modificação de gráficos e mapas; • Cross-tabs que permitem comparações de dados; • Editor de fórmulas: poderosa ferramenta para criação de dados, com mais de 160 funções diferentes. Constata-se que um dos pontos fracos é o alto custo da ferramenta e a necessidade de se adquirir um drive de acesso ao banco de dados dataflex. 5.2 INTERFACE DO PROTÓTIPO A Figura 17 abaixo demonstra o Diagrama de Fluxo de Dados (DFD) do protótipo. 66 Figura 17:Diagrama de Fluxo de Dados (DFD) As etapas seguintes demonstram o protótipo e sua operacionalização. 67 5.2.1 Acesso ao Protótipo A Figura 18 demonstra a tela de acesso ao protótipo onde deve ser informado usuário e senha. Figura 18: Formulário de acesso ao sistema, verificação de usuário e senha Após a validação de usuário e senha o sistema apresentará o menu como demonstrado na Figura 19. Neste menu estão disponíveis as opções para Definição do Ambiente, Carga de Dados, Visualizar Dados, Minerar Dados, Sair (do Protótipo) e Sobre (dados sobre o protótipo como autor, nome, ano, etc). Figura 19: Menu principal do Protótipo 68 5.2.2 Definindo o Ambiente A opção “Definindo o Ambiente” consiste na criação do ambiente de Data Warehouse ou Data Mart. É nesta tela que os usuários do protótipo geram sua estrutura de dados, através da definição de tabelas e seus atributos, relacionamento com outras tabelas, gerando desta forma um modelo estrela ou floco de neve. A Figura 20 apresenta a tela onde o usuário gera uma tabela, definindo o nome e um tipo para a tabela (fato ou dimensão), o código é gerado automáticamente pelo protótipo. Figura 20: Criando a Tabela de Dados 69 A Figura 21 demonstra a criação de atributos, que irão compor a tabela. Cada atributo deverá receber um nome, um tipo de dado (numérico, caracter, inteiro ou data), além do tamanho e precisão. Figura 21: Definindo os atributos da tabela 70 A Figura 22 apresenta a tela onde podem ser estabelecidas regras que serão aplicadas aos dados após a importação, durante o processo de limpeza e transformação. Este procedimento visa garantir a formatação e integridade dos dados importados, evitando com isso que ocorram inconsistências na base. O exemplo da Figura apresenta a utilização de regras para o carregamento de dados para o atributo sexo, quando o valor for “M” ou “1” será armazenado no Data Mart a informação “MASCULINO”. Figura 22: Definindo regras de transformação de dados 71 A Figura 23 demonstra como utilizar o relacionamento entre atributos de duas tabelas diferentes. O exemplo utilizado consiste em criar um atributo cidade na tabela paciente e relacionar com atributo identificador na tabela cidade para buscar dados como nome da cidade e Estado. Figura 23: Definindo relacionamento de atributos entre tabelas 72 Em levantamento de dados realizado no HRO foram definidas as seguintes tabelas para validação do protótipo. A Figura 24 demonstra o modelo estrela gerado para validar a ferramenta em desenvolvimento. Figura 24: Modelo de dados gerado para demonstração do protótipo 73 A Figura 25 exibe uma opção disponível no protótipo para exportar dados (extração) de bases dataflex, gerando um arquivo texto, podendo esta opção ser executada selecionando todos os atributos da tabela, ou somente os considerados imprescindíveis para o processo de tomada de decisão. Figura 25: Extração de dados de uma tabela para um arquivo texto 74 A Figura 26 se refere a tela de importação de dados que estão disponíveis através de arquivos texto. Os usuário pode definir o layout de importação no momento da execução do programa, seguindo a estrutura da tabela na íntegra ou vinculando itens do arquivo texto com determinados atributos da tabela. Os dados importados ficam armazenados em uma tabela temporária para posterior transformação e limpeza, somente após este processo será possível a carga dos dados para o data warehouse. Figura 26: Importação dos dados de um arquivo texto para uma tabela 75 A Figura 27 apresenta a tela do protótipo onde os dados passam por um processo de tratamento das informações (limpeza e transformação), nesta etapa os dados permanecem em tabelas temporárias para posterior carga. Neste momento o sistema aplicará as regras definidas como exemplificados no caso do sexo “MASCULINO”. Figura 27: Transformação dos dados importados 76 A Figura 28 demonstra a opção onde é possível realizar a carga definitiva dos dados armazenados em tabelas temporárias para o Data Warehouse, disponibilizando os dados para o processo de mineração e visualização. Figura 28: Carga dos dados transformados 77 A Figura 29 demonstra a opção do protótipo para inserir dados que tem relevância mas que não são tratados pelos sistemas OLTP’s. No caso da oncologia do HRO foi verificado que a ficha de avaliação nutricional que possui dados importantes sobre hábitos e costumes dos pacientes é preenchida manualmente, e por este motivo foi desenvolvida uma opção para o carregamento direto no Data Warehouse. Figura 29: Lançamento de dados diretamente no protótipo 78 5.2.3 Visualizar Dados Este módulo do protótipo utiliza basicamente a técnica de visualização que faz parte das técnicas de Data Mining e OLAP. A Figura 30 demonstra a consulta dos dados que foram importados. Neste programa o usuário pode selecionar a tabela e automaticamente serão listados os registros carregados. Figura 30: Consulta de dados por tabela 79 A Figura 31 demonstra uma opção onde o usuário pode selecionar o atributo, tipo de gráfico, titulo para o gráfico, opção para exibição de legenda, valores e configuração do tipo e tamanho de fontes. Figura 31: Gerador de gráficos 80 A Figura 32 exibe o gráfico gerado conforme parâmetros estabecidos pelo usuário. No exemplo foi gerado um gráfico de pizza, exibindo os atendimentos por diagnósticos topográficos (que identificam o local principal da manifestação do tumor). Figura 32: Exemplo de gráfico definido pelo usuário 81 A Figura 33 apresenta a opção que permite que através do protótipo se execute relatórios criados pelos próprios usuários ou desenvolvedores na ferramenta Crystal Reports. No exemplo foi utilizado um relatório (drilldown.exe) que apresenta o gráfico de atendimentos por sexo, onde ao executar um duplo clique com o mouse na área do gráfico é exibida a relação de atendimentos que compõem está região do gráfico. Figura 33: Execução de relatório externo gerados no Crystal Report 82 A Figura 34 exibe o gráfico de atendimentos por sexo. Figura 34: Exemplo relatório externo gerado no Crystal Report (drilldown.exe) 83 A Figura 35 exibe os atendimentos que compõem a área do gráfico, apresentando os pacientes do sexo feminino. Figura 35: Dados dos pacientes femininos atendidos 84 5.2.4 Minerar Dados Foram utilizadas neste módulo, técnicas de clusterização, árvore de decisão e indução de regras. A Figura 36 apresenta um formulário que permite ao usuário definir filtros que delimitem o universo de dados que se pretende avaliar, este procedimento pode restringir a mineração a um determinado periodo ou caracteristica. Esta opção tem como função otimizar o processo de leitura levando em consideração a utilização de banco dataflex. Figura 36: Seleção de Dados para Aplicação de Técnicas de Mineração 85 O protótipo apresenta opção de o usuário gerar uma árvore de decisão, através da aplicação de regras que podem ser definidas interativamente. A Figura 37 mostra um exemplo da utilização da árvore de decisão. No exemplo demonstrado primeiramente foi aplicada uma regra para tratar os dados de pacientes de cor branca, onde o protótipo gerou um novo nível com duas sub-divisões (“COR igual a BRANCO” e “COR diferente de BRANCO”) que são apresentadas em forma de folha. Após foi aplicada na sub-divisão (“COR igual a BRANCO”) uma nova regra para filtrar pacientes da religião católica, onde gerou uma nova sub-divisão (“RELIGIÃO igual a CATOLICA” e “RELIGIÃO diferente de CATOLICA”). Na mesma tela pode ser visualizado os percentuais relativos as sub-divisões, sendo que o primeiro % é sobre (“RELIGIÃO igual a CATOLICA”) em relação ao total geral e o segundo % é (“RELIGIÃO igual a CATOLICA”) em relação a sub-divisão (“COR igual a BRANCO”). Figura 37: Árvore de decisão 86 Na Figura 38 são visualizados os registros dos atendimentos que compõem a subdivisão selecionada, no exemplo são exibidos os pacientes de cor branca e da religião católica. Conforme observado na Figura os nomes dos pacientes e dos profissionais médicos estão criptografados por questões éticas. Figura 38: Atendimentos que compõem a sub-divisão selecionada 87 Na Figura 39 exibe o gráfico comparativo gerado na árvore a partir da regra aplicada pelo usuário. O gráfico exibe o percentual e quantidade de atendimentos da religião católica em relação a outras religiões. Figura 39: Gráfico comparativo referente a atendimentos por religião 88 Na Figura 40 é aplicada técnica de mineração denominada clusterização que consiste em gerar agrupamentos de atendimentos similares, onde o usuário pode selecionar os atributos a serem avaliados, neste caso a cor da pele, religião do paciente e procedimento utilizado no tratamento, o resultado é demonstrado através de clusters totalizados com a quantidade e percentual de atendimentos. Além disso pode-se verificar que para cada cluster é gerado um identificador que permite verificar quais atendimentos fazem parte do mesmo. Figura 40: Gera clusters Na tabela da Figura acima verifica-se uma coluna com a opção << Ver >>, que ao evento de um duplo clique do usuário é ativada uma tela com todos os atendimentos que compõem este cluster, conforme Figura 41. 89 É possível observar na Figura 41 todos os dados relativos ao atendimento que foram definidos na tabela de fatos. Figura 41: Visualiza atendimentos que fazem parte do cluster selecionado 90 5.2.5 Sobre – Informações sobre o Protótipo Na Figura 42 são exibidos os dados relativos ao acadêmico, orientador, titulo do trabalho, universidade, curso e informações do sistema relativas a hardware. Figura 42: Informações sobre o protótipo 5.3 CONSIDERAÇÕES FINAIS DO CAPÍTULO O objetivo deste capítulo foi demonstrar como foi desenvolvido o protótipo, as ferramentas utilizadas, a interface e aplicação na área oncológica. É importante ressaltar que, partindo-se de um modelo de dados utlizando atributos mais significativos os resultados obtidos terão maior relevância. 91 6 CONSIDERAÇÕES FINAIS Durante o desenvolvimento deste Trabalho de Conclusão de Curso (TCC) diversas etapas foram realizadas, dentre elas: compreender a oncologia, conhecer as tecnologias como Data Warehouse, Data Mining e OLAP. Através do trabalho foi possível conhecer as fases necessárias para construção de uma ferramenta que possibilitasse desde a definição de um ambiente Data Warehouse até a aplicação de Data Mining e OLAP. Durante o processo de construção da ferramenta a área oncológica foi utilizada como referência para validação do protótipo. Com a realização destas etapas todos os objetivos estabelecidos foram alcançados. Este trabalho demonstrou que projetar uma ferramenta que permita flexibilidade e ao mesmo tempo contemple aspirações de usuários que geralmente são complexas, exige-se domínio e conhecimento de tecnologias e principalmente técnicas de engenharia de software. Com a conclusão do trabalho fica claro que para obter conhecimento utilizando-se este protótipo é primordial o conhecimento do fluxo de trabalho da área de atuação. No caso específico do Hospital Regional do Oeste, esta ferramenta pode contribuir para novas descobertas que contribuam para prevenção e aprimoramento do tratamento do paciente. 6.1 RESUMO DAS CONTRIBUIÇÕES Este trabalho trouxe como contribuição a obtenção de conceitos, conhecimento de novas tecnologias através da revisão bibliográfica, a construção do protótipo contribuiu para aplicação prática dos conceitos e conhecimentos adquiridos. É necessário destacar que o trabalho enfocou uma área dentro do contexto da saúde, o que é muito relevante devido à importância que tem a vida das pessoas. 92 6.2 TRABALHOS FUTUROS O desenvolvimento e validação desta ferramenta não se encerram por aqui, abaixo apresento algumas sugestões para trabalhos futuros visando ampliar a capacidade e validação do protótipo em pauta: • Aplicação de outras técnicas de Data Mining como Inteligência Artificial, Associação, Algoritmos Genéticos; • Utilização deste protótipo por profissionais ou acadêmicos da área de saúde para validar a funcionalidade e eficiência da ferramenta, apresentando limitações e sugestões para melhoria. 93 7 REFERÊNCIAS ALCANTARA, Alexandre de. Business Intelligence - Produzindo Resultados, Obtido via internet. Ultimo acesso: 15/05/2005. http://www.datamodelling.com.br/html/art20030528.htm ANDREATTO, Ricardo. Construindo um Data Warehouse e analisando suas informações com Data Mining e OLAP. Obtida via internet. Ultimo acesso: 29/04/2005 http://www.datawarehouses.hpg.ig.com.br/ BAPTISTA, Evaristo. Um Modelo para Análise Gerencial na Área de Vendas. Dissertação (Mestrado em Engenharia de Produção) Universidade Federal de Santa Catarina, Florianópolis, 2001. BIGOLIN, Nara Martini. Data Mining: Conceitos e Técnicas. VII Escola de Informática da SBC – Sul, 2000. BISPO, Carlos Alberto; CAZARINI, Edson. Transformando Dados em Informações via Data Mining. Developers Magazine, Rio de Janeiro, 1999. BRACKETT, Michael H. The Data Warehouse Challenge, Wiley Computer Publishing, 1996. CAMPOS e FILHO, Maria Luiza & FILHO, Arnaldo V. Rocha. Data warehouse. Obtida via Internet. Ultimo acesso: 01/05/2005. http://genesis.nce.ufrj.br/dataware/tutorial/indice.html. CARVALHO, Luis Alfredo Vidal de. Data Mining: a mineração dos dados no marketing, medicina, economia, engenharia e administração. São Paulo: Érica, 2001 CENAFERT, Centro e Endoscopia e Assistência à Fertilidade. Oncologia. Obtida via internet. Ultimo acesso: 19/02/2005. www.cenafert.com.br/oncologia.htm CHAUDHURI, S. e DAYAL, U. An Overview of Data Warehousing and Olap Tecnology, SIGMOD Record, New York, v.26, nº 1, Mar/1997. DAL’ALBA, Adriano. Um estudo sobre Data warehouse. Obtida via internet. Ultimo acesso: 01/05/2005. http://www.geocities.com/siliconvalley/port/5072/. DALFOVO,Oscar & GRIPA, Robson. Data warehouse: usando a técnica de cubo de decisão. Developer’s Magazine, São Paulo, n.32, p.12-17, abr de 1999. DATA WAREHOUSE, 1999. Obtida via internet. Ultimo acesso: 09/03/2005 94 http://www.datawarehouse.inf.br/ DE TONI, Alexandre. Definição de um Data Mart em Cooperativas Agropecuárias. Engenharia da Produção e Sistemas de Mestrado Mídia e Conhecimento, UFSC: Florianópolis, 2000. Obtida através da internet. Ultimo acesso: 20/05/2005. www.stefa.ufsc.br/defesa/pdf/4034.pdf DI DOMENICO, Jorge Antonio. Definição de um ambiente Data Warehouse em uma Instituição de Ensino Superior. Programa de Pós-Graduação em Engenharia da Produção, UFSC, Florianópolis, 2001. Obtida via Internet. Ultimo acesso: 20/05/2005. www.teses.eps.ufsc.br/resumo DWB Brasil. Data Mining 2000, Obtida via Internet. Ultimo acesso: 01/05/2005. www.dwbrasil.com.br/html/dmining.html FURLAN, José Davi. et. Al. Sistemas de Informação Executiva – EIS. Makron Books, São Paulo, 1994. GIMENES, Eduardo. Monografia sobre Data Mining, 2000. Obtida via internet. Ultimo acesso: 25/05/2005. http://br.geocities.com/dugimenes/index.htm INCA, Instituto Nacional do Câncer. Órgão responsável pelo Controle do Câncer no Brasil. Obtida via internet. Ultimo acesso: 19/02/2005. http://www.inca.gov.br/ INFOCÂNCER. Aprenda sobre o Câncer, 2000. Obtida via internet. Ultimo acesso: 20/02/2005. http://www.infocancer.hpg.ig.com.br/cancer.html INMON, William H. Gerenciando Data Warehouse. Makron Books, São Paulo, 1999. INMON, William H. – Como Construir o Data Warehouse, Campus, Rio de Janeiro, 1997. KIMBALL, Ralph. Data Warehouse Toolkit. Makron Books, São Paulo, 1998. MV2, Business Inteligence, 2000. Obtida via internet. Ultimo acesso: 01/06/2005. www.mv2.com.br/BI.htm NETO, Manoel Gomes de Mendonça. Mineração de Dados. VI Escola Regional de Informática de São Paulo, SBC. PEREIRA,Max Roberto. Data warehouse: otimizando seu desempenho.Developer’s Magazine, São Paulo, n.32, p.22-26, abr de 1999. 95 PINHEIRO, Carlos André Reis. Data mining: obtendo vantagens com seu data warehouse. Developer’s Magazine, São Paulo, n.35, p.38-40, jul de 1999. RODRIGUES, Anderson. Desenvolvendo em Visual Dataflex 6. 2 ed. São Paulo: Copyright, 1999. SASSE, André. E-Cancer Informações em Câncer e Oncologia. Obtida via internet. Ultimo acesso: 19/02/2005. http://andre.sasse.com/oncologia SMANIOTTO, Ana Karla. Um estudo sobre Data Mining aplicado à Área Acadêmica na UNOESC – CHAPECO. Monografia (Curso de Ciência da Computação) UNOESC, Chapecó, 2001. SONSA, Aline. Protótipo de Data Mining aplicado ao processo da gestão do conhecimento na UNOCHAPECO. Monografia (Curso de Ciência da Computação) UNOCHAPECO, Chapecó, 2002. SOUZA, Roberto Carlos de. Tecnologias da Informação. Xadrezeduca. Obtida via internet. Ultimo acesso: 15/04/2005. www.xadrezeduca.com.br/site/a5/artigo4.shtml VISUAL DATAFLEX. Maio de 2004. Disponível em: <http://www.dataacess.com.br/visual dataflex.asp> Acesso em: 05 out. 2005.