15
1
INTRODUÇÃO
A Oncologia é uma disciplina complexa, que é auxiliada por outras especialidades, como
cirurgia, pediatria, patologia, radiologia, psiquiatria, que faz do sucesso um mérito das ações
multidisciplinares. Na Oncologia existem três objetivos principais no atendimento ao paciente,
a primeira é de tratar, de curar e devolvê-los a sociedade, e a segunda está na remissão longa
e satisfatória, buscando deixar o paciente bem consigo durante o maior tempo possível, e
quando a chance de remissão é remota, o objetivo passa a ser o de controlar a doença e seus
sintomas pelo uso correto de terapias paliativas, e a terceira está na melhora de vida do
paciente.
O Centro de Endoscopia e Assistência à Fertilidade no que tange a Oncologia diz:
“Nosso objetivo quanto ao câncer é conhecê-lo para intervir e, à medida que aumentamos
nosso conhecimento, preveni-lo. O esforço é atingir o processo não visível do problema que,
como um iceberg, é muito maior do que parece ser. Certamente já se avançou muito, como
pode ser verificado no manifesto da atual abordagem das neoplasias malignas”.
Como o Hospital Regional do Oeste (HRO) é um importante Centro de Tratamento
Oncológico na região e também no Estado, pois oferece tratamentos como Radioterapia,
Quimioterapia, Cirurgia Oncológica entre outros. Também busca atingir aos três objetivos
principais da oncologia que estão focados na cura e na melhora da qualidade de vida do
paciente.
Este trabalho propõe a construção de um protótipo que possibilite a definição de um
ambiente utilizando-se de um Data Warehouse (Armazém de Dados) para aplicação de
técnicas de Data Mining (Mineração de Dados) e On-Line Analytic Processing (OLAP), tendo
como função conhecer os casos tratados no HRO.
No desenvolvimento do protótipo serão utilizados para validação dados dos
atendimentos realizados como: nome do paciente, sexo, idade, diagnóstico, cidade, cor,
religião. Além destes são utilizados dados clínicos, cirúrgicos, exames auxiliares, avaliação
nutricional e terapias que serão utilizadas para gerar um Data Mart.
O protótipo tem por objetivo propiciar a criação de ambiente Data Warehouse, auxiliando
na identificação de padrões através de técnicas Data Mining (Mineração de dados) e On-Line
Analytic Processing (OLAP), fornecendo subsídio aos profissionais de oncologia no processo
de tomada de decisão.
16
O estudo de caso será realizado no Hospital Regional do Oeste (HRO), com intuito de
oferecer uma ferramenta de apoio, para extração de informações que possam ser relevantes
no tratamento dos pacientes oncológicos.
1.1 OBJETIVOS
Os objetivos estão divididos em gerais e específicos.
1.1.1 Gerais
Construir um protótipo que permita a equipe técnica de oncologia, criar um ambiente
Data Warehouse utilizando-se técnicas de Data Mining e OLAP buscando oferecer subsídio a
tomada de decisão.
1.1.2 Específicos
Para atingir o objetivo geral, as seguintes etapas se fazem necessárias:
•
compreender a oncologia;
•
estudar Data Warehouse (Armazém de Dados) e Data Mart;
•
estudar as técnicas de Data Mining para extração de informações;
•
avaliar as etapas para construção de um Sistema de Apoio a Tomada de Decisão;
•
levantar os requisitos necessários para o desenvolvimento do protótipo;
•
desenvolver o protótipo permitindo a criação de um ambiente Data Warehouse,
aplicando de técnicas de Data Mining e OLAP.
17
1.2 PROBLEMATIZAÇÃO
De acordo com especialistas, muitos casos de câncer podem ser relacionados a fatores
ambientais, como excesso de exposição ao sol (câncer de pele), o consumo do cigarro
(câncer de pulmão, boca), e ainda existem estudos para detectar outros fatores ou hábitos
que levam a ocorrência do câncer.
Atualmente no Brasil os dados estatísticos com relação ao câncer são muito falhos e
insuficientes, não retratando a realidade que vivemos. O Instituto Nacional do Câncer (INCA)
tem como atribuição desenvolver uma política de prevenção, detecção e tratamento do
câncer, visando à qualificação no tratamento e o acompanhamento eficiente dos casos da
doença no Brasil, além de pesquisas sobre os fatores motivadores da doença.
A situação verificada no Brasil também faz parte da realidade no estado de Santa
Catarina, bem como na Região Oeste, onde o principal centro de tratamento desta doença no
Hospital Regional do Oeste (HRO), disponibilizando profissionais das mais variadas
especialidades
como:
radioterapeutas,
oncologistas,
cirurgiões
oncologistas,
físico,
nutricionistas, assistentes sociais, enfermeiros, fisioterapeutas, psicólogos entre outros. Esta
estrutura
fornece
terapias
como
radioterapia,
quimioterapia,
cirurgia
oncologia,
acompanhamento clinico, nutricional, psicológico e assistencial, visando ao bem estar do
paciente em tratamento e de seus familiares.
A falta de registros estatísticos é uma realidade que parece não importar a sociedade,
mas o crescente aumento no número de casos, refletindo no aumento de pessoas que
convivem com está neoplasia, torna o tema de alta relevância, pois se conhecermos os
hábitos, costumes dos pacientes tratados, será possível modificar hábitos, costumes,
permitindo a prevenção, a detecção precoce, visando reduzir o índice de mortalidade.
O uso das novas tecnologias de Sistemas de Informação (SI) visam permitir que os
dados sejam gerados e avaliados de forma otimizada e eficiente, através das novas técnicas,
disponíveis como: Data Warehouse (DW), Data Mining (DM), Business Intelligence (BI).
A proposta deste projeto é desenvolver um protótipo que possibilite a criação de um
ambiente Data Warehouse, utilizando técnicas de mineração de dados, gráficos, tabelas e
relatórios, que permitam aos profissionais a identificação de hábitos, tendências e históricos
familiares que auxiliem no aperfeiçoamento do tratamento de pacientes.
18
O uso dos SI’s permitem que os profissionais identifiquem informações que antes eram
desconhecidas, já que o processo de cruzamento de informações dos casos tratados era
realizado de forma manual, o que dificultava substancialmente a identificação de padrões.
1.3 JUSTIFICATIVA
O câncer pode surgir de várias causas, e o seu surgimento pode ser derivado de uma
seqüência de eventos.
Câncer (ou neoplasia, ou tumor maligno) é uma classe de
doenças caracterizadas pelo crescimento descontrolado
de células aberrantes, e pode matar devido à invasão
destrutiva de órgãos normais por estas células, por
extensão direta ou por disseminação à distância, que
pode ser através do sangue, linfa ou superfície serosa
(SASSE, 2002).
As neoplasias é a terceira maior causa de morte no Brasil (superadas apenas pelas
doenças do aparelho circulatório e pelas causas externas / violência). Estima-se que durante o
século 21 o câncer já seja a principal causa de morte no Brasil (INCA, 2002).
De acordo com o Instituto Nacional do Câncer (INCA), que tem como função assistir ao
Ministério da Saúde na formulação de políticas de prevenção, diagnóstico e tratamento de
neoplasias malignas e afecções correlatas. O objetivo é planejar, organizar, executar, dirigir,
controlar e supervisionar planos, programas, projetos e atividades em âmbito nacional, (INCA,
2002).
Como estas atividades também são desempenhadas no HRO, é necessário que a
instituição também possa avaliar, planejar, organizar, executar e supervisionar seus serviços,
tendo como meta a qualidade, eficiência e eficácia no tratamento dos pacientes.
Como o sucesso da terapia contra o câncer depende da escolha das modalidades de
tratamento que mais se adaptam ao paciente e à sua doença, faz-se necessário a cooperação
entre especialidades, tornando o conhecimento de casos já atendidos e seus resultados
alcançados um fator de grande importância.
Este projeto visa fornecer uma ferramenta que permita aos profissionais de oncologia,
identificar, investigar e avaliar padrões que possam dar maior consistência as decisões. As
decisões podem estar vinculadas a tratamentos, campanhas de prevenção e projetos
educacionais, visando à melhoria da qualidade de vida e redução de futuros casos.
19
Como as técnicas de Data Warehouse e Data Mining têm sido muito utilizadas em
âmbito comercial, possibilitando aos empresários definir estratégias futuras para sua empresa,
porque não utilizá-las também para profissionais e gestores de serviços de saúde?
A proposta deste trabalho consiste em fornecer uma ferramenta que permita a definição
de um ambiente com os dados considerados relevantes, através da extração, validação,
transformação e carga. Após estas etapas necessárias para obtenção de informações é
possível a busca de conhecimentos que transmitam maior confiabilidade no tratamento
indicado, bem como possíveis formas de evitar eventos que possam levar as ocorrências
destas neoplasias.
Atualmente o HRO utiliza-se de fichas e formulários impressos onde são coletadas
informações sobre hábitos gerais dos pacientes (alimentação, práticas de esporte),
informações pessoais (nome, idade, sexo, cidade), históricos familiares e tratamentos
(procedimento, médico, diagnóstico).
Portanto, a importância deste trabalho está em otimizar a coleta de informações através
de arquivos textos, ou ainda, inserindo os dados coletados através de fichas diretamente na
base. Com isso é possível o cruzamento de informações e a identificação de informações de
forma rápida, não necessitando de um trabalho exaustivo de contagem manual, o que torna o
processo demorado, evitando que informações relevantes sejam desperdiçadas.
1.4 PROCEDIMENTOS METODOLÓGICOS
No desenvolvimento do protótipo foi necessária uma pesquisa ampla sobre câncer,
oncologia, Data Warehouse, OLAP, Data Mining e suas técnicas. Também foi necessário
obter conhecimento dos procedimentos envolvidos nos serviços da oncologia do Hospital
Regional do Oeste (HRO), onde foi aplicada a pesquisa e validado o protótipo.
O protótipo possui uma abordagem quantitativa considerando que os dados foram
avaliados e minerados, mas também qualitativa, pois o resultado desta mineração permitirá a
análise e a busca por padrões que objetivam melhorar a qualidade dos tratamentos
oncológicos prestados pelo HRO.
A pesquisa teve como objetivo o desenvolvimento de um protótipo que possibilite aos
profissionais que atuam na área oncológica, acesso a informações relacionadas à pacientes
atendidos, diagnosticados e tratados.
20
Para auxiliar na construção do estudo de caso utilizou-se materiais bibliográficos como:
livros, revistas, monografias, além de manuais e artigos disponíveis na internet e também nos
Serviços de Oncologia do HRO.
Conforme exposto a pesquisa foi aplicada, quantitativa e qualitativa, exploratória,
bibliográfica, documental, sendo o estudo de caso realizado no HRO.
1.5 ORGANIZAÇÃO DO TRABALHO
O trabalho é composto por sete capítulos, sendo dividido em itens e sub-itens.
No capítulo dois é abordado o tema oncologia, câncer, conceitos, tratamento e
informações sobre o tema.
No capítulo três serão abordados assuntos como Business Intelligence, evolução dos
sistemas de apoio à decisão, além de aspectos sobre Data Warehouse (Armazém de Dados),
os elementos básicos, arquitetura, suas etapas de construção, o modelo de dados utilizado, o
que são metadados e um estudo sobre data mart. Também será abordado o tema Data
Mining, relatando seu funcionamento, etapas e técnicas.
No capítulo quatro, o principal objetivo é apresentar um estudo do ambiente, que é de
suma importância para permitir que seja proposto um modelo. Neste estudo é importante
conhecer o histórico, a estrutura organizacional, como está definido o fluxo de informações e
levantamento de requisitos.
No capítulo cinco tem como prioridade demonstrar as ferramentas utilizadas, e a
apresentação do protótipo desenvolvido, levando em consideração a revisão bibliográfica. As
especificações coletadas no levantamento de requisitos foram utilizadas na validação do
protótipo.
No
capítulo
seis,
são enfatizadas
recomendações para trabalhos futuros.
as
considerações finais,
contribuições e
21
2
ONCOLOGIA - ESTUDO DOS TUMORES (CÂNCER)
Este capítulo tem como objetivo compreender o que é oncologia, o que é o câncer,
como se ocorre sua formação, quais os tipos, as modalidades terapêuticas, como evitar e
como está sendo o registro dos casos no Mundo e no Brasil.
2.1 ONCOLOGIA
A origem da palavra é do grego ogkos (tumor) mais logos (tratar de), que tem como
significado o estudo dos tumores (Dicionário).
Segundo Sasse (2002), a oncologia tornou-se uma disciplina ampla e muito
interessante, sendo auxiliada por várias especialidades, ou seja, multidisciplinares, pois
envolve áreas diversas como: cirurgia, pediatria, patologia, radiologia, psiquiatria, nutrição,
fisioterapia entre outras.
Na oncologia três objetivos são considerados primordiais, que consistem em curar o
paciente o mais breve possível, não sendo possível, o segundo objetivo é postergar o máximo
e o terceiro é com a melhor qualidade possível, permitindo que o paciente tenha uma vida
menos sofrida. Também é levado em consideração a sensibilidade e o bom senso.
Como relata Cenafert (2003), o objetivo da oncologia é conhecer o câncer, para tratar, e
com o domínio do conhecimento, preveni-lo. Há uns 40 anos até mesmo para os profissionais
médicos comunicarem ao seu paciente o problema era complicado, normalmente esse
contato era feito com familiares, a mudança de cultura e as possibilidades de cura
minimizaram este fato, já ficou muito mais fácil discutir com o próprio paciente sobre seu
problema e as possibilidades de tratamento.
Antigamente o conhecimento da doença partia do
diagnóstico, constatado em fases avançadas. Nesta
época pouco se podia fazer para o conhecimento das
alterações morfológicas nas células, pelo microscópio,
quando a doença é incipiente. O avanço seguiu ainda
mais e estamos no estágio onde, em alguns casos,
dispomos de tecnologia para detectar alterações que
estão em andamento na molécula e que podem ser
desencadeadoras de uma neoplasia no futuro. A ação
preventiva, nesse caso pode ser bastante precose
(CENAFERT, 2003).
22
Como relata Cenafert (2003) quarenta por cento dos tumores são preveníveis e uma
outra quantidade igual é controlável, e os outros vinte por cento estão sendo pesquisados e
estudados constantemente.
2.2 DEFINIÇÃO DO CÂNCER
O câncer, ou neoplasias, ou ainda tumor maligno são células descaracterizadas que
passam por um crescimento descontrolado, podendo levar a morte devido à invasão
destrutiva de órgãos normais, por extensão direta ou por disseminação à distância, que pode
ser disseminada pelo sangue, linfa ou superfície serosa. “Este comportamento anormal das
células cancerosas é geralmente espelhado por mutações genéticas, expressões de
características ontológicas, ou secreção anormal de hormônios ou enzimas” (SASSE, 2002).
Segundo Inca (2002), o câncer é um conjunto de 100 doenças com crescimento
desordenado, maligno, que invadem células e órgãos, disseminando-se por outras partes do
corpo, também é conhecido como metástase. A divisão descontrolada destas células
ocasionão tumores (acúmulo de células cancerosas), que são definidas como neoplasias
malignas, já os tumores benignos são simplesmente células que são muito parecidas com as
normais e que se dividem vagarosamente sem fornecer risco à vida do paciente.
Todos os cânceres têm o potencial de invasão ou de
metastalização,
mas
cada
tipo
específico
tem
características clínicas e biológicas, que devem ser
estudadas para um adequado diagnóstico, tratamento e
acompanhamento (SASSE, 2002).
A figura abaixo demonstra como atuam as células anormais (cancerosas), que infiltram
tecidos até atingir órgãos.
Figura 1: Ilustração de como ocorre a formação do tumor (INCA, 2002)
23
2.3 CAUSAS DO CÂNCER
A seqüência de eventos pode desencadear a ocorrência, ou auxiliar no surgimento dos
tumores, através de modificações genéticas que transformem células normais em células
destrutivas, que não seguem os padrões das outras células (SASSE, 2002).
As causas de câncer são variadas, podendo ser externas
ou
internas
ao
organismo,
estando
ambas
inter-
relacionadas. As causas externas relacionam-se ao meio
ambiente e aos hábitos ou costumes próprios de um
ambiente social e cultural. As causas internas são, na
maioria das vezes, geneticamente pré-determinadas,
estão ligadas à capacidade do organismo de se defender
das agressões externas. Esses fatores causais podem
interagir de várias formas, aumentando a probabilidade de
transformações malignas nas células normais (INCA,
2002).
Segundo Inca (2002), a maioria dos cânceres, em torno de 80 ou 90%, são ocasionados
por fatores ambientais, incentivados por hábitos como: cigarro, que causa principalmente o
câncer de pulmão, exposição muito longa ao sol que causa câncer de pele, entre outros,
também podendo ser ocasionados por vírus que causam, por exemplo, a leucemia (câncer no
sangue).
Segundo Inca (2002) casos que sejam efetivamente causados por fatores hereditários,
familiares e étnicos, são raros, apesar de existirem alguns casos tipo de portadores de
retinoblastoma, que em 10% tem um histórico familiar de tumores, bem como alguns tipos
de câncer de mama, estômago e intestino, que possuem um componente familiar bastante
significativo. Também existem alguns dados com relação a grupos étnicos como orientais
que apresentam casos raros de leucemia linfocítica e negros com o Sarcoma de Ewing.
2.4 ESTADIAMENTO GERAL DO CÂNCER
O Cenafert (2003) apresenta um demonstrativo simplificado de como são divididos os
estágios do câncer:
Estágio 1. Localizado: Está em geral dentro do órgão de origem, normalmente possível
de cura com cirurgia e irradiação no local afetado;
24
Estágio 2. Localizado mas extenso: Quando sai para fora do órgão origem, fica
normalmente próximo, em certo momentos curável com cirurgia e irradiação, em conjunto com
a quimioterapia;
Estágio 3. Disseminado regionalmente: Ultrapassa os limites do órgão origem, passando
por muitos tecidos, podendo atingir gânglios (linfonodos), pode ser curado, mas em muitos
casos não ocorre a cura e o tratamento do local ou do sistema depende do tumor;
Estágio 4. Disseminado difusamente: Quanto já atingiu vários órgãos distantes, os casos
de cura são muito raros.
2.5 MODALIDADES TERAPÊUTICAS
Abaixo são demonstradas as modalidades terapêuticas utilizadas segundo Sasse
(2002).
Cirurgia: Utilizada para tumores localizados em situações anatômicas favoráveis. É
uma modalidade muito importante na cura, mas que no caso de tumores disseminados não é
suficiente.
Radioterapia: Medido em rads, utilizados em tumores que costumam retornar após
cirurgia, podendo ocasionar lesões em células próximas ao tumor, e a quantidade de
aplicação depende do tumor.
Quimioterapia: Utilizam medicamentos que causam danos às células, utilizando vários
medicamentos considerando-se sensibilidades diferentes às drogas antineoplasicas, em geral
lesão de DNA celular. A causa da maioria dos efeitos colaterais como: náuseas, vômitos,
anemia, mielossupressão são devido à toxicidade contra células normais. Normalmente
utilizada depois de outras terapias como: tratamento cirúrgico, radioterápico em caso de
câncer de leucemias, linfomas, testículo, etc.
Terapia biológica: Uso de modificadores biológicos, fazendo com que as células
tumorais sejam de fácil controle e que permitam ao próprio organismo o combate à doença.
2.6 TIPOS DE CÂNCER
Os tipos de câncer e seus fatores de risco conforme o Infocâncer (2004) são:
25
2.6.1. Câncer de Boca
Para Infocâncer (2004), os fatores que podem levar ao câncer de boca são os vícios de
fumar cachimbos e cigarros, o consumo de álcool, a má higiene bucal e o uso de próteses
dentárias mal-ajustadas.
2.6.2. Câncer do Colo do Útero
Os fatores sociais, ambientais e os hábitos de vida, tais como baixas condições sócioeconômicas, atividade sexual antes dos 18 anos de idade, pluralidade de parceiros sexuais,
vício de fumar (diretamente relacionado à quantidade de cigarros fumados), hábitos de higiene
e o uso prolongado de contraceptivos orais são os principais motivos da doença.
Estudos recentes mostram ainda que o vírus do papiloma humano (HPV) e o
Herpesvírus Tipo II (HSV) têm papel importante no desenvolvimento da displasia das células
cervicais e na sua transformação em células cancerosas. O vírus do papiloma humano (HPV)
está presente em 94% dos casos de câncer do colo do útero (INFOCÂNCER, 2004).
2.6.3. Câncer de Fígado
Cerca de 50% dos pacientes com carcinoma hepatocelular apresentam cirrose
hepática, que pode estar associada ao etilismo (Consumo de Bebida alcoólica) ou hepatite
crônica, cujo fator etiológico predominante é a infeccão pelo vírus da hepatite B, segundo
(INFOCÂNCER, 2004).
2.6.4. Câncer de Laringe
Conforme Infocâncer (2004) há uma forte associação entre a ingestão excessiva de
álcool e o vício de fumar, com o desenvolvimento de câncer nas vias aerodigestivas
superiores. O tabagismo é o maior fator de risco para o desenvolvimento do câncer de laringe.
Quando a ingestão excessiva de álcool é adicionada ao fumo, o risco aumenta para o câncer
supraglótico. Pacientes com câncer de laringe que continuam a fumar e beber tem
probabilidade de cura reduzida e aumentam o risco de aparecimento de um segundo tumor
primário na área de cabeça e pescoço.
2.6.5. Câncer de Mama
Segundo Infocâncer (2004), as causas de câncer de mama ainda são desconhecidas.
O histórico familiar constitui o fator de risco mais importante, especialmente se o câncer
ocorreu na mãe ou em irmã, se foi bilateral e se desenvolveu antes da menopausa. Outro
fator de risco é a exposição à radiação ionizante antes dos 35 anos. A menopausa tardia
26
(além dos 50 anos, em média) está associada a uma maior incidência, assim como a
primeira gravidez após os 30 anos de idade. No entanto, ainda não está comprovado se a
mulher que retarda intencionalmente a gravidez para depois dos 30 anos tem maior risco de
que aquelas cuja gravidez não pôde ocorrer espontaneamente.
Continua sendo alvo de muita controvérsia o uso de contraceptivos orais no que diz
respeito à sua associação com o câncer de mama. Aparentemente, certos subgrupos de
mulheres, com destaque para as que usaram pílulas com dosagens elevadas de estrogênios
ou por longo período de tempo, têm maior risco. Outro fator de risco é a ingestão regular de
álcool, mesmo que em quantidade moderada, que gera um aumento moderado do risco de
câncer de mama.
2.6.6. Câncer de Próstata
Os antecedentes familiares têm particular importância, pois elevam o risco em três
vezes ou mais para os descendentes de doentes de câncer de próstata. Quanto aos fatores
ambientais, existem muitas relações possíveis, entre as quais com substâncias químicas
utilizadas na indústria de fertilizantes, ferro, cromo, cádmio borracha e chumbo, embora não
seja comprovada a correlação entre esses fatores e uma maior incidência do câncer de
próstata (INFOCÂNCER, 2004).
Outros fatores importantes para Infocâncer (2004) são as dietas ricas em gordura animal
que podem aumentar as taxas de androgênios e estrogênios e relacionar-se com o aumento
dos tumores da próstata, ao contrário da gordura vegetal e dos frutos do mar. Calcula-se que
de 75% a 80% dos tumores não se expressam clinicamente, e apenas 20% a 25%
manifestarão sintomas. Destes, 10% são focais, 40% são iniciais e talvez curáveis e 50% são
avançados. Estes números variam com a maior ou menor possibilidade de detecção precoce
da doença. Os tumores encontrados nas necropsias são geralmente pequenos, bem
diferenciados e estão confinados à glândula, ao contrário do que ocorre com os homens que
morrem de câncer de próstata, que portam tumores grandes ou invasivos. O retardo do
diagnóstico prende-se a diversos fatores: a falta de informação da população leiga, que
mantém crenças ultrapassadas e negativas sobre o câncer e seu prognóstico; a falta de alerta
dos profissionais da saúde para o diagnóstico precoce dos casos; o preconceito contra o
câncer e contra o toque retal; a inexistência de um exame específico e sensível que possa
detectar tumor em fase microscópica e a falta de rotinas abrangentes programadas nos
serviços de saúde públicos e privados que favoreça a detecção do câncer, inclusive o de
próstata.
27
2.6.7. Câncer de Pulmão
Independentemente do tipo celular ou subcelular, o tabagismo é o principal fator de
risco do câncer pulmonar, sendo responsável por 90% dos casos. Outros fatores
relacionados são certos agentes químicos (como o arsênico, asbestos, berílio, cromo,
radônio, níquel, cádmio e cloreto de vinila, principalmente encontrados no ambiente
ocupacional), fatores dietéticos (baixo consumo de frutas e verduras), a doença pulmonar
obstrutiva crônica (enfisema pulmonar e bronquite crônica), fatores genéticos (que
predispõem à ação carcinogênica de compostos inorgânicos de asbesto e hidrocarbonetos
policíclicos aromáticos) e história familiar de câncer de pulmão (INFOCÂNCER, 2004).
2.6.8. Câncer de Ovário
As mulheres que apresentam diagnóstico de câncer de mama ou intestino, ou têm
parentes próximos com esses tipos de cânceres são propensas a desenvolver o câncer de
ovário. As mulheres que nunca tiveram filhos também têm mais chances de desenvolver a
doença. Nesse caso, a ovulação é incessante, portanto a possibilidade de haver problemas no
ovário é maior. Já a gravidez e a menopausa produzem o efeito contrário: reduzem o risco
deste tipo de câncer. A amamentação também protege a mulher contra o câncer de ovário. A
presença de cistos no ovário, bastante comum entre as mulheres, não deve ser motivo para
pânico. O perigo só existe quando eles são maiores que 10 cm e possuem áreas sólidas e
líquidas. Nesse caso, quando detectado o cisto, a cirurgia é o tratamento indicado
(INFOCÂNCER, 2004).
2.6.9. Leucemia
A leucemia é uma doença maligna dos glóbulos brancos (leucócitos) de causa não
conhecida. Ela tem como principal característica o acúmulo de células na medula óssea. A
medula é o local de formação das células sangüíneas, ocupa a cavidade dos ossos e é
conhecida popularmente por tutano. Nela são encontradas as células mães ou precursoras
que originam os elementos figurados do sangue (glóbulos brancos, glóbulos vermelhos ou
hemácias ou eritrócitos e plaquetas). Os principais sintomas de leucemia decorrem do
acúmulo dessas células na medula óssea, prejudicando ou impedindo a produção dos
glóbulos vermelhos (causando anemia), glóbulos brancos (causando infecções) e plaquetas
(causando hemorragias e manchas roxas). Depois de instalada, a doença progride
rapidamente, exigindo início de tratamento rápido. (INFOCÂNCER, 2004).
28
2.6.10. Melanoma ou Câncer de Pele
Os fatores de risco levantados por Infocâncer (2004), em ordem de importância é a
sensibilidade ao sol (queimadura pelo sol e não bronzeamento), a pele clara, a exposição
excessiva ao sol, a história prévia de câncer de pele, história familiar de melanoma, nevo
congênito (pinta escura), maturidade (após 15 anos de idade a propensão para este tipo de
câncer aumenta), xeroderma pigmentoso (doença congênita que se caracteriza pela
intolerância total da pelo ao sol, com queimaduras externas, lesões crônicas e tumores
múltiplos) e nevo displásico (lesões escuras da pele com alterações celulares précancerosas).
2.6.11. Tumores de Ewing (Tumor de Askin)
Para Infocâncer (2004), a causa é desconhecida. Não parece ser hereditária. São
tumores extremamente raros em negros e asiáticos.
2.7 CONSIDERAÇÕES FINAIS DO CAPÍTULO
Neste capítulo foi visto sobre o que é oncologia, câncer, as causas, os estágios, seus
tratamentos e tipos de cânceres, a seguir começaremos a conhecer as tecnologias a serem
utilizadas para o desenvolvimento do projeto.
29
3
BUSINESS INTELLIGENCE – BI
Neste capítulo serão abordados assuntos como Business Intelligence, evolução dos
sistemas de apoio à decisão, além de aspectos sobre Data Warehouse (Armazém de Dados),
os elementos básicos, arquitetura, suas etapas de construção, o modelo de dados utilizado, o
que são os metadados e um estudo sobre data mart. Também será abordado o tema Data
Mining, relatando seu funcionamento, etapas e técnicas.
Inicialmente é importante o entendimento dos termos que constituem esse conceito:
Business (negócio) e Intelligence (inteligência), ou seja, inteligência de negócio.
O objetivo do BI está em servir de auxilio para tratamento da base de dados existente,
de forma a melhorar o processo de tomada de decisão.
O BI engloba o uso de ferramentas sofisticadas, como por exemplo, a Inteligência
Artificial (IA), propiciando informações mais trabalhadas, gerando uma base de conhecimento,
obtida através da base de dados existente, sendo disseminado pela empresa em um contínuo
processo de verificação e aprimoramento.
De acordo com Data Warehouse (1999) apud Smaniotto (2001), BI é a união de
conceitos e metodologias, utilizando-se de fatos que forneçam suporte a tomada de decisão.
Para MV2 (2001) apud Smaniotto (2001), BI ou “Inteligência Empresarial” tem como
objetivo apresentar informações de maneira e formato corretos e em tempo hábil para dar
suporte à tomada de decisões.
A figura abaixo demonstra uma visão geral da arquitetura de um BI:
Figura 2. Visão Geral da Arquitetura de um Business Intelligence (ALCÄNTARA, 2003)
30
Conceituando seus componentes:
•
operacional: são os dados do dia-a-dia da empresa. Segundo Inmon (1997), "é
denominado desta forma, pois, está relacionado com operações de negócios
diárias da corporação".
•
staging area (SA): é área de tratamento, padronização e transformação da
informação. Também denominadas por Inmon (1997) como "camada de integração
e transformação".
•
operational data store (ODS): Para Inmon (1997), ”ODS é uma base de dados
integrada, volátil, de valores correntes, e que contém somente dados detalhados”.
•
data warehouse (DW): Para Kimball (1998), “é a fonte de dados para consultas na
organização, ou seja, a união de todos os Data Marts já constituídos”.
•
data mart (DM): Segundo Kimball (1998), “que os data marts são subconjuntos de
um DW completo”.
•
near line store (NLS):
“armazenagem complementar ao DW, a fim de manter
dados raramente acessados” (INMON, 1997).
•
exploration warehouse (EW): Para Inmon (1997), “um ambiente ideal para análises
pesadas e inexploradas ainda por serem efetuadas, isolado do warehouse
corporativo”.
•
metadados: Pode-se definir metadados como os dados que definem os elementos
de dados da arquitetura BI.
•
ETL: Sigla derivada de Extract, Transformation and Load, consiste no processo de
busca dos dados de sua origem para serem utilizadas em um ambiente BI, sua
transformação, padronização e posterior carga no DW (ou DM ou ODS).
•
OLAP: Advindo da expressão On-Line Analytic Processing, Kimball (1998), define
como “a atividade de consulta e apresentação de dados textuais e numéricos em
um DW”.
•
Drill: Operação de detalhamento (drill-down) ou agregação (drill-up, também
conhecido como roll-up) em um processo OLAP (INMON, 1997).
31
3.1 EVOLUÇÃO DOS SISTEMAS DE APOIO À DECISÃO
Para Inmon (1997), os Sistemas de Apoio à Decisão tem origem com os computadores,
porém à evolução principal ocorreu entre os anos 60 e 80, estando divididos em cinco fases,
que são descritas abaixo:
• Inicio década de 1960, sistemas individuais, que faziam uso de arquivos principais
(mestres), que eram armazenados em fitas magnéticas;
• Em 1965 aproximadamente, devido à complexidade tanto na criação e manutenção
de programas, e o crescimento de arquivos mestres, surgiram enormes dificuldades
devido à necessidade de hardware;
• Em meados de 1970, surgiram os SGBD’s ou Sistemas de Gerenciamento de Banco
de Dados, e também um novo conceito que definia que todo o processamento
deveria ser realizado sobre uma base única, que é o conceito de banco de dados.
Além disso, surgiu a tecnologia conhecida com direct access storage device (DASD)
armazenamento em disco, que substituiu as fitas magnéticas permitindo a criação
dos SGBD’s;
• Já em 1975, surgiu o conceito de transações online, ou seja, com as atualizações
instantâneas nos SGBD’s;
• Com todas as evoluções anteriores por volta do início dos anos 80, novas tecnologias
apareceram como PC (Personal Computers – Computadores Pessoais) e as L4Gs
(Linguagens de Quarta Geração), possibilitando a criação dos MIS (management
information systems – Sistemas de Informações Gerenciais).
Para Campos e Filho (1999), as aplicações podem ser classificadas em dois grupos:
1.
aplicações do negócio: são as aplicações que trabalham com o nível operacional,
que atendem ao dia a dia da empresa, conhecidos como sistemas de produção;
2.
aplicações sobre o negócio: são as aplicações que permitem interpretar, analisar
e definir estratégias, também conhecidos como Sistemas de Apoio à Tomada de
Decisões (SAD) e Sistemas de Informações Executivas (SIE-IES).
Segundo Campos e Filho (1999), a arquitetura ideal baseia-se em um ambiente de
bancos de dados operacionais e outro para suporte às decisões, conforme a figura 3:
32
Figura 3. Arquitetura de Dados Ideal (B.Boar, 1993 apud CAMPOS e FILHO,1999)
3.1.1 Dados Operacionais versus Dados Informacionais
Sistemas de Apoio à Decisão (SAD) e Sistemas de Informações Executivos (SIE)
apresentam funcionalidades e desempenho diferenciados dos sistemas de produção da
empresa. (CAMPOS e FILHO, 1999):
• Sistemas de Produção: atendem a muitos usuários e o tempo de resposta é fator
crítico, geralmente trabalham com poucos registros;
• SAD e SIE: atendem a poucos usuários e o tempo de resposta não é fator critico,
utiliza-se uma grande quantidade de registros, tendo em vista que suas consultas
são complexas e imprevisíveis;
• SAD e SIE: devem apresentar dados consistentes, muitas vezes carregados de
vários sistemas de produção, são organizados permitindo a utilização adequada de
ferramentas de análise dos dados, bancos de dados que dêem suporte à SAD e
SIE devem ser capazes de oferecer um bom tempo de resposta para consultas que
recuperam grandes conjuntos de dados agregados e históricos;
• SAD e SIE: normalmente lidam com tendências, para isto são acompanhados do
período a que se referem os dados.
33
Para Furlan (1994), os EIS ou SIE são desenvolvidos para servirem de consulta sem
manipulação dos dados e atendendo aos executivos da empresa, enquanto os SAD’s são
desenvolvidos para atenderem ao nível gerencial, a figura abaixo apresenta as divisões de
níveis dos sistemas:
EIS – SISTEMAS DE INFORMAÇÕES EXECUTIVAS
Estratégicos
SAD- SISTEMA DE APOIO À DECISÃO
Gerenciais
SIG – SISTEMAS DE INFORMAÇÕES GERENCIAIS
FATURAMENTO, FOLHA PAGAMENTO, CONTABIL
Operacionais
AUTOMAÇÃO INDUSTRIAL, COMERCIAL DE ESCRITÓRIO
Automação
Figura 4 – A Pirâmide de Sistemas (FURLAN, 1994)
3.2 DATA WAREHOUSE
Este conceito consiste em organizar os dados corporativos da melhor maneira,
oferecendo subsídio através de informações aos gerentes e diretores das empresas para
tomada de decisão. Tudo isso num banco de dados paralelo aos sistemas operacionais da
empresa.
Segundo Inmon (1997), o Data Warehouse são dados agrupados, modificado com o
tempo, por atividade, não-volátil, utilizado no apoio a tomada de decisões. Uma importante
característica do Data Warehouse é a integração.
Para Souza (2004), data warehouse é uma imensa base de dados não-volátil,
organizada por assunto, integrada e variável em relação ao tempo. Também pode ser definido
como sendo a união de técnicas quem geram um sistema de dados que propiciam
conhecimentos para tomada de decisões.
O desenvolvimento de sistemas de DW tem se tornado nos dias atuais uma grande área
de estudo e aplicação nas empresas. A possibilidade de acessar informações confiáveis com
boa velocidade e garantia de qualidade de dados está cativando os diretores das
34
organizações que cada vez mais necessitam de um controle mais efetivo dos dados da
empresa sem depender de intermediários para poder tomar suas decisões (SOUZA, 2004).
As informações contidas nos tradicionais sistemas orientados à transação não suprem
as necessidades de consultas dos gerentes que precisam acessar longos períodos históricos,
muitas vezes de vários anos, os quais certamente não estarão disponíveis nos sistemas
utilizados para gerenciar as tarefas do dia-a-dia da empresa (SOUZA, 2004).
Para Souza (2004) os bancos de dados são de vital importância para as empresas e
devemos observar que sempre foi difícil analisar os dados neles existentes. Tudo isso porque
geralmente grandes empresas detêm um volume enorme de dados e esses estão em diversos
sistemas. Não era possível buscar informações que permitissem tomarmos decisões
embasadas num histórico dos dados. Com este histórico podemos identificar tendências e
posicionar a empresa estratégicamente para ser mais competitiva e consequentemente
maximizar os lucros diminuindo o índice de erros na tomada de decisão.
•
dispõem de habilidade para extrair, tratar e agregar dados de múltiplos sistemas
operacionais em Data Marts ou data warehouses separados;
•
armazenam dados frequentemente em formato de cubo (OLAP) multi-dimensional
permitindo rápido agregamento de dados e detalhamento das análises (drilldown);
•
disponibilizam visualizações informativas, pesquisando, reportando e modelando
capacidades que vão além dos padrões de sistemas operacionais frequentemente
oferecidos.
3.2.1 Arquitetura do Data Warehouse
Existem ferramentas para extração de dados de diversas bases de dados operacionais
e de fontes externas, ferramentas para limpeza, transformação e integração destes dados,
para carga de dados no DW e ainda outras para atualização periódica do warehouse a fim de
refletir as atualizações ocorridas nas fontes (DATA WAREHOUSE 1999).
Além do DW podem existir vários Data Marts (DMs), que departamentalizam os dados
separando-os por setor dentro da organização.
Os dados contidos no DW e nos DMs são gerenciados por um ou mais servidores de
warehouse, os quais apresentam visões multidimensionais dos dados para uma variedade de
ferramentas front end.
35
Figura 5: Arquitetura Conceitual do Data Warehouse (CHAUDHURI, 1997)
A visão multidimensional em forma de cubo de dados indica que as informações são
visualizadas em linhas e colunas como o formato tradicional das planilhas, porém existem
mais dimensões, sendo que o cubo teria apenas mais uma dimensão. Esta característica
organiza e facilita a consulta aos dados de maneira que se pode ter, por exemplo, numa
dimensão do cubo os meses do ano, na segunda dimensão estariam às cidades de origem
dos clientes e na terceira dimensão o médico que encaminhou o cliente para o hospital.
Finalmente, existe um repositório para armazenagem e gerenciamento dos metadados
acompanhados de ferramentas para monitorização e administração do sistema.
3.2.2 Modelo de Dados
Sendo o DW interativo é de suma importância o papel do modelo de dados. Quando os
esforços de desenvolvimentos são baseados em um único modelo de dados sempre que for
necessário unir estes esforços os níveis de sobreposição de trabalho e desenvolvimento
desconexo serão muito baixos, pois todos os componentes do sistema estarão utilizando a
mesma estrutura de dados (ANDREATTO, 1999).
3.2.2.1 Modelo de Dimensões
Segundo Andreatto (1999) obtenção de respostas à questões na análise dos negócios
de uma empresa, em geral, requer que os dados sejam visualizados de diferentes
perspectivas. Por diversas vezes as questões levantadas podem ser respondidas através do
ambiente tradicional de banco de dados, porém o tempo de resposta muito longo o tornam
36
ineficaz, sendo assim, buscou-se tecnologias que possam atender as necessidades de
consultas deste tipo via acesso interativo aos bancos de dados.
Teoricamente, quaisquer dados podem ser considerados multidimensionais. Entretanto,
o termo normalmente se refere aos dados representando objetos ou eventos que podem ser
descritos, portanto, classificados por dois ou mais de seus atributos.
Estruturas relacionais podem ser usadas para a representação e o armazenamento de
dados multidimensionais. Neste caso, as abordagens encontradas incluem desde a adoção de
formas específicas de modelagem (os chamados esquemas estrela e floco de neve) até
mecanismos sofisticados de indexação.
3.2.2.2 Os Esquemas do tipo Estrela e Floco de Neve
Em um esquema do tipo estrela ou "star" as instâncias são armazenadas em uma tabela
contendo o identificador de instância, valores das dimensões descritivas para cada instância, e
valores dos fatos, ou medidas, para aquela instância (tabela de fatos). Além disso, pelo menos
uma tabela é usada, para cada dimensão, para armazenar dados sobre a dimensão (tabela de
dimensão). No caso mais simples, a tabela de dimensão tem uma linha para cada valor válido
da dimensão. Esses valores correspondem a valores encontrados na coluna referente àquela
dimensão na tabela de fatos (ANDREATTO, 1999).
Este esquema é chamado de estrela, por apresentar a tabela de fatos "dominante" no
centro do esquema e as tabelas de dimensões nas extremidades. A tabela de fatos é ligada
as demais tabelas por múltiplas junções, enquanto as tabelas de dimensões se ligam apenas
a tabela central por uma única junção. A Figura 6 mostra um exemplo de um modelo tipo
estrela, onde as dimensões seriam as pontas das estrelas e a tabela de fatos o centro.
37
DIMENSÃO PACIENTE
DIMENSÃO TEMPO
Chave_tempo
Dia
Mês
ano
Chave_paciente
Nome
Idade
Sexo
FATOSONCOLOGICOS
Chave_tempo
Chave_paciente
Chave_diagnostico
Tempo_tratamento
DIMENSÃO DIAGNOSTICO
Chave_diagnostico
descricao
Figura 6 – Modelo Estrela.
A tabela de fatos é onde as medidas quantitativas ou valoradas do fato representado
estão armazenadas. Cada uma destas medidas é tomada segundo a interseção de todas as
dimensões. No caso do exemplo, uma consulta típica selecionaria fatos da tabela
FATOSONCOLOGICOS a partir de valores fornecidos relativos a cada dimensão
(ANDREATTO, 1999).
Outro tipo de estrutura bastante comum é o esquema do tipo floco de neve ou
"snowflake", que consiste em uma extensão do esquema estrela onde cada uma das "pontas"
da estrela passa a ser o centro de outras estrelas. Isto porque cada tabela de dimensão seria
normalizada, "quebrando-se" a tabela original ao longo de hierarquias existentes em seus
atributos. No caso do exemplo, a dimensão paciente possui uma hierarquia definida onde
cidade se divide em estado e estado se divide em paciente (Figura 7). Da mesma forma, a
dimensão tempo inclui ano que contem mês e mês que contem dia. Cada um destes
relacionamentos muitos-para-um geraria uma nova tabela em um esquema floco de neve
(ANDREATTO, 1999).
DIMENSAO PACIENTE
Chave_Paciente
Nome
Idade
Chave_Cidade
Chave_Cidade
Nome
CEP
Chave_Estado
Chave_Estado
Nome
UF
Figura 7 – A dimensão do atendimento normalizada.
38
3.2.2.3 MOLAP - Multidimensional OLAP
Segundo Data Warehouse (1999), é uma classe de sistemas que permite a execução de
análises
sofisticadas usando como
gerenciador de
dados
um banco de dados
multidimensional. “Em um banco de dados MOLAP os dados são mantidos em arranjos e
indexados de maneira a prover um ótimo desempenho no acesso a qualquer elemento. O
indexamento, a antecipação da maneira como os dados serão acessados, e ainda, o alto nível
de agregação dos dados, fazem com que sistema MOLAP tenha um excelente desempenho.
Além de serem rápidos, outra grande vantagem destes sistemas é o rico e complexo conjunto
de funções de análise que oferecem”.
Na figura abaixo podemos verificar um Data Mart com três dimensões utilizando um Banco
de Dados Multidimensional onde as três dimensões são: geografia (região), produto e
tempo:
Figura 8. Banco de Dados Multidimensional (CHAUDHURI, 1997)
3.2.2.4 ROLAP - Relacional OLAP
Sistemas ROLAP fornecem análise multidimensional de dados armazenados em uma
base de dados relacional. Atualmente existem duas maneiras de se fazer este trabalho:
•
Fazer todo o processamento dos dados no servidor da base de dados. O
servidor OLAP gera os comandos SQL em múltiplos passos e as tabelas
temporárias necessárias para o processamento das consultas;
•
Ou executar comandos SQL para recuperar os dados, mas fazer todo o
processamento no servidor OLAP (DATA WAREHOUSE, 1999).
39
Além das características básicas de sistemas OLAP, servidores ROLAP devem
também:
•
Utilizar metadados para descrever o modelo dos dados e para auxiliar na
construção das consultas. Desta maneira um analista pode executar suas análises utilizando
seus próprios termos.
•
Criar comandos SQL otimizados para os bancos de dados com o qual trabalha.
Para Data Warehouse (1999), a principal vantagem de se adotar uma solução ROLAP
reside na utilização de uma tecnologia estabelecida, de arquitetura aberta e padronizada
como é a relacional, beneficiando-se da diversidade de plataformas, escalabilidade e
paralelismo.
3.2.3 Granularidade
Para Inmon (1997), granularidade está vinculada ao nível de detalhamento dos dados
existentes no Data Mart ou Data Warehouse, quanto mais baixo o nível de granularidade mais
alto é o nível detalhamento. A granularidade influencia diretamente no volume de dados, bem
como o tipo de consulta que pode ser realizada.
3.2.3.1 Estimativa Bruta
Segundo Inmon (1997), o nível adequado de granularidade depende da identificação
das tabelas e o número de registros que serão inseridos.
Para Kimball (1998), quase sempre os dados devem estar expressos no menor nível
de granularidade, pela necessidade de se obter uma informação específica.
3.2.3.2 Definição dos níveis de granularidade
Segundo De Toni (2000), a definição de granularidade pode gerar falta de detalhes
necessários ao usuário, ou ainda, falta de recursos para processar os dados, isto pode
ocorrer pelo fato de haver poucas informações (falta de detalhes), ou excesso de
informações que tornaria necessário elevado uso de recursos de hardware para seu
processamento.
Segundo Inmon apud De Toni (2000), existem técnicas para auxiliar no ciclo de
definição da granularidade:
40
•
construir as primeiras partes do DW em passos muito pequenos e rápidos e ouvir
cuidadosamente os comentários dos usuários finais.
•
usar prototipação se possível, e permitir que o ciclo de feedback funcione usando
observações colhidas a partir do protótipo.
•
verificar como outras empresas tem construído o DW.
•
trabalhar com usuários experientes.
•
examinar tudo aquilo de que a empresa dispõe no momento e que parece estar
funcionando.
•
realizar reuniões com usuários e simular resultados.
3.2.3.3 Níveis duais de granularidade
Segundo Inmon (1997), para uma organização com um grande volume de dados no
Data Warehouse, é necessário avaliar a utilização de dois ou mais níveis de granularidade,
podendo ser necessário mais de um nível.
Para Di Domenico (2001), a utilização de dois níveis de granularidade, permite
atender a processamentos “levemente resumidos” e também quando a necessidade de
maior detalhamento.
A Figura abaixo exemplifica a utilização do nível dual de granularidade.
Figura 9 - Nível Dual de Granularidade (INMON, 1997).
41
3.2.4 Metadados
Segundo Inmon (1997), os metadados são definidos como dados dos dados. Só que a
complexidade desses dados no DW aumenta muito. Num sistema OLTP (On-line Transaction
Processing – Processamento On-line de Transações), gera-se documentos somente sobre o
levantamento dos dados, banco de dados e o sistema que alimenta o mesmo. No DW além do
banco, gera-se uma documentação muito maior. Além de falar sobre o levantamento de dados
e o banco, temos ainda o levantamento dos relatórios a serem gerados, de onde vem os
dados para alimentar o DW, processos de extração, tratamento e rotinas de carga dos dados.
Metadados podem ser gerados a partir de regras de negócio da empresa e todas as
mudanças que elas podem ter sofrido, e também a frequência de acesso aos dados.
Segundo Inmon (1997), os metadados englobam o DW e mantém as informações sobre
onde está cada dado. Ele ainda define quais informações os metadados mantêm:
•
a estrutura dos dados segundo a visão do programador;
•
a estrutura dos dados segundo a visão dos analistas de SAD (Sistemas de Apoio a
Tomada de Decisões);
•
a fonte de dados que alimenta o DW;
•
a transformação sofrida pelos dados no momento de sua migração para o DW;
•
o modelo de dados;
•
o relacionamento entre o modelo de dados e o DW;
•
o histórico das extrações de dados;
•
dados referentes aos relatórios que são gerados pelas ferramentas OLAP (On-line
Analytical Processing – Processamento Analítico On-line) assim como os que são
gerados nas camadas semânticas.
Os metadados podem surgir de vários processos durante o desenvolvimento do
projeto. Dentre as formas pode-se citar o repositório de ferramentas case, os quais geralmente
já estão estruturados, facilitando a integração entre a origem e o repositório dos metadados.
Essa fonte de metadados é riquíssima. Outros dados que devem ser guardados no
repositório de metadados, é o material que surgirá das entrevistas com os usuários. Destas
entrevistas podem-se obter informações preciosas que não estão documentadas, além de
regras para validação dos dados após carga do DW. Como o volume de metadados gerados
é muito grande, estão disponíveis algumas ferramentas que fazem única e exclusivamente o
gerenciamento dos metadados. Estas possuem algumas características peculiares, de forma
bem simples essas ferramentas conseguem mapear o dado em todas as etapas de
desenvolvimento do projeto, desde a conceitual até a de visualização dos dados.
42
De acordo com Inmon (1999), geralmente os metadados são apresentados em três
diferentes camadas:
Metadados Operacionais: Definem a estrutura dos dados mantidos pelos bancos
operacionais, usados pelas aplicações de produção da empresa;
Metadados Centrais: São orientados por assunto e definem como os dados
transformados devem ser interpretados, devem incluir definições de agregação e campos
calculados, bem como visões sobre cruzamentos de assuntos.
Metadados do Nível de Usuário: Organizam os metadados do DW para conceitos que
sejam familiares e adequados ao usuário final.
3.3 DATA MART
Inicialmente os projetos sobre DW referiam-se a uma arquitetura centralizada. Embora
fosse interessante, pois fornece uniformidade, controle e maior segurança, a implementação
desta abordagem não é uma tarefa fácil. Requer uma metodologia rigorosa e uma completa
compreensão dos negócios da empresa. Esta abordagem pode ser longa e dispendiosa e por
isto sua implementação exige um planejamento bem detalhado. Com o aparecimento de data
mart ou warehouse departamental, a abordagem descentralizada passou a ser uma das
opções de arquitetura data warehouse. A data marts pode surgir de duas maneiras. A primeira
é top-down e a outra é a botton-up.
•
Top-down: é quando a empresa cria um DW e depois parte para a segmentação, ou
seja, divide o DW em áreas menores gerando assim pequenos bancos orientados por
assuntos departamentalizados. Esta técnica foi introduzida por Inmon, a figura abaixo
demonstra esta técnica:
Figura 10. Técnica Top-down introduzida por Inmon
43
•
Botton-up: é quando a situação é inversa. A empresa por desconhecer a tecnologia,
prefere inicialmente criar um banco de dados para somente uma área. Com isso os
custos são bem inferiores de um projeto de DW completo. A partir da visualização dos
primeiros resultados, parte para outra área e assim sucessivamente até resultar um
DW. Esta técnica foi introduzida por Ralph Kimball, conforme demonstra a figura
abaixo:
Figura 11: Técnica Botton-Up introduzida por Kimball
A tecnologia usada tanto no DW como no Data Mart é a mesma, as variações que
ocorrem são mínimas, sendo em volume de dados e na complexidade de carga. A principal
diferença é a de que os Data Marts são voltados somente para uma determinada área, ou
ainda departamental, já o DW é voltado para os assuntos da empresa toda. O maior atrativo
ao implementar um data Mart é o seu custo e prazo.
3.4 ETL- EXTRAÇÃO, FILTRAGEM E CARREGAMENTO
O processo de carga dos dados dos sistemas operacionais para o DW ou DM,
passam por três etapas: extração, filtragem e carga.
A figura 12 abaixo demonstra o processo de utilização do ETL:
Figura 12 – Processo de utilização da ETL
44
3.4.1
Extração
A extração dos dados é um processo critico, levando em consideração que muitas
vezes os dados são transferidos de banco de dados hierárquicos para SGBD’s, ou ainda de
arquivos texto, planilhas. Também ocorrem casos onde é necessário agrupar e desagrupar
dados para atender aos requisitos do DW (ANDREATTO, 1999).
3.4.2
Filtragem
A filtragem consiste em colocar todos os dados em um padrão pré-estabelecido
(ANDREATTO, 1999).
3.4.3
Carga
A carga dos dados ainda, deve passar pela verificação das integridades dos dados,
como
consistência
de
chaves
primárias,
chaves
estrangeiras
(relacionamentos)
(ANDREATTO, 1999).
3.5 POVOANDO O DATA WAREHOUSE
Para Campos e filho (1999), a extração, limpeza, transformação e migração de dados
dos sistemas existentes para o DW são atividades críticas e que determinam o funcionamento
de forma eficiente. Apesar de existirem ferramentas que auxiliam na detecção de problemas
na qualidade dos dados e geram programas de extração. A maioria das informações
necessárias para o desenvolvimento de regras para o mapeamento e transformação está
apenas na cabeça dos analistas e usuários. Além destes, outros fatores influenciam na
estimativa de tempo para as atividades, que são o número de fontes e a qualidade dos
metadados. Também existe outra importante preocupação que são: validação de domínios,
regras de derivação e dependências entre elementos de dados. “Se estas regras tiverem de
ser extraídas do código fonte das aplicações, o tempo para mapeamento e integração pode
dobrar”.
3.5.1
Extração
Para Campos e filho (1999), existem várias alternativas que possibilitam balancear
desempenho, restrições de tempo e de armazenamento. Uma forma consiste em submeter
45
consultas diretamente ao banco de dados, podendo ocasionar uma queda de desempenho
devido à ocorrência de transações concorrentes. As rotinas de extração devem ser capazes
de isolar somente aqueles dados que foram inseridos e atualizados desde a última extração,
este processo é conhecido como refresh.
Para Dal’Alba (1999), a melhor política de refresh deve ser avaliada pelo administrador
do DW, que deve considerar características como: necessidades dos usuários finais, tráfego
na rede e períodos de menor sobrecarga, tanto das origens dos dados quanto do DW.
3.5.2
Transformação e filtros
Após a extração dos dados e a inserção dos mesmos em uma área temporária, estes
devem ser tratados, passando por uma limpeza e filtragem, onde o objetivo é garantir a
integridade através de programas e/ou rotinas que identifiquem distorções e façam o
tratamento adequado, garantindo que os dados estejam consistentes antes de serem
inseridos no DW. Esta limpeza tem como objetivos detectarem:
• erros de digitação;
• violações de integridade;
• caracteres desconhecidos;
• falta de padronização de abreviações.
Uma outra etapa consiste em aplicar uma metodologia de comparação de
representações, que inclua critérios de identificação de semelhanças e conflitos de
modelagem, sendo estes divididos em: semânticos e estruturais. Conflitos semânticos são
aqueles envolvendo o nome ou palavra associada às estruturas de modelagem, por exemplo,
mesmo nome para diferentes entidades ou diferentes nomes para a mesma entidade.
Conflitos estruturais englobam os conflitos relativos às estruturas de modelagem escolhidas,
tanto no nível de estrutura propriamente dito como no nível de domínios. Os principais tipos de
conflitos estruturais são os conflitos de domínio de atributo que se caracterizam pelo uso de
diferentes tipos de dados para os mesmos campos. Conflitos típicos de domínio de atributo
são:
•
diferenças de unidades;
•
diferenças de precisão;
•
diferenças em códigos ou expressões;
•
diferenças de granularidade;
•
diferenças de abstração.
46
Para Dal’Alba (1999), “depois de identificados os conflitos de modelagem, deve-se criar
as regras de mapeamento de representações equivalentes e de conversão para os padrões
estabelecidos pelo DW”.
3.5.3
Derivação e Sumarização
Para Campos e Filho (1999), podemos derivar os dados durante o processo de carga e
armazenamento no ambiente relacional corporativo, uma outra opção está em derivar quando
o servidor de replicação distribui os dados para os DW, ou ainda, derivar os dados quando o
usuário submeter uma consulta ou lançar uma simulação.
3.6 OLAP (ON-LINE ANALYTIC PROCESSING)
3.6.1
Introdução e Conceitos
A sigla OLAP deriva de On-Line Analytic Processing é uma contraposição a OLTP de
On-Line Transaction Processing, correspondendo a duas modalidades de processamento:
Processamento analítico on-line e processamento de transação on-line.
De acordo com Baptista (2001), “antes de ser uma tecnologia, OLAP é um rótulo”. É
aplicada aos softwares que permitam de forma simples à execução de consultas e análise
de dados utilizados no processamento de informações de apoio a decisão.
Para Kimball (1998) apud Baptista (2001), afirma ser OLAP “um termo inventado para
descrever uma abordagem dimensional para o suporte a decisão”. Segue um alinhamento
com o modelo dimensional também conhecido com esquema tipo estrela.
Para Baptista (2001), a filosofia OLAP, “ainda necessita de critérios mais específicos
para ser aceita como padrão de comparação para sistemas de suporte à decisão”.
Para Bispo (1999) apud Baptista (2001), OLAP são tecnologias que dão suporte aos
usuários (analistas, gerentes, executivos), no processo decisório através do uso de
consultas, análises e cálculos dos dados corporativos, estejam estes armazenados em DW
ou não.
Para Baptista (2001), os sistemas OLAP são projetados com o objetivo de auxiliar no
processo de tomada de decisões e em planejamentos estratégicos, através de consultas
utilizadas por determinadas áreas de uma organização.
3.6.2
Características gerais
De acordo com Baptista (2001), os aplicativos ou ferramentas OLAP em geral executam
cinco funções básicas:
47
•
interface – as telas e métodos usados para direcionar instruções internas a outras
funções baseadas nas seleções dos usuários;
•
consulta - a lógica do aplicativo usada para gerar o código SQL;
•
processo – a lógica do aplicativo que executa a análise de dados no conjunto de
resultados retornado pela consulta ao banco de dados;
•
formato – a lógica do aplicativo requerida para rotular propriamente linhas e colunas
de dados e criar um arquivo padrão;
•
exibição – apresentação do arquivo formatado, como relatório ou gráfico, para
visualização pelo usuário.
Para Baptista (2001), geralmente o OLAP se refere a quatro capacidades
computacionais analíticas:
•
consulta e relatório – oferecem o esquema básico de análise de dados OLAP,
geralmente compatíveis com os recursos dos Sistemas Gerenciadores de Bancos de
Dados. Facilitam a especificação de consultas “adhoc” e proporcionam rica
formatação de relatórios e recursos gráficos. Interface padrão Windows;
•
análise multidimensional – emprega funções mais complexas, permitindo que os
usuários entrem em qualquer dimensão do banco Data Warehouse e trafeguem
livremente por todas as outras;
•
análise estatística – trabalha com um nível de complexidade ainda maior, podendo
calcular médias e outras formas estatísticas mais sofisticadas como regressão,
correlação, fatoração e agrupamentos;
•
data mining – acrescenta funções mais complexas como redes neurais para
identificação de modelos e relações e algoritmos de aprendizado para trabalhar com
previsões.
Para Baptista (2001), as estruturas de aplicativo OLAP subdividem a aplicação em
camadas cabendo a cada qual uma parte importante no conjunto:
•
camada de dados – responsável pela aquisição dos dados;
•
camada lógica – responsável pelas funções de consulta, processo e formato;
•
camada de apresentação – responsável pelas tarefas de interfaceamento e exibição.
Segundo Baptista (2001), “as ferramentas OLAP podem ser construídas a partir de dois
esquemas estruturais diferenciados”:
48
•
aplicativos em duas camadas – tradicionalmente usado em soluções cliente/servidor
neste tipo de aplicativo a primeira camada executa as funções de apresentação
(interface e exibição) e de processamento (consulta e formatação) e funciona como
um programa simples instalado no lado cliente da relação cliente/servidor. O banco
Data Warehouse corresponde à segunda camada e executa o papel de servidor de
dados. A figura 13 ilustra uma estrutura de duas camadas típicas.
Figura 13 – Estrutura de aplicativo em duas camadas
•
aplicativos em três camadas – uma nova técnica de estruturar os aplicativos OLAP,
mais direcionada para intranets, desloca total ou parcialmente as funções da camada
lógica para servidores de aplicativos, formando um esquema de três camadas,
conforme mostrado na figura 14.
Figura 14 – Estrutura de aplicativo em três camadas
49
3.7 DATA MINING
Conforme Pereira (1999), no inicio do DW, Data Mining era visto como parte das
atividades do warehouse, porém atualmente os caminhos do DW e do DM estão divergindo.
Enquanto o DW pode ser uma boa fonte de dados para minerar, o DM foi reconhecido como
uma atividade única, e não mais como uma parte do DW.
Mesmo com a popularização do Data Mining, ainda existe muitas divergências quanto a
sua definição.
Data Mining (ou mineração de dados) é o processo de
extrair informação válida, previamente desconhecida e de
máxima abrangência a partir de grandes bases de dados,
usando-as para efetuar decisões cruciais. Data Mining vai
muito além da simples consulta a um banco de dados, no
sentido de que permite aos usuários explorar e inferir
informações úteis a partir dos dados, descobrindo
relacionamentos escondidos no banco de dados. Pode ser
considerada
uma
forma
de
descobrimento
de
conhecimento em bancos de dados (KDD - Knowledge
Discovery in Databases), área de pesquisa de bastante
evidência no momento, envolvendo Inteligência Artificial e
Banco de Dados (CAMPOS E FILHO, 1999).
Para Pinheiro (1999), consiste em um ambiente de apoio à tomada de decisões,
integrando técnicas de DM sobre um ambiente de DW, possibilitando um vasto número de
aplicações, que já estão sendo implementadas em diversas áreas buscando identificar perfis
dos consumidores, seguros, detecção de fraude, dentre outros.
Para Data Warehouse (1999) DM pode ser aplicado com os seguintes objetivos:
•
explanatório: demostrar algum evento ou medida observada;
•
confirmatório: confirmar uma hipótese;
•
exploratório: analisar os dados buscando relacionamentos novos e não
previstos.
Para Bigolin (2000), DM é o processo de descobrir conhecimentos que visam identificar
padrões definidos através de bancos de dados com grandes volumes de dados.
50
3.7.1 O processo de Data Mining
Para Data Warehouse (1999) existem três classes de Data Mining: descobrimento,
modelagem de prognóstico e análise prévia.
Descobrimento consiste em identificar padrões ocultos sem a existência de uma idéia ou
hipótese, em síntese é o programa encontrar padrões sem que o usuário tenha uma idéia
prévia.
Na modelagem de prognóstico, consiste em gerar expectativas futuras utilizando-se de
padrões identificados no banco de dados.
Para Data Warehouse (1999), “enquanto o processo de descobrimento encontra
padrões em dados, o processo de modelagem de prognóstico aplica estes padrões para supor
valores nos novos itens de dados”.
A análise prévia é a utilização dos padrões encontrados para identificar anomalias ou
elementos de dados raros.
Ainda para Data Warehouse (1999) existem três tipos de atividade de data mining em
um ambiente corporativo: episodic mining, strategic mining e continuous mining.
Episodic Mining: busca dados de uma situação específica, para entender este conjunto
de dados ou usá-lo para prognóstico de novas situações similares.
Strategic Mining: consiste em analisar um conjunto largo de dados com a intensão de
obter conhecimento global de uma situação especifica.
Exemplo: Quais os hábitos dos pacientes com diagnóstico de câncer de pele?
Continuous Mining: identifica quais fatores determinaram uma alteração em determinado
período e o que o ocasionou a mesma.
3.7.2 Técnicas de Data Mining
O uso das técnicas de DM possibilitam a identificação de padrões e tendências,
permitindo a visualização e avaliação destes.
Segundo Freitas Junior apud Sonza (2002), “a familiaridade com as técnicas é
necessária para proporcionar a melhor abordagem de acordo com os problemas
51
apresentados. Portanto, para cada classe de aplicação deve-se aplicar um conjunto de
algoritmos com o objetivo de extrais padrões e relações dentro de uma base de dados”.
Para Bispo (1999), as técnicas que utilizamos são continuidade natural de
generalizações e metodologias analiticas que já são conhecidas há anos.
Entre as técnicas de DM pode-se citar: associação, séries temporais similares,
classificação e regressão, clusterização, árvores de decisão e visualização.
3.7.2.1 Associações
Para Data Warehouse (1999), são relacionamentos significativos entre itens e dados
armazenados. O objetivo deste tipo de operação é encontrar tendências que são detectadas
pelo grande número de transações que possam ser usadas para entender e explorar padrões
de comportamento dos dados.
São informações similares anteriormente desconhecidas, não óbvias e que podem ser
interpretadas por um especialista no assunto (NETO, 2001).
Segundo Dw Brasil (2000), as regras associativas são iguais as de classificação,
diferenciando-se pela capacidade de predizer características comuns.
Para DW Brasil (2000), suporte é a quantidade de instâncias para a qual a regra
associativa é verdadeira, e a exatidão é proporção entre as instâncias verdadeiras e todas as
instâncias correspondentes. É bastante comum determinar a exatidão mínima e apresentar
apenas a regra mais forte para o usuário, evitando com isso a produção de um grande número
de regras.
3.7.2.2 Séries Temporais Similares
Identificam séries similares que estão armazenadas na base de dados e que variam de
forma semelhante ao longo de um período de tempo. (DATA WAREHOUSE, 1999).
Para Dw Brasil (2000), são modelos matemáticos clássicos que demonstram o
comportamento dos dados, necessitando o envolvimento de usuários experientes na
construção destes modelos.
52
3.7.2.3 Classificação e regressão
Para Data Warehouse (1999), classificação e regressão utilizam dados armazenados
para criar modelos de comportamento variáveis.
É criado um “conjunto de treinamento", denominação
dada a um grupo inicial de registros que são tomados
como padrão, classificando-se os demais registros a partir
destes padrões. Uma vez definido o padrão de
comportamento das variáveis, pode-se determinar quais
registros estão fora deste padrão e ainda assim saber o
próprio distanciamento deste padrão, o que pode
confirmar e de certa forma explicar a verificação de
algumas anomalias (DATA WAREHOUSE ,1999).
Para Carvalho (2001), “a classificação é uma técnica mais utilizada simplesmente por
ser uma das tarefas cognitivas humanas mais realizada no auxilio a compreensão do
ambiente em que vivemos”.
3.7.2.4 Clusterização
Data Warehouse (1999) define clusterização como sendo a informação disponível e
segmentada em conjuntos definidos, homogêneos e baseados em atributos específicos. Este
conceito já é conhecido em diversas áreas, porém, em Data Mining passou por uma
especialização a fim de permitir a sua aplicação em itens não numéricos. Neste tipo de
algoritmo não é informado ao sistema os tipos de classes existentes, ficando a cargo do
computador descobrir classes a partir das alternativas encontradas na base de dados.
Para Gimenes (2000), “a proposta da clusterização é basicamente endereçada a
problemas de segmentação, na qual se faz um corte de um grande número de atributos em
pequeno conjunto de grupos ou segmentos”.
3.7.2.5 Árvores de Decisão
Segundo Data Warehouse (1999), árvores de decisão são formas de representar os
resultados obtidos pelo DM, que se parecem com os gráficos organizacionais horizontais. A
árvore é montada através de nódulos que foram comparados a determinada constante.
Para Data Warehouse (1999), entre as principais vantagens das árvores de decisão é a
clareza em que a grande maioria das pessoas consegue interpretar seus resultados, pois leva
em consideração as regras que são mais importantes.
53
3.7.2.6 Visualização
Para Data Warehouse (1999), a visualização organiza os dados conforme as dimensões
definidas. Esta técnica pode ser utilizada em vários momentos da mineração, permitindo a
seleção de dados, exibir resultados, e ainda minerar, quando utilizada em conjunto com uma
ferramenta adequada de exploração interativa.
3.7.2.7 Redes Neurais
Para Data Warehouse (1999), esta tecnologia é a que oferece o mais profundo poder
de mineração, mas é também a mais difícil de entender. As redes neurais tentam construir
representações internas de modelos ou padrões encontrados nos dados, mas essas
representações não são apresentadas para o usuário. Com elas, o processo de descoberta de
padrões é tratado pelos programas de DM dentro de um processo “caixa-preta”.
Estruturalmente, uma rede neural consiste em um número de elementos
interconectados (chamados neurônios) organizados em camadas que aprendem pela
modificação. Geralmente constroem superfícies equacionais complexas através de interações
repetidas, cada hora ajustando os parâmetros. Depois de muitas repetições, uma superfície
pode ser internamente definida que se aproxima muito dos pontos dentro do grupo de dados.
A função básica de cada neurônio é: (a) avaliar valores de entrada, (b) calcular o total
para valores de entrada combinados, (c) compara o total com um valor limiar, (d) determinar o
que será a saída. Enquanto a operação de cada neurônio é razoavelmente simples,
procedimentos complexos podem ser criados pela conexão de um conjunto de neurônios.
Tipicamente, as entradas dos neurônios são ligadas a uma camada intermediária (ou várias
camadas intermediárias) que é então conectada com a camada de saída.
3.7.2.8 Indução de Regras
Segundo Data Warehouse (1999), a Indução de Regras, ou Rule Induction, se refere à
detecção de tendências dentro de grupos de dados, ou de “regras” sobre o dado. As regras
são, então, apresentadas aos usuários como uma lista “não encomendada”.
Vários algoritmos e índices são colocados para executar esse processo, incluindo o
Gini, o C 4.5 e o CHAID. Na IR, a grande maioria do processo é feito pela máquina, e uma
pequena parte é feita pelo usuário.
54
Por exemplo, a tradução das regras para dentro de um modelo aproveitável é feito pelo
usuário, ou por uma interface de árvores de decisão. Do ponto de vista do usuário, o maior
problema com as regras é que o programa de DM não faz o ranking das regras por sua
importância. O analista de negócio é então forçado a encarregar-se de criar um manual de
análise para todas as regras relatadas a fim de determinar aquelas que são mais importantes
no modelo de DM, e para os assuntos de negócio envolvidos. E isso pode ser um processo
tedioso.
O objetivo deste capítulo foi abordar Business Intelligence, destacando a evolução dos
sistemas de apoio à decisão, o tema Data Warehouse, Data Mining e suas técnicas. No
próximo capítulo será apresentado o modelo atual e o protótipo desenvolvido com base no
estudo realizado.
55
4
MODELO ATUAL
Este capítulo tem como objetivo principal conhecer o ambiente onde o estudo está
sendo proposto, e com base nestas informações será possível apresentar o modelo que dará
origem ao protótipo.
4.1
CONTEXTUALIZAÇÃO DO AMBIENTE
O HRO possui na área de Tecnologia da Informação 83 microcomputadores,
interligados em rede, utilizando-se de cabeamento par traçado categoria 5, 100 MBits (Mega
Bits por Segundo)., com placas de rede fast ethernet.
Como servidores a Seção de Tecnologia da Informação (STI) possui: 01 servidor com
sistema operacional Novell 4.11, onde, é centralizado o sistema de gestão módulos de
atendimento (recepção), suprimentos, faturamento, financeiro, contabilidade. Um servidor linux
para internet e 01 servidor linux para sistemas de apoio (Manutenção, Lavanderia, Refeitório,
etc...).
A área de Recursos Humanos também possui um servidor exclusivo integrando com a
área financeira e contábil.
Os serviços oncológicos possuem atualmente os seguintes equipamentos, conforme
tabela abaixo:
Tabela 1: Relação de Equipamentos dos Serviços de Oncologia
Setor
Especificações
Sist. Oper.
Memória
Hd
Proc.
DURON 1300
Quimioterapia - R.Câncer
Microcomputador Win 2000
LEXMARK
Impressora
3200
Estabilizador
Monitor
Teclado
128 MB
10 GB
Quimioterapia - Recepção
Microcomputador WIN 95
Impressora
LX 300
Nobreak
Monitor
Teclado
32 MB
1.2 GB PENTIUM 166
Quimioterapia – Farmácia
Microcomputador WIN 95
Impressora
LX 300
Estabilizador
32 MB
1.7 GB PENTIUM 75
Continua à
56
Continua à
Monitor
Teclado
Radioterapia - Recepção
Microcomputador WIN 98
Impressora
HP 710
Nobreak
Monitor
Teclado
64 MB
20 GB
PENTIUM III
750
Radioterapia - Dr Rodrigo
Microcomputador WIN 98
Monitor
Teclado
64 MB
20 GB
PENTIUM III
750
Radioterapia - Físico
Microcomputador WIN 98
Monitor
Nobreak
Teclado
64 MB
20 GB
PENTIUM III
750
Radioterapia - Dr Poli
Microcomputador WIN 98
Monitor
Teclado
64 MB
20 GB
PENTIUM III
750
4.1.1 Histórico do Hospital Regional do Oeste
A ASSOCIAÇÃO HOSPITALAR LENOIR VARGAS FERREIRA, é uma Associação
civil, fundada em 26 de agosto de 1997, com seus atos constitutivos registrados no livro A 9
sob o n.º 2.380 no Cartório de Registros de Títulos e Documentos da Comarca de Chapecó
SC, sem fins lucrativos e de fins filantrópicos. A Associação utiliza o nome fantasia HOSPITAL
REGIONAL DO OESTE - HRO.
Constitui missão da Associação: promover gratuitamente, assistência à saúde,
administrando o Hospital Regional Lenoir Vargas Ferreira, dentro dos preceitos éticos e legais,
visando sempre o benefício da comunidade, em cada caso, estabelecendo regimento
apropriado de acordo com as respectivas particularidades e natureza que permitam apoiar as
políticas públicas, objetivando:
I.
Prestar serviços de excelência para a melhora na qualidade de vida do cidadão, visando
à elevação do nível de saúde da população, através de atividades de fins não
econômicos;
57
II.
Promover o desenvolvimento de programas de saúde de âmbito nacional, estadual e
municipal de interesse público, voltada principalmente para os segmentos de saúde;
III.
Apoiar o desenvolvimento de programação na área de saúde voltada à prestação de
serviços essenciais à população de baixa renda;
IV.
Promover a integração com entidades afins, buscando permanente cooperação técnica
para o alcance de objetivos comuns.
Visando ao desenvolvimento e o incremento de suas finalidades, poderá a Associação
firmar convênios com Entidades que desenvolvam atividades relacionadas com seus
objetivos, observadas as disposições legais aplicáveis.
Segundo o Estatuto Social do HRO (2004), a estrutura administrativa e organizacional é
composta pelos seguintes órgãos, conforme pode ser visualizado na Figura 15: Assembléia
Geral, Conselho Fiscal, Coordenação Executiva e Coordenação Técnica.
A Assembléia Geral é instância máxima e soberana do grupo, sendo constituída por
todos os membros fundadores efetivos e especiais, obedecendo às normas previstas no
Estatuto.
4.1.2 Organograma
Na Figura 15 é representado o organograma do Hospital Regional do Oeste, aprovado
pelo Conselho de Administração em 13/04/2004.
58
Asse m bléi a
Ge ral
C o nselho F isc al
C o nselh o de
A dm in istr ação
A ud ito ria
D iretor ia
E xecu tiv a
Com is sã o Con trole
In fecçã o Hos p italar
D ir eto r C línico
A ss es s oria de
M ark etin g e
Com un icaç ão
A ssesso ria
J urid ic a
A ss oc iaçã o
V olun tá rios HR O
D ireto r G e ral
P asto ral d a
Sa ú de
Se cretaria G er al
D ireto r
En ferm ag em
Ser viço s de
En ferm ag em
D ire to r Té cnico
D iretor
A dm /F in a nc eiro
Se rv iç os
A dm inistr ativ o s
Ser viço s d e
A p o io
S erv iço s de
S AD T
S eção de
B erç ario
S eç ão
C o m erc ial
Se çã o de Con tr. e
S eg ur . P atrim onial
Seç ão d e A n at.
P ato ló gico
S eção d e
A ne stesia
Seç ão d e C en tro
C irú rg ic o
S eção C o ntab il.
F in ance ir a
Seç ão H ig ie n e e
L im pez a
S eção de B a nco
de S ang ue
S eção de C li n.
C irú rg ica
Seç ão d e C en tro
O b stétric o
Seç ão de
F atura m ento
S eção de
M an ute n ção
Se ção de
F isio ter ap ia
S eção de C li n.
M éd ic as
Se ção de C lin ica
M édica A e B
Seç ão de
M a teriais
Seç ão N u trição
e D ietétic a
Se ção de
H em o d iálise
S eção de C li n.
P ed iatrica
Se ção de C M E
Seç ão R e cu rsos
H u m ano s
S eç ão P r oc ess.
d e R o u p as
Se ção de
Im ag e m
Seç ão G inec o
/O b stetricia
Se ção de C lin ica
C irú rg ic a
S eçã o d e Tecn olog ia
da I nform açã o
Se ção de
L abo r ató rio
S eção N eu ro .
N e uro ciru rg ia
S eção T r aça do s
G rafico s
Seç ão d e P ro nto
S o co rro
Se ção de C lín ica
P ed iátr ic a
Ser viço C ontr ole
I nfe cçã o Hos pitalar
Se rv iç os d e
M édico s
Se ção de C lin ica
O n co ló g ica
S eção d e
Trau m ato lo g ia
S eção de
M ater nid ad e
Se ção de U .T .I
Ce ntr al d e Capt aç ão
e Tr an s p lante d e
Ór gã os
S eção de
P riv ativ a
Seç ão d e P S A m b u latór io
L ege nd a:
S eção de
Q u im io terap ia
S erviç os de T erc eiros
A ssessoria
S eção de
R ad io ter api a
S eção d e Tr at.
D ep . Q u im ic a
Seç ão d e U .T .I
H O SP IT A L R E G I O N A L D O O E ST E
A S S O C I A Ç Ã O H O S P I T A LA R L E N O IR V A R G A S F E R R E IR A
A p ro v a d o p elo C o ns e lh o d e A dm in is tra ç ã o e m 1 3 / 0 4 / 2 0 04
Figura 15: Organograma Hospital Regional do Oeste
Na Figura 15 os serviços em destaque são relacionados aos de oncologia do Hospital
Regional do Oeste permitindo observar a complexidade e a necessidade da interação entre
estes, permitindo que todo e qualquer conhecimento seja utilizado de forma eficiente.
59
Alguns serviços que são realizados pelos profissionais de enfermagem, como
enfermeiras, técnicos de enfermagem e auxiliares compõem estão subordinados ao Diretor de
Enfermagem que por sua vez é subordinado ao Diretor Geral, também encontramos outros
que são subordinados aos serviços médicos, que estão subordinados ao Diretor Técnico que
por sua vez é subordinado ao Diretor Geral, além de serviços de apoio que estão
subordinados ao Diretor Administrativo que é subordinado ao Diretor Geral.
Assembléia Geral é a instância máxima na estrutura hierárquica da instituição. O
Conselho Fiscal aparece na seqüência, a Auditoria presta assessoria ao Conselho de
Administração, a Diretoria Executiva tem assessoria da Comissão de Controle de Infecção
Hospitalar, Marketing e Comunicação, Associação de Voluntários, Diretor Clinico e Jurídico.
O Diretor Geral tem assessoria da Pastoral de Saúde e Secretária Geral. Estão
subordinados ao Diretor Geral: o Diretor de Enfermagem, Diretor Administrativo/Financeiro e
Diretor Técnico.
O Diretor de Enfermagem é responsável pelos serviços de enfermagem, que atendem
as diversas clinicas de internação, como: maternidade, UTI, clinica médica, entre outras.
O Diretor Administrativo/Financeiro é responsável direto pelos serviços administrativos,
dentre os quais pode destacar: contabilidade, faturamento, tecnologia da informação, entre
outros. Também administra o serviço de apoio, onde se encaixa: nutrição, manutenção,
higiene, entre outros. É responsável pelos serviços de apoio ao tratamento e diagnóstico,
onde estão inclusos os serviços terceirizados como: laboratório, banco de sangue e serviço de
imagem.
O Diretor Técnico é responsável pelos serviços médicos, dentre os quais a ala
cirúrgica, anestésica, entre outros. O Serviço de Controle de Infecção Hospitalar e Serviço de
Captação de Órgãos também são subordinados ao Diretor Técnico.
4.2
FLUXO DE INFORMAÇÃO ATUAL
O Serviço de Oncologia do HRO consiste em várias atividades que visam ao bemestar e melhora dos pacientes portadores de câncer, estando entre os principais serviços o
tratamento clínico, cirúrgico, radioterápico, quimioterapico, sendo estes serviços oferecidos
por médicos oncologistas, radioterapeutas, clínicos gerais, cirurgiões, além dos profissionais
médicos outros profissionais participam efetivamente do tratamento, entre eles estão os
enfermeiros, auxiliares de enfermagem e técnicos de enfermagem. Durante o tratamento faz-
60
se necessário o acompanhamento psicológico, nutricional e de assistência social, envolvendo
vários profissionais, o que torna essa atividade multidisciplinar.
Atualmente o fluxo existente inicia com o encaminhamento do paciente ao Serviço de
Quimioterapia, através de uma prescrição relatando o motivo do encaminhamento e com
exames realizados que confirmem ou indícios que caracterizem sintomas do câncer. Os
pacientes são cadastrados pela recepção deste serviço e encaminhados ao médico
oncologista, que avalia os exames recebidos e pode ou não solicitar novos exames para
identificar o grau da doença, ou ainda, que permita a confirmação do diagnóstico.
Após a identificação o médico oncologista vai determinar qual o tipo de tratamento
será utilizado no tratamento deste paciente, este processo pode incluir o radioterapeuta que
recebe o paciente encaminhado pelo médico oncologista, faz uma avaliação encaminha para
avaliação nutricional e psicológica. Em caso de confirmada a necessidade de utilização da
radioterapia este paciente é encaminhado ao físico-médico que faz uma avaliação e
simulação das aplicações de radiação, visando o melhor tratamento possível sem que ocorra
uma rejeição pelo organismo do paciente. Este processo é realizado através de incidências
periódicas, bem como consultas com o médico oncologista e o médico radioterapeuta.
Durante o tratamento pode se fazer necessária intervenção cirúrgica, acompanhada de
radioterapia e quimioterapia.
Todo este processo é acompanhado por avaliações de enfermagem, nutricionistas,
psicólogas e assistentes sociais.
A Figura 16 demonstra de o fluxo dos serviços oncológicos do Hospital Regional do
Oeste.
61
Figura 16: Fluxo de Dados da Oncologia
62
4.3
ANÁLISE DO SISTEMA EXISTENTE
O processo de análise do sistema existente foi realizado através de entrevistas e
coleta de documentos.
Durante este processo percebeu-se que existe uma grande deficiência de um sistema
transacional (OLTP) que permita o lançamento dos registros e acompanhamentos dos
procedimentos, exames e avaliações coletadas durante todo o tratamento.
O reflexo da falta de um sistema OLTP é a inexistência de informações que permitam
análises e estratégias apoiadas por um sistema de apoio à tomada de decisões.
Esta realidade condiz com a maioria dos hospitais de nossa região, estado e país que
tem dificuldades para gerenciar e aprimorar os seus serviços através da utilização de sistemas
de apoio à tomada de decisões.
4.4
LEVANTAMENTO DE REQUISITOS
Durante o processo de fundamentação teórica e pesquisa do ambiente foram
determinados requisitos importantes para elaboração do protótipo.
Abaixo são relatados os principais requisitos obtidos
Tabela 2: Lista de Requisitos
No
Requisito
Descrição
01
Definição de Ambiente
O ambiente configurável e determinado pelo usuário
02
Criação
de
Tabela, Permitir que as tabelas, atributos, relacionamentos e
Atributos, Relacionamento e regras para transformação possam ser definidas pelo
03
Transformações.
usuário.
Extração
Permitir inserção de dados diretamente no protótipo,
bem como importar de arquivos Dataflex e também
arquivos texto.
Os dados extraídos devem ser carregados para uma
área de estagiamento.
63
04
Transformação
Os dados devem passar pelo processo de limpeza e
transformação na área de estagiamento.
05
Carga
Os dados devem ser carregados para o ambiente
definido disponibilizando dados para consulta.
06
Visualização
Consulta através de Gráficos e tabelas configuráveis.
07
Mineração
Disponibilizar Técnicas de mineração como: árvore de
decisão, clusterização e visualização.
08
Restringir Tamanho da Base Disponibilizar formas de filtragem visando restringir a
de Dados
quantidade de dados a serem lidos nas consultas e
visualizações.
4.5
CONSIDERAÇÕES FINAIS DO CAPÍTULO
Este capítulo teve como objetivo estudar a instituição onde o trabalho foi desenvolvido,
destacando o ambiente na área de tecnologia da informação, o histórico do Hospital Regional
do Oeste, avaliação da estrutura organizacional para indicar o enfoque do trabalho, o fluxo de
informação atual, bem como uma avaliação sobre o sistema de informação no serviço de
oncologia.
No próximo capítulo será dado enfoque as tecnologias utilizadas e também ao
protótipo.
64
5
DESENVOLVIMENTO DO PROTÓTIPO
Este capítulo tem por objetivo descrever sobre as ferramentas e a apresentação do
protótipo, utilizando como base a revisão bibliográfica. As especificações coletadas no
levantamento de requisitos constituíram a base para validação do protótipo.
5.1
FERRAMENTAS UTILIZADAS
Para desenvolvimento do protótipo foram utilizadas as ferramentas: Visual Dataflex e o
gerador de relatórios Crystal Reports.
5.1.1
Visual Dataflex
O Visual Dataflex é uma ferramenta desenvolvida pela Data Access Corporation, base
em ambiente Windows.
Fazem parte do ambiente de desenvolvimento do Visual Dataflex um Ambiente
Integrado de Desenvolvimento – IDE, o utilitário para definição dos arquivos da base de dados
e o dicionário de dados (Database Builder), o Winprint, um Utilitário gráfico programável de
impressão, o Database Explorer (ferramenta para pesquisa no Banco de Dados)
(RODRIGUES, 1999).
Para Rodrigues (1999), uma das principais características do Visual Dataflex é a
produtividade, podendo o ambiente de desenvolvimento ser configurado oferecendo uma
maior comodidade na criação dos aplicativos. Podendo com a reutilização de código reduzir o
tempo de desenvolvimento de aplicações.
Conforme Visual Dataflex (2004), as principais características da ferramenta são:
•
a criação de aplicações para Windows e Web rapidamente;
•
aumentar as funcionalidades das aplicações utilizando as mais recentes
tecnologias;
•
conectar as aplicações aos principais bancos de dados da indústria;
•
distribuir facilmente as aplicações em pequenas e grandes corporações;
•
gerenciar todo ambiente com total controle e transparência;
65
•
arquitetura 3 camadas.
Como desvantagens do Visual Dataflex, tem-se:
- conexão com Sistemas Gerenciadores de Banco de Dados que não o nativo,
necessariamente são realizados com drives específicos.
- toda tecnologia é paga, tanto de desenvolvimento como aplicativos de conexão com
Sistemas Gerenciadores de Bancos de Dados.
5.1.2
Crystal Reports
Este gerador de relatório é desenvolvido pela empresa norte-americana Business
Objects S/A e está disponível tanto para ambiente Windows, como para Web.
Segundo Visual Dataflex (2004) o Crystal Reports inclui mais de 30 drivers de acesso
a diversos SGBD’s.
Conforme Visual Dataflex (2004) o Crystal Reports possui ferramentas para analisar
tendências, mostrar relacionamentos ou focalizar fatos. Algumas funcionalidades:
• Analyser: permite zoom interativo, drill down e modificação de gráficos e mapas;
• Cross-tabs que permitem comparações de dados;
• Editor de fórmulas: poderosa ferramenta para criação de dados, com mais de 160 funções
diferentes.
Constata-se que um dos pontos fracos é o alto custo da ferramenta e a necessidade
de se adquirir um drive de acesso ao banco de dados dataflex.
5.2
INTERFACE DO PROTÓTIPO
A Figura 17 abaixo demonstra o Diagrama de Fluxo de Dados (DFD) do protótipo.
66
Figura 17:Diagrama de Fluxo de Dados (DFD)
As etapas seguintes demonstram o protótipo e sua operacionalização.
67
5.2.1 Acesso ao Protótipo
A Figura 18 demonstra a tela de acesso ao protótipo onde deve ser informado usuário
e senha.
Figura 18: Formulário de acesso ao sistema, verificação de usuário e senha
Após a validação de usuário e senha o sistema apresentará o menu como
demonstrado na Figura 19. Neste menu estão disponíveis as opções para Definição do
Ambiente, Carga de Dados, Visualizar Dados, Minerar Dados, Sair (do Protótipo) e Sobre
(dados sobre o protótipo como autor, nome, ano, etc).
Figura 19: Menu principal do Protótipo
68
5.2.2 Definindo o Ambiente
A opção “Definindo o Ambiente” consiste na criação do ambiente de Data Warehouse
ou Data Mart. É nesta tela que os usuários do protótipo geram sua estrutura de dados, através
da definição de tabelas e seus atributos, relacionamento com outras tabelas, gerando desta
forma um modelo estrela ou floco de neve.
A Figura 20 apresenta a tela onde o usuário gera uma tabela, definindo o nome e um
tipo para a tabela (fato ou dimensão), o código é gerado automáticamente pelo protótipo.
Figura 20: Criando a Tabela de Dados
69
A Figura 21 demonstra a criação de atributos, que irão compor a tabela. Cada atributo
deverá receber um nome, um tipo de dado (numérico, caracter, inteiro ou data), além do
tamanho e precisão.
Figura 21: Definindo os atributos da tabela
70
A Figura 22 apresenta a tela onde podem ser estabelecidas regras que serão
aplicadas aos dados após a importação, durante o processo de limpeza e transformação.
Este procedimento visa garantir a formatação e integridade dos dados importados,
evitando com isso que ocorram inconsistências na base. O exemplo da Figura apresenta a
utilização de regras para o carregamento de dados para o atributo sexo, quando o valor for
“M” ou “1” será armazenado no Data Mart a informação “MASCULINO”.
Figura 22: Definindo regras de transformação de dados
71
A Figura 23 demonstra como utilizar o relacionamento entre atributos de duas tabelas
diferentes. O exemplo utilizado consiste em criar um atributo cidade na tabela paciente e
relacionar com atributo identificador na tabela cidade para buscar dados como nome da
cidade e Estado.
Figura 23: Definindo relacionamento de atributos entre tabelas
72
Em levantamento de dados realizado no HRO foram definidas as seguintes tabelas
para validação do protótipo.
A Figura 24 demonstra o modelo estrela gerado para validar a ferramenta em
desenvolvimento.
Figura 24: Modelo de dados gerado para demonstração do protótipo
73
A Figura 25 exibe uma opção disponível no protótipo para exportar dados (extração)
de bases dataflex, gerando um arquivo texto, podendo esta opção ser executada
selecionando todos os atributos da tabela, ou somente os considerados imprescindíveis para
o processo de tomada de decisão.
Figura 25: Extração de dados de uma tabela para um arquivo texto
74
A Figura 26 se refere a tela de importação de dados que estão disponíveis através de
arquivos texto. Os usuário pode definir o layout de importação no momento da execução do
programa, seguindo a estrutura da tabela na íntegra ou vinculando itens do arquivo texto com
determinados atributos da tabela. Os dados importados ficam armazenados em uma tabela
temporária para posterior transformação e limpeza, somente após este processo será possível
a carga dos dados para o data warehouse.
Figura 26: Importação dos dados de um arquivo texto para uma tabela
75
A Figura 27 apresenta a tela do protótipo onde os dados passam por um processo de
tratamento das informações (limpeza e transformação), nesta etapa os dados permanecem
em tabelas temporárias para posterior carga. Neste momento o sistema aplicará as regras
definidas como exemplificados no caso do sexo “MASCULINO”.
Figura 27: Transformação dos dados importados
76
A Figura 28 demonstra a opção onde é possível realizar a carga definitiva dos dados
armazenados em tabelas temporárias para o Data Warehouse, disponibilizando os dados para
o processo de mineração e visualização.
Figura 28: Carga dos dados transformados
77
A Figura 29 demonstra a opção do protótipo para inserir dados que tem relevância
mas que não são tratados pelos sistemas OLTP’s. No caso da oncologia do HRO foi verificado
que a ficha de avaliação nutricional que possui dados importantes sobre hábitos e costumes
dos pacientes é preenchida manualmente, e por este motivo foi desenvolvida uma opção para
o carregamento direto no Data Warehouse.
Figura 29: Lançamento de dados diretamente no protótipo
78
5.2.3 Visualizar Dados
Este módulo do protótipo utiliza basicamente a técnica de visualização que faz parte
das técnicas de Data Mining e OLAP. A Figura 30 demonstra a consulta dos dados que foram
importados. Neste programa o usuário pode selecionar a tabela e automaticamente serão
listados os registros carregados.
Figura 30: Consulta de dados por tabela
79
A Figura 31 demonstra uma opção onde o usuário pode selecionar o atributo, tipo de
gráfico, titulo para o gráfico, opção para exibição de legenda, valores e configuração do tipo e
tamanho de fontes.
Figura 31: Gerador de gráficos
80
A Figura 32 exibe o gráfico gerado conforme parâmetros estabecidos pelo usuário. No
exemplo foi gerado um gráfico de pizza, exibindo os atendimentos por diagnósticos
topográficos (que identificam o local principal da manifestação do tumor).
Figura 32: Exemplo de gráfico definido pelo usuário
81
A Figura 33 apresenta a opção que permite que através do protótipo se execute
relatórios criados pelos próprios usuários ou desenvolvedores na ferramenta Crystal Reports.
No exemplo foi utilizado um relatório (drilldown.exe) que apresenta o gráfico de atendimentos
por sexo, onde ao executar um duplo clique com o mouse na área do gráfico é exibida a
relação de atendimentos que compõem está região do gráfico.
Figura 33: Execução de relatório externo gerados no Crystal Report
82
A Figura 34 exibe o gráfico de atendimentos por sexo.
Figura 34: Exemplo relatório externo gerado no Crystal Report (drilldown.exe)
83
A Figura 35 exibe os atendimentos que compõem a área do gráfico, apresentando os
pacientes do sexo feminino.
Figura 35: Dados dos pacientes femininos atendidos
84
5.2.4 Minerar Dados
Foram utilizadas neste módulo, técnicas de clusterização, árvore de decisão e indução
de regras.
A Figura 36 apresenta um formulário que permite ao usuário definir filtros que
delimitem o universo de dados que se pretende avaliar, este procedimento pode restringir a
mineração a um determinado periodo ou caracteristica. Esta opção tem como função otimizar
o processo de leitura levando em consideração a utilização de banco dataflex.
Figura 36: Seleção de Dados para Aplicação de Técnicas de Mineração
85
O protótipo apresenta opção de o usuário gerar uma árvore de decisão, através da
aplicação de regras que podem ser definidas interativamente. A Figura 37 mostra um exemplo
da utilização da árvore de decisão. No exemplo demonstrado primeiramente foi aplicada uma
regra para tratar os dados de pacientes de cor branca, onde o protótipo gerou um novo nível
com duas sub-divisões (“COR igual a BRANCO” e “COR diferente de BRANCO”) que são
apresentadas em forma de folha.
Após foi aplicada na sub-divisão (“COR igual a BRANCO”) uma nova regra para filtrar
pacientes da religião católica, onde gerou uma nova sub-divisão (“RELIGIÃO igual a
CATOLICA” e “RELIGIÃO diferente de CATOLICA”).
Na mesma tela pode ser visualizado os percentuais relativos as sub-divisões, sendo
que o primeiro % é sobre (“RELIGIÃO igual a CATOLICA”) em relação ao total geral e o
segundo % é (“RELIGIÃO igual a CATOLICA”) em relação a sub-divisão (“COR igual a
BRANCO”).
Figura 37: Árvore de decisão
86
Na Figura 38 são visualizados os registros dos atendimentos que compõem a subdivisão selecionada, no exemplo são exibidos os pacientes de cor branca e da religião
católica. Conforme observado na Figura os nomes dos pacientes e dos profissionais médicos
estão criptografados por questões éticas.
Figura 38: Atendimentos que compõem a sub-divisão selecionada
87
Na Figura 39 exibe o gráfico comparativo gerado na árvore a partir da regra aplicada
pelo usuário. O gráfico exibe o percentual e quantidade de atendimentos da religião católica
em relação a outras religiões.
Figura 39: Gráfico comparativo referente a atendimentos por religião
88
Na Figura 40 é aplicada técnica de mineração denominada clusterização que consiste
em gerar agrupamentos de atendimentos similares, onde o usuário pode selecionar os
atributos a serem avaliados, neste caso a cor da pele, religião do paciente e procedimento
utilizado no tratamento, o resultado é demonstrado através de clusters totalizados com a
quantidade e percentual de atendimentos.
Além disso pode-se verificar que para cada cluster é gerado um identificador que
permite verificar quais atendimentos fazem parte do mesmo.
Figura 40: Gera clusters
Na tabela da Figura acima verifica-se uma coluna com a opção << Ver >>, que ao
evento de um duplo clique do usuário é ativada uma tela com todos os atendimentos que
compõem este cluster, conforme Figura 41.
89
É possível observar na Figura 41 todos os dados relativos ao atendimento que foram
definidos na tabela de fatos.
Figura 41: Visualiza atendimentos que fazem parte do cluster selecionado
90
5.2.5 Sobre – Informações sobre o Protótipo
Na Figura 42 são exibidos os dados relativos ao acadêmico, orientador, titulo do
trabalho, universidade, curso e informações do sistema relativas a hardware.
Figura 42: Informações sobre o protótipo
5.3
CONSIDERAÇÕES FINAIS DO CAPÍTULO
O objetivo deste capítulo foi demonstrar como foi desenvolvido o protótipo, as
ferramentas utilizadas, a interface e aplicação na área oncológica.
É importante ressaltar que, partindo-se de um modelo de dados utlizando atributos
mais significativos os resultados obtidos terão maior relevância.
91
6
CONSIDERAÇÕES FINAIS
Durante o desenvolvimento deste Trabalho de Conclusão de Curso (TCC) diversas
etapas foram realizadas, dentre elas: compreender a oncologia, conhecer as tecnologias
como Data Warehouse, Data Mining e OLAP.
Através do trabalho foi possível conhecer as fases necessárias para construção de
uma ferramenta que possibilitasse desde a definição de um ambiente Data Warehouse até a
aplicação de Data Mining e OLAP.
Durante o processo de construção da ferramenta a área oncológica foi utilizada como
referência para validação do protótipo. Com a realização destas etapas todos os objetivos
estabelecidos foram alcançados.
Este trabalho demonstrou que projetar uma ferramenta que permita flexibilidade e ao
mesmo tempo contemple aspirações de usuários que geralmente são complexas, exige-se
domínio e conhecimento de tecnologias e principalmente técnicas de engenharia de software.
Com a conclusão do trabalho fica claro que para obter conhecimento utilizando-se este
protótipo é primordial o conhecimento do fluxo de trabalho da área de atuação. No caso
específico do Hospital Regional do Oeste, esta ferramenta pode contribuir para novas
descobertas que contribuam para prevenção e aprimoramento do tratamento do paciente.
6.1
RESUMO DAS CONTRIBUIÇÕES
Este trabalho trouxe como contribuição a obtenção de conceitos, conhecimento de
novas tecnologias através da revisão bibliográfica, a construção do protótipo contribuiu para
aplicação prática dos conceitos e conhecimentos adquiridos.
É necessário destacar que o trabalho enfocou uma área dentro do contexto da saúde,
o que é muito relevante devido à importância que tem a vida das pessoas.
92
6.2
TRABALHOS FUTUROS
O desenvolvimento e validação desta ferramenta não se encerram por aqui, abaixo
apresento algumas sugestões para trabalhos futuros visando ampliar a capacidade e
validação do protótipo em pauta:
•
Aplicação de outras técnicas de Data Mining como Inteligência Artificial,
Associação, Algoritmos Genéticos;
•
Utilização deste protótipo por profissionais ou acadêmicos da área de saúde
para validar a funcionalidade e eficiência da ferramenta, apresentando
limitações e sugestões para melhoria.
93
7
REFERÊNCIAS
ALCANTARA, Alexandre de. Business Intelligence - Produzindo Resultados, Obtido via
internet. Ultimo acesso: 15/05/2005. http://www.datamodelling.com.br/html/art20030528.htm
ANDREATTO, Ricardo. Construindo um Data Warehouse e analisando suas
informações com Data Mining e OLAP. Obtida via internet. Ultimo acesso: 29/04/2005
http://www.datawarehouses.hpg.ig.com.br/
BAPTISTA, Evaristo. Um Modelo para Análise Gerencial na Área de Vendas.
Dissertação (Mestrado em Engenharia de Produção) Universidade Federal de Santa
Catarina, Florianópolis, 2001.
BIGOLIN, Nara Martini. Data Mining: Conceitos e Técnicas. VII Escola de Informática da
SBC – Sul, 2000.
BISPO, Carlos Alberto; CAZARINI, Edson. Transformando Dados em Informações via
Data Mining. Developers Magazine, Rio de Janeiro, 1999.
BRACKETT, Michael H. The Data Warehouse Challenge, Wiley Computer Publishing,
1996.
CAMPOS e FILHO, Maria Luiza & FILHO, Arnaldo V. Rocha. Data warehouse. Obtida via
Internet. Ultimo acesso: 01/05/2005. http://genesis.nce.ufrj.br/dataware/tutorial/indice.html.
CARVALHO, Luis Alfredo Vidal de. Data Mining: a mineração dos dados no marketing,
medicina, economia, engenharia e administração. São Paulo: Érica, 2001
CENAFERT, Centro e Endoscopia e Assistência à Fertilidade. Oncologia. Obtida via
internet. Ultimo acesso: 19/02/2005. www.cenafert.com.br/oncologia.htm
CHAUDHURI, S. e DAYAL, U. An Overview of Data Warehousing and Olap
Tecnology, SIGMOD Record, New York, v.26, nº 1, Mar/1997.
DAL’ALBA, Adriano. Um estudo sobre Data warehouse. Obtida via internet. Ultimo acesso:
01/05/2005. http://www.geocities.com/siliconvalley/port/5072/.
DALFOVO,Oscar & GRIPA, Robson. Data warehouse: usando a técnica de cubo de
decisão. Developer’s Magazine, São Paulo, n.32, p.12-17, abr de 1999.
DATA
WAREHOUSE,
1999.
Obtida
via
internet.
Ultimo
acesso:
09/03/2005
94
http://www.datawarehouse.inf.br/
DE TONI, Alexandre. Definição de um Data Mart em Cooperativas Agropecuárias.
Engenharia da Produção e Sistemas de Mestrado Mídia e Conhecimento, UFSC:
Florianópolis,
2000.
Obtida
através
da
internet.
Ultimo
acesso:
20/05/2005.
www.stefa.ufsc.br/defesa/pdf/4034.pdf
DI DOMENICO, Jorge Antonio. Definição de um ambiente Data Warehouse em uma
Instituição de Ensino Superior. Programa de Pós-Graduação em Engenharia da Produção,
UFSC,
Florianópolis,
2001.
Obtida
via
Internet.
Ultimo
acesso:
20/05/2005.
www.teses.eps.ufsc.br/resumo
DWB Brasil. Data Mining 2000, Obtida via Internet. Ultimo acesso: 01/05/2005.
www.dwbrasil.com.br/html/dmining.html
FURLAN, José Davi. et. Al. Sistemas de Informação Executiva – EIS. Makron Books, São
Paulo, 1994.
GIMENES, Eduardo. Monografia sobre Data Mining, 2000. Obtida via internet. Ultimo
acesso: 25/05/2005. http://br.geocities.com/dugimenes/index.htm
INCA, Instituto Nacional do Câncer. Órgão responsável pelo Controle do Câncer no
Brasil. Obtida via internet. Ultimo acesso: 19/02/2005. http://www.inca.gov.br/
INFOCÂNCER. Aprenda sobre o Câncer, 2000. Obtida via internet. Ultimo acesso:
20/02/2005. http://www.infocancer.hpg.ig.com.br/cancer.html
INMON, William H. Gerenciando Data Warehouse. Makron Books, São Paulo, 1999.
INMON, William H. – Como Construir o Data Warehouse, Campus, Rio de Janeiro, 1997.
KIMBALL, Ralph. Data Warehouse Toolkit. Makron Books, São Paulo, 1998.
MV2, Business Inteligence, 2000. Obtida via internet. Ultimo acesso: 01/06/2005.
www.mv2.com.br/BI.htm
NETO, Manoel Gomes de Mendonça. Mineração de Dados. VI Escola Regional de
Informática de São Paulo, SBC.
PEREIRA,Max Roberto. Data warehouse: otimizando seu desempenho.Developer’s
Magazine, São Paulo, n.32, p.22-26, abr de 1999.
95
PINHEIRO, Carlos André Reis. Data mining: obtendo vantagens com seu data
warehouse. Developer’s Magazine, São Paulo, n.35, p.38-40, jul de 1999.
RODRIGUES, Anderson. Desenvolvendo em Visual Dataflex 6. 2 ed. São Paulo:
Copyright, 1999.
SASSE, André. E-Cancer Informações em Câncer e Oncologia. Obtida via internet. Ultimo
acesso: 19/02/2005. http://andre.sasse.com/oncologia
SMANIOTTO, Ana Karla. Um estudo sobre Data Mining aplicado à Área Acadêmica na
UNOESC – CHAPECO. Monografia (Curso de Ciência da Computação) UNOESC, Chapecó,
2001.
SONSA, Aline. Protótipo de Data Mining aplicado ao processo da gestão do
conhecimento na UNOCHAPECO. Monografia (Curso de Ciência da Computação)
UNOCHAPECO, Chapecó, 2002.
SOUZA, Roberto Carlos de. Tecnologias da Informação. Xadrezeduca. Obtida via internet.
Ultimo acesso: 15/04/2005. www.xadrezeduca.com.br/site/a5/artigo4.shtml
VISUAL DATAFLEX. Maio de 2004. Disponível em: <http://www.dataacess.com.br/visual
dataflex.asp> Acesso em: 05 out. 2005.
Download

TCC 2 - LEANDRO ROSSO