III Congresso Brasileiro de Computação – CBComp 2003
Inteligência Artificial
MINERAÇÃO DE DADOS UTILIZANDO APRENDIZADO
NÃO-SUPERVISIONADO: UM ESTUDO DE CASO
PARA BANCOS DE DADOS DA SAÚDE
Miriam Lúcia Domingues1
Paulo Martins Engel2
[email protected]
[email protected]
1
Universidade Federal do Pará (UFPA)
Praça Camilo Salgado, 01 – 66055-060 – Belém – PA – Brasil
2
Universidade Federal do Rio Grande do Sul (UFRGS)
Av. Bento Gonçalves, 9500 – Porto Alegre – RS - Brasil
RESUMO
Este trabalho explora uma aplicação de mineração de dados com a utilização de aprendizado não-supervisionado
realizado pela tarefa de agrupamento em um banco de dados do sistema SIH/SUS sob a gestão da Secretaria de
Saúde do Rio Grande do Sul (SES). Mensalmente, as autorizações de internações hospitalares apresentadas para
pagamento são submetidas a critérios técnicos de bloqueios estabelecidos pela Auditoria Médica da SES para
verificar se está havendo impropriedade na cobrança de procedimentos realizados. Esses critérios precisam ser
aperfeiçoados para maior eficácia e controle dos gastos públicos. A análise de agrupamento foi utilizada para a
obtenção de um perfil de comportamento das internações hospitalares bloqueadas nos meses de apresentação de
maio a dezembro de 2000. Os resultados obtidos demonstram possibilidades de criação e melhora dos critérios
usados na detecção de impropriedades nas internações hospitalares, que permitem a otimização do trabalho de
auditores médicos da SES e induzem novos questionamentos para futuras investigações.
Palavras-chave: descoberta de conhecimento, mineração de dados, aprendizado não-supervisionado, agrupamento.
ABSTRACT
This work explores a data mining application based on unsupervised learning for clustering a database of the
SIH/SUS system under the management of the Secretaria de Saúde do Rio Grande do Sul (SES). Monthly, the
hospital internment’s authorizations are submitted to blockade technical criteria established by the SES Medical
Audit to verify the occurrence of improprieties in the realized proceedings collection. Those criteria should be
improved for a better effectiveness and public resources control. Clustering analysis was used to obtain a behavior
profile of blocked hospital internments in the presentation months of May to December 2000. Our results show the
possibility of creation and improvement of the criteria used to detect improprieties on the hospital internment’s,
what allows to optimize the SES medical auditors work and raises new questions for future investigations.
Key-words: Knowledge discovery, data mining, unsupervised learning, clustering.
592
III Congresso Brasileiro de Computação – CBComp 2003
Inteligência Artificial
1 Introdução
A expectativa de utilização de tecnologias da informação avançadas para a solução de
problemas reais, na área da saúde, é de que estas poderão resultar em grande economia de
recursos financeiros governamentais e melhorar as condições do sistema de saúde através da
otimização do emprego dos recursos existentes.
A tecnologia de mineração de dados (MD) é adequada para essa finalidade, uma vez
que se propõe a descobrir conhecimento interessante em grandes bancos de dados, que irá
subsidiar a tomada de decisões estratégicas.
A MD utiliza métodos e técnicas inteligentes, automáticos ou semi-automáticos, para a
realização de tarefas que permitem a extração de informação previamente desconhecida ou que
confirme hipóteses do usuário, válida, facilmente interpretável e que gere ações úteis.
Dentre as tarefas de MD, existem aquelas que realizam aprendizado nãosupervisionado, em que o algoritmo extrai as características dos dados em bancos de dados nãoclassificados e os agrupa em classes. Geralmente, o aprendizado não-supervisionado é aplicado
em tarefas de agrupamento, que consistem em agrupar os dados de bancos de dados volumosos,
com diferentes tipos de dados, em classes ou grupos que contêm objetos similares entre si e
dissimilares em diferentes grupos desses bancos de dados, de acordo com alguma medida de
similaridade.
Neste trabalho, portanto, a descoberta de agrupamento foi utilizada em um estudo de
caso sobre dados reais da área da saúde, no período de maio a dezembro de 2000, com o objetivo
de aperfeiçoar um sistema de detecção de impropriedades na cobrança de internações
hospitalares.
A base de dados escolhida para a aplicação pertence à Secretaria Estadual de Saúde do
Rio Grande do Sul (SES), órgão responsável pela gestão Estadual dos municípios custeados pelo
Teto Financeiro da Assistência, em que o valor do custeio é determinado pelo Ministério da
Saúde (MS). Esta atua no recebimento das faturas dos serviços, avalia e autoriza que o
pagamento seja efetuado pelo MS. Para a gestão mencionada acima, a SES utiliza o Sistema de
593
III Congresso Brasileiro de Computação – CBComp 2003
Inteligência Artificial
Informações Hospitalares do SUS (SIH/SUS), implantado em âmbito nacional, que tem como
instrumento a Autorização de Internação Hospitalar (AIH) para o registro de todos os dados
pertinentes às internações hospitalares.
A Auditoria Médica Estadual da SES utiliza um sistema de bloqueios de pagamentos
para AIHs que apresentem impropriedades na cobrança dos serviços prestados, como por
exemplo, a cobrança de um procedimento de maior valor, quando, na prática, foi realizado um
procedimento de menor valor. Os bloqueios são utilizados com a finalidade de manter o
pagamento dos serviços dentro do teto financeiro definido pelo MS e para verificar a propriedade
da aplicação dos recursos públicos. Apesar do grande número de regras de integridade
implementadas no banco de dados, a maioria das impropriedades só é detectada com a
observação caso a caso e depende muito da experiência médica do auditor.
A MD, com a utilização de técnicas de agrupamento, pode evidenciar comportamentos
interessantes que podem alertar os auditores para situações que ainda não foram percebidas e que
podem constituir novos critérios de bloqueio ou tornar os critérios existentes mais eficazes.
A proposta deste estudo consistiu em agrupar os dados das internações bloqueadas do
SIH/SUS para identificar perfis de comportamentos dessas AIHs. A observação de resultados
mensais permitiu analisar os valores dos atributos que ocorriam com maior freqüência e detectar
possibilidades de otimização do sistema.
A seguir, serão apresentados a metodologia utilizada para facilitar a realização do
processo de MD, a ferramenta e o método escolhidos para o agrupamento de dados, o sistema de
bloqueios da SES, uma análise dos resultados e as conclusões.
2 Metodologia utilizada para o processo de MD
Nesta aplicação, foi utilizada a metodologia formalizada pelo Cross Industry Process
Model for Data Mining (CRISP-DM), que organiza o processo de MD em fases, a saber:
compreensão do domínio da aplicação, compreensão dos dados, preparação de dados,
modelagem, avaliação e aplicação. As fases são constituídas por tarefas genéricas, como por
exemplo, a limpeza de dados na fase de preparação de dados. Existem ainda tarefas
594
III Congresso Brasileiro de Computação – CBComp 2003
Inteligência Artificial
especializadas, que descrevem as ações das tarefas genéricas aplicadas a situações específicas,
por exemplo, limpeza de valores numéricos ou de valores categóricos; e as instâncias do
processo, que são registros das ações, decisões e resultados da MD de uma aplicação em
particular (CHAPMAN, 1999).
Neste trabalho, o produto das três primeiras fases do processo foi um subconjunto de
dados, resultante da integração de 10 conjuntos de dados fornecidos pela SES, contendo 375.408
registros de internações realizadas no período estudado. Esses dados, após a fase de preparação
de dados, foram levados para a ferramenta de MD no formato de arquivo plano, para que fosse
realizada a modelagem. Os modelos de mineração resultantes permitiram a visualização dos
agrupamentos encontrados, os quais foram analisados e, posteriormente, validados pelos
especialistas da SES.
3 Agrupamento em MD
A descoberta de agrupamento é utilizada, freqüentemente, como um dos primeiros
passos na análise dos dados feita pela MD para a identificação de grupos de registros
relacionados, os quais podem representar classes potenciais, que podem ser usadas como ponto
de partida para a exploração de outros relacionamentos (HAN, 2001).
Existem inúmeros métodos de agrupamento e a escolha de um deles para uma
determinada aplicação deve considerar alguns requisitos tais como escalabilidade, eficácia para
agrupar tipos e formas de dados complexos e de alta dimensionalidade e tipos de dados
categóricos e numéricos misturados em grandes bases de dados.
3.1 Ferramenta de MD
A ferramenta selecionada para este trabalho foi o software IBM DB2 Intelligent Miner for
Data (IM), Versão 6 Release 1. Os motivos fundamentais para a escolha foram os de que o IM:
1) contempla os requisitos de mineração deste estudo, uma vez que implementa o algoritmo
demográfico para agrupamento de dados, adequado para dados categóricos, que são maioria nos
atributos do banco de dados da SES; 2) permite a visualização acessível e interessante dos
595
III Congresso Brasileiro de Computação – CBComp 2003
Inteligência Artificial
agrupamentos; 3) suporta grandes quantidades de dados.
O IM utiliza uma arquitetura cliente/servidor. A mineração é realizada no servidor e a
definição dos dados e interpretação dos resultados são realizadas no cliente. O software do
servidor é executado nos sistemas operacionais AIX, AS/400, OS/390, Sun Solaris e Windows
NT/2000 Server. Os clientes podem utilizar AIX, OS/2 e Windows. O IM oferece uma série de
funções estatísticas, de pré-processamento e de mineração de dados, as quais podem ser
empregadas independentemente, iterativamente ou como uma combinação dessas duas formas
(IBM, 1999).
3.2 Algoritmo demográfico
O IM implementa um método de particionamento denominado algoritmo demográfico.
Um método de particionamento constrói k partições de dados em um conjunto de dados de n
objetos. Cada partição representa um agrupamento e k ≤ n. Os dados são classificados em k
grupos. Cada grupo deve conter no mínimo um objeto e cada objeto deve pertencer a exatamente
um grupo. Um método de particionamento cria uma partição inicial e depois utiliza uma técnica
de realocação iterativa que tenta melhorar o particionamento movendo objetos de um grupo para
outro. O particionamento costuma ser considerado bom se os objetos de um mesmo grupo estão
“próximos” ou relacionados uns aos outros, e os objetos de diferentes grupos estão “distantes” ou
são bastante diferentes (HAN, 2001).
O agrupamento demográfico apresenta habilidade para determinar automaticamente o
número de agrupamentos a ser gerado, clareza no particionamento resultante de grandes
conjuntos de dados, e provê ordenação rápida e natural de bancos de dados bastante volumosos.
O conceito fundamental do agrupamento demográfico é a construção dos agrupamentos
pela comparação de cada objeto com todos os agrupamentos criados pela execução da mineração
de dados. O algoritmo atribui o objeto a um agrupamento pela maximização da diferença entre
os pontos a favor e contra a localização de um registro (CABENA, 1997). O algoritmo,
basicamente, executa os passos mostrados na Figura 1 (GRABMEIER, 1998).
596
III Congresso Brasileiro de Computação – CBComp 2003
Inteligência Artificial
A técnica se baseia em um princípio de voto simples, chamado New Condorcet
Criterion (NCC) de Michaud (MICHAUD, 1997). Segundo este autor, para m atributos, a
distância entre dois elementos pode ser vista como o número de atributos para os quais os dois
elementos têm valores diferentes. Assim a distância dij entre dois elementos i e j é o número de
discordâncias sobre se esses elementos estariam em uma mesma classe e m- dij é o número de
concordâncias.
Entrada: Um conjunto de dados O, um critério c{agrupamento C} → [smin, smax].
Método:
(1) Estabelecer C = ∅;
(2) iteragir sobre todos os objetos x em O:
(2.1) iteragir sobre todos os k agrupamentos já construídos C ∈ C, colocar x em C e
atualizar c(C) sob esta modificação potencial;
(2.2) considerar a construção de um novo agrupamento {x}, consistindo
exclusivamente de x e potencialmente colocar {x} em C e atualizar c(C);
(2.3) escolher, dentre as t + 1 possibilidades o agrupamento que obtiver o maior
valor de c(C), sendo t o número de agrupamentos.
(3) repetir até n (t + 1) casos, sendo n o número de objetos.
Saída:
Retornar ao agrupamento C.
Figura 1: O algoritmo demográfico.
Fonte: GRABMEIER, 1998. p. 48-49.
O NCC mede as concordâncias intraclasses, bem como as discordâncias interclasses e
as combina de forma que partições com pequenas distâncias intraclasses e grandes distâncias
interclasses terão maior medida. Uma partição P pode ser representada por uma relação de
equivalência utilizando uma matriz de dissimilaridade Y=[yij], no formato n x n 0-1, em que yij=1
se i e j pertencerem à mesma classe (equivalência) e yij=0 se ocorrer o contrário. O NCC pode ser
escrito com uma notação Y como
n
F (Y ) = ∑∑ C ij y ij
i =1 j ≠ i
em que Cij = m – 2ij = (m – dij) - dij, que é o número de concordâncias menos o número de
discordâncias sobre (i, j) estarem em uma mesma classe. O NCC mede a adequação de um
agrupamento e tenta maximizar F(Y) na busca por uma partição correspondente P (MICHAUD,
1997).
597
III Congresso Brasileiro de Computação – CBComp 2003
Inteligência Artificial
Em contraste com o agrupamento neural, um outro método de agrupamento que o IM
oferece, mais adequado para dados numéricos, o agrupamento demográfico é adequado,
particularmente, para dados categóricos. Contudo, variáveis não-categóricas também podem ser
tratadas, desde que os valores que serão usados pelo algoritmo na determinação da similaridade
ou dissimilaridade de duas variáveis sejam discretizados. Assim, valores dentro da uma faixa de
discretização são similares, enquanto que valores fora da faixa são dissimilares. A medida de
similaridade não é apenas um simples valor binário (0,1), mas varia de 0 a 1. Zero indica valores
distantes, 1 indica valores idênticos, e 0,5 indica que os valores estão separados exatamente pelo
valor de tolerância (CABENA, 1997). No IM, uma função gaussiana é aplicada para obter a
diferença absoluta dos valores dos atributos para o cálculo de similaridades entre 0 e 1.
O exemplo simplificado apresentado a seguir, baseado em (GRABMEIER, 1998),
poderá facilitar a compreensão do algoritmo:
Domínio: banco de dados de internações (objetos a, b e c) descritas pelas variáveis e
seus respectivos valores e tipos de dados: 1) categóricos: apres: {maio/2000 a dez/2000}, hosp:
{H1 a H328}, proced: {0001 a 4899}, faixadias: {1-3, ..., >18}, motivo: {01 a 21} e 2)
numérico: custo: [0, 112.926], representado pela matriz de dados apresentada na Figura 2:
AIH
a
b
c
apres
set/2000
set/2000
jul/2000
hosp
H22
H22
H128
proced
1005
0067
1005
faixadias
1-3
4-6
7-9
motivo
03
03
05
custo
256
399
450
Figura 2: Matriz de dados.
O algoritmo demográfico cria matrizes de dissimilaridades para cada atributo da matriz
de dados. Se dois objetos possuem o mesmo valor para um determinado atributo categórico, a
matriz recebe o valor 1 indicando um voto de similaridade, caso contrário, recebe o valor 0,
indicando um voto de dissimilaridade. Para o atributo numérico custo, a discretização em 5
intervalos: [0, 200], ]200, 500], ]500, 1000], ]1000, 2000] e ]2000, 112.926] é utilizada como
medida simplificada de similaridade. Se dois objetos possuem valores em um mesmo intervalo
para o atributo custo, a matriz recebe o valor 1 indicando similaridade, caso contrário, recebe o
valor 0, indicando dissimilaridade. Depois, os votos similares e dissimilares são somados,
resultando em duas matrizes, uma de similaridade e a outra de dissimilaridade, conforme mostra
a Figura 3.
598
III Congresso Brasileiro de Computação – CBComp 2003
Inteligência Artificial
A seguir, o algoritmo distribui os objetos em todas as configurações de agrupamento
possíveis, conforme se observa ainda na Figura 3. Os resultados das matrizes de similaridade e
dissimilaridade servirão como suporte para estabelecer relações de equivalência induzidas pelas
diversas configurações de agrupamento. Será feita a soma de todas as similaridades intraclasses e
todas as dissimilaridades interclasses para um determinado agrupamento. Os totais de votos
serão ordenados. A melhor configuração de agrupamento será aquela que obtiver o maior
número de votos, que neste exemplo foi a distribuição {a,b},{c}, significando que os objetos a e
b serão posicionados no mesmo agrupamento e o objeto b em um outro agrupamento.
1) Os objetos a e b possuem o mesmo valor para a variável apres. Portanto, são
similares e é acrescentado o valor 1 na tabela de similaridades. No caso de a e
c, estes possuem valores diferentes. Portanto, são dissimilares e recebem o
valor 0.
Matrizes de dissimilaridades
apres
set/2000
set/2000
jul/2000
hosp
H22
H22
H128
proced
1005
0067
1005
faixadias
1-3
4-6
7-9
motivo
03
03
05
custo
256
399
450
Votos
sim
Votos
dissim
a
b
1
c
0
0
a
b
1
c
0
0
a
b
c
a
b
c
a
a
b
c
a
a
b
c
b
0
(2,1) {a,b}, {c}
c
0
0
b
1
c
0
0
a
b
1
c
1
1
4
2
1
4
5
2
número agrupamento
partição
(3) {a,b,c}
c
1
0
a
a
b
c
a
b
c
b
0
3) O banco de dados é dividido em partições que representam todas as possíveis
configurações de agrupamentos. A coluna votos recebe valores iguais aos de suas
posições correspondentes nas tabelas de similaridades e dissimilaridades, induzidos pelos
valores 1 ou 0 da coluna relação de equivalência. A 1ª partição, por ex., configura uma
situação em que todos os objetos seriam similares, portanto todos com o valor 1. Assim,
os votos da tabela de similaridades são transportados para a posição correspondente na
coluna votos.
{a,c}, {b}
{b,c}, {a}
(1,1,1) {a}, {b}, {c}
mesmo
interv
relação de
equivalência
1
1
1
1
0
0
0
1
0
0
0
1
0
0
0
votos
4
4
2
2
2
somatória dos
votos p/linhas
2
1
4
5
2
5
4
1
4
5
6
1
8
5
4
5
6
1
6
5
votos
totais
7
ord
4
13
1
9
3
7
4
11
2
4) Os votos de cada linha da matriz são somados e totalizados em cada
configuração de agrupamento. A configuração que totaliza o maior número de
votos é a melhor configuração de agrupamento possível, segundo o Critério
Condorcet, para os objetos a, b e c.
2) Soma das similaridades e dissimilaridades por
coluna.
Figura 3: Exemplo do processo de votação Condorcet.
4 O sistema de bloqueios técnicos da SES
Mensalmente, a Auditoria Médica Estadual da SES, após realizar uma análise técnica
nas AIHs, bloqueia o pagamento de um certo número de internações por apresentarem alguma
impropriedade. O sistema atual é mostrado ao lado esquerdo da Figura 4. Cada internação
cobrada é submetida: 1) aos critérios técnicos, que se apresentam sob a forma de regras para
599
III Congresso Brasileiro de Computação – CBComp 2003
Inteligência Artificial
bloqueio de internações cujo motivo foi estabelecido pelos auditores como passível de apresentar
cobrança irregular e 2) às normas do SUS, que avaliam 81 itens para verificar se há
impropriedades, tais como, preenchimento incompleto, rasuras, lançamento de procedimento não
realizado e outros. Se a AIH não se enquadrar em nenhum desses critérios ou normas, é
encaminhada para pagamento. Caso contrário, ela é bloqueada e ocorre um dos quatro
procedimentos após a análise da auditoria:
1) A AIH é liberada com código novo: nessa opção estão enquadrados os casos de
impropriedade de codificação de procedimento. É cobrado um procedimento com
valor maior, mas é constatado que deveria ter sido cobrado um procedimento com
valor menor. Então, a AIH é liberada para pagamento com o código do
procedimento de menor valor.
Sistema de bloqueio de AIHs
Situação atual
Situação desejada
AIH
AIH
Critérios técnicos
(regras de bloqueio) e
normas do SUS
Critérios técnicos
(regras de bloqueio) e
normas do SUS
AIH não
bloqueada
AIH não
bloqueada
AIH
bloqueada
AIH
bloqueada
6,11% das AIHs
bloqueadas
15,77% das AIHs
bloqueadas
liberada
com
código
novo
liberada
com
mesmo
código
impropriedade de
codificação do
procedimento
falha no
bloqueio
66,49% das AIHs
bloqueadas
Permanece
bloqueada
sem
resposta
do
auditor
outras
impropriedades
11,64% das AIHs
bloqueadas
liberada
com
código
novo
Permanece
bloqueada
impropriedade de
outras
codificação do
impropriedades
procedimento
Figura 4: Sistema de bloqueio de AIHs utilizado pela SES.
2) A AIH é liberada com o mesmo código: neste caso a auditoria não conseguiu
identificar nenhuma impropriedade e acaba liberando o pagamento da internação.
Segundo a auditoria, o ideal é que só fossem bloqueadas as internações com
alguma impropriedade. O grande número de casos neste item significa que o
sistema de bloqueios precisa ser aperfeiçoado.
3) A AIH permanece bloqueada: neste caso, são avaliadas e se apresentarem
impropriedades, segundo as normas do SUS, tais como dados incorretos, com
rasuras ou procedimentos inexistentes, permanecem bloqueadas e não são pagas.
600
III Congresso Brasileiro de Computação – CBComp 2003
Inteligência Artificial
4) Sem resposta do auditor: o auditor não consegue dar um parecer e o pagamento da
AIH fica pendente até que se chegue a uma conclusão sobre o caso.
Ao lado direito da Figura 4, aparece o fluxo da situação idealizada pela auditoria: a de
bloquear somente os casos de impropriedades, tornando o sistema mais eficiente e eficaz.
No ano de 2000, a equipe da Auditoria Médica da SES elegeu os seguintes critérios
técnicos de bloqueios para as AIHs apresentadas: septicemia, cuidados prolongados,
politraumatizados, cirurgias múltiplas, transplante, AVC agudo e homônimos. Significa, por
exemplo, que se o motivo de uma internação for septicemia, esta é automaticamente submetida a
algumas regras. Se for bloqueada, é separada para análise pelos auditores.
O controle automatizado dos registros de internações bloqueadas pelos auditores iniciou
em maio de 2000, motivo pelo qual os dados analisados neste estudo são referentes aos meses de
maio a dezembro de 2000.
5 Modelos de mineração
Os modelos de mineração foram construídos com a utilização do agrupamento
demográfico do IM para a análise dos comportamentos mais freqüentes das AIHs, de acordo com
as etapas propostas de: 1) analisar o perfil dos hospitais segundo o porte, por exemplo, o PORTE
4 (nesta pesquisa, hospitais com 172 leitos ou mais), que é o porte dos hospitais mais
problemáticos; 2) verificar os comportamentos mais freqüentes das internações realizadas de
hospitais PORTE 4; 3) verificar os comportamentos mais freqüentes das internações bloqueadas
desses hospitais por tipo de problema apresentado e 4) extrair e avaliar situações de interesse
com base nas observações dos modelos gerados pela mineração.
Para a análise dos hospitais PORTE 4, foi gerado um modelo que agrupou 95.991
registros de internações realizadas por hospitais desse porte, incluindo internações bloqueadas e
não-bloqueadas. As internações foram agrupadas em função dos atributos apres (mês de
apresentação da AIH para pagamento) e hosp (nome do hospital), para visualizar rapidamente os
hospitais mais bloqueados nos meses do estudo. Estas apresentaram um comportamento regular
em todos os meses, em que foram encontrados os seguintes valores mais freqüentes para os
601
III Congresso Brasileiro de Computação – CBComp 2003
Inteligência Artificial
atributos: hosp: H211; espec (especialidade médica): clínica médica; faixadias (faixa de dias de
internação): 1 a 3 dias; custo (custo médio total da internação): R$300,00: proc_rea
(procedimento realizado): parto normal; diag_pri (diagnóstico principal): parto único
espontâneo; grupoCID (grupo de doenças CID): gravidez, parto e puerpério.
Este modelo revelou uma observação interessante na visualização gráfica:
agrupamentos com predomínio de baixa permanência (1 a 3 dias de internação) para
procedimentos que requisitavam 5 dias ou mais de internações. Ao ser validado pelos auditores,
chamou a atenção, uma vez que, em 2001, a Auditoria estabeleceu um novo critério que bloqueia
internações com baixa permanência, com exceção de procedimentos obstétricos e cirúrgicos,
ante a observação da manipulação de códigos de doenças simples para doenças mais graves. Tal
fato foi observado rapidamente pela visualização dos agrupamentos, mas levou meses para ser
confirmado pela análise tradicional utilizada pela Auditoria Médica.
Um outro modelo também interessante agrupou 3.587 internações bloqueadas e
liberadas com o mesmo código, de hospitais PORTE 4, e evidenciou que os maiores
agrupamentos, em todos os meses, continham internações com procedimentos realizados de
AVC agudo e septicemia, bloqueadas pelo motivo de homônimos. Foi sugerido à Auditoria
melhorar as regras de homônimos com novos filtros para casos de AVC agudo e septicemia, o
que reduziria em muito o número dessas internações consideradas como falhas no bloqueio, por
serem cobranças adequadas que tiveram seu pagamento bloqueado. Ante a validação, os
especialistas confirmaram que também chegaram a essa conclusão, mas somente no final do ano
2001.
6 Conclusões
Este estudo demonstra a possibilidade de ganhos que a descoberta de agrupamento,
como tarefa de MD, pode proporcionar no apoio a decisões estratégicas, com a constatação, ante
à análise dos resultados, de que novos critérios de bloqueios técnicos para o sistema da SES
podem ser criados ou que os critérios existentes podem ser melhorados com a observação dos
resultados obtidos pela análise de agrupamentos.
602
III Congresso Brasileiro de Computação – CBComp 2003
Inteligência Artificial
Muitos outros modelos foram gerados e, ao serem analisados pelos auditores,
mostraram muitas informações úteis que levaram a questionamentos, como por exemplo: “Por
que tal prestador tem certo comportamento?”ou “Por que tal procedimento foi mais
apresentado?”. A aplicação permite observar o comportamento histórico do sistema. Por
exemplo, os modelos de mineração com todas as internações, quando comparados com os das
internações bloqueadas, revelam que as primeiras apresentam comportamentos bastante
regulares, enquanto que as últimas sofrem alterações mensais, o que dá margens a muitas
investigações.
A fácil visualização dos agrupamentos proporcionada pela ferramenta utilizada, o IM,
permitiu a assimilação e o interesse dos usuários pela análise de agrupamentos.
7 Referências Bibliográficas
CABENA, P.; HADJINIAN, P.; STADLER, R.; VERHEES, J.; ZANASI, Alessandro.
Discovering data mining: from concept to implementation. Upper Saddle River: PrenticeHall PTR, 1997.
CHAPMAN, P.; KERBER, R.; CLINTON, J.; KHABAZA, T.; REINARTZ, T., WIRTH, R. The
CRISP-DM Process Model. CRISP-DM consortium, 1999. (Discussion Paper). Disponível em
http://www.crisp-dm.org. Acessado em Maio de 2001.
GRABMEIER, J.; RUDOLPH, A. Techniques of cluster algorithms in data mining version
2.0. Heidelberg: IBM Deutschland Informationssysteme GmbH, 1998. Disponível em
http://www-3.ibm.com/software/data/iminer/fordata/clusttechn.pdf. Acessado em Janeiro de
2002.
HAN, J.; KAMBER, M. Data mining: concepts and techniques. San Francisco: Morgan
Kaufmann, 2001.
IBM. Utilizando o Intelligent Miner for Data. Versão 6. Release 1. Edição S517-6338-00.
[S.l.], 1999. Disponível em
ftp://ftp.software.ibm.com/software/data/iminer/fordata/docu/Br/idmu0mst.pdf. Acessado em
Outubro de 2001.
MICHAUD, P. Clustering techniques. Future Generation Computer Systems, v.13 n.2-3, Nov.
1997, p.135-147.
603
Download

mineração de dados utilizando aprendizado não