III Congresso Brasileiro de Computação – CBComp 2003 Inteligência Artificial MINERAÇÃO DE DADOS UTILIZANDO APRENDIZADO NÃO-SUPERVISIONADO: UM ESTUDO DE CASO PARA BANCOS DE DADOS DA SAÚDE Miriam Lúcia Domingues1 Paulo Martins Engel2 [email protected] [email protected] 1 Universidade Federal do Pará (UFPA) Praça Camilo Salgado, 01 – 66055-060 – Belém – PA – Brasil 2 Universidade Federal do Rio Grande do Sul (UFRGS) Av. Bento Gonçalves, 9500 – Porto Alegre – RS - Brasil RESUMO Este trabalho explora uma aplicação de mineração de dados com a utilização de aprendizado não-supervisionado realizado pela tarefa de agrupamento em um banco de dados do sistema SIH/SUS sob a gestão da Secretaria de Saúde do Rio Grande do Sul (SES). Mensalmente, as autorizações de internações hospitalares apresentadas para pagamento são submetidas a critérios técnicos de bloqueios estabelecidos pela Auditoria Médica da SES para verificar se está havendo impropriedade na cobrança de procedimentos realizados. Esses critérios precisam ser aperfeiçoados para maior eficácia e controle dos gastos públicos. A análise de agrupamento foi utilizada para a obtenção de um perfil de comportamento das internações hospitalares bloqueadas nos meses de apresentação de maio a dezembro de 2000. Os resultados obtidos demonstram possibilidades de criação e melhora dos critérios usados na detecção de impropriedades nas internações hospitalares, que permitem a otimização do trabalho de auditores médicos da SES e induzem novos questionamentos para futuras investigações. Palavras-chave: descoberta de conhecimento, mineração de dados, aprendizado não-supervisionado, agrupamento. ABSTRACT This work explores a data mining application based on unsupervised learning for clustering a database of the SIH/SUS system under the management of the Secretaria de Saúde do Rio Grande do Sul (SES). Monthly, the hospital internment’s authorizations are submitted to blockade technical criteria established by the SES Medical Audit to verify the occurrence of improprieties in the realized proceedings collection. Those criteria should be improved for a better effectiveness and public resources control. Clustering analysis was used to obtain a behavior profile of blocked hospital internments in the presentation months of May to December 2000. Our results show the possibility of creation and improvement of the criteria used to detect improprieties on the hospital internment’s, what allows to optimize the SES medical auditors work and raises new questions for future investigations. Key-words: Knowledge discovery, data mining, unsupervised learning, clustering. 592 III Congresso Brasileiro de Computação – CBComp 2003 Inteligência Artificial 1 Introdução A expectativa de utilização de tecnologias da informação avançadas para a solução de problemas reais, na área da saúde, é de que estas poderão resultar em grande economia de recursos financeiros governamentais e melhorar as condições do sistema de saúde através da otimização do emprego dos recursos existentes. A tecnologia de mineração de dados (MD) é adequada para essa finalidade, uma vez que se propõe a descobrir conhecimento interessante em grandes bancos de dados, que irá subsidiar a tomada de decisões estratégicas. A MD utiliza métodos e técnicas inteligentes, automáticos ou semi-automáticos, para a realização de tarefas que permitem a extração de informação previamente desconhecida ou que confirme hipóteses do usuário, válida, facilmente interpretável e que gere ações úteis. Dentre as tarefas de MD, existem aquelas que realizam aprendizado nãosupervisionado, em que o algoritmo extrai as características dos dados em bancos de dados nãoclassificados e os agrupa em classes. Geralmente, o aprendizado não-supervisionado é aplicado em tarefas de agrupamento, que consistem em agrupar os dados de bancos de dados volumosos, com diferentes tipos de dados, em classes ou grupos que contêm objetos similares entre si e dissimilares em diferentes grupos desses bancos de dados, de acordo com alguma medida de similaridade. Neste trabalho, portanto, a descoberta de agrupamento foi utilizada em um estudo de caso sobre dados reais da área da saúde, no período de maio a dezembro de 2000, com o objetivo de aperfeiçoar um sistema de detecção de impropriedades na cobrança de internações hospitalares. A base de dados escolhida para a aplicação pertence à Secretaria Estadual de Saúde do Rio Grande do Sul (SES), órgão responsável pela gestão Estadual dos municípios custeados pelo Teto Financeiro da Assistência, em que o valor do custeio é determinado pelo Ministério da Saúde (MS). Esta atua no recebimento das faturas dos serviços, avalia e autoriza que o pagamento seja efetuado pelo MS. Para a gestão mencionada acima, a SES utiliza o Sistema de 593 III Congresso Brasileiro de Computação – CBComp 2003 Inteligência Artificial Informações Hospitalares do SUS (SIH/SUS), implantado em âmbito nacional, que tem como instrumento a Autorização de Internação Hospitalar (AIH) para o registro de todos os dados pertinentes às internações hospitalares. A Auditoria Médica Estadual da SES utiliza um sistema de bloqueios de pagamentos para AIHs que apresentem impropriedades na cobrança dos serviços prestados, como por exemplo, a cobrança de um procedimento de maior valor, quando, na prática, foi realizado um procedimento de menor valor. Os bloqueios são utilizados com a finalidade de manter o pagamento dos serviços dentro do teto financeiro definido pelo MS e para verificar a propriedade da aplicação dos recursos públicos. Apesar do grande número de regras de integridade implementadas no banco de dados, a maioria das impropriedades só é detectada com a observação caso a caso e depende muito da experiência médica do auditor. A MD, com a utilização de técnicas de agrupamento, pode evidenciar comportamentos interessantes que podem alertar os auditores para situações que ainda não foram percebidas e que podem constituir novos critérios de bloqueio ou tornar os critérios existentes mais eficazes. A proposta deste estudo consistiu em agrupar os dados das internações bloqueadas do SIH/SUS para identificar perfis de comportamentos dessas AIHs. A observação de resultados mensais permitiu analisar os valores dos atributos que ocorriam com maior freqüência e detectar possibilidades de otimização do sistema. A seguir, serão apresentados a metodologia utilizada para facilitar a realização do processo de MD, a ferramenta e o método escolhidos para o agrupamento de dados, o sistema de bloqueios da SES, uma análise dos resultados e as conclusões. 2 Metodologia utilizada para o processo de MD Nesta aplicação, foi utilizada a metodologia formalizada pelo Cross Industry Process Model for Data Mining (CRISP-DM), que organiza o processo de MD em fases, a saber: compreensão do domínio da aplicação, compreensão dos dados, preparação de dados, modelagem, avaliação e aplicação. As fases são constituídas por tarefas genéricas, como por exemplo, a limpeza de dados na fase de preparação de dados. Existem ainda tarefas 594 III Congresso Brasileiro de Computação – CBComp 2003 Inteligência Artificial especializadas, que descrevem as ações das tarefas genéricas aplicadas a situações específicas, por exemplo, limpeza de valores numéricos ou de valores categóricos; e as instâncias do processo, que são registros das ações, decisões e resultados da MD de uma aplicação em particular (CHAPMAN, 1999). Neste trabalho, o produto das três primeiras fases do processo foi um subconjunto de dados, resultante da integração de 10 conjuntos de dados fornecidos pela SES, contendo 375.408 registros de internações realizadas no período estudado. Esses dados, após a fase de preparação de dados, foram levados para a ferramenta de MD no formato de arquivo plano, para que fosse realizada a modelagem. Os modelos de mineração resultantes permitiram a visualização dos agrupamentos encontrados, os quais foram analisados e, posteriormente, validados pelos especialistas da SES. 3 Agrupamento em MD A descoberta de agrupamento é utilizada, freqüentemente, como um dos primeiros passos na análise dos dados feita pela MD para a identificação de grupos de registros relacionados, os quais podem representar classes potenciais, que podem ser usadas como ponto de partida para a exploração de outros relacionamentos (HAN, 2001). Existem inúmeros métodos de agrupamento e a escolha de um deles para uma determinada aplicação deve considerar alguns requisitos tais como escalabilidade, eficácia para agrupar tipos e formas de dados complexos e de alta dimensionalidade e tipos de dados categóricos e numéricos misturados em grandes bases de dados. 3.1 Ferramenta de MD A ferramenta selecionada para este trabalho foi o software IBM DB2 Intelligent Miner for Data (IM), Versão 6 Release 1. Os motivos fundamentais para a escolha foram os de que o IM: 1) contempla os requisitos de mineração deste estudo, uma vez que implementa o algoritmo demográfico para agrupamento de dados, adequado para dados categóricos, que são maioria nos atributos do banco de dados da SES; 2) permite a visualização acessível e interessante dos 595 III Congresso Brasileiro de Computação – CBComp 2003 Inteligência Artificial agrupamentos; 3) suporta grandes quantidades de dados. O IM utiliza uma arquitetura cliente/servidor. A mineração é realizada no servidor e a definição dos dados e interpretação dos resultados são realizadas no cliente. O software do servidor é executado nos sistemas operacionais AIX, AS/400, OS/390, Sun Solaris e Windows NT/2000 Server. Os clientes podem utilizar AIX, OS/2 e Windows. O IM oferece uma série de funções estatísticas, de pré-processamento e de mineração de dados, as quais podem ser empregadas independentemente, iterativamente ou como uma combinação dessas duas formas (IBM, 1999). 3.2 Algoritmo demográfico O IM implementa um método de particionamento denominado algoritmo demográfico. Um método de particionamento constrói k partições de dados em um conjunto de dados de n objetos. Cada partição representa um agrupamento e k ≤ n. Os dados são classificados em k grupos. Cada grupo deve conter no mínimo um objeto e cada objeto deve pertencer a exatamente um grupo. Um método de particionamento cria uma partição inicial e depois utiliza uma técnica de realocação iterativa que tenta melhorar o particionamento movendo objetos de um grupo para outro. O particionamento costuma ser considerado bom se os objetos de um mesmo grupo estão “próximos” ou relacionados uns aos outros, e os objetos de diferentes grupos estão “distantes” ou são bastante diferentes (HAN, 2001). O agrupamento demográfico apresenta habilidade para determinar automaticamente o número de agrupamentos a ser gerado, clareza no particionamento resultante de grandes conjuntos de dados, e provê ordenação rápida e natural de bancos de dados bastante volumosos. O conceito fundamental do agrupamento demográfico é a construção dos agrupamentos pela comparação de cada objeto com todos os agrupamentos criados pela execução da mineração de dados. O algoritmo atribui o objeto a um agrupamento pela maximização da diferença entre os pontos a favor e contra a localização de um registro (CABENA, 1997). O algoritmo, basicamente, executa os passos mostrados na Figura 1 (GRABMEIER, 1998). 596 III Congresso Brasileiro de Computação – CBComp 2003 Inteligência Artificial A técnica se baseia em um princípio de voto simples, chamado New Condorcet Criterion (NCC) de Michaud (MICHAUD, 1997). Segundo este autor, para m atributos, a distância entre dois elementos pode ser vista como o número de atributos para os quais os dois elementos têm valores diferentes. Assim a distância dij entre dois elementos i e j é o número de discordâncias sobre se esses elementos estariam em uma mesma classe e m- dij é o número de concordâncias. Entrada: Um conjunto de dados O, um critério c{agrupamento C} → [smin, smax]. Método: (1) Estabelecer C = ∅; (2) iteragir sobre todos os objetos x em O: (2.1) iteragir sobre todos os k agrupamentos já construídos C ∈ C, colocar x em C e atualizar c(C) sob esta modificação potencial; (2.2) considerar a construção de um novo agrupamento {x}, consistindo exclusivamente de x e potencialmente colocar {x} em C e atualizar c(C); (2.3) escolher, dentre as t + 1 possibilidades o agrupamento que obtiver o maior valor de c(C), sendo t o número de agrupamentos. (3) repetir até n (t + 1) casos, sendo n o número de objetos. Saída: Retornar ao agrupamento C. Figura 1: O algoritmo demográfico. Fonte: GRABMEIER, 1998. p. 48-49. O NCC mede as concordâncias intraclasses, bem como as discordâncias interclasses e as combina de forma que partições com pequenas distâncias intraclasses e grandes distâncias interclasses terão maior medida. Uma partição P pode ser representada por uma relação de equivalência utilizando uma matriz de dissimilaridade Y=[yij], no formato n x n 0-1, em que yij=1 se i e j pertencerem à mesma classe (equivalência) e yij=0 se ocorrer o contrário. O NCC pode ser escrito com uma notação Y como n F (Y ) = ∑∑ C ij y ij i =1 j ≠ i em que Cij = m – 2ij = (m – dij) - dij, que é o número de concordâncias menos o número de discordâncias sobre (i, j) estarem em uma mesma classe. O NCC mede a adequação de um agrupamento e tenta maximizar F(Y) na busca por uma partição correspondente P (MICHAUD, 1997). 597 III Congresso Brasileiro de Computação – CBComp 2003 Inteligência Artificial Em contraste com o agrupamento neural, um outro método de agrupamento que o IM oferece, mais adequado para dados numéricos, o agrupamento demográfico é adequado, particularmente, para dados categóricos. Contudo, variáveis não-categóricas também podem ser tratadas, desde que os valores que serão usados pelo algoritmo na determinação da similaridade ou dissimilaridade de duas variáveis sejam discretizados. Assim, valores dentro da uma faixa de discretização são similares, enquanto que valores fora da faixa são dissimilares. A medida de similaridade não é apenas um simples valor binário (0,1), mas varia de 0 a 1. Zero indica valores distantes, 1 indica valores idênticos, e 0,5 indica que os valores estão separados exatamente pelo valor de tolerância (CABENA, 1997). No IM, uma função gaussiana é aplicada para obter a diferença absoluta dos valores dos atributos para o cálculo de similaridades entre 0 e 1. O exemplo simplificado apresentado a seguir, baseado em (GRABMEIER, 1998), poderá facilitar a compreensão do algoritmo: Domínio: banco de dados de internações (objetos a, b e c) descritas pelas variáveis e seus respectivos valores e tipos de dados: 1) categóricos: apres: {maio/2000 a dez/2000}, hosp: {H1 a H328}, proced: {0001 a 4899}, faixadias: {1-3, ..., >18}, motivo: {01 a 21} e 2) numérico: custo: [0, 112.926], representado pela matriz de dados apresentada na Figura 2: AIH a b c apres set/2000 set/2000 jul/2000 hosp H22 H22 H128 proced 1005 0067 1005 faixadias 1-3 4-6 7-9 motivo 03 03 05 custo 256 399 450 Figura 2: Matriz de dados. O algoritmo demográfico cria matrizes de dissimilaridades para cada atributo da matriz de dados. Se dois objetos possuem o mesmo valor para um determinado atributo categórico, a matriz recebe o valor 1 indicando um voto de similaridade, caso contrário, recebe o valor 0, indicando um voto de dissimilaridade. Para o atributo numérico custo, a discretização em 5 intervalos: [0, 200], ]200, 500], ]500, 1000], ]1000, 2000] e ]2000, 112.926] é utilizada como medida simplificada de similaridade. Se dois objetos possuem valores em um mesmo intervalo para o atributo custo, a matriz recebe o valor 1 indicando similaridade, caso contrário, recebe o valor 0, indicando dissimilaridade. Depois, os votos similares e dissimilares são somados, resultando em duas matrizes, uma de similaridade e a outra de dissimilaridade, conforme mostra a Figura 3. 598 III Congresso Brasileiro de Computação – CBComp 2003 Inteligência Artificial A seguir, o algoritmo distribui os objetos em todas as configurações de agrupamento possíveis, conforme se observa ainda na Figura 3. Os resultados das matrizes de similaridade e dissimilaridade servirão como suporte para estabelecer relações de equivalência induzidas pelas diversas configurações de agrupamento. Será feita a soma de todas as similaridades intraclasses e todas as dissimilaridades interclasses para um determinado agrupamento. Os totais de votos serão ordenados. A melhor configuração de agrupamento será aquela que obtiver o maior número de votos, que neste exemplo foi a distribuição {a,b},{c}, significando que os objetos a e b serão posicionados no mesmo agrupamento e o objeto b em um outro agrupamento. 1) Os objetos a e b possuem o mesmo valor para a variável apres. Portanto, são similares e é acrescentado o valor 1 na tabela de similaridades. No caso de a e c, estes possuem valores diferentes. Portanto, são dissimilares e recebem o valor 0. Matrizes de dissimilaridades apres set/2000 set/2000 jul/2000 hosp H22 H22 H128 proced 1005 0067 1005 faixadias 1-3 4-6 7-9 motivo 03 03 05 custo 256 399 450 Votos sim Votos dissim a b 1 c 0 0 a b 1 c 0 0 a b c a b c a a b c a a b c b 0 (2,1) {a,b}, {c} c 0 0 b 1 c 0 0 a b 1 c 1 1 4 2 1 4 5 2 número agrupamento partição (3) {a,b,c} c 1 0 a a b c a b c b 0 3) O banco de dados é dividido em partições que representam todas as possíveis configurações de agrupamentos. A coluna votos recebe valores iguais aos de suas posições correspondentes nas tabelas de similaridades e dissimilaridades, induzidos pelos valores 1 ou 0 da coluna relação de equivalência. A 1ª partição, por ex., configura uma situação em que todos os objetos seriam similares, portanto todos com o valor 1. Assim, os votos da tabela de similaridades são transportados para a posição correspondente na coluna votos. {a,c}, {b} {b,c}, {a} (1,1,1) {a}, {b}, {c} mesmo interv relação de equivalência 1 1 1 1 0 0 0 1 0 0 0 1 0 0 0 votos 4 4 2 2 2 somatória dos votos p/linhas 2 1 4 5 2 5 4 1 4 5 6 1 8 5 4 5 6 1 6 5 votos totais 7 ord 4 13 1 9 3 7 4 11 2 4) Os votos de cada linha da matriz são somados e totalizados em cada configuração de agrupamento. A configuração que totaliza o maior número de votos é a melhor configuração de agrupamento possível, segundo o Critério Condorcet, para os objetos a, b e c. 2) Soma das similaridades e dissimilaridades por coluna. Figura 3: Exemplo do processo de votação Condorcet. 4 O sistema de bloqueios técnicos da SES Mensalmente, a Auditoria Médica Estadual da SES, após realizar uma análise técnica nas AIHs, bloqueia o pagamento de um certo número de internações por apresentarem alguma impropriedade. O sistema atual é mostrado ao lado esquerdo da Figura 4. Cada internação cobrada é submetida: 1) aos critérios técnicos, que se apresentam sob a forma de regras para 599 III Congresso Brasileiro de Computação – CBComp 2003 Inteligência Artificial bloqueio de internações cujo motivo foi estabelecido pelos auditores como passível de apresentar cobrança irregular e 2) às normas do SUS, que avaliam 81 itens para verificar se há impropriedades, tais como, preenchimento incompleto, rasuras, lançamento de procedimento não realizado e outros. Se a AIH não se enquadrar em nenhum desses critérios ou normas, é encaminhada para pagamento. Caso contrário, ela é bloqueada e ocorre um dos quatro procedimentos após a análise da auditoria: 1) A AIH é liberada com código novo: nessa opção estão enquadrados os casos de impropriedade de codificação de procedimento. É cobrado um procedimento com valor maior, mas é constatado que deveria ter sido cobrado um procedimento com valor menor. Então, a AIH é liberada para pagamento com o código do procedimento de menor valor. Sistema de bloqueio de AIHs Situação atual Situação desejada AIH AIH Critérios técnicos (regras de bloqueio) e normas do SUS Critérios técnicos (regras de bloqueio) e normas do SUS AIH não bloqueada AIH não bloqueada AIH bloqueada AIH bloqueada 6,11% das AIHs bloqueadas 15,77% das AIHs bloqueadas liberada com código novo liberada com mesmo código impropriedade de codificação do procedimento falha no bloqueio 66,49% das AIHs bloqueadas Permanece bloqueada sem resposta do auditor outras impropriedades 11,64% das AIHs bloqueadas liberada com código novo Permanece bloqueada impropriedade de outras codificação do impropriedades procedimento Figura 4: Sistema de bloqueio de AIHs utilizado pela SES. 2) A AIH é liberada com o mesmo código: neste caso a auditoria não conseguiu identificar nenhuma impropriedade e acaba liberando o pagamento da internação. Segundo a auditoria, o ideal é que só fossem bloqueadas as internações com alguma impropriedade. O grande número de casos neste item significa que o sistema de bloqueios precisa ser aperfeiçoado. 3) A AIH permanece bloqueada: neste caso, são avaliadas e se apresentarem impropriedades, segundo as normas do SUS, tais como dados incorretos, com rasuras ou procedimentos inexistentes, permanecem bloqueadas e não são pagas. 600 III Congresso Brasileiro de Computação – CBComp 2003 Inteligência Artificial 4) Sem resposta do auditor: o auditor não consegue dar um parecer e o pagamento da AIH fica pendente até que se chegue a uma conclusão sobre o caso. Ao lado direito da Figura 4, aparece o fluxo da situação idealizada pela auditoria: a de bloquear somente os casos de impropriedades, tornando o sistema mais eficiente e eficaz. No ano de 2000, a equipe da Auditoria Médica da SES elegeu os seguintes critérios técnicos de bloqueios para as AIHs apresentadas: septicemia, cuidados prolongados, politraumatizados, cirurgias múltiplas, transplante, AVC agudo e homônimos. Significa, por exemplo, que se o motivo de uma internação for septicemia, esta é automaticamente submetida a algumas regras. Se for bloqueada, é separada para análise pelos auditores. O controle automatizado dos registros de internações bloqueadas pelos auditores iniciou em maio de 2000, motivo pelo qual os dados analisados neste estudo são referentes aos meses de maio a dezembro de 2000. 5 Modelos de mineração Os modelos de mineração foram construídos com a utilização do agrupamento demográfico do IM para a análise dos comportamentos mais freqüentes das AIHs, de acordo com as etapas propostas de: 1) analisar o perfil dos hospitais segundo o porte, por exemplo, o PORTE 4 (nesta pesquisa, hospitais com 172 leitos ou mais), que é o porte dos hospitais mais problemáticos; 2) verificar os comportamentos mais freqüentes das internações realizadas de hospitais PORTE 4; 3) verificar os comportamentos mais freqüentes das internações bloqueadas desses hospitais por tipo de problema apresentado e 4) extrair e avaliar situações de interesse com base nas observações dos modelos gerados pela mineração. Para a análise dos hospitais PORTE 4, foi gerado um modelo que agrupou 95.991 registros de internações realizadas por hospitais desse porte, incluindo internações bloqueadas e não-bloqueadas. As internações foram agrupadas em função dos atributos apres (mês de apresentação da AIH para pagamento) e hosp (nome do hospital), para visualizar rapidamente os hospitais mais bloqueados nos meses do estudo. Estas apresentaram um comportamento regular em todos os meses, em que foram encontrados os seguintes valores mais freqüentes para os 601 III Congresso Brasileiro de Computação – CBComp 2003 Inteligência Artificial atributos: hosp: H211; espec (especialidade médica): clínica médica; faixadias (faixa de dias de internação): 1 a 3 dias; custo (custo médio total da internação): R$300,00: proc_rea (procedimento realizado): parto normal; diag_pri (diagnóstico principal): parto único espontâneo; grupoCID (grupo de doenças CID): gravidez, parto e puerpério. Este modelo revelou uma observação interessante na visualização gráfica: agrupamentos com predomínio de baixa permanência (1 a 3 dias de internação) para procedimentos que requisitavam 5 dias ou mais de internações. Ao ser validado pelos auditores, chamou a atenção, uma vez que, em 2001, a Auditoria estabeleceu um novo critério que bloqueia internações com baixa permanência, com exceção de procedimentos obstétricos e cirúrgicos, ante a observação da manipulação de códigos de doenças simples para doenças mais graves. Tal fato foi observado rapidamente pela visualização dos agrupamentos, mas levou meses para ser confirmado pela análise tradicional utilizada pela Auditoria Médica. Um outro modelo também interessante agrupou 3.587 internações bloqueadas e liberadas com o mesmo código, de hospitais PORTE 4, e evidenciou que os maiores agrupamentos, em todos os meses, continham internações com procedimentos realizados de AVC agudo e septicemia, bloqueadas pelo motivo de homônimos. Foi sugerido à Auditoria melhorar as regras de homônimos com novos filtros para casos de AVC agudo e septicemia, o que reduziria em muito o número dessas internações consideradas como falhas no bloqueio, por serem cobranças adequadas que tiveram seu pagamento bloqueado. Ante a validação, os especialistas confirmaram que também chegaram a essa conclusão, mas somente no final do ano 2001. 6 Conclusões Este estudo demonstra a possibilidade de ganhos que a descoberta de agrupamento, como tarefa de MD, pode proporcionar no apoio a decisões estratégicas, com a constatação, ante à análise dos resultados, de que novos critérios de bloqueios técnicos para o sistema da SES podem ser criados ou que os critérios existentes podem ser melhorados com a observação dos resultados obtidos pela análise de agrupamentos. 602 III Congresso Brasileiro de Computação – CBComp 2003 Inteligência Artificial Muitos outros modelos foram gerados e, ao serem analisados pelos auditores, mostraram muitas informações úteis que levaram a questionamentos, como por exemplo: “Por que tal prestador tem certo comportamento?”ou “Por que tal procedimento foi mais apresentado?”. A aplicação permite observar o comportamento histórico do sistema. Por exemplo, os modelos de mineração com todas as internações, quando comparados com os das internações bloqueadas, revelam que as primeiras apresentam comportamentos bastante regulares, enquanto que as últimas sofrem alterações mensais, o que dá margens a muitas investigações. A fácil visualização dos agrupamentos proporcionada pela ferramenta utilizada, o IM, permitiu a assimilação e o interesse dos usuários pela análise de agrupamentos. 7 Referências Bibliográficas CABENA, P.; HADJINIAN, P.; STADLER, R.; VERHEES, J.; ZANASI, Alessandro. Discovering data mining: from concept to implementation. Upper Saddle River: PrenticeHall PTR, 1997. CHAPMAN, P.; KERBER, R.; CLINTON, J.; KHABAZA, T.; REINARTZ, T., WIRTH, R. The CRISP-DM Process Model. CRISP-DM consortium, 1999. (Discussion Paper). Disponível em http://www.crisp-dm.org. Acessado em Maio de 2001. GRABMEIER, J.; RUDOLPH, A. Techniques of cluster algorithms in data mining version 2.0. Heidelberg: IBM Deutschland Informationssysteme GmbH, 1998. Disponível em http://www-3.ibm.com/software/data/iminer/fordata/clusttechn.pdf. Acessado em Janeiro de 2002. HAN, J.; KAMBER, M. Data mining: concepts and techniques. San Francisco: Morgan Kaufmann, 2001. IBM. Utilizando o Intelligent Miner for Data. Versão 6. Release 1. Edição S517-6338-00. [S.l.], 1999. Disponível em ftp://ftp.software.ibm.com/software/data/iminer/fordata/docu/Br/idmu0mst.pdf. Acessado em Outubro de 2001. MICHAUD, P. Clustering techniques. Future Generation Computer Systems, v.13 n.2-3, Nov. 1997, p.135-147. 603