III Semana de Ciência e Tecnologia do IFMG campus Bambuí III Jornada Científica 19 a 28 de Outubro de 2010 Sistema de mineração de dados para descobertas de regras e padrões em dados médicos Pollyanna Carolina BARBOSA¹; Thiago MAGELA² 1Aluna do Curso Superior Tecnólogo em Análise e Desenvolvimento de Sistemas do IFMG-Campus Bambuí. 2Professor Ms. do Curso Superior Tecnólogo em Análise e Desenvolvimento de Sistemas do IFMG-Campus Bambuí RESUMO Nas últimas décadas vêm mostrando a necessidade de um processo automatizado para a descoberta de informações interessantes, envolvendo grandes volumes de dados. Este trabalho tem como evidência aplicar as técnicas de data mining para descobrir em bases de dados da área da saúde características de pacientes que apresentam a doença de chagas. Para atingir tal objetivo, será utilizado o software livre WEKA (Waikato Environment for Knowledge Analysis) para facilitar no processo de mineração de dados, juntamente com o algoritmo Predictive Apriori. Para se obter o resultado esperado, no decorrer do trabalho será utilizada uma metodologia de processo de KDD, assim serão realizadas todas as fases até chegar ao final com um resultado satisfatório. Palavras-chave: data mining, WEKA, doença de chagas. INTRODUÇÃO As áreas governamentais, corporativas e científicas têm promovido um crescimento explosivo em seus bancos de dados, superando em muito a usual capacidade de interpretar e examinar estes dados, gerando a necessidade de novas ferramentas e técnicas para análise automática e inteligente de bancos de dados (FAYYAD et al., 1996). Atualmente, existe grande interesse em desenvolver ferramentas que auxiliem a recuperação de informações eficientes. Diversos esforços de pesquisas têm sido feitos para remediar esse problema. Segundo Han & Kamber (2001), esta ampla disponibilidade de imensas bases de dados, aliada à eminente necessidade de transformar tais dados em informação e conhecimento úteis para o suporte à decisão, têm demandado investimentos consideráveis da comunidade científica e da indústria de software. A informação e o conhecimento obtidos podem ser utilizados para diversas aplicações, que vão do gerenciamento de III Semana de Ciência e Tecnologia do IFMG campus Bambuí III Jornada Científica 19 a 28 de Outubro de 2010 negócios, controle de produção e análise de mercado ao projeto de engenharia e exploração científica. Motivados por este desafio de transformar informação em conhecimento, logo se deparam com uma aplicação da mineração de dados, também conhecida como Knowledge Discovery in Databases (KDD). A mineração de dados ou data mining surgiu em 1989 e consiste de técnicas e algoritmos baseados na análise de padrões para a extração de informação em banco de dados. Sua implementação é divida em uma sequência de fases, dentre as quais tem-se: a seleção, o pré-processamento, a transformação, a interpretação e avaliação e a mineração propriamente dita (FAYYAD, 1996; PRASS, 2004). Várias áreas podem ser beneficiadas com a aplicação da técnica data mining. Como por exemplo, a descoberta de fraudes por cartões de créditos, a identificação de consumidores nos processos de vendas, as ferramentas de busca na internet, o apoio nas tomadas de decisões gerencias, o auxílio de diagnóstico médico em diferentes doenças, entre outros. Nota-se que tal técnica pode ser aplicada em diferentes áreas e problemas. Uma vez que há a necessidade da análise de dados referentes à medicina, a proposta deste trabalho baseia-se na utilização das regras de data mining para descobrir em bases de dados da área da saúde características de pacientes que apresentam a doença de chagas; transmitida por um inseto, causada por um protozoário Trypanosoma Cruzi, no Brasil conhecido como barbeiro. Com o objetivo de classificar as principais características destes indivíduos. Visto que, para atingir aos objetivos propostos será necessária a aplicação de técnicas de mineração de dados, juntamente com a ferramenta WEKA, isto é, uma ferramenta de KDD que contempla uma série de algoritmos de preparação de dados, de mineração de dados e de validação de resultados (SILVA, 2007). MATERIAL E MÉTODOS O processo de KDD descrito anteriormente contém uma série de fases ou subprocessos definidos como sendo, a seleção, o pré-processamento e limpeza, transformação, mineração de dados e a interpretação e avaliação. Essa sequência compreende o ciclo que o dado percorre até se transformar em conhecimento útil conforme a Figura 1. III Semana de Ciência e Tecnologia do IFMG campus Bambuí III Jornada Científica 19 a 28 de Outubro de 2010 FIGURA 1-O ciclo do processo de KDD. Fonte: FAYYAD, 1996, p. 41. Após vários estudos, o primeiro passo a ser realizado é a coleta dos dados com seus respectivos registros a serem minerados em uma planilha do Excel para gerar regras de associação, como mostra a Tabela 1. Nº Caso Mês Ano Sexo Idade Cor Endereço 9314 Set 2009 M 32 Branca Bambui 9312 Ago 2009 M 70 Branca Bambui 9311 Set 2009 M 32 Parda Bambui 9310 Mai 2007 F 71 Parda Bambui 9307 Abr 2007 F 57 Branca Bambui 9306 Mar 2007 F 47 Branca Bambui 9305 Abr 2005 M 69 Branca Bambui TABELA 1-Arquivo com os dados em uma planilha. Em seguida é realizada a preparação destes dados coletados para processamento em busca de regras e padrões de interesse. Sendo salvos como tipo CSV (separado por vírgulas), com o intuito de convertê-los para o formato ARFF. O arquivo ARFF é um formato utilizado pelos componentes do WEKA de forma que vem a facilitar o processamento de seus algoritmos. A Figura 2 ressalta o conteúdo do arquivo ARFF, este formado por três partes: @relation, @attribute e @data e também com suas devidas explicações. III Semana de Ciência e Tecnologia do IFMG campus Bambuí III Jornada Científica 19 a 28 de Outubro de 2010 @relation chagas %Nome do arquivo @attribute codigo real %Atributo e tipo @attribute mes string %Atributo e tipo @attribute ano real %Atributo e tipo @attribute sexo {F, M} %Atributo e tipo @attribute idade real %Atributo e tipo @attribute cor {Branca, Parda, Preta} %Atributo e tipo @attribute cidade {Araxa, Bambui, BomDespacho, CamposAltos, CorregoDanta, Divinopolis, DoresDoIndaia ,Doresopolis, Formiga, Ibia, Iguatama, LagoaDaPrata, Luz, Medeiros, Piui, SantaRosa, Tapirai} %Atributo e tipo @data %Início dos registros 9314,Set,2009,M,32,Branca,Bambui 9312,Ago,2009,M,70,Branca,Bambui 9311,Set,2009,M,32,Parda,Bambui 9310,Mai,2007,F,71,Parda,Bambui 9307,Abr,2007,F,57,Branca,Bambui 9306,Mar,2007,F,47,Branca,Bambui 9305,Abr,2005,M,69,Branca,Bambui FIGURA 2-Conteúdo no formato ARFF. Agora pode realizar a analise dos dados usando o algoritmo Predictive Apriori, sendo este um algoritmo de regras de associação. RESULTADOS E DISCUSSÕES Para facilitar a mineração de dados foi utilizado o software livre WEKA, juntamente com um dos algoritmos do pacote, o Predictive Apriori, sendo este responsável em gerar regras de associação e vários gráficos. A Figura 3 mostra uma relação entre o sexo dos pacientes que apresentam a doença de chagas com as suas devidas cidades. FIGURA 3-Utilizando o algoritmo Precictive Apriori. III Semana de Ciência e Tecnologia do IFMG campus Bambuí III Jornada Científica 19 a 28 de Outubro de 2010 Nota-se que momento esta sendo desenvolvido um sistema computacional por meio da linguagem Java para auxiliar no processo de mineração de dados. CONCLUSÃO Mineração de dados, e consequentemente KDD, possuem uma vasta aplicação nos mais diferentes segmentos, tanto acadêmicos como corporativos, além de uma série de desafios relevantes que podem motivar excelentes trabalhos científicos. Um dos objetivos deste trabalho foi aplicar as técnicas de data mining a fim de descobrir características de pacientes que apresentam a doença de chagas. Logo para atingir tal objetivo, foi utilizado o software WEKA para facilitar no processo de mineração de dados, juntamente com o algoritmo Predictive Apriori. AGRADECIMENTO Meus agradecimentos à administração do Instituto Oswaldo Cruz no município de Bambuí Minas Gerais que permitiu que eu utilizasse suas bases de dados para tal objetivo. REFERÊNCIAS FAYYAD, Usama; SHAPIRO, Gregory Piatetsky; SMYTH, Padhraic; UTHURUSAMY, Ramasamy. Advances in Knowledge discovery and data mining. MenloPark:Mit Press, 1996.560P. HAN, J.; KAMBER, M. Data Mining: Concepts and Techniques. San Francisco: Morgan Kaufmann Publishers, 2001. PRASS, Fernando Sarturi. KKD: Processo de descoberta de conhecimento em bancos de dados. 2004. Grupo de Interesse Em Engenharia de Software, Florianópolis, v. 1, p. 10-14, 2004. SILVA, Marcelino Pereira dos Santos. Mineração de Dados - Conceitos, Aplicações e Experimentos com Weka. 2007. Disponível em:<http://www.sbc.org.br/bibliotecadigital/ download.php?paper=35>. Acesso em: 20 agosto 2009, 17:22:10.