III Semana de Ciência e Tecnologia do IFMG campus Bambuí
III Jornada Científica
19 a 28 de Outubro de 2010
Sistema de mineração de dados para descobertas de
regras e padrões em dados médicos
Pollyanna Carolina BARBOSA¹; Thiago MAGELA²
1Aluna do Curso Superior Tecnólogo em Análise e Desenvolvimento de Sistemas do IFMG-Campus Bambuí.
2Professor Ms. do Curso Superior Tecnólogo em Análise e Desenvolvimento de Sistemas do IFMG-Campus
Bambuí
RESUMO
Nas últimas décadas vêm mostrando a necessidade de um processo automatizado para a
descoberta de informações interessantes, envolvendo grandes volumes de dados. Este
trabalho tem como evidência aplicar as técnicas de data mining para descobrir em bases de
dados da área da saúde características de pacientes que apresentam a doença de chagas.
Para atingir tal objetivo, será utilizado o software livre WEKA (Waikato Environment for
Knowledge Analysis) para facilitar no processo de mineração de dados, juntamente com o
algoritmo Predictive Apriori. Para se obter o resultado esperado, no decorrer do trabalho
será utilizada uma metodologia de processo de KDD, assim serão realizadas todas as fases
até chegar ao final com um resultado satisfatório.
Palavras-chave: data mining, WEKA, doença de chagas.
INTRODUÇÃO
As áreas governamentais, corporativas e científicas têm promovido um crescimento
explosivo em seus bancos de dados, superando em muito a usual capacidade de interpretar
e examinar estes dados, gerando a necessidade de novas ferramentas e técnicas para análise
automática e inteligente de bancos de dados (FAYYAD et al., 1996).
Atualmente, existe grande interesse em desenvolver ferramentas que auxiliem a
recuperação de informações eficientes. Diversos esforços de pesquisas têm sido feitos para
remediar esse problema.
Segundo Han & Kamber (2001), esta ampla disponibilidade de imensas bases de
dados, aliada à eminente necessidade de transformar tais dados em informação e
conhecimento úteis para o suporte à decisão, têm demandado investimentos consideráveis
da comunidade científica e da indústria de software. A informação e o conhecimento
obtidos podem ser utilizados para diversas aplicações, que vão do gerenciamento de
III Semana de Ciência e Tecnologia do IFMG campus Bambuí
III Jornada Científica
19 a 28 de Outubro de 2010
negócios, controle de produção e análise de mercado ao projeto de engenharia e exploração
científica.
Motivados por este desafio de transformar informação em conhecimento, logo se
deparam com uma aplicação da mineração de dados, também conhecida como Knowledge
Discovery in Databases (KDD).
A mineração de dados ou data mining surgiu em 1989 e consiste de técnicas e
algoritmos baseados na análise de padrões para a extração de informação em banco de
dados. Sua implementação é divida em uma sequência de fases, dentre as quais tem-se: a
seleção, o pré-processamento, a transformação, a interpretação e avaliação e a mineração
propriamente dita (FAYYAD, 1996; PRASS, 2004).
Várias áreas podem ser beneficiadas com a aplicação da técnica data mining. Como
por exemplo, a descoberta de fraudes por cartões de créditos, a identificação de
consumidores nos processos de vendas, as ferramentas de busca na internet, o apoio nas
tomadas de decisões gerencias, o auxílio de diagnóstico médico em diferentes doenças,
entre outros.
Nota-se que tal técnica pode ser aplicada em diferentes áreas e problemas. Uma vez
que há a necessidade da análise de dados referentes à medicina, a proposta deste trabalho
baseia-se na utilização das regras de data mining para descobrir em bases de dados da área
da saúde características de pacientes que apresentam a doença de chagas; transmitida por
um inseto, causada por um protozoário Trypanosoma Cruzi, no Brasil conhecido como
barbeiro. Com o objetivo de classificar as principais características destes indivíduos.
Visto que, para atingir aos objetivos propostos será necessária a aplicação de
técnicas de mineração de dados, juntamente com a ferramenta WEKA, isto é, uma
ferramenta de KDD que contempla uma série de algoritmos de preparação de dados, de
mineração de dados e de validação de resultados (SILVA, 2007).
MATERIAL E MÉTODOS
O processo de KDD descrito anteriormente contém uma série de fases ou subprocessos definidos como sendo, a seleção, o pré-processamento e limpeza, transformação,
mineração de dados e a interpretação e avaliação. Essa sequência compreende o ciclo que o
dado percorre até se transformar em conhecimento útil conforme a Figura 1.
III Semana de Ciência e Tecnologia do IFMG campus Bambuí
III Jornada Científica
19 a 28 de Outubro de 2010
FIGURA 1-O ciclo do processo de KDD.
Fonte: FAYYAD, 1996, p. 41.
Após vários estudos, o primeiro passo a ser realizado é a coleta dos dados com seus
respectivos registros a serem minerados em uma planilha do Excel para gerar regras de
associação, como mostra a Tabela 1.
Nº Caso
Mês
Ano
Sexo
Idade
Cor
Endereço
9314
Set
2009
M
32
Branca
Bambui
9312
Ago
2009
M
70
Branca
Bambui
9311
Set
2009
M
32
Parda
Bambui
9310
Mai
2007
F
71
Parda
Bambui
9307
Abr
2007
F
57
Branca
Bambui
9306
Mar
2007
F
47
Branca
Bambui
9305
Abr
2005
M
69
Branca
Bambui
TABELA 1-Arquivo com os dados em uma planilha.
Em seguida é realizada a preparação destes dados coletados para processamento em
busca de regras e padrões de interesse. Sendo salvos como tipo CSV (separado por
vírgulas), com o intuito de convertê-los para o formato ARFF.
O arquivo ARFF é um formato utilizado pelos componentes do WEKA de forma
que vem a facilitar o processamento de seus algoritmos.
A Figura 2 ressalta o conteúdo do arquivo ARFF, este formado por três partes:
@relation, @attribute e @data e também com suas devidas explicações.
III Semana de Ciência e Tecnologia do IFMG campus Bambuí
III Jornada Científica
19 a 28 de Outubro de 2010
@relation chagas %Nome do arquivo
@attribute codigo real %Atributo e tipo
@attribute mes string %Atributo e tipo
@attribute ano real %Atributo e tipo
@attribute sexo {F, M} %Atributo e tipo
@attribute idade real %Atributo e tipo
@attribute cor {Branca, Parda, Preta} %Atributo e tipo
@attribute cidade {Araxa, Bambui, BomDespacho, CamposAltos, CorregoDanta, Divinopolis,
DoresDoIndaia ,Doresopolis, Formiga, Ibia, Iguatama, LagoaDaPrata, Luz, Medeiros, Piui, SantaRosa,
Tapirai} %Atributo e tipo
@data %Início dos registros
9314,Set,2009,M,32,Branca,Bambui
9312,Ago,2009,M,70,Branca,Bambui
9311,Set,2009,M,32,Parda,Bambui
9310,Mai,2007,F,71,Parda,Bambui
9307,Abr,2007,F,57,Branca,Bambui
9306,Mar,2007,F,47,Branca,Bambui
9305,Abr,2005,M,69,Branca,Bambui
FIGURA 2-Conteúdo no formato ARFF.
Agora pode realizar a analise dos dados usando o algoritmo Predictive Apriori,
sendo este um algoritmo de regras de associação.
RESULTADOS E DISCUSSÕES
Para facilitar a mineração de dados foi utilizado o software livre WEKA, juntamente
com um dos algoritmos do pacote, o Predictive Apriori, sendo este responsável em gerar
regras de associação e vários gráficos. A Figura 3 mostra uma relação entre o sexo dos
pacientes que apresentam a doença de chagas com as suas devidas cidades.
FIGURA 3-Utilizando o algoritmo Precictive Apriori.
III Semana de Ciência e Tecnologia do IFMG campus Bambuí
III Jornada Científica
19 a 28 de Outubro de 2010
Nota-se que momento esta sendo desenvolvido um sistema computacional por meio
da linguagem Java para auxiliar no processo de mineração de dados.
CONCLUSÃO
Mineração de dados, e consequentemente KDD, possuem uma vasta aplicação nos
mais diferentes segmentos, tanto acadêmicos como corporativos, além de uma série de
desafios relevantes que podem motivar excelentes trabalhos científicos.
Um dos objetivos deste trabalho foi aplicar as técnicas de data mining a fim de
descobrir características de pacientes que apresentam a doença de chagas.
Logo para atingir tal objetivo, foi utilizado o software WEKA para facilitar no
processo de mineração de dados, juntamente com o algoritmo Predictive Apriori.
AGRADECIMENTO
Meus agradecimentos à administração do Instituto Oswaldo Cruz no município de
Bambuí Minas Gerais que permitiu que eu utilizasse suas bases de dados para tal objetivo.
REFERÊNCIAS
FAYYAD, Usama; SHAPIRO, Gregory Piatetsky; SMYTH, Padhraic; UTHURUSAMY,
Ramasamy. Advances in Knowledge discovery and data mining. MenloPark:Mit Press,
1996.560P.
HAN, J.; KAMBER, M. Data Mining: Concepts and Techniques. San Francisco: Morgan
Kaufmann Publishers, 2001.
PRASS, Fernando Sarturi. KKD: Processo de descoberta de conhecimento em bancos de
dados. 2004. Grupo de Interesse Em Engenharia de Software, Florianópolis, v. 1, p. 10-14,
2004.
SILVA, Marcelino Pereira dos Santos. Mineração de Dados - Conceitos, Aplicações e
Experimentos com Weka. 2007. Disponível em:<http://www.sbc.org.br/bibliotecadigital/
download.php?paper=35>. Acesso em: 20 agosto 2009, 17:22:10.
Download

Artigo de mineração