Evidence Combination in Medical Data Mining Y.Alp Aslandogan, Gauri A. Mahajani Departament of Computer Science and Engineering. The University of Texas at Arlington [email protected] Stan Taylor Departament of Dermatology, The University of Texas Southwesten MedicalCenter Evidence Combination in Medical Data Mining Apresentado por: Aline Oliveira de Figueiredo Programa de Pós-Graduação em Engenharia Elétrica Universidade Federal do Pará - UFPA [email protected] Dezembro/2004 Introdução Data Mining (DM) em aplicações médicas com o objetivo de auxiliar na eficácia de diagnósticos Uso de três classificadores: K-Nearest Neighbor(KNN), Bayesian e Árvores de Decisão Probabilidades combinadas com o objetivo de alcançar um diagnóstico final Teste através de k-fold cross-validation com 25% dos dados Teoria da Matemática da Evidencia Representa uma extensão da Teoria das Probabilidades para assegurar a incerteza da informação Função de Probabilidade (Belief): combinação numérica de todos os suportes de um determinado evento A ocorrer. Propriedades: Teoria da Matemática da Evidencia Uso de combinações entre a probabilidade de um número de evidencias e sua combinação. Exemplo: considerar três evidencias. A teoria nos diz que: Bel_E1(A) + Bel_E1(B) + Bel_E1(C) + Bel_E1(incerteza) = 1 Probabilidades com Knn A distancia medida entre os “vizinhos” é usada para computar a probabilidade das classes Distancia = Onde: ds = distancia entre o vetor de características e o vetor de características vizinho dmean = distancia media entre amostras pertencentes a uma mesma classe e normalizadas [0,1] Probabilidades com Árvores de Decisão Regras de associação podem ser extraídas da árvore. Cada regra tem um Suporte e uma Confiança associados. Probabilidades com Árvores de Decisão **** Teorema de Bayes **** Cálculo da Incerteza Quanto mais próximos os valores das probabilidades das K classes, mais incerta será a decisão do classificador Cálculo da Incerteza Assumindo que as probabilidades são independentes e possuem um conjunto intersecção não vazio, Bel1 e Bel2 com elementos Ai e Bi. Os dados mencionados acima podem ser combinados gerando uma nova função de probabilidade. Cálculo da Incerteza 1). Combinamos as probabilidades do classificador KNN (K) com as do classificador de Bayes (B). 2). A saída do anterior (BK) é combinada com a evidencia do classificador Árvore de Decisão (D). Cálculo da Incerteza A probabilidade combinada é obtida através da soma de todas as probabilidades somadas. Experimento Experimento Knn precisão máxima Pior resultado em ambos Bayes precisão máxima Melhor resultado em ambos Experimento A combinação dos três classificadores apresenta a melhor performance Experimento A combinação dos três classificadores apresenta a melhor performance Considerações Finais O artigo mostra um método de classificação de dados médicos na presença de três diferentes classificadores, cálculo da incerteza e custo de erros diferentes. Melhor performance para diagnóstico de Câncer de Mama e Lesões na pele. Foi demonstrado que são adquiridos melhores resultados quando os classificadores KNN, Bayes e Árvores de Decisão trabalham em conjunto. Separadamente podem ter desempenhos não satisfatórios. A técnica se mostrou segura e eficiente. Evidence Combination in Medical Data Mining Apresentado por: Aline Oliveira de Figueiredo Programa de Pós-Graduação em Engenharia Elétrica Universidade Federal do Pará - UFPA [email protected] Dezembro/2004