Evidence Combination in Medical
Data Mining
Y.Alp Aslandogan, Gauri A. Mahajani
Departament of Computer Science and Engineering. The University of Texas at Arlington
[email protected]
Stan Taylor
Departament of Dermatology, The University of Texas Southwesten MedicalCenter
Evidence Combination in Medical
Data Mining
Apresentado por:
Aline Oliveira de Figueiredo
Programa de Pós-Graduação em Engenharia Elétrica
Universidade Federal do Pará - UFPA
[email protected]
Dezembro/2004
Introdução
 Data Mining (DM) em aplicações médicas com o objetivo de
auxiliar na eficácia de diagnósticos
 Uso de três classificadores: K-Nearest Neighbor(KNN),
Bayesian e Árvores de Decisão
 Probabilidades combinadas com o objetivo de alcançar um
diagnóstico final
 Teste através de k-fold cross-validation com 25% dos dados
Teoria da Matemática da Evidencia
 Representa uma extensão da Teoria das Probabilidades para
assegurar a incerteza da informação
 Função de Probabilidade (Belief): combinação numérica de todos
os suportes de um determinado evento A ocorrer.
 Propriedades:
Teoria da Matemática da Evidencia
 Uso de combinações entre a probabilidade de um número de
evidencias e sua combinação.
Exemplo: considerar três evidencias.
A teoria nos diz que:
Bel_E1(A) + Bel_E1(B) + Bel_E1(C) + Bel_E1(incerteza) = 1
Probabilidades com Knn
 A distancia medida entre os “vizinhos” é usada para computar a
probabilidade das classes
Distancia =
Onde:
ds = distancia entre o vetor de características e o vetor
de características vizinho
dmean = distancia media entre amostras pertencentes a
uma mesma classe e normalizadas [0,1]
Probabilidades com Árvores de
Decisão
 Regras de associação podem ser extraídas da árvore. Cada
regra tem um Suporte e uma Confiança associados.
Probabilidades com Árvores de
Decisão
**** Teorema de Bayes ****
Cálculo da Incerteza
 Quanto mais próximos os valores das probabilidades das K
classes, mais incerta será a decisão do classificador
Cálculo da Incerteza
 Assumindo que as probabilidades são independentes e
possuem um conjunto intersecção não vazio, Bel1 e Bel2 com
elementos Ai e Bi.
 Os dados mencionados acima podem ser combinados gerando
uma nova função de probabilidade.
Cálculo da Incerteza
1). Combinamos as probabilidades do classificador KNN (K)
com as do classificador de Bayes (B).
2). A saída do anterior (BK) é combinada com a evidencia do
classificador Árvore de Decisão (D).
Cálculo da Incerteza
 A probabilidade combinada é obtida através da soma de
todas as probabilidades somadas.
Experimento
Experimento
Knn
precisão
máxima
Pior
resultado
em
ambos
Bayes
precisão
máxima
Melhor
resultado
em
ambos
Experimento
A combinação dos três classificadores apresenta a melhor
performance
Experimento
A combinação dos três classificadores apresenta a melhor
performance
Considerações Finais
 O artigo mostra um método de classificação de dados médicos
na presença de três diferentes classificadores, cálculo da
incerteza e custo de erros diferentes.
 Melhor performance para diagnóstico de Câncer de Mama e
Lesões na pele.
 Foi demonstrado que são adquiridos melhores resultados
quando os classificadores KNN, Bayes e Árvores de Decisão
trabalham em conjunto. Separadamente podem ter desempenhos
não satisfatórios.
 A técnica se mostrou segura e eficiente.
Evidence Combination in Medical
Data Mining
Apresentado por:
Aline Oliveira de Figueiredo
Programa de Pós-Graduação em Engenharia Elétrica
Universidade Federal do Pará - UFPA
[email protected]
Dezembro/2004
Download

EvidenceCombinationMedicalAline - LaPS