2º Ciclo de Estudos – Mestrado Informática Médica
Disciplina: Sistemas de Apoio à Decisão Clínica
Docente:
Inês Dutra
Alunos:
João Janeiro
Luis Martinez
Ricardo Casal
1
1. Introdução
Este trabalho incide sobre um classificador de vinhos através dos seguintes atributos:
Alcohol
Malic acid
Ash
Alcalinity of ash
Magnesium
Total phenols
Flavanoids
Nonflavanoid phenols
Proanthocyanins
Color intensity
Hue
OD280/OD315 of diluted wines
Proline
Conjunto de dados retirado do site http://archive.ics.uci.edu/ml/.
O ficheiro original fornece resultados de análise química de vinhos da mesma região de Itália
mas derivados de três diferentes variedades (“cultivars”).
A base de dados contém 177 instâncias classificadas em 3 classes ( 1,2,3 ).
2
2. Métodos
Seleccionámos três algoritmos:
•
OneR
•
J48
•
NaiveBayes
Cada algoritmo foi executado 2 vezes, utilizando 2 técnicas diferentes:
•
“Cross Validation”,10 folds
•
“Percentage Split”, com percentagem 66
3
3. Resultados
OneR
3
3
2
1
2
1
2
2
1
1,29
2,31
2,52 2,66
3,74
4
3. Resultados
OneR
Com este algoritmo os dados são organizados nas 3 classes de acordo com a concentração de flavonóides.
As classes mais fáceis de classificar foram as classes 1 e 3, em que o modelo acerta mais vezes,
obtendo-se melhores índices (F-measure).
A classe 2 confunde-se mais frequentemente; esta é a classe em que a concentração de flavonóides é mais
variável.
5
J48
O modelo de classificação utiliza primeiro uma dicotomia com cutt-off num valor de flavonóides, e
seguidamente pela intensidade de cor antecedida ou não por distinção segundo concentração de prolina.
6
J48
Usando “10-fold cross-validation” obtêm-se 12 respostas erradas (6.77%), Com “percentage split” obtêm-se
8 respostas erradas (13.3333%).
O modelo implementado é também o mesmo com ambas as técnicas,embora com avaliações no conjunto
teste diferentes.
7
Naive Bayes
Melhor solução de classificação, com o menor número de erros.
A maior dificuldade encontra-se na separação das classes 1 e 2.
A classe 3 foi a mais facilmente discriminada neste modelo.
8
4 Discussão
Analisando os dados estatísticos oferecidos pela ferramenta Weka como, por exemplo, a estatística
Kappa, que indica o grau de concordância, e os valores de erros, conclui-se que o modelo induzido pelo
algoritmo Naive Bayes é o mais indicado, uma vez que os indicadores de erros, no seu geral, apresentam
valores inferiores nesse algoritmo em relação ao J48 e OneR.
A aplicação desta ferramenta de mineração de dados permitiu, partindo de um conjunto de dados
relativamente “amorfo”, determinar um modelo capaz de classificar com bastante acuidade as amostras,
sem à partida existir relevante conhecimento técnico.
Este trabalho realça a capacidade das ferramentas do tipo “Weka” na extracção de conhecimento partindo
de bases dados, por exemplo na saúde.
9
5. Bibliografia
1 - George H. John and Pat Langley. “Estimating Continuous Distributions in Bayesian Classifiers”.
Proceedings of the Eleventh Conference on Uncertainty in Artificial Intelligence. 1995. pp. 338-345.
2 - Holte, R. “Very simple classification rules perform well on most commonly used datasets”.
Machine Learning. 1993. Vol. 11, pp. 63-91.
3 - R. Quinlan. "Induction of decision trees". Machine Learning. 1985.Vol.1, No.1, pp. 81-106.
4 - R. Quinlan. "C4.5: Programs for Machine Learning", 1993. Morgan Kaufmann Publishers, San Mateo, CA.
10
2º Ciclo de Estudos – Mestrado Informática Médica
Disciplina: Sistemas de Apoio à Decisão Clínica
Docente:
Inês Dutra
Alunos:
João Janeiro
Luis Martinez
Ricardo Casal
11
Download

Apresentação