2º Ciclo de Estudos – Mestrado Informática Médica Disciplina: Sistemas de Apoio à Decisão Clínica Docente: Inês Dutra Alunos: João Janeiro Luis Martinez Ricardo Casal 1 1. Introdução Este trabalho incide sobre um classificador de vinhos através dos seguintes atributos: Alcohol Malic acid Ash Alcalinity of ash Magnesium Total phenols Flavanoids Nonflavanoid phenols Proanthocyanins Color intensity Hue OD280/OD315 of diluted wines Proline Conjunto de dados retirado do site http://archive.ics.uci.edu/ml/. O ficheiro original fornece resultados de análise química de vinhos da mesma região de Itália mas derivados de três diferentes variedades (“cultivars”). A base de dados contém 177 instâncias classificadas em 3 classes ( 1,2,3 ). 2 2. Métodos Seleccionámos três algoritmos: • OneR • J48 • NaiveBayes Cada algoritmo foi executado 2 vezes, utilizando 2 técnicas diferentes: • “Cross Validation”,10 folds • “Percentage Split”, com percentagem 66 3 3. Resultados OneR 3 3 2 1 2 1 2 2 1 1,29 2,31 2,52 2,66 3,74 4 3. Resultados OneR Com este algoritmo os dados são organizados nas 3 classes de acordo com a concentração de flavonóides. As classes mais fáceis de classificar foram as classes 1 e 3, em que o modelo acerta mais vezes, obtendo-se melhores índices (F-measure). A classe 2 confunde-se mais frequentemente; esta é a classe em que a concentração de flavonóides é mais variável. 5 J48 O modelo de classificação utiliza primeiro uma dicotomia com cutt-off num valor de flavonóides, e seguidamente pela intensidade de cor antecedida ou não por distinção segundo concentração de prolina. 6 J48 Usando “10-fold cross-validation” obtêm-se 12 respostas erradas (6.77%), Com “percentage split” obtêm-se 8 respostas erradas (13.3333%). O modelo implementado é também o mesmo com ambas as técnicas,embora com avaliações no conjunto teste diferentes. 7 Naive Bayes Melhor solução de classificação, com o menor número de erros. A maior dificuldade encontra-se na separação das classes 1 e 2. A classe 3 foi a mais facilmente discriminada neste modelo. 8 4 Discussão Analisando os dados estatísticos oferecidos pela ferramenta Weka como, por exemplo, a estatística Kappa, que indica o grau de concordância, e os valores de erros, conclui-se que o modelo induzido pelo algoritmo Naive Bayes é o mais indicado, uma vez que os indicadores de erros, no seu geral, apresentam valores inferiores nesse algoritmo em relação ao J48 e OneR. A aplicação desta ferramenta de mineração de dados permitiu, partindo de um conjunto de dados relativamente “amorfo”, determinar um modelo capaz de classificar com bastante acuidade as amostras, sem à partida existir relevante conhecimento técnico. Este trabalho realça a capacidade das ferramentas do tipo “Weka” na extracção de conhecimento partindo de bases dados, por exemplo na saúde. 9 5. Bibliografia 1 - George H. John and Pat Langley. “Estimating Continuous Distributions in Bayesian Classifiers”. Proceedings of the Eleventh Conference on Uncertainty in Artificial Intelligence. 1995. pp. 338-345. 2 - Holte, R. “Very simple classification rules perform well on most commonly used datasets”. Machine Learning. 1993. Vol. 11, pp. 63-91. 3 - R. Quinlan. "Induction of decision trees". Machine Learning. 1985.Vol.1, No.1, pp. 81-106. 4 - R. Quinlan. "C4.5: Programs for Machine Learning", 1993. Morgan Kaufmann Publishers, San Mateo, CA. 10 2º Ciclo de Estudos – Mestrado Informática Médica Disciplina: Sistemas de Apoio à Decisão Clínica Docente: Inês Dutra Alunos: João Janeiro Luis Martinez Ricardo Casal 11