Análise do comportamento de modelos lineares e não lineares quanto à inserção de conhecimento humano na classificação de pacientes com Doença Pulmonar Obstrutiva Crônica Resumo: É conhecido que a escolha de variáveis significativas do modelo estudado é extremamente importante, no contexto de classificação de dados. Em problemas da área médica isso não é diferente. Em face disto, este trabalho busca investigar se há diferença quando é possível incorporar algum tipo de conhecimento humano nas variáveis explicativas do modelo estudado, no problema de identificação de indivíduos com Doença Pulmonar Obstrutiva Crônica. Para isso foram utilizados cinco classificadores distintos aplicados em duas bases de dados, sem e com conhecimento inserido. Os resultados mostraram que não houve diferença significativa para o problema abordado. Analysis of the behavior of linear and nonlinear models in relation to insertion of human knowledge in the classification of patients with Chronic Obstructive Pulmonary Disease Abstract: It is known that the choice of significant variables of the studied model is extremely important in the context of data classification. In problems at medical field it is no different. In the face of it, this work aims to investigate whether there are differences when is possible to embed some kind of human knowledge in the explanatory variables of the model, in the task of identification of individuals with Chronic Obstructive Pulmonary Disease. For that we have used five different classifiers applied to two databases, one with and other without knowledge inserted. The results had shown no significant difference to the problem addressed. 1.0 Introdução Métodos de classificação de dados vêm ganhando espaço na área médica, alavancados pelos bons resultados obtidos em diversas outras áreas, sendo crescente a quantidade de trabalhos que abordam problemas desta natureza. O procedimento comumente realizado é: escolher um conjunto de variáveis relevantes do problema, seguido pela coleta dos dados e por fim a aplicação do classificador. A definição do conjunto de variáveis significativas para a representação fiel do modelo é de vital importância para o sucesso da aplicação [1]. Neste trabalho buscamos analisar a influência da inserção de conhecimento humano na base de dados, investigando se os classificadores extraem melhor o modelo por si só, ou é válido quando algumas direções lhe são informadas. O problema aqui abordado é a identificação de indivíduos normais ou com doença pulmonar obstrutiva crônica (DPOC), que é uma enfermidade respiratória prevenível e tratável, que se caracteriza pela presença de obstrução crônica do fluxo aéreo, que não é totalmente reversível [2]. Diagnosticar e monitorar a progressão da DPOC é comumente feita pela espirometria, considerado o padrão ouro para tais tarefas. Entretanto, diferenças na definição de DPOC e consensos estabelecidos tornam complexo o diagnóstico e avaliação da severidade da DPOC [3]. Para esta análise utilizaremos cinco diferentes classificadores, dois lineares: Perceptron e Discriminante Linear de Fisher (Fisher Linear Discriminant - FLD); e três não lineares: rede Multilayer Perceptron (MLP), Learning Vector Quantization (LVQ) e Máquina de Vetores Suporte (Support Vectors Machine - SVM). 2.0 Caracterização das bases de dados Os dados para este trabalho foram extraídos por meio da prova de função pulmonar, que é composto por diversos exames, que provêm informação sobre a capacidade pulmonar de um indivíduo. É composta pela espirometria, ventilometria e medidas das pressões inspiratórias e expiratórias. A espirometria mede volume, capacidade e fluxo pulmonar da manobra respiratória e compara estas medidas com valores de referência de normalidade. Os valores obtidos pela espirometria fornecem rica informação sobre a função pulmonar, auxiliando a identificar e qualificar a severidade de diversos distúrbios ventilatórios que são observados através da mudança de alguns valores espirométricos. A prova de função pulmonar foi realizada em um conjunto de 222 pacientes, no laboratório de Fisioterapia Pulmonar da Universidade Estadual de Londrina, sendo que 142 deles são pacientes normais e 80 diagnosticados com DPOC. Denotamos por BD1 (base de dados 1) os dados sem conhecimento humano embutido, e BD2 para os dados padronizados com valores de referência. No BD1 são consideradas sete medidas fisiológicas e três variáveis que afetam o desempenho pulmonar, as quais são respectivamente: Capacidade Vital Forçada (CVF), Volume Expiratório Forçado no Primeiro Segundo (VEF1), Pico de Fluxo Expiratório (PEF), Fluxo Expiratório Forçado Médio (FEF 25-75%), Ventilação Voluntária Máxima (VVM), Pressão Inspiratória Máxima (PIM), Pressão Expiratória Máxima (PEM), Sexo, Idade e Índice de Massa Corpórea. O BD2 consiste em cinco das sete medidas fisiológicas descritas no BD1: CVF, VEF1, PEF, FEF 25-75% e VVM; porém, aqui elas expressam a relação percentual do valor obtido pelo valor normal esperado para cada padrão de indivíduo (considerando idade e sexo), de acordo com as equações de normalidade propostas pela ATS (American Thoracic Society), que é um dos padrões comumente utilizado. Os dados foram rescalados no intervalo [0,1]. Para a variável resposta foi convencionado: valor “1” para a presença de DPOC e o valor “0” normalidade. 3.0 Modelos utilizados Embora as técnicas utilizadas possam ser aplicadas ao mesmo problema, classificação de dados, elas são fundamentadas em diferentes paradigmas. O FLD é um método estatístico que busca uma direção ao longo da qual as classes são melhor separadas pelo critério de Fisher, que maximiza a relação entre as variâncias interclasses e intraclasses [1]. As redes neurais artificiais (RNA) são modelos estruturados em rede, composta por de unidades de processamento simples, os nós, que realizam mapeamentos lineares ou não lineares do tipo . O Perceptron é uma RNA de único nó que realiza uma composição linear do conjunto de variáveis de entrada e posteriormente a saída é aplicada em uma função de ativação linear, sendo o Perceptron indicado para problemas linearmente separáveis [4]. Já a rede MLP [4] é estruturada em três camadas (ou mais) com nós que podem usar diferentes funções de ativação, entre elas a função logística, na camada intermediária e função linear na camada de saída. A camada intermediária fornece a rede capacidade de trabalhar com problemas não linearmente separáveis. Redes LVQ [4] utilizam conceitos da quantização vetorial para o aprendizado de redes neurais. Este tipo de rede também possui três camadas, sendo a camada intermediária responsável por determinar um conjunto de protótipos (codebook) que representam os dados de entrada. A SVM utiliza fundamentos da teoria de otimização convexa para encontrar superfícies de decisão ótima [5]. Para o caso de problemas não lineares, realiza o mapeamento dos dados de entrada para um espaço de alta dimensionalidade, onde provavelmente o problema se torna linearmente separável [5]. 4.0 Simulação As simulações foram realizadas no software Matlab© (The MathWorks Inc., Natick, MA, USA), utilizando toolboxes para cada tipo de classificador. O cálculo da AUC, considerando que o espaço de limiares é discreto, foi feito pelo método dos trapézios. As simulações foram executadas no Matlab © versão 7.09 (R2009b) 64bits. A configuração e parâmetros utilizados em cada modelo foram: • Perceptron: Um neurônio com função de ativação linear ( f ( x ) = x ), e número máximo de épocas de treinamento igual a 100. • MLP – Rede com 20 neurônios ocultos com função de ativação logística sigmoidal, treinado com algoritmo Levenberg-Marquadt e número máximo de épocas de treinamento igual a 100. • LVQ – Número de protótipos igual a 10 e taxa de aprendizagem igual a 0.01. • SVM – Função kernel Gaussiana com desvio padrão igual a 1. Na rede MLP foram testadas diferentes quantidades de neurônio ocultos e o valor 20 obteve melhores resultados tanto para BD1 quanto para BD2. O mesmo procedimento foi realizado no número de protótipos da LVQ e para definição do desvio padrão da kernel Gaussiana da SVM. O método de validação cruzada k-fold foi utilizado para melhor estimar a precisão dos classificadores, o valor de k igual a 10 foi escolhido. 5.0 Medidas de Análise Nesta seção são descritas as métricas utilizadas para análise dos resultados. Sensibilidade e Especificidade: Ambas a medidas estabelecem a precisão da classificação. A sensibilidade mensura a capacidade do método em identificar corretamente uma classe dentre aqueles padrões que a ela pertencem. Já a especificidade mede o quão competente o método é na exclusão daqueles padrões que não pertencem a uma dada classe. Altos valores para ambas as métricas indicam um bom desempenho do classificador. Curva ROC (Receiver Operating Characteristics): é uma técnica para visualização, organização e análise de desempenho de classificadores [6]. A curva ROC identifica uma relação entre a taxa False Positive e True Positive, para um conjunto de limiares considerados na classificação. Uma análise mais generalizada do poder do classificador é a integração da curva ROC sobre o espaço de limiares utilizados na geração da curva, conhecida por area under curve (AUC). Teste de Hipótese: é indicado quando há necessidade de verificar se uma dada hipótese sobre os dados é confirmada ou não. Neste trabalho utilizou-se o teste t de Student para verificar se a média de dois conjuntos, os quais se supõem serem normalmente distribuídos, são iguais para algum nível de significância. 6.0 Análise dos Resultados A tabela 1 expõe uma comparação das bases de dados (em relação às médias das dez execuções do k-fold). Valores destacados indicam melhor desempenho para aquela métrica. A acurácia, especificidade e sensibilidade são referentes aos valores obtidos com melhor limiar encontrado para cada classificador, naquela base de dados, dentre o conjunto de limiares utilizados para gerar a curva ROC. Acurácia Perceptron 0.9597 FLD 0.9597 MLP 0.9506 LVQ 0.8789 SVM 0.9553 BD1 Espec. Sens. 0.9250 0.9795 0.9250 0.9795 0.9250 0.9652 0.7750 0.9362 0.9125 0.9795 AUC 0.9667 0.9667 0.9483 0.8556 0.9591 Acurácia 0.9413 0.9593 0.9684 0.9233 0.9638 BD2 Espec. Sens. 0.9433 0.9375 0.9571 0.9625 0.9714 0.9625 0.9367 0.9000 0.9643 0.9625 AUC 0.9711 0.9711 0.9674 0.9183 0.9639 Tabela 1 - Desempenho dos classificadores em ambas as bases de dados. A tabela 1 mostra que os classificadores obtiveram sucesso em ambas as bases de dados. Nota-se que os modelos lineares foram superiores aos não lineares em diversas ocasiões, podendo ser um indício de que o problema é linearmente separável. Visando analisar se houve diferença na inserção do conhecimento humano na base de dados BD2, aplicou-se o teste t de Student pareado, usando o conjunto de dez valores do k-fold para cada base de dados. O teste considerou um nível de significância de 5%. A tabela 2 mostra os p-valores para os testes t realizados para cada classificador. O teste identificou que não há diferença entre as médias, em todas as métricas, para cada classificador analisado, mostrando que não houve diferença significativa na inserção de conhecimento humano na base de dados, para o problema de classificação de indivíduos com DPOC. É possível verificar ainda que se uma significância igual a 10% fosse escolhida, mesmo assim a hipótese de igualdade das médias (H 0) não seria rejeitada. Acurácia Espec. Sens. AUC Perceptron 0.3867 0.6182 0.1760 0.7688 FLD 0.9809 0.3734 0.4442 0.7688 MLP 0.3776 0.2242 0.9038 0.3983 LVQ 0.1986 0.1074 0.4353 0.1953 SVM 0.6319 0.1131 0.4442 0.8156 Tabela 2 - P-valor do teste t de Student para cada classificador. 7.0 Discussão e Conclusões O propósito deste estudo foi analisar o impacto da inserção de conhecimento humano na base de dados, na classificação entre indivíduos normais ou com DPOC, dada as variáveis descritas na seção 2. Os classificadores obtiveram bons desempenhos, além de identificarem uma possível linearidade do problema. O teste de hipótese mostrou que não houve diferença significativa entre as médias das bases de dados. Tal resultado é um indicativo de que o uso de classificadores pode auxiliar no diagnóstico da DPOC, independente de se usar valores de refe rência de normalidade populacional. Como trabalho futuro, sugere-se a comparação dos mesmos classificadores, porém usando outros padrões de referência para valores espirométricos, como o proposto pela ERS (European Respiratory Society), considerado por [3] como um critério mais efetivo na detecção da DPOC. Referências [1] Webb AR. Statistical Pattern Recognition. 2 Ed. Willey. 2002. [2] Murray CJ, Lopez AD. Global mortality, disability, and the contribution of risk factors: Global Burden of Disease Study. Lancet. 1997; 349(9063):1436–1442. [3] Nathell L, Nathell M, Malmberg P and Larsson K. COPD diagnosis related to different guidelines and spirometry techniques. Respiratory Research, 2007. [4] Haykin S. Neural Networks, A comprehensive Foundation. 2Ed. Bookman; 1999. [5] Burges CJC. A Tutorial on Support Vector Machines for Pattern Recognition. Data Mining and Knowledge Discovery. 1998;2:121–167. [6] Fawcett T. An introduction to ROC analysis. Pattern Recognition Letters. 2006; 27(8):861 – 874.