Análise do comportamento de modelos lineares e não lineares quanto à
inserção de conhecimento humano na classificação de pacientes com Doença
Pulmonar Obstrutiva Crônica
Resumo: É conhecido que a escolha de variáveis significativas do modelo estudado é extremamente
importante, no contexto de classificação de dados. Em problemas da área médica isso não é
diferente. Em face disto, este trabalho busca investigar se há diferença quando é possível incorporar
algum tipo de conhecimento humano nas variáveis explicativas do modelo estudado, no problema de
identificação de indivíduos com Doença Pulmonar Obstrutiva Crônica. Para isso foram utilizados cinco
classificadores distintos aplicados em duas bases de dados, sem e com conhecimento inserido. Os
resultados mostraram que não houve diferença significativa para o problema abordado.
Analysis of the behavior of linear and nonlinear models in relation to insertion
of human knowledge in the classification of patients with Chronic Obstructive
Pulmonary Disease
Abstract: It is known that the choice of significant variables of the studied model is extremely
important in the context of data classification. In problems at medical field it is no different. In the face
of it, this work aims to investigate whether there are differences when is possible to embed some kind
of human knowledge in the explanatory variables of the model, in the task of identification of
individuals with Chronic Obstructive Pulmonary Disease. For that we have used five different
classifiers applied to two databases, one with and other without knowledge inserted. The results had
shown no significant difference to the problem addressed.
1.0 Introdução
Métodos de classificação de dados vêm ganhando espaço na área médica,
alavancados pelos bons resultados obtidos em diversas outras áreas, sendo
crescente a quantidade de trabalhos que abordam problemas desta natureza. O
procedimento comumente realizado é: escolher um conjunto de variáveis relevantes
do problema, seguido pela coleta dos dados e por fim a aplicação do classificador. A
definição do conjunto de variáveis significativas para a representação fiel do modelo
é de vital importância para o sucesso da aplicação [1].
Neste trabalho buscamos analisar a influência da inserção de conhecimento
humano na base de dados, investigando se os classificadores extraem melhor o
modelo por si só, ou é válido quando algumas direções lhe são informadas. O
problema aqui abordado é a identificação de indivíduos normais ou com doença
pulmonar obstrutiva crônica (DPOC), que é uma enfermidade respiratória prevenível
e tratável, que se caracteriza pela presença de obstrução crônica do fluxo aéreo,
que não é totalmente reversível [2].
Diagnosticar e monitorar a progressão da DPOC é comumente feita pela espirometria, considerado o padrão ouro para tais tarefas. Entretanto, diferenças na definição de DPOC e consensos estabelecidos tornam complexo o diagnóstico e avaliação da severidade da DPOC [3].
Para esta análise utilizaremos cinco diferentes classificadores, dois lineares:
Perceptron e Discriminante Linear de Fisher (Fisher Linear Discriminant - FLD); e
três não lineares: rede Multilayer Perceptron (MLP), Learning Vector Quantization
(LVQ) e Máquina de Vetores Suporte (Support Vectors Machine - SVM).
2.0 Caracterização das bases de dados
Os dados para este trabalho foram extraídos por meio da prova de função
pulmonar, que é composto por diversos exames, que provêm informação sobre a
capacidade pulmonar de um indivíduo. É composta pela espirometria, ventilometria e
medidas das pressões inspiratórias e expiratórias. A espirometria mede volume,
capacidade e fluxo pulmonar da manobra respiratória e compara estas medidas com
valores de referência de normalidade.
Os valores obtidos pela espirometria
fornecem rica informação sobre a função pulmonar, auxiliando a identificar e
qualificar a severidade de diversos distúrbios ventilatórios que são observados
através da mudança de alguns valores espirométricos.
A prova de função pulmonar foi realizada em um conjunto de 222 pacientes,
no laboratório de Fisioterapia Pulmonar da Universidade Estadual de Londrina,
sendo que 142 deles são pacientes normais e 80 diagnosticados com DPOC.
Denotamos por BD1 (base de dados 1) os dados sem conhecimento humano
embutido, e BD2 para os dados padronizados com valores de referência. No BD1
são consideradas sete medidas fisiológicas e três variáveis que afetam o
desempenho pulmonar, as quais são respectivamente: Capacidade Vital Forçada
(CVF), Volume Expiratório Forçado no Primeiro Segundo (VEF1), Pico de Fluxo
Expiratório (PEF), Fluxo Expiratório Forçado Médio (FEF 25-75%), Ventilação
Voluntária Máxima (VVM), Pressão Inspiratória Máxima (PIM), Pressão Expiratória
Máxima (PEM), Sexo, Idade e Índice de Massa Corpórea.
O BD2 consiste em cinco das sete medidas fisiológicas descritas no BD1: CVF,
VEF1, PEF, FEF 25-75% e VVM; porém, aqui elas expressam a relação percentual
do valor obtido pelo valor normal esperado para cada padrão de indivíduo
(considerando idade e sexo), de acordo com as equações de normalidade propostas
pela ATS (American Thoracic Society), que é um dos padrões comumente utilizado.
Os dados foram rescalados no intervalo [0,1]. Para a variável resposta foi
convencionado: valor “1” para a presença de DPOC e o valor “0” normalidade.
3.0 Modelos utilizados
Embora as técnicas utilizadas possam ser aplicadas ao mesmo problema,
classificação de dados, elas são fundamentadas em diferentes paradigmas. O FLD é
um método estatístico que busca uma direção ao longo da qual as classes são
melhor separadas pelo critério de Fisher, que maximiza a relação entre as variâncias
interclasses e intraclasses [1].
As redes neurais artificiais (RNA) são modelos estruturados em rede,
composta por de unidades de processamento simples, os nós, que realizam
mapeamentos lineares ou não lineares do tipo
. O Perceptron é uma RNA de
único nó que realiza uma composição linear do conjunto de variáveis de entrada e
posteriormente a saída é aplicada em uma função de ativação linear, sendo o
Perceptron indicado para problemas linearmente separáveis [4]. Já a rede MLP [4] é
estruturada em três camadas (ou mais) com nós que podem usar diferentes funções
de ativação, entre elas a função logística, na camada intermediária e função linear
na camada de saída. A camada intermediária fornece a rede capacidade de
trabalhar com problemas não linearmente separáveis.
Redes LVQ [4] utilizam conceitos da quantização vetorial para o aprendizado
de redes neurais. Este tipo de rede também possui três camadas, sendo a camada
intermediária responsável por determinar um conjunto de protótipos (codebook) que
representam os dados de entrada.
A SVM utiliza fundamentos da teoria de otimização convexa para encontrar
superfícies de decisão ótima [5]. Para o caso de problemas não lineares, realiza o
mapeamento dos dados de entrada para um espaço de alta dimensionalidade, onde
provavelmente o problema se torna linearmente separável [5].
4.0 Simulação
As simulações foram realizadas no software Matlab© (The MathWorks Inc.,
Natick, MA, USA), utilizando toolboxes para cada tipo de classificador. O cálculo da
AUC, considerando que o espaço de limiares é discreto, foi feito pelo método dos
trapézios. As simulações foram executadas no Matlab © versão 7.09 (R2009b) 64bits.
A configuração e parâmetros utilizados em cada modelo foram:
•
Perceptron: Um neurônio com função de ativação linear ( f ( x ) = x ), e número
máximo de épocas de treinamento igual a 100.
•
MLP – Rede com 20 neurônios ocultos com função de ativação logística
sigmoidal, treinado com algoritmo Levenberg-Marquadt e número máximo de
épocas de treinamento igual a 100.
•
LVQ – Número de protótipos igual a 10 e taxa de aprendizagem igual a 0.01.
•
SVM – Função kernel Gaussiana com desvio padrão igual a 1.
Na rede MLP foram testadas diferentes quantidades de neurônio ocultos e o
valor 20 obteve melhores resultados tanto para BD1 quanto para BD2. O mesmo
procedimento foi realizado no número de protótipos da LVQ e para definição do
desvio padrão da kernel Gaussiana da SVM.
O método de validação cruzada k-fold foi utilizado para melhor estimar a precisão dos classificadores, o valor de k igual a 10 foi escolhido.
5.0 Medidas de Análise
Nesta seção são descritas as métricas utilizadas para análise dos resultados.
Sensibilidade e Especificidade: Ambas a medidas estabelecem a precisão da
classificação. A sensibilidade mensura a capacidade do método em identificar
corretamente uma classe dentre aqueles padrões que a ela pertencem. Já a
especificidade mede o quão competente o método é na exclusão daqueles padrões
que não pertencem a uma dada classe. Altos valores para ambas as métricas
indicam um bom desempenho do classificador.
Curva ROC (Receiver Operating Characteristics): é uma técnica para visualização,
organização e análise de desempenho de classificadores [6]. A curva ROC identifica
uma relação entre a taxa False Positive e True Positive, para um conjunto de
limiares considerados na classificação. Uma análise mais generalizada do poder do
classificador é a integração da curva ROC sobre o espaço de limiares utilizados na
geração da curva, conhecida por area under curve (AUC).
Teste de Hipótese: é indicado quando há necessidade de verificar se uma dada
hipótese sobre os dados é confirmada ou não. Neste trabalho utilizou-se o teste t de
Student para verificar se a média de dois conjuntos, os quais se supõem serem
normalmente distribuídos, são iguais para algum nível de significância.
6.0 Análise dos Resultados
A tabela 1 expõe uma comparação das bases de dados (em relação às médias
das dez execuções do k-fold). Valores destacados indicam melhor desempenho para
aquela métrica. A acurácia, especificidade e sensibilidade são referentes aos valores
obtidos com melhor limiar encontrado para cada classificador, naquela base de
dados, dentre o conjunto de limiares utilizados para gerar a curva ROC.
Acurácia
Perceptron 0.9597
FLD
0.9597
MLP
0.9506
LVQ
0.8789
SVM
0.9553
BD1
Espec.
Sens.
0.9250
0.9795
0.9250
0.9795
0.9250
0.9652
0.7750
0.9362
0.9125
0.9795
AUC
0.9667
0.9667
0.9483
0.8556
0.9591
Acurácia
0.9413
0.9593
0.9684
0.9233
0.9638
BD2
Espec.
Sens.
0.9433
0.9375
0.9571
0.9625
0.9714
0.9625
0.9367
0.9000
0.9643
0.9625
AUC
0.9711
0.9711
0.9674
0.9183
0.9639
Tabela 1 - Desempenho dos classificadores em ambas as bases de dados.
A tabela 1 mostra que os classificadores obtiveram sucesso em ambas as
bases de dados. Nota-se que os modelos lineares foram superiores aos não lineares
em diversas ocasiões, podendo ser um indício de que o problema é linearmente
separável. Visando analisar se houve diferença na inserção do conhecimento
humano na base de dados BD2, aplicou-se o teste t de Student pareado, usando o
conjunto de dez valores do k-fold para cada base de dados. O teste considerou um
nível de significância de 5%.
A tabela 2 mostra os p-valores para os testes t
realizados para cada classificador. O teste identificou que não há diferença entre as
médias, em todas as métricas, para cada classificador analisado, mostrando que
não houve diferença significativa na inserção de conhecimento humano na base de
dados, para o problema de classificação de indivíduos com DPOC.
É possível verificar ainda que se uma significância igual a 10% fosse escolhida,
mesmo assim a hipótese de igualdade das médias (H 0) não seria rejeitada.
Acurácia
Espec.
Sens.
AUC
Perceptron
0.3867
0.6182
0.1760
0.7688
FLD
0.9809
0.3734
0.4442
0.7688
MLP
0.3776
0.2242
0.9038
0.3983
LVQ
0.1986
0.1074
0.4353
0.1953
SVM
0.6319
0.1131
0.4442
0.8156
Tabela 2 - P-valor do teste t de Student para cada classificador.
7.0 Discussão e Conclusões
O propósito deste estudo foi analisar o impacto da inserção de conhecimento
humano na base de dados, na classificação entre indivíduos normais ou com DPOC,
dada as variáveis descritas na seção 2. Os classificadores obtiveram bons desempenhos, além de identificarem uma possível linearidade do problema.
O teste de hipótese mostrou que não houve diferença significativa entre as médias das bases de dados. Tal resultado é um indicativo de que o uso de classificadores pode auxiliar no diagnóstico da DPOC, independente de se usar valores de refe rência de normalidade populacional. Como trabalho futuro, sugere-se a comparação
dos mesmos classificadores, porém usando outros padrões de referência para valores espirométricos, como o proposto pela ERS (European Respiratory Society), considerado por [3] como um critério mais efetivo na detecção da DPOC.
Referências
[1]
Webb AR. Statistical Pattern Recognition. 2 Ed. Willey. 2002.
[2]
Murray CJ, Lopez AD. Global mortality, disability, and the contribution of risk
factors: Global Burden of Disease Study. Lancet. 1997; 349(9063):1436–1442.
[3]
Nathell L, Nathell M, Malmberg P and Larsson K. COPD diagnosis related to different guidelines and spirometry techniques. Respiratory Research, 2007.
[4]
Haykin S. Neural Networks, A comprehensive Foundation. 2Ed. Bookman;
1999.
[5]
Burges CJC. A Tutorial on Support Vector Machines for Pattern Recognition.
Data Mining and Knowledge Discovery. 1998;2:121–167.
[6]
Fawcett T. An introduction to ROC analysis. Pattern Recognition Letters. 2006;
27(8):861 – 874.
Download

Análise do comportamento de modelos lineares e não lineares