REDES NEURAIS APLICADAS AO DIAGNÓSTICO DA TUBERCULOSE PULMONAR PAUCIBACILAR JOÃO BAPTISTA DE OLIVEIRA E SOUZA FILHO Universidade Federal do Rio de Janeiro, POLI-COPPE/UFRJ Centro Federal de Educação Tecnológica Celso Suckow da Fonseca, Unidade descentralizada de Nova Iguaçu (UnED), Estrada de Adrianópolis, 1317, Santa Rita, Nova Iguaçu, 26041-271, Rio de Janeiro, Brasil E-mail: [email protected] PEDRO HENRIQUE SILVA ANTUNES, JOSÉ MANOEL DE SEIXAS, CARMEN MAIDANTCHIK Universidade Federal do Rio de Janeiro, POLI- COPPE - UFRJ Cidade Universitária, CP 68504 – 21945-970, Rio de Janeiro – Brasil E-mails: [email protected], [email protected], [email protected] Abstract Tuberculosis (TB) is one of the main illnesses that affect the humanity. According to mathematical projections, in 2010, 10 million new cases of tuberculosis will appear every year. One of the main factors for the increase of the number of tuberculosis cases is the co-infection by the human immunodeficiency virus (HIV), which has increased the mortality in many countries. The need of sensible and fast diagnosis methods is one of the great challenges to establish an effective infection control. This work proposes the use of neural processing to support medical diagnosis of the pulmonary TB, using a reference set of patients from university hospital of the Federal University of Rio de Janeiro. The system, based on a set of symptoms, identifies the probability that a patient has or not tuberculosis, classifying him/her in one of the 3 groups of risk. Expressive results are obtained, as the identification of the probability that a patient has TB corresponds to 100% and that a patient has not TB corresponds to 80%. Keywords − Neural networks, Tuberculosis diagnosis, Clustering analysis, ART model Resumo − A tuberculose (TB) é uma das principais enfermidades que acomete a humanidade, e segundo projeções matemáticas, a partir de 2010, 10 milhões de novos casos surgirão anualmente. Um dos principais fatores para o aumento do número de casos é a co-infecção pelo vírus da imunodeficiência humana (HIV), o que aumentou a mortalidade em muitos países. A necessidade de métodos diagnósticos rápidos e sensíveis é um dos grandes desafios para o estabelecimento de um controle efetivo da infecção. Neste trabalho é proposto utilizar processamento neural para apoio ao diagnóstico médico da TB pulmonar, utilizando um conjunto de pacientes de referência do hospital universitário da Universidade Federal do Rio de Janeiro. Este sistema, com base num questionário de sintomas, identifica qual é a chance do paciente ter contraído tuberculose, assim como o classifica em um dos 3 grupos de risco. Resultados expressivos são obtidos, atingindo-se uma identificação de pacientes doentes de 100%; e de não-doentes, de 80%. Palavras-chave Redes neurais, Diagnóstico de tuberculose, Análise de agrupamentos, modelo ART 1 Introdução Usualmente, o diagnóstico da TB pulmonar é realizado com base nos sinais e sintomas relatados pelo paciente, e através de testes diagnósticos. Entre os testes fundamentais para o diagnóstico, quando o paciente apresenta expectoração, utiliza-se a baciloscopia e a cultura (Morimoto, 2005). A baciloscopia, apesar de simples e segura, possui uma sensibilidade, isto é, a capacidade de classificar pacientes que apresentam a doença como doentes, baixa, em torno de 50%. A cultura representa um teste mais sensível (80%), porém é um exame caro, cujo diagnóstico exige de 4 a 6 semanas, sendo restrito a unidades de saúde de pesquisa ou referência. Durante este período, o paciente infectado, se não submetido a um tratamento apropriado, pode estar transmitindo o bacilo (Costa, 2006). Na ausência da cultura, muitos casos de tuberculose, em especial, os paucibacilares, para os quais há uma dificuldade na obtenção de secreções pela expectoração, são diagnosticados com base nos sinais e sintomas clínicos, achados radiológicos e outros testes laboratoriais (Santo, 2006). Uma forma para agilizar o diagnóstico é combinar testes diagnósticos tradicionais com modelos estatísticos desenvolvidos com base em dados qualificados (Castelo et al., 2004). Estes modelos atuariam como um sistema de apoio ao diagnóstico, podendo orientar o médico no tratamento dos pacientes, em especial, em locais com carência de recursos laboratoriais, tais como comunidades carentes, presídios e albergues. Em (Santos, 2003) é proposta a utilização de técnicas de redes neurais e árvores de classificação para identificar, com base nos sintomas, a probabilidade de um paciente ter tuberculose. Este trabalho apresenta o desenvolvimento de um sistema de apoio ao diagnóstico baseado em redes neurais, o qual, de posse de sintomas e características do paciente, identifica a probabilidade do paciente em possuir tuberculose, classificando-o em três grupos de risco: baixo, médio e alto. Este sistema visa auxiliar profissionais de saúde de hospitais e unidades, cuja infra-estrutura de atendimento seja deficiente ou precária, provendo informações úteis à rotina de atendimento destes pacientes. Entre benefícios possíveis de sua operação, tem-se o tratamento de pacientes em estágios menos avançados da doença, a redução das chances de contágio nas comunidades, assim como menores custos ao sistema de saúde pública, uma vez que a chance de realizar testes caros ou tratar pacientes que não estejam doentes é reduzida. A estrutura do trabalho é a seguinte: inicialmente, é apresentado o banco de dados utilizado. Após, a estrutura do sistema proposto é discutida, em especial dos sistemas de classificação e identificação do grupo de risco do paciente. Em seguida, é discutida a seleção das variáveis explicativas relevantes e dos conjuntos para projeto e avaliação do sistema. Por fim, os resultados são apresentados e as conclusões derivadas. 2 Base de dados A base de dados explorada neste trabalho é constituída por 136 pacientes do Hospital Universitário da Universidade Federal do Rio de Janeiro, atendidos no período de março de 2001 até setembro de 2002. Para estes pacientes, foram identificadas as características demográficas (sexo, idade e renda familiar), sintomas clínicos (tosse, febre, sudorese, emagrecimento, anorexia e outros) e fatores de riscos (diabetes, alcoolismo, SIDA e outros), tipicamente considerados relevantes no diagnóstico da tuberculose, totalizando 26 variáveis. Ao final, considerou-se mais uma variável relacionada ao diagnóstico médico do paciente como doente ou sadio. Deste grupo, 43% dos pacientes apresentavam tuberculose ativa. 3 Sistema de Apoio ao Diagnóstico O sistema proposto é constituído por três módulos básicos. O primeiro módulo é responsável pela entrada de dados. O segundo módulo identifica se o paciente possui ou não tuberculose, fornecendo um nível de certeza deste diagnóstico. Cabe ao terceiro módulo identificar a qual grupo de risco o paciente pertence. Para a entrada dos dados, optou-se pela utilização de um formulário HTML, com o objetivo de prover uma interface amigável e de fácil acesso. A escolha da tecnologia Web permitiu um custo de desenvolvimento reduzido. A interface realiza um tratamento prévio dos dados, transformando as informações recebidas em variáveis que alimentam os sistemas de diagnóstico e de identificação do grupo de risco, seguindo a seguinte convenção de codificação das variáveis: 1 (presença do sintoma/característica), 0 (sintoma ou característica não informada) e -1 (sintoma/característica ausente). O resultado obtido pelo módulo de identificação do grupo de risco é apresentado de forma gráfica, simulando um sinal de trânsito. O grupo de baixo risco é representado pela cor verde, e os grupos de médio e alto risco são identificados pelas cores amarelo e vermelho, respectivamente. A chance do paciente em possuir ou não a doença é apresentada de forma textual junto com as informações preenchidas no formulário de entrada. Por armazenar todas estas informações, o sistema permite monitorar o paciente e também oferece funcionalidades para copiar dados, os quais podem ser posteriormente integrados com outras informações provenientes de diversos postos de saúde. 3.1 Identificação da Chance do Paciente Possuir Tuberculose Para determinar a chance do paciente em possuir tuberculose, é utilizada uma rede MLP totalmente conectada (Haykin, 1999), de 2 camadas, com um número de neurônios na camada intermediária escolhido na faixa de 1 a 15, e um neurônio na camada de saída. A função de ativação para todos os neurônios foi a tangente hiperbólica. Os valores alvo foram: +1, para pacientes diagnosticados como tuberculosos; e 1, para pacientes que não apresentam a doença. O treinamento utilizou o erro quadrático médio como função objetivo, o critério de parada antecipada (Haykin, 1999) e o algoritmo RPROP (Riedmiller, 1994). Para a parada do treinamento, foi utilizada uma eficiência constituída por uma média ponderada entre os valores obtidos para a sensibilidade e especificidade, com pesos de 0,75 e 0,25, respectivamente, visto que a identificação de pacientes doentes foi considerada prioritária. Uma análise inicial demonstrou o treinamento ser sensível aos valores iniciais dos pesos e limiares da rede, o que motivou, para cada classificador, a produção de 50 treinamentos, cada qual partindo de um diferente conjunto de parâmetros. A seleção do número de neurônios da camada intermediária da rede e do melhor conjunto de parâmetros iniciais utilizou o mesmo critério explorado para a parada. Para a identificação do paciente submetido ao sistema como doente ou sadio, foi utilizado o seguinte critério: caso a saída da rede apresente um valor maior que zero, o paciente é considerado tuberculoso. Caso contrário, o paciente é tido como nãotuberculoso. Em ambos os casos, um nível de certeza, determinado pelo módulo da saída da rede é fornecido. O nível de certeza possui diferentes interpretações, de acordo com o diagnóstico provido pelo sistema: caso o paciente seja classificado com nãotuberculoso, um maior nível de certeza representa uma maior probabilidade do paciente em não ter a doença. Para o diagnóstico contrário, ocorre o oposto. 4 Desenvolvimento 3.2 Identificação do Grupo de Risco do Paciente A identificação do grupo de risco foi realizada através da técnica ART-modificada (Vassali, 2002), que produz agrupamentos definidos por hiperesferas, cujo raio é referido como raio de vigilância. O número e as características estatísticas dos grupos identificados pela técnica ART modificada é dependente da escolha do raio de vigilância e das características dos dados, tais como o número de eventos e variáveis, assim como seus valores médios e dispersões. Em geral, para um mesmo número de variáveis, quanto menor for o valor do raio, maior é o número de grupos criados. Quatro normalizações distintas foram avaliadas no tratamento dos dados a serem submetidos a este módulo, as quais são resumidas na Tabela 1. Nesta tabela, vij representa a i-ésima variável do j-ésimo dado, vij é a variável normalizada associada à vij , N corresponde ao número de variáveis e M ao número de eventos disponível. Tabela 1 – Normalizações consideradas para a produção dos agrupamentos ART modificados Expressão I II vij = vij vij = vij desvio(vi ) desvio(vi ) para : 1 ≤ i ≤ N , 1 ≤ j ≤ M para : 1 ≤ i ≤ N , 1 ≤ j ≤ M N M − ∑ vij2 v( N +1) j = III vij′ = v1 j = N M = máximo j (∑ v ji2 ) M vij desvio(vij ) v1′ j , i =1 vij′ = para : 1 ≤ i ≤ N , 1 ≤ j ≤ M (máximo(v1′ ) − mean(v1′) ) v1 j = vij desvio(vij ) v1′ j para : 1 ≤ i ≤ N , 1 ≤ j ≤ M (máximo(v1′ ) − média(v1′) ) vij = vij′ para : 2 ≤ i ≤ N N M − ∑ vij2 v( N +1) j = i =1 M 4.1 Seleção das Variáveis Relevantes Foi realizada uma análise de relevância das variáveis (Seixas, 1996) de entrada das redes de diagnóstico e classificação, visando a avaliar a utilização de modelos mais compactos, o que é interessante pelas restrições estatísticas existentes nos dados. Esta análise, de posse das 26 variáveis originais, demonstrou que modelos com 12 ou apenas 8 variáveis poderiam ser desenvolvidos. Os sintomas considerados nestes modelos restritivos foram validados por pesquisadores experientes da área. A redução do número de variáveis, através da seleção daquelas mais relevantes, em geral, melhora o aprendizado do modelo, podendo produzir sistemas mais eficientes. Um efeito colateral é tornar o sistema mais susceptível a enganos de preenchimento do formulário e a informações errôneas ou não declaradas pelo paciente (Morris, 2000). Por outro lado, submeter o paciente a menores questionários pode melhorar a qualidade das informações coletadas, podendo resultar em modelos mais realísticos. i =1 vij = vij′ para : 2 ≤ i ≤ N IV Para o desenvolvimento dos sistemas neurais que identificam se o paciente possui ou não tuberculose e identificam seu grupo de risco, em razão das severas restrições estatísticas existentes, foi realizada uma identificação das variáveis explicativas relevantes, buscando prover uma estatística suficiente à solução do problema, e procedida uma seleção dos conjuntos utilizados para o projeto e avaliação dos módulos, descritos em maiores detalhes a seguir. , N M = máximo j (∑ v ji2 ) i =1 Pela modalidade I, cada variável é dividida pelo seu desvio padrão ( desvio(vi ) ). Na modalidade II, adota-se o mesmo critério anterior, porém mais uma variável é utilizada ( v( N +1) j ), determinada de forma que os vetores de dados formados pelas (N+1) variáveis possuam módulo unitário. A normalização III é similar à normalização I, exceto para a variável idade ( v1 ). Por fim, a normalização IV é semelhante a III, porém mais uma variável ( v( N +1) j ) é adicionada, conforme a normalização II. 4.2 Seleção de Conjuntos para o Projeto e Avaliação do Sistema Geralmente, o projeto e a avaliação de classificadores MLP exploram três conjuntos: treino, validação e teste (Haykin, 1999): o primeiro, utilizado para a obtenção do modelo; o segundo e terceiro, para a parada do treinamento (critério de parada antecipada) e avaliação do desempenho, respectivamente. Em virtude das restrições estatísticas dos dados, neste trabalho serão utilizados apenas dois conjuntos: treino e teste, e a parada do treinamento será realizada pelo conjunto de teste. Para a formação dos conjuntos de treino e teste, foram consideradas três modalidades de seleção: uma por sorteio, e as duas outras, através de agrupamentos, resultando em conjuntos com 26, 12 e 8 variáveis explicativas. Na seleção por sorteio, 15 pares de conjuntos foram formados, sendo 80% dos eventos destinados ao conjunto de treino, e 20% restantes, ao conjunto de teste. Para a constituição destes conjuntos, foram realizados sorteios aleatórios sem reposição. Na seleção baseada em agrupamentos, foram produzidos dois agrupamentos: um baseado na técni- ca ART modificada; e outro, num agrupamento hierárquico que utilizou a distância euclidiana e o critério de Ward (Huang, 2004) como medida de similaridade entre eventos e grupos. Tanto o valor do raio de vigilância quanto o nível de corte foram escolhidos de forma que apenas 3 grupos fossem identificados. Uma primeira seleção, aqui referida como ART, destinou 75% dos pacientes identificados por cada grupo ao conjunto de treino, e os 25% restantes, ao conjunto de teste. Uma segunda, referida como INTER, considerou 75% dos pacientes identificados num mesmo grupo por ambas as técnicas para constituir o conjunto de treino, e os demais, o conjunto de teste. 5 Resultados Inicialmente, buscou-se identificar qual par de conjuntos de projeto e avaliação, número de variáveis e neurônios produz um classificador de maior capacidade de generalização, hábil na identificação de pacientes tuberculosos. Dois parâmetros foram considerados: a sensibilidade e a especificidade. A sensibilidade corresponde à capacidade do sistema em classificar pacientes que apresentam a doença como doentes; e a especificidade, de classificar pacientes sadios como não-tuberculosos. Esta análise considerou 17 pares de conjuntos de treino e teste (15 para a modalidade sorteio, 1 para ART e 1 para INTER), para os quais foram treinados classificadores considerando 8, 12 e 26 variáveis explicativas, contendo de 1 a 15 neurônios na camada intermediária. Para 8 variáveis, verificou-se que a sensibilidade apresentou valores entre 66,6% e 89,5%. Quanto a especificidade, os valores situaram-se entre 60,7% e 90,0%. O melhor resultado foi obtido para um dos conjuntos de sorteio, utilizando uma rede com 7 neurônios, que resultou em 89,4% e 74,0% de sensibilidade e especificidade, respectivamente. Em termos de 12 variáveis, a sensibilidade situou-se entre 58,3% e 100,0%; enquanto a especificidade, entre 63,3% a 95,5%. O melhor conjunto identificado foi o produzido pela seleção ART, para uma rede de 15 neurônios, que apresentou uma sensibilidade de 100% e especificidade de 80%. Com 26 variáveis, foram obtidos valores de especificidade entre 54,1% a 86,7%; e de sensibilidade, de 59,3% a 95,5%. O conjunto de melhor desempenho foi um dos produzidos pelo sorteio, associado a 84,2% e 77,8% de sensibilidade e especificidade, para uma rede com 6 neurônios. Na Tabela 2 são resumidos, para cada número de variáveis considerado (n), a modalidade de seleção que apresentou o melhor desempenho, assim como as sensibilidades e as especificidades associadas. É possível perceber que a utilização de 12 variáveis explicativas e o conjunto selecionado através do agrupa- mento ART modificado produziram o classificador mais eficiente, tanto em termos de sensibilidade quanto especificidade. Tabela 2 . Valores de sensibilidade e especificidade dos ensaios de melhor desempenho pelo número de variáveis. n Seleção 8 12 26 Sorteio ART Sorteio Sensibilidade 89,4 % 100,0 % 84,2 % Especificidade 74,0 % 80,0 % 77,8 % Utilizando o conjunto ART com 12 variáveis explicativas, foram avaliadas as 4 normalizações propostas (conforme Tabela 1) para a produção do agrupamento ART modificado que identifica o paciente como pertencente a um único grupo de risco. Para cada normalização, o valor do raio de vigilância foi ajustado de forma que o agrupamento produzisse 3 conjuntos, identificados como de baixo, médio e alto risco de contaminação. Uma característica desejável para os grupos de risco identificados pelo agrupamento é que a quantidade de pacientes tuberculosos do grupo de alto risco seja proporcionalmente maior que a verificada no grupo médio risco. O mesmo vale em relação aos grupos de médio e baixo risco. Deste modo, a proporção entre o número de pacientes tuberculosos e não-tuberculosos por grupo de risco foi utilizada com figura de mérito para a seleção da normalização que resulta num agrupamento mais realístico. O número de pacientes tuberculosos e não-tuberculosos identificado por normalização e grupo de risco é resumido na Tabela 3. Tabela 3. Número de pacientes tuberculosos e não-tuberculosos por grupo de risco e normalização I II III IV Grupo B M A B M A B M A B M A TB 21 32 6 1 16 42 27 31 1 17 12 30 N-TB 38 36 3 4 32 41 40 35 2 34 14 29 TOTAL 59 68 9 5 48 83 67 66 3 51 26 59 Na Tabela 3, é possível verificar que na normalização I, há um pequeno número de pacientes identificados no grupo de alto-risco (9, no total). Para a normalização II, ocorre o contrário para o grupo de baixo risco (total de 5). Para a normalização IV, tanto o percentual de pacientes tuberculosos no grupo de alto-risco (1), quanto o número de pacientes contidos neste grupo (3), é baixo. Optou-se, portanto, pela normalização IV. Em seguida, buscou-se identificar qual o conjunto de sintomas ou características está relacionado à caracterização de cada grupo. Assim, foram observados os sintomas mais freqüentes nos pacientes pertencentes a cada grupo, os quais são resumidos na Tabela 4. É interessante observar que, de acordo com médicos especialistas, as características apresentadas estão coerentes. Tabela 4. Sintomas mais freqüentes identificados por grupo de risco Grupo Baixo Médio Alto Sintomas Tosse Tosse, Sudorese, Febre, Emagrecimento e Anorexia Tosse, Sudorese e Febre 6 Conclusões Neste trabalho foi apresentado o desenvolvimento de um sistema de apoio ao diagnóstico da tuberculose com base no conjunto de sintomas e características do paciente. O usuário, através de uma interface simples padrão Web, insere as informações, sendo retornado se o paciente possui ou não tuberculose, o nível de certeza neste diagnóstico, e a qual grupo de risco ele pertence. O sistema possui baixo custo e destinase a postos de saúde ou hospitais com carência de recursos de suporte ao diagnóstico. Em razão das restrições estatísticas existentes no conjunto de dados, o desempenho do sistema mostrou-se sensível à escolha dos conjuntos de projeto e avaliação. A seleção destes conjuntos através da técnica de agrupamento ART modificado mostrou resultados expressivos, resultando numa sensibilidade de 100% e especificidade de 80%. Quanto à identificação dos grupos de risco, realizada através do agrupamento ART modificado, a normalização dos dados afetou o processo de escolha dos raios de vigilância e a distribuição quantitativa e qualitativa dos pacientes pelos grupos. Após identificar a normalização mais apropriada, verificou-se que os sintomas mais freqüentes de cada grupo de risco coincidem com os indicados por especialistas. Atualmente, o sistema está sendo implantado em um posto de saúde da rede pública do município do Rio de Janeiro. Em relação aos próximos passos do projeto, com o sistema em operação, pretende-se, aumentar o número de pacientes do banco de dados e pesquisar a viabilidade de um sistema capaz de adaptar-se a mudanças das características da doença. Agradecimentos Nossos agradecimentos ao Hospital Universitário da Universidade Federal ao Rio de Janeiro pela cessão dos dados e a CAPES, CNPq e FAPERJ pelo suporte financeiro ao projeto. Referências Bibliográficas Castelo A., Kritski A.L., Werneck A., Lemos A.C., Ruffino Netto A., et al. (2004). Brazilian Directives for Tuberculosis. J Brás Pneumo, 30 (supl 1). 1- 86. Costa, H. C. G., Malaspina A. C., Mello, F. A. F. e Leite, C. Q. F. (2006). Ocorrência de tuberculose em um hospital psiquiátrico do interior de Goiás. http://www.jornaldepneumologia.com.br Haykin, S. (1999). Neural Networks: A Comprehensive Foundation, Malcmillan Publishing Company, Edt 2. Huang, T., Ward, P. A. S, Taylor, D. J. (2004). Clustering Strategies for Cluster Timestamps. In: ICPP - International Conference on Parallel Processing, 73-81. Morimoto, A. A., Bonametti, A. M., Morimoto, H. K. e Matsuo, T. (2005). Soroprevalência da infecção pelo vírus da imunodeficiência humana em pacientes com tuberculose, em Londrina, Paraná. http://www.jornaldepneumologia.com.br Morris A. C. (2000). A Neural Network for Classification with incomplete data: Application to Robust ASR. In : ICSLP 2000. http:// citeseer.ist.psu.edu/morris00neural.html Santo, A. H. (2006). Causas múltiplas de morte relacionadas à tuberculose no Estado do Rio de Janeiro entre 1999 e 2001. http://www.jornaldepneumologia.com.br Riedmiller M., Braun H. (1993). A Direct Adaptive Method for Faster Backpropagation Learning. In: IEEE Conference on Neural Networks, 586591. Santos, A. M. (2003). Redes Neurais e Árvores de Classificação Aplicadas ao Diagnóstico da Tuberculose Pulmonar Paucibacilar, Tese de doutorado, COPPE/ UFRJ, Rio de Janeiro, Brasil. Seixas, J.M., Calôba, L.P., Delpino, I., (1996). Relevance Criteria for Variable Selection in Classifier Design. In: International Conference on Engineering Applications of Neural Networks, 451-454. Vassali, M.R., Seixas, J.M., Calôba, L.P., (2002). A Neural Particle Discriminator Based on a Modified Art Architecture. In: IEEE International Symposium on Circuits and Systems, 121-124. Wandresen, R., Mitishita, E.A., Andrade J.B. (2001). Desenvolvimento de uma metodologia para a identificação automática de pontos de apoio pré-sinalizados com o uso de redes neurais artificiais e correlação. In: XIX CBC 2001