IDENTIFICAÇÃO INTELIGENTE DE PATOLOGIAS NO TRATO VOCAL Regiane D. S. Bassi Ivan N. Da Silva Depto de Engenharia Elétrica e de Computação, EESC / USP 13566-590, Avenida Trabalhador São Carlense 400, São Carlos, SP E-mail: [email protected] Email: [email protected] Henrique Dezani Depto de Informática, Faculdade de Tecnologia de São José do Rio Preto, FATEC/ CETEPS 15043-020, Rua Fernandópolis 2510, São José do Rio Preto, SP E-mail: [email protected] Leandro Genari Depto de Computação, Centro Universitário do Norte Paulista, UNORP 15020-0400, Rua Ipiranga 3460, Jardim Alto Rio Preto, São José do Rio Preto, SP E-mail: [email protected] Norian Marranghello Depto de Ciência da Computação e Estatística, DCCE / IBILCE / UNESP 15054-000, Rua Cristóvão Colombo 2265, São José do Rio Preto, SP E-mail: [email protected] RESUMO Segundo [3], a maioria das doenças na laringe provoca mudanças na voz do paciente. O sinal mais comum que pode indicar uma alteração na laringe é a rouquidão. As patologias mais comuns que afetam a voz são os calos vocais, pólipos, cistos, os nódulos, gerados pelo esforço demasiado da voz e os edemas de Reinke, geralmente causados pelo uso abusivo do cigarro. Outras patologias de laringe que podem levar a uma disfonia são a úlcera de contato, o granuloma e a leucoplasia. De qualquer maneira, uma alteração de voz como a rouquidão também pode ser um dos primeiros sintomas de um câncer de laringe. Essas patologias, interferem na dinâmica do sistema de produção de voz, gerando variações em parâmetros acústicos do trato vocal. Baseados em exames como a videolaringoscopia, diagnósticos têm sido realizados visando detectar essas patologias, mas esse procedimento médico é considerado invasivo e desconfortável[4]. Geralmente, esse tipo de exame é realizado somente com solicitação médica e quando alterações na fala já são marcantes, ou há sensação de dor. Nesse estágio, muitas vezes a doença se encontra em grau avançado, se tornando mais dificil o seu tratamento[1]. No intuito de realizar um prédiagnóstico computacional de tais patologias, visando prover um maior apoio às decisões médicas, este trabalho apresenta uma técnica não invasiva baseada em um algoritmo que utiliza uma Rede Neural RBF alimentada por um conjunto de parâmetros extraídos do sinal de voz do locutor [5]. Esses parâmetros acústicos foram baseados nas concentrações médias e nos níveis de variabilidade das energias de determinadas sub-bandas de frequências e serviram de base para alimentar dois tipos de classificadores: no Classificador I, a análise foi feita através da distância euclidiana dessas concentrações médias; e o Classificador II, usou a rede neural, do tipo Função de Base Radial (RBF - Radial Basis Function). Testes realizados com uma base de dados de vozes normais e aquelas afetadas por diversas patologias têm demonstrado eficácia da técnica proposta, que pode, inclusive, ser implementada em temporeal. Para o desenvolvimento deste projeto, todos os sinais de vozes utilizados correspondem a diversas combinações de parâmetros extraídos dos fonemas vozeados /a/, 306 sustentados em média por cinco segundos, que foram extraídas do banco de vozes do Hospital das Clínicas da USP, de Ribeirão Preto. Essa base de dados possui 118 vozes com características normais e outras 33 pertencentes a indivíduos com as seguintes patologias na laringe: nódulo/cistos/calos nas pregas vocais, compondo um tipo de patologia analisado, e edemas de Reinke, compondo outro tipo de patologia procurado. Todos os indivíduos foram previamente examinados por profissionais da área médica para confirmar seu estado saudável ou patológico. A base foi separada por pastas nomeadas com o nome de cada paciente examinado. Em cada uma das pastas existem arquivos com a extensão .WAV, amostrados a uma taxa de 22050Hz, 16-bits De maneira inicial todo sistema de reconhecimento de padrões requer uma etapa anterior de extração de parâmetros [2], que visa reduzir a dimensão do sinal de entrada, a qual pode ser relativamente alta e variável, transformando-o em um conjunto reduzido e fixo de parâmetros, ou características, chamado de vetor de características. Esse vetor foi, posteriormente, entregue ao classificador que tem a função de determinar a qual classe o referido vetor, e consequentemente o sinal que o gerou, pertence. O treinamento do sistema proposto ocorreu da seguinte forma: foram extraídos os “dados brutos”, de todos os arquivos de voz utilizados no experimento produzindo então o vetor de características, composto por T = 42 valores, assim dispostos: média e a variância normalizadas das energias dos J sinais resultantes das filtragens das J janelas do sinal sob análise, utilizando um filtro passa-faixas de ordem 1, com resposta ao impulso finita, projetado para a banda crítica Bark 1. Cada janela possui tamanho igual a 1024 amostras, sendo que a janela posterior se sobrepõe à anterior em 50%. Idem para a banda crítica Bark 2, …, Bark 21; Separou-se os vetores de características correspondentes às vozes normais e às vozes patológicas, que devem ser utilizados para treinamento e teste do sistema. Definindo a rede RBF a ser utilizada, que deve possuir T = 42 entradas, R neurônios na camada oculta, sendo R o número de casos de treinamento, e 1 neurônio na camada final; utilizando kernels Gaussianos, ajustou as saídas dos R neurônios da camada intermediária de modo que o o iésimo neurônio presente saída máxima, igual a 1, para 30° i-ésimo caso de treinamento. Os testes do sistema ocorreram da seguinte maneira: disponibilizou para uso os vetores de características, oriundos de vozes normais e patológicas; para cada vetor de testes, aplicou as características correspondentes na entrada da rede RBF previamente treinada. Coletou os valores presentes nas saídas dos neurônios da camada oculta, fazendo uma combinação linear deles com os pesos determinados na etapa de treinamento; O valor resultante da combinação linear anterior foi interpretado para fornecer a resposta do sistema ao vetor de entrada. Se esse valor estiver mais próximo de 1 do que de −1, a voz correspondente sera considerada normal, caso contrário sera considerada patológica. Em ambas as etapas, de treinamento e de aplicação, os algoritmos foram implementados em linguagem C/C++ sob ambiente LINUX Conectiva 7.0 e processador Intel Core i5 em uma máquina com 4 Gb de memória RAM. O compilador utilizado foi o GNU g++, associado ao editor de textos Kwrite. Para o Classificador I, foram realizados 10 grupos de testes de forma a experimentar o desempenho, em cada grupo, 100 combinações aleatórias foram utilizadas para separar o montante de sinais destinado para o treinamento e o montante destinado para testes, sendo os conjuntos mutuamente excludentes. Os resultados foram expressos na forma de matrizes de confusão, que correspondem às médias e aos desvios-padrões dos 100 testes. E, foi possível constatar que o número de vozes classificadas corretamente como sendo normais foram bastante relevantes, mesmo para treinamentos com um número reduzido de vozes. Nos casos em que vozes normais foram apontadas como patológicas, o “risco” oferecido pelo sistema de pré-diagnóstico não é considerável, tendo em vista que um exame médico complementar é capaz de dirimir possíveis dúvidas ou apontar erros nas classificações. Os testes realizados com os parâmetros, mostraram-se eficientes no pré-diagnóstico de diversas patologias na laringe. Um ponto negativo que pôde ser observado nos resultados é que houve um número considerável de vozes patológicas classificadas como sendo normais. Tais erros são mais graves e constituem uma desvantagem do Classificador I. Para o classificador II, 50 combinações aleatórias foram utilizadas para separar o montante de sinais destinado para o 307 treinamento e o montante destinado para testes, sendo os conjuntos mutuamente também excludentes. Os resultados também foram expressos na forma de matrizes de confusão, apontando o melhor e o pior caso. Com os novos resultados foi possível constatar ainda que, como no caso do Classificador I, o número de vozes classificadas corretamente como sendo normais também foi bastante relevante, até mesmo para treinamentos com um número reduzido de vozes. Embora de forma mais modesta, observou-se ainda o mesmo ponto negativo: houve um número considerável de vozes patológicas classificadas como sendo normais. Assim sendo, os trabalhos futuros, concentram-se em melhorar o sistema neste aspecto. Para isso, um kernel particularmente otimizado para os neurônios da camada oculta da rede RBF será desenvolvido. Palavras-chave: Processamento de sinais. Patologias da laringe. Redes Neurais RBF. Kernel Gaussiano. Classificação de padrões. Referências [1] DAJER, M. E. Análise de sinais de voz por padrões visuais de dinâmica vocal. 2010. pp. 154. Tese (Doutorado) – Escola de Engenharia de São Carlos, Universidade de São Paulo, São Carlos, 2010. [2] GUIDO, R. C. ; PEREIRA, J ; SLAETS, J . Introduction to the special issue on Emergent Applications of Fractals and Wavelets in Biology and Biomedicine. Applied Mathematics and Computation, v. 207, p. 3-4, 2009. [3] PARRAGA, A. Aplicação da Transformada Wavelet-Packet na Análise e Classificação de Sinais de Vozes Patológicas.}.2002.163p. Dissertação (Mestrado). Departamento de Engenharia Elétrica, Universidade Federal do Rio Grande do Sul. Porto Alegre, 2002. [4] SCALASSARA, P. R. Utilização de Medidas de Previsibilidade em Sinais de Voz para Discriminação de Patologias de Laringe. 2009. 267 f. Tese (Doutorado). Escola de Engenharia de São Carlos, Universidade de São Paulo, São Carlos, 2009. [5] SILVA I. N. DA,; SPATTI, D. H. ; FLAUZINO, R. A.Redes Neurais Artificiais para engenharia e ciências aplicadas. São Paulo, Artliber, 2010. 308