IDENTIFICAÇÃO INTELIGENTE DE PATOLOGIAS NO TRATO VOCAL
Regiane D. S. Bassi
Ivan N. Da Silva
Depto de Engenharia Elétrica e de Computação, EESC / USP
13566-590, Avenida Trabalhador São Carlense 400, São Carlos, SP
E-mail: [email protected]
Email: [email protected]
Henrique Dezani
Depto de Informática, Faculdade de Tecnologia de São José do Rio Preto, FATEC/ CETEPS
15043-020, Rua Fernandópolis 2510, São José do Rio Preto, SP
E-mail: [email protected]
Leandro Genari
Depto de Computação, Centro Universitário do Norte Paulista, UNORP
15020-0400, Rua Ipiranga 3460, Jardim Alto Rio Preto, São José do Rio Preto, SP
E-mail: [email protected]
Norian Marranghello
Depto de Ciência da Computação e Estatística, DCCE / IBILCE / UNESP
15054-000, Rua Cristóvão Colombo 2265, São José do Rio Preto, SP
E-mail: [email protected]
RESUMO
Segundo [3], a maioria das doenças na laringe provoca mudanças na voz do paciente.
O sinal mais comum que pode indicar uma alteração na laringe é a rouquidão. As patologias
mais comuns que afetam a voz são os calos vocais, pólipos, cistos, os nódulos, gerados pelo
esforço demasiado da voz e os edemas de Reinke, geralmente causados pelo uso abusivo do
cigarro. Outras patologias de laringe que podem levar a uma disfonia são a úlcera de contato,
o granuloma e a leucoplasia. De qualquer maneira, uma alteração de voz como a rouquidão
também pode ser um dos primeiros sintomas de um câncer de laringe.
Essas patologias, interferem na dinâmica do sistema de produção de voz, gerando
variações em parâmetros acústicos do trato vocal. Baseados em exames como a
videolaringoscopia, diagnósticos têm sido realizados visando detectar essas patologias, mas
esse procedimento médico é considerado invasivo e desconfortável[4]. Geralmente, esse tipo
de exame é realizado somente com solicitação médica e quando alterações na fala já são
marcantes, ou há sensação de dor. Nesse estágio, muitas vezes a doença se encontra em grau
avançado, se tornando mais dificil o seu tratamento[1]. No intuito de realizar um prédiagnóstico computacional de tais patologias, visando prover um maior apoio às decisões
médicas, este trabalho apresenta uma técnica não invasiva baseada em um algoritmo que
utiliza uma Rede Neural RBF alimentada por um conjunto de parâmetros extraídos do sinal
de voz do locutor [5]. Esses parâmetros acústicos foram baseados nas concentrações médias e
nos níveis de variabilidade das energias de determinadas sub-bandas de frequências e
serviram de base para alimentar dois tipos de classificadores: no Classificador I, a análise foi
feita através da distância euclidiana dessas concentrações médias; e o Classificador II, usou a
rede neural, do tipo Função de Base Radial (RBF - Radial Basis Function). Testes realizados
com uma base de dados de vozes normais e aquelas afetadas por diversas patologias têm
demonstrado eficácia da técnica proposta, que pode, inclusive, ser implementada em temporeal.
Para o desenvolvimento deste projeto, todos os sinais de vozes utilizados
correspondem a diversas combinações de parâmetros extraídos dos fonemas vozeados /a/,
306
sustentados em média por cinco segundos, que foram extraídas do banco de vozes do Hospital
das Clínicas da USP, de Ribeirão Preto. Essa base de dados possui 118 vozes com
características normais e outras 33 pertencentes a indivíduos com as seguintes patologias na
laringe: nódulo/cistos/calos nas pregas vocais, compondo um tipo de patologia analisado, e
edemas de Reinke, compondo outro tipo de patologia procurado. Todos os indivíduos foram
previamente examinados por profissionais da área médica para confirmar seu estado saudável
ou patológico. A base foi separada por pastas nomeadas com o nome de cada paciente
examinado. Em cada uma das pastas existem arquivos com a extensão .WAV, amostrados a
uma taxa de 22050Hz, 16-bits
De maneira inicial todo sistema de reconhecimento de padrões requer uma etapa
anterior de extração de parâmetros [2], que visa reduzir a dimensão do sinal de entrada, a qual
pode ser relativamente alta e variável, transformando-o em um conjunto reduzido e fixo de
parâmetros, ou características, chamado de vetor de características. Esse vetor foi,
posteriormente, entregue ao classificador que tem a função de determinar a qual classe o
referido vetor, e consequentemente o sinal que o gerou, pertence.
O treinamento do sistema proposto ocorreu da seguinte forma: foram extraídos os
“dados brutos”, de todos os arquivos de voz utilizados no experimento produzindo então o
vetor de características, composto por T = 42 valores, assim dispostos: média e a variância
normalizadas das energias dos J sinais resultantes das filtragens das J janelas do sinal sob
análise, utilizando um filtro passa-faixas de ordem 1, com resposta ao impulso finita,
projetado para a banda crítica Bark 1. Cada janela possui tamanho igual a 1024 amostras,
sendo que a janela posterior se sobrepõe à anterior em 50%. Idem para a banda crítica Bark 2,
…, Bark 21; Separou-se os vetores de características correspondentes às vozes normais e às
vozes patológicas, que devem ser utilizados para treinamento e teste do sistema. Definindo a
rede RBF a ser utilizada, que deve possuir T = 42 entradas, R neurônios na camada oculta,
sendo R o número de casos de treinamento, e 1 neurônio na camada final; utilizando kernels
Gaussianos, ajustou as saídas dos R neurônios da camada intermediária de modo que o o iésimo neurônio presente saída máxima, igual a 1, para 30° i-ésimo caso de treinamento. Os
testes do sistema ocorreram da seguinte maneira: disponibilizou para uso os vetores de
características, oriundos de vozes normais e patológicas; para cada vetor de testes, aplicou as
características correspondentes na entrada da rede RBF previamente treinada. Coletou os
valores presentes nas saídas dos neurônios da camada oculta, fazendo uma combinação linear
deles com os pesos determinados na etapa de treinamento; O valor resultante da combinação
linear anterior foi interpretado para fornecer a resposta do sistema ao vetor de entrada. Se esse
valor estiver mais próximo de 1 do que de −1, a voz correspondente sera considerada normal,
caso contrário sera considerada patológica.
Em ambas as etapas, de treinamento e de aplicação, os algoritmos foram
implementados em linguagem C/C++ sob ambiente LINUX Conectiva 7.0 e processador Intel
Core i5 em uma máquina com 4 Gb de memória RAM. O compilador utilizado foi o GNU
g++, associado ao editor de textos Kwrite.
Para o Classificador I, foram realizados 10 grupos de testes de forma a experimentar
o desempenho, em cada grupo, 100 combinações aleatórias foram utilizadas para separar o
montante de sinais destinado para o treinamento e o montante destinado para testes, sendo os
conjuntos mutuamente excludentes. Os resultados foram expressos na forma de matrizes de
confusão, que correspondem às médias e aos desvios-padrões dos 100 testes. E, foi possível
constatar que o número de vozes classificadas corretamente como sendo normais foram
bastante relevantes, mesmo para treinamentos com um número reduzido de vozes. Nos casos
em que vozes normais foram apontadas como patológicas, o “risco” oferecido pelo sistema de
pré-diagnóstico não é considerável, tendo em vista que um exame médico complementar é
capaz de dirimir possíveis dúvidas ou apontar erros nas classificações. Os testes realizados
com os parâmetros, mostraram-se eficientes no pré-diagnóstico de diversas patologias na
laringe. Um ponto negativo que pôde ser observado nos resultados é que houve um número
considerável de vozes patológicas classificadas como sendo normais. Tais erros são mais
graves e constituem uma desvantagem do Classificador I. Para o classificador II, 50
combinações aleatórias foram utilizadas para separar o montante de sinais destinado para o
307
treinamento e o montante destinado para testes, sendo os conjuntos mutuamente também
excludentes. Os resultados também foram expressos na forma de matrizes de confusão,
apontando o melhor e o pior caso. Com os novos resultados foi possível constatar ainda que,
como no caso do Classificador I, o número de vozes classificadas corretamente como sendo
normais também foi bastante relevante, até mesmo para treinamentos com um número
reduzido de vozes. Embora de forma mais modesta, observou-se ainda o mesmo ponto
negativo: houve um número considerável de vozes patológicas classificadas como sendo
normais. Assim sendo, os trabalhos futuros, concentram-se em melhorar o sistema neste
aspecto. Para isso, um kernel particularmente otimizado para os neurônios da camada oculta
da rede RBF será desenvolvido.
Palavras-chave: Processamento de sinais. Patologias da laringe. Redes Neurais RBF.
Kernel Gaussiano. Classificação de padrões.
Referências
[1] DAJER, M. E. Análise de sinais de voz por padrões visuais de dinâmica vocal. 2010. pp.
154. Tese (Doutorado) – Escola de Engenharia de São Carlos, Universidade de São Paulo,
São Carlos, 2010.
[2] GUIDO, R. C. ; PEREIRA, J ; SLAETS, J . Introduction to the special issue on Emergent
Applications of Fractals and Wavelets in Biology and Biomedicine. Applied Mathematics and
Computation, v. 207, p. 3-4, 2009.
[3] PARRAGA, A. Aplicação da Transformada Wavelet-Packet na Análise e Classificação de
Sinais de Vozes Patológicas.}.2002.163p. Dissertação (Mestrado). Departamento de
Engenharia Elétrica, Universidade Federal do Rio Grande do Sul. Porto Alegre, 2002.
[4] SCALASSARA, P. R. Utilização de Medidas de Previsibilidade em Sinais de Voz para
Discriminação de Patologias de Laringe. 2009. 267 f. Tese (Doutorado). Escola de
Engenharia de São Carlos, Universidade de São Paulo, São Carlos, 2009.
[5] SILVA I. N. DA,; SPATTI, D. H. ; FLAUZINO, R. A.Redes Neurais Artificiais para
engenharia e ciências aplicadas. São Paulo, Artliber, 2010.
308
Download

Regiane D. S.