X SBAI – Simpósio Brasileiro de Automação Inteligente 18 a 21 de setembro de 2011 São João del-Rei - MG - Brasil PROPOSTA DE METODOLOGIA TCD-FUZZY PARA RECONHECIMENTO DE VOZ Washington L. S. Silva∗ Ginalber L. O. Serra∗ ∗ Instituto Federal de Educação, Ciência e Tecnologia do Maranhão, Departamento de Eletro-Eletrônica, Laboratório de Inteligência Computacional Aplicada à Tecnologia. AV. Getúlio Vargas, no 04 - Monte Castelo São Luis, Maranhão, Brasil Email: [email protected]@ifma.edu.br Abstract— The use Discrete Cosine Transform (DCT) in data compression and pattern classification has increased in recent years, and this is mainly due to the fact that their performance much closer to the results obtained with the Karhunen-Loève transform that is considered optimum in a variety of criterion. In this paper we search to demonstrate the potential of Discrete Cosine Transform and Fuzzy Systems in speech recognition. These two tools showed good temporal modeling of speech signal. After discussing the mathematical modeling of the speech used in this article, we discuss briefly the extraction of temporal characteristics of the speech signal and sets up a system for an automated speech recognizing, as a classifier, which extracts the characteristics of the phrase , mel-cepstrals coefficients in two dimensions and through Discrete Cosine Transform are presented the patterns for the fuzzy classifier. Discrete cosine transform, speech recongnition, fuzzy systems, mel-cepstral. Keywords— Resumo— A utilização da transformada discreta cosseno (TCD) na compressão de dados e na classificação de padrões aumentou muito nos últimos anos, e isso deve-se principalmente ao fato do seu desempenho aproximar-se muito dos resultados obtidos com a transformada de Karhunen-Loève que é considerada ótima em uma variedade de critérios. Neste trabalho procura-se demonstrar o potencial da Transformada Cosseno Discreta, bem como Sistemas Fuzzy no reconhecimento de voz. Essas duas ferramentas mostraram bons resultados no modelamento temporal do sinal de voz. Após uma exposição do modelamento matemático da voz utilizado neste artigo, aborda-se de forma sucinta a extração das caracterı́sticas temporais do sinal de voz e define-se um sistema de reconhecimento automático de voz, que extrai as caracterı́sticas temporais e expectrais das locuções através de coeficientes mel cepstrais de duas dimensões, da transformada discreta cosseno. Então essas caracterı́sticas são apresentadas padrões para o classificador fuzzy. Transformada cosseno discreta, reconhecimento de voz, sistema fuzzy, mel- cepstral. Keywords— 1 Introdução A base para a maioria dos algoritmos de processamento digital de voz é um modelo de sistema no tempo discreto para a produção de amostras do sinal de voz. A parametrização, isto é, codificação de um sinal analógico de voz, é um dos primeiros passos no processo de reconhecimento de voz. Várias técnicas de análise de sinal têm sido sugeridas na literatura especializada. Essas técnicas, normalmente, pretendem produzir representações paramétricas com algum significado perceptual da voz, onde se procura destacar as caracterı́sticas mais importantes da voz para maximizar o desempenho no processo de reconhecimento (Picone, 1991). A seleção das melhores representações paramétricas do sinal de voz é uma tarefa muito importante no desenvolvimento de qualquer sistema de reconhecimento de voz. O objetivo da seleção da melhor forma de codificar o sinal é comprimir os dados de voz eliminando informações não pertencentes à análise fonética do sinal e melhorar aqueles aspectos do sinal que contribuem significativamente às detecções das diferenças fonéticas dos sons de voz (Rabiner and Biing-Hwang, 1993). O problema de reconhecimento de padrões pode ser formulado como segue: sejam Sk classes, ISSN: 2175-8905 - Vol. X onde k = 1, 2, 3...K, contidas num espaço de padrões com dimensão ℜn . Tomando-se um espaço qualquer de padrões com dimensão ℜx , onde x ≤ n, pode tranformar-se em um novo espaço de padrões com dimensão ℜa , onde a < x ≤ n. Então, supondo-se uma estatı́stica de segunda ordem medida ou modelada para cada Sk , através h de uma i (k) função de covariância representada por Φx , a matriz de covariância generalizada descritiva do problema de reconhecimento de padrões torna-se: [Φx ] = K X k=1 i h P (Sk ) Φ(k) x (1) onde P (Sk ) é uma função de distribuição da classe Sk , a priori, com 0 ≤ P (Sk ) ≤ 1. Uma tranformação linear fornecida por um operador unitário A irá mapear o espaço de padrões dentro de um espaço transformado onde os vetores bases serão colunas ortogonais dessa matriz. Os padrões do novo espaço são combinações lineares dos eixos originais conforme a estrutura da matriz A. A estatı́stica de segunda ordem no espaço transformado é dada por: ΦA = AT [Φx ]A (2) onde ΦA corresponde à matriz de covariância no espaço gerado pela matriz A e o operador [·]T 1054 X SBAI – Simpósio Brasileiro de Automação Inteligente 18 a 21 de setembro de 2011 São João del-Rei - MG - Brasil corresponde à transposta de uma matriz. A partir de então, pode-se extrair caracterı́sticas que forneçam maior poder discriminatório para a classificação a partir da dimensão do espaço gerado (Andrews, 1971). Uma das mais difundidas técnicas para reconhecimento dos padrões de voz é o ”Hidden Markov Model (HMM)” (Shenouda and Goneid, 2006), (Yong-Qian and Woo, 1999). Apesar de sua capacidade de reconhecimento, é bem conhecido que uma das principais deficiências do HMM clássico está relacionada com o modelamento inadequado da duração do evento acústico associado com cada estado. Desde que a probabilidade de recorrência para o mesmo estado é constante, a probabilidade de duração do evento acústico associado com o estado tem uma probabilidade exponencial decrescente com o tempo. A hipótese básica é que a voz é um sinal quase estacionário e a sua parte estacionária pode ser representada por um simples estado do HMM. Este tipo de duração não representa a estrutura temporal da voz. Outra fragilidade do HMM é a hipótese de que dentro de cada estado os vetores observações são não correlacionados, enquanto na realidade o que acontece é o oposto da hipótese admitida. Freqüentemente erros ocorrem porque uma sequência de observação é decodificada por poucos estados, tipicamente absorvendo segmentos de baixa energia e com alta probabilidade de duração. Os outros estados, em vez disso, são rapidamente atravessados devido a sua distribuição não se adaptar bem ao restante da observação. Esses erros, portanto, não dependem da confusão intrı́nseca de palavras de acústica semelhantes, mas principalmente pela falta de boa modelagem da duração do evento acústico o que produz hipótese fracamente relacionada à acústica da palavra correta (L. Fissore and Rivera, 1997). Para justificar a estrutura dinâmica dos vetores de observação, incluindo as variações locais e globais, este artigo, propõe um sistema de reconhecimento de voz de dı́gitos isolados que não se baseia diretamente no modelamento da duração estado/palavra; em vez disso, baseia-se nas variações globais das caracterı́sticas espectrais de cada palavra e sua correlação no tempo, duas importantes caracterı́sticas que são exploradas parcialmente pelo HMM clássico. Este artigo propõe um sistema de parametrização e reconhecimento do sinal de voz, utilizando-se a Transformada Cosseno Discreta (TCD) (N. Ahmed and Rao, 1974) e sistema de inferência fuzzy. A utilização da TCD na compressão de dados e na classificação de padrões aumentou muito nos últimos anos, e isso deve-se principalmente ao fato do seu desempenho aproximar-se muito dos resultados obtidos com a transformada de Karhunen-Loève que é considerada ótima para uma variedade de ISSN: 2175-8905 - Vol. X critérios onde o erro quadrático médio de truncamento e a entropia são dois deles (Fu, 1968). As duas ferramentas utilizadas neste trabalho mostraram bons resultados no modelamento temporal do sinal de voz. Após uma exposição do modelamento matemático da voz utilizado neste artigo, aborda-se de forma sucinta a extração das caracterı́sticas temporais do sinal de voz e definese um sistema de reconhecimento automático de voz, onde são utilizadas as caracterı́sticas das locuções através dos coeficientes mel cepstrais de duas dimensões, transformada cosseno discreta são apresentados os padrões para o classificador fuzzy. 2 Sistema de Reconhecimento de voz TCD-Fuzzy Na figura 1 mostra-se o diagrama de bloco do sistema proposto para o reconhecimento do sinal de voz. Arquitetura do sistema de reconhecimento Segmentação e Janelamento do sinal de voz Sinal de Voz Codificação em Coeficientes Mel-cepstrais Decisão Fuzzy Reconhecimetno Geração da Matriz temporal bidimensinalTCD Figura 1: Diagrama de bloco do sistema de reconhecimento Inicialmente o sinal de voz é dividido em segmentos, os quais são janelados e em seguida codificados em uma quantidade de parâmetros definidos pela ordem dos coeficientes mel-cepstrais. Os coeficientes TCD são calculados e, finalmente, as funções de pertinências dos padrões são geradas para inferências no reconhecimento final do sinal de voz. 2.1 Segmentação e janelamento do sinal de voz Quando uma janela retangular é aplicada a um determinado sinal, ela seleciona uma pequena parcela deste sinal, a qual será analisada, denominada segmento. A análise de Fourier de curtoprazo efetuada sobre esses segmentos, é chamada análise de sinal segmento por segmento. A duração do segmento Tf é definida como a extensão de tempo sobre a qual um conjunto de parâmetros é considerado válido. O perı́odo do segmento é utilizado para determinar a extensão de tempo entre os cálculos de sucessivos parâmetros. Para processamento de voz, tipicamente, o perı́odo de segmento está entre 10ms e 30ms. Valores nesta faixa representam um compromisso entre a razão de mudança do espectro e a complexidade do sis- 1055 X SBAI – Simpósio Brasileiro de Automação Inteligente 18 a 21 de setembro de 2011 São João del-Rei - MG - Brasil tema (Picone, 1991). Devido ao fato de nas extremidades das janelas o sinal analisado sofrer um amortecimento excessivo em suas amostras, fazse necessário à utilização de um processo denominado sobreposição para controlar quão rapidamente os parâmetros do sinal podem mudar de segmento para segmento. Em processamento de voz a janela mais utilizada é a de Hamming, que é um caso particular da janela de Hanning dada por: αω − (1 − αω )cos(2nπ)/(NS − 1) βω ω(n) = 2.2 Experimentos com a percepção humana tem mostrado que frequências de um som complexo dentro de uma certa largura de banda de alguma frequência nominal não pode ser individualmente identificada. Quando um dos componentes deste som está fora da largura de banda considerada, essa componente não pode ser distinguida. Normalmente, considera-se uma largura de banda crı́tica para voz como sendo de 10% a 20% da frequência central do som considerado. Uma das formas mais populares de se mapear a frequência de um dado sinal de som para valores de freqências perceptuais, isto é, capaz de excitar a audição humana, é através da escala mel (Picone, 1991). Esta escala tenta mapear as frequências perceptı́veis de um tom ou de uma frequência de pitch em uma escala linear. Neste artigo utilizou-se uma frequência limite para segmentação uniforme Fu = 1kHz, uma distribuição em 10 intervalos uniformes, uma frequência de amostragem mı́nima de 8kHz e a escala mel (Rabiner and Biing-Hwang, 1993) dada por: f (6) mel = 2595log 1 + 700 (3) onde αω = 0.54, com 0≤n≤NS e ω(n)=0 para n fora do intervalo; αω é definida como uma constante no intervalo [0,1], NS é o tempo de duração da janela e βω é uma constante de normalização definida tal que o valor da raiz média quadrática (rms) da janela é igual a unidade, como segue: v u NS −1 u1 X ω 2 (n). βω = t N n=0 Codificação em coeficientes mel-cepstrais (4) Assim, a cada novo segmento apenas uma fração do sinal irá mudar. Na figura 2 é ilustrado um processo de segmentação e janelamento onde são tomados N segmentos de K amostras do sinal. O banco de filtros utilizado abrange a faixa de 0 a 4600Hz sendo distribuı́do em 20 filtros, e, através da Transformada rápida de Fourier (FFT), gera-se a saı́da log-energia já devidamente espaçada na escala mel denominada de em. 1 ... 0.5 Amplitude do sinal 2.3 0 Os coefecientes mel-cepstrais,mf cc são calculados através da seguinte equação: -0.5 NF X -1 segmento 0 -1.5 Geração da matriz temporal bidimensionalTCD 0 segmento 1 K segmento 2 2K segmento 3 3K segmento ( N-1) ... 4K (N-2)K (N-1)K Análise de segmentos da palavra zero com sobreposição entre as janelas 12000 Figura 2: Análise de segmentos da palavra com sobreposição entre as janelas. A sobreposição entre as janelas é dada por: Tw − Tf sobreposição(%) = × 100 Tw (5) onde Tw é o tempo de duração da janela e Tf é o tempo de duração do segmento. Assim, por exemplo, a combinação do perı́odo do segmento de 20ms e duração de janela de 30ms corresponde a aproximadamente 33% de sobreposição. O objetivo da sobreposição é reduzir o ruı́do introduzido pelo janelamento e o ruı́do de canal não estacionário. ISSN: 2175-8905 - Vol. X t (k − 0.5) em(k)cos mf cc(t+1) = mf cc(t)+ N F.π k=1 (7) onde em são os coeficientes mel-cepstrais e N F é o número de filtros. A matriz de coeficientes mel-cepstrais de duas dimensões, que é resultado da TCD realizada em uma seqüência de T vetores de observação de coeficientes mel-cepstrais no eixo do tempo, é obtida pela equação: Ck (n, T ) = T (2t − 1)nπ 1X mf cck (t)cos T t=1 2T (8) onde k, 1 ≤ k ≤ K, refere-se a k-ésima (linha) componente do t−ésimo segmento da matriz e n, 1 ≤ n ≤ N (coluna), refere-se a ordem da TCD. Dessa forma, obtém-se a matriz de duas dimensões, onde o interesse está nos coeficientes de baixa ordem de k e n que codificam as variações de longo prazo do envelope espectral do sinal de voz (L. Fissore and Rivera, 1997). Este procedimento 1056 X SBAI – Simpósio Brasileiro de Automação Inteligente 18 a 21 de setembro de 2011 São João del-Rei - MG - Brasil é realizado para cada palavra falada. Assim, temse uma matriz bidimensional Ck (n, T ) para cada sinal de entrada. Os elementos da matriz são obtidos da seguinte forma: 1. Para uma dada palavra P são tomados dez exemplos de pronúncias dessa palavra. Esses exemplos são devidamente codificados em T segmentos distribuı́dos ao longo do eixo do tempo; 2. Cada segmento de um dado exemplo da palavra P gera uma quantidade K de coeficientes mel-cepstrais, dessa forma são retiradas às caracterı́sticas significantes para cada segmento ao longo do tempo. Calcula-se a TCD de ordem N para cada coeficiente melcepstral de mesma ordem dentro dos segmentos distribuı́dos ao longo do eixo do tempo, isto é, a TCD de ordem N será calculada para os coeficientes c1 do segmento t = 1, c1 do segmento t = 2, ..., c1 do segmento t = T , e assim por diante gerando os elementos c11 , c12 , c13 , ..., c1N da matriz dada na equação (8), até mapear todos os coeficientes em todos os segmentos. Assim, é gerada uma matriz para cada exemplo da palavra P; 3. São calculadas uma matriz de média e uma de variância para representar o modelo da palavra P. A seguir tem-se as matrizes 0 c11 C0 = c021 1 c11 C1 = c121 formadas: c012 c022 c112 c122 .. . 9 C = 2.4 c911 c921 c912 c922 Sistema heurı́stico de inferência fuzzy para decisão A etapa de decisão é realizada por um sistema heurı́stico de inferência fuzzy baseado no conjunto de regras obtidas a partir das médias e das variâncias das matrizes temporais de duas dimensões de cada palavra falada. Para este artigo optouse por utilizar uma matriz com o número mı́nimo possı́vel de parâmetros (2 × 2) e que ainda permita um desempenho satisfatório quando comparado com reconhecedores de padrões disponı́veis na literatura. Os elementos das matrizes Cj , com j = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, onde j representa o padrão usado no treinamento, são utilizados pelo sistema de inferência fuzzy para gerar quatro funções de pertinência gaussianas, correspondente a cada elemento cjkn k=1,2;n=1,2 da matriz. ISSN: 2175-8905 - Vol. X O modelo do sistema de inferência fuzzy para o reconhecimento é dado na figura 3. A implemenBase de Regras Fuzzy Cknj Padrão a ser reconhecido Fuzificador: Geração das funções de pertinência j Inferência Fuzzy Dígito identificado Figura 3: Sistema fuzzy utilizado no reconhecimento. tação do sistema heurı́sitico de inferência TCDFuzzy utiliza funções gaussianas para a geração das funções de pertinência, onde foram tomadas as médias e variâncias dos elementos da matriz Cj correspondente a cada padrão. Deste modo, para cada função pertinência, tem-se o grau de de pertinência µ cjkn dado conforme segue: µ cj11 = µ0c11 µ1c11 µ2c11 µ3c11 . . . µ9c11 µ cj12 = µ0c12 µ1c12 µ2c12 µ3c12 . . . µ9c12 µ cj21 = µ0c21 µ1c21 µ2c21 µ3c21 . . . µ9c21 µ cj22 = µ0c22 µ1c22 µ2c22 µ3c22 . . . µ9c22 O grau de ativação da regra é dado por: hji cjkn = µjc11 × µjc12 × µjc21 × µjc22 (9) (10) (11) (12) (13) onde j = 0, 1, 2, ..., 9 representa o padrão e i = 1, 2, 3, ..., 10 representa o ı́ndice da regra. O vetor do grau de ativação de cada regra é dado por: (14) hi = h01 h12 h23 h34 h45 h56 h67 h78 h89 h910 O grau de ativação normalizado da regra é dado por: hj yij = PL i j (15) l=1 hl e L X yij = 1 (16) l=1 onde L = 10. O sistema heurı́stico de inferência fuzzy para reconhecimento toma a decisão através das bases de regras, escolhendo o maior valor do vetor dado na equação (15). 3 Resultados Experimentais j Os parâmetros da matriz Ckn e as variâncias dos seus elementos foram utilizados na fuzzificação dos padrões, onde foram geradas as funções de pertinências, mostradas nas figuras 4 a 7. Assim, para cada padrão j treinado tem-se um conjunto de 1057 X SBAI – Simpósio Brasileiro de Automação Inteligente 18 a 21 de setembro de 2011 São João del-Rei - MG - Brasil Funções de Pertinência - FCM 1 C1 C4 0.9 0.8 C8 C5 C1 0.9 C6 0.8 C3 C5 C8 C4 C7 C9 C0 0.7 0.6 0.5 0.4 0.3 C3 0.2 C9 0.7 Grau de Pertinência C2 C6 C7 C0 C2 Funções de Pertinência - FCM 1 Grau de Pertinência centros correspondente aos elementos cjkn da matriz temporal Cj , utilizados para a fuzzificação dos padrões, onde foram geradas as funções, respectivamente. Essas funções serão utilizadas para medir o grau de similaridade da palavra a ser reconhecida com os padrões do modelo. 0.1 0.6 0 -0.4 0.5 0.4 -0.3 -0.2 -0.1 0 0.1 0.2 Universo de Discurso - Antecedente:C22 0.3 0.4 j Figura 7: Função de pertinência do parâmetro C22 0.3 0.2 3.1 0.1 0 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 Universo de Discurso - Antecedente:C11 0.3 0.4 j Figura 4: Função de pertinência do parâmetro C11 Funções de Pertinência - FCM 1 C5 C6 0.9 C3 C7 C1 C2 C9 C4 C0 C8 0.8 Grau de Pertinência 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 Universo de Discurso - Antecedente:C12 0.3 0.4 j Figura 5: Função de pertinência do parâmetro C12 Treinamento do Sistema Na fase de treinamento, para a parametrização dos modelos, foram utilizados doze locutores, sendo sete masculinos (locutores de 1 a 6 e locutor 11) e cinco femininos (locutores de 7 a 10 e locutor 12) distribuı́dos como segue: 1. Os locutores de 1 a 10 falaram, em duas séries, os dı́gitos de 0 a 9 num total de 200 locuções pronunciadas em ambiente com baixos nı́veis de ruı́do (laboratório), das quais as 100 primeiras foram utilizadas para treinamento. Assim, por exemplo, para o dı́gito zero foram pronunciadas dez locuções por locutores diferentes e, sucessivamente, para os demais dı́gitos. Para cada dez exemplos de um dı́gito (padrão) foi gerada uma matriz Cj . Para finalizar o cômputo das matrizes de treinamento realizou-se o cálculo da média e da variância dos elementos da matriz Cj , gerando-se assim duas matrizes de ordem (2 × 2), uma de média e outra de variância que representam os parâmetros do padrão de cada dı́gito. As outras 100 locuções foram utilizadas no procedimento de teste. Funções de Pertinência - FCM 1 C8 0.9 C3 C9 C7 0.8 C0 C4 0.7 Grau de Pertinência 2. Os locutores 11 e 12 falaram, também, em duas séries tomadas em dias diferentes e horários diferentes, em condições diferentes, dez vezes os dı́gitos de 0 a 9 num total de cem locuções por série, visando, também, os procedimentos de teste. C5 C6 C2 C1 0.6 0.5 0.4 3.2 0.3 0.2 0.1 0 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 Universo de Discurso - Antecedente:C21 0.3 0.4 j Figura 6: Função de pertinência do parâmetro C21 ISSN: 2175-8905 - Vol. X Modo teste Neste modo, utilizou-se, 100 locuções pronunciadas em ambiente com controle de nı́vel de ruı́do e 400 locuções pronunciadas em ambiente sem nenhum tipo de controle de ruı́do. Para cada dez exemplos de cada dı́gito falado, foi gerada uma matriz temporal de coeficientes cepstrais bidimensional Cj , utilizada no procedimento de 1058 X SBAI – Simpósio Brasileiro de Automação Inteligente 18 a 21 de setembro de 2011 São João del-Rei - MG - Brasil teste. Efetivamente, foram realizados cinco tipos de testes: 1. TESTE 1: Reconhecimento estritamente dependente do locutor, onde as palavras utilizadas para o treinamento e testes foram pronunciadas por um mesmo grupo de 10 locutores. 2. TESTE 2: Reconhecimento com dependência parcial do locutor, onde o locutor submetido ao reconhecimento participou do processo de treinamento com dois exemplos para cada dez exemplos de cada dı́gito (Locutor masculino). 3. TESTE 3: Reconhecimento com dependência parcial do locutor, onde o locutor submetido ao reconhecimento participou do processo de treinamento com dois exemplos para cada dez exemplos de cada dı́gito (Locutor feminino). 4. TESTE 4: Reconhecimento independente do locutor, onde o locutor submetido aos testes não teve nenhuma participação no processo de treinamento dos modelos (Locutor masculino). 5. TESTE 5: Reconhecimento independente do locutor, onde o locutor submetido aos testes não teve nenhuma participação no processo de treinamento dos modelos (Locutor feminino). A tabela 1 mostra a análise do desempenho do sistema TCD-Fuzzy para o reconhecimento de voz, considerando-se a ordem mı́nima da matriz temporal com coeficientes mel-cepstrais e, submetido aos testes supracitados. Observa-se, claramente, a eficiência da metodologia proposta comparada com o método HMM, sob as mesmas condições de testes, largamente usado na literatura. O algoritmo HMM utilizado nesta análise apresenta as seguintes caracterı́sticas: discreto, dois estados e dois parâmetros, matriz de covariância diagonal e coeficientes bidimensionais variável. TESTE TESTE TESTE TESTE TESTE 1 2 3 4 5 TCD 90% 78% 75% 71% 78% TCD-Fuzzy 89% 84% 79% 75% 82% HMM 84% 50% 66% 71% 50% Tabela 1: Resultados dos testes com o TCD-Fuzzy e HMM. 4 Conclusões Observa-se pelos resultados que a proposta de Reconhecedor de voz baseado em um classificador TCD-Fuzzy, mesmo com uma quantidade mı́nima de parâmetros nos padrões gerados foi capaz de ISSN: 2175-8905 - Vol. X extrair mais fielmente as caracterı́sticas temporais do sinal de voz e apresentar bons resultados de reconhecimento, quando comparado com o HMM com 2 misturas e 2 parâmetros. No desenvolvimento deste trabalho não foi utilizada nenhuma técnica de especı́fica de redução de ruı́do, tais como os utilizados normalmente nos reconhecedores baseados em HMM. Acredita-se que com o tratamento adequado da relação sinal-ruı́do nos processos de treinamento e teste, poderá acarretar em um melhor desenvolvimento do Reconhecedor TCD-Fuzzy. Um aumento nos exemplos utilizados no banco de geração dos padrões poderá aumentar o grau de confiabilidade melhorando também o desempenho do TCD-Fuzzy. Agradecimentos Os autores nanceiro, e Engenharia o primeiro doutorado. agradecem ao IFMA pelo apoio fiao Programa de Pós-Graduação em de Eletricidade da UFMA no qual autor desenvolve seu trabalho de Referências Andrews, H. C. (1971). Multidimensional Rotations in Feature Selection, IEEE Transaction on Computers. Fu, K. (1968). Sequential Methods in Pattern Recognition and Machine Learning, Acadmic Press, New York. L. Fissore, P. L. and Rivera, E. (1997). Using word temporal structure in HMM Speech recongnition, ICASSP 97, vol.2, p.975-978, MunichGermany. N. Ahmed, T. N. and Rao, K. (1974). Discrete Cosine Trasnform, vol.c-24 edn, IEEE Transaction on Computers. Picone, J. W. (1991). Signal modeling techiniques in speech recognition, vol.2 edn, IEEE Transactions on Computer, vol.79, n.4, p.12141247. Rabiner, L. and Biing-Hwang, J. (1993). Fundamentals of Speech Recognition, Prentice Hall, New Jersey. Shenouda, S.D., D. F. W. Z. and Goneid, D. A. (2006). Hybrid Fuzzy HMM System for Arabic Connectionist Speech Recognition, The 23rd National U.Jio Science Conference (NRSC 2006), Egypt. Yong-Qian and Woo, Y. P.-Y. (1999). Speech Recognition Using Fuzzy Logic, IEEE, Northern Illinois University, Dekalb. 1059