X SBAI – Simpósio Brasileiro de Automação Inteligente
18 a 21 de setembro de 2011
São João del-Rei - MG - Brasil
PROPOSTA DE METODOLOGIA TCD-FUZZY PARA RECONHECIMENTO DE VOZ
Washington L. S. Silva∗ Ginalber L. O. Serra∗
∗
Instituto Federal de Educação, Ciência e Tecnologia do Maranhão, Departamento de Eletro-Eletrônica,
Laboratório de Inteligência Computacional Aplicada à Tecnologia.
AV. Getúlio Vargas, no 04 - Monte Castelo
São Luis, Maranhão, Brasil
Email: [email protected]@ifma.edu.br
Abstract— The use Discrete Cosine Transform (DCT) in data compression and pattern classification has
increased in recent years, and this is mainly due to the fact that their performance much closer to the results
obtained with the Karhunen-Loève transform that is considered optimum in a variety of criterion. In this paper
we search to demonstrate the potential of Discrete Cosine Transform and Fuzzy Systems in speech recognition.
These two tools showed good temporal modeling of speech signal. After discussing the mathematical modeling
of the speech used in this article, we discuss briefly the extraction of temporal characteristics of the speech signal
and sets up a system for an automated speech recognizing, as a classifier, which extracts the characteristics of
the phrase , mel-cepstrals coefficients in two dimensions and through Discrete Cosine Transform are presented
the patterns for the fuzzy classifier.
Discrete cosine transform, speech recongnition, fuzzy systems, mel-cepstral.
Keywords—
Resumo— A utilização da transformada discreta cosseno (TCD) na compressão de dados e na classificação de
padrões aumentou muito nos últimos anos, e isso deve-se principalmente ao fato do seu desempenho aproximar-se
muito dos resultados obtidos com a transformada de Karhunen-Loève que é considerada ótima em uma variedade
de critérios. Neste trabalho procura-se demonstrar o potencial da Transformada Cosseno Discreta, bem como
Sistemas Fuzzy no reconhecimento de voz. Essas duas ferramentas mostraram bons resultados no modelamento
temporal do sinal de voz. Após uma exposição do modelamento matemático da voz utilizado neste artigo,
aborda-se de forma sucinta a extração das caracterı́sticas temporais do sinal de voz e define-se um sistema de
reconhecimento automático de voz, que extrai as caracterı́sticas temporais e expectrais das locuções através de
coeficientes mel cepstrais de duas dimensões, da transformada discreta cosseno. Então essas caracterı́sticas são
apresentadas padrões para o classificador fuzzy.
Transformada cosseno discreta, reconhecimento de voz, sistema fuzzy, mel- cepstral.
Keywords—
1
Introdução
A base para a maioria dos algoritmos de processamento digital de voz é um modelo de sistema
no tempo discreto para a produção de amostras
do sinal de voz. A parametrização, isto é, codificação de um sinal analógico de voz, é um dos
primeiros passos no processo de reconhecimento
de voz. Várias técnicas de análise de sinal têm
sido sugeridas na literatura especializada. Essas
técnicas, normalmente, pretendem produzir representações paramétricas com algum significado
perceptual da voz, onde se procura destacar as
caracterı́sticas mais importantes da voz para maximizar o desempenho no processo de reconhecimento (Picone, 1991).
A seleção das melhores representações
paramétricas do sinal de voz é uma tarefa muito
importante no desenvolvimento de qualquer
sistema de reconhecimento de voz. O objetivo
da seleção da melhor forma de codificar o sinal
é comprimir os dados de voz eliminando informações não pertencentes à análise fonética do
sinal e melhorar aqueles aspectos do sinal que
contribuem significativamente às detecções das
diferenças fonéticas dos sons de voz (Rabiner
and Biing-Hwang, 1993).
O problema de reconhecimento de padrões
pode ser formulado como segue: sejam Sk classes,
ISSN: 2175-8905 - Vol. X
onde k = 1, 2, 3...K, contidas num espaço de
padrões com dimensão ℜn . Tomando-se um espaço qualquer de padrões com dimensão ℜx , onde
x ≤ n, pode tranformar-se em um novo espaço de
padrões com dimensão ℜa , onde a < x ≤ n. Então, supondo-se uma estatı́stica de segunda ordem
medida ou modelada para cada Sk , através
h de uma
i
(k)
função de covariância representada por Φx , a
matriz de covariância generalizada descritiva do
problema de reconhecimento de padrões torna-se:
[Φx ] =
K
X
k=1
i
h
P (Sk ) Φ(k)
x
(1)
onde P (Sk ) é uma função de distribuição da classe
Sk , a priori, com 0 ≤ P (Sk ) ≤ 1. Uma tranformação linear fornecida por um operador unitário
A irá mapear o espaço de padrões dentro de um
espaço transformado onde os vetores bases serão
colunas ortogonais dessa matriz. Os padrões do
novo espaço são combinações lineares dos eixos
originais conforme a estrutura da matriz A. A
estatı́stica de segunda ordem no espaço transformado é dada por:
ΦA = AT [Φx ]A
(2)
onde ΦA corresponde à matriz de covariância no
espaço gerado pela matriz A e o operador [·]T
1054
X SBAI – Simpósio Brasileiro de Automação Inteligente
18 a 21 de setembro de 2011
São João del-Rei - MG - Brasil
corresponde à transposta de uma matriz. A partir de então, pode-se extrair caracterı́sticas que
forneçam maior poder discriminatório para a classificação a partir da dimensão do espaço gerado
(Andrews, 1971).
Uma das mais difundidas técnicas para reconhecimento dos padrões de voz é o ”Hidden Markov
Model (HMM)” (Shenouda and Goneid, 2006),
(Yong-Qian and Woo, 1999). Apesar de sua capacidade de reconhecimento, é bem conhecido que
uma das principais deficiências do HMM clássico
está relacionada com o modelamento inadequado
da duração do evento acústico associado com cada
estado. Desde que a probabilidade de recorrência
para o mesmo estado é constante, a probabilidade
de duração do evento acústico associado com o estado tem uma probabilidade exponencial decrescente com o tempo. A hipótese básica é que a
voz é um sinal quase estacionário e a sua parte
estacionária pode ser representada por um simples estado do HMM. Este tipo de duração não
representa a estrutura temporal da voz.
Outra fragilidade do HMM é a hipótese de
que dentro de cada estado os vetores observações
são não correlacionados, enquanto na realidade o
que acontece é o oposto da hipótese admitida. Freqüentemente erros ocorrem porque uma sequência
de observação é decodificada por poucos estados,
tipicamente absorvendo segmentos de baixa energia e com alta probabilidade de duração. Os outros estados, em vez disso, são rapidamente atravessados devido a sua distribuição não se adaptar
bem ao restante da observação. Esses erros, portanto, não dependem da confusão intrı́nseca de
palavras de acústica semelhantes, mas principalmente pela falta de boa modelagem da duração
do evento acústico o que produz hipótese fracamente relacionada à acústica da palavra correta
(L. Fissore and Rivera, 1997).
Para justificar a estrutura dinâmica dos vetores de observação, incluindo as variações locais
e globais, este artigo, propõe um sistema de reconhecimento de voz de dı́gitos isolados que não
se baseia diretamente no modelamento da duração
estado/palavra; em vez disso, baseia-se nas variações globais das caracterı́sticas espectrais de cada
palavra e sua correlação no tempo, duas importantes caracterı́sticas que são exploradas parcialmente pelo HMM clássico.
Este artigo propõe um sistema de
parametrização e reconhecimento do sinal de
voz, utilizando-se a Transformada Cosseno
Discreta (TCD) (N. Ahmed and Rao, 1974)
e sistema de inferência fuzzy. A utilização da
TCD na compressão de dados e na classificação
de padrões aumentou muito nos últimos anos,
e isso deve-se principalmente ao fato do seu
desempenho aproximar-se muito dos resultados
obtidos com a transformada de Karhunen-Loève
que é considerada ótima para uma variedade de
ISSN: 2175-8905 - Vol. X
critérios onde o erro quadrático médio de truncamento e a entropia são dois deles (Fu, 1968).
As duas ferramentas utilizadas neste trabalho
mostraram bons resultados no modelamento
temporal do sinal de voz. Após uma exposição do
modelamento matemático da voz utilizado neste
artigo, aborda-se de forma sucinta a extração das
caracterı́sticas temporais do sinal de voz e definese um sistema de reconhecimento automático de
voz, onde são utilizadas as caracterı́sticas das
locuções através dos coeficientes mel cepstrais de
duas dimensões, transformada cosseno discreta
são apresentados os padrões para o classificador
fuzzy.
2
Sistema de Reconhecimento de voz
TCD-Fuzzy
Na figura 1 mostra-se o diagrama de bloco do sistema proposto para o reconhecimento do sinal de
voz.
Arquitetura do sistema de reconhecimento
Segmentação
e Janelamento
do sinal de voz
Sinal de Voz
Codificação em
Coeficientes
Mel-cepstrais
Decisão Fuzzy
Reconhecimetno
Geração da Matriz
temporal bidimensinalTCD
Figura 1: Diagrama de bloco do sistema de reconhecimento
Inicialmente o sinal de voz é dividido em segmentos, os quais são janelados e em seguida codificados em uma quantidade de parâmetros definidos
pela ordem dos coeficientes mel-cepstrais. Os coeficientes TCD são calculados e, finalmente, as
funções de pertinências dos padrões são geradas
para inferências no reconhecimento final do sinal
de voz.
2.1
Segmentação e janelamento do sinal de voz
Quando uma janela retangular é aplicada a um
determinado sinal, ela seleciona uma pequena
parcela deste sinal, a qual será analisada, denominada segmento. A análise de Fourier de curtoprazo efetuada sobre esses segmentos, é chamada
análise de sinal segmento por segmento. A duração do segmento Tf é definida como a extensão
de tempo sobre a qual um conjunto de parâmetros é considerado válido. O perı́odo do segmento
é utilizado para determinar a extensão de tempo
entre os cálculos de sucessivos parâmetros. Para
processamento de voz, tipicamente, o perı́odo de
segmento está entre 10ms e 30ms. Valores nesta
faixa representam um compromisso entre a razão
de mudança do espectro e a complexidade do sis-
1055
X SBAI – Simpósio Brasileiro de Automação Inteligente
18 a 21 de setembro de 2011
São João del-Rei - MG - Brasil
tema (Picone, 1991). Devido ao fato de nas extremidades das janelas o sinal analisado sofrer um
amortecimento excessivo em suas amostras, fazse necessário à utilização de um processo denominado sobreposição para controlar quão rapidamente os parâmetros do sinal podem mudar de
segmento para segmento. Em processamento de
voz a janela mais utilizada é a de Hamming, que
é um caso particular da janela de Hanning dada
por:
αω − (1 − αω )cos(2nπ)/(NS − 1)
βω
ω(n) =
2.2
Experimentos com a percepção humana tem
mostrado que frequências de um som complexo
dentro de uma certa largura de banda de alguma frequência nominal não pode ser individualmente identificada. Quando um dos componentes
deste som está fora da largura de banda considerada, essa componente não pode ser distinguida.
Normalmente, considera-se uma largura de banda
crı́tica para voz como sendo de 10% a 20% da frequência central do som considerado. Uma das formas mais populares de se mapear a frequência de
um dado sinal de som para valores de freqências
perceptuais, isto é, capaz de excitar a audição humana, é através da escala mel (Picone, 1991). Esta
escala tenta mapear as frequências perceptı́veis de
um tom ou de uma frequência de pitch em uma escala linear. Neste artigo utilizou-se uma frequência limite para segmentação uniforme Fu = 1kHz,
uma distribuição em 10 intervalos uniformes, uma
frequência de amostragem mı́nima de 8kHz e a escala mel (Rabiner and Biing-Hwang, 1993) dada
por:
f
(6)
mel = 2595log 1 +
700
(3)
onde αω = 0.54, com 0≤n≤NS e ω(n)=0 para n
fora do intervalo; αω é definida como uma constante no intervalo [0,1], NS é o tempo de duração
da janela e βω é uma constante de normalização
definida tal que o valor da raiz média quadrática
(rms) da janela é igual a unidade, como segue:
v
u NS −1
u1 X
ω 2 (n).
βω = t
N n=0
Codificação em coeficientes mel-cepstrais
(4)
Assim, a cada novo segmento apenas uma
fração do sinal irá mudar. Na figura 2 é ilustrado
um processo de segmentação e janelamento onde
são tomados N segmentos de K amostras do sinal.
O banco de filtros utilizado abrange a faixa
de 0 a 4600Hz sendo distribuı́do em 20 filtros,
e, através da Transformada rápida de Fourier
(FFT), gera-se a saı́da log-energia já devidamente
espaçada na escala mel denominada de em.
1
...
0.5
Amplitude do sinal
2.3
0
Os coefecientes mel-cepstrais,mf cc são calculados
através da seguinte equação:
-0.5
NF
X
-1
segmento 0
-1.5
Geração da matriz temporal bidimensionalTCD
0
segmento 1
K
segmento 2
2K
segmento 3
3K
segmento ( N-1)
...
4K
(N-2)K
(N-1)K
Análise de segmentos da palavra zero com sobreposição entre as janelas
12000
Figura 2: Análise de segmentos da palavra com
sobreposição entre as janelas.
A sobreposição entre as janelas é dada por:
Tw − Tf
sobreposição(%) =
× 100
Tw
(5)
onde Tw é o tempo de duração da janela e Tf é
o tempo de duração do segmento. Assim, por exemplo, a combinação do perı́odo do segmento de
20ms e duração de janela de 30ms corresponde a
aproximadamente 33% de sobreposição. O objetivo da sobreposição é reduzir o ruı́do introduzido
pelo janelamento e o ruı́do de canal não estacionário.
ISSN: 2175-8905 - Vol. X
t (k − 0.5)
em(k)cos
mf cc(t+1) = mf cc(t)+
N F.π
k=1
(7)
onde em são os coeficientes mel-cepstrais e N F
é o número de filtros. A matriz de coeficientes
mel-cepstrais de duas dimensões, que é resultado
da TCD realizada em uma seqüência de T vetores
de observação de coeficientes mel-cepstrais no eixo
do tempo, é obtida pela equação:
Ck (n, T ) =
T
(2t − 1)nπ
1X
mf cck (t)cos
T t=1
2T
(8)
onde k, 1 ≤ k ≤ K, refere-se a k-ésima (linha)
componente do t−ésimo segmento da matriz e
n, 1 ≤ n ≤ N (coluna), refere-se a ordem da TCD.
Dessa forma, obtém-se a matriz de duas dimensões, onde o interesse está nos coeficientes de baixa
ordem de k e n que codificam as variações de
longo prazo do envelope espectral do sinal de voz
(L. Fissore and Rivera, 1997). Este procedimento
1056
X SBAI – Simpósio Brasileiro de Automação Inteligente
18 a 21 de setembro de 2011
São João del-Rei - MG - Brasil
é realizado para cada palavra falada. Assim, temse uma matriz bidimensional Ck (n, T ) para cada
sinal de entrada. Os elementos da matriz são obtidos da seguinte forma:
1. Para uma dada palavra P são tomados dez
exemplos de pronúncias dessa palavra. Esses
exemplos são devidamente codificados em T
segmentos distribuı́dos ao longo do eixo do
tempo;
2. Cada segmento de um dado exemplo da
palavra P gera uma quantidade K de coeficientes mel-cepstrais, dessa forma são retiradas às caracterı́sticas significantes para
cada segmento ao longo do tempo. Calcula-se
a TCD de ordem N para cada coeficiente melcepstral de mesma ordem dentro dos segmentos distribuı́dos ao longo do eixo do tempo,
isto é, a TCD de ordem N será calculada
para os coeficientes c1 do segmento t = 1,
c1 do segmento t = 2, ..., c1 do segmento
t = T , e assim por diante gerando os elementos c11 , c12 , c13 , ..., c1N da matriz dada na
equação (8), até mapear todos os coeficientes
em todos os segmentos. Assim, é gerada uma
matriz para cada exemplo da palavra P;
3. São calculadas uma matriz de média e uma
de variância para representar o modelo da
palavra P.
A seguir tem-se as matrizes
0
c11
C0 =
c021
1
c11
C1 =
c121
formadas:
c012
c022
c112
c122
..
.
9
C =
2.4
c911
c921
c912
c922
Sistema heurı́stico de inferência fuzzy para
decisão
A etapa de decisão é realizada por um sistema
heurı́stico de inferência fuzzy baseado no conjunto
de regras obtidas a partir das médias e das variâncias das matrizes temporais de duas dimensões
de cada palavra falada. Para este artigo optouse por utilizar uma matriz com o número mı́nimo
possı́vel de parâmetros (2 × 2) e que ainda permita um desempenho satisfatório quando comparado com reconhecedores de padrões disponı́veis
na literatura. Os elementos das matrizes Cj ,
com j = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, onde j representa
o padrão usado no treinamento, são utilizados
pelo sistema de inferência fuzzy para gerar quatro funções de pertinência gaussianas, correspondente a cada elemento cjkn k=1,2;n=1,2 da matriz.
ISSN: 2175-8905 - Vol. X
O modelo do sistema de inferência fuzzy para o
reconhecimento é dado na figura 3. A implemenBase de
Regras Fuzzy
Cknj
Padrão a ser
reconhecido
Fuzificador:
Geração das
funções de
pertinência
j
Inferência
Fuzzy
Dígito identificado
Figura 3: Sistema fuzzy utilizado no reconhecimento.
tação do sistema heurı́sitico de inferência TCDFuzzy utiliza funções gaussianas para a geração
das funções de pertinência, onde foram tomadas
as médias e variâncias dos elementos da matriz
Cj correspondente a cada padrão. Deste modo,
para cada função
pertinência, tem-se o grau de
de
pertinência µ cjkn dado conforme segue:
µ cj11 = µ0c11 µ1c11 µ2c11 µ3c11 . . . µ9c11
µ cj12 = µ0c12 µ1c12 µ2c12 µ3c12 . . . µ9c12
µ cj21 = µ0c21 µ1c21 µ2c21 µ3c21 . . . µ9c21
µ cj22 = µ0c22 µ1c22 µ2c22 µ3c22 . . . µ9c22
O grau de ativação da regra é dado por:
hji cjkn = µjc11 × µjc12 × µjc21 × µjc22
(9)
(10)
(11)
(12)
(13)
onde j = 0, 1, 2, ..., 9 representa o padrão e i =
1, 2, 3, ..., 10 representa o ı́ndice da regra. O vetor
do grau de ativação de cada regra é dado por:
(14)
hi = h01 h12 h23 h34 h45 h56 h67 h78 h89 h910
O grau de ativação normalizado da regra é dado
por:
hj
yij = PL i j
(15)
l=1 hl
e
L
X
yij = 1
(16)
l=1
onde L = 10. O sistema heurı́stico de inferência
fuzzy para reconhecimento toma a decisão através
das bases de regras, escolhendo o maior valor do
vetor dado na equação (15).
3
Resultados Experimentais
j
Os parâmetros da matriz Ckn
e as variâncias dos
seus elementos foram utilizados na fuzzificação dos
padrões, onde foram geradas as funções de pertinências, mostradas nas figuras 4 a 7. Assim, para
cada padrão j treinado tem-se um conjunto de
1057
X SBAI – Simpósio Brasileiro de Automação Inteligente
18 a 21 de setembro de 2011
São João del-Rei - MG - Brasil
Funções de Pertinência - FCM
1
C1
C4
0.9
0.8
C8
C5
C1
0.9
C6
0.8
C3
C5
C8
C4 C7
C9
C0
0.7
0.6
0.5
0.4
0.3
C3
0.2
C9
0.7
Grau de Pertinência
C2
C6
C7
C0
C2
Funções de Pertinência - FCM
1
Grau de Pertinência
centros correspondente aos elementos cjkn da matriz temporal Cj , utilizados para a fuzzificação dos
padrões, onde foram geradas as funções, respectivamente. Essas funções serão utilizadas para
medir o grau de similaridade da palavra a ser reconhecida com os padrões do modelo.
0.1
0.6
0
-0.4
0.5
0.4
-0.3
-0.2
-0.1
0
0.1
0.2
Universo de Discurso - Antecedente:C22
0.3
0.4
j
Figura 7: Função de pertinência do parâmetro C22
0.3
0.2
3.1
0.1
0
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
Universo de Discurso - Antecedente:C11
0.3
0.4
j
Figura 4: Função de pertinência do parâmetro C11
Funções de Pertinência - FCM
1
C5
C6
0.9
C3
C7
C1
C2
C9
C4
C0
C8
0.8
Grau de Pertinência
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
Universo de Discurso - Antecedente:C12
0.3
0.4
j
Figura 5: Função de pertinência do parâmetro C12
Treinamento do Sistema
Na fase de treinamento, para a parametrização dos
modelos, foram utilizados doze locutores, sendo
sete masculinos (locutores de 1 a 6 e locutor 11) e
cinco femininos (locutores de 7 a 10 e locutor 12)
distribuı́dos como segue:
1. Os locutores de 1 a 10 falaram, em duas
séries, os dı́gitos de 0 a 9 num total de
200 locuções pronunciadas em ambiente com
baixos nı́veis de ruı́do (laboratório), das quais
as 100 primeiras foram utilizadas para treinamento. Assim, por exemplo, para o dı́gito
zero foram pronunciadas dez locuções por locutores diferentes e, sucessivamente, para os
demais dı́gitos. Para cada dez exemplos de
um dı́gito (padrão) foi gerada uma matriz
Cj . Para finalizar o cômputo das matrizes
de treinamento realizou-se o cálculo da média e da variância dos elementos da matriz
Cj , gerando-se assim duas matrizes de ordem
(2 × 2), uma de média e outra de variância
que representam os parâmetros do padrão de
cada dı́gito. As outras 100 locuções foram
utilizadas no procedimento de teste.
Funções de Pertinência - FCM
1
C8
0.9
C3
C9
C7
0.8
C0
C4
0.7
Grau de Pertinência
2. Os locutores 11 e 12 falaram, também, em
duas séries tomadas em dias diferentes e
horários diferentes, em condições diferentes,
dez vezes os dı́gitos de 0 a 9 num total de
cem locuções por série, visando, também, os
procedimentos de teste.
C5
C6
C2
C1
0.6
0.5
0.4
3.2
0.3
0.2
0.1
0
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
Universo de Discurso - Antecedente:C21
0.3
0.4
j
Figura 6: Função de pertinência do parâmetro C21
ISSN: 2175-8905 - Vol. X
Modo teste
Neste modo, utilizou-se, 100 locuções pronunciadas em ambiente com controle de nı́vel de
ruı́do e 400 locuções pronunciadas em ambiente
sem nenhum tipo de controle de ruı́do. Para
cada dez exemplos de cada dı́gito falado, foi gerada uma matriz temporal de coeficientes cepstrais
bidimensional Cj , utilizada no procedimento de
1058
X SBAI – Simpósio Brasileiro de Automação Inteligente
18 a 21 de setembro de 2011
São João del-Rei - MG - Brasil
teste. Efetivamente, foram realizados cinco tipos
de testes:
1. TESTE 1: Reconhecimento estritamente dependente do locutor, onde as palavras utilizadas para o treinamento e testes foram pronunciadas por um mesmo grupo de 10 locutores.
2. TESTE 2: Reconhecimento com dependência
parcial do locutor, onde o locutor submetido
ao reconhecimento participou do processo de
treinamento com dois exemplos para cada dez
exemplos de cada dı́gito (Locutor masculino).
3. TESTE 3: Reconhecimento com dependência
parcial do locutor, onde o locutor submetido
ao reconhecimento participou do processo de
treinamento com dois exemplos para cada dez
exemplos de cada dı́gito (Locutor feminino).
4. TESTE 4: Reconhecimento independente do
locutor, onde o locutor submetido aos testes
não teve nenhuma participação no processo
de treinamento dos modelos (Locutor masculino).
5. TESTE 5: Reconhecimento independente do
locutor, onde o locutor submetido aos testes
não teve nenhuma participação no processo
de treinamento dos modelos (Locutor feminino).
A tabela 1 mostra a análise do desempenho do sistema TCD-Fuzzy para o reconhecimento de voz,
considerando-se a ordem mı́nima da matriz temporal com coeficientes mel-cepstrais e, submetido
aos testes supracitados. Observa-se, claramente,
a eficiência da metodologia proposta comparada
com o método HMM, sob as mesmas condições de
testes, largamente usado na literatura. O algoritmo HMM utilizado nesta análise apresenta as
seguintes caracterı́sticas: discreto, dois estados e
dois parâmetros, matriz de covariância diagonal e
coeficientes bidimensionais variável.
TESTE
TESTE
TESTE
TESTE
TESTE
1
2
3
4
5
TCD
90%
78%
75%
71%
78%
TCD-Fuzzy
89%
84%
79%
75%
82%
HMM
84%
50%
66%
71%
50%
Tabela 1: Resultados dos testes com o TCD-Fuzzy
e HMM.
4
Conclusões
Observa-se pelos resultados que a proposta de Reconhecedor de voz baseado em um classificador
TCD-Fuzzy, mesmo com uma quantidade mı́nima
de parâmetros nos padrões gerados foi capaz de
ISSN: 2175-8905 - Vol. X
extrair mais fielmente as caracterı́sticas temporais
do sinal de voz e apresentar bons resultados de
reconhecimento, quando comparado com o HMM
com 2 misturas e 2 parâmetros. No desenvolvimento deste trabalho não foi utilizada nenhuma
técnica de especı́fica de redução de ruı́do, tais
como os utilizados normalmente nos reconhecedores baseados em HMM. Acredita-se que com o
tratamento adequado da relação sinal-ruı́do nos
processos de treinamento e teste, poderá acarretar
em um melhor desenvolvimento do Reconhecedor
TCD-Fuzzy. Um aumento nos exemplos utilizados
no banco de geração dos padrões poderá aumentar o grau de confiabilidade melhorando também
o desempenho do TCD-Fuzzy.
Agradecimentos
Os autores
nanceiro, e
Engenharia
o primeiro
doutorado.
agradecem ao IFMA pelo apoio fiao Programa de Pós-Graduação em
de Eletricidade da UFMA no qual
autor desenvolve seu trabalho de
Referências
Andrews, H. C. (1971). Multidimensional Rotations in Feature Selection, IEEE Transaction
on Computers.
Fu, K. (1968). Sequential Methods in Pattern
Recognition and Machine Learning, Acadmic
Press, New York.
L. Fissore, P. L. and Rivera, E. (1997). Using word
temporal structure in HMM Speech recongnition, ICASSP 97, vol.2, p.975-978, MunichGermany.
N. Ahmed, T. N. and Rao, K. (1974). Discrete
Cosine Trasnform, vol.c-24 edn, IEEE Transaction on Computers.
Picone, J. W. (1991). Signal modeling techiniques
in speech recognition, vol.2 edn, IEEE Transactions on Computer, vol.79, n.4, p.12141247.
Rabiner, L. and Biing-Hwang, J. (1993). Fundamentals of Speech Recognition, Prentice Hall,
New Jersey.
Shenouda, S.D., D. F. W. Z. and Goneid,
D. A. (2006). Hybrid Fuzzy HMM System
for Arabic Connectionist Speech Recognition,
The 23rd National U.Jio Science Conference
(NRSC 2006), Egypt.
Yong-Qian and Woo, Y. P.-Y. (1999). Speech
Recognition Using Fuzzy Logic, IEEE, Northern Illinois University, Dekalb.
1059
Download

PROPOSTA DE METODOLOGIA TCD