Carlos Roberto da Costa
Ferreira
Interpolação modificada de
LSF’s
DISSERTAÇÃO DE MESTRADO
DEPARTAMENTO DE ENGENHARIA ELÉTRICA
Programa de Pós–graduação em
Engenharia Elétrica
Rio de Janeiro
Fevereiro de 2006
PDF processed with CutePDF evaluation edition www.CutePDF.com
Carlos Roberto da Costa Ferreira
Interpolação modificada de LSF’s
Dissertação de Mestrado
Dissertação apresentada como requisito parcial para obtenção do grau de Mestre pelo Programa de Pós–graduação
em Engenharia Elétrica do Departamento de Engenharia
Elétrica da PUC-Rio
Orientador: Prof. Abraham Alcaim
Rio de Janeiro
Fevereiro de 2006
Carlos Roberto da Costa Ferreira
Interpolação modificada de LSF’s
Dissertação apresentada como requisito parcial para obtenção do grau de Mestre pelo Programa de Pós–graduação
em Engenharia Elétrica do Departamento de Engenharia
Elétrica do Centro de Estudos em Telecomunicações da
PUC-Rio.Aprovada pela Comissão Examinadora abaixo assinada.
Prof. Abraham Alcaim
Orientador
Departamento de Engenharia Elétrica — PUC-Rio
Prof. Abraham Alcaim
PUC-Rio
Prof. Fernando Gil Vianna Resende Jr.
UFRJ
Prof. Sérgio Lima Netto
UFRJ
Prof. Weiler Alves Finamore
PUC-Rio
Prof. Abraham Alcaim
Coordenador Setorial do Centro de Estudos em
Telecomunicações — PUC-Rio
Rio de Janeiro, 24 de Fevereiro de 2006
Todos os direitos reservados. É proibida a reprodução
total ou parcial do trabalho sem autorização da universidade, do autor e do orientador.
Carlos Roberto da Costa Ferreira
Graduou-se em Engenharia de Telecomunicações na
Universidade Federal Fluminense.
Ficha Catalográfica
Ferreira, Carlos Roberto da
Interpolação modificada de LSF’s/ Carlos Roberto
da Costa Ferreira; orientador: Abraham Alcaim. — Rio
de Janeiro : PUC-Rio, Departamento de Engenharia
Elétrica, 2006.
v., 29 f: il. ; 29,7 cm
1. Dissertação (mestrado) - Pontifı́cia Universidade
Católica do Rio de Janeiro, Departamento de Engenharia
Elétrica.
Inclui referências bibliográficas.
I. Alcaim, Abraham. II. Pontifı́cia Universidade Católica
do Rio de Janeiro. Departamento de Engenharia
Elétrica. III. Tı́tulo.
CDD: 510
Agradecimentos
Ao meu orientador Abraham Alcaim.
Aos meus pais e demais familiares.
Aos colegas do CETUC.
Resumo
Ferreira, Carlos Roberto da; Alcaim, Abraham. Interpolação modificada de LSF’s. Rio de Janeiro, 2006. 29p. Dissertação de Mestrado — Departamento de Engenharia Elétrica, Pontifı́cia Universidade Católica do Rio de Janeiro.
Os novos serviços de telecomunicações têm impulsionado o desenvolvimento
de melhorias nos algoritmos de codificação de voz, devido à necessidade
de se melhorar a qualidade da voz codificada, utilizando a menor taxa
de transmissão possı́vel. Esta dissertação analisa e propõem melhorias
em um método para o ajuste de parâmetros LSFs de modo a torná-los
mais precisos, minimizando as perdas no processo de interpolação de LSFs
codificadas. Com isso, a percepção de qualidade da voz sintetizada na saı́da
do decodificador é aumentada, sem que seja necessário aumento da taxa de
transmissão. É apresentada de modo detalhado toda a dedução matemática
do método citado. Para a avaliação de desempenho das melhorias propostas,
o processo de ajuste é implementado em um codificador a taxas médias
inferiores a 2 kb/s. Os resultados confirmam que é possı́vel obter redução
significativa nas medidas de distorção com a utilização do ajuste de LSFs.
Palavras–chave
Engenharia Elétrica; Processamento de Sinais; Técnicas Digitais; Sistema de Processamento da Fala.
Abstract
Ferreira, Carlos Roberto da; Alcaim, Abraham. T. Rio de Janeiro,
2006. 29p. MSc. Dissertation — Departamento de Engenharia
Elétrica, Pontifı́cia Universidade Católica do Rio de Janeiro.
he new telecommunications services have been pushing foward the development of improvements in speech coding, because of the need of to improve
coded speech quality, using the smallest transmission rate possible. This
thesis analyzes and proposes improvements in a method to adjust LSF parameters so they get more accurate, minimizing the losses in the coded LSFs
interpolation process. With this, the synthesized speech perceptual quality
in the decoder exit is increased, without having to increase the transmission
rate. The mathematical deduction of the method is presented in a detaild
way. To evaluate the performance of the improvements proposed, the adjust process is implemented in a speech coder with mean rates less than 2
kb/s. The results confirmed that is possible to obtain significant reduction
in distortion measures using the adjust of LSFs.
Keywords
Eletrical Engineering; Signal Processing; Digital Technics;Speech Processing System
Interpolação Modificada de LSF’s
1
Sumário
1 Introdução
6
1.1. Motivação e Objetivos
6
1.2. Organização da Dissertação
7
2 Codificação de Voz
9
2.1. Análise LPC
10
2.2. Parâmetros LSF
11
2.3. Descrição do codificador
12
3 Ajuste das LSF´s usando a distância LSF euclidiana ponderada (dLSF) 15
3.1. Interpolação linear das LSF’s e a distância LSF euclidiana ponderada
(dLSF)
15
3.2. Ajuste sem atraso
18
3.3. Ajuste com atraso
20
3.4. A distorção espectral (DE) e os coeficientes de otimização
23
3.5. Condições experimentais e resultados de simulações
25
3.5.1. Simulações com os coeficientes apresentados em [11]
26
3.5.2. Obtenção dos novos coeficientes de otimização
27
3.6. Desempenho dos novos coeficientes minimizando a DE
29
3.6.1. Análise dos resultados obtidos antes da quantização
29
3.6.2. Análise dos resultados obtidos após a quantização
34
3.6.3. Resultados da medida PESQ
38
3.7. Desempenho dos novos coeficientes minimizando a dLSF
39
3.7.1. Análise dos resultados obtidos antes da quantização
39
3.7.2. Análise dos resultados obtidos após a quantização
43
3.7.3. Resultados da medida PESQ
47
4 Ajuste de LSF’s usando a distorção espectral (DE) aproximada
48
4.1. Aproximação da DE através da dLSF
48
4.2. Expressão da DE em função dos coeficientes LSF
53
Interpolação Modificada de LSF’s
2
4.3. Ajuste visando minimizar a DE aproximada
54
4.3.1. Ajuste sem atraso
54
4.3.2. Ajuste com atraso
56
4.4. Resultados de simulação usando minimização da DE aproximada 58
4.4.1. Análise dos resultados obtidos antes da quantização
58
4.4.2. Análise dos resultados obtidos após a quantização
62
4.4.3. Resultados da medida PESQ
66
5 Conclusões e Sugestões para Trabalhos Futuros
67
5.1. Resumo e principais conclusões
67
5.2. Sugestões para Trabalhos Futuros
69
Bibliografia
71
Interpolação Modificada de LSF’s
3
Lista de figuras
Figura 2.1 – Posição do ajuste de LSFs no codificador.
9
Figura 2.2 – Modelo de produção da fala
10
Figura 2.3 – Interpolação de parâmetros LSF.
11
Figura 2.4 – Diagrama em blocos do codificador e do decodificador.
14
Figura 3.1 – Relação entre os coeficientes LSF e o sinal de voz.
16
Figura 3.2 – Comparação entre os coeficientes LSF referências e
interpolados.
17
Figura 3.3 – Tendência dos novos coeficientes de otimização.
28
Figura 3.4 – DE média antes da quantização utilizando os novos
coeficientes.
31
Figura 3.5 - Outliers de 2-4% antes da quantização utilizando os novos
coeficientes.
32
Figura 3.6 - Outliers >4% antes da quantização utilizando os novos
coeficientes.
33
Figura 3.7 - dLSF antes da quantização utilizando os novos coeficientes. 34
Figura 3.8 - DE média após a quantização utilizando os novos
coeficientes.
35
Figura 3.9 – Outliers 2-4% após a quantização utilizando os novos
coeficientes.
36
Figura 3.10 - Outliers >4% após a quantização utilizando os novos
coeficientes.
37
Figura 3.11 – dLSF após a quantização utilizando os novos coeficientes. 38
Figura 3.12 – DE média antes da quantização utilizando os novos
coeficientes.
40
Figura 3.13 – Outliers 2-4% antes da quantização utilizando os novos
coeficientes.
41
Figura 3.14 - Outliers >4% antes da quantização utilizando os novos
coeficientes.
42
Figura 3.15 – dLSF antes da quantização utilizando os novos coeficientes.43
Interpolação Modificada de LSF’s
4
Figura 3.16 – DE média após a quantização utilizando novos coeficientes.44
Figura 3.17 – Outliers 2-4% após a quantização utilizando novos
coeficientes.
45
Figura 3.18 - Outliers >4% após a quantização utilizando novos
coeficientes.
46
Figura 3.20 – dLSF após a quantização utilizando novos coeficientes.
47
Figura 4.1 – Gráfico de dispersão mostrando a relação entre DE e dLSF. 49
Figura 4.2 – DE média x número de sub-quadros.
60
Figura 4.3 – Outliers de 2-4% x número de sub-quadros.
61
Figura 4.4 – Outliers >4% x número de sub-quadros.
62
Figura 4.5 – dLSF x número de sub-quadros.
62
Figura 4.6 – DE média x número de sub-quadros.
63
Figura 4.7 – Outliers 2-4% x número de sub-quadros.
64
Figura 4.8 – Outliers >4% x número de sub-quadros.
65
Figura 4.9 – dLSF x número de sub-quadros.
66
Interpolação Modificada de LSF’s
5
Lista de tabelas
Tabela 2.1 – Alocação de bits.
13
Tabela 3.1 – Coeficientes de otimização apresentados em [11].
24
Tabela 3.2 – Medidas referenciais realizadas sem ajuste de LSF’s.
26
Tabela 3.3 – Medidas antes do quantizador utilizando coeficientes
apresentados em [11].
26
Tabela 3.4 – Medidas após a quantização utilizando coeficientes
apresentados em [11].
27
Tabela 3.5 – Novos coeficientes de otimização que minimizam a DE.
29
Tabela 3.6 – Novos coeficientes de otimização que minimizam a dLSF.
29
Tabela 3.7 – Medidas antes de quantizar minimizando DE utilizando
novos coeficientes.
29
Tabela 3.8 - Medidas após quantizar minimizando a DE utilizando os
novos coeficientes.
34
Tabela 3.9 – Resultados da medida PESQ.
39
Tabela 3.10 – Medidas antes de quantizar minimizando a dLSF com novos
coeficientes..
39
Tabela 3.11 – Medidas após a quantização minimizando a dLSF com novos
coeficientes.
43
Tabela 3.12 – Resultados da medida PESQ
47
Tabela 4.1 – Avaliação da aproximação da DE
51
Tabela 4.2 – Resultados obtidos antes da quantização
59
Tabela 4.3 – Resultados obtidos após a quantização.
63
Tabela 4.4 – Resultados da medida PESQ
64
Interpolação Modificada de LSF’s
6
1
Introdução
1.1.
Motivação e Objetivos
A grande demanda por serviços de telecomunicações, principalmente de voz
sobre IP (VoIP) [1], tem pressionado fabricantes de equipamentos e operadoras
por um aumento da capacidade de transmissão de informação. Todo esse volume
de dados necessita de uma largura de banda para ser trafegado que nem sempre
está disponível. Em função disso, surge a necessidade de transmissão a baixas
taxas, incluindo a voz, de modo a otimizar a utilização da banda disponível.
Para que essa redução na taxa de transmissão não resulte em perda de
qualidade, é importante que se faça um estudo detalhado e uma avaliação
criteriosa dos parâmetros do codificador de voz, visando uma obtenção mais
precisa dos seus valores. Atualmente, os esquemas de codificação de voz que
operam a baixas taxas utilizam, em geral, codificação linear preditiva, conhecida
como LPC (Linear Predictive Coding), com base em um modelo de produção de
fala. Nesse modelo, um sinal de excitação é aplicado a um filtro só de pólos
(caracterizado pelos parâmetros LPC), que representa a envoltória espectral do
sinal de voz [2][3]. Usualmente, os parâmetros LPC são transformados para LSF
(Line Spectrum Frequencies), devido às propriedades atraentes destes últimos
para processos de quantização e interpolação [4]. Devido à elevada carga
computacional gerada no processamento desses parâmetros, e às baixas taxas de
bits requeridas em diversas aplicações, os codificadores de voz transmitem LSF’s
em períodos de tempo mais longos (quadros tipicamente de 20 ms de voz) do que
o desejável para se obter uma boa qualidade de voz reproduzida na saída do
decodificador. Em função disso surge a necessidade de interpolar, usualmente de
forma linear. Isso é feito de modo a obter valores intermediários dos parâmetros,
em sub-quadros tipicamente de 5 ms, ao longo do intervalo de tempo entre uma
transmissão do conjunto de parâmetros LSF e a anterior.
Interpolação Modificada de LSF’s
7
Em [5] foi proposto um método de ajuste dos coeficientes LSF do último
sub-quadro, com base nas diferenças entre os valores interpolados e os
referenciais (valores reais calculados para cada sub-quadro individualmente). Esse
procedimento é feito com base em uma medida de distorção, em particular a
distância LSF ponderada euclidiana, dLSF [6].
Esta dissertação será focada principalmente em uma modificação do
processo de interpolação, que consiste em ajustar os parâmetros LSF, com base
em uma aproximação da distorção espectral, em vez da distância LSF ponderada
euclidiana, dLSF. Obviamente, o objetivo é que a modificação introduzida
proporcione um melhor desempenho.
Na avaliação da performance será levada em conta a complexidade
computacional, além das medidas de distorção usuais, DE média, outliers, tanto de
2 a 4%, quanto maiores que 4%, a já citada distância LSF ponderada euclidiana,
dLSF, e o teste PESQ, que é um método objetivo de avaliação perceptual da
qualidade de voz, proposto na recomendação ITU-T P.862 [7][8]. É importante
observar que as medidas de distorção são aplicadas nos coeficientes LPC, no caso
da DE, e nos LSF’s, no caso da dLSF, visando avaliar distorções associadas aos
parâmetros LSF’s obtidos em cada método estudado. Os resultados foram obtidos
antes e depois da quantização dos parâmetros. Tais medidas não permitem uma
avaliação direta da qualidade de voz. O teste PESQ é o encarregado de avaliar a
voz sintetizada, utilizando-se aqui um codificador recentemente proposto em [9]
1.2.
Organização da Dissertação
O capítulo 2 inicialmente descreve o processo de codificação de voz de
modo geral, discorrendo sobre a análise LPC, a conversão dos parâmetros LPC
para LSF’s, para depois entrar em detalhes do codificador escolhido para a
realização das simulações.
O capítulo 3 considera o método de ajuste de coeficientes LSF, do ponto de
vista da proposta original, em [5], ainda sem nenhuma modificação incluída. De
início são tratados a formação dos parâmetros LSF, o processo de interpolação e a
distância euclidiana ponderada ( d LSF ), que é a medida de distorção utilizada em
[5]. São apresentadas também informações mais detalhadas sobre algumas das
Interpolação Modificada de LSF’s
8
medidas utilizadas na avaliação de desempenho dos diversos métodos estudados,
entre elas a distorção espectral (DE), os outliers, e o teste PESQ, que mede
efetivamente a qualidade de voz. Em seguida, é apresentada uma descrição
detalhada do ajuste de LSF’s, tanto nos modos com e sem atraso. Logo após, são
tratados os coeficientes de otimização, necessários ao processo de ajuste. Por
último são apresentados resultados de simulações e conclusões à respeito do
desempenho, fundamentadas através de tabelas e gráficos.
O capítulo 4 inicialmente apresenta uma relação [5] existente entre a
distorção espectral (DE) e a d LSF . É utilizado o método dos mínimos quadrados,
comum no cálculo básico, para se chegar a uma equação que expressa a DE de
modo aproximado em função da d LSF . Além disso, também é feita a avaliação da
qualidade dessa aproximação. Finalmente, chega-se à parte que pode ser
considerada de maior destaque dessa dissertação, pois é a que tem o caráter mais
inovador. Nela é apresentada uma nova formulação para o ajuste de LSF’s,
buscando minimizar a DE em sua forma aproximada, sem a necessidade de
treinamento de coeficientes de otimização. Essa última parte é complementada
com a apresentação de resultados de simulações.
O capítulo 5 apresenta conclusões gerais sobre o estudo realizado e
sugestões para trabalhos futuros.
Interpolação Modificada de LSF’s
9
2
Codificação de Voz
Um fator crítico para o desempenho de codificadores de voz que operam a
baixas taxas é a quantidade de bits transmitidos em cada quadro. Tal relação é
definida no esquema de codificação adotado. Em geral, quanto maior o número de
bits utilizado, melhor a qualidade da voz sintetizada no decodificador. Entretanto,
é preciso determinar um ponto de equilíbrio de modo que se obtenha a qualidade
de voz desejada sem se usar muitos bits. É comum os esquemas de codificação
reservarem a maior parte dos bits para os parâmetros LSF quantizados. Uma
maneira de se obter um ganho na qualidade do sinal decodificado é buscar obter
LSF’s mais precisos.
Esta dissertação analisa e propõe melhorias em um processo de ajuste de
coeficientes LSF apresentado em [5]. Nessa análise será utilizado o codificador a
baixas taxas proposto em [9]. A Figura 2.1 dá uma visão geral do ponto em que
processo de ajuste se encaixa no codificador.
Figura 2.1 – Posição do ajuste de LSFs no codificador.
Interpolação Modificada de LSF’s
10
2.1.
Análise LPC
A análise LPC consiste na obtenção de coeficientes preditores através de um
filtro correlator que processa segmentos curtos de voz, de 20 ms no caso do
codificador utilizado. Pela sua simplicidade, é a técnica mais usada atualmente na
codificação de voz. Tal análise se baseia na idéia de estabelecer um modelo linear
para o mecanismo de produção da fala, ilustrado na Figura 2.2. Neste modelo, a
excitação, u(n), é a entrada do sistema, e s(n), a fala sintetizada, é a saída.
Figura 2.2 – Modelo de produção da fala
O filtro H(z), linear e só de pólos, é caracterizado pela Equação (2-1).
H ( z) =
1
=
p
1 − ∑ ak z −k
1
A( z )
(2-1)
k =1
p
A( z ) = 1 − ∑ a k z −k
(2-2)
k =1
Esse filtro varia com o tempo de modo a acompanhar a envoltória espectral
do sinal de voz, de onde são extraídos seus parâmetros. Tais parâmetros buscam
representar uma aproximação da envoltória espectral [2], chamada de envoltória
espectral de base segmentar curta (eebsc).
Os parâmetros do filtro correlator são quantizados e codificados, assim
como os parâmetros de excitação, para serem transmitidos na forma de uma
seqüência de bits. No decodificador essa seqüência de bits é convertida
novamente em parâmetros que são usados no processo de síntese da fala.
O vetor {ak=[a1 ... ap] T } contém os coeficientes preditores ou LPC (linear
prediction coding). A variável p é a ordem do filtro e k é o índice do quadro. Em
geral, para o padrão de freqüência de amostragem de 8 kHz das redes de telefonia,
um filtro de décima ordem é capaz de representar de modo satisfatório a eebsc.
Interpolação Modificada de LSF’s
11
De modo a reduzir a taxa de bits, sem, entretanto, prejudicar a qualidade da
voz sintetizada no decodificador, é empregado o processo de interpolação. Tal
processo permite a amostragem de parâmetros LPC em uma taxa menor no
codificador, que depois é aumentada no decodificador. A Figura 2.3 ilustra a
interpolação de parâmetros LSF entre os últimos sub-quadros do quadro atual e do
anterior, definido pela Equação (2-3), onde fij é o parâmetro LSF de i-ésima
( 1 ≤ i ≤ p ) ordem do j-ésimo ( 1 ≤ j ≤ 4 ) sub-quadro. Os parâmetros f ianterior e f iatual
são os vetores LSF de i-ésima ordem do último sub-quadro do quadro anterior e
do atual, respectivamente. A interpolação tem o efeito de produzir transições mais
suaves na eebsc [9].
f ij = (1 − 0,25 j ) f ianterior + 0,25 jf iatual
(2-3)
Figura 2.3 – Interpolação de parâmetros LSF.
2.2.
Parâmetros LSF
Devido à característica de possuírem uma grande faixa dinâmica, os
coeficientes LPC não devem ser quantizados e interpolados diretamente. Tal
procedimento pode causar instabilidade no filtro de síntese. Em função disso, são
usados os parâmetros LSF [4], que correspondem a uma transformação dos
parâmetros LPC.
Interpolação Modificada de LSF’s
12
Os parâmetros LSF são obtidos através de dois polinômios, um simétrico,
P(z), e outro anti-simétrico, Q(z), representados pelas Equações (2-4) e (2-5),
respectivamente, obtidos aumentando-se a ordem do filtro inverso A(z), Equação
(2-2), para p+1
P ( z ) = A( z ) + z − ( p +1) A( z −1 )
(2-4)
Q( z ) = A( z ) − z − ( p +1) A( z −1 )
(2-5)
Os polinômios simétricos se relacionam segundo
A( z ) =
1
[P( z ) + Q( z )]
2
(2-6)
Os parâmetros LSF são obtidos através das posições angulares das raízes
dos polinômios. As LSF’s apresentam como característica principal o
ordenamento, o que garante estabilidade ao filtro de síntese. Esse ordenamento se
mantém mesmo após a interpolação. A sensibilidade das LSF’s a erros é apenas
local, isto é, um erro de quantização afeta a eebsc somente nas vizinhanças. Um
agrupamento de LSF’s indica a localização de formantes sendo, portanto, uma
região importante no espectro.
2.3.
Descrição do codificador
Nessa dissertação é utilizado um codificador a baixas taxas [9] proposto por
De Lamare e Alcaim, que opera a uma taxa média de 1,2 kbps. O codificador
utiliza janelas deslizantes (que permitem uma maior precisão) para a detecção do
período fundamental, o que é de extrema importância para a distinção entre
quadros surdos e sonoros. Na codificação dos sons sonoros é usada a excitação
mista em multibandas (EMM). Sons fricativos e oclusivos surdos são detectados
utilizando-se a taxa de cruzamentos por zero e o sinal residual da análise LPC,
respectivamente. O sinal de voz é segmentado em quadros de 20 ms que passam
pela predição linear para depois serem transformados em parâmetros LSF. Assim
como o período fundamental, a excitação e o ganho, as LSF são aplicadas a um
Interpolação Modificada de LSF’s
13
quantizador vetorial (QV). A Tabela 2.1 apresenta a alocação de bits pra cada tipo
de parâmetro.
Parâmetro
Quadro sonoro
Quadro surdo
Fundamental
6
0
Excitação
3
3
Ganho
5
5
LSF’s
21
0
Tabela 2.1 – Alocação de bits.
No decodificador, os sons sonoros são filtrados dando origem a excitação.
Para os sons surdos a excitação é totalmente surda. O decodificador recebe as
LSF’s, interpola e converte em coeficientes LPC que formarão o filtro de síntese.
Nesse filtro são aplicados a excitação e o ganho, dando origem ao sinal
sintetizado. Finalmente, esse sinal é aplicado a um banco de filtro de modo a
melhorar a qualidade da voz decodificada. A Figura 2.4 apresenta diagramas em
blocos para o codificador e o decodificador.
Interpolação Modificada de LSF’s
Figura 2.4 – Diagrama em blocos do codificador e do decodificador.
14
Interpolação Modificada de LSF’s
15
3
Ajuste das LSF´s usando a distância LSF euclidiana
ponderada (dLSF)
Neste capítulo será abordado o método de ajuste de LSF’s proposto em [5].
Esse método busca contribuir na resolução do problema de se obter parâmetros
LSF mais precisos, que resultem em uma melhor qualidade de voz sintetizada no
decodificador. O ajuste de LSF’s é feito com base na distância LSF ponderada
euclidiana, dLSF, entre os valores interpolados e os referenciais (valores reais
calculados realizando-se a análise LPC e a transformação para LSF para cada subquadro individualmente). No processo de ajuste busca-se minimizar a dLSF de
modo a tornar os parâmetros LSF interpolados mais próximos possível dos
referenciais. O processo de ajuste de LSF’s possui como parâmetros de entrada os
coeficientes de otimização. Esses coeficientes são obtidos através de treinamento
e permitem que o ajuste de LSF’s seja direcionado, de modo a minimizar não
somente a dLSF, mas também a distorção espectral, DE.
3.1.
Interpolação linear das LSF’s e a distância LSF euclidiana ponderada
(dLSF)
A relação entre o sinal de voz e o conjunto de 10 coeficientes LSF é
ilustrada na Figura 3.1. Esta relação está no fato de a variação dos coeficientes
LSF é função da variação do sinal de voz do qual são extraídos. É possível
observar no gráfico superior quatro frases distintas separadas por instantes de
silêncio, totalizando 10 s de fala. Embaixo temos a variação dos coeficientes
espectrais, da 1ª a 10ª ordem, que ocorre em função da variação do sinal de voz.
Interpolação Modificada de LSF’s
16
Figura 3.1 – Relação entre os coeficientes LSF e o sinal de voz.
A interpolação de LSF’s entre dois quadros sucessivos é feita entre os
últimos sub-quadros do quadro atual e do anterior, gerando as LSF’s interpoladas.
As LSF’s de referência são obtidas realizando o cálculo das LSF’s para todos os
sub-quadros. A Figura 3.2 exibe uma parte dos coeficientes (dos 400 primeiros
sub-quadros) mostrados na Figura 3.1. O gráfico acima corresponde às LSF’s de
referência e abaixo às interpoladas. É possível perceber claramente que as LSF’s
de referência apresentam uma variação maior. Isso se deve ao fato de que a
interpolação linear tem um efeito de “suavização” da envoltória espectral [9].
Interpolação Modificada de LSF’s
17
Figura 3.2 – Comparação entre os coeficientes LSF referências e interpolados.
A distância LSF euclidiana ponderada ( d LSF j ) [6] é definida, para um subquadro j qualquer, da seguinte forma:
p
[
(
d LSF j = ∑ ci wi( j ) ωi( j ) − ω̂i( j )
)]
2
(3-1)
i =1
onde
1 → 1 ≤ i ≤ 8

ci = 0,8 → i = 9
0,4 → i = 10

(3-2)
E importante observar q ci também é proveniente da definição da d LSF j
contida em [6]. Além disso, temos também o esquema de ponderação [10]
wi( j ) =
ω
( j)
i
1
1
+ ( j)
( j)
− ωi −1 ωi +1 − ωi( j )
(3-3)
Interpolação Modificada de LSF’s
18
onde p é a ordem do preditor (que no caso do codificador utilizado é igual a 10), a
variável ωi( j ) é o i-ésimo elemento do vetor LSF de referência, e ωˆ i( j ) o elemento
correspondente do vetor interpolado.
3.2.
Ajuste sem atraso
Definindo a distância total em um quadro, dTOT, a soma das distâncias de
todos os sub-quadros, temos que
I
(
I
p
j =1
i =1
)
[
(
d TOT = ∑ f j d LSF j ω ( j ) , ωˆ ( j ) = ∑ f j ∑ ci wi( j ) ωi( j ) − ωˆ i( j )
j =1
)]
2
(3-4)
onde f j são constantes de ponderação introduzidas com o objetivo de possibilitar
a otimização do processo de interpolação através de minimização das distâncias.
Essas constantes são obtidas de modo experimental, através de rotinas de
otimização não-lineares e que são funções próprias do Matlab. No codificador de
voz utilizado temos quatro sub-quadros, portanto, I = 4. Também é importante
notar que ω ( j ) e ω̂ ( j ) representam os vetores LSF e ω i( j ) e ω̂ i( j ) os i-ésimos
elementos dos vetores, referência e interpolado, respectivamente.
A formúla geral de interpolação linear é dada por
ωˆ ( j ) = (1 − α j )ω~ (−1) + α jω~ (0 )
onde α j =
(3-5)
j ~ ( −1 ) ~ ( 0 )
,ω
e ω são vetores LSF associados aos últimos sub-quadros do
I
quadro anterior e do atual, respectivamente.
Desenvolvendo a Equação (3-4), temos
I
p
j =1
i =1
[
2
(
2
d TOT = ∑ f j ∑ ci2 wi( j ) ωi( j ) − 2ωi( j )ωˆ i( j ) + ωˆ i( j )
Aplicando a Equação (3-5) na (3-6), chegamos a
2
)]
(3-6)
Interpolação Modificada de LSF’s
I
p
j =1
i =1
19
[
{
2
2
d TOT = ∑ f j ∑ ci2 wi( j ) ω i( j ) − 2ω i( j ) (1 − α j )ω~i(−1) − 2ω i( j )α j ω~i(0 ) +

( −1)
(0 ) 2  
~
~
+ (1 − α )ω i + α j ω i

1444
424444
3 
(*)

(
)
(3-7)
2
2
2
(*) = (1 − α j ) ω~i(−1) + 2(1 − α j )ω~i(−1)α j ω~i(0 ) + α 2j ω~i(0 )
Para minimizar dTOT, deriva-se em relação aos coeficientes LSF do último
sub-quadro do quadro atual, ω~k( 0) , sendo k = 1, ..., p (lembrando que p = 10 é a
ordem do preditor), e iguala-se o resultado a zero. A derivação é feita em relação
aos coeficientes do último sub-quadro porque este é exatamente o que se deseja
ajustar.
{
]}
I
2
d
(
)
d
=
f j ck2 wk( j ) − 2ω k( j )α j + 2(1 − α j )ω~k(−1)α j + 2α 2j ω~k(0 ) = 0
∑
(0 ) TOT
~
dω
j =1
k
I
∑f
j =1
j
[
{c w [− 2ω
2
k
}
α j + 2(1 − α j )ω~k(−1)α j ] =
( j )2
( j)
j
k
I
(
= − ∑ f j ck2 wk( j ) 2α 2j ω~k(0 )
j =1
2
)
(3-9)
I
2 ( j )2
~ (−1) − ω ( j ) = −  f c 2 w( j )2α 2  2ω~ (0 )
(
)
f
c
w
2
α
1
α
ω
−
∑ j k k
∑
j k k
j
j
k
k
j 
k
j =1
j =1


144444424444443
144
42444
3
I
[
(
]
bk
)
(3-10)
aki
I
(
2
ak = ∑ f j ck2 wk( j ) α 2j
j =1
I
(3-8)
)
2
bk = ∑ f j ck2 wk( j ) 2α j (1 − α j )ω~k(−1) − ω k( j )
[
(3-11)
]
(3-12)
j =1
Ou seja,
ω~k(0 ) = −
bk
2a k
(3-13)
Interpolação Modificada de LSF’s
20
É importante observar na Equação (3-12) que o novo valor das LSF’s para o
último sub-quadro do quadro atual é calculado em função das diferenças entre as
LSF’s do último sub-quadro do quadro anterior e as LSF’s referências.
Esse método, portanto, não utiliza nenhuma informação à frente do quadro
atual. Por isso ele é chamado de “no lookahead”.
3.3.
Ajuste com atraso
Levando em conta que um atraso de até 100 ms é aceitável em uma
conversa telefônica, por exemplo, e que no codificador utilizado cada quadro tem
20 ms, podemos pensar em utilizar informação além do quadro atual. Sendo
assim, no cálculo da distância total entra agora não só o somatório referente aos
sub-quadros do quadro atual, mas também os sub-quadros à frente que forem
utilizados. Assim,
I
(
)
L
(
d TOT = ∑ f j d LSF j ω ( j ) , ωˆ ( j ) + ∑ l j d LSF j ω N( j ) , ωˆ N( j )
j =1
)
(3-14)
j =1
onde L é o número de sub-quadros à frente utilizados, e as variáveis ω N( j ) e ω̂ N( j )
representam, respectivamente, os vetores LSF de referência e interpolado para os
sub-quadros à frente. Se estabelecermos como limite apenas um quadro à frente,
teremos L podendo assumir valores entre 1 e 4. Vale ressaltar também que para os
sub-quadros à frente teremos também um outro conjunto de fatores de otimização,
representado por { l j , j = 1, ..., L}.
Seguindo o mesmo desenvolvimento anteriormente mostrado, chegamos a
I
p
[
(
d TOT = ∑ f j ∑ ci wi( j ) ω i( j ) − ωˆ i( j )
j =1
i =1
p
L
)] + ∑ l ∑ [c w( ) (ω ( ) − ωˆ ( ) )]
2
j
j =1
i
j
N ,i
j
N ,i
j
N ,i
2
(3-15)
i =1
A primeira parte dessa equação é igual à (3-4), e representa a d LSF do
quadro atual. O segundo par de somatórios representa a d LSF do quadro à frente.
A variável wN( j,)i representa o esquema de ponderação, como apresentado na
Interpolação Modificada de LSF’s
21
Equação (3-3). É importante observar que wN( j,)i , assim como as outras variáveis
(L, lj, ω N( j ) , ω̂ N( j ) ), se refere ao quadro à frente.
A interpolação do quadro à frente é obtida através de
ωˆ N( j ) = (1 − β j )ω~ (0 ) + β j ω~ (1)
(3-16)
onde
βj =
j
I
(3-17)
Substituindo a Equação (3-16) na (3-15), temos
I
p
j =1
i =1
[
2
(
2
d TOT = ∑ f j ∑ ci2 wi( j ) ω i( j ) − 2ω i( j )ωˆ i( j ) + ωˆ i( j )
2
)]+


p 
L
2
2
2 
+ ∑ l j ∑ c i2 w N( j,)i  ω N( j,)i − 2ω N( j,)i ωˆ N( j,)i + ωˆ N( j,)i 

 14444244443 
j =1
i =1
(*)



(3-18)
Desenvolvendo, resulta
2
2
(*) = ω N( j,)i − 2ω N( j,)i (1 − β j )ω~i(0 ) − 2ω N( j,)i β j ω~i(1) + (1 − β j )ω~i(0 ) + β i ω~i(1)
1444
424444
3
(
)
(**)
2
2
2
(**) = (1 − β j ) ω~i(0 ) + 2(1 − β j )ω~i(0 ) β j ω~i(1) + β 2j ω~i(1)
Pode-se notar que a primeira parte da Equação (3-18) é igual a (3-6). Isso
permitirá uma simplificação adiante. A minimização é feita derivando dTOT e
igualando a zero. Entretanto, esse procedimento já foi realizado para a primeira
parte da Equação (3-18) em (3-8). Lembrando que ω~k( 0) representa os coeficientes
LSF do último sub-quadro do quadro atual, sendo k = 1, ..., p (onde p = 10 é a
ordem do preditor), temos
Interpolação Modificada de LSF’s
{
22
]}
I
2
d
(
)
d
=
f j ck2 wk( j ) − 2ω k( j )α j + 2(1 − α j )ω~k(−1)α j + 2α 2j ω~k(0 ) +
∑
(0 ) TOT
~
dω
j =1
k
L
[
[
{
]}
2
2
2
+ ∑ l j ck2 wN( j,)k − 2ω N( j,)k (1 − β j ) + 2(1 − β j ) ω~k(0 ) + 2(1 − β j )β j ω~k(1) = 0
j =1
(3-19)
De fato, é possível observar que a primeira parte da Equação (3-19) é igual a
(3-8).
I
L
f j ck2 wk( j ) 2α j (1 − α j )ω~k(−1) − ω k( j ) + ∑ l j ck2 wN( j,)k 2(1 − β j ) β jω~k(1) − ω N( j,)k =
∑
j =1
1
44444424444443 j =1
k
1444444b4
444444
4244444444444444
3
2
[
]
(
2
)
dk




 I

L
2
2
2
= − ∑ f j ck2 wk( j ) α 2j + ∑ l j ck2 wN( j,)k (1 − β j )  2ω~k(0 )
 j =1

443 j =1
 1442

ak
444
424444444
3
 1444
ck


L
ck = ak + ∑ l j ck2 wN( j,)k (1 − β j )
2
2
(3-20)
(3-21)
j =1
L
d k = bk + ∑ l j ck2 wN( j,)k 2(1 − β j ) β jω~k(1) − ω N( j,)k
(
2
)
(3-22)
j =1
É importante ressaltar que ak e bk foram definidos nas equações (3-11) e (312), respectivamente. Finalmente, chegamos a um ajuste de LSF’s para o último
sub-quadro do quadro atual, levando em conta também sub-quadros à frente. Em
função disso, esse método é chamado de “lookahead” e as LSF’s ajustadas são
expressas por
ω~k(0 ) = −
dk
2c k
onde ck e dk são dadas pelas equações (3-21) e (3-22), respectivamente.
(3-23)
Interpolação Modificada de LSF’s
23
3.4.
A distorção espectral (DE) e os coeficientes de otimização
A distorção espectral, associada ao i-ésimo sub-quadro, é uma medida
objetiva de desempenho. É representada matematicamente na forma da equação
(3-24).
DEi =
1
FS
2

Si ( f ) 
∫0 10 log10 Sˆ ( f )  df
i


FS
(3-24)
onde a DEi é dada em dB, FS é a freqüência de amostragem, e S i ( f ) e Sˆ i ( f ) são
as envoltórias espectrais LPC do sinal de entrada em suas versões referencial e
interpolada, respectivamente. Essas funções são expressas por
Si ( f ) =
Sˆ i ( f ) =
onde
Ai (z )
e
Aˆ i ( z )
1
 j F2πf
Ai  e S






(3-25)




(3-26)
1
 j F2πf
Aˆ i  e S


são os polinômios LPC, original e interpolado,
respectivamente.
A distorção espectral média é definida por
DE =
1
N
N
∑ DE
i
(3-27)
i =1
onde N é o número total de sub-quadros em análise.
Os coeficientes de otimização, {fj} e {lj}, apresentados nas equações (3-4) e
(3-14), respectivamente, são obtidos de modo experimental, através de um
processo de treinamento. Esse processo consiste, conforme já dito, em executar
uma rotina de otimização não-linear que é função própria do Matlab. Como
Interpolação Modificada de LSF’s
24
entrada essa função recebe um conjunto inicial de coeficientes, definido como {fj
= 1, j = 1,...,I}. O conjunto de coeficientes é aplicado na rotina de ajuste de LSF’s,
e em função da saída, que é a DE média, a função de otimização determina qual
será o novo conjunto de coeficientes para a iteração seguinte. Ao longo das
iterações a função de otimização busca determinar coeficientes que permitam ao
ajuste de LSF’s convergir para a menor DE possível. Atingir esse limite depende
do número de iterações realizadas. O fim do processo de otimização ocorre
quando a diferença entre a DE média calculada em uma iteração e a calculada na
iteração anterior é menor que uma determinada tolerância. Nesse caso foi utilizada
a tolerância padrão do Matlab, que é de 10-4. O mesmo procedimento é aplicado
também utilizando a d LSF como saída da rotina de ajuste de LSF’s. Com isso
obtêm-se conjuntos de coeficientes que minimizam cada uma das medidas
separadamente.
Os coeficientes de otimização utilizados em [11], são mostrados na Tabela
3.1.
Medida
minimizada
DE
d LSF
Coeficientes de otimização
Método
f1
f2
f3
f4
No lookahead
0
0
0
1
Lookahead
0,2
0
0,2
1
No lookahead
0,6
0,3
0,5
1
Lookahead
1,2
0,8
1
1
l1
0,4
2
Tabela 3.1 – Coeficientes de otimização apresentados em [11].
Note-se que, para o método “no lookahead”, quando se deseja minimizar a
DE, tem-se o coeficiente do 4º sub-quadro igual a 1 e todos os demais iguais a
zero. Tal combinação de coeficientes é equivalente a uma interpolação linear
convencional, sem nenhum ajuste das LSF’s do último sub-quadro. Isso significa
que não se obterá melhoria na DE realizando o ajuste com esses coeficientes.
Interpolação Modificada de LSF’s
25
3.5.
Condições experimentais e resultados de simulações
Foram utilizados como conjunto de teste 10 arquivos de áudio contendo
cada um 10 frases pronunciadas por 10 locutores diferentes, sendo 5 homens e 5
mulheres. Cada arquivo tem em média 30 s de duração. Os resultados
apresentados
são
médias
das
medidas
realizadas
para
cada
arquivo
individualmente. Foram avaliadas a distorção espectral média (DE), os
percentuais de outliers entre 2 e 4% e maiores que 4%, e a d LSF . As medidas de
distorção foram realizadas no codificador descrito no capítulo 2 antes e depois da
quantização.
Além das medidas de distorção, também foi aplicado o teste PESQ
(Perceptual Evaluation of Speech Quality) [7][8]. O PESQ é uma medida objetiva
que tenta avaliar a qualidade de voz que seria percebida por um ouvinte em um
teste subjetivo de escuta. Essa medida foi padronizada na recomendação P.862 do
ITU-T. Devido a essa padronização, atualmente o PESQ é muito usado como
método para avaliação de qualidade de voz.
Assim como as medidas de distorção entre LSF’s, o que o teste PESQ faz é
comparar dois sinais, um referência, e outro modificado. Nesse caso, a diferença é
que o sinal referência é o sinal original, sem ter passado pelo codificador, nem
nenhum outro processo que o altere. O sinal modificado é o sinal sintetizado
resultante da saída do decodificador.
Como saída, o teste PESQ retorna uma nota, em uma escala que varia de 1 a
4,5, de modo semelhante um teste subjetivo, como o MOS (Mean Opinion Score),
por exemplo.
De modo a permitir uma comparação através da qual se possa avaliar a
eficiência das melhorias propostas, foram inicialmente feitas medidas utilizandose o codificador sem nenhuma alteração, isto é, sem a aplicação do método de
ajuste de LSF’s. Os resultados obtidos são apresentados na tabela 3.2. Nessa
tabela apresenta-se os valores de DE, outliers e PESQ antes e após a quantização
dos parâmetros LSF.
Antes de Q
DE média
%2-4
%>4
d LSF
PESQ
1,1249
14,3329%
0,7476%
0,6007
NSA
Interpolação Modificada de LSF’s
Depois de Q
1,5892
26
23,1301%
1,2527%
0,9682
2,3342
Tabela 3.2 – Medidas referenciais realizadas sem ajuste de LSF’s. “NSA” significa “não
se aplica”. “Q” significa “quantizar”.
3.5.1.
Simulações com os coeficientes apresentados em [11]
Os resultados obtidos como os coeficientes apresentados em [11] são
mostrados na Tabela 3.3 para as medidas realizadas antes da quantização. Não
foram apresentadas medidas para o método “no lookahead” minimizando a DE
porque, conforme explicado anteriormente, nesse caso os resultados são os
mesmos obtidos na interpolação linear convencional. Pode-se observar que,
conforme já era esperado, o método “lookahead” apresenta um melhor
desempenho. Além disso, é possível notar também que a minimização da d LSF ,
apesar de apresentar uma DE média maior, proporciona um melhor resultado em
relação aos outliers.
Medida
minimizada
DE
d LSF
Método
DE média
%2-4
%>4
d LSF
Lookahead
1,1164
11,3467%
0,4774%
0,5025
No lookahead
1,1627
10,0917%
0,4084%
0,4808
Lookahead
1,1356
7,8649%
0,2208%
0,4231
Tabela 3.3 – Medidas antes do quantizador utilizando coeficientes apresentados em [11].
Para a medidas realizadas depois da quantização, foram obtidos os
resultados mostrados na Tabela 3.4. Uma observação importante que pode ser
feita quando se compara as Tabelas 3.3 e 3.4 com a 3.2 é a de que, na
minimização da d LSF , apesar de se ter uma DE média antes da quantização maior
que a referência, depois da quantização, a medida é menor. Também chama a
atenção uma pequena melhoria obtida no teste PESQ utilizando-se o método
“lookahead”. Além disso, apesar da DE média no modo “lookahead” após a
quantização ser menor minizando a d LSF do que minimizando a DE, o PESQ para
a minimização da DE é maior.
Interpolação Modificada de LSF’s
Medida
minimizada
DE
d LSF
Método
27
DE
média
%2-4
%>4
d LSF
PESQ
Lookahead
1,5257
20,1671% 0,9066%
0,8614
2,3614
No lookahead
1,5658
20,9424% 1,0327%
0,9117
2,3243
Lookahead
1,4928
17,6767% 0,6344%
0,7818
2,3408
Tabela 3.4 – Medidas após a quantização utilizando coeficientes apresentados em [11].
3.5.2.
Obtenção dos novos coeficientes de otimização
Utilizando os procedimentos descritos na Seção 3.4, foram determinados
novos coeficientes de otimização. Para isso, foi utilizado um conjunto de
treinamento formado a partir de 8 conjuntos de 10 frases, pronunciadas por 8
locutores diferentes, chegando-se a um total de 80 frases, em uma duração de
aproximadamente 240s. Foram feitos treinos de modo a obter coeficientes de
otimização que minimizassem a DE e a d LSF . No caso dos coeficientes que
minimizam a DE, pode-se observar que os mesmos apresentam um
comportamento bem determinado, conforme é possível ver na Figura 3.3. No eixo
y dessa figura tem-se os valores dos coeficientes, e no x, os sub-quadros aos quais
se referem, sendo que o sub-quadro 1 é o primeiro do quadro atual e o 5 é o
primeiro do quadro à frente. As curvas representam os modos de ajuste “no
lookahead” e “lookahead”. A curva cujos pontos estão marcados com um sinal
“+”, que vai somente até o 4º sub-quadro é relativa ao modo “no lookahead”. As
demais curvas descrevem os coeficientes do modo “lookahead” utilizando de 1 a 4
sub-quadros à frente, conforme indicado na legenda.
Interpolação Modificada de LSF’s
28
Figura 3.4 – Tendência dos novos coeficientes de otimização.
Para o caso dos coeficientes de otimização que minimizam a d LSF não foi
observada uma tendência definida, ficando a impressão de que os mesmos situamse na gama de valores possíveis de modo praticamente aleatório, ou seja, se fosse
feito um gráfico com esses coeficientes o resultado seria um conjunto de pontos
dispersos.
As Tabelas 3.5 e 3.6 mostram os coeficientes de otimização obtidos para a
minimização da DE e da d LSF , respectivamente. Em cada uma dessas tabelas
existe uma linha para cada número de sub-quadros à frente sendo utilizados. A
linha em que tal número é igual a zero, significa que o modo é o “no lookahead”.
Número
de sub-
f1
f2
f3
f4
l1
l2
l3
quadros
0
-0,0313 0,1757 0,0013 2,6795
1
0,4541 0,3308 0,6166 2,1348 0,8182
2
0,5528 0,4104 0,7483 2,6263 0,7765 0,4317
3
0,7566 0,7417 0,9155 3,3966 0,5547 1,3983 -0,6867
l4
Interpolação Modificada de LSF’s
4
29
0,7182 0,5928 0,8121 2,3474 0,7844 0,4603 0,5484 0,9113
Tabela 3.5 – Novos coeficientes de otimização que minimizam a DE.
Número
de sub-
f1
f2
f3
f4
l1
l3
l2
l4
quadros
0
0,2906 1,0781 0,1280 1,4228
1
1,0624 0,8867 1,1000 0,7934 1,5589
2
1,1145 0,9231 1,1616 0,8186 1,2913 0,7215
3
1,2716 1,1423 1,2045 1,2105 0,8622 1,5503 -0,2931
4
1,0912 1,1062 1,0697 1,1002 1,0540 0,5701 0,9464 1,0262
Tabela 3.6 – Novos coeficientes de otimização que minimizam a dLSF.
3.6.
Desempenho dos novos coeficientes minimizando a DE
3.6.1.
Análise dos resultados obtidos antes da quantização
Modo
Sub-quadros
DE média
%2-4
%>4
d LSF
Sem ajuste
1,1249
14,3329%
0,7476%
0,6007
No lookahead
1,13460
13,71301% 0,65975%
0,57371
1
1,10801
10,18787% 0,37904%
0,46950
2
1,10835
10,20664% 0,36361%
0,46665
3
1,09848
9,10952%
0,30996%
0,43855
4
1,08877
8,35608%
0,23453%
0,41558
Lookahead
Tabela 3.7 – Medidas antes de quantizar minimizando DE utilizando novos coeficientes.
Comparando com os resultados das medidas referenciais, sem ajuste de
LSF’s, é possível notar que no modo “no lookahead”, apesar de ter-se uma DE
média ligeiramente maior, obteve-se menores valores para os outliers, tanto de 2 à
4%, quanto maiores que 4%. Também a d LSF apresentou um melhor resultado.
Interpolação Modificada de LSF’s
30
Já no modo “lookahead” em todas as medidas realizadas obteve-se uma
melhoria mais significativa, principalmente para os outliers e, dentre eles, os
maiores que 4%. Tal avaliação confirma que o ajuste é eficaz em aproximar os
coeficientes LSF dos seus valores referenciais, na medida em que minimiza a
distorção.
Nas Figuras 3.5 a 3.8 são apresentados alguns gráficos que ajudam a
visualizar os resultados apresentados. No eixo x temos o número de sub-quadros à
frente sendo utilizados. O zero significa que o método empregado foi o “no
lookahead”. No eixo y temos a medida de distorção avaliada. Em todos os
gráficos existem uma reta, que representa a medida referencial, sem ajuste, e uma
curva, que descreve a evolução da medida em função do ajuste.
Distorção espectral - DE média
Na Figura 3.5 tem-se a representação da DE média. É possível observar,
conforme já mencionado, que de início, no modo “no lookahead”, tem-se um
valor maior que o referencial. Entretanto, ocorre uma redução quando se passa
para o modo “lookahead” com utilizando 1 sub-quadro à frente. Com 2 subquadros essa redução não se mantém, havendo um ligeiro aumento. A partir de 3 é
retomada a queda, atingindo um mínimo em 4.
Interpolação Modificada de LSF’s
31
Figura 3.5 – DE média antes da quantização utilizando os novos coeficientes.
Outliers
Os dois gráficos seguintes (Figuras 3.6 e 3.7) mostram os outliers de 2 a 4%
e maiores que 4%, respectivamente. Pode-se notar que nesse caso, ao contrário do
que aconteceu com a DE média, já se começa com um valor abaixo do referencial.
Isso indica que em se tratando de redução de outliers, mesmo o método “no
lookahead” já é capaz de apresentar um bom desempenho. No modo “lookahead”,
na passagem da utilização de 1 para 2 sub-quadros à frente não se observa
melhoria. A redução volta a ocorrer em 3, até 4, onde se tem o mínimo.
Interpolação Modificada de LSF’s
32
Figura 3.6 - Outliers de 2-4% antes da quantização utilizando os novos coeficientes.
Para os outliers maiores que 4% também é possível observar uma melhoria
desde o início, no modo “no lookahead”. A diferença aqui é que ocorre redução
para todas as quantidades de sub-quadros sendo utilizados, mesmo entre 1 e 2,
ainda que não tão significativa nesse intervalo. O gráfico confirma a idéia de que
o ajuste tem uma ação mais efetiva sobre os outliers do que sobre a DE média,
pois atua de modo a tornar os coeficientes LSF mais próximos de seu valor real.
Vale lembrar que os outliers são picos de distorção e, por isso, sua redução
contribui de maneira significativa para a melhoria da qualidade do sinal.
Interpolação Modificada de LSF’s
33
Figura 3.7 - Outliers >4% antes da quantização utilizando os novos coeficientes.
Distância euclidiana ponderada - dLSF
Para a d LSF tem-se um comportamento semelhante ao dos outliers maiores
que 4%. É interessante notar que, apesar de se aplicar um método visando
minimizar a DE, a d LSF também sofre uma redução.
Interpolação Modificada de LSF’s
34
Figura 3.8 - dLSF antes da quantização utilizando os novos coeficientes.
3.6.2.
Análise dos resultados obtidos após a quantização
Os resultados apresentados até agora referem-se a medidas realizadas antes
da quantização. Para depois do quantizador, temos os resultados apresentados na
Tabela 3.8.
Modo
DE média
%2-4
%>4
d LSF
Sem ajuste
1,5892
23,1301%
1,2527%
0,9682
No lookahead
1,57862
22,58240% 1,20047%
0,94475
1
1,51321
19,49065% 0,81433%
0,83456
2
1,51591
19,52485% 0,82803%
0,83328
3
1,50789
18,73486% 0,76365%
0,81564
4
1,50392
18,28930% 0,72963%
0,80318
Lookahead
Sub-quadros
Tabela 3.8 - Medidas após quantizar minimizando a DE utilizando os novos coeficientes.
Os coeficientes LSF obtidos na saída do quantizador são os que
efetivamente serão enviados ao decodificador para serem sintetizados e gerar o
Interpolação Modificada de LSF’s
35
sinal de voz de saída. As medidas de distorção após o quantizador permitem,
portanto, uma avaliação mais realista da melhoria obtida.
Pode-se observar que a DE média sofre uma redução a partir do modo “no
lookahead”. O mesmo acontece para os outliers e a d LSF . A seguir são
apresentados gráficos para os resultados apresentados.
Distorção espectral – DE média
Na Figura 3.9 é possível notar uma redução mais acentuada na DE média
quando se passa do modo “no lookahead” para o “lookahead”. Entretanto, já no
modo “lookahead”, não se percebe uma redução muito significativa à medida em
que aumenta o número de sub-quadros à frente sendo utilizados. Na verdade,
ocorre até um pequeno aumento na passagem de 1 para 2 sub-quadros. Em todas
os situações avaliadas o resultado obtido é sempre melhor que o do referencial.
Figura 3.9 - DE média após a quantização utilizando os novos coeficientes.
Outliers
Interpolação Modificada de LSF’s
36
Os outliers (Figuras 3.10 e 3.11) apresentam curvas muito parecidas
graficamente. Ambas as faixas, tanto de 2 a 4%, quanto maiores que 4%, têm uma
redução acentuada do modo “no lookahead” para o “lookahead”, assim como a
DE média. No modo “lookahead”, ocorre uma ligeira elevação na mudança de 1
para 2 sub-quadros à frente. Ainda nesse modo, pode-se dizer que a redução até o
mínimo, que acontece com 4 sub-quadros, é menos significativa.
Figura 3.10 – Outliers 2-4% após a quantização utilizando os novos coeficientes.
É possível que o pequeno aumento observado na passagem de 1 para 2 subquadros seja função do conjunto de treinamento adotado. Pode ser que com outro
conjunto não se obtenha comportamento semelhante. Contudo, apesar de tal
situação não ser a ideal, com uma redução contínua, o resultado obtido pode ser
considerado satisfatório.
Interpolação Modificada de LSF’s
37
Figura 3.11 - Outliers >4% após a quantização utilizando os novos coeficientes.
Distância euclidiana ponderada - dLSF
Diferentemente dos outliers, a d LSF (Figura 3.12) apresenta redução
contínua, mesmo na mudança de 1 para 2 sub-quadros, ainda que bem pequena
nesse intervalo.
Interpolação Modificada de LSF’s
38
Figura 3.12 – dLSF após a quantização utilizando os novos coeficientes.
3.6.3.
Resultados da medida PESQ
Os resultados do teste PESQ são apresentados na a Tabela 3.9. É possível
observar que em todos os casos obteve-se um resultado melhor utilizando-se o
ajuste. Entretanto, não foi verificada uma característica que era esperada. A
variação da medida parece ser aleatória, quando se imaginava que a mesma
pudesse aumentar em função do número de sub-quadros à frente utilizados no
processo de ajuste de LSF’s. Tal fato talvez se deva à característica do codificador
que, por ser de baixas taxas, apresenta um PESQ também baixo. Dessa forma, por
já ter uma baixa qualidade de voz, pequenas melhorias que ocorram no sinal não
se traduzem em um aumento coerente da medida PESQ.
Modo
Sub-quadros
PESQ
Sem ajuste
2,3342
No lookahead
2,3524
Lookahead
1
2,3573
Interpolação Modificada de LSF’s
39
2
2,3456
3
2,3624
4
2,3371
Tabela 3.9 – Resultados da medida PESQ.
3.7.
Desempenho dos novos coeficientes minimizando a dLSF
Também foi avaliado o desempenho quando os coeficientes são treinados de
modo a minimizar a d LSF . Os resultados obtidos são apresentados a seguir.
3.7.1.
Análise dos resultados obtidos antes da quantização
A Tabela 3.10 contém os valores medidos antes do quantizador. Pode-se
observar que, apesar de a DE média ser maior do que quando se minimiza a DE (o
que já era esperado), os outliers apresentam valores bem menores. Pode-se dizer
até que se trata de uma redução bem significativa. A DE apresenta uma redução
no modo “lookahead” com 4 sub-quadros.
Assim como quando foram apresentados os resultados para o minimização
da DE, alguns gráficos serão mostrados a seguir. A organização visual mantêm-se
a mesma, número de sub-quadros à frente no eixo x, e medida de distorção no
eixo y. A diferença é que agora tem-se uma espécie de comparação através da
apresentação de duas curvas, uma nova, representando a medida para a
minimização da d LSF , e outra já conhecida para a minimização da DE. Além
disso, também há a reta da medida referencial, sem ajuste.
Modo
DE média
%2-4
%>4
d LSF
Sem ajuste
1,1249
14,3329
0,7476
0,6007
No lookahead
1,16638
9,66618
0,37189
0,5053
1
1,13924
7,56613
0,18838
0,42283
2
1,13958
7,55953
0,18938
0,46471
3
1,12624
6,93233
0,16935
0,39586
4
1,11139
6,44657
0,12083
0,38152
Lookahead
Sub-quadros
Tabela 3.10 – Medidas antes de quantizar minimizando a dLSF com novos coeficientes..
Interpolação Modificada de LSF’s
40
Distorção espectral – DE média
No gráfico da DE (Figura 3.13) podemos notar que a medida apresenta
tendência de redução quando minimiza-se a d LSF , mantendo-se, entretanto, acima
da medida observada quando se minimiza a DE. O perfil das duas curvas é muito
parecido, sendo quase como se fosse feito apenas um deslocamento vertical. Essa
informação é extremamente importante para o desenvolvimento que se segue no
próximo capítulo. A semelhança das curvas já fornece alguma indicação de que
DE e d LSF estão relacionadas. O que será feito no próximo capítulo é estabelecer
uma expressão matemática para essa relação, dando base para a formulação de
uma nova maneira de realizar o ajuste de LSF’s.
A Figura 3.13 também deixa bem claro que quando se deseja uma redução
da DE média, a minimzação da d LSF não é o melhor método. Pode-se observar
que somente com o emprego de 4 sub-quadros à frente é possível obter uma
redução da DE em relação ao método usual, que não utiliza ajuste de LSF’s.
Mesmo assim, essa redução é bem pequena em relação ao modo sem ajuste.
Figura 3.13 – DE média antes da quantização utilizando os novos coeficientes.
Interpolação Modificada de LSF’s
41
Outliers
Assim como no caso anterior, as duas curvas de outliers (figuras 3.14 e
3.15), minimizando a DE ou a d LSF têm perfil semelhante. Porém, agora ocorre
que a minimização da d LSF apresenta o melhor resultado. Tanto os outliers de 2 a
4% como os maiores que 4% apresentam menores medidas. E essa diferença é
significativa, ocorrendo em todas as situações, desde o modo “no lookahead”. Se
comparado com o valor referencial pode-se notar, por exemplo, uma redução
aproximadamente pela metade no percentual de outliers maiores que 4% no modo
“no lookahead”.
Figura 3.14 – Outliers 2-4% antes da quantização utilizando os novos coeficientes.
No gráfico dos outliers maiores que 4% percebe-se uma elevação muito
pequena na medida na passagem de 1 para 2 sub-quadros quando se minimiza a
d LSF .
Interpolação Modificada de LSF’s
42
Figura 3.15 - Outliers >4% antes da quantização utilizando os novos coeficientes.
Distância euclidiana ponderada - dLSF
Quando se minimiza a d LSF , a própria apresenta uma melhor resultado,
como já era de se esperar. O gráfico da Figura 3.16, entretanto, apresenta um
ponto não completamente aderente à essa lógica. No modo “lookahead”,
utilizando-se 2 sub-quadros à frente, tem-se que a medida da d LSF é muito
próxima do seu valor quando se minimiza a DE. Esse “desvio” no comportamento
previsto talvez possa ser conseqüência das características próprias das amostras de
teste utilizadas. Lembrando do que foi dito sobre condições experimentais, os
valores apresentados são médias de medidas realizadas com 10 amostras de modo
independente. É perfeitamente normal que uma dessas amostras apresente um
comportamento inesperado em determinadas condições. Essa anormalidade pode
acabar por influenciar a média.
De modo geral, a d LSF é sempre menor, apresentando redução ao longo do
aumento do número de sub-quadros, desde o modo “no lookahead”.
Interpolação Modificada de LSF’s
43
Figura 3.16 – dLSF antes da quantização utilizando os novos coeficientes.
3.7.2.
Análise dos resultados obtidos após a quantização
Para depois da quantização, utilizando coeficientes que minimizam a d LSF ,
tem-se os resultados mostrados na Tabela 3.11.
Modo
DE média
%2-4
%>4
d LSF
Sem ajuste
1,5892
23,1301%
1,2527%
0,9682
No lookahead
1,56435
20,59314% 1,01608%
0,87338
1
1,50368
17,90572% 0,64297%
0,78215
2
1,50679
17,93262% 0,64345%
0,77768
3
1,51205
17,87777% 0,63038%
0,79410
4
1,51301
17,79572% 0,62339%
0,80952
Lookahead
Sub-quadros
Tabela 3.11 – Medidas após a quantização minimizando a dLSF com novos coeficientes.
Distorção espectral – DE média
Interpolação Modificada de LSF’s
44
Pode-se notar na Tabela 3.11 e na Figura 3.17 que, após a quantização, na
passagem do modo “no lookahead” para o “lookahead” tem-se uma redução
significativa da DE média. Entretanto, conforme já havia sido observado no caso
da minimização da DE, já no modo “lookahead” não se percebe uma melhoria
significativa à medida que se aumenta o número de sub-quadros. Na verdade, no
caso da minimização da d LSF , ocorre até uma elevação contínua da DE.
Figura 3.17 – DE média após a quantização utilizando novos coeficientes.
Outliers
Os outliers (Figuras 3.18 e 3.19) apresentam uma característica interessante
que é uma variação muito pequena, quase que insignificante, no modo
“lookahead”. Assim como quando é minimizada a DE, ocorre uma queda
acentuada na passagem do modo “no lookahead” para o “lookahead”, atingindo
um patamar que praticamente se mantém, independente do número de subquadros à frente que forem utilizados. De qualquer forma, a medida do outliers
está sempre abaixo do referencial.
Interpolação Modificada de LSF’s
45
Figura 3.18 – Outliers 2-4% após a quantização utilizando novos coeficientes.
As características observadas valem tanto para os outliers de 2 a 4%, quanto
para os maiores que 4%. No gráfico abaixo é possível observar mais uma vez o
patamar que se estabelece para os outliers no modo “lookahead”.
Interpolação Modificada de LSF’s
46
Figura 3.19 - Outliers >4% após a quantização utilizando novos coeficientes.
Distância euclidiana ponderada - dLSF
A d LSF (Figura 3.20) apresenta um comportamento que foge um pouco do
esperado. Ela se mantém abaixo do seu valor quando a DE é minimizada, porém,
no modo “lookahead”, com 4 sub-quadros, ocorre uma inversão de posições.
Teoricamente, a medida deveria diminuir ou, na pior das hipóteses, manter o seu
valor. Esse aumento no final pode ser visto também como um “desvio”, conforme
comentado em seção anterior.
Interpolação Modificada de LSF’s
47
Figura 3.20 – dLSF após a quantização utilizando novos coeficientes.
3.7.3.
Resultados da medida PESQ
Mais uma vez, no caso do PESQ é apresentada apenas a tabela com os
valores. Conforme pode-se verificar na Tabela 3.12, novamente, não é possível
estabelecer uma relação entre o PESQ e o processo de ajuste de LSF’s. O
resultado foi pior que o modo sem ajuste tanto para o modo “no lookahead” como
para o “lookahead” com 1 sub-quadro. Mesmo nas outras situações, onde o
resultado é melhor, ainda assim essa melhoria não é muito significativa.
Modo
Sub-quadros
PESQ
Sem ajuste
2,3342
No lookahead
2,3088
Lookahead
1
2,3293
2
2,3497
3
2,3463
4
2,3409
Tabela 3.12 – Resultados da medida PESQ
Interpolação Modificada de LSF’s
48
4
Ajuste de LSF’s usando a distorção espectral (DE)
aproximada
Este capítulo propõe uma modificação no processo de ajuste de coeficientes
LSF’s apresentado no capítulo anterior. Como visto anteriormente, o ajuste de
LSF’s, método proposto por Wesley Pereira em sua dissertação, “Modifying LPC
parameter dynamics to improve speech coder efficiency” [5], e depois resumido
em seu artigo, “Improved spectral tracking using interpolated linear prediciton”
[11], consiste em alterar os coeficientes LSF do último sub-quadro em função de
uma medida de distorção. Na proposta em [5] e [11], a medida usada era d LSF ,
distância LSF ponderada euclidiana. Nesse capítulo será usada uma expressão da
DE aproximada em função da dLSF proposta em [5]. A justificativa para tal
mudança é buscar uma redução da DE de modo mais eficiente. Uma descrição
dessa aproximação da DE dará início ao capítulo, onde também será feita uma
avaliação da sua precisão. Em seguida é apresentado o desenvolvimento das
expressões para o ajuste de LSF’s que minimiza a DE aproximada. Ao final, são
apresentados e discutidos resultados de simulações através de tabelas e gráficos.
Esses resultados comprovam que, além de ter a vantagem de não ser preciso
treinar coeficientes de otimização, essa nova proposta também proporciona
menores medidas de distorção. Um ponto extremamente positivo é que a
eliminação do treinamento permite uma redução no esforço computacional
necessário ao processo de ajuste de LSF’s.
4.1.
Aproximação da DE através da dLSF
Exprimir a DE em função dos coeficientes LSF é trabalhoso e resulta em
uma fórmula bastante complexa. Por isso optou-se, inicialmente, por usar a
distância LSF ponderada euclidiana. A figura 4.1 apresenta um gráfico de
dispersão da DE e da d LSF obtido com uma amostra de voz composta por 49643
sub-quadros. No gráfico é possível ver que existe uma correlação entre as duas
Interpolação Modificada de LSF’s
49
medidas, pois seus pontos se agrupam apresentando uma tendência bem definida.
Tal tendência permite que seja empregado um método de “ajuste de curvas
logarítmico”, comum na literatura de cálculo básico, de modo a se chegar a uma
equação que aproxime todos os pontos do gráfico.
Figura 4.1 – Gráfico de dispersão mostrando a relação entre DE e dLSF.
Mais adiante será apresentado o desenvolvimento que mostrará, entre outras
coisas, que o ajuste de curva dos pontos apresentados no gráfico da Figura 4.1
pode ser realizado através de
DE = A ln (d LSF + B ) + C
(4-1)
onde A = 1,3955, B = 0,4 e C = 1,4726 foram aqui obtidos de modo
experimental. A expressão (4-1) foi proposta em [5].
As constantes A, B e C, que aparecem na Equação (4-1) foram obtidas
através do método dos mínimos quadrados, utilizando-se o mesmo conjunto de
dados da Figura 4.1. Esse conjunto de dados nada mais é do que uma matriz com
Interpolação Modificada de LSF’s
50
duas colunas, uma para a DE e outra para a d LSF . Cada linha corresponde a um
sub-quadro da amostra de voz utilizada.
Considerando-se agora um conjunto de dados ( x, y ) , onde x = ln(d LSF + B)
e y = DE, é possível encontrar uma função y = f (x) , onde y é o valor
aproximado de y, ou a DEaprox. É importante observar que x = ln(d LSF + B)
porque se trata de um ajuste logarítmico. A constante B tem apenas a função de
evitar a ocorrência de ln 0. Definindo δ i = y i − y i como o desvio de y em
relação a y, tem-se que o somatório dos desvios quadráticos será
n
n
i =1
i =1
(
S = ∑ δ i2 = ∑ y i − y i
2
)
(4-2)
Minimizar esse somatório é requisito para se encontrar os parâmetros que
proporcionem um ajuste o mais próximo possível dos valores reais. Tem-se que
y = f ( x) ⇒ DE aprox = f [ln (d LSF + B )]
(4-3)
De modo a simplificar a expressão da aproximação em (4-3), evitando
trabalhar com logaritmos, recorre-se a uma linearização, o que é feito através da
expressão linear
y = a 0 + a1 x
(4-4)
onde a 0 = C , a1 = A . É importante ressaltar que, na verdade, a constante B
= 0,4 é pré-determinada porque, em geral, a d LSF > 0,6, o que leva a d LSF +B > 1 e
ln( d LSF +B) > 0. Sendo assim, B não tem apenas a função de evitar a ocorrência de
ln 0, conforme já mencionado anteriormente, mas também de garantir que não
ocorrerá valor negativo de DE. A minimização do somatório S é feita derivando e
igualando a zero, ou seja,
Interpolação Modificada de LSF’s
51
∂S
=0
∂a 0
(4-5)
∂S
=0
∂a1
(4-6)
Substituindo (4-2) em (4-5), resulta
2
∂ n
∂S
∂  n 2
δ
=
yi − y i  = 0
=
∑ i 
∑

∂a0 ∂a0  i =1  ∂a0  i =1

(
)
(4-7)
É importante ressaltar que o índice i se refere à medida obtida para o i-ésimo
sub-quadro. Aplicando-se a equação (4-3) em (4-7), tem–se
n
∂S
∂ n
2
=
(
y
−
a
−
a
x
)
=
2( yi − a0 − a1 xi ) ⋅ (−1) = 0
∑ i 0 1 i  ∑
∂a0 ∂a0  i =1
i =1
(4-8)
Do último somatório vem que
n
 n 
na 0 +  ∑ xi a1 = ∑ y i
i =1
 i =1 
(4-9)
Finalmente, do mesmo modo, substituindo-se 4-2 e 4-3 em 4-5, chega-se a
n
 n 
 n

 ∑ xi a 0 +  ∑ xi2 a1 = ∑ xi yi
i =1
 i =1 
 i =1 
(4-10)
Um sistema de duas equações (4-9 e 4-10) e duas incógnitas ( a 0 e a1 ) é
obtido. Resolvendo esse sistema, obtém-se
n
n
n
n
i =1
i =1
∑ xi2 ∑ yi − ∑ xi ∑ xi yi
a0 =
i =1
i =1


n∑ x i −  ∑ xi 
i =1
 i =1 
n
2
n
2
(4-11)
Interpolação Modificada de LSF’s
52
n
n
n
n∑ x i y i − ∑ xi ∑ y i
a1 =
i =1
i =1
i =1


n∑ x i −  ∑ xi 
i =1
 i =1 
n
n
2
(4-12)
2
Utilizando como conjunto de dados os mesmo usados na plotagem do
gráfico 4.1, e lembrando que y = DE e x = ln(d LSF + B) , resulta que
n
n = 49643
n
n
n
∑ xi = −11871
∑ yi = 56539
∑ xi2 = 23007
∑x y
i =1
i =1
i =1
i =1
i
i
= 14624
Logo,
C = a 0 = 1,4726
A = a1 = 1,3955
Agora que já se tem uma aproximação para a DE, definida pela equação
DEaprox = 1,4726 + 1,3955 (ln dLSF + 0,4), é interessante avaliar se essa
aproximação é boa e se será útil. O coeficiente de correlação de Pearson, r2, é uma
medida usualmente empregada para avaliar a qualidade do ajuste de curva obtido.
O coeficiente varia entre 0 e 1, sendo que quanto mais próximo de 1, melhor a
aproximação obtida. Esse coeficiente é definido por
n
n∑ ( yi − y )
r2 = 1−
2
i =1
 n 
n∑ y −  ∑ y i 
i =1
 i =1 
n
(4-13)
2
2
i
Para o conjunto de dados utilizado, tem-se, além dos valores apresentados
anteriormente, que
n
2
∑ ( yi − y )
i =1
n
= 3360,1
∑y
i =1
2
i
= 107030
Interpolação Modificada de LSF’s
53
Logo, r2 = 0,9215, o que pode ser considerado como uma aproximação boa
e útil porque, além de r2 estar próximo de 1, a função logarítmica possui
características que a tornam mais adequada para o tipo de formulação matemática
que será apresentada na Seção 4.3.
4.2.
Expressão da DE em função dos coeficientes LSF
Levando em conta tudo que foi exposto até aqui, conclui-se que é possível
desenvolver uma expressão simples para o cálculo da DE aproximada em função
dos coeficientes LSF diretamente. Aplicando a equação 4-14 na 3.1, tem-se
p
d LSF = ∑ [ci wi (ω i − ω̂ i )]
2
(4-14)
i =1
p
DE aprox = A ln(d LSF + B ) + C = A ln(∑ [ci wi (ω i − ωˆ i )] + B) + C
2
(4-15)
i =1
onde, p = 10, ci e wi já foram definidos nas equações 3-3 e 3-4, respectivamente, e
A = 1,3955
B = 0,4
C = 1,4726
De modo a avaliar a aproximação da DE pelo método dos mínimos
quadrados, foram feitas simulações utilizando-se o conjunto de teste descrito na
Seção 3.9. Os resultados estão apresentados na Tabela 4.1.
Medida de
distorção
Erro
DE média
1,11%
Outliers
%2-4
%>4
3,59%
12,64%
Tabela 4.1 – Avaliação da aproximação da DE
O erro na Tabela 4.1 se refere à diferença entre o valor de DE média obtido
pelo cálculo através de transformadas de Fourier, forma mais comum na literatura
e que serviu de referência, tendo definição expressa pela Equação (3-24), e aquele
obtido através da aproximação da DE em (4-15). Os percentuais de erro
Interpolação Modificada de LSF’s
54
apresentados na Tabela 4.1 estão coerentes com o que se vê na Figura 4.1, pois é
possível perceber que para os valores mais altos de DE e d LSF , onde se situam os
outliers, os pontos encontram-se mais dispersos no gráfico. Isso implica em uma
menor correlação entre as medidas. Pode-se esperar, portanto, um erro maior
nessa faixa. Para o simples cálculo da DE média, pode-se considerar que o
resultado obtido com a aproximação é muito bom. Isso porque, além de apresentar
um erro de apenas 1,11%, proporciona um enorme ganho de tempo, por exigir um
esforço computacional muito menor que quando se utiliza a definição de DE
através de transformadas de Fourier. A DE aproximada pode ser calculada em um
tempo 51,6 vezes menor do que utilizando transformadas de Fourier. Além disso,
também é interessante ressaltar que esse pequeno erro de 1,11% confirma a
obervação de que, o coeficiente de Pearson de 0,9215 permite uma boa
aproximação.
4.3.
Ajuste visando minimizar a DE aproximada
Como foi observado anteriormente, a DE e a d LSF estão fortemente
relacionadas, e essa relação pode ser expressa, de modo aproximado, pela equação
3-1, ou seja
DE = A ln (d LSF + B ) + C
sendo A = 1,3955, B = 0,4
e C = 1,4726 constantes obtidas
experimentalmente. Serão agora desenvolvidas novas expressões para o ajuste das
LSF’s, com o objetivo de minimizar a DE aproximada.
4.3.1.
Ajuste sem atraso
Em um quadro qualquer, a distorção total é a soma das distorções de todos
os sub-quadro, que agora é expressa por
Interpolação Modificada de LSF’s
55
I
I
j =1
j =1
[
]
DETOT = ∑ DE j (ω ( j ) , ωˆ ( j ) ) = ∑ A ln d LSF j (ω ( j ) , ωˆ ( j ) ) + B + C
(4-16)
Podemos aplicar nessa expressão o mesmo método de minimização descrito
anteriormente, ou seja, derivar e igualar a zero, resultando no seguinte
desenvolvimento
I
d
d
(
)
DE
=
A
ln(d LSF j + B) =
∑
TOT
(0)
~
~
dω
dω ( 0)
j =1
k
I
= A∑
d
(d LSF j + B)
~
dω ( 0 )
k
d LSF j + B
j =1
k
I
= A∑
(
d
d LSF j
~
dω ( 0 )
k
d LSF j + B
j =1
)
(4-17)
=0
Utilizando a Equação (3-1), desenvolvemos a expressão para a d LSF j , que
resulta em
p
d LSF j
= ∑ [c w
i
( j)
i
(ω
( j)
i
]
2
p
2
(
2
− ωˆ i( j ) ) = ∑ ci2 wi( j ) ωi( j ) − 2ωi( j )ωˆ i( j ) + ωˆ i( j )
i =1
i =1
2
)
(4-18)
Substituindo nessa expressão a Equação (3-5), chega-se a
p
[
{
2
2
d LSF j ω ( j ) , ωˆ ( j ) = ∑ ci2 wi( j ) ωi( j ) − 2ωi( j ) (1 − α j )ω~i(−1) − 2ωi( j )α j ω~i(0 ) +
(
)
i =1

2 
+ (1 − α )ω~i(−1) + α j ω~i(0 )  
1444
424444
3
*

(
)
(4-19)
2
2
2
* = (1 − α j ) ω~i(−1) + 2(1 − α j )ω~i(−1)α jω~i(0 ) + α 2j ω~i(0 )
Fazendo i = k (k = 1, ..., p e p = 10), derivando em relação a ω~k( 0) e
igualando a zero, obtém-se
(
)
2
d
d LSF j = ck2 wk( j ) − 2ω k( j )α j + 2(1 − α j )ω~k( −1)α j + 2α 2j ω~k( 0)
(0)
~
dω
k
[
]
(4-20)
Interpolação Modificada de LSF’s
56
Substituindo a Equação (4-20) em (4-17), resulta que
I
∑
2
ck2 w(j j ) − 2ω k( j )α j + 2(1 − α j )ω~k(−1)α j
[
d LSF + B
j =1
I
∑
2
ck2 wk( j ) 2α j (1 − α j )ω~k(−1) − ω k( j )
[
]= −
] = −
I
2
ck2 wk( j ) 2α 2j ω~k(0 )
j =1
d LSF + B
∑
ck2 wk( j ) α 2j  ~ (0 )
 2ω k
∑
 j =1 d LSF + B 
1442443
d LSF + B
j =1
1
44444
42
444444
3
bk′
2
I
(4-22)
a′k
2
I
ck2 wk( j ) α 2j
j =1
d LSF + B
a k′ = ∑
I
2
ck2 wk( j ) 2α j (1 − α j )ω~k(−1) − ω k( j )
j =1
d LSF + B
bk′ = ∑
(4-21)
[
(4-23)
]
(4-24)
E finalmente chegamos a
ω~k(0 ) = −
bk′
2a k′
(4-25)
onde a ′k e bk′ são dadas pelas Equações (4-23) e (4-24), respectivamente.
Comparando as Equações (4-23) e (4-24) com (3-11) e (3-12), podemos
observar que os coeficientes de otimização f j existentes dentro dos somatórios
das Equações (3-11) e (3-12) são agora substituídos pelo fator
1
d LSF j + B
. A
conseqüência é que isso torna dispensável o procedimento de treinamento que era
necessário para obter os coeficientes de otimização. Considerando que tal
procedimento exige grande esforço computacional, temos então uma redução
computacional significativa do processo de ajuste.
4.3.2.
Ajuste com atraso
As conclusões feitas na seção anterior foram levantadas em cima do método
“no lookahead”. Mas o mesmo raciocínio pode ser aplicado ao “lookahead”.
Interpolação Modificada de LSF’s
57
Primeiramente teríamos uma alteração na expressão da distorção total no
quadro
I
(
L
)
(
)
DETOT = ∑ DE j ω ( j ) , ωˆ ( j ) + ∑ DE j ω N( j ) , ωˆ N( j ) =
j =1
I
{ [
j =1
) ] }
(
{ [
L
) ] }
(
= ∑ A ln d LSF j ω ( j ) , ωˆ ( j ) + B + C + ∑ A ln d LSF j ω N( j ) , ωˆ N( j ) + B + C
j =1
(4-26)
j =1
I
L
d
d
d
(
)
DE
=
A
ln(
d
+
B
)
+
A
ln(d LSF , N j + B) =
∑
∑
TOT
LSF
(0)
(0)
~
~
~
j
dω
dω
dω ( 0)
j =1
i
I
= A∑
j =1
j =1
i
(
d
d LSF j
~
dω ( 0 )
)
i
d LSF j + B
L
+ A∑
i
(
d
d LSF , N j
~
dω ( 0 )
j =1
i
d LSF , N j + B
)
(4-27)
=0
A d LSF j foi definida nas Equações (4-18) e (4-19). A d LSF , N j , de modo
análogo, é expressa por
p
[
(
d LSF , N j = ∑ ci wN( j,)i ω N( j,)i − ωˆ N( j,)i
2
)]
=
i =1
p 


2
2
2
= ∑ ci2 w N( j,)i  ω N( j,)i − 2ω N( j,)i ωˆ N( j,)i + ωˆ N( j,)i 
 1444424444
3 
i =1 


*

(4-28)
Utilizando a Equação (3-16), obtém-se
2
2
* = ω N( j,)i − 2ω N( j,)i (1 − β j )ω~i(0 ) − 2ω N( j,)i β jω~i(1) + (1 − β j )ω~i(0 ) + β iω~i(1)
144424443
(
)
**
2
2
2
* * = (1 − β j ) ω~i(0 ) + 2(1 − β j )ω~i(0 )β jω~i(1) + β j2ω~i(1)
Mais uma vez, considerando i = k (k = 1, ..., p e p = 10), derivando em
relação a ω~ ( 0) e igualando a zero, obtém-se
k
Interpolação Modificada de LSF’s
58
( j )2
2
I c w
d
k k
(
DE
)
=
A
∑
TOT
(0 )
~
dω
α j + 2(1 − α j )ω~k(−1)α j + 2α 2j ω~k(0 )
( j)
k
[
L
2
2
2
ck2 wN( j,)k − 2ω N( j,)k (1 − β j ) + 2(1 − β j ) ω~k(0 ) + 2(1 − β j )β j ω~k(1)
j =1
d LSF , N j + B
+ A∑
∑
2
ck2 wk( j ) 2α j (1 − α j )ω~k(−1) − ω k( j )
[
2
d LSF j + B
j =1
k
I
[− 2ω
]+
L
∑
]+
]= 0
ck2 wN( j,)k 2(1 − β j ) β jω~k(1) − ω N( j,)k
(
2
(4-29)
)=
d LSF + B
d LSF , N j + B
j =1
j =1
144444
42j444444
3
bk′
1444444
4444444244444444444443
d k′




 I 2 ( j )2 2 L 2 ( j ) 2
2
ck wk α j
ck wN ,k (1 − β j )  ~ (0 )
2ω k
= − ∑
+∑
 j =1 d
d LSF , N j + B 
j =1
LSF j + B
 14

4244
3
ak′
 144
44442444444
3


c′k
L
ck2 wN( j,)k (1 − β j )
2
ck′ = a k′ + ∑
j =1
L
d k′ = bk′ + ∑
j =1
2
(4-31)
d LSF , N j + B
ck2 wN( j,)k 2(1 − β j ) β jω~k(1) − ω N( j,)k
(
2
(4-30)
)
d LSF , N j + B
(4-32)
Concluindo que
ω~k(0 ) = −
d k′
2ck′
(4-33)
onde c′k e d k′ são dadas pelas equações (4-31) e (4-32), respectivamente.
4.4.
Resultados de simulação usando minimização da DE aproximada
4.4.1.
Análise dos resultados obtidos antes da quantização
Interpolação Modificada de LSF’s
Modo
DE média
%2-4
%>4
d LSF
Sem ajuste
1,1249
14,3329%
0,7476%
0,6007
No lookahead
1,15055
10,70312% 0,61017%
0,50755
1
1,10438
9,81284%
0,58055%
0,48237
2
1,10304
9,53486%
0,58390%
0,47574
3
1,09322
9,10958%
0,55036%
0,46007
4
1,07830
8,56472%
0,53304%
0,44638
Lookahead
Sub-quadros
59
Tabela 4.2 – Resultados obtidos antes da quantização
A Tabela 4.2 mostra os resultados obtidos para o conjunto de teste antes da
quantização. De modo geral, comparando os resultados das medidas apresentadas
com as referenciais, pode-se dizer que em todos os casos ocorre redução das
medidas, exceto para a DE média no modo “no lookahead”, a qual fica acima.
Os gráficos apresentados nas Figuras 4.2 à 4.9 foram feitos segundo o
mesmo esquema visual dos anteriores. A única diferença é que agora tem-se uma
curva a mais, representando os valores das medidas de distorção obtidas com o
emprego da nova proposta de ajuste de LSF’s.
A distorção espectral – DE média
A Figura 4.2 mostra que a nova proposta de ajuste de LSF’s é efetivamente
capaz de obter um melhor resultado em termos de DE média, ainda que apenas no
modo “lookahead”. Esse resultado, somado ao fato de que não foi necessário
treinamento se traduz em uma melhoria tanto de desempenho como
computacional. Vale lembrar que o treino é um processo que tende a ser
extremamente demorado, já que quanto mais preciso se exige que seja, maior terá
que ser o conjunto de treinamento. Isso, é claro, cria um requisito não só de
tempo, quanto também de capacidade computacional.
Interpolação Modificada de LSF’s
60
Figura 4.2 – DE média x número de sub-quadros.
Outliers
Em se tratando de outliers (Figuras 4.3 e 4.4), os resultados obtidos não são
tão bons quanto os da DE média, principalmente para os maiores que 4%.
Entretanto, mesmo nesse caso, os valores registrados sempre se situam abaixo dos
referenciais.
Para os outliers entre 2 e 4%, a nova proposta de ajuste de LSF’s, com até 3
sub-quadros, chega a ser melhor que aquela onde se minimiza a DE. Porém, o
melhor resultado de todos é obtido quando se minimiza a d LSF .
Interpolação Modificada de LSF’s
61
Figura 4.3 – Outliers de 2-4% x número de sub-quadros.
No caso dos outliers maiores que 4%, apenas no modo “no lookahead” a
nova proposta consegue apresentar alguma vantagem, em relação apenas à
minimização da DE.
Interpolação Modificada de LSF’s
62
Figura 4.4 – Outliers >4% x número de sub-quadros.
Distância euclidiana ponderada - dLSF
A d LSF apresenta um perfil decrescente com valores, no modo “lookahead”
que se mantêm próximos dos obtidos com a minimização da DE. No modo “no
lookahead” a medida atinge um valor bem próximo ao da minimização da mesma.
Figura 4.5 – dLSF x número de sub-quadros.
4.4.2.
Análise dos resultados obtidos após a quantização
Para as simulações após a quantização, tem-se os valores apresentados na
tabela 4.3.
Modo
Sub-quadros
DE média
%2-4
%>4
d LSF
Sem ajuste
1,58916
23,13012% 1,25266%
0,96820
No lookahead
1,55695
20,33445% 1,10890%
0,90079
1
1,50331
18,24693% 1,07711%
0,85035
2
1,49090
17,75435% 1,01067%
0,83329
Lookahead
Interpolação Modificada de LSF’s
63
3
1,48916
17,36423% 1,02854%
0,82258
4
1,49412
17,32577% 1,06150%
0,82490
Tabela 4.3 – Resultados obtidos após a quantização.
Agora todas as medidas estão abaixo dos referenciais, sem exceção, ao
contrário do que ocorreu antes da quantização. Isso é um ponto positivo, pois,
como já foi dito, as LSF’s quantizadas são as que realmente vão compor o sinal
sintetizado na saída do decodificador.
Distorção espectral – DE média
Após a quantização, a DE média (Figura 4.6) se mantém abaixo do que em
todas as outras situações. A vantagem da nova proposta é mais clara no modo
“lookahead”, principalmente a partir da utilização de 2 sub-quadros à frente. Isso
apenas reforça a idéia de que ocorre efetivamente uma melhoria com o emprego
da nova proposta de ajuste de LSF’s, além, é claro, do fato de não ser necessário o
processo de treinamento.
Figura 4.6 – DE média x número de sub-quadros.
Interpolação Modificada de LSF’s
64
Outliers
Os outliers de 2 a 4% (Figura 4.7) apresentam um comportamento até
melhor do que antes da quantização. Além de apresentarem uma redução
contínua, detém também resultados melhores que os obtidos com a minimização
da DE, tanto no modo “no lookahead” quanto no “lookahead” a partir de 2 subquadros.
Figura 4.7 – Outliers 2-4% x número de sub-quadros.
Já os outliers maiores que 4% (Figura 4.8) tem um comportamento
semelhante ao obtido antes da quantização, apresentando vantagem apenas no
modo “no lookahead” em relação à minimização da DE.
Interpolação Modificada de LSF’s
65
Figura 4.8 – Outliers >4% x número de sub-quadros.
Distância euclidiana ponderada - dLSF
A d LSF (Figura 4.9) apresenta no modo “no lookahead” um valor menor que
na minimização da DE. No modo “lookahead” ela se mantém próxima, porém
acima.
Interpolação Modificada de LSF’s
66
Figura 4.9 – dLSF x número de sub-quadros.
4.4.3.
Resultados da medida PESQ
Como mostrado na tabela 4.4, o teste PESQ apresenta resultados melhorer
que o referencial em todas as situações. Entretanto, como nas medições anteriores,
não é possível estabelecer uma relação entre a medida e o número de sub-quadros
à frente utilizados.
Modo
Sub-quadros
PESQ
Sem ajuste
2,3342
No lookahead
2,3436
Lookahead
1
2,3459
2
2,3393
3
2,3628
4
2,3543
Tabela 4.4 – Resultados da medida PESQ.
Interpolação Modificada de LSF’s
67
5
Conclusões e Sugestões para Trabalhos Futuros
Nesta dissertação foi analisado um método de ajuste de parâmetros LSF’s,
para o qual foram propostas melhorias. O objetivo do ajuste é buscar aproximar as
LSF’s interpoladas das originais de cada sub-quadros de voz. Foram utilizadas
medidas de distorção objetivas (distorção espectral, outliers, e distância LSF
euclidiana ponderada) para a avaliação das melhorias nos parâmetros LSF, e o
teste PESQ, para a avaliação da qualidade de voz sintetizada. Para o teste PESQ
foi empregado um codificador de voz operando a taxas médias de 2 kb/s. A seguir
tem-se uma descrição resumida das principais contribuições desta dissertação e
algumas sugestões para trabalhos futuros.
5.1.
Resumo e principais conclusões
No Capítulo 2 foi feita uma breve descrição do processo de codificação de
voz, indicando o ponto de inserção do processo de ajuste de parâmetros LSF
estudado nesta dissertação. Foi feita uma apresentação resumida do processo de
análise linear preditiva (LPC), dando ênfase à função do filtro preditor e às
características dos coeficientes preditores. Por último, foram apresentados os
parâmetros LSF, explicando como são obtidos, e quais as características que os
tornam interessantes para o processo de codificação de voz.
No capítulo 3 foi analisado o método de ajuste de parâmetros LSF, proposto
em [5]. Inicialmente foi feita uma breve explicação sobre dois temas fundamentais
para a compreensão do processo de ajuste: a interpolação de LSF e a distância
LSF euclidiana ponderada. A seguir, foram apresentadas deduções detalhadas das
expressões de ajuste contidas no trabalho publicado em [5]. É importante observar
que tais deduções foram feitas para dois modos, com e sem introdução de atraso
no processo de codificação da voz. Logo após, é feita a apresentação da distorção
espectral (DE) e do processo de obtenção dos coeficientes de otimização que
minimizam a DE e a d LSF . De modo a estabelecer uma referência para
Interpolação Modificada de LSF’s
68
comparação de medidas foram feitas simulações com o codificador sem nenhuma
alteração, isto é, sem utilizar o processo de ajuste de LSF’s. A partir de
simulações realizadas com os coeficientes apresentados em [11], verificou-se a
redução das medidas de distorção, DE e d LSF , quando minimizadas através dos
respectivos coeficientes de otimização. Tais medidas foram realizadas antes e
depois da quantização, constatando-se a melhoria de desempenho em ambas as
situações. Também ocorreu uma pequena melhoria no teste PESQ quando
minimizada a DE. É importante notar que em [5] e [11] não é apresentada
nenhuma avaliação direta da qualidade de voz.
Na seqüência do capítulo 3 foram treinados novos coeficientes de
otimização, tanto para a minimização da DE, quanto para minimização da d LSF .
Tais coeficientes foram utilizados em novas simulações através das quais foi
possível verificar a redução das medidas de distorção. Uma conclusão importante
é que no caso de se desejar obter uma redução dos outliers, a minimização da
d LSF se mostrou mais eficiente do que a da DE. Em geral, o teste PESQ também
apresentou melhoria, exceto nos casos “no lookahead” e “lookahead” com 1 subquadro à frente, minimizando a d LSF .
O capítulo 4 apresenta a maior contribuição dessa dissertação na medida em
que propõe melhorias no processo de ajuste de LSF’s apresentado no capítulo 3.
Inicialmente foi abordado um método de aproximação da DE pela d LSF , definido
em [5], para a qual são determinados os parâmetros, a partir de um conjunto de
treinamento. Através de tal aproximação foi possível deduzir uma expressão para
o cálculo da DE aproximada em função diretamente de parâmetros LSF. Os novos
parâmetros para a aproximação da DE e a expressão para a DE aproximada em
função dos LSF’s podem ser considerados contribuições iniciais deste capítulo.
Sem dúvida, o ponto de maior interesse desta dissertação é o que se segue no
capítulo 4, onde são apresentadas deduções detalhadas de um novo método de
ajuste de LSF’s realizado através da expressão da DE aproximada. Tal ajuste é
proposto para ambas situações com e sem a introdução de atraso. A grande
contribuição desta nova proposta é eliminar o treinamento de coeficientes de
otimização, processo que exige grande esforço computacional, podendo ser
extremamente demorado. Além disso, por realizar a minimização diretamente
através de uma expressão da DE, ainda que aproximada, foi possível obter uma
Interpolação Modificada de LSF’s
69
redução ainda maior da medida. Isso foi confirmado através de simulações que
mostraram a redução da DE em todos os casos, exceto no modo “no lookahead”,
quando medida antes da quantização. O teste PESQ apresentou uma pequena
melhoria, mas foi possível estabelecer uma relação direta entre a evolução do
número de sub-quadros à frente utilizados e o aumento da medida. Testes de
escuta informais revelaram que a diferença obtida na percepção subjetiva de
qualidade de voz é pequena. Isso possivelmente se deve ao fato de que o
codificador utilizado apresenta baixa qualidade de voz, devido ao fato de operar a
baixas taxas, fazendo que pequenas mudanças praticamente não sejam percebidas.
5.2.
Sugestões para Trabalhos Futuros
A seguir são apresentadas algumas sugestões para trabalhos futuros que
podem ser realizados de modo a dar seguimento no que foi exposto nesta
dissertação. Muitas dessas sugestões são linhas de investigação previstas no início
deste trabalho, outras são possibilidades que surgiram ao longo do estudo, mas
que foram descartadas devido a limitação de tempo. São elas:
•
É possível que diferentes esquemas de janelamento, aplicado logo
após a segmentação do sinal do voz para a análise LPC, tenham
efeito sobre o processo de ajuste, na medida em que podem alterar a
contribuição de cada sub-quadro individualmente.
•
Testar novos codificadores de voz, principalmente a taxas maiores,
como por exemplo o G723.1, pois é possível que neste caso a
qualidade de voz sintetizada possa ser melhor avaliada pelo teste
PESQ.
•
Treinar novos coeficientes de otimização usando conjuntos de
treinamento ainda maiores e mais diversificados, de modo a tornar o
ajuste ainda mais preciso.
•
Testar novos processos de interpolação além da linear, como por
exemplo a polinomial.
•
O treinamento do quantizador dos codificadores em geral não utiliza
LSF’s ajustados. Portanto, seria interessante realizar um novo
treinamento usando LSF’s modificados pelo processo de ajuste.
Interpolação Modificada de LSF’s
70
•
Aplicar o ajuste de LSF’s no reconhecimento de voz.
•
Analisar a interação entre o processo de ajuste de LSF’s e os pósfiltros de saída do decodificador, pois é possível que novas
combinações de filtros proporcionem melhores resultados.
•
Expressar a relação entre DE e d LSF através de outra função que não
a logaritimica (por exemplo a quadrática) e aplicar essa nova
expressão no processo de ajuste.
Interpolação Modificada de LSF’s
71
Bibliografia
[1]
O. Hersent, D. Guide, and J.-P. Petit, Telefonia IP : Comunicação
Multimídia Baseada em Pacotes. Makron Books, 2002.
[2]
J. I. Makhoul, “Linear prediction: a tutorial review," Proc. IEEE, vol.
63, pp. 561-580, Abril 1975.
[3]
B. S. Atal, “Efficient coding of lpc parameters by temporal
decomposition," Proc. IEEE Int. Conf. Acoust., Speech, Signal
Processing, pp. 81-84, Boston, USA, 1983.
[4]
F. K. Soong and B. Juang, “Line spectrum pair (lsp) and speech data
compression," Proc. IEEE Int. Conf. Acoust., Speech, Signal
Processing, San Diego, California, USA, 1984.
[5]
W. Pereira, Modifying LPC Parameter Dynamics to Improve Speech
Coder Efficiency. Master’s thesis, McGill University, Montreal,
Canada, 2001.
[6]
K. K. Paliwal and B. S. Atal, “Efficient vector quantization of LPC
parameters at 24 bits/frame,” IEEE Trans. Acoustics, Speech, Signal
Processing, vol. ASSP-1, pp. 3–14, Jan. 1993.
[7]
A. W. Rix, J. G. Beerends, M. P. Hollier, and A. P. Hekstra,
“Perceptual evaluation of speech quality (pesq): A new method for
speech quality assessment of telephone networks and codecs,"
IEEE. ICASSP, Utah, USA, May 2001.
[8]
ITU-T Rec. P.862, Perceptual evaluation of speech quality (PESQ):
Interpolação Modificada de LSF’s
72
An objective method for end-to-end speech quality assessment of
narrow-band telephone networks and speech codecs. February 2001.
[9]
R. C. de Lamare, Codificação de Voz a Taxas Médias Abaixo de 2
kb/s.Rio de Janeiro: Dissertação de Mestrado - PUC-Rio, 2001.
[10] R. Laroia, N. Phamdo, and N. Farvardin, “Robust and efficient
quantization of speech LSP parameters using structured vector
quantizers,” in Proc. IEEE Int. Conf. On Acoustics, Speech, Signal
Processing, (Toronto, Canada), pp. 641–644, May 1991.
[11] W. Pereira and P. Kabal, "Improved Spectral Tracking Using
Interpolated Linear Prediction Parameters", Proc. IEEE Int. Conf.
Acoustics, Speech, Signal Processing (Orlando, FL), pp. 261-264,
May 2002.
[12] R. C. de Lamare and A. Alcaim, “Very low bit rate speech coding in
tandem connections," Electronics Letters, vol. 18, pp. 1356-1357,
2003.
[13] A. Gersho and R. M. Gray, “Vector quantization and signal
compression," Kluwer Academic Publishers, 1992.
[14] W. LeBlanc, B. Battacharya, S. Mahmoud, and V. Cupperman,
“Efficient search and design procedures for robust multi-stage vq of
lpc parameters for 4 kb/s speech coding," IEEE Trans. Speech and
Audio Processing, vol. 1, no. 4, pp. 373-385, 1993.
[15] M. Yong, G. Davidsson, and A. Gersho, “Encoding of lpc spectral
parameters using switched-adaptive interframe vector prediction,"
Proc. ICASSP88, vol. 1, pp. 402{405, Washington, USA, 1988.
[16] A. McCree and J. D. Martin, “A 1.7 kb/s melp coder with improved
Interpolação Modificada de LSF’s
73
analysis and quantization," Proc. ICASSP-98, USA, 1998.
[17] R. C. de Lamare and A. Alcaim, “Analysis of lsf switched-predictive
vector quantisers," International Symposium on Signal Processing
and its Applications, Kuala Lumpur, Malaysia, 2001.
[18] R. C. de Lamare and A. Alcaim, “Noisy channel perfomance of lsf
switched-predictive vector quantisers," Proc. IEEE International
Conference on Information, Communications and Signal Processing,
Singapore, 2001.
[19] T. Unno, T. P. III, and K. Truong, “An improved mixed excitation
linear prediction (melp) coder.," Proc. IEEE Int. Conf. Acoust.,
Speech, Signal Processing, Arizona, USA, 1999.
[20] W. Ehnert, “Variable-rate speech coding: coding unvoiced frames
with400bps.," Proc. of EUSIPCO, Greece, pp. 1437-1440, 1998.
[21] J. Wang and J. Gibson, “Parameter interpolation to enhance the
frame erasure robustness of celp coders in packet networks," Proc.
IEEE Int.Conf. Acoust., Speech, Signal Processing, Utah, USA, 2001.
[22] A. Alcaim, J. A. Solewicz, and J. A. Moraes, “Frequência de
ocorrência dos fones e listas de frases foneticamente balanceadas
no português faladono Rio de Janeiro," Revista da Sociedade
Brasileira de Telecomunicações, vol. 7, pp. 23-41, 1992.
Download

Carlos Roberto da Costa Ferreira Interpolaç˜ao modificada