Carlos Roberto da Costa Ferreira Interpolação modificada de LSF’s DISSERTAÇÃO DE MESTRADO DEPARTAMENTO DE ENGENHARIA ELÉTRICA Programa de Pós–graduação em Engenharia Elétrica Rio de Janeiro Fevereiro de 2006 PDF processed with CutePDF evaluation edition www.CutePDF.com Carlos Roberto da Costa Ferreira Interpolação modificada de LSF’s Dissertação de Mestrado Dissertação apresentada como requisito parcial para obtenção do grau de Mestre pelo Programa de Pós–graduação em Engenharia Elétrica do Departamento de Engenharia Elétrica da PUC-Rio Orientador: Prof. Abraham Alcaim Rio de Janeiro Fevereiro de 2006 Carlos Roberto da Costa Ferreira Interpolação modificada de LSF’s Dissertação apresentada como requisito parcial para obtenção do grau de Mestre pelo Programa de Pós–graduação em Engenharia Elétrica do Departamento de Engenharia Elétrica do Centro de Estudos em Telecomunicações da PUC-Rio.Aprovada pela Comissão Examinadora abaixo assinada. Prof. Abraham Alcaim Orientador Departamento de Engenharia Elétrica — PUC-Rio Prof. Abraham Alcaim PUC-Rio Prof. Fernando Gil Vianna Resende Jr. UFRJ Prof. Sérgio Lima Netto UFRJ Prof. Weiler Alves Finamore PUC-Rio Prof. Abraham Alcaim Coordenador Setorial do Centro de Estudos em Telecomunicações — PUC-Rio Rio de Janeiro, 24 de Fevereiro de 2006 Todos os direitos reservados. É proibida a reprodução total ou parcial do trabalho sem autorização da universidade, do autor e do orientador. Carlos Roberto da Costa Ferreira Graduou-se em Engenharia de Telecomunicações na Universidade Federal Fluminense. Ficha Catalográfica Ferreira, Carlos Roberto da Interpolação modificada de LSF’s/ Carlos Roberto da Costa Ferreira; orientador: Abraham Alcaim. — Rio de Janeiro : PUC-Rio, Departamento de Engenharia Elétrica, 2006. v., 29 f: il. ; 29,7 cm 1. Dissertação (mestrado) - Pontifı́cia Universidade Católica do Rio de Janeiro, Departamento de Engenharia Elétrica. Inclui referências bibliográficas. I. Alcaim, Abraham. II. Pontifı́cia Universidade Católica do Rio de Janeiro. Departamento de Engenharia Elétrica. III. Tı́tulo. CDD: 510 Agradecimentos Ao meu orientador Abraham Alcaim. Aos meus pais e demais familiares. Aos colegas do CETUC. Resumo Ferreira, Carlos Roberto da; Alcaim, Abraham. Interpolação modificada de LSF’s. Rio de Janeiro, 2006. 29p. Dissertação de Mestrado — Departamento de Engenharia Elétrica, Pontifı́cia Universidade Católica do Rio de Janeiro. Os novos serviços de telecomunicações têm impulsionado o desenvolvimento de melhorias nos algoritmos de codificação de voz, devido à necessidade de se melhorar a qualidade da voz codificada, utilizando a menor taxa de transmissão possı́vel. Esta dissertação analisa e propõem melhorias em um método para o ajuste de parâmetros LSFs de modo a torná-los mais precisos, minimizando as perdas no processo de interpolação de LSFs codificadas. Com isso, a percepção de qualidade da voz sintetizada na saı́da do decodificador é aumentada, sem que seja necessário aumento da taxa de transmissão. É apresentada de modo detalhado toda a dedução matemática do método citado. Para a avaliação de desempenho das melhorias propostas, o processo de ajuste é implementado em um codificador a taxas médias inferiores a 2 kb/s. Os resultados confirmam que é possı́vel obter redução significativa nas medidas de distorção com a utilização do ajuste de LSFs. Palavras–chave Engenharia Elétrica; Processamento de Sinais; Técnicas Digitais; Sistema de Processamento da Fala. Abstract Ferreira, Carlos Roberto da; Alcaim, Abraham. T. Rio de Janeiro, 2006. 29p. MSc. Dissertation — Departamento de Engenharia Elétrica, Pontifı́cia Universidade Católica do Rio de Janeiro. he new telecommunications services have been pushing foward the development of improvements in speech coding, because of the need of to improve coded speech quality, using the smallest transmission rate possible. This thesis analyzes and proposes improvements in a method to adjust LSF parameters so they get more accurate, minimizing the losses in the coded LSFs interpolation process. With this, the synthesized speech perceptual quality in the decoder exit is increased, without having to increase the transmission rate. The mathematical deduction of the method is presented in a detaild way. To evaluate the performance of the improvements proposed, the adjust process is implemented in a speech coder with mean rates less than 2 kb/s. The results confirmed that is possible to obtain significant reduction in distortion measures using the adjust of LSFs. Keywords Eletrical Engineering; Signal Processing; Digital Technics;Speech Processing System Interpolação Modificada de LSF’s 1 Sumário 1 Introdução 6 1.1. Motivação e Objetivos 6 1.2. Organização da Dissertação 7 2 Codificação de Voz 9 2.1. Análise LPC 10 2.2. Parâmetros LSF 11 2.3. Descrição do codificador 12 3 Ajuste das LSF´s usando a distância LSF euclidiana ponderada (dLSF) 15 3.1. Interpolação linear das LSF’s e a distância LSF euclidiana ponderada (dLSF) 15 3.2. Ajuste sem atraso 18 3.3. Ajuste com atraso 20 3.4. A distorção espectral (DE) e os coeficientes de otimização 23 3.5. Condições experimentais e resultados de simulações 25 3.5.1. Simulações com os coeficientes apresentados em [11] 26 3.5.2. Obtenção dos novos coeficientes de otimização 27 3.6. Desempenho dos novos coeficientes minimizando a DE 29 3.6.1. Análise dos resultados obtidos antes da quantização 29 3.6.2. Análise dos resultados obtidos após a quantização 34 3.6.3. Resultados da medida PESQ 38 3.7. Desempenho dos novos coeficientes minimizando a dLSF 39 3.7.1. Análise dos resultados obtidos antes da quantização 39 3.7.2. Análise dos resultados obtidos após a quantização 43 3.7.3. Resultados da medida PESQ 47 4 Ajuste de LSF’s usando a distorção espectral (DE) aproximada 48 4.1. Aproximação da DE através da dLSF 48 4.2. Expressão da DE em função dos coeficientes LSF 53 Interpolação Modificada de LSF’s 2 4.3. Ajuste visando minimizar a DE aproximada 54 4.3.1. Ajuste sem atraso 54 4.3.2. Ajuste com atraso 56 4.4. Resultados de simulação usando minimização da DE aproximada 58 4.4.1. Análise dos resultados obtidos antes da quantização 58 4.4.2. Análise dos resultados obtidos após a quantização 62 4.4.3. Resultados da medida PESQ 66 5 Conclusões e Sugestões para Trabalhos Futuros 67 5.1. Resumo e principais conclusões 67 5.2. Sugestões para Trabalhos Futuros 69 Bibliografia 71 Interpolação Modificada de LSF’s 3 Lista de figuras Figura 2.1 – Posição do ajuste de LSFs no codificador. 9 Figura 2.2 – Modelo de produção da fala 10 Figura 2.3 – Interpolação de parâmetros LSF. 11 Figura 2.4 – Diagrama em blocos do codificador e do decodificador. 14 Figura 3.1 – Relação entre os coeficientes LSF e o sinal de voz. 16 Figura 3.2 – Comparação entre os coeficientes LSF referências e interpolados. 17 Figura 3.3 – Tendência dos novos coeficientes de otimização. 28 Figura 3.4 – DE média antes da quantização utilizando os novos coeficientes. 31 Figura 3.5 - Outliers de 2-4% antes da quantização utilizando os novos coeficientes. 32 Figura 3.6 - Outliers >4% antes da quantização utilizando os novos coeficientes. 33 Figura 3.7 - dLSF antes da quantização utilizando os novos coeficientes. 34 Figura 3.8 - DE média após a quantização utilizando os novos coeficientes. 35 Figura 3.9 – Outliers 2-4% após a quantização utilizando os novos coeficientes. 36 Figura 3.10 - Outliers >4% após a quantização utilizando os novos coeficientes. 37 Figura 3.11 – dLSF após a quantização utilizando os novos coeficientes. 38 Figura 3.12 – DE média antes da quantização utilizando os novos coeficientes. 40 Figura 3.13 – Outliers 2-4% antes da quantização utilizando os novos coeficientes. 41 Figura 3.14 - Outliers >4% antes da quantização utilizando os novos coeficientes. 42 Figura 3.15 – dLSF antes da quantização utilizando os novos coeficientes.43 Interpolação Modificada de LSF’s 4 Figura 3.16 – DE média após a quantização utilizando novos coeficientes.44 Figura 3.17 – Outliers 2-4% após a quantização utilizando novos coeficientes. 45 Figura 3.18 - Outliers >4% após a quantização utilizando novos coeficientes. 46 Figura 3.20 – dLSF após a quantização utilizando novos coeficientes. 47 Figura 4.1 – Gráfico de dispersão mostrando a relação entre DE e dLSF. 49 Figura 4.2 – DE média x número de sub-quadros. 60 Figura 4.3 – Outliers de 2-4% x número de sub-quadros. 61 Figura 4.4 – Outliers >4% x número de sub-quadros. 62 Figura 4.5 – dLSF x número de sub-quadros. 62 Figura 4.6 – DE média x número de sub-quadros. 63 Figura 4.7 – Outliers 2-4% x número de sub-quadros. 64 Figura 4.8 – Outliers >4% x número de sub-quadros. 65 Figura 4.9 – dLSF x número de sub-quadros. 66 Interpolação Modificada de LSF’s 5 Lista de tabelas Tabela 2.1 – Alocação de bits. 13 Tabela 3.1 – Coeficientes de otimização apresentados em [11]. 24 Tabela 3.2 – Medidas referenciais realizadas sem ajuste de LSF’s. 26 Tabela 3.3 – Medidas antes do quantizador utilizando coeficientes apresentados em [11]. 26 Tabela 3.4 – Medidas após a quantização utilizando coeficientes apresentados em [11]. 27 Tabela 3.5 – Novos coeficientes de otimização que minimizam a DE. 29 Tabela 3.6 – Novos coeficientes de otimização que minimizam a dLSF. 29 Tabela 3.7 – Medidas antes de quantizar minimizando DE utilizando novos coeficientes. 29 Tabela 3.8 - Medidas após quantizar minimizando a DE utilizando os novos coeficientes. 34 Tabela 3.9 – Resultados da medida PESQ. 39 Tabela 3.10 – Medidas antes de quantizar minimizando a dLSF com novos coeficientes.. 39 Tabela 3.11 – Medidas após a quantização minimizando a dLSF com novos coeficientes. 43 Tabela 3.12 – Resultados da medida PESQ 47 Tabela 4.1 – Avaliação da aproximação da DE 51 Tabela 4.2 – Resultados obtidos antes da quantização 59 Tabela 4.3 – Resultados obtidos após a quantização. 63 Tabela 4.4 – Resultados da medida PESQ 64 Interpolação Modificada de LSF’s 6 1 Introdução 1.1. Motivação e Objetivos A grande demanda por serviços de telecomunicações, principalmente de voz sobre IP (VoIP) [1], tem pressionado fabricantes de equipamentos e operadoras por um aumento da capacidade de transmissão de informação. Todo esse volume de dados necessita de uma largura de banda para ser trafegado que nem sempre está disponível. Em função disso, surge a necessidade de transmissão a baixas taxas, incluindo a voz, de modo a otimizar a utilização da banda disponível. Para que essa redução na taxa de transmissão não resulte em perda de qualidade, é importante que se faça um estudo detalhado e uma avaliação criteriosa dos parâmetros do codificador de voz, visando uma obtenção mais precisa dos seus valores. Atualmente, os esquemas de codificação de voz que operam a baixas taxas utilizam, em geral, codificação linear preditiva, conhecida como LPC (Linear Predictive Coding), com base em um modelo de produção de fala. Nesse modelo, um sinal de excitação é aplicado a um filtro só de pólos (caracterizado pelos parâmetros LPC), que representa a envoltória espectral do sinal de voz [2][3]. Usualmente, os parâmetros LPC são transformados para LSF (Line Spectrum Frequencies), devido às propriedades atraentes destes últimos para processos de quantização e interpolação [4]. Devido à elevada carga computacional gerada no processamento desses parâmetros, e às baixas taxas de bits requeridas em diversas aplicações, os codificadores de voz transmitem LSF’s em períodos de tempo mais longos (quadros tipicamente de 20 ms de voz) do que o desejável para se obter uma boa qualidade de voz reproduzida na saída do decodificador. Em função disso surge a necessidade de interpolar, usualmente de forma linear. Isso é feito de modo a obter valores intermediários dos parâmetros, em sub-quadros tipicamente de 5 ms, ao longo do intervalo de tempo entre uma transmissão do conjunto de parâmetros LSF e a anterior. Interpolação Modificada de LSF’s 7 Em [5] foi proposto um método de ajuste dos coeficientes LSF do último sub-quadro, com base nas diferenças entre os valores interpolados e os referenciais (valores reais calculados para cada sub-quadro individualmente). Esse procedimento é feito com base em uma medida de distorção, em particular a distância LSF ponderada euclidiana, dLSF [6]. Esta dissertação será focada principalmente em uma modificação do processo de interpolação, que consiste em ajustar os parâmetros LSF, com base em uma aproximação da distorção espectral, em vez da distância LSF ponderada euclidiana, dLSF. Obviamente, o objetivo é que a modificação introduzida proporcione um melhor desempenho. Na avaliação da performance será levada em conta a complexidade computacional, além das medidas de distorção usuais, DE média, outliers, tanto de 2 a 4%, quanto maiores que 4%, a já citada distância LSF ponderada euclidiana, dLSF, e o teste PESQ, que é um método objetivo de avaliação perceptual da qualidade de voz, proposto na recomendação ITU-T P.862 [7][8]. É importante observar que as medidas de distorção são aplicadas nos coeficientes LPC, no caso da DE, e nos LSF’s, no caso da dLSF, visando avaliar distorções associadas aos parâmetros LSF’s obtidos em cada método estudado. Os resultados foram obtidos antes e depois da quantização dos parâmetros. Tais medidas não permitem uma avaliação direta da qualidade de voz. O teste PESQ é o encarregado de avaliar a voz sintetizada, utilizando-se aqui um codificador recentemente proposto em [9] 1.2. Organização da Dissertação O capítulo 2 inicialmente descreve o processo de codificação de voz de modo geral, discorrendo sobre a análise LPC, a conversão dos parâmetros LPC para LSF’s, para depois entrar em detalhes do codificador escolhido para a realização das simulações. O capítulo 3 considera o método de ajuste de coeficientes LSF, do ponto de vista da proposta original, em [5], ainda sem nenhuma modificação incluída. De início são tratados a formação dos parâmetros LSF, o processo de interpolação e a distância euclidiana ponderada ( d LSF ), que é a medida de distorção utilizada em [5]. São apresentadas também informações mais detalhadas sobre algumas das Interpolação Modificada de LSF’s 8 medidas utilizadas na avaliação de desempenho dos diversos métodos estudados, entre elas a distorção espectral (DE), os outliers, e o teste PESQ, que mede efetivamente a qualidade de voz. Em seguida, é apresentada uma descrição detalhada do ajuste de LSF’s, tanto nos modos com e sem atraso. Logo após, são tratados os coeficientes de otimização, necessários ao processo de ajuste. Por último são apresentados resultados de simulações e conclusões à respeito do desempenho, fundamentadas através de tabelas e gráficos. O capítulo 4 inicialmente apresenta uma relação [5] existente entre a distorção espectral (DE) e a d LSF . É utilizado o método dos mínimos quadrados, comum no cálculo básico, para se chegar a uma equação que expressa a DE de modo aproximado em função da d LSF . Além disso, também é feita a avaliação da qualidade dessa aproximação. Finalmente, chega-se à parte que pode ser considerada de maior destaque dessa dissertação, pois é a que tem o caráter mais inovador. Nela é apresentada uma nova formulação para o ajuste de LSF’s, buscando minimizar a DE em sua forma aproximada, sem a necessidade de treinamento de coeficientes de otimização. Essa última parte é complementada com a apresentação de resultados de simulações. O capítulo 5 apresenta conclusões gerais sobre o estudo realizado e sugestões para trabalhos futuros. Interpolação Modificada de LSF’s 9 2 Codificação de Voz Um fator crítico para o desempenho de codificadores de voz que operam a baixas taxas é a quantidade de bits transmitidos em cada quadro. Tal relação é definida no esquema de codificação adotado. Em geral, quanto maior o número de bits utilizado, melhor a qualidade da voz sintetizada no decodificador. Entretanto, é preciso determinar um ponto de equilíbrio de modo que se obtenha a qualidade de voz desejada sem se usar muitos bits. É comum os esquemas de codificação reservarem a maior parte dos bits para os parâmetros LSF quantizados. Uma maneira de se obter um ganho na qualidade do sinal decodificado é buscar obter LSF’s mais precisos. Esta dissertação analisa e propõe melhorias em um processo de ajuste de coeficientes LSF apresentado em [5]. Nessa análise será utilizado o codificador a baixas taxas proposto em [9]. A Figura 2.1 dá uma visão geral do ponto em que processo de ajuste se encaixa no codificador. Figura 2.1 – Posição do ajuste de LSFs no codificador. Interpolação Modificada de LSF’s 10 2.1. Análise LPC A análise LPC consiste na obtenção de coeficientes preditores através de um filtro correlator que processa segmentos curtos de voz, de 20 ms no caso do codificador utilizado. Pela sua simplicidade, é a técnica mais usada atualmente na codificação de voz. Tal análise se baseia na idéia de estabelecer um modelo linear para o mecanismo de produção da fala, ilustrado na Figura 2.2. Neste modelo, a excitação, u(n), é a entrada do sistema, e s(n), a fala sintetizada, é a saída. Figura 2.2 – Modelo de produção da fala O filtro H(z), linear e só de pólos, é caracterizado pela Equação (2-1). H ( z) = 1 = p 1 − ∑ ak z −k 1 A( z ) (2-1) k =1 p A( z ) = 1 − ∑ a k z −k (2-2) k =1 Esse filtro varia com o tempo de modo a acompanhar a envoltória espectral do sinal de voz, de onde são extraídos seus parâmetros. Tais parâmetros buscam representar uma aproximação da envoltória espectral [2], chamada de envoltória espectral de base segmentar curta (eebsc). Os parâmetros do filtro correlator são quantizados e codificados, assim como os parâmetros de excitação, para serem transmitidos na forma de uma seqüência de bits. No decodificador essa seqüência de bits é convertida novamente em parâmetros que são usados no processo de síntese da fala. O vetor {ak=[a1 ... ap] T } contém os coeficientes preditores ou LPC (linear prediction coding). A variável p é a ordem do filtro e k é o índice do quadro. Em geral, para o padrão de freqüência de amostragem de 8 kHz das redes de telefonia, um filtro de décima ordem é capaz de representar de modo satisfatório a eebsc. Interpolação Modificada de LSF’s 11 De modo a reduzir a taxa de bits, sem, entretanto, prejudicar a qualidade da voz sintetizada no decodificador, é empregado o processo de interpolação. Tal processo permite a amostragem de parâmetros LPC em uma taxa menor no codificador, que depois é aumentada no decodificador. A Figura 2.3 ilustra a interpolação de parâmetros LSF entre os últimos sub-quadros do quadro atual e do anterior, definido pela Equação (2-3), onde fij é o parâmetro LSF de i-ésima ( 1 ≤ i ≤ p ) ordem do j-ésimo ( 1 ≤ j ≤ 4 ) sub-quadro. Os parâmetros f ianterior e f iatual são os vetores LSF de i-ésima ordem do último sub-quadro do quadro anterior e do atual, respectivamente. A interpolação tem o efeito de produzir transições mais suaves na eebsc [9]. f ij = (1 − 0,25 j ) f ianterior + 0,25 jf iatual (2-3) Figura 2.3 – Interpolação de parâmetros LSF. 2.2. Parâmetros LSF Devido à característica de possuírem uma grande faixa dinâmica, os coeficientes LPC não devem ser quantizados e interpolados diretamente. Tal procedimento pode causar instabilidade no filtro de síntese. Em função disso, são usados os parâmetros LSF [4], que correspondem a uma transformação dos parâmetros LPC. Interpolação Modificada de LSF’s 12 Os parâmetros LSF são obtidos através de dois polinômios, um simétrico, P(z), e outro anti-simétrico, Q(z), representados pelas Equações (2-4) e (2-5), respectivamente, obtidos aumentando-se a ordem do filtro inverso A(z), Equação (2-2), para p+1 P ( z ) = A( z ) + z − ( p +1) A( z −1 ) (2-4) Q( z ) = A( z ) − z − ( p +1) A( z −1 ) (2-5) Os polinômios simétricos se relacionam segundo A( z ) = 1 [P( z ) + Q( z )] 2 (2-6) Os parâmetros LSF são obtidos através das posições angulares das raízes dos polinômios. As LSF’s apresentam como característica principal o ordenamento, o que garante estabilidade ao filtro de síntese. Esse ordenamento se mantém mesmo após a interpolação. A sensibilidade das LSF’s a erros é apenas local, isto é, um erro de quantização afeta a eebsc somente nas vizinhanças. Um agrupamento de LSF’s indica a localização de formantes sendo, portanto, uma região importante no espectro. 2.3. Descrição do codificador Nessa dissertação é utilizado um codificador a baixas taxas [9] proposto por De Lamare e Alcaim, que opera a uma taxa média de 1,2 kbps. O codificador utiliza janelas deslizantes (que permitem uma maior precisão) para a detecção do período fundamental, o que é de extrema importância para a distinção entre quadros surdos e sonoros. Na codificação dos sons sonoros é usada a excitação mista em multibandas (EMM). Sons fricativos e oclusivos surdos são detectados utilizando-se a taxa de cruzamentos por zero e o sinal residual da análise LPC, respectivamente. O sinal de voz é segmentado em quadros de 20 ms que passam pela predição linear para depois serem transformados em parâmetros LSF. Assim como o período fundamental, a excitação e o ganho, as LSF são aplicadas a um Interpolação Modificada de LSF’s 13 quantizador vetorial (QV). A Tabela 2.1 apresenta a alocação de bits pra cada tipo de parâmetro. Parâmetro Quadro sonoro Quadro surdo Fundamental 6 0 Excitação 3 3 Ganho 5 5 LSF’s 21 0 Tabela 2.1 – Alocação de bits. No decodificador, os sons sonoros são filtrados dando origem a excitação. Para os sons surdos a excitação é totalmente surda. O decodificador recebe as LSF’s, interpola e converte em coeficientes LPC que formarão o filtro de síntese. Nesse filtro são aplicados a excitação e o ganho, dando origem ao sinal sintetizado. Finalmente, esse sinal é aplicado a um banco de filtro de modo a melhorar a qualidade da voz decodificada. A Figura 2.4 apresenta diagramas em blocos para o codificador e o decodificador. Interpolação Modificada de LSF’s Figura 2.4 – Diagrama em blocos do codificador e do decodificador. 14 Interpolação Modificada de LSF’s 15 3 Ajuste das LSF´s usando a distância LSF euclidiana ponderada (dLSF) Neste capítulo será abordado o método de ajuste de LSF’s proposto em [5]. Esse método busca contribuir na resolução do problema de se obter parâmetros LSF mais precisos, que resultem em uma melhor qualidade de voz sintetizada no decodificador. O ajuste de LSF’s é feito com base na distância LSF ponderada euclidiana, dLSF, entre os valores interpolados e os referenciais (valores reais calculados realizando-se a análise LPC e a transformação para LSF para cada subquadro individualmente). No processo de ajuste busca-se minimizar a dLSF de modo a tornar os parâmetros LSF interpolados mais próximos possível dos referenciais. O processo de ajuste de LSF’s possui como parâmetros de entrada os coeficientes de otimização. Esses coeficientes são obtidos através de treinamento e permitem que o ajuste de LSF’s seja direcionado, de modo a minimizar não somente a dLSF, mas também a distorção espectral, DE. 3.1. Interpolação linear das LSF’s e a distância LSF euclidiana ponderada (dLSF) A relação entre o sinal de voz e o conjunto de 10 coeficientes LSF é ilustrada na Figura 3.1. Esta relação está no fato de a variação dos coeficientes LSF é função da variação do sinal de voz do qual são extraídos. É possível observar no gráfico superior quatro frases distintas separadas por instantes de silêncio, totalizando 10 s de fala. Embaixo temos a variação dos coeficientes espectrais, da 1ª a 10ª ordem, que ocorre em função da variação do sinal de voz. Interpolação Modificada de LSF’s 16 Figura 3.1 – Relação entre os coeficientes LSF e o sinal de voz. A interpolação de LSF’s entre dois quadros sucessivos é feita entre os últimos sub-quadros do quadro atual e do anterior, gerando as LSF’s interpoladas. As LSF’s de referência são obtidas realizando o cálculo das LSF’s para todos os sub-quadros. A Figura 3.2 exibe uma parte dos coeficientes (dos 400 primeiros sub-quadros) mostrados na Figura 3.1. O gráfico acima corresponde às LSF’s de referência e abaixo às interpoladas. É possível perceber claramente que as LSF’s de referência apresentam uma variação maior. Isso se deve ao fato de que a interpolação linear tem um efeito de “suavização” da envoltória espectral [9]. Interpolação Modificada de LSF’s 17 Figura 3.2 – Comparação entre os coeficientes LSF referências e interpolados. A distância LSF euclidiana ponderada ( d LSF j ) [6] é definida, para um subquadro j qualquer, da seguinte forma: p [ ( d LSF j = ∑ ci wi( j ) ωi( j ) − ω̂i( j ) )] 2 (3-1) i =1 onde 1 → 1 ≤ i ≤ 8 ci = 0,8 → i = 9 0,4 → i = 10 (3-2) E importante observar q ci também é proveniente da definição da d LSF j contida em [6]. Além disso, temos também o esquema de ponderação [10] wi( j ) = ω ( j) i 1 1 + ( j) ( j) − ωi −1 ωi +1 − ωi( j ) (3-3) Interpolação Modificada de LSF’s 18 onde p é a ordem do preditor (que no caso do codificador utilizado é igual a 10), a variável ωi( j ) é o i-ésimo elemento do vetor LSF de referência, e ωˆ i( j ) o elemento correspondente do vetor interpolado. 3.2. Ajuste sem atraso Definindo a distância total em um quadro, dTOT, a soma das distâncias de todos os sub-quadros, temos que I ( I p j =1 i =1 ) [ ( d TOT = ∑ f j d LSF j ω ( j ) , ωˆ ( j ) = ∑ f j ∑ ci wi( j ) ωi( j ) − ωˆ i( j ) j =1 )] 2 (3-4) onde f j são constantes de ponderação introduzidas com o objetivo de possibilitar a otimização do processo de interpolação através de minimização das distâncias. Essas constantes são obtidas de modo experimental, através de rotinas de otimização não-lineares e que são funções próprias do Matlab. No codificador de voz utilizado temos quatro sub-quadros, portanto, I = 4. Também é importante notar que ω ( j ) e ω̂ ( j ) representam os vetores LSF e ω i( j ) e ω̂ i( j ) os i-ésimos elementos dos vetores, referência e interpolado, respectivamente. A formúla geral de interpolação linear é dada por ωˆ ( j ) = (1 − α j )ω~ (−1) + α jω~ (0 ) onde α j = (3-5) j ~ ( −1 ) ~ ( 0 ) ,ω e ω são vetores LSF associados aos últimos sub-quadros do I quadro anterior e do atual, respectivamente. Desenvolvendo a Equação (3-4), temos I p j =1 i =1 [ 2 ( 2 d TOT = ∑ f j ∑ ci2 wi( j ) ωi( j ) − 2ωi( j )ωˆ i( j ) + ωˆ i( j ) Aplicando a Equação (3-5) na (3-6), chegamos a 2 )] (3-6) Interpolação Modificada de LSF’s I p j =1 i =1 19 [ { 2 2 d TOT = ∑ f j ∑ ci2 wi( j ) ω i( j ) − 2ω i( j ) (1 − α j )ω~i(−1) − 2ω i( j )α j ω~i(0 ) + ( −1) (0 ) 2 ~ ~ + (1 − α )ω i + α j ω i 1444 424444 3 (*) ( ) (3-7) 2 2 2 (*) = (1 − α j ) ω~i(−1) + 2(1 − α j )ω~i(−1)α j ω~i(0 ) + α 2j ω~i(0 ) Para minimizar dTOT, deriva-se em relação aos coeficientes LSF do último sub-quadro do quadro atual, ω~k( 0) , sendo k = 1, ..., p (lembrando que p = 10 é a ordem do preditor), e iguala-se o resultado a zero. A derivação é feita em relação aos coeficientes do último sub-quadro porque este é exatamente o que se deseja ajustar. { ]} I 2 d ( ) d = f j ck2 wk( j ) − 2ω k( j )α j + 2(1 − α j )ω~k(−1)α j + 2α 2j ω~k(0 ) = 0 ∑ (0 ) TOT ~ dω j =1 k I ∑f j =1 j [ {c w [− 2ω 2 k } α j + 2(1 − α j )ω~k(−1)α j ] = ( j )2 ( j) j k I ( = − ∑ f j ck2 wk( j ) 2α 2j ω~k(0 ) j =1 2 ) (3-9) I 2 ( j )2 ~ (−1) − ω ( j ) = − f c 2 w( j )2α 2 2ω~ (0 ) ( ) f c w 2 α 1 α ω − ∑ j k k ∑ j k k j j k k j k j =1 j =1 144444424444443 144 42444 3 I [ ( ] bk ) (3-10) aki I ( 2 ak = ∑ f j ck2 wk( j ) α 2j j =1 I (3-8) ) 2 bk = ∑ f j ck2 wk( j ) 2α j (1 − α j )ω~k(−1) − ω k( j ) [ (3-11) ] (3-12) j =1 Ou seja, ω~k(0 ) = − bk 2a k (3-13) Interpolação Modificada de LSF’s 20 É importante observar na Equação (3-12) que o novo valor das LSF’s para o último sub-quadro do quadro atual é calculado em função das diferenças entre as LSF’s do último sub-quadro do quadro anterior e as LSF’s referências. Esse método, portanto, não utiliza nenhuma informação à frente do quadro atual. Por isso ele é chamado de “no lookahead”. 3.3. Ajuste com atraso Levando em conta que um atraso de até 100 ms é aceitável em uma conversa telefônica, por exemplo, e que no codificador utilizado cada quadro tem 20 ms, podemos pensar em utilizar informação além do quadro atual. Sendo assim, no cálculo da distância total entra agora não só o somatório referente aos sub-quadros do quadro atual, mas também os sub-quadros à frente que forem utilizados. Assim, I ( ) L ( d TOT = ∑ f j d LSF j ω ( j ) , ωˆ ( j ) + ∑ l j d LSF j ω N( j ) , ωˆ N( j ) j =1 ) (3-14) j =1 onde L é o número de sub-quadros à frente utilizados, e as variáveis ω N( j ) e ω̂ N( j ) representam, respectivamente, os vetores LSF de referência e interpolado para os sub-quadros à frente. Se estabelecermos como limite apenas um quadro à frente, teremos L podendo assumir valores entre 1 e 4. Vale ressaltar também que para os sub-quadros à frente teremos também um outro conjunto de fatores de otimização, representado por { l j , j = 1, ..., L}. Seguindo o mesmo desenvolvimento anteriormente mostrado, chegamos a I p [ ( d TOT = ∑ f j ∑ ci wi( j ) ω i( j ) − ωˆ i( j ) j =1 i =1 p L )] + ∑ l ∑ [c w( ) (ω ( ) − ωˆ ( ) )] 2 j j =1 i j N ,i j N ,i j N ,i 2 (3-15) i =1 A primeira parte dessa equação é igual à (3-4), e representa a d LSF do quadro atual. O segundo par de somatórios representa a d LSF do quadro à frente. A variável wN( j,)i representa o esquema de ponderação, como apresentado na Interpolação Modificada de LSF’s 21 Equação (3-3). É importante observar que wN( j,)i , assim como as outras variáveis (L, lj, ω N( j ) , ω̂ N( j ) ), se refere ao quadro à frente. A interpolação do quadro à frente é obtida através de ωˆ N( j ) = (1 − β j )ω~ (0 ) + β j ω~ (1) (3-16) onde βj = j I (3-17) Substituindo a Equação (3-16) na (3-15), temos I p j =1 i =1 [ 2 ( 2 d TOT = ∑ f j ∑ ci2 wi( j ) ω i( j ) − 2ω i( j )ωˆ i( j ) + ωˆ i( j ) 2 )]+ p L 2 2 2 + ∑ l j ∑ c i2 w N( j,)i ω N( j,)i − 2ω N( j,)i ωˆ N( j,)i + ωˆ N( j,)i 14444244443 j =1 i =1 (*) (3-18) Desenvolvendo, resulta 2 2 (*) = ω N( j,)i − 2ω N( j,)i (1 − β j )ω~i(0 ) − 2ω N( j,)i β j ω~i(1) + (1 − β j )ω~i(0 ) + β i ω~i(1) 1444 424444 3 ( ) (**) 2 2 2 (**) = (1 − β j ) ω~i(0 ) + 2(1 − β j )ω~i(0 ) β j ω~i(1) + β 2j ω~i(1) Pode-se notar que a primeira parte da Equação (3-18) é igual a (3-6). Isso permitirá uma simplificação adiante. A minimização é feita derivando dTOT e igualando a zero. Entretanto, esse procedimento já foi realizado para a primeira parte da Equação (3-18) em (3-8). Lembrando que ω~k( 0) representa os coeficientes LSF do último sub-quadro do quadro atual, sendo k = 1, ..., p (onde p = 10 é a ordem do preditor), temos Interpolação Modificada de LSF’s { 22 ]} I 2 d ( ) d = f j ck2 wk( j ) − 2ω k( j )α j + 2(1 − α j )ω~k(−1)α j + 2α 2j ω~k(0 ) + ∑ (0 ) TOT ~ dω j =1 k L [ [ { ]} 2 2 2 + ∑ l j ck2 wN( j,)k − 2ω N( j,)k (1 − β j ) + 2(1 − β j ) ω~k(0 ) + 2(1 − β j )β j ω~k(1) = 0 j =1 (3-19) De fato, é possível observar que a primeira parte da Equação (3-19) é igual a (3-8). I L f j ck2 wk( j ) 2α j (1 − α j )ω~k(−1) − ω k( j ) + ∑ l j ck2 wN( j,)k 2(1 − β j ) β jω~k(1) − ω N( j,)k = ∑ j =1 1 44444424444443 j =1 k 1444444b4 444444 4244444444444444 3 2 [ ] ( 2 ) dk I L 2 2 2 = − ∑ f j ck2 wk( j ) α 2j + ∑ l j ck2 wN( j,)k (1 − β j ) 2ω~k(0 ) j =1 443 j =1 1442 ak 444 424444444 3 1444 ck L ck = ak + ∑ l j ck2 wN( j,)k (1 − β j ) 2 2 (3-20) (3-21) j =1 L d k = bk + ∑ l j ck2 wN( j,)k 2(1 − β j ) β jω~k(1) − ω N( j,)k ( 2 ) (3-22) j =1 É importante ressaltar que ak e bk foram definidos nas equações (3-11) e (312), respectivamente. Finalmente, chegamos a um ajuste de LSF’s para o último sub-quadro do quadro atual, levando em conta também sub-quadros à frente. Em função disso, esse método é chamado de “lookahead” e as LSF’s ajustadas são expressas por ω~k(0 ) = − dk 2c k onde ck e dk são dadas pelas equações (3-21) e (3-22), respectivamente. (3-23) Interpolação Modificada de LSF’s 23 3.4. A distorção espectral (DE) e os coeficientes de otimização A distorção espectral, associada ao i-ésimo sub-quadro, é uma medida objetiva de desempenho. É representada matematicamente na forma da equação (3-24). DEi = 1 FS 2 Si ( f ) ∫0 10 log10 Sˆ ( f ) df i FS (3-24) onde a DEi é dada em dB, FS é a freqüência de amostragem, e S i ( f ) e Sˆ i ( f ) são as envoltórias espectrais LPC do sinal de entrada em suas versões referencial e interpolada, respectivamente. Essas funções são expressas por Si ( f ) = Sˆ i ( f ) = onde Ai (z ) e Aˆ i ( z ) 1 j F2πf Ai e S (3-25) (3-26) 1 j F2πf Aˆ i e S são os polinômios LPC, original e interpolado, respectivamente. A distorção espectral média é definida por DE = 1 N N ∑ DE i (3-27) i =1 onde N é o número total de sub-quadros em análise. Os coeficientes de otimização, {fj} e {lj}, apresentados nas equações (3-4) e (3-14), respectivamente, são obtidos de modo experimental, através de um processo de treinamento. Esse processo consiste, conforme já dito, em executar uma rotina de otimização não-linear que é função própria do Matlab. Como Interpolação Modificada de LSF’s 24 entrada essa função recebe um conjunto inicial de coeficientes, definido como {fj = 1, j = 1,...,I}. O conjunto de coeficientes é aplicado na rotina de ajuste de LSF’s, e em função da saída, que é a DE média, a função de otimização determina qual será o novo conjunto de coeficientes para a iteração seguinte. Ao longo das iterações a função de otimização busca determinar coeficientes que permitam ao ajuste de LSF’s convergir para a menor DE possível. Atingir esse limite depende do número de iterações realizadas. O fim do processo de otimização ocorre quando a diferença entre a DE média calculada em uma iteração e a calculada na iteração anterior é menor que uma determinada tolerância. Nesse caso foi utilizada a tolerância padrão do Matlab, que é de 10-4. O mesmo procedimento é aplicado também utilizando a d LSF como saída da rotina de ajuste de LSF’s. Com isso obtêm-se conjuntos de coeficientes que minimizam cada uma das medidas separadamente. Os coeficientes de otimização utilizados em [11], são mostrados na Tabela 3.1. Medida minimizada DE d LSF Coeficientes de otimização Método f1 f2 f3 f4 No lookahead 0 0 0 1 Lookahead 0,2 0 0,2 1 No lookahead 0,6 0,3 0,5 1 Lookahead 1,2 0,8 1 1 l1 0,4 2 Tabela 3.1 – Coeficientes de otimização apresentados em [11]. Note-se que, para o método “no lookahead”, quando se deseja minimizar a DE, tem-se o coeficiente do 4º sub-quadro igual a 1 e todos os demais iguais a zero. Tal combinação de coeficientes é equivalente a uma interpolação linear convencional, sem nenhum ajuste das LSF’s do último sub-quadro. Isso significa que não se obterá melhoria na DE realizando o ajuste com esses coeficientes. Interpolação Modificada de LSF’s 25 3.5. Condições experimentais e resultados de simulações Foram utilizados como conjunto de teste 10 arquivos de áudio contendo cada um 10 frases pronunciadas por 10 locutores diferentes, sendo 5 homens e 5 mulheres. Cada arquivo tem em média 30 s de duração. Os resultados apresentados são médias das medidas realizadas para cada arquivo individualmente. Foram avaliadas a distorção espectral média (DE), os percentuais de outliers entre 2 e 4% e maiores que 4%, e a d LSF . As medidas de distorção foram realizadas no codificador descrito no capítulo 2 antes e depois da quantização. Além das medidas de distorção, também foi aplicado o teste PESQ (Perceptual Evaluation of Speech Quality) [7][8]. O PESQ é uma medida objetiva que tenta avaliar a qualidade de voz que seria percebida por um ouvinte em um teste subjetivo de escuta. Essa medida foi padronizada na recomendação P.862 do ITU-T. Devido a essa padronização, atualmente o PESQ é muito usado como método para avaliação de qualidade de voz. Assim como as medidas de distorção entre LSF’s, o que o teste PESQ faz é comparar dois sinais, um referência, e outro modificado. Nesse caso, a diferença é que o sinal referência é o sinal original, sem ter passado pelo codificador, nem nenhum outro processo que o altere. O sinal modificado é o sinal sintetizado resultante da saída do decodificador. Como saída, o teste PESQ retorna uma nota, em uma escala que varia de 1 a 4,5, de modo semelhante um teste subjetivo, como o MOS (Mean Opinion Score), por exemplo. De modo a permitir uma comparação através da qual se possa avaliar a eficiência das melhorias propostas, foram inicialmente feitas medidas utilizandose o codificador sem nenhuma alteração, isto é, sem a aplicação do método de ajuste de LSF’s. Os resultados obtidos são apresentados na tabela 3.2. Nessa tabela apresenta-se os valores de DE, outliers e PESQ antes e após a quantização dos parâmetros LSF. Antes de Q DE média %2-4 %>4 d LSF PESQ 1,1249 14,3329% 0,7476% 0,6007 NSA Interpolação Modificada de LSF’s Depois de Q 1,5892 26 23,1301% 1,2527% 0,9682 2,3342 Tabela 3.2 – Medidas referenciais realizadas sem ajuste de LSF’s. “NSA” significa “não se aplica”. “Q” significa “quantizar”. 3.5.1. Simulações com os coeficientes apresentados em [11] Os resultados obtidos como os coeficientes apresentados em [11] são mostrados na Tabela 3.3 para as medidas realizadas antes da quantização. Não foram apresentadas medidas para o método “no lookahead” minimizando a DE porque, conforme explicado anteriormente, nesse caso os resultados são os mesmos obtidos na interpolação linear convencional. Pode-se observar que, conforme já era esperado, o método “lookahead” apresenta um melhor desempenho. Além disso, é possível notar também que a minimização da d LSF , apesar de apresentar uma DE média maior, proporciona um melhor resultado em relação aos outliers. Medida minimizada DE d LSF Método DE média %2-4 %>4 d LSF Lookahead 1,1164 11,3467% 0,4774% 0,5025 No lookahead 1,1627 10,0917% 0,4084% 0,4808 Lookahead 1,1356 7,8649% 0,2208% 0,4231 Tabela 3.3 – Medidas antes do quantizador utilizando coeficientes apresentados em [11]. Para a medidas realizadas depois da quantização, foram obtidos os resultados mostrados na Tabela 3.4. Uma observação importante que pode ser feita quando se compara as Tabelas 3.3 e 3.4 com a 3.2 é a de que, na minimização da d LSF , apesar de se ter uma DE média antes da quantização maior que a referência, depois da quantização, a medida é menor. Também chama a atenção uma pequena melhoria obtida no teste PESQ utilizando-se o método “lookahead”. Além disso, apesar da DE média no modo “lookahead” após a quantização ser menor minizando a d LSF do que minimizando a DE, o PESQ para a minimização da DE é maior. Interpolação Modificada de LSF’s Medida minimizada DE d LSF Método 27 DE média %2-4 %>4 d LSF PESQ Lookahead 1,5257 20,1671% 0,9066% 0,8614 2,3614 No lookahead 1,5658 20,9424% 1,0327% 0,9117 2,3243 Lookahead 1,4928 17,6767% 0,6344% 0,7818 2,3408 Tabela 3.4 – Medidas após a quantização utilizando coeficientes apresentados em [11]. 3.5.2. Obtenção dos novos coeficientes de otimização Utilizando os procedimentos descritos na Seção 3.4, foram determinados novos coeficientes de otimização. Para isso, foi utilizado um conjunto de treinamento formado a partir de 8 conjuntos de 10 frases, pronunciadas por 8 locutores diferentes, chegando-se a um total de 80 frases, em uma duração de aproximadamente 240s. Foram feitos treinos de modo a obter coeficientes de otimização que minimizassem a DE e a d LSF . No caso dos coeficientes que minimizam a DE, pode-se observar que os mesmos apresentam um comportamento bem determinado, conforme é possível ver na Figura 3.3. No eixo y dessa figura tem-se os valores dos coeficientes, e no x, os sub-quadros aos quais se referem, sendo que o sub-quadro 1 é o primeiro do quadro atual e o 5 é o primeiro do quadro à frente. As curvas representam os modos de ajuste “no lookahead” e “lookahead”. A curva cujos pontos estão marcados com um sinal “+”, que vai somente até o 4º sub-quadro é relativa ao modo “no lookahead”. As demais curvas descrevem os coeficientes do modo “lookahead” utilizando de 1 a 4 sub-quadros à frente, conforme indicado na legenda. Interpolação Modificada de LSF’s 28 Figura 3.4 – Tendência dos novos coeficientes de otimização. Para o caso dos coeficientes de otimização que minimizam a d LSF não foi observada uma tendência definida, ficando a impressão de que os mesmos situamse na gama de valores possíveis de modo praticamente aleatório, ou seja, se fosse feito um gráfico com esses coeficientes o resultado seria um conjunto de pontos dispersos. As Tabelas 3.5 e 3.6 mostram os coeficientes de otimização obtidos para a minimização da DE e da d LSF , respectivamente. Em cada uma dessas tabelas existe uma linha para cada número de sub-quadros à frente sendo utilizados. A linha em que tal número é igual a zero, significa que o modo é o “no lookahead”. Número de sub- f1 f2 f3 f4 l1 l2 l3 quadros 0 -0,0313 0,1757 0,0013 2,6795 1 0,4541 0,3308 0,6166 2,1348 0,8182 2 0,5528 0,4104 0,7483 2,6263 0,7765 0,4317 3 0,7566 0,7417 0,9155 3,3966 0,5547 1,3983 -0,6867 l4 Interpolação Modificada de LSF’s 4 29 0,7182 0,5928 0,8121 2,3474 0,7844 0,4603 0,5484 0,9113 Tabela 3.5 – Novos coeficientes de otimização que minimizam a DE. Número de sub- f1 f2 f3 f4 l1 l3 l2 l4 quadros 0 0,2906 1,0781 0,1280 1,4228 1 1,0624 0,8867 1,1000 0,7934 1,5589 2 1,1145 0,9231 1,1616 0,8186 1,2913 0,7215 3 1,2716 1,1423 1,2045 1,2105 0,8622 1,5503 -0,2931 4 1,0912 1,1062 1,0697 1,1002 1,0540 0,5701 0,9464 1,0262 Tabela 3.6 – Novos coeficientes de otimização que minimizam a dLSF. 3.6. Desempenho dos novos coeficientes minimizando a DE 3.6.1. Análise dos resultados obtidos antes da quantização Modo Sub-quadros DE média %2-4 %>4 d LSF Sem ajuste 1,1249 14,3329% 0,7476% 0,6007 No lookahead 1,13460 13,71301% 0,65975% 0,57371 1 1,10801 10,18787% 0,37904% 0,46950 2 1,10835 10,20664% 0,36361% 0,46665 3 1,09848 9,10952% 0,30996% 0,43855 4 1,08877 8,35608% 0,23453% 0,41558 Lookahead Tabela 3.7 – Medidas antes de quantizar minimizando DE utilizando novos coeficientes. Comparando com os resultados das medidas referenciais, sem ajuste de LSF’s, é possível notar que no modo “no lookahead”, apesar de ter-se uma DE média ligeiramente maior, obteve-se menores valores para os outliers, tanto de 2 à 4%, quanto maiores que 4%. Também a d LSF apresentou um melhor resultado. Interpolação Modificada de LSF’s 30 Já no modo “lookahead” em todas as medidas realizadas obteve-se uma melhoria mais significativa, principalmente para os outliers e, dentre eles, os maiores que 4%. Tal avaliação confirma que o ajuste é eficaz em aproximar os coeficientes LSF dos seus valores referenciais, na medida em que minimiza a distorção. Nas Figuras 3.5 a 3.8 são apresentados alguns gráficos que ajudam a visualizar os resultados apresentados. No eixo x temos o número de sub-quadros à frente sendo utilizados. O zero significa que o método empregado foi o “no lookahead”. No eixo y temos a medida de distorção avaliada. Em todos os gráficos existem uma reta, que representa a medida referencial, sem ajuste, e uma curva, que descreve a evolução da medida em função do ajuste. Distorção espectral - DE média Na Figura 3.5 tem-se a representação da DE média. É possível observar, conforme já mencionado, que de início, no modo “no lookahead”, tem-se um valor maior que o referencial. Entretanto, ocorre uma redução quando se passa para o modo “lookahead” com utilizando 1 sub-quadro à frente. Com 2 subquadros essa redução não se mantém, havendo um ligeiro aumento. A partir de 3 é retomada a queda, atingindo um mínimo em 4. Interpolação Modificada de LSF’s 31 Figura 3.5 – DE média antes da quantização utilizando os novos coeficientes. Outliers Os dois gráficos seguintes (Figuras 3.6 e 3.7) mostram os outliers de 2 a 4% e maiores que 4%, respectivamente. Pode-se notar que nesse caso, ao contrário do que aconteceu com a DE média, já se começa com um valor abaixo do referencial. Isso indica que em se tratando de redução de outliers, mesmo o método “no lookahead” já é capaz de apresentar um bom desempenho. No modo “lookahead”, na passagem da utilização de 1 para 2 sub-quadros à frente não se observa melhoria. A redução volta a ocorrer em 3, até 4, onde se tem o mínimo. Interpolação Modificada de LSF’s 32 Figura 3.6 - Outliers de 2-4% antes da quantização utilizando os novos coeficientes. Para os outliers maiores que 4% também é possível observar uma melhoria desde o início, no modo “no lookahead”. A diferença aqui é que ocorre redução para todas as quantidades de sub-quadros sendo utilizados, mesmo entre 1 e 2, ainda que não tão significativa nesse intervalo. O gráfico confirma a idéia de que o ajuste tem uma ação mais efetiva sobre os outliers do que sobre a DE média, pois atua de modo a tornar os coeficientes LSF mais próximos de seu valor real. Vale lembrar que os outliers são picos de distorção e, por isso, sua redução contribui de maneira significativa para a melhoria da qualidade do sinal. Interpolação Modificada de LSF’s 33 Figura 3.7 - Outliers >4% antes da quantização utilizando os novos coeficientes. Distância euclidiana ponderada - dLSF Para a d LSF tem-se um comportamento semelhante ao dos outliers maiores que 4%. É interessante notar que, apesar de se aplicar um método visando minimizar a DE, a d LSF também sofre uma redução. Interpolação Modificada de LSF’s 34 Figura 3.8 - dLSF antes da quantização utilizando os novos coeficientes. 3.6.2. Análise dos resultados obtidos após a quantização Os resultados apresentados até agora referem-se a medidas realizadas antes da quantização. Para depois do quantizador, temos os resultados apresentados na Tabela 3.8. Modo DE média %2-4 %>4 d LSF Sem ajuste 1,5892 23,1301% 1,2527% 0,9682 No lookahead 1,57862 22,58240% 1,20047% 0,94475 1 1,51321 19,49065% 0,81433% 0,83456 2 1,51591 19,52485% 0,82803% 0,83328 3 1,50789 18,73486% 0,76365% 0,81564 4 1,50392 18,28930% 0,72963% 0,80318 Lookahead Sub-quadros Tabela 3.8 - Medidas após quantizar minimizando a DE utilizando os novos coeficientes. Os coeficientes LSF obtidos na saída do quantizador são os que efetivamente serão enviados ao decodificador para serem sintetizados e gerar o Interpolação Modificada de LSF’s 35 sinal de voz de saída. As medidas de distorção após o quantizador permitem, portanto, uma avaliação mais realista da melhoria obtida. Pode-se observar que a DE média sofre uma redução a partir do modo “no lookahead”. O mesmo acontece para os outliers e a d LSF . A seguir são apresentados gráficos para os resultados apresentados. Distorção espectral – DE média Na Figura 3.9 é possível notar uma redução mais acentuada na DE média quando se passa do modo “no lookahead” para o “lookahead”. Entretanto, já no modo “lookahead”, não se percebe uma redução muito significativa à medida em que aumenta o número de sub-quadros à frente sendo utilizados. Na verdade, ocorre até um pequeno aumento na passagem de 1 para 2 sub-quadros. Em todas os situações avaliadas o resultado obtido é sempre melhor que o do referencial. Figura 3.9 - DE média após a quantização utilizando os novos coeficientes. Outliers Interpolação Modificada de LSF’s 36 Os outliers (Figuras 3.10 e 3.11) apresentam curvas muito parecidas graficamente. Ambas as faixas, tanto de 2 a 4%, quanto maiores que 4%, têm uma redução acentuada do modo “no lookahead” para o “lookahead”, assim como a DE média. No modo “lookahead”, ocorre uma ligeira elevação na mudança de 1 para 2 sub-quadros à frente. Ainda nesse modo, pode-se dizer que a redução até o mínimo, que acontece com 4 sub-quadros, é menos significativa. Figura 3.10 – Outliers 2-4% após a quantização utilizando os novos coeficientes. É possível que o pequeno aumento observado na passagem de 1 para 2 subquadros seja função do conjunto de treinamento adotado. Pode ser que com outro conjunto não se obtenha comportamento semelhante. Contudo, apesar de tal situação não ser a ideal, com uma redução contínua, o resultado obtido pode ser considerado satisfatório. Interpolação Modificada de LSF’s 37 Figura 3.11 - Outliers >4% após a quantização utilizando os novos coeficientes. Distância euclidiana ponderada - dLSF Diferentemente dos outliers, a d LSF (Figura 3.12) apresenta redução contínua, mesmo na mudança de 1 para 2 sub-quadros, ainda que bem pequena nesse intervalo. Interpolação Modificada de LSF’s 38 Figura 3.12 – dLSF após a quantização utilizando os novos coeficientes. 3.6.3. Resultados da medida PESQ Os resultados do teste PESQ são apresentados na a Tabela 3.9. É possível observar que em todos os casos obteve-se um resultado melhor utilizando-se o ajuste. Entretanto, não foi verificada uma característica que era esperada. A variação da medida parece ser aleatória, quando se imaginava que a mesma pudesse aumentar em função do número de sub-quadros à frente utilizados no processo de ajuste de LSF’s. Tal fato talvez se deva à característica do codificador que, por ser de baixas taxas, apresenta um PESQ também baixo. Dessa forma, por já ter uma baixa qualidade de voz, pequenas melhorias que ocorram no sinal não se traduzem em um aumento coerente da medida PESQ. Modo Sub-quadros PESQ Sem ajuste 2,3342 No lookahead 2,3524 Lookahead 1 2,3573 Interpolação Modificada de LSF’s 39 2 2,3456 3 2,3624 4 2,3371 Tabela 3.9 – Resultados da medida PESQ. 3.7. Desempenho dos novos coeficientes minimizando a dLSF Também foi avaliado o desempenho quando os coeficientes são treinados de modo a minimizar a d LSF . Os resultados obtidos são apresentados a seguir. 3.7.1. Análise dos resultados obtidos antes da quantização A Tabela 3.10 contém os valores medidos antes do quantizador. Pode-se observar que, apesar de a DE média ser maior do que quando se minimiza a DE (o que já era esperado), os outliers apresentam valores bem menores. Pode-se dizer até que se trata de uma redução bem significativa. A DE apresenta uma redução no modo “lookahead” com 4 sub-quadros. Assim como quando foram apresentados os resultados para o minimização da DE, alguns gráficos serão mostrados a seguir. A organização visual mantêm-se a mesma, número de sub-quadros à frente no eixo x, e medida de distorção no eixo y. A diferença é que agora tem-se uma espécie de comparação através da apresentação de duas curvas, uma nova, representando a medida para a minimização da d LSF , e outra já conhecida para a minimização da DE. Além disso, também há a reta da medida referencial, sem ajuste. Modo DE média %2-4 %>4 d LSF Sem ajuste 1,1249 14,3329 0,7476 0,6007 No lookahead 1,16638 9,66618 0,37189 0,5053 1 1,13924 7,56613 0,18838 0,42283 2 1,13958 7,55953 0,18938 0,46471 3 1,12624 6,93233 0,16935 0,39586 4 1,11139 6,44657 0,12083 0,38152 Lookahead Sub-quadros Tabela 3.10 – Medidas antes de quantizar minimizando a dLSF com novos coeficientes.. Interpolação Modificada de LSF’s 40 Distorção espectral – DE média No gráfico da DE (Figura 3.13) podemos notar que a medida apresenta tendência de redução quando minimiza-se a d LSF , mantendo-se, entretanto, acima da medida observada quando se minimiza a DE. O perfil das duas curvas é muito parecido, sendo quase como se fosse feito apenas um deslocamento vertical. Essa informação é extremamente importante para o desenvolvimento que se segue no próximo capítulo. A semelhança das curvas já fornece alguma indicação de que DE e d LSF estão relacionadas. O que será feito no próximo capítulo é estabelecer uma expressão matemática para essa relação, dando base para a formulação de uma nova maneira de realizar o ajuste de LSF’s. A Figura 3.13 também deixa bem claro que quando se deseja uma redução da DE média, a minimzação da d LSF não é o melhor método. Pode-se observar que somente com o emprego de 4 sub-quadros à frente é possível obter uma redução da DE em relação ao método usual, que não utiliza ajuste de LSF’s. Mesmo assim, essa redução é bem pequena em relação ao modo sem ajuste. Figura 3.13 – DE média antes da quantização utilizando os novos coeficientes. Interpolação Modificada de LSF’s 41 Outliers Assim como no caso anterior, as duas curvas de outliers (figuras 3.14 e 3.15), minimizando a DE ou a d LSF têm perfil semelhante. Porém, agora ocorre que a minimização da d LSF apresenta o melhor resultado. Tanto os outliers de 2 a 4% como os maiores que 4% apresentam menores medidas. E essa diferença é significativa, ocorrendo em todas as situações, desde o modo “no lookahead”. Se comparado com o valor referencial pode-se notar, por exemplo, uma redução aproximadamente pela metade no percentual de outliers maiores que 4% no modo “no lookahead”. Figura 3.14 – Outliers 2-4% antes da quantização utilizando os novos coeficientes. No gráfico dos outliers maiores que 4% percebe-se uma elevação muito pequena na medida na passagem de 1 para 2 sub-quadros quando se minimiza a d LSF . Interpolação Modificada de LSF’s 42 Figura 3.15 - Outliers >4% antes da quantização utilizando os novos coeficientes. Distância euclidiana ponderada - dLSF Quando se minimiza a d LSF , a própria apresenta uma melhor resultado, como já era de se esperar. O gráfico da Figura 3.16, entretanto, apresenta um ponto não completamente aderente à essa lógica. No modo “lookahead”, utilizando-se 2 sub-quadros à frente, tem-se que a medida da d LSF é muito próxima do seu valor quando se minimiza a DE. Esse “desvio” no comportamento previsto talvez possa ser conseqüência das características próprias das amostras de teste utilizadas. Lembrando do que foi dito sobre condições experimentais, os valores apresentados são médias de medidas realizadas com 10 amostras de modo independente. É perfeitamente normal que uma dessas amostras apresente um comportamento inesperado em determinadas condições. Essa anormalidade pode acabar por influenciar a média. De modo geral, a d LSF é sempre menor, apresentando redução ao longo do aumento do número de sub-quadros, desde o modo “no lookahead”. Interpolação Modificada de LSF’s 43 Figura 3.16 – dLSF antes da quantização utilizando os novos coeficientes. 3.7.2. Análise dos resultados obtidos após a quantização Para depois da quantização, utilizando coeficientes que minimizam a d LSF , tem-se os resultados mostrados na Tabela 3.11. Modo DE média %2-4 %>4 d LSF Sem ajuste 1,5892 23,1301% 1,2527% 0,9682 No lookahead 1,56435 20,59314% 1,01608% 0,87338 1 1,50368 17,90572% 0,64297% 0,78215 2 1,50679 17,93262% 0,64345% 0,77768 3 1,51205 17,87777% 0,63038% 0,79410 4 1,51301 17,79572% 0,62339% 0,80952 Lookahead Sub-quadros Tabela 3.11 – Medidas após a quantização minimizando a dLSF com novos coeficientes. Distorção espectral – DE média Interpolação Modificada de LSF’s 44 Pode-se notar na Tabela 3.11 e na Figura 3.17 que, após a quantização, na passagem do modo “no lookahead” para o “lookahead” tem-se uma redução significativa da DE média. Entretanto, conforme já havia sido observado no caso da minimização da DE, já no modo “lookahead” não se percebe uma melhoria significativa à medida que se aumenta o número de sub-quadros. Na verdade, no caso da minimização da d LSF , ocorre até uma elevação contínua da DE. Figura 3.17 – DE média após a quantização utilizando novos coeficientes. Outliers Os outliers (Figuras 3.18 e 3.19) apresentam uma característica interessante que é uma variação muito pequena, quase que insignificante, no modo “lookahead”. Assim como quando é minimizada a DE, ocorre uma queda acentuada na passagem do modo “no lookahead” para o “lookahead”, atingindo um patamar que praticamente se mantém, independente do número de subquadros à frente que forem utilizados. De qualquer forma, a medida do outliers está sempre abaixo do referencial. Interpolação Modificada de LSF’s 45 Figura 3.18 – Outliers 2-4% após a quantização utilizando novos coeficientes. As características observadas valem tanto para os outliers de 2 a 4%, quanto para os maiores que 4%. No gráfico abaixo é possível observar mais uma vez o patamar que se estabelece para os outliers no modo “lookahead”. Interpolação Modificada de LSF’s 46 Figura 3.19 - Outliers >4% após a quantização utilizando novos coeficientes. Distância euclidiana ponderada - dLSF A d LSF (Figura 3.20) apresenta um comportamento que foge um pouco do esperado. Ela se mantém abaixo do seu valor quando a DE é minimizada, porém, no modo “lookahead”, com 4 sub-quadros, ocorre uma inversão de posições. Teoricamente, a medida deveria diminuir ou, na pior das hipóteses, manter o seu valor. Esse aumento no final pode ser visto também como um “desvio”, conforme comentado em seção anterior. Interpolação Modificada de LSF’s 47 Figura 3.20 – dLSF após a quantização utilizando novos coeficientes. 3.7.3. Resultados da medida PESQ Mais uma vez, no caso do PESQ é apresentada apenas a tabela com os valores. Conforme pode-se verificar na Tabela 3.12, novamente, não é possível estabelecer uma relação entre o PESQ e o processo de ajuste de LSF’s. O resultado foi pior que o modo sem ajuste tanto para o modo “no lookahead” como para o “lookahead” com 1 sub-quadro. Mesmo nas outras situações, onde o resultado é melhor, ainda assim essa melhoria não é muito significativa. Modo Sub-quadros PESQ Sem ajuste 2,3342 No lookahead 2,3088 Lookahead 1 2,3293 2 2,3497 3 2,3463 4 2,3409 Tabela 3.12 – Resultados da medida PESQ Interpolação Modificada de LSF’s 48 4 Ajuste de LSF’s usando a distorção espectral (DE) aproximada Este capítulo propõe uma modificação no processo de ajuste de coeficientes LSF’s apresentado no capítulo anterior. Como visto anteriormente, o ajuste de LSF’s, método proposto por Wesley Pereira em sua dissertação, “Modifying LPC parameter dynamics to improve speech coder efficiency” [5], e depois resumido em seu artigo, “Improved spectral tracking using interpolated linear prediciton” [11], consiste em alterar os coeficientes LSF do último sub-quadro em função de uma medida de distorção. Na proposta em [5] e [11], a medida usada era d LSF , distância LSF ponderada euclidiana. Nesse capítulo será usada uma expressão da DE aproximada em função da dLSF proposta em [5]. A justificativa para tal mudança é buscar uma redução da DE de modo mais eficiente. Uma descrição dessa aproximação da DE dará início ao capítulo, onde também será feita uma avaliação da sua precisão. Em seguida é apresentado o desenvolvimento das expressões para o ajuste de LSF’s que minimiza a DE aproximada. Ao final, são apresentados e discutidos resultados de simulações através de tabelas e gráficos. Esses resultados comprovam que, além de ter a vantagem de não ser preciso treinar coeficientes de otimização, essa nova proposta também proporciona menores medidas de distorção. Um ponto extremamente positivo é que a eliminação do treinamento permite uma redução no esforço computacional necessário ao processo de ajuste de LSF’s. 4.1. Aproximação da DE através da dLSF Exprimir a DE em função dos coeficientes LSF é trabalhoso e resulta em uma fórmula bastante complexa. Por isso optou-se, inicialmente, por usar a distância LSF ponderada euclidiana. A figura 4.1 apresenta um gráfico de dispersão da DE e da d LSF obtido com uma amostra de voz composta por 49643 sub-quadros. No gráfico é possível ver que existe uma correlação entre as duas Interpolação Modificada de LSF’s 49 medidas, pois seus pontos se agrupam apresentando uma tendência bem definida. Tal tendência permite que seja empregado um método de “ajuste de curvas logarítmico”, comum na literatura de cálculo básico, de modo a se chegar a uma equação que aproxime todos os pontos do gráfico. Figura 4.1 – Gráfico de dispersão mostrando a relação entre DE e dLSF. Mais adiante será apresentado o desenvolvimento que mostrará, entre outras coisas, que o ajuste de curva dos pontos apresentados no gráfico da Figura 4.1 pode ser realizado através de DE = A ln (d LSF + B ) + C (4-1) onde A = 1,3955, B = 0,4 e C = 1,4726 foram aqui obtidos de modo experimental. A expressão (4-1) foi proposta em [5]. As constantes A, B e C, que aparecem na Equação (4-1) foram obtidas através do método dos mínimos quadrados, utilizando-se o mesmo conjunto de dados da Figura 4.1. Esse conjunto de dados nada mais é do que uma matriz com Interpolação Modificada de LSF’s 50 duas colunas, uma para a DE e outra para a d LSF . Cada linha corresponde a um sub-quadro da amostra de voz utilizada. Considerando-se agora um conjunto de dados ( x, y ) , onde x = ln(d LSF + B) e y = DE, é possível encontrar uma função y = f (x) , onde y é o valor aproximado de y, ou a DEaprox. É importante observar que x = ln(d LSF + B) porque se trata de um ajuste logarítmico. A constante B tem apenas a função de evitar a ocorrência de ln 0. Definindo δ i = y i − y i como o desvio de y em relação a y, tem-se que o somatório dos desvios quadráticos será n n i =1 i =1 ( S = ∑ δ i2 = ∑ y i − y i 2 ) (4-2) Minimizar esse somatório é requisito para se encontrar os parâmetros que proporcionem um ajuste o mais próximo possível dos valores reais. Tem-se que y = f ( x) ⇒ DE aprox = f [ln (d LSF + B )] (4-3) De modo a simplificar a expressão da aproximação em (4-3), evitando trabalhar com logaritmos, recorre-se a uma linearização, o que é feito através da expressão linear y = a 0 + a1 x (4-4) onde a 0 = C , a1 = A . É importante ressaltar que, na verdade, a constante B = 0,4 é pré-determinada porque, em geral, a d LSF > 0,6, o que leva a d LSF +B > 1 e ln( d LSF +B) > 0. Sendo assim, B não tem apenas a função de evitar a ocorrência de ln 0, conforme já mencionado anteriormente, mas também de garantir que não ocorrerá valor negativo de DE. A minimização do somatório S é feita derivando e igualando a zero, ou seja, Interpolação Modificada de LSF’s 51 ∂S =0 ∂a 0 (4-5) ∂S =0 ∂a1 (4-6) Substituindo (4-2) em (4-5), resulta 2 ∂ n ∂S ∂ n 2 δ = yi − y i = 0 = ∑ i ∑ ∂a0 ∂a0 i =1 ∂a0 i =1 ( ) (4-7) É importante ressaltar que o índice i se refere à medida obtida para o i-ésimo sub-quadro. Aplicando-se a equação (4-3) em (4-7), tem–se n ∂S ∂ n 2 = ( y − a − a x ) = 2( yi − a0 − a1 xi ) ⋅ (−1) = 0 ∑ i 0 1 i ∑ ∂a0 ∂a0 i =1 i =1 (4-8) Do último somatório vem que n n na 0 + ∑ xi a1 = ∑ y i i =1 i =1 (4-9) Finalmente, do mesmo modo, substituindo-se 4-2 e 4-3 em 4-5, chega-se a n n n ∑ xi a 0 + ∑ xi2 a1 = ∑ xi yi i =1 i =1 i =1 (4-10) Um sistema de duas equações (4-9 e 4-10) e duas incógnitas ( a 0 e a1 ) é obtido. Resolvendo esse sistema, obtém-se n n n n i =1 i =1 ∑ xi2 ∑ yi − ∑ xi ∑ xi yi a0 = i =1 i =1 n∑ x i − ∑ xi i =1 i =1 n 2 n 2 (4-11) Interpolação Modificada de LSF’s 52 n n n n∑ x i y i − ∑ xi ∑ y i a1 = i =1 i =1 i =1 n∑ x i − ∑ xi i =1 i =1 n n 2 (4-12) 2 Utilizando como conjunto de dados os mesmo usados na plotagem do gráfico 4.1, e lembrando que y = DE e x = ln(d LSF + B) , resulta que n n = 49643 n n n ∑ xi = −11871 ∑ yi = 56539 ∑ xi2 = 23007 ∑x y i =1 i =1 i =1 i =1 i i = 14624 Logo, C = a 0 = 1,4726 A = a1 = 1,3955 Agora que já se tem uma aproximação para a DE, definida pela equação DEaprox = 1,4726 + 1,3955 (ln dLSF + 0,4), é interessante avaliar se essa aproximação é boa e se será útil. O coeficiente de correlação de Pearson, r2, é uma medida usualmente empregada para avaliar a qualidade do ajuste de curva obtido. O coeficiente varia entre 0 e 1, sendo que quanto mais próximo de 1, melhor a aproximação obtida. Esse coeficiente é definido por n n∑ ( yi − y ) r2 = 1− 2 i =1 n n∑ y − ∑ y i i =1 i =1 n (4-13) 2 2 i Para o conjunto de dados utilizado, tem-se, além dos valores apresentados anteriormente, que n 2 ∑ ( yi − y ) i =1 n = 3360,1 ∑y i =1 2 i = 107030 Interpolação Modificada de LSF’s 53 Logo, r2 = 0,9215, o que pode ser considerado como uma aproximação boa e útil porque, além de r2 estar próximo de 1, a função logarítmica possui características que a tornam mais adequada para o tipo de formulação matemática que será apresentada na Seção 4.3. 4.2. Expressão da DE em função dos coeficientes LSF Levando em conta tudo que foi exposto até aqui, conclui-se que é possível desenvolver uma expressão simples para o cálculo da DE aproximada em função dos coeficientes LSF diretamente. Aplicando a equação 4-14 na 3.1, tem-se p d LSF = ∑ [ci wi (ω i − ω̂ i )] 2 (4-14) i =1 p DE aprox = A ln(d LSF + B ) + C = A ln(∑ [ci wi (ω i − ωˆ i )] + B) + C 2 (4-15) i =1 onde, p = 10, ci e wi já foram definidos nas equações 3-3 e 3-4, respectivamente, e A = 1,3955 B = 0,4 C = 1,4726 De modo a avaliar a aproximação da DE pelo método dos mínimos quadrados, foram feitas simulações utilizando-se o conjunto de teste descrito na Seção 3.9. Os resultados estão apresentados na Tabela 4.1. Medida de distorção Erro DE média 1,11% Outliers %2-4 %>4 3,59% 12,64% Tabela 4.1 – Avaliação da aproximação da DE O erro na Tabela 4.1 se refere à diferença entre o valor de DE média obtido pelo cálculo através de transformadas de Fourier, forma mais comum na literatura e que serviu de referência, tendo definição expressa pela Equação (3-24), e aquele obtido através da aproximação da DE em (4-15). Os percentuais de erro Interpolação Modificada de LSF’s 54 apresentados na Tabela 4.1 estão coerentes com o que se vê na Figura 4.1, pois é possível perceber que para os valores mais altos de DE e d LSF , onde se situam os outliers, os pontos encontram-se mais dispersos no gráfico. Isso implica em uma menor correlação entre as medidas. Pode-se esperar, portanto, um erro maior nessa faixa. Para o simples cálculo da DE média, pode-se considerar que o resultado obtido com a aproximação é muito bom. Isso porque, além de apresentar um erro de apenas 1,11%, proporciona um enorme ganho de tempo, por exigir um esforço computacional muito menor que quando se utiliza a definição de DE através de transformadas de Fourier. A DE aproximada pode ser calculada em um tempo 51,6 vezes menor do que utilizando transformadas de Fourier. Além disso, também é interessante ressaltar que esse pequeno erro de 1,11% confirma a obervação de que, o coeficiente de Pearson de 0,9215 permite uma boa aproximação. 4.3. Ajuste visando minimizar a DE aproximada Como foi observado anteriormente, a DE e a d LSF estão fortemente relacionadas, e essa relação pode ser expressa, de modo aproximado, pela equação 3-1, ou seja DE = A ln (d LSF + B ) + C sendo A = 1,3955, B = 0,4 e C = 1,4726 constantes obtidas experimentalmente. Serão agora desenvolvidas novas expressões para o ajuste das LSF’s, com o objetivo de minimizar a DE aproximada. 4.3.1. Ajuste sem atraso Em um quadro qualquer, a distorção total é a soma das distorções de todos os sub-quadro, que agora é expressa por Interpolação Modificada de LSF’s 55 I I j =1 j =1 [ ] DETOT = ∑ DE j (ω ( j ) , ωˆ ( j ) ) = ∑ A ln d LSF j (ω ( j ) , ωˆ ( j ) ) + B + C (4-16) Podemos aplicar nessa expressão o mesmo método de minimização descrito anteriormente, ou seja, derivar e igualar a zero, resultando no seguinte desenvolvimento I d d ( ) DE = A ln(d LSF j + B) = ∑ TOT (0) ~ ~ dω dω ( 0) j =1 k I = A∑ d (d LSF j + B) ~ dω ( 0 ) k d LSF j + B j =1 k I = A∑ ( d d LSF j ~ dω ( 0 ) k d LSF j + B j =1 ) (4-17) =0 Utilizando a Equação (3-1), desenvolvemos a expressão para a d LSF j , que resulta em p d LSF j = ∑ [c w i ( j) i (ω ( j) i ] 2 p 2 ( 2 − ωˆ i( j ) ) = ∑ ci2 wi( j ) ωi( j ) − 2ωi( j )ωˆ i( j ) + ωˆ i( j ) i =1 i =1 2 ) (4-18) Substituindo nessa expressão a Equação (3-5), chega-se a p [ { 2 2 d LSF j ω ( j ) , ωˆ ( j ) = ∑ ci2 wi( j ) ωi( j ) − 2ωi( j ) (1 − α j )ω~i(−1) − 2ωi( j )α j ω~i(0 ) + ( ) i =1 2 + (1 − α )ω~i(−1) + α j ω~i(0 ) 1444 424444 3 * ( ) (4-19) 2 2 2 * = (1 − α j ) ω~i(−1) + 2(1 − α j )ω~i(−1)α jω~i(0 ) + α 2j ω~i(0 ) Fazendo i = k (k = 1, ..., p e p = 10), derivando em relação a ω~k( 0) e igualando a zero, obtém-se ( ) 2 d d LSF j = ck2 wk( j ) − 2ω k( j )α j + 2(1 − α j )ω~k( −1)α j + 2α 2j ω~k( 0) (0) ~ dω k [ ] (4-20) Interpolação Modificada de LSF’s 56 Substituindo a Equação (4-20) em (4-17), resulta que I ∑ 2 ck2 w(j j ) − 2ω k( j )α j + 2(1 − α j )ω~k(−1)α j [ d LSF + B j =1 I ∑ 2 ck2 wk( j ) 2α j (1 − α j )ω~k(−1) − ω k( j ) [ ]= − ] = − I 2 ck2 wk( j ) 2α 2j ω~k(0 ) j =1 d LSF + B ∑ ck2 wk( j ) α 2j ~ (0 ) 2ω k ∑ j =1 d LSF + B 1442443 d LSF + B j =1 1 44444 42 444444 3 bk′ 2 I (4-22) a′k 2 I ck2 wk( j ) α 2j j =1 d LSF + B a k′ = ∑ I 2 ck2 wk( j ) 2α j (1 − α j )ω~k(−1) − ω k( j ) j =1 d LSF + B bk′ = ∑ (4-21) [ (4-23) ] (4-24) E finalmente chegamos a ω~k(0 ) = − bk′ 2a k′ (4-25) onde a ′k e bk′ são dadas pelas Equações (4-23) e (4-24), respectivamente. Comparando as Equações (4-23) e (4-24) com (3-11) e (3-12), podemos observar que os coeficientes de otimização f j existentes dentro dos somatórios das Equações (3-11) e (3-12) são agora substituídos pelo fator 1 d LSF j + B . A conseqüência é que isso torna dispensável o procedimento de treinamento que era necessário para obter os coeficientes de otimização. Considerando que tal procedimento exige grande esforço computacional, temos então uma redução computacional significativa do processo de ajuste. 4.3.2. Ajuste com atraso As conclusões feitas na seção anterior foram levantadas em cima do método “no lookahead”. Mas o mesmo raciocínio pode ser aplicado ao “lookahead”. Interpolação Modificada de LSF’s 57 Primeiramente teríamos uma alteração na expressão da distorção total no quadro I ( L ) ( ) DETOT = ∑ DE j ω ( j ) , ωˆ ( j ) + ∑ DE j ω N( j ) , ωˆ N( j ) = j =1 I { [ j =1 ) ] } ( { [ L ) ] } ( = ∑ A ln d LSF j ω ( j ) , ωˆ ( j ) + B + C + ∑ A ln d LSF j ω N( j ) , ωˆ N( j ) + B + C j =1 (4-26) j =1 I L d d d ( ) DE = A ln( d + B ) + A ln(d LSF , N j + B) = ∑ ∑ TOT LSF (0) (0) ~ ~ ~ j dω dω dω ( 0) j =1 i I = A∑ j =1 j =1 i ( d d LSF j ~ dω ( 0 ) ) i d LSF j + B L + A∑ i ( d d LSF , N j ~ dω ( 0 ) j =1 i d LSF , N j + B ) (4-27) =0 A d LSF j foi definida nas Equações (4-18) e (4-19). A d LSF , N j , de modo análogo, é expressa por p [ ( d LSF , N j = ∑ ci wN( j,)i ω N( j,)i − ωˆ N( j,)i 2 )] = i =1 p 2 2 2 = ∑ ci2 w N( j,)i ω N( j,)i − 2ω N( j,)i ωˆ N( j,)i + ωˆ N( j,)i 1444424444 3 i =1 * (4-28) Utilizando a Equação (3-16), obtém-se 2 2 * = ω N( j,)i − 2ω N( j,)i (1 − β j )ω~i(0 ) − 2ω N( j,)i β jω~i(1) + (1 − β j )ω~i(0 ) + β iω~i(1) 144424443 ( ) ** 2 2 2 * * = (1 − β j ) ω~i(0 ) + 2(1 − β j )ω~i(0 )β jω~i(1) + β j2ω~i(1) Mais uma vez, considerando i = k (k = 1, ..., p e p = 10), derivando em relação a ω~ ( 0) e igualando a zero, obtém-se k Interpolação Modificada de LSF’s 58 ( j )2 2 I c w d k k ( DE ) = A ∑ TOT (0 ) ~ dω α j + 2(1 − α j )ω~k(−1)α j + 2α 2j ω~k(0 ) ( j) k [ L 2 2 2 ck2 wN( j,)k − 2ω N( j,)k (1 − β j ) + 2(1 − β j ) ω~k(0 ) + 2(1 − β j )β j ω~k(1) j =1 d LSF , N j + B + A∑ ∑ 2 ck2 wk( j ) 2α j (1 − α j )ω~k(−1) − ω k( j ) [ 2 d LSF j + B j =1 k I [− 2ω ]+ L ∑ ]+ ]= 0 ck2 wN( j,)k 2(1 − β j ) β jω~k(1) − ω N( j,)k ( 2 (4-29) )= d LSF + B d LSF , N j + B j =1 j =1 144444 42j444444 3 bk′ 1444444 4444444244444444444443 d k′ I 2 ( j )2 2 L 2 ( j ) 2 2 ck wk α j ck wN ,k (1 − β j ) ~ (0 ) 2ω k = − ∑ +∑ j =1 d d LSF , N j + B j =1 LSF j + B 14 4244 3 ak′ 144 44442444444 3 c′k L ck2 wN( j,)k (1 − β j ) 2 ck′ = a k′ + ∑ j =1 L d k′ = bk′ + ∑ j =1 2 (4-31) d LSF , N j + B ck2 wN( j,)k 2(1 − β j ) β jω~k(1) − ω N( j,)k ( 2 (4-30) ) d LSF , N j + B (4-32) Concluindo que ω~k(0 ) = − d k′ 2ck′ (4-33) onde c′k e d k′ são dadas pelas equações (4-31) e (4-32), respectivamente. 4.4. Resultados de simulação usando minimização da DE aproximada 4.4.1. Análise dos resultados obtidos antes da quantização Interpolação Modificada de LSF’s Modo DE média %2-4 %>4 d LSF Sem ajuste 1,1249 14,3329% 0,7476% 0,6007 No lookahead 1,15055 10,70312% 0,61017% 0,50755 1 1,10438 9,81284% 0,58055% 0,48237 2 1,10304 9,53486% 0,58390% 0,47574 3 1,09322 9,10958% 0,55036% 0,46007 4 1,07830 8,56472% 0,53304% 0,44638 Lookahead Sub-quadros 59 Tabela 4.2 – Resultados obtidos antes da quantização A Tabela 4.2 mostra os resultados obtidos para o conjunto de teste antes da quantização. De modo geral, comparando os resultados das medidas apresentadas com as referenciais, pode-se dizer que em todos os casos ocorre redução das medidas, exceto para a DE média no modo “no lookahead”, a qual fica acima. Os gráficos apresentados nas Figuras 4.2 à 4.9 foram feitos segundo o mesmo esquema visual dos anteriores. A única diferença é que agora tem-se uma curva a mais, representando os valores das medidas de distorção obtidas com o emprego da nova proposta de ajuste de LSF’s. A distorção espectral – DE média A Figura 4.2 mostra que a nova proposta de ajuste de LSF’s é efetivamente capaz de obter um melhor resultado em termos de DE média, ainda que apenas no modo “lookahead”. Esse resultado, somado ao fato de que não foi necessário treinamento se traduz em uma melhoria tanto de desempenho como computacional. Vale lembrar que o treino é um processo que tende a ser extremamente demorado, já que quanto mais preciso se exige que seja, maior terá que ser o conjunto de treinamento. Isso, é claro, cria um requisito não só de tempo, quanto também de capacidade computacional. Interpolação Modificada de LSF’s 60 Figura 4.2 – DE média x número de sub-quadros. Outliers Em se tratando de outliers (Figuras 4.3 e 4.4), os resultados obtidos não são tão bons quanto os da DE média, principalmente para os maiores que 4%. Entretanto, mesmo nesse caso, os valores registrados sempre se situam abaixo dos referenciais. Para os outliers entre 2 e 4%, a nova proposta de ajuste de LSF’s, com até 3 sub-quadros, chega a ser melhor que aquela onde se minimiza a DE. Porém, o melhor resultado de todos é obtido quando se minimiza a d LSF . Interpolação Modificada de LSF’s 61 Figura 4.3 – Outliers de 2-4% x número de sub-quadros. No caso dos outliers maiores que 4%, apenas no modo “no lookahead” a nova proposta consegue apresentar alguma vantagem, em relação apenas à minimização da DE. Interpolação Modificada de LSF’s 62 Figura 4.4 – Outliers >4% x número de sub-quadros. Distância euclidiana ponderada - dLSF A d LSF apresenta um perfil decrescente com valores, no modo “lookahead” que se mantêm próximos dos obtidos com a minimização da DE. No modo “no lookahead” a medida atinge um valor bem próximo ao da minimização da mesma. Figura 4.5 – dLSF x número de sub-quadros. 4.4.2. Análise dos resultados obtidos após a quantização Para as simulações após a quantização, tem-se os valores apresentados na tabela 4.3. Modo Sub-quadros DE média %2-4 %>4 d LSF Sem ajuste 1,58916 23,13012% 1,25266% 0,96820 No lookahead 1,55695 20,33445% 1,10890% 0,90079 1 1,50331 18,24693% 1,07711% 0,85035 2 1,49090 17,75435% 1,01067% 0,83329 Lookahead Interpolação Modificada de LSF’s 63 3 1,48916 17,36423% 1,02854% 0,82258 4 1,49412 17,32577% 1,06150% 0,82490 Tabela 4.3 – Resultados obtidos após a quantização. Agora todas as medidas estão abaixo dos referenciais, sem exceção, ao contrário do que ocorreu antes da quantização. Isso é um ponto positivo, pois, como já foi dito, as LSF’s quantizadas são as que realmente vão compor o sinal sintetizado na saída do decodificador. Distorção espectral – DE média Após a quantização, a DE média (Figura 4.6) se mantém abaixo do que em todas as outras situações. A vantagem da nova proposta é mais clara no modo “lookahead”, principalmente a partir da utilização de 2 sub-quadros à frente. Isso apenas reforça a idéia de que ocorre efetivamente uma melhoria com o emprego da nova proposta de ajuste de LSF’s, além, é claro, do fato de não ser necessário o processo de treinamento. Figura 4.6 – DE média x número de sub-quadros. Interpolação Modificada de LSF’s 64 Outliers Os outliers de 2 a 4% (Figura 4.7) apresentam um comportamento até melhor do que antes da quantização. Além de apresentarem uma redução contínua, detém também resultados melhores que os obtidos com a minimização da DE, tanto no modo “no lookahead” quanto no “lookahead” a partir de 2 subquadros. Figura 4.7 – Outliers 2-4% x número de sub-quadros. Já os outliers maiores que 4% (Figura 4.8) tem um comportamento semelhante ao obtido antes da quantização, apresentando vantagem apenas no modo “no lookahead” em relação à minimização da DE. Interpolação Modificada de LSF’s 65 Figura 4.8 – Outliers >4% x número de sub-quadros. Distância euclidiana ponderada - dLSF A d LSF (Figura 4.9) apresenta no modo “no lookahead” um valor menor que na minimização da DE. No modo “lookahead” ela se mantém próxima, porém acima. Interpolação Modificada de LSF’s 66 Figura 4.9 – dLSF x número de sub-quadros. 4.4.3. Resultados da medida PESQ Como mostrado na tabela 4.4, o teste PESQ apresenta resultados melhorer que o referencial em todas as situações. Entretanto, como nas medições anteriores, não é possível estabelecer uma relação entre a medida e o número de sub-quadros à frente utilizados. Modo Sub-quadros PESQ Sem ajuste 2,3342 No lookahead 2,3436 Lookahead 1 2,3459 2 2,3393 3 2,3628 4 2,3543 Tabela 4.4 – Resultados da medida PESQ. Interpolação Modificada de LSF’s 67 5 Conclusões e Sugestões para Trabalhos Futuros Nesta dissertação foi analisado um método de ajuste de parâmetros LSF’s, para o qual foram propostas melhorias. O objetivo do ajuste é buscar aproximar as LSF’s interpoladas das originais de cada sub-quadros de voz. Foram utilizadas medidas de distorção objetivas (distorção espectral, outliers, e distância LSF euclidiana ponderada) para a avaliação das melhorias nos parâmetros LSF, e o teste PESQ, para a avaliação da qualidade de voz sintetizada. Para o teste PESQ foi empregado um codificador de voz operando a taxas médias de 2 kb/s. A seguir tem-se uma descrição resumida das principais contribuições desta dissertação e algumas sugestões para trabalhos futuros. 5.1. Resumo e principais conclusões No Capítulo 2 foi feita uma breve descrição do processo de codificação de voz, indicando o ponto de inserção do processo de ajuste de parâmetros LSF estudado nesta dissertação. Foi feita uma apresentação resumida do processo de análise linear preditiva (LPC), dando ênfase à função do filtro preditor e às características dos coeficientes preditores. Por último, foram apresentados os parâmetros LSF, explicando como são obtidos, e quais as características que os tornam interessantes para o processo de codificação de voz. No capítulo 3 foi analisado o método de ajuste de parâmetros LSF, proposto em [5]. Inicialmente foi feita uma breve explicação sobre dois temas fundamentais para a compreensão do processo de ajuste: a interpolação de LSF e a distância LSF euclidiana ponderada. A seguir, foram apresentadas deduções detalhadas das expressões de ajuste contidas no trabalho publicado em [5]. É importante observar que tais deduções foram feitas para dois modos, com e sem introdução de atraso no processo de codificação da voz. Logo após, é feita a apresentação da distorção espectral (DE) e do processo de obtenção dos coeficientes de otimização que minimizam a DE e a d LSF . De modo a estabelecer uma referência para Interpolação Modificada de LSF’s 68 comparação de medidas foram feitas simulações com o codificador sem nenhuma alteração, isto é, sem utilizar o processo de ajuste de LSF’s. A partir de simulações realizadas com os coeficientes apresentados em [11], verificou-se a redução das medidas de distorção, DE e d LSF , quando minimizadas através dos respectivos coeficientes de otimização. Tais medidas foram realizadas antes e depois da quantização, constatando-se a melhoria de desempenho em ambas as situações. Também ocorreu uma pequena melhoria no teste PESQ quando minimizada a DE. É importante notar que em [5] e [11] não é apresentada nenhuma avaliação direta da qualidade de voz. Na seqüência do capítulo 3 foram treinados novos coeficientes de otimização, tanto para a minimização da DE, quanto para minimização da d LSF . Tais coeficientes foram utilizados em novas simulações através das quais foi possível verificar a redução das medidas de distorção. Uma conclusão importante é que no caso de se desejar obter uma redução dos outliers, a minimização da d LSF se mostrou mais eficiente do que a da DE. Em geral, o teste PESQ também apresentou melhoria, exceto nos casos “no lookahead” e “lookahead” com 1 subquadro à frente, minimizando a d LSF . O capítulo 4 apresenta a maior contribuição dessa dissertação na medida em que propõe melhorias no processo de ajuste de LSF’s apresentado no capítulo 3. Inicialmente foi abordado um método de aproximação da DE pela d LSF , definido em [5], para a qual são determinados os parâmetros, a partir de um conjunto de treinamento. Através de tal aproximação foi possível deduzir uma expressão para o cálculo da DE aproximada em função diretamente de parâmetros LSF. Os novos parâmetros para a aproximação da DE e a expressão para a DE aproximada em função dos LSF’s podem ser considerados contribuições iniciais deste capítulo. Sem dúvida, o ponto de maior interesse desta dissertação é o que se segue no capítulo 4, onde são apresentadas deduções detalhadas de um novo método de ajuste de LSF’s realizado através da expressão da DE aproximada. Tal ajuste é proposto para ambas situações com e sem a introdução de atraso. A grande contribuição desta nova proposta é eliminar o treinamento de coeficientes de otimização, processo que exige grande esforço computacional, podendo ser extremamente demorado. Além disso, por realizar a minimização diretamente através de uma expressão da DE, ainda que aproximada, foi possível obter uma Interpolação Modificada de LSF’s 69 redução ainda maior da medida. Isso foi confirmado através de simulações que mostraram a redução da DE em todos os casos, exceto no modo “no lookahead”, quando medida antes da quantização. O teste PESQ apresentou uma pequena melhoria, mas foi possível estabelecer uma relação direta entre a evolução do número de sub-quadros à frente utilizados e o aumento da medida. Testes de escuta informais revelaram que a diferença obtida na percepção subjetiva de qualidade de voz é pequena. Isso possivelmente se deve ao fato de que o codificador utilizado apresenta baixa qualidade de voz, devido ao fato de operar a baixas taxas, fazendo que pequenas mudanças praticamente não sejam percebidas. 5.2. Sugestões para Trabalhos Futuros A seguir são apresentadas algumas sugestões para trabalhos futuros que podem ser realizados de modo a dar seguimento no que foi exposto nesta dissertação. Muitas dessas sugestões são linhas de investigação previstas no início deste trabalho, outras são possibilidades que surgiram ao longo do estudo, mas que foram descartadas devido a limitação de tempo. São elas: • É possível que diferentes esquemas de janelamento, aplicado logo após a segmentação do sinal do voz para a análise LPC, tenham efeito sobre o processo de ajuste, na medida em que podem alterar a contribuição de cada sub-quadro individualmente. • Testar novos codificadores de voz, principalmente a taxas maiores, como por exemplo o G723.1, pois é possível que neste caso a qualidade de voz sintetizada possa ser melhor avaliada pelo teste PESQ. • Treinar novos coeficientes de otimização usando conjuntos de treinamento ainda maiores e mais diversificados, de modo a tornar o ajuste ainda mais preciso. • Testar novos processos de interpolação além da linear, como por exemplo a polinomial. • O treinamento do quantizador dos codificadores em geral não utiliza LSF’s ajustados. Portanto, seria interessante realizar um novo treinamento usando LSF’s modificados pelo processo de ajuste. Interpolação Modificada de LSF’s 70 • Aplicar o ajuste de LSF’s no reconhecimento de voz. • Analisar a interação entre o processo de ajuste de LSF’s e os pósfiltros de saída do decodificador, pois é possível que novas combinações de filtros proporcionem melhores resultados. • Expressar a relação entre DE e d LSF através de outra função que não a logaritimica (por exemplo a quadrática) e aplicar essa nova expressão no processo de ajuste. Interpolação Modificada de LSF’s 71 Bibliografia [1] O. Hersent, D. Guide, and J.-P. Petit, Telefonia IP : Comunicação Multimídia Baseada em Pacotes. Makron Books, 2002. [2] J. I. Makhoul, “Linear prediction: a tutorial review," Proc. IEEE, vol. 63, pp. 561-580, Abril 1975. [3] B. S. Atal, “Efficient coding of lpc parameters by temporal decomposition," Proc. IEEE Int. Conf. Acoust., Speech, Signal Processing, pp. 81-84, Boston, USA, 1983. [4] F. K. Soong and B. Juang, “Line spectrum pair (lsp) and speech data compression," Proc. IEEE Int. Conf. Acoust., Speech, Signal Processing, San Diego, California, USA, 1984. [5] W. Pereira, Modifying LPC Parameter Dynamics to Improve Speech Coder Efficiency. Master’s thesis, McGill University, Montreal, Canada, 2001. [6] K. K. Paliwal and B. S. Atal, “Efficient vector quantization of LPC parameters at 24 bits/frame,” IEEE Trans. Acoustics, Speech, Signal Processing, vol. ASSP-1, pp. 3–14, Jan. 1993. [7] A. W. Rix, J. G. Beerends, M. P. Hollier, and A. P. Hekstra, “Perceptual evaluation of speech quality (pesq): A new method for speech quality assessment of telephone networks and codecs," IEEE. ICASSP, Utah, USA, May 2001. [8] ITU-T Rec. P.862, Perceptual evaluation of speech quality (PESQ): Interpolação Modificada de LSF’s 72 An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs. February 2001. [9] R. C. de Lamare, Codificação de Voz a Taxas Médias Abaixo de 2 kb/s.Rio de Janeiro: Dissertação de Mestrado - PUC-Rio, 2001. [10] R. Laroia, N. Phamdo, and N. Farvardin, “Robust and efficient quantization of speech LSP parameters using structured vector quantizers,” in Proc. IEEE Int. Conf. On Acoustics, Speech, Signal Processing, (Toronto, Canada), pp. 641–644, May 1991. [11] W. Pereira and P. Kabal, "Improved Spectral Tracking Using Interpolated Linear Prediction Parameters", Proc. IEEE Int. Conf. Acoustics, Speech, Signal Processing (Orlando, FL), pp. 261-264, May 2002. [12] R. C. de Lamare and A. Alcaim, “Very low bit rate speech coding in tandem connections," Electronics Letters, vol. 18, pp. 1356-1357, 2003. [13] A. Gersho and R. M. Gray, “Vector quantization and signal compression," Kluwer Academic Publishers, 1992. [14] W. LeBlanc, B. Battacharya, S. Mahmoud, and V. Cupperman, “Efficient search and design procedures for robust multi-stage vq of lpc parameters for 4 kb/s speech coding," IEEE Trans. Speech and Audio Processing, vol. 1, no. 4, pp. 373-385, 1993. [15] M. Yong, G. Davidsson, and A. Gersho, “Encoding of lpc spectral parameters using switched-adaptive interframe vector prediction," Proc. ICASSP88, vol. 1, pp. 402{405, Washington, USA, 1988. [16] A. McCree and J. D. Martin, “A 1.7 kb/s melp coder with improved Interpolação Modificada de LSF’s 73 analysis and quantization," Proc. ICASSP-98, USA, 1998. [17] R. C. de Lamare and A. Alcaim, “Analysis of lsf switched-predictive vector quantisers," International Symposium on Signal Processing and its Applications, Kuala Lumpur, Malaysia, 2001. [18] R. C. de Lamare and A. Alcaim, “Noisy channel perfomance of lsf switched-predictive vector quantisers," Proc. IEEE International Conference on Information, Communications and Signal Processing, Singapore, 2001. [19] T. Unno, T. P. III, and K. Truong, “An improved mixed excitation linear prediction (melp) coder.," Proc. IEEE Int. Conf. Acoust., Speech, Signal Processing, Arizona, USA, 1999. [20] W. Ehnert, “Variable-rate speech coding: coding unvoiced frames with400bps.," Proc. of EUSIPCO, Greece, pp. 1437-1440, 1998. [21] J. Wang and J. Gibson, “Parameter interpolation to enhance the frame erasure robustness of celp coders in packet networks," Proc. IEEE Int.Conf. Acoust., Speech, Signal Processing, Utah, USA, 2001. [22] A. Alcaim, J. A. Solewicz, and J. A. Moraes, “Frequência de ocorrência dos fones e listas de frases foneticamente balanceadas no português faladono Rio de Janeiro," Revista da Sociedade Brasileira de Telecomunicações, vol. 7, pp. 23-41, 1992.