Metodologias de Avaliação de Qualidade de Fluxos de Voz
Leandro Andrada Roda Marinho
Escola de Engenharia – Universidade Federal Fluminense (UFF)
Rua Passo da Pátria, 156 – Niterói – RJ – Brasil
[email protected]
Resumo. Este trabalho tem como objetivo descrever os principais métodos de avaliação
de qualidade de fluxos de voz. Serão apresentados modelos subjetivos onde a partir da
avaliação da percepção de qualidade por pessoas obtem-se um resultado, e modelos
objetivos que a partir de cálculos computacionais tentam estimar a sensibilidade de
percepção do ser humano utilizando diversos fatores como, por exemplo, o
conhecimento da fisiologia do ser humano.
1. Introdução
O avanço das técnicas de processamento digital de sinais proporcionou um crescente
interesse em métodos e dispositivos de codificação de voz mais eficientes. A avaliação
da qualidade de codecs de voz é necessária para o desenvolvimento destes dispositivos e
também para o projeto de redes digitais de telecomunicações.
A análise da qualidade da voz recebida envolve fatores que são difíceis de serem
ponderados em medidas objetivas, como, por exemplo, o incômodo que uma
determinada distorção ou ruído causam, e a inteligibilidade de um sinal.
Adicionalmente, o conceito de qualidade varia de acordo com a aplicação pretendida e
com o público alvo, que pode ser mais ou menos exigente, dependendo de suas
características culturais. Portanto, as medidas subjetivas ainda são utilizadas,
especialmente em casos em que há a necessidade de resultados realmente confiáveis.
Porém, seu custo, complexidade e tempo demandado motivam fortemente a busca de
métodos eficazes para a realização de medidas objetivas que estimem a qualidade
subjetiva de maneira eficiente.
Este trabalho descreve os modelos de avaliação subjetiva para qualidade de voz e alguns
modelos objetivos, abordando os modelos que se baseiam nas características perceptivas
do ser humano e o E-Model.
O restante do texto está organizado da seguinte forma. A seção 2 apresenta a descrição
do modelo subjetivo de avaliação de qualidade de voz, descrevendo os diversos tipos de
testes e apresenta a principal escala utilizada (escala MOS) pelo ITU-T de acordo com
as recomendações P.800[1] e P.830[2]. A seção 3 apresenta as principais metodologias
objetivas de avaliação de qualidade de fluxo de voz (os modelos baseados nas
características perceptuais e o E-Model [3]), e como estas se relacionam com a escala
subjetiva. Por fim, a seção 4 realiza as considerações finais do trabalho com as
conclusões obtidas.
1
2. Avaliação Subjetiva de Qualidade de Fluxo de Voz
Diversos fatores devem ser avaliados num teste subjetivo de qualidade de fluxo de voz.
O grau de importância a ser dado a cada um deles será determinado pelo tipo de
aplicação desejada. Dentre os fatores mais importantes, destacam-se: a variação do nível
de entrada do sinal a ser codificado; a ocorrência de erros no canal de operação do
codec; a possível ocorrência de múltiplas transcodificações; a diversidade de locutores;
a presença de ruído ambiente em níveis variáveis; e o atraso introduzido pela
codificação.
Finalmente, deve-se selecionar com cautela o material-fonte e principalmente os
avaliadores tanto em termos qualitativos quanto quantitativos a serem utilizados nos
testes.
2.1 Tipos de Teste
Os testes subjetivos podem ser divididos em três grupos: os de entrevista, os
conversacionais e os de audição [1].
Os testes de entrevista são realizados através de uma série de questões feitas
diretamente aos usuários do sistema sob avaliação. Para se ter um bom grau de precisão
é necessário um grande número de entrevistas, tornando o método dispendioso.
Os testes conversacionais são testes bidirecionais que envolvem duas pessoas que
tenham sido especificamente treinadas, uma falando e a outra ouvindo de acordo com
determinada metodologia.
Os testes subjetivos mais importantes são os testes de audição, os quais são
unidirecionais e visam medir a capacidade de um sistema de transmitir adequadamente
uma informação. Baseiam-se na avaliação de sua qualidade (de acordo com uma escala
apropriadamente escolhida), a partir da audição de sentenças simples, processadas pelo
sistema sob avaliação e por sistemas (condições) de referência. Neste tipo de teste, os
locutores não devem ser treinados, recebendo apenas instruções quanto à escala de
avaliação a ser utilizada.
Existem diversos tipos de testes de audição, sendo que os três mais utilizados são
descritos a seguir.
2.1.1 Testes de qualidade absoluta (Absolute Category Rating – ACR)
Os testes de qualidade absoluta (ACR) baseiam-se na avaliação absoluta da qualidade
do material processado, sem que o avaliador disponha de material para comparação.
Utiliza três escalas de opinião:
- Qualidade de audição (Listening-Quality): nesta escala, um sistema de pontuação
define a qualidade de pequenos grupos de sentenças descorrelacionadas, cada uma
submetida ao processo sob teste. A tabela 2.1 mostra a graduação utilizada nesta escala.
Tabela 2.1 – Escala Listening-Quality
2
- Esforço de audição (Listening-Effort): esta é uma escala muito importante,
principalmente nos casos em que há altos níveis de degradação. Neste tipo de situação,
há um maior interesse na inteligibilidade do sinal do que na qualidade, o que é aceitável
em diversas aplicações, como no caso de comunicações militares. A Tabela 2.2 mostra a
graduação utilizada nesta escala.
Tabela 2.2 – Escala Listening-Effort
- Preferência de sonoridade (Loudness-Preference): define o grau de sonoridade
(volume) percebido pelos ouvintes. Sua graduação é mostrada na Tabela 2.3:
Tabela 2.3 – Escala Loudness-Preference
2.1.2 Testes de Degradação (Degradation Category Rating – DCR)
O teste de degradação (DCR) avalia a degradação do material processado em relação ao
material original, o que o torna mais sensível à distinção de qualidade, em contraste com
os testes tipo ACR. A escala segue na Tabela 2.4.
Tabela 2.4 – Escala de Degradação
3
2.1.3 Testes de Comparação (Comparison Category Rating – CCR)
O teste de comparação (CCR) se distingue do teste tipo DCR apenas pela ordem em que
as amostras são apresentadas aos ouvintes. Neste método, a ordem das amostras é
escolhida aleatoriamente. Portanto, neste tipo de teste, os ouvintes têm de responder a
duas perguntas: qual dos sinais é melhor e quanto ele é melhor, segundo a escala da
tabela 2.5.
Tabela 2.5 – Tabela para comparação entre elementos de um par
A vantagem do método CCR em relação ao DCR está na possibilidade de se poder
avaliar não apenas processamentos de voz em que a qualidade é degradada, como
também os casos em que a qualidade é melhorada. A deficiência deste tipo de teste,
assim como no DCR, é que apenas desempenhos relativos podem ser obtidos.
O método mais utilizado, para a maioria das aplicações, tem sido o Absolute Category
Rating (ACR), usando a escala qualidade de audição. Este método está bem
estabelecido e tem sido aplicado a conexões telefônicas digitais e analógicas de
dispositivos de telecomunicações. Vários laboratórios em diferentes países realizaram
testes subjetivos utilizando este método, nas mesmas condições e com sistemas de
transmissão idênticos, conseguindo resultados com alto grau de consistência. A média
aritmética dos pontos atribuídos é denominada de Mean Opinion Score (MOS). As
escalas de degradação e de comparação entre elementos de um par, usando, os métodos
de classificação DCR e CCR, também têm sido largamente utilizadas, e sua média
aritmética é denominada “Comparative Mean Opinion Score” (CMOS).
Podemos observar que existem várias escalas para avaliação da voz, entretanto a escala
apresentada na tabela 2.6 é a mais utilizada pela ITU-T.
Tabela 2.6 – Escala mais Utilizada pela ITU para Avaliação Subjetiva de Qualidade de Voz
Pode-se observar que a escala varia de 1 a 5, sendo quanto maior o valor obtido maior a
qualidade atribuída à avaliação.
4
A tabela 2.7 apresenta, para os principais codificadores de voz, a relação com valores
médios de MOS:
Tabela 2.7 – Valores MOS dos Codecs [4]
De acordo com a tabela 2.7 vemos que os codecs waveforms (baseados na forma de
onda) possuem valores de MOS acima de 4.0 indicando qualidade muito boa, porém
para isso necessitam de alta taxa de transmissão conseqüentemente exigindo bandas
maiores, enquanto que os codecs híbridos (baseados na forma de onda e na modelagem
da fonte) apresentam valores de MOS entre 3,7 e 4.0, indicando boa qualidade, tendo
em vista que quanto menor a taxa de transmissão destes codecs menor será a qualidade
percebida.
3. Avaliação Objetiva de Qualidade de Fluxo de Voz
Os métodos objetivos utilizam recursos computacionais para inferir a qualidade da voz
submetida a um sistema de transmissão e/ou a um codificador de áudio. Dentre os
métodos objetivos, tem-se o E-Model [3] e os métodos conhecidos como métodos
perceptuais os quais fazem uso do conhecimento do sistema auditivo humano para
comparar um sinal de referência (trecho de voz previamente gravado) com um sinal
degradado (sinal de referência submetido ao sistema de transmissão a ser avaliado).
Estes métodos visam compor uma medida de distorção do sinal de voz, com destaque
para o PSQM (Perceptual Speech Quality Measure) [5], o PSQM+ [6], o PAMS
(Perceptual Analysis Measurement System) [6], o MNB (Measuring Normalizing
Blocks) [7] e o PESQ (Perceptual Evaluation of Speech Quality) [8].
3.1 PSQM - Perceptual Speech Quality Measure
O método PSQM (Perceptual Speech Quality Measure) foi desenvolvido por John G.
Beerends e J.A. Stemerdinks do KPI Researches, em reposta a necessidade de haver um
método objetivo que avaliasse a qualidade de fluxos de voz. Publicado pelo ITU como
Recomendação P.861 [5] em 1996, tem grande aceitação como uma medida consistente
e eficaz baseada em fatores de percepção humana.
O PSQM é um processo matemático que provê a medição da qualidade subjetiva da
fala. O objetivo é produzir scores confiáveis que predizem valores de testes subjetivos
(MOS). No entanto os scores PSQM têm uma escala diferente e refletem a medida de
distância perceptual, isto é, os scores PSQM refletem quantitativamente a divergência
5
de um sinal original de um sinal distorcido, uma vez que este foi presumidamente
processado por algum sistema de telefonia.
Para executar uma medida PSQM, uma amostra de fala humana gravada é inserida num
sistema e processada por qualquer codec usado. O sinal de saída é gravado e então
sincronizado no tempo com o sinal de entrada original. Estes serão então comparados
pelo algoritmo PSQM. O score PSQM resultante varia de 0 a infinito, quanto maior o
valor do score, maior será o nível de distorção. A partir daí o score PSQM será
transformado para a escala subjetiva representado pelos scores MOS. A figura 1 ilustra
o processo descrito.
Figura 1 – Visão Geral do Processo PSQM
O algoritmo PSQM assume que o sinal de entrada, sistemas de transmissão e de
processamento exibem as seguintes características:
. Sinais de entrada e saída devem estar sincronizados no tempo antes da análise PSQM.
. Os sinais de entrada devem ser livres de ruído de fundo.
. Não existem degradações no canal como erro de bits, perda de pacotes e interrupções
temporais.
PSQM eficientemente prediz resultados subjetivos quando os cenários avaliados
apresentam as seguintes características ou parâmetros:
. Codecs baseados na forma de onda (por exemplo, G.711, G.726).
. Codecs baseados em CELP com taxas maiores que 4kbps (por exemplo, G.729a,
G.723.1 com taxas de 5.3 e 6.3 Kbps, G.728).
. Múltiplas taxas de bits de um codec.
. Transcodificações (conversões de um formato digital para outro).
. Dependências de locutores (ex. linguagens, frases).
Uma visão detalhada do método PSQM será dada nas próximas subseções conforme a
figura 2.
Figura 2 - Visão detalhada do método PSQM
6
Etapa 1 - Pré-processamento / Inicialização dos Sinais
Antes dos processos de modelagem perceptual e cognitiva, a inicialização global é
executada. Os arquivos de voz utilizados no cálculo de qualquer medida objetiva
devem, a priori, ser discretizados (com 16 bits por amostra), já que todos os
processamentos subseqüentes serão realizados no domínio digital. Para a faixa de
telefonia, as freqüências de amostragem mais utilizadas são as de 8 kHz e 16 kHz.
Antes que se possa realizar o cálculo da medida objetiva PSQM, é necessário realizar as
seguintes operações de inicialização, especificadas na recomendação P.861 do ITU:
Alinhamento temporal - processamento PSQM só pode ser aplicado a sinais
alinhados temporalmente. Se o atraso teórico introduzido pelo sistema sob teste é
conhecido, este é adotado para o alinhamento. Se esse atraso não é conhecido, é
necessário estimá-lo.
•
• Escalonamento global - para a compensação do ganho do sistema visa-se ajustar
a energia do sinal decodificado, de modo a igualá-la à do sinal original. É realizado
multiplicando-se o sinal decodificado por um fator, definido pela relação entre as
energias médias dos dois sinais.
Calibração global (ajuste de audibilidade) – um fator de calibração entre um
nível de audição assumido e o nível de percepção sonora é calculado. Este fator ajuda a
determinar a percepção sonora dos sinais de saída baseados em níveis de audição
assumidos (por exemplo, o nível de áudio que o ouvido receberia de um sinal de fala
pelo telefone) e os limiares de audição humana em diferentes freqüências. Este fator é
usado para calcular densidades de percepção sonora.
•
Etapa 2 – Modelagem Perceptual
O próximo passo de pré-processamento, é a transformação do domínio físico para o
domínio psicofísico, ou seja, o algoritmo PSQM faz a representação matemática do
sinal físico atual e o converte em uma representação matemática que leva em conta as
realidades fisiológicas da percepção humana. Isto é realizado em três operações:
• Mapeamento tempo-freqüência: uma Transformada Rápida de Fourier (FFT) é
executada nos sinais de entrada e saída, que estão no domínio do tempo (potência versus
tempo) para convertê-los ao domínio da freqüência. Isto é realizado em frames de 32ms
resultando em componentes tempo-freqüência chamados células, ilustradas na figura 3
[9]. Os quadros resultantes são compostos por 256 amostras no caso de amostragem a
8k amostras/s e por 512 amostras para 16k amostras/s.
• Transformação em freqüência e filtragem: A tradicional escala de freqüência,
Hertz, é alterada para levar em consideração a sensibilidade humana às diferentes
freqüências. A escala é alterada para bandas críticas específicas, sendo a nova escala
não mais estritamente linear. Os sinais de entrada e saída também são filtrados de
acordo com as características de recepção do aparelho telefônico.
• Alteração da intensidade – a escala de intensidade, que é baseada na densidade
de potência, é alterada para uma escala de sonoridade subjetiva para representar a
sensibilidade humana à percepção sonora. Isto é preciso, pois a percepção da distorção
humana depende do sinal de áudio no qual o ruído está presente (ruídos em sinais altos
são menos perceptíveis que ruídos em sinais baixos). PSQM calcula alguns parâmetros,
para um quadro inteiro, e compara estes valores com os obtidos para cada célula
individual, aplicando o escalonamento local onde necessário. Isto permite ao PSQM
7
distinguir a distorção provocada por codecs (que agem sobre células individuais) de
atenuação ou ganho do sinal que agem sobre todo o quadro.
A saída do processo de Modelagem Perceptual é freqüentemente referida como uma
representação interna de sinais de entrada e saída. Este processo produz uma
representação matemática de sinais acústicos que levam em consideração a fisiologia
humana e suas sensitividades auditivas.
Figura 3- Célula
Etapa 3 – Modelagem Cognitiva
A modelagem cognitiva é aonde os sinais de entrada e saída são diretamente
comparados e o score PSQM é produzido. A modelagem cognitiva avalia os erros
audíveis nos sinais de saída computando essencialmente o distúrbio de ruído para cada
célula individualmente. O distúrbio médio de ruído é diretamente relacionado com a
qualidade do codec. A modelagem cognitiva é realizada por quatro operações:
• Escalonamento de Percepção Sonora - Dentro de cada quadro, a densidade de
percepção sonora do sinal de saída é escalonada relativamente ao sinal de entrada.
• Ruído Cognitivo Interno – o distúrbio de ruído é calculado como a diferença em
densidade de percepção sonora entre os sinais de entrada e saída, como seriam
percebidos por um ouvinte.
• Processamento Assimétrico – a percepção humana de clareza de fala é
assimétrica. Quando uma célula não é codificada (perda de sinal no sinal de entrada),
afeta a qualidade subjetiva menos que em casos quando uma componente de frequênciatempo não relacionada é introduzida (adição de distorção). Ou seja, uma pequena
distorção aditiva no codec é mais notada por um ouvinte que uma pequena perda de
sinal devida a uma distorção de codec. PSQM trata esse efeito de assimetria
escalonando o distúrbio de ruído para cada célula diferentemente. Se o distúrbio é
causado por energia adicional na célula, PSQM escalona o distúrbio de ruído com um
fator maior que 1, resultando em um score PSQM maior. Se um distúrbio é causado por
falta de energia numa célula, PSQM escalona o distúrbio de ruído com um fator menor
que 1, resultando num score PSQM menor. Como resultado deste processo de
assimetria, os scores PSQM correlacionam-se melhor com resultados subjetivos com
adição de energia em relação à falta de energia de codecs.
• Processamento do Intervalo de Silêncio – Para melhor adequar a percepção
humana, diferenças entre sinais de entrada e saída durante intervalos de silêncio devem
ter menos impacto nos scores PSQM. PSQM computa a média de ruído de percepção
8
sonora para quadros de silêncio e para quadros de conversação separadamente,
aplicando diferentes fatores de pesos para cada.
A saída do processo de Modelagem Cognitiva é um valor objetivo chamado de PSQM
score que varia de 0 (perfeito) a infinito, sendo valores acima de 15 considerados
extremamente ruins.
Não existe uma formula única que correlacione os scores PSQM com os valores MOS,
uma vez que os scores são dependentes dos esquemas de implementação e também do
sinal de teste.
A título de exemplo, de acordo com a implementação denominada de implementação de
Sage, o valor PSQM pode ser convertido para a escala MOS de acordo com a equação a
1 [4]:
Equação 1 – Conversão de scores PSQM em valores de MOS na [9]
Abaixo são destacados alguns pontos importantes:
• Diferenças entre sinais de entrada e saída, se inaudíveis, não resultarão em
grandes scores PSQM (baixa qualidade).
• Se os sinais de entrada e saída são idênticos, o score PSQM será próximo de 0
(qualidade perfeita em relação ao sinal de entrada), sendo assim, se um sinal ruidoso é
reproduzido pelo sistema de teste, uma comparação dos sinais ruidosos de entrada e
saída irá produzir um score PSQM próximo de zero.
3.2 PSQM+
Apesar de ter se mostrado um método com alta correlação entre medidas subjetivas e
objetivas, o PSQM não se mostrou eficaz nos casos em que os sinais de voz continham
supressão de trechos de voz e/ou distorções provocadas por excesso de volume. Em
outras palavras, PSQM poderia reportar uma melhor qualidade sobre estas condições
que um ouvinte poderia atribuir. Fez-se então necessário um aperfeiçoamento, tendo
como resultado o PSQM+.
O PSQM trata a distorção representada pelo ganho de sinal dentro de uma célula
diferentemente da distorção representada pela perda de sinal dentro do quadro. Devido à
distorção aditiva do sinal ter maior impacto na percepção que distorções subtrativas,
PSQM aumenta a escala do distúrbio aditivo para resultar em scores maiores (score de
qualidade pior) e escala pra baixo o distúrbio subtrativo para resultar em scores menores
(scores com qualidade melhor). Para pequenas distorções devidas provavelmente a
codecs, PSQM provê excelente correlação com resultados de testes subjetivos. Para
grandes distorções devidas a interrupções temporais e perdas de pacotes nas quais todas
as células dentro de um frame experimentam grande perda de energia de sinal, PSQM
produz scores bem mais baixos em comparação com resultados de testes subjetivos.
Para levar em conta este problema na assimetria de processamento do PSQM, O
PSQM+ adiciona um segundo fator de escala que considera o fator de escala do PSQM
9
sob severas condições de distorção representadas por grande perda de energia numa
célula. Este novo fator é aplicado a cada quadro. Quando as potências dos sinais de
entrada e saída são praticamente idênticas este fator é próximo de 1, e assim PSQM+
produz quase o mesmo score que o PSQM. Quando uma grande distorção como
interrupções temporais ou perda de pacotes é introduzida, o algoritmo PSQM+ aplica
outro fator de escala que tem o efeito oposto, e aumenta o distúrbio de ruído. Isto resulta
em scores PSQM+ maiores, que se correlacionam mais eficientemente com resultados
subjetivos.
Dentro do algoritmo PSQM+, o segundo fator de escala é sempre aplicado. Porém
quando as distorções são pequenas, ele iguala a 1 e tem pequeno ou nenhum impacto.
Para as grandes distorções por energia adicionada, o segundo fator de escala leva a
scores menores e para perdas severas por falta de energia scores maiores são
produzidos. Em resumo, para pequenas distorções devidas a codecs, tanto PSQM como
PSQM+ produzem praticamente os mesmos scores, os quais se correlacionam bem com
testes subjetivos. Para perdas severas e distorções por interrupções temporais, PSQM+
irá produzir scores maiores, e para distorções por adição de energia, PSQM+ produzirá
scores menores, correlacionando-se melhor do que o PSQM.
Pode-se observar que PSQM e PSQM+ distinguem distorções dentro de células
daquelas dentro de todo o frame. Se as distorções são dependentes da célula, estas são
provavelmente devidas a codecs. Se a distorção afeta todas as células dentro de um
frame de maneira similar, é provavelmente causada por perda de pacotes ou
interrupções temporais.
3.3 PAMS - Perceptual Analysis Measurement System
PAMS foi desenvolvido pelo Grupo PSyTechnics dentro da British Telecomunications
em agosto de 1998, e oferece um modelo diferente do PSQM, mas com a mesma meta:
objetivamente predizer resultados subjetivos de testes de qualidade de voz para sistemas
nos quais distorções por codecs assim como interrupções temporais e perda de pacotes
são problemas em potencial.
PAMS utiliza um modelo baseado em fatores de percepção humana para medir a
qualidade de sinais de saída comparados com sinais de entrada. Apesar da similaridade
ao PSQM, o PAMS usa diferentes técnicas de processamento e diferentes modelos
perceptuais. A figura 4 ilustra o processo PAMS de maneira geral.
Figura 4 – Processo PAMS
Para realizar medidas PAM, uma amostra de fala humana gravada é inserida na entrada
de um sistema de rede. As características do sinal de entrada seguem aquelas que são
usadas para teste de MOS especificadas na recomendação P.830. Apesar de amostras de
voz naturais poderem ser utilizadas, PAMS é otimizado para amostras de fala artificiais
proprietárias.
10
A saída do sinal é gravada assim como for recebida. Os sinais de entrada e saída são
então introduzidos no modelo PAMS. PAMS executa time-alignment, level-alignment,
e equalização para remover os efeitos de atraso, ganho e perda de todo o sistema, e
filtragem análoga ao do telefone.
PAMS então compara os sinais de entrada e saída no domínio da freqüência,
comparando as células dentro de frames (mesma idéia do PSQM). Esta comparação é
baseada em fatores de percepção humana.
Os resultados das comparações PAMS são scores que variam de 0 a 5, e correlacionamse com a mesma escala dos testes MOS (Qualidade de audição e de Esforço de audição).
A modelagem perceptual dentro do PAMS assume que não existe atraso, grande
variação de atraso, sistemas de ganho e perda pelo sistema, nem características análogas
à filtragem do telefone. O algoritmo PAMS executa processamento único para remover
efeitos destas condições. Como resultado, PAMS foca na medição de qualidade de voz
baseada em efeitos de distorção de codificação, interrupções temporais, perda de
pacotes e jitter.
A figura 5 ilustra o modelo detalhado do processo do PAMS que será descrito nas
próximas seções.
Figura 5 – Processo PAMS Detalhado
Etapa 1 - Pré-processamento
PAMS pré-processa os sinais de entrada e saída executando as seguintes operações:
• Time Alignment – Sinais de entrada e saída são sincronizados no tempo em
segmentos temporais individuais, com a finalidade de remover os efeitos de atraso e
variação lenta de atraso. Variação de atraso rápida que é perceptível é preservada e
medida pelo PAMS.
• Level Alignment - Sinais de entrada e saída são sincronizados no tempo em
segmentos temporais individuais, com a finalidade de remover efeitos de ganho e perdas
do sistema.
• Equalização - Os espectros dos sinais de entrada e saída são equalizados para
remover os efeitos de filtragem da banda de telefone (300-3400 hz).
Etapa 2 – Auditory Transform
PAMS executa o processo de modelagem perceptual para transformar os sinais de
entrada e saída para o domínio da freqüência. PAMS usa um banco de filtros para filtrar
sinais audíveis e levá-los ao domínio da relevância perceptual subdividindo-os em 19
11
bandas. Isto formata as freqüências para refletir melhor a sensibilidade humana às
freqüências.
O resultado é uma representação no tempo e na freqüência de percepção de intensidade
sonora, conhecida como Sensação de Superfície, que é análogo ao espectro de
densidade de potência, mas baseado em como o ser humano perceberia o sinal em cada
célula. PAMS calcula Sensações de Superfície para ambos os sinais de entrada e saída.
Etapa 3 – Erro de Parametrização
PAMS determina as diferenças audíveis na Sensação de Superfície dos sinais de entrada
e saída, subtraindo a Sensação de Superfície do sinal de entrada da Sensação de
Superfície do sinal de saída. O resultado é outra representação de células conhecida
como Erro de Superfície. O Erro de Superfície representa erros audíveis, em células,
encontradas nos sinais de saída quando comparadas com sinais de entrada.
Erros que representam energia de sinal adicionado (por exemplo, ruído ou distorção
adicionada por codecs) têm valores positivos nas células de Erro de Superfície. Erros
que representam perda de energia de sinal (perda de pacotes, interrupções temporais)
têm valores negativos. A amplitude de cada célula no Erro de Superfície é relacionada
com o nível de percepção humana.
PAMS analisa os Erros de Superfície de várias maneiras. Ele calcula a média da
distorção positiva e a média da distorção negativa. Muitos parâmetros de erro são
calculados que indicam o montante de erros audíveis.
Etapa 4 – Regressão
Finalmente erros audíveis são avaliados e mapeados em scores preditivos baseados em
correlação com um grande banco de dados de resultados de testes subjetivos. Esta base
de dados indica como uma pessoa avaliaria um erro audível específico. Os parâmetros
de erro podem assim ser mapeados em scores preditivos e refletir resultados produzidos
por testes subjetivos executados por este mapeamento.
3.4 MNB - Measuring Normalizing Blocks
Em 1997, baseada no relatório de Stephen D. Voran do Instituto de Ciências para
Telecomunicações, o método MNB (Measuring Normalizing Blocks) foi publicado
como anexo proposto (Anexo II) à recomendação P.861.
A técnica MNB é recomendada para medição de impacto dos seguintes itens na
qualidade de fluxo de voz:
•
Erros de transmissão do canal
•
Codecs híbridos com taxas menores que 4kbps
•
Vocoders
Este método leva a uma inversão da ênfase tradicional, resultando em um modelo mais
simples para o ouvido e um modelo mais sofisticado para o julgamento. Após o estudo
de diversos parâmetros, como as funções de transferência dos ouvidos externo e médio,
limiares absolutos de audibilidade, curvas de sonoridade e efeitos de mascaramento, os
autores da proposta chegaram à conclusão de que estes não eram significativos para o
sucesso da estimativa da qualidade percebida para a faixa de telefonia. Por esse motivo,
o modelo do ouvido adotado contém apenas um mapeamento da escala em Hertz para
12
outra escala (escala em Bark) e uma transformação logarítmica da potência para
aproximar a sonoridade percebida.
Existem dois tipos de MNBs: Time Measuring Normalizing Blocks e Frequency
Measuring Normalizing Blocks. O algoritmo cria um valor não negativo chamado
Auditory Distance (AD), qual é a medida da distância perceptual entre sinais de entrada
(referência) e saída (teste) para predizer a qualidade subjetiva. A figura 6 ilustra o
processo MNB.
Figura 6 – Estrutura Geral do processo MNB [6]
Abaixo seguem as etapas do processo MNB detalhado:
Etapa 1 – Transformação Perceptual
Os sinais de entrada e saída sincronizados no tempo são introduzidos no modelo, e
nivelados através da remoção da componente DC de cada sinal. Ambos os sinais são
mapeados no domínio da freqüência e os frames de “silêncio” são detectados e
removidos. A escala de potência é transformada (os frames são transformados
logaritmicamente) numa escala de percepção de sonoridade.
Etapa 2 – Cálculo do Frequency Measuring Normalizing Blocks (FMNB)
Os sinais de entrada e saída perceptualmente transformados são processos de entrada do
FMNB. Os processos de saída de um FMNB são uma seleção de medidas diferenças
integrada e um sinal de saída normalizado, descrito abaixo:
• Os sinais de entrada e saída perceptualmente transformados estão no domínio
tempo-freqüência, ou seja, ambos são funções de tempo e freqüência. Estas funções dos
sinais de entrada e saída são matematicamente integradas sobre a escala de tempo do
sinal de entrada.
• O sinal de entrada integrado é subtraído do sinal de saída integrado. O resultado
é uma função da freqüência (de um valor específico do tempo) que representa a
diferença entre os sinais.
• A diferença medida acima é subtraída do sinal de saída (em diferentes
freqüências), produzindo um sinal de saída normalizado.
• As parcelas positivas e negativas da medida das diferenças são matematicamente
integradas sobre quatro bandas de freqüências da escala de Bark que contemplam a
banda de telefonia. Os resultados são quatro medidas FMNB.
13
Etapa 3 – Cálculo do Time Measuring Normalizing Blocks (TMNB)
O sinal de entrada perceptualmente transformado e os de saída normalizados são
processos de entrada do TMNB. A saída do processo do TMNB é uma seleção de
medidas diferenças integradas, e o sinal de saída normalizado. TMNBs são computados
através das diferentes faixas de freqüência, em iterações progressivas. Isto é descrito
como segue:
• Os sinais de entrada e saída perceptualmente transformados estão no domínio
tempo-freqüência, ou seja, ambos são funções de tempo e freqüência. Estas funções dos
sinais de entrada e saída são matematicamente integradas sobre uma escala de
freqüência do sinal de entrada.
• O sinal de entrada integrado é subtraído do sinal de saída integrado. O resultado
é uma função do tempo (de um valor específico de freqüência) que representa a
diferença entre os sinais.
• A diferença medida é subtraída de um sinal de saída (em diferentes tempos),
produzindo um sinal de saída normalizado.
• As parcelas positivas e negativas da medida das diferenças são matematicamente
integradas no tempo.
Etapa 4 – Geração do valor Auditory Distance
Medidas linearmente independentes de TMNB e FMNB são combinadas, com fatores
de ponderação, para gerar valores AD.
Etapa 5 – Mapeamento de valores Auditory Distance
Uma função lógica mapeia valores AD numa faixa finita para prover correlação com
valores de MOS.
O desempenho do método MNB mostrou-se ligeiramente superior ao PSQM nos casos
em que houve presença de erros nos arquivos de voz. Já nos casos em que havia ruído
de ambiente, o PSQM mostrou o melhor desempenho. Mais importante, notou se que o
método MNB mostrou excelentes resultados quando os arquivos de voz estavam
gravados em inglês norte-americano. Porém, o método PSQM mostrou melhor
consistência no caso de outros idiomas. Portanto, apesar de ambos os métodos, na
média, apresentarem resultados parecidos, pode-se afirmar que o método MNB tem
aplicação mais restrita que o método PSQM.
3.5 PESQ - Perceptual Evaluation of Speech Quality
Um esboço colaborativo foi submetido a ITU em 2000 por John G. Beerends, Andries
P. Hekstra do KPN Research, e por Anthony W. Rix e Mike Hollier da British
Telecomunications e padronizado como recomendação P.862 [7]. Como PSQM e
PAMS, o PESQ é ainda direcionado para sinais de banda estreita. É aplicável a sistemas
com codecs (incluindo vocoders a baixas taxas), atraso variável, filtragem, perda de
pacotes ou células e interrupções temporais. Os scores PESQ predizem scores de
qualidade para testes de audição ACR.
14
O PESQ reúne as melhores características do PAMS e PSQM, combinando a técnica
robusta de time-alignment do PAMS com o eficiente modelo perceptual do PSQM, e
adiciona novos métodos incluindo equalização de função transferência e novo método
para cálculo da média da distorção sobre o tempo.
O PESQ apresenta precisão aceitável em seus resultados, quando a clareza da voz é
afetada pelos seguintes processos ou parâmetros [9]:
• Codecs de forma de onda (por exemplo, G.711, G.726 e G.727);
• Codecs híbridos (a partir de 4kbps) incluindo aqueles de múltiplas taxas de
transmissão (exemplos: G.728, G.729 e G.723.1);
• Transcodificações (conversão de um formato digital para outro);
• Erros no canal de transmissão;
• Efeitos da variação do atraso em testes apenas de escuta;
• Perda de pacotes/células;
• Ruído ambiente no lado transmissor;
• Taxa de transmissão nos casos de codecs com mais de um modo de operação;
• Deformações temporais do sinal de áudio.
A figura 7 apresenta o processo PESQ detalhado.
Figura 7 – Processo PESQ Detalhado
As características do sinal de entrada para o PESQ estão de acordo com aquelas para
PAMS e PSQM. Amostras de sinais naturais podem ser usadas e devem seguir a
recomendação P.830, amostras artificiais podem ser utilizadas, porém devem
representar estruturas temporais e fonéticas da fala natural.
Nas seções subseqüentes serão descritas as etapas do processo PESQ.
Etapa 1 – Pré-Processamento do Sinal
Antes da análise do modelo perceptual, as seguintes operações são executadas:
Level-Alignment – Os sinais de entrada e saída são nivelados para levar em
consideração os ganhos e perdas do sistema. Primeiramente os sinais são filtrados, então
são calculados seus valores de potencia média, e finalmente ganhos são aplicados para
alinhar ambos os sinais.
Time-Alignment – Os sinais de saída são deslocados no tempo para alinhamento com o
sinal de entrada. Isto é executado em segmentos temporais individuais. Atraso durante a
fala e o silêncio é levado em conta através do time-alignment.
15
Etapa 2 – Modelagem Perceptual
A modelagem perceptual transforma os sinais de entrada e saída em representações
perceptíveis ao ser humano. Essa modelagem inclui mapeamento tempo-frequência
(similar ao PSQM), alteração da freqüência (usando a escala modificada), e
escalonamento de percepção de volume.
A filtragem é aplicada para adequar os sinais às características da banda telefônica.
Sendo assim as características do telefone não impactam as medidas PESQ.
O mapeamento tempo-frequência, como no PSQM, usa uma FFT com tamanho de
janela de 32ms, ou 256 amostras para taxas de amostragem de 8Kbps, para segmentar
os sinais de entrada e saída em células individuais.
A transformação de freqüência, usada para refletir a sensibilidade humana às
freqüências, é uma transformação para uma escala de freqüência modificada, chamada
de escala Bark.
A transformação de intensidade é uma transformação do espectro de freqüência para
uma escala de Sone de percepção de volume.
O processo de modelagem perceptual produz representações dos sinais de entrada e
saída que levam em consideração as sensibilidades perceptivas do ser humano.
Etapa 3 – Modelagem Cognitiva
O processo de modelagem cognitiva é executado para calcular dois tipos de valores de
distúrbios de ruído médio. Estes dois valores são combinados no final para produzir um
score MOS.
• Diferença entre as células de entrada e saída – para cada célula (mesmo conceito
PSQM), uma diferença entre o sinal de saída e entrada é calculado. Uma diferença
positiva indica que componentes, tais como ruído, foram adicionados. Uma diferença
negativa indica omissão de componentes, por exemplo, devido à distorção de
codificação ou perda de sinal.
• Mascaramento de Pequenas Distorções – um limiar é aplicado aos níveis de
distorção dentro de cada célula e uma escala correspondente ao distúrbio zero é
realizada para mascarar os impactos de pequenas distorções que não são percebidas na
presença de sinais altos.
• Processamento Assimétrico – processamento assimétrico é realizado da mesma
maneira do método PSQM, calculando o distúrbio assimétrico usando um fator de
escala para aplicar diferentes pesos a distúrbios positivos e negativos. Distúrbio
assimétrico é tal que apenas células com distúrbios positivos continuam. O segundo
fator de escala que é parte do PSQM+ não é executado no PESQ. Os resultados são
valores para distúrbios assimétricos, os quais são apenas para distúrbios positivos e
distúrbios normais que incluem distúrbios positivos e negativos.
• Distúrbios em Frames – distúrbios normais (não-assimétricos) e assimétricos são
calculados e agregados em bandas de freqüências, resultando em distúrbios em frames.
• Detecção de Variação no Atraso – desde o início do processo de time-alignment,
o PESQ pode detectar variações no atraso e identifica quais frames estão envolvidos.
Pequenos distúrbios em frames devidos a variação no atraso são cancelados para evitar
falsos scores baixos.
16
• Reavaliação no Time-Alignment – outra reavaliação do time-alignment é
executada para consecutivos distúrbios em frames a partir de um limiar. Se o
alinhamento no tempo for determinado como ineficiente como resultado de grandes
distúrbios de frames, o time-alignment é repetido e os distúrbios do frame são
recalculados.
• Agregação dos Valores dos Distúrbios e Predição do MOS – valores de distúrbio
em frames e valores de distúrbio assimétrico são agregados sobre o tempo em níveis
progressivos. Um score MOS é calculado como uma combinação linear do valor do
distúrbio médio e o valor do distúrbio assimétrico médio. Como resultado deste cálculo
um valor de MOS na faixa de 0,5 a 4,5 é obtido.
Vários testes de validação têm sido realizados para determinar quão eficaz diferentes
medidas objetivas de qualidade de fluxo de voz (PAMS, PSQM, PESQ, MNB)
correlacionam-se com testes subjetivos (MOS). Cada medida objetiva é avaliada e tem
seus resultados de medidas comparados com testes de resultados subjetivos. Estes testes
produzem coeficientes de correlação que resultam numa ferramenta conveniente para
comparação entre as diferentes metodologias de avaliação. Os resultados da Tabela
3.5.1 mostram que o PESQ tem maior exatidão tendo maior correlação com os testes
subjetivos [10].
Tabela 3.5.1 – Comparação das metodologias objetivas
É importante notar que os resultados de cada metodologia objetiva variam de acordo
com os diferentes tipos de rede, imperfeições do canal, etc.
3.6 E-Model
O E-Model foi originalmente proposto pelo ETSI (European Telecomunications
Standards Institute) e posteriormente padronizado pelo ITU-T (International
Telecomunications Union-Telecommunications Standard Sector), através da
Recomendação G.107.
O E-model é uma ferramenta de planejamento de transmissão que fornece a predição da
expectativa da qualidade de voz, percebida por um usuário típico de telefonia para uma
conexão completa de telefone fim a fim sobre condições de conversação. O E-Model
considera a grande variação de imperfeições da banda telefônica, em particular
imperfeições devidas a baixas taxas de codecs, atrasos, perdas, distorções e ecos.
Também pode ser aplicado para avaliar a qualidade de voz em cenários de redes
cabeadas ou sem fio, em tecnologias baseadas em circuitos comutados ou comutação
por pacotes [11].
O E-Model implementa um mecanismo baseado na soma de termos que representam
distorções na qualidade da voz, tais como atrasos de transmissão, eco, distorções
17
introduzidas pelos equipamentos utilizados, entre outros fatores. O resultado do modelo
é o fator escalar R, que varia de 0 (péssimo) a 100 (excelente), e que pode ser
convertido para a escala de pontuação MOS através da seguinte expressão:
Para R < 0 ∴ MOS = 1
Para 0 < R < 100 ∴ MOS = 1+ 0,035 R + 7.10 −6 R (R-60) (100-R)
Para R > 100 ∴ MOS = 4,5
Normalmente, o fator R é descrito em categorias de valores, tal como pode ser
consultado na Tabela 3.6.1 [12].
Tabela 3.6.1 – Valor de MOS estimado a partir do E-Model
Sistemas cuja qualidade da fala seja avaliada em R ≤ 60 não são recomendáveis, sendo
desejável obter R ≥ 70.
O fator R é obtido pela seguinte fórmula:
R = Ro – Is – Id – Ie + A, onde:
Ro - representa os efeitos da relação sinal-ruído (SNR);
Is - representa as perdas simultâneas ao sinal de voz;
Id - representa as perdas associadas ao atraso fim a fim;
Ie - representa as perdas associadas ao equipamento utilizado;
A - corresponde ao fator de vantagem, ou fator de expectativa.
A Recomendação ITU-T G.107 apresenta as expressões matemáticas e os valores
padrão para cada um dos tipos de ruído que afetam a SNR, resultando num valor padrão
de Ro igual a 94,77.
Entre as perdas que ocorrem mais ou menos simultaneamente ao sinal de voz, estão a
queda na qualidade devida a uma conexão de volume demasiadamente alto, as perdas
causadas pela interferência da própria voz do locutor sobre o fone de ouvido do mesmo
headset que utiliza para falar e a distorção de quantização causada pela digitalização do
sinal de voz. A Recomendação ITU-T G.107 também apresenta as expressões e os
valores padrão para as perdas que contribuem na obtenção do fator Is, resultando num
valor padrão de 1,41.
O fator Id é determinado pela seguinte expressão:
Id = Idte + Idle + Idd, onde:
18
Idte representa as perdas devidas ao eco no lado transmissor; Idle representa as perdas
devidas ao eco no lado receptor; e Idd representa as perdas relacionadas ao atraso
superior a 100 ms.
O fator de perda Ie é um meio flexível de se computar a degradação da qualidade
causada pelos codecs de alta complexidade e com baixa taxa de transmissão de bits. Seu
valor para cada codec depende dos resultados de exaustivos testes de pontuação MOS
sob diversas taxas de perdas de pacotes.
O Apêndice I da Recomendação ITU-T G.113[13] fornece valores provisórios do Ie
para alguns codecs sob condições de perdas aleatórias de pacotes e de perdas em rajada,
conforme a tabela 3.6.2.
Tabela 3.6.2 – Valores provisórios do parâmetro Ie de alguns Codecs [13]
O fator de vantagem A é empregado para definir o grau de tolerância que um usuário
espera pela conveniência de utilização de uma determinada tecnologia. Segundo os
valores provisórios apresentados na Recomendação ITU-T G.107, este fator varia de 0
(telefonia fixa) a 20 (localidades de difícil acesso que necessitam de enlace de satélite,
por exemplo).
Para a telefonia celular é recomendado o uso de A igual a 5 para redes “indoor” ou igual
a 10 para redes geográficas. Para VoIP, a ITU-T G.107 recomenda este valor como 0.
As principais vantagens do E-Model, em relação aos métodos perceptuais citados nas
seções anteriores, são a capacidade de medição em tempo real, já que não há
necessidade de comparação entre os sinais de referência e degradado, e a contabilização
em separado de cada um dos fatores responsáveis pela degradação da qualidade da voz,
como perdas, atraso fim a fim, distorções inerentes a codificadores de alta compressão,
entre outros. Estas funcionalidades permitem a avaliação da origem e do grau de
influência de cada um destes fatores separadamente, tornando o diagnóstico de
problemas de transmissão mais precisos.
19
4. Conclusão
Concluímos que os testes de avaliação subjetiva da qualidade de fluxo de voz
representam fielmente a sensibilidade do usuário quanto à qualidade, porém estes
apresentam baixa escalabilidade e custo elevado, nos obrigando a procurar métodos
alternativos que nos auxiliem nesta avaliação.
Os métodos subjetivos vão de encontro com esta necessidade, seja utilizando métodos
perceptuais, que se baseiam nas características fisiológicas do ser humano, ou através do
E-Model.
Através de vários testes realizados foi verificado que entre os métodos de avaliação
objetiva de qualidade de fluxo de voz baseados em modelos perceptuais, o PESQ
apresenta maior índice de correlação, com os resultados de testes subjetivos, sendo o
mais indicado, porém sua eficácia está também relacionada com a rede em avaliação.
O E-model também apresenta grande aceitação devida a seu bom desempenho e
apresenta maior eficiência em resolução de problemas por contabilizar em separado
cada um dos fatores responsáveis pela degradação da qualidade da voz, como perdas,
atraso fim a fim, distorções por codificadores, entre outros.
20
5. Bibliografia
[1] ITU-T Recommendation P.800, Methods for subjective determination of
transmission quality. Genève, Agosto 1996.
[2] ITU–T Recommendation P.830, Subjective performance
telephoneband and wideband digital codecs. Genève, Fevereiro 1996.
assessment
of
[3] ITU-T Recommendation G.107, The E-Model, a computational model for use in
transmission planning. Genève, Março 2003.
[4] Marcelo Nascimento dos Santos, Medidas de Qualidade de Voz Em Redes IP,
Dissertação de Mestrado, Universidade Federal do Paraná UFPR, Curitiba 2006.
[5] ITU-T Recommendation P.861, Objective quality measurement of telephone-band
speech codecs. Genève 1996.
[6] John Anderson, Methods for Measuring Perceptual Speech
http://cp.literature.agilent.com/litweb/pdf/5988-2352EN.pdf, October, 2001.
Quality,
[7] Jayme Garcia Arnal Barbedo, Avaliação Objetiva de Qualidade de Codecs de Voz
na Faixa de Telefonia. Dissertação de Mestrado, Unicamp, Campinas, 2001.
[8] ITU-T Recommendation P.862, Perceptual evaluation of speech quality (PESQ): An
objective method for end-to-end speech quality assessment of narrow-band telephone
networks and speech codecs. Genève, 2001.
[9] Arthur Callado, Gabriel Fernandes, Auristela Silva, Rodrigo Barbosa, Djamel Sadok
e Judith Kelner, Construção de Redes de Voz sobre IP, Minicurso VoIP - SBRC – Pará,
2007.
[10] Júlio César Magro, Estudo da Qualidade de Voz em Redes IP. Dissertação de
Mestrado, Unicamp, Campinas, Julho de 2005.
[11]
E-Model
Tutorial,
T/studygroups/com12/emodelv1/introduction.htm
http://www.itu.int/ITU-
[12] Leandro Caetano Gonçalves Lustosa, Arquitetura de Monitoração de Qualidade de
Chamadas Telefônicas IP - Dissertação de Mestrado, Universidade Federal do Rio de
Janeiro – UFRJ, Rio de Janeiro, 2005.
[13] ITU-T Appendix I to Recommendation G.113 (01/07), Provisional planning values
for the equipment impairment factor Ie and packet-loss robustness factor Bpl.
21
Download

Metodologias de Avaliação de Qualidade de Fluxos de Voz