Metodologias de Avaliação de Qualidade de Fluxos de Voz Leandro Andrada Roda Marinho Escola de Engenharia – Universidade Federal Fluminense (UFF) Rua Passo da Pátria, 156 – Niterói – RJ – Brasil [email protected] Resumo. Este trabalho tem como objetivo descrever os principais métodos de avaliação de qualidade de fluxos de voz. Serão apresentados modelos subjetivos onde a partir da avaliação da percepção de qualidade por pessoas obtem-se um resultado, e modelos objetivos que a partir de cálculos computacionais tentam estimar a sensibilidade de percepção do ser humano utilizando diversos fatores como, por exemplo, o conhecimento da fisiologia do ser humano. 1. Introdução O avanço das técnicas de processamento digital de sinais proporcionou um crescente interesse em métodos e dispositivos de codificação de voz mais eficientes. A avaliação da qualidade de codecs de voz é necessária para o desenvolvimento destes dispositivos e também para o projeto de redes digitais de telecomunicações. A análise da qualidade da voz recebida envolve fatores que são difíceis de serem ponderados em medidas objetivas, como, por exemplo, o incômodo que uma determinada distorção ou ruído causam, e a inteligibilidade de um sinal. Adicionalmente, o conceito de qualidade varia de acordo com a aplicação pretendida e com o público alvo, que pode ser mais ou menos exigente, dependendo de suas características culturais. Portanto, as medidas subjetivas ainda são utilizadas, especialmente em casos em que há a necessidade de resultados realmente confiáveis. Porém, seu custo, complexidade e tempo demandado motivam fortemente a busca de métodos eficazes para a realização de medidas objetivas que estimem a qualidade subjetiva de maneira eficiente. Este trabalho descreve os modelos de avaliação subjetiva para qualidade de voz e alguns modelos objetivos, abordando os modelos que se baseiam nas características perceptivas do ser humano e o E-Model. O restante do texto está organizado da seguinte forma. A seção 2 apresenta a descrição do modelo subjetivo de avaliação de qualidade de voz, descrevendo os diversos tipos de testes e apresenta a principal escala utilizada (escala MOS) pelo ITU-T de acordo com as recomendações P.800[1] e P.830[2]. A seção 3 apresenta as principais metodologias objetivas de avaliação de qualidade de fluxo de voz (os modelos baseados nas características perceptuais e o E-Model [3]), e como estas se relacionam com a escala subjetiva. Por fim, a seção 4 realiza as considerações finais do trabalho com as conclusões obtidas. 1 2. Avaliação Subjetiva de Qualidade de Fluxo de Voz Diversos fatores devem ser avaliados num teste subjetivo de qualidade de fluxo de voz. O grau de importância a ser dado a cada um deles será determinado pelo tipo de aplicação desejada. Dentre os fatores mais importantes, destacam-se: a variação do nível de entrada do sinal a ser codificado; a ocorrência de erros no canal de operação do codec; a possível ocorrência de múltiplas transcodificações; a diversidade de locutores; a presença de ruído ambiente em níveis variáveis; e o atraso introduzido pela codificação. Finalmente, deve-se selecionar com cautela o material-fonte e principalmente os avaliadores tanto em termos qualitativos quanto quantitativos a serem utilizados nos testes. 2.1 Tipos de Teste Os testes subjetivos podem ser divididos em três grupos: os de entrevista, os conversacionais e os de audição [1]. Os testes de entrevista são realizados através de uma série de questões feitas diretamente aos usuários do sistema sob avaliação. Para se ter um bom grau de precisão é necessário um grande número de entrevistas, tornando o método dispendioso. Os testes conversacionais são testes bidirecionais que envolvem duas pessoas que tenham sido especificamente treinadas, uma falando e a outra ouvindo de acordo com determinada metodologia. Os testes subjetivos mais importantes são os testes de audição, os quais são unidirecionais e visam medir a capacidade de um sistema de transmitir adequadamente uma informação. Baseiam-se na avaliação de sua qualidade (de acordo com uma escala apropriadamente escolhida), a partir da audição de sentenças simples, processadas pelo sistema sob avaliação e por sistemas (condições) de referência. Neste tipo de teste, os locutores não devem ser treinados, recebendo apenas instruções quanto à escala de avaliação a ser utilizada. Existem diversos tipos de testes de audição, sendo que os três mais utilizados são descritos a seguir. 2.1.1 Testes de qualidade absoluta (Absolute Category Rating – ACR) Os testes de qualidade absoluta (ACR) baseiam-se na avaliação absoluta da qualidade do material processado, sem que o avaliador disponha de material para comparação. Utiliza três escalas de opinião: - Qualidade de audição (Listening-Quality): nesta escala, um sistema de pontuação define a qualidade de pequenos grupos de sentenças descorrelacionadas, cada uma submetida ao processo sob teste. A tabela 2.1 mostra a graduação utilizada nesta escala. Tabela 2.1 – Escala Listening-Quality 2 - Esforço de audição (Listening-Effort): esta é uma escala muito importante, principalmente nos casos em que há altos níveis de degradação. Neste tipo de situação, há um maior interesse na inteligibilidade do sinal do que na qualidade, o que é aceitável em diversas aplicações, como no caso de comunicações militares. A Tabela 2.2 mostra a graduação utilizada nesta escala. Tabela 2.2 – Escala Listening-Effort - Preferência de sonoridade (Loudness-Preference): define o grau de sonoridade (volume) percebido pelos ouvintes. Sua graduação é mostrada na Tabela 2.3: Tabela 2.3 – Escala Loudness-Preference 2.1.2 Testes de Degradação (Degradation Category Rating – DCR) O teste de degradação (DCR) avalia a degradação do material processado em relação ao material original, o que o torna mais sensível à distinção de qualidade, em contraste com os testes tipo ACR. A escala segue na Tabela 2.4. Tabela 2.4 – Escala de Degradação 3 2.1.3 Testes de Comparação (Comparison Category Rating – CCR) O teste de comparação (CCR) se distingue do teste tipo DCR apenas pela ordem em que as amostras são apresentadas aos ouvintes. Neste método, a ordem das amostras é escolhida aleatoriamente. Portanto, neste tipo de teste, os ouvintes têm de responder a duas perguntas: qual dos sinais é melhor e quanto ele é melhor, segundo a escala da tabela 2.5. Tabela 2.5 – Tabela para comparação entre elementos de um par A vantagem do método CCR em relação ao DCR está na possibilidade de se poder avaliar não apenas processamentos de voz em que a qualidade é degradada, como também os casos em que a qualidade é melhorada. A deficiência deste tipo de teste, assim como no DCR, é que apenas desempenhos relativos podem ser obtidos. O método mais utilizado, para a maioria das aplicações, tem sido o Absolute Category Rating (ACR), usando a escala qualidade de audição. Este método está bem estabelecido e tem sido aplicado a conexões telefônicas digitais e analógicas de dispositivos de telecomunicações. Vários laboratórios em diferentes países realizaram testes subjetivos utilizando este método, nas mesmas condições e com sistemas de transmissão idênticos, conseguindo resultados com alto grau de consistência. A média aritmética dos pontos atribuídos é denominada de Mean Opinion Score (MOS). As escalas de degradação e de comparação entre elementos de um par, usando, os métodos de classificação DCR e CCR, também têm sido largamente utilizadas, e sua média aritmética é denominada “Comparative Mean Opinion Score” (CMOS). Podemos observar que existem várias escalas para avaliação da voz, entretanto a escala apresentada na tabela 2.6 é a mais utilizada pela ITU-T. Tabela 2.6 – Escala mais Utilizada pela ITU para Avaliação Subjetiva de Qualidade de Voz Pode-se observar que a escala varia de 1 a 5, sendo quanto maior o valor obtido maior a qualidade atribuída à avaliação. 4 A tabela 2.7 apresenta, para os principais codificadores de voz, a relação com valores médios de MOS: Tabela 2.7 – Valores MOS dos Codecs [4] De acordo com a tabela 2.7 vemos que os codecs waveforms (baseados na forma de onda) possuem valores de MOS acima de 4.0 indicando qualidade muito boa, porém para isso necessitam de alta taxa de transmissão conseqüentemente exigindo bandas maiores, enquanto que os codecs híbridos (baseados na forma de onda e na modelagem da fonte) apresentam valores de MOS entre 3,7 e 4.0, indicando boa qualidade, tendo em vista que quanto menor a taxa de transmissão destes codecs menor será a qualidade percebida. 3. Avaliação Objetiva de Qualidade de Fluxo de Voz Os métodos objetivos utilizam recursos computacionais para inferir a qualidade da voz submetida a um sistema de transmissão e/ou a um codificador de áudio. Dentre os métodos objetivos, tem-se o E-Model [3] e os métodos conhecidos como métodos perceptuais os quais fazem uso do conhecimento do sistema auditivo humano para comparar um sinal de referência (trecho de voz previamente gravado) com um sinal degradado (sinal de referência submetido ao sistema de transmissão a ser avaliado). Estes métodos visam compor uma medida de distorção do sinal de voz, com destaque para o PSQM (Perceptual Speech Quality Measure) [5], o PSQM+ [6], o PAMS (Perceptual Analysis Measurement System) [6], o MNB (Measuring Normalizing Blocks) [7] e o PESQ (Perceptual Evaluation of Speech Quality) [8]. 3.1 PSQM - Perceptual Speech Quality Measure O método PSQM (Perceptual Speech Quality Measure) foi desenvolvido por John G. Beerends e J.A. Stemerdinks do KPI Researches, em reposta a necessidade de haver um método objetivo que avaliasse a qualidade de fluxos de voz. Publicado pelo ITU como Recomendação P.861 [5] em 1996, tem grande aceitação como uma medida consistente e eficaz baseada em fatores de percepção humana. O PSQM é um processo matemático que provê a medição da qualidade subjetiva da fala. O objetivo é produzir scores confiáveis que predizem valores de testes subjetivos (MOS). No entanto os scores PSQM têm uma escala diferente e refletem a medida de distância perceptual, isto é, os scores PSQM refletem quantitativamente a divergência 5 de um sinal original de um sinal distorcido, uma vez que este foi presumidamente processado por algum sistema de telefonia. Para executar uma medida PSQM, uma amostra de fala humana gravada é inserida num sistema e processada por qualquer codec usado. O sinal de saída é gravado e então sincronizado no tempo com o sinal de entrada original. Estes serão então comparados pelo algoritmo PSQM. O score PSQM resultante varia de 0 a infinito, quanto maior o valor do score, maior será o nível de distorção. A partir daí o score PSQM será transformado para a escala subjetiva representado pelos scores MOS. A figura 1 ilustra o processo descrito. Figura 1 – Visão Geral do Processo PSQM O algoritmo PSQM assume que o sinal de entrada, sistemas de transmissão e de processamento exibem as seguintes características: . Sinais de entrada e saída devem estar sincronizados no tempo antes da análise PSQM. . Os sinais de entrada devem ser livres de ruído de fundo. . Não existem degradações no canal como erro de bits, perda de pacotes e interrupções temporais. PSQM eficientemente prediz resultados subjetivos quando os cenários avaliados apresentam as seguintes características ou parâmetros: . Codecs baseados na forma de onda (por exemplo, G.711, G.726). . Codecs baseados em CELP com taxas maiores que 4kbps (por exemplo, G.729a, G.723.1 com taxas de 5.3 e 6.3 Kbps, G.728). . Múltiplas taxas de bits de um codec. . Transcodificações (conversões de um formato digital para outro). . Dependências de locutores (ex. linguagens, frases). Uma visão detalhada do método PSQM será dada nas próximas subseções conforme a figura 2. Figura 2 - Visão detalhada do método PSQM 6 Etapa 1 - Pré-processamento / Inicialização dos Sinais Antes dos processos de modelagem perceptual e cognitiva, a inicialização global é executada. Os arquivos de voz utilizados no cálculo de qualquer medida objetiva devem, a priori, ser discretizados (com 16 bits por amostra), já que todos os processamentos subseqüentes serão realizados no domínio digital. Para a faixa de telefonia, as freqüências de amostragem mais utilizadas são as de 8 kHz e 16 kHz. Antes que se possa realizar o cálculo da medida objetiva PSQM, é necessário realizar as seguintes operações de inicialização, especificadas na recomendação P.861 do ITU: Alinhamento temporal - processamento PSQM só pode ser aplicado a sinais alinhados temporalmente. Se o atraso teórico introduzido pelo sistema sob teste é conhecido, este é adotado para o alinhamento. Se esse atraso não é conhecido, é necessário estimá-lo. • • Escalonamento global - para a compensação do ganho do sistema visa-se ajustar a energia do sinal decodificado, de modo a igualá-la à do sinal original. É realizado multiplicando-se o sinal decodificado por um fator, definido pela relação entre as energias médias dos dois sinais. Calibração global (ajuste de audibilidade) – um fator de calibração entre um nível de audição assumido e o nível de percepção sonora é calculado. Este fator ajuda a determinar a percepção sonora dos sinais de saída baseados em níveis de audição assumidos (por exemplo, o nível de áudio que o ouvido receberia de um sinal de fala pelo telefone) e os limiares de audição humana em diferentes freqüências. Este fator é usado para calcular densidades de percepção sonora. • Etapa 2 – Modelagem Perceptual O próximo passo de pré-processamento, é a transformação do domínio físico para o domínio psicofísico, ou seja, o algoritmo PSQM faz a representação matemática do sinal físico atual e o converte em uma representação matemática que leva em conta as realidades fisiológicas da percepção humana. Isto é realizado em três operações: • Mapeamento tempo-freqüência: uma Transformada Rápida de Fourier (FFT) é executada nos sinais de entrada e saída, que estão no domínio do tempo (potência versus tempo) para convertê-los ao domínio da freqüência. Isto é realizado em frames de 32ms resultando em componentes tempo-freqüência chamados células, ilustradas na figura 3 [9]. Os quadros resultantes são compostos por 256 amostras no caso de amostragem a 8k amostras/s e por 512 amostras para 16k amostras/s. • Transformação em freqüência e filtragem: A tradicional escala de freqüência, Hertz, é alterada para levar em consideração a sensibilidade humana às diferentes freqüências. A escala é alterada para bandas críticas específicas, sendo a nova escala não mais estritamente linear. Os sinais de entrada e saída também são filtrados de acordo com as características de recepção do aparelho telefônico. • Alteração da intensidade – a escala de intensidade, que é baseada na densidade de potência, é alterada para uma escala de sonoridade subjetiva para representar a sensibilidade humana à percepção sonora. Isto é preciso, pois a percepção da distorção humana depende do sinal de áudio no qual o ruído está presente (ruídos em sinais altos são menos perceptíveis que ruídos em sinais baixos). PSQM calcula alguns parâmetros, para um quadro inteiro, e compara estes valores com os obtidos para cada célula individual, aplicando o escalonamento local onde necessário. Isto permite ao PSQM 7 distinguir a distorção provocada por codecs (que agem sobre células individuais) de atenuação ou ganho do sinal que agem sobre todo o quadro. A saída do processo de Modelagem Perceptual é freqüentemente referida como uma representação interna de sinais de entrada e saída. Este processo produz uma representação matemática de sinais acústicos que levam em consideração a fisiologia humana e suas sensitividades auditivas. Figura 3- Célula Etapa 3 – Modelagem Cognitiva A modelagem cognitiva é aonde os sinais de entrada e saída são diretamente comparados e o score PSQM é produzido. A modelagem cognitiva avalia os erros audíveis nos sinais de saída computando essencialmente o distúrbio de ruído para cada célula individualmente. O distúrbio médio de ruído é diretamente relacionado com a qualidade do codec. A modelagem cognitiva é realizada por quatro operações: • Escalonamento de Percepção Sonora - Dentro de cada quadro, a densidade de percepção sonora do sinal de saída é escalonada relativamente ao sinal de entrada. • Ruído Cognitivo Interno – o distúrbio de ruído é calculado como a diferença em densidade de percepção sonora entre os sinais de entrada e saída, como seriam percebidos por um ouvinte. • Processamento Assimétrico – a percepção humana de clareza de fala é assimétrica. Quando uma célula não é codificada (perda de sinal no sinal de entrada), afeta a qualidade subjetiva menos que em casos quando uma componente de frequênciatempo não relacionada é introduzida (adição de distorção). Ou seja, uma pequena distorção aditiva no codec é mais notada por um ouvinte que uma pequena perda de sinal devida a uma distorção de codec. PSQM trata esse efeito de assimetria escalonando o distúrbio de ruído para cada célula diferentemente. Se o distúrbio é causado por energia adicional na célula, PSQM escalona o distúrbio de ruído com um fator maior que 1, resultando em um score PSQM maior. Se um distúrbio é causado por falta de energia numa célula, PSQM escalona o distúrbio de ruído com um fator menor que 1, resultando num score PSQM menor. Como resultado deste processo de assimetria, os scores PSQM correlacionam-se melhor com resultados subjetivos com adição de energia em relação à falta de energia de codecs. • Processamento do Intervalo de Silêncio – Para melhor adequar a percepção humana, diferenças entre sinais de entrada e saída durante intervalos de silêncio devem ter menos impacto nos scores PSQM. PSQM computa a média de ruído de percepção 8 sonora para quadros de silêncio e para quadros de conversação separadamente, aplicando diferentes fatores de pesos para cada. A saída do processo de Modelagem Cognitiva é um valor objetivo chamado de PSQM score que varia de 0 (perfeito) a infinito, sendo valores acima de 15 considerados extremamente ruins. Não existe uma formula única que correlacione os scores PSQM com os valores MOS, uma vez que os scores são dependentes dos esquemas de implementação e também do sinal de teste. A título de exemplo, de acordo com a implementação denominada de implementação de Sage, o valor PSQM pode ser convertido para a escala MOS de acordo com a equação a 1 [4]: Equação 1 – Conversão de scores PSQM em valores de MOS na [9] Abaixo são destacados alguns pontos importantes: • Diferenças entre sinais de entrada e saída, se inaudíveis, não resultarão em grandes scores PSQM (baixa qualidade). • Se os sinais de entrada e saída são idênticos, o score PSQM será próximo de 0 (qualidade perfeita em relação ao sinal de entrada), sendo assim, se um sinal ruidoso é reproduzido pelo sistema de teste, uma comparação dos sinais ruidosos de entrada e saída irá produzir um score PSQM próximo de zero. 3.2 PSQM+ Apesar de ter se mostrado um método com alta correlação entre medidas subjetivas e objetivas, o PSQM não se mostrou eficaz nos casos em que os sinais de voz continham supressão de trechos de voz e/ou distorções provocadas por excesso de volume. Em outras palavras, PSQM poderia reportar uma melhor qualidade sobre estas condições que um ouvinte poderia atribuir. Fez-se então necessário um aperfeiçoamento, tendo como resultado o PSQM+. O PSQM trata a distorção representada pelo ganho de sinal dentro de uma célula diferentemente da distorção representada pela perda de sinal dentro do quadro. Devido à distorção aditiva do sinal ter maior impacto na percepção que distorções subtrativas, PSQM aumenta a escala do distúrbio aditivo para resultar em scores maiores (score de qualidade pior) e escala pra baixo o distúrbio subtrativo para resultar em scores menores (scores com qualidade melhor). Para pequenas distorções devidas provavelmente a codecs, PSQM provê excelente correlação com resultados de testes subjetivos. Para grandes distorções devidas a interrupções temporais e perdas de pacotes nas quais todas as células dentro de um frame experimentam grande perda de energia de sinal, PSQM produz scores bem mais baixos em comparação com resultados de testes subjetivos. Para levar em conta este problema na assimetria de processamento do PSQM, O PSQM+ adiciona um segundo fator de escala que considera o fator de escala do PSQM 9 sob severas condições de distorção representadas por grande perda de energia numa célula. Este novo fator é aplicado a cada quadro. Quando as potências dos sinais de entrada e saída são praticamente idênticas este fator é próximo de 1, e assim PSQM+ produz quase o mesmo score que o PSQM. Quando uma grande distorção como interrupções temporais ou perda de pacotes é introduzida, o algoritmo PSQM+ aplica outro fator de escala que tem o efeito oposto, e aumenta o distúrbio de ruído. Isto resulta em scores PSQM+ maiores, que se correlacionam mais eficientemente com resultados subjetivos. Dentro do algoritmo PSQM+, o segundo fator de escala é sempre aplicado. Porém quando as distorções são pequenas, ele iguala a 1 e tem pequeno ou nenhum impacto. Para as grandes distorções por energia adicionada, o segundo fator de escala leva a scores menores e para perdas severas por falta de energia scores maiores são produzidos. Em resumo, para pequenas distorções devidas a codecs, tanto PSQM como PSQM+ produzem praticamente os mesmos scores, os quais se correlacionam bem com testes subjetivos. Para perdas severas e distorções por interrupções temporais, PSQM+ irá produzir scores maiores, e para distorções por adição de energia, PSQM+ produzirá scores menores, correlacionando-se melhor do que o PSQM. Pode-se observar que PSQM e PSQM+ distinguem distorções dentro de células daquelas dentro de todo o frame. Se as distorções são dependentes da célula, estas são provavelmente devidas a codecs. Se a distorção afeta todas as células dentro de um frame de maneira similar, é provavelmente causada por perda de pacotes ou interrupções temporais. 3.3 PAMS - Perceptual Analysis Measurement System PAMS foi desenvolvido pelo Grupo PSyTechnics dentro da British Telecomunications em agosto de 1998, e oferece um modelo diferente do PSQM, mas com a mesma meta: objetivamente predizer resultados subjetivos de testes de qualidade de voz para sistemas nos quais distorções por codecs assim como interrupções temporais e perda de pacotes são problemas em potencial. PAMS utiliza um modelo baseado em fatores de percepção humana para medir a qualidade de sinais de saída comparados com sinais de entrada. Apesar da similaridade ao PSQM, o PAMS usa diferentes técnicas de processamento e diferentes modelos perceptuais. A figura 4 ilustra o processo PAMS de maneira geral. Figura 4 – Processo PAMS Para realizar medidas PAM, uma amostra de fala humana gravada é inserida na entrada de um sistema de rede. As características do sinal de entrada seguem aquelas que são usadas para teste de MOS especificadas na recomendação P.830. Apesar de amostras de voz naturais poderem ser utilizadas, PAMS é otimizado para amostras de fala artificiais proprietárias. 10 A saída do sinal é gravada assim como for recebida. Os sinais de entrada e saída são então introduzidos no modelo PAMS. PAMS executa time-alignment, level-alignment, e equalização para remover os efeitos de atraso, ganho e perda de todo o sistema, e filtragem análoga ao do telefone. PAMS então compara os sinais de entrada e saída no domínio da freqüência, comparando as células dentro de frames (mesma idéia do PSQM). Esta comparação é baseada em fatores de percepção humana. Os resultados das comparações PAMS são scores que variam de 0 a 5, e correlacionamse com a mesma escala dos testes MOS (Qualidade de audição e de Esforço de audição). A modelagem perceptual dentro do PAMS assume que não existe atraso, grande variação de atraso, sistemas de ganho e perda pelo sistema, nem características análogas à filtragem do telefone. O algoritmo PAMS executa processamento único para remover efeitos destas condições. Como resultado, PAMS foca na medição de qualidade de voz baseada em efeitos de distorção de codificação, interrupções temporais, perda de pacotes e jitter. A figura 5 ilustra o modelo detalhado do processo do PAMS que será descrito nas próximas seções. Figura 5 – Processo PAMS Detalhado Etapa 1 - Pré-processamento PAMS pré-processa os sinais de entrada e saída executando as seguintes operações: • Time Alignment – Sinais de entrada e saída são sincronizados no tempo em segmentos temporais individuais, com a finalidade de remover os efeitos de atraso e variação lenta de atraso. Variação de atraso rápida que é perceptível é preservada e medida pelo PAMS. • Level Alignment - Sinais de entrada e saída são sincronizados no tempo em segmentos temporais individuais, com a finalidade de remover efeitos de ganho e perdas do sistema. • Equalização - Os espectros dos sinais de entrada e saída são equalizados para remover os efeitos de filtragem da banda de telefone (300-3400 hz). Etapa 2 – Auditory Transform PAMS executa o processo de modelagem perceptual para transformar os sinais de entrada e saída para o domínio da freqüência. PAMS usa um banco de filtros para filtrar sinais audíveis e levá-los ao domínio da relevância perceptual subdividindo-os em 19 11 bandas. Isto formata as freqüências para refletir melhor a sensibilidade humana às freqüências. O resultado é uma representação no tempo e na freqüência de percepção de intensidade sonora, conhecida como Sensação de Superfície, que é análogo ao espectro de densidade de potência, mas baseado em como o ser humano perceberia o sinal em cada célula. PAMS calcula Sensações de Superfície para ambos os sinais de entrada e saída. Etapa 3 – Erro de Parametrização PAMS determina as diferenças audíveis na Sensação de Superfície dos sinais de entrada e saída, subtraindo a Sensação de Superfície do sinal de entrada da Sensação de Superfície do sinal de saída. O resultado é outra representação de células conhecida como Erro de Superfície. O Erro de Superfície representa erros audíveis, em células, encontradas nos sinais de saída quando comparadas com sinais de entrada. Erros que representam energia de sinal adicionado (por exemplo, ruído ou distorção adicionada por codecs) têm valores positivos nas células de Erro de Superfície. Erros que representam perda de energia de sinal (perda de pacotes, interrupções temporais) têm valores negativos. A amplitude de cada célula no Erro de Superfície é relacionada com o nível de percepção humana. PAMS analisa os Erros de Superfície de várias maneiras. Ele calcula a média da distorção positiva e a média da distorção negativa. Muitos parâmetros de erro são calculados que indicam o montante de erros audíveis. Etapa 4 – Regressão Finalmente erros audíveis são avaliados e mapeados em scores preditivos baseados em correlação com um grande banco de dados de resultados de testes subjetivos. Esta base de dados indica como uma pessoa avaliaria um erro audível específico. Os parâmetros de erro podem assim ser mapeados em scores preditivos e refletir resultados produzidos por testes subjetivos executados por este mapeamento. 3.4 MNB - Measuring Normalizing Blocks Em 1997, baseada no relatório de Stephen D. Voran do Instituto de Ciências para Telecomunicações, o método MNB (Measuring Normalizing Blocks) foi publicado como anexo proposto (Anexo II) à recomendação P.861. A técnica MNB é recomendada para medição de impacto dos seguintes itens na qualidade de fluxo de voz: • Erros de transmissão do canal • Codecs híbridos com taxas menores que 4kbps • Vocoders Este método leva a uma inversão da ênfase tradicional, resultando em um modelo mais simples para o ouvido e um modelo mais sofisticado para o julgamento. Após o estudo de diversos parâmetros, como as funções de transferência dos ouvidos externo e médio, limiares absolutos de audibilidade, curvas de sonoridade e efeitos de mascaramento, os autores da proposta chegaram à conclusão de que estes não eram significativos para o sucesso da estimativa da qualidade percebida para a faixa de telefonia. Por esse motivo, o modelo do ouvido adotado contém apenas um mapeamento da escala em Hertz para 12 outra escala (escala em Bark) e uma transformação logarítmica da potência para aproximar a sonoridade percebida. Existem dois tipos de MNBs: Time Measuring Normalizing Blocks e Frequency Measuring Normalizing Blocks. O algoritmo cria um valor não negativo chamado Auditory Distance (AD), qual é a medida da distância perceptual entre sinais de entrada (referência) e saída (teste) para predizer a qualidade subjetiva. A figura 6 ilustra o processo MNB. Figura 6 – Estrutura Geral do processo MNB [6] Abaixo seguem as etapas do processo MNB detalhado: Etapa 1 – Transformação Perceptual Os sinais de entrada e saída sincronizados no tempo são introduzidos no modelo, e nivelados através da remoção da componente DC de cada sinal. Ambos os sinais são mapeados no domínio da freqüência e os frames de “silêncio” são detectados e removidos. A escala de potência é transformada (os frames são transformados logaritmicamente) numa escala de percepção de sonoridade. Etapa 2 – Cálculo do Frequency Measuring Normalizing Blocks (FMNB) Os sinais de entrada e saída perceptualmente transformados são processos de entrada do FMNB. Os processos de saída de um FMNB são uma seleção de medidas diferenças integrada e um sinal de saída normalizado, descrito abaixo: • Os sinais de entrada e saída perceptualmente transformados estão no domínio tempo-freqüência, ou seja, ambos são funções de tempo e freqüência. Estas funções dos sinais de entrada e saída são matematicamente integradas sobre a escala de tempo do sinal de entrada. • O sinal de entrada integrado é subtraído do sinal de saída integrado. O resultado é uma função da freqüência (de um valor específico do tempo) que representa a diferença entre os sinais. • A diferença medida acima é subtraída do sinal de saída (em diferentes freqüências), produzindo um sinal de saída normalizado. • As parcelas positivas e negativas da medida das diferenças são matematicamente integradas sobre quatro bandas de freqüências da escala de Bark que contemplam a banda de telefonia. Os resultados são quatro medidas FMNB. 13 Etapa 3 – Cálculo do Time Measuring Normalizing Blocks (TMNB) O sinal de entrada perceptualmente transformado e os de saída normalizados são processos de entrada do TMNB. A saída do processo do TMNB é uma seleção de medidas diferenças integradas, e o sinal de saída normalizado. TMNBs são computados através das diferentes faixas de freqüência, em iterações progressivas. Isto é descrito como segue: • Os sinais de entrada e saída perceptualmente transformados estão no domínio tempo-freqüência, ou seja, ambos são funções de tempo e freqüência. Estas funções dos sinais de entrada e saída são matematicamente integradas sobre uma escala de freqüência do sinal de entrada. • O sinal de entrada integrado é subtraído do sinal de saída integrado. O resultado é uma função do tempo (de um valor específico de freqüência) que representa a diferença entre os sinais. • A diferença medida é subtraída de um sinal de saída (em diferentes tempos), produzindo um sinal de saída normalizado. • As parcelas positivas e negativas da medida das diferenças são matematicamente integradas no tempo. Etapa 4 – Geração do valor Auditory Distance Medidas linearmente independentes de TMNB e FMNB são combinadas, com fatores de ponderação, para gerar valores AD. Etapa 5 – Mapeamento de valores Auditory Distance Uma função lógica mapeia valores AD numa faixa finita para prover correlação com valores de MOS. O desempenho do método MNB mostrou-se ligeiramente superior ao PSQM nos casos em que houve presença de erros nos arquivos de voz. Já nos casos em que havia ruído de ambiente, o PSQM mostrou o melhor desempenho. Mais importante, notou se que o método MNB mostrou excelentes resultados quando os arquivos de voz estavam gravados em inglês norte-americano. Porém, o método PSQM mostrou melhor consistência no caso de outros idiomas. Portanto, apesar de ambos os métodos, na média, apresentarem resultados parecidos, pode-se afirmar que o método MNB tem aplicação mais restrita que o método PSQM. 3.5 PESQ - Perceptual Evaluation of Speech Quality Um esboço colaborativo foi submetido a ITU em 2000 por John G. Beerends, Andries P. Hekstra do KPN Research, e por Anthony W. Rix e Mike Hollier da British Telecomunications e padronizado como recomendação P.862 [7]. Como PSQM e PAMS, o PESQ é ainda direcionado para sinais de banda estreita. É aplicável a sistemas com codecs (incluindo vocoders a baixas taxas), atraso variável, filtragem, perda de pacotes ou células e interrupções temporais. Os scores PESQ predizem scores de qualidade para testes de audição ACR. 14 O PESQ reúne as melhores características do PAMS e PSQM, combinando a técnica robusta de time-alignment do PAMS com o eficiente modelo perceptual do PSQM, e adiciona novos métodos incluindo equalização de função transferência e novo método para cálculo da média da distorção sobre o tempo. O PESQ apresenta precisão aceitável em seus resultados, quando a clareza da voz é afetada pelos seguintes processos ou parâmetros [9]: • Codecs de forma de onda (por exemplo, G.711, G.726 e G.727); • Codecs híbridos (a partir de 4kbps) incluindo aqueles de múltiplas taxas de transmissão (exemplos: G.728, G.729 e G.723.1); • Transcodificações (conversão de um formato digital para outro); • Erros no canal de transmissão; • Efeitos da variação do atraso em testes apenas de escuta; • Perda de pacotes/células; • Ruído ambiente no lado transmissor; • Taxa de transmissão nos casos de codecs com mais de um modo de operação; • Deformações temporais do sinal de áudio. A figura 7 apresenta o processo PESQ detalhado. Figura 7 – Processo PESQ Detalhado As características do sinal de entrada para o PESQ estão de acordo com aquelas para PAMS e PSQM. Amostras de sinais naturais podem ser usadas e devem seguir a recomendação P.830, amostras artificiais podem ser utilizadas, porém devem representar estruturas temporais e fonéticas da fala natural. Nas seções subseqüentes serão descritas as etapas do processo PESQ. Etapa 1 – Pré-Processamento do Sinal Antes da análise do modelo perceptual, as seguintes operações são executadas: Level-Alignment – Os sinais de entrada e saída são nivelados para levar em consideração os ganhos e perdas do sistema. Primeiramente os sinais são filtrados, então são calculados seus valores de potencia média, e finalmente ganhos são aplicados para alinhar ambos os sinais. Time-Alignment – Os sinais de saída são deslocados no tempo para alinhamento com o sinal de entrada. Isto é executado em segmentos temporais individuais. Atraso durante a fala e o silêncio é levado em conta através do time-alignment. 15 Etapa 2 – Modelagem Perceptual A modelagem perceptual transforma os sinais de entrada e saída em representações perceptíveis ao ser humano. Essa modelagem inclui mapeamento tempo-frequência (similar ao PSQM), alteração da freqüência (usando a escala modificada), e escalonamento de percepção de volume. A filtragem é aplicada para adequar os sinais às características da banda telefônica. Sendo assim as características do telefone não impactam as medidas PESQ. O mapeamento tempo-frequência, como no PSQM, usa uma FFT com tamanho de janela de 32ms, ou 256 amostras para taxas de amostragem de 8Kbps, para segmentar os sinais de entrada e saída em células individuais. A transformação de freqüência, usada para refletir a sensibilidade humana às freqüências, é uma transformação para uma escala de freqüência modificada, chamada de escala Bark. A transformação de intensidade é uma transformação do espectro de freqüência para uma escala de Sone de percepção de volume. O processo de modelagem perceptual produz representações dos sinais de entrada e saída que levam em consideração as sensibilidades perceptivas do ser humano. Etapa 3 – Modelagem Cognitiva O processo de modelagem cognitiva é executado para calcular dois tipos de valores de distúrbios de ruído médio. Estes dois valores são combinados no final para produzir um score MOS. • Diferença entre as células de entrada e saída – para cada célula (mesmo conceito PSQM), uma diferença entre o sinal de saída e entrada é calculado. Uma diferença positiva indica que componentes, tais como ruído, foram adicionados. Uma diferença negativa indica omissão de componentes, por exemplo, devido à distorção de codificação ou perda de sinal. • Mascaramento de Pequenas Distorções – um limiar é aplicado aos níveis de distorção dentro de cada célula e uma escala correspondente ao distúrbio zero é realizada para mascarar os impactos de pequenas distorções que não são percebidas na presença de sinais altos. • Processamento Assimétrico – processamento assimétrico é realizado da mesma maneira do método PSQM, calculando o distúrbio assimétrico usando um fator de escala para aplicar diferentes pesos a distúrbios positivos e negativos. Distúrbio assimétrico é tal que apenas células com distúrbios positivos continuam. O segundo fator de escala que é parte do PSQM+ não é executado no PESQ. Os resultados são valores para distúrbios assimétricos, os quais são apenas para distúrbios positivos e distúrbios normais que incluem distúrbios positivos e negativos. • Distúrbios em Frames – distúrbios normais (não-assimétricos) e assimétricos são calculados e agregados em bandas de freqüências, resultando em distúrbios em frames. • Detecção de Variação no Atraso – desde o início do processo de time-alignment, o PESQ pode detectar variações no atraso e identifica quais frames estão envolvidos. Pequenos distúrbios em frames devidos a variação no atraso são cancelados para evitar falsos scores baixos. 16 • Reavaliação no Time-Alignment – outra reavaliação do time-alignment é executada para consecutivos distúrbios em frames a partir de um limiar. Se o alinhamento no tempo for determinado como ineficiente como resultado de grandes distúrbios de frames, o time-alignment é repetido e os distúrbios do frame são recalculados. • Agregação dos Valores dos Distúrbios e Predição do MOS – valores de distúrbio em frames e valores de distúrbio assimétrico são agregados sobre o tempo em níveis progressivos. Um score MOS é calculado como uma combinação linear do valor do distúrbio médio e o valor do distúrbio assimétrico médio. Como resultado deste cálculo um valor de MOS na faixa de 0,5 a 4,5 é obtido. Vários testes de validação têm sido realizados para determinar quão eficaz diferentes medidas objetivas de qualidade de fluxo de voz (PAMS, PSQM, PESQ, MNB) correlacionam-se com testes subjetivos (MOS). Cada medida objetiva é avaliada e tem seus resultados de medidas comparados com testes de resultados subjetivos. Estes testes produzem coeficientes de correlação que resultam numa ferramenta conveniente para comparação entre as diferentes metodologias de avaliação. Os resultados da Tabela 3.5.1 mostram que o PESQ tem maior exatidão tendo maior correlação com os testes subjetivos [10]. Tabela 3.5.1 – Comparação das metodologias objetivas É importante notar que os resultados de cada metodologia objetiva variam de acordo com os diferentes tipos de rede, imperfeições do canal, etc. 3.6 E-Model O E-Model foi originalmente proposto pelo ETSI (European Telecomunications Standards Institute) e posteriormente padronizado pelo ITU-T (International Telecomunications Union-Telecommunications Standard Sector), através da Recomendação G.107. O E-model é uma ferramenta de planejamento de transmissão que fornece a predição da expectativa da qualidade de voz, percebida por um usuário típico de telefonia para uma conexão completa de telefone fim a fim sobre condições de conversação. O E-Model considera a grande variação de imperfeições da banda telefônica, em particular imperfeições devidas a baixas taxas de codecs, atrasos, perdas, distorções e ecos. Também pode ser aplicado para avaliar a qualidade de voz em cenários de redes cabeadas ou sem fio, em tecnologias baseadas em circuitos comutados ou comutação por pacotes [11]. O E-Model implementa um mecanismo baseado na soma de termos que representam distorções na qualidade da voz, tais como atrasos de transmissão, eco, distorções 17 introduzidas pelos equipamentos utilizados, entre outros fatores. O resultado do modelo é o fator escalar R, que varia de 0 (péssimo) a 100 (excelente), e que pode ser convertido para a escala de pontuação MOS através da seguinte expressão: Para R < 0 ∴ MOS = 1 Para 0 < R < 100 ∴ MOS = 1+ 0,035 R + 7.10 −6 R (R-60) (100-R) Para R > 100 ∴ MOS = 4,5 Normalmente, o fator R é descrito em categorias de valores, tal como pode ser consultado na Tabela 3.6.1 [12]. Tabela 3.6.1 – Valor de MOS estimado a partir do E-Model Sistemas cuja qualidade da fala seja avaliada em R ≤ 60 não são recomendáveis, sendo desejável obter R ≥ 70. O fator R é obtido pela seguinte fórmula: R = Ro – Is – Id – Ie + A, onde: Ro - representa os efeitos da relação sinal-ruído (SNR); Is - representa as perdas simultâneas ao sinal de voz; Id - representa as perdas associadas ao atraso fim a fim; Ie - representa as perdas associadas ao equipamento utilizado; A - corresponde ao fator de vantagem, ou fator de expectativa. A Recomendação ITU-T G.107 apresenta as expressões matemáticas e os valores padrão para cada um dos tipos de ruído que afetam a SNR, resultando num valor padrão de Ro igual a 94,77. Entre as perdas que ocorrem mais ou menos simultaneamente ao sinal de voz, estão a queda na qualidade devida a uma conexão de volume demasiadamente alto, as perdas causadas pela interferência da própria voz do locutor sobre o fone de ouvido do mesmo headset que utiliza para falar e a distorção de quantização causada pela digitalização do sinal de voz. A Recomendação ITU-T G.107 também apresenta as expressões e os valores padrão para as perdas que contribuem na obtenção do fator Is, resultando num valor padrão de 1,41. O fator Id é determinado pela seguinte expressão: Id = Idte + Idle + Idd, onde: 18 Idte representa as perdas devidas ao eco no lado transmissor; Idle representa as perdas devidas ao eco no lado receptor; e Idd representa as perdas relacionadas ao atraso superior a 100 ms. O fator de perda Ie é um meio flexível de se computar a degradação da qualidade causada pelos codecs de alta complexidade e com baixa taxa de transmissão de bits. Seu valor para cada codec depende dos resultados de exaustivos testes de pontuação MOS sob diversas taxas de perdas de pacotes. O Apêndice I da Recomendação ITU-T G.113[13] fornece valores provisórios do Ie para alguns codecs sob condições de perdas aleatórias de pacotes e de perdas em rajada, conforme a tabela 3.6.2. Tabela 3.6.2 – Valores provisórios do parâmetro Ie de alguns Codecs [13] O fator de vantagem A é empregado para definir o grau de tolerância que um usuário espera pela conveniência de utilização de uma determinada tecnologia. Segundo os valores provisórios apresentados na Recomendação ITU-T G.107, este fator varia de 0 (telefonia fixa) a 20 (localidades de difícil acesso que necessitam de enlace de satélite, por exemplo). Para a telefonia celular é recomendado o uso de A igual a 5 para redes “indoor” ou igual a 10 para redes geográficas. Para VoIP, a ITU-T G.107 recomenda este valor como 0. As principais vantagens do E-Model, em relação aos métodos perceptuais citados nas seções anteriores, são a capacidade de medição em tempo real, já que não há necessidade de comparação entre os sinais de referência e degradado, e a contabilização em separado de cada um dos fatores responsáveis pela degradação da qualidade da voz, como perdas, atraso fim a fim, distorções inerentes a codificadores de alta compressão, entre outros. Estas funcionalidades permitem a avaliação da origem e do grau de influência de cada um destes fatores separadamente, tornando o diagnóstico de problemas de transmissão mais precisos. 19 4. Conclusão Concluímos que os testes de avaliação subjetiva da qualidade de fluxo de voz representam fielmente a sensibilidade do usuário quanto à qualidade, porém estes apresentam baixa escalabilidade e custo elevado, nos obrigando a procurar métodos alternativos que nos auxiliem nesta avaliação. Os métodos subjetivos vão de encontro com esta necessidade, seja utilizando métodos perceptuais, que se baseiam nas características fisiológicas do ser humano, ou através do E-Model. Através de vários testes realizados foi verificado que entre os métodos de avaliação objetiva de qualidade de fluxo de voz baseados em modelos perceptuais, o PESQ apresenta maior índice de correlação, com os resultados de testes subjetivos, sendo o mais indicado, porém sua eficácia está também relacionada com a rede em avaliação. O E-model também apresenta grande aceitação devida a seu bom desempenho e apresenta maior eficiência em resolução de problemas por contabilizar em separado cada um dos fatores responsáveis pela degradação da qualidade da voz, como perdas, atraso fim a fim, distorções por codificadores, entre outros. 20 5. Bibliografia [1] ITU-T Recommendation P.800, Methods for subjective determination of transmission quality. Genève, Agosto 1996. [2] ITU–T Recommendation P.830, Subjective performance telephoneband and wideband digital codecs. Genève, Fevereiro 1996. assessment of [3] ITU-T Recommendation G.107, The E-Model, a computational model for use in transmission planning. Genève, Março 2003. [4] Marcelo Nascimento dos Santos, Medidas de Qualidade de Voz Em Redes IP, Dissertação de Mestrado, Universidade Federal do Paraná UFPR, Curitiba 2006. [5] ITU-T Recommendation P.861, Objective quality measurement of telephone-band speech codecs. Genève 1996. [6] John Anderson, Methods for Measuring Perceptual Speech http://cp.literature.agilent.com/litweb/pdf/5988-2352EN.pdf, October, 2001. Quality, [7] Jayme Garcia Arnal Barbedo, Avaliação Objetiva de Qualidade de Codecs de Voz na Faixa de Telefonia. Dissertação de Mestrado, Unicamp, Campinas, 2001. [8] ITU-T Recommendation P.862, Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs. Genève, 2001. [9] Arthur Callado, Gabriel Fernandes, Auristela Silva, Rodrigo Barbosa, Djamel Sadok e Judith Kelner, Construção de Redes de Voz sobre IP, Minicurso VoIP - SBRC – Pará, 2007. [10] Júlio César Magro, Estudo da Qualidade de Voz em Redes IP. Dissertação de Mestrado, Unicamp, Campinas, Julho de 2005. [11] E-Model Tutorial, T/studygroups/com12/emodelv1/introduction.htm http://www.itu.int/ITU- [12] Leandro Caetano Gonçalves Lustosa, Arquitetura de Monitoração de Qualidade de Chamadas Telefônicas IP - Dissertação de Mestrado, Universidade Federal do Rio de Janeiro – UFRJ, Rio de Janeiro, 2005. [13] ITU-T Appendix I to Recommendation G.113 (01/07), Provisional planning values for the equipment impairment factor Ie and packet-loss robustness factor Bpl. 21