An Efficient Model-Based Multirate Method
for Reconstruction of Audio Signals Across
Long Gaps
Processamento Digital de Sinais de Áudio
Alan Dantas de Medeiros Endalécio
Nilson Carvalho Silva Junior
Victor Pereira da Costa
Vitor Borges Coutinho da Silva
Motivação


Problemas:

Erros de transmissão -> perda de partes do sinal

Degradação de sinal em gravações antigas de gramofones
Necessária a reconstrução localizada de sinais.
Reconstrução Localizada de Sinais

Técnicas:

Interpolação de banda limitada (Band-limited interpolation);

Esquemas de substituição de forma de onda (Waveform substitution schemes);

Interpolação com base em modelagem senoidal (Interpolation based on sinusoidal
modeling);

Métodos de Subbanda (Subband methods);

Interpolação com base em modelagem autorregressiva (Autoregressive-based
interpolation).
Interpolação com base em Modelagem
Autorregressiva

Adequado para reconstrução de fragmentos curtos de sinais de áudio.

Fragmento curto

Limitado pela suposição de estacionariedade.

Estacionariedade em sinais de áudio => janelas de 20 a 50 ms.

Casos extremos:

comprimento da lacuna
≈ período de estacionariedade
Interpolação com base em Modelagem
Autorregressiva - Casos Extremos

Problemas:

Meio da lacuna não é bem modelado


Energia do sinal interpolado decresce

Minimização do erro de modelagem AR

Ordem do modelo AR insuficiente => raio dos pólos do modelo subestimados
Características espectrais antes e depois da lacuna muito diferentes
Interpolação com base em Modelagem
Autorregressiva - Casos Extremos

Soluções:

Aumentar ordem do modelo AR


Raio dos pólos aumentam: resposta ao impulso decai mais lentamente
Dois modelos AR

Modelo para o fragmento antes da lacuna

Modelo para o fragmento depois da lacuna
Proposta

Modificação no esquema de Interpolação com base em Modelagem
Autorregressiva (AR) proposto em [1]-[3].
Extrapolação pura do modelo AR:
Condição Inicial
Resposta relaxada

x
Proposta:
Sinal excitando filtro de síntese
Resposta forçada
Objetivo:

Reduzir ordem de modelos AR usados em métodos de interpolação.
Core Interpolation Method
Core Interpolation Method

Algoritmo

Supondo 𝑁 ≥ 𝐺 + 𝑝

𝑁 -> Número de Amostras intactas antes e depois da lacuna

𝐺 -> Número de Amostras corrompidas

𝑝 -> Ordem do modelo

1.Modelo AR calculado com o Método de Burg

2.Computar 𝑒𝑛 por filtragem inversa

3.Construir o sinal de excitação estendido
𝑒0 𝑒1 𝑒2 … 𝑒𝑁−2 𝑒𝑁−1 𝑒𝑁−2 𝑒𝑁−3 … 𝑒𝑁−1−𝐺

4.Utilizar o sinal de excitação estendido no modelo AR para gerar as últimas G
amostras

5.Inverter a ordem das amostras e realizar as etapas 1 a 4

6.Reconstruir o trecho da lacuna utilizando os dois sinais gerados

Cross-fading window do artigo “Reconstruction method for missing or damaged long
portions in audio signal”
Core Interpolation Method

Em uma das referências


Sinal de excitação estendido é formado concatenando G 0’s
Para o caso de N < G

Necessário concatenar 0’s ao sinal até que hajam G amostras para reconstrução
Core Interpolation Method

Excitação Espelhada

Inspirada em técnicas de processamento por blocos

Feitas para minimizar erros transitórios (indesejáveis)

Considerações

Modelos AR de ordem baixa

Sinais longos

Sinais típicos: energia e componentes frequenciais variantes
Core Interpolation Method

É importante notar que a reflexão do sinal de excitação garante que o sinal
reconstruído é coerente com o sinal intacto

O começo do gap parece mais com o sinal anterior à lacuna

O fim do gap parece mais com o sinal após a lacuna

Trecho reconstruído livre de distorções impulsivas
Pós-Processamento Multitaxa

Objetivo: Reduzir audibilidade dos artefatos em baixa frequência

Descrição:
1.
Decompor o sinal em 6 subbandas => Banco de Filtros Maximamente Decimado
em oitavas
2.
Reaplicar o processo de interpolação convencional nas duas subbandas de
menor frequência. (1ª 0 – 690 Hz) (2ª 690 - 1380 Hz)

Interpolação na subbanda mais fácil (modelo AR de menor ordem)
1.
Menor número de modos ressonantes a serem modelados
2.
Comprimento da lacuna a ser preenchida menor 32 vezes (fator de decimação
das subbandas)
Pós-Processamento Multitaxa

Interpolação na subbanda mais fácil !?

Melhor fazer apenas o método convencional nas subbandas, assim não tem erro nas
frequências baixas. Certo!?

Errado! Mais custoso computacionalmente.

Lacuna da subbanda de menor frequência /= 32

Mas, Lacuna da subbanda de maior frequência /= 2

Não faz sentido se esforçar mais para recuperar as frequências altas que as baixas.
Pós-Processamento Multitaxa

E passando o sinal pelo Banco de Filtros no início?

Aplica a proposta nas 4 subbandas superiores e o convencional nas duas inferiores,
melhor!?

Não! Mais custoso computacionalmente.

Artigo: 3 interpolações de baixo custo (1º estágio e 1ª e 2ª subbandas)

Ideia: 6 interpolações de baixo custo (1 por subbanda)
Pós-Processamento Multitaxa

Como decompor sinal em subbandas?

Banco de filtro estruturado em árvore binária:


Interpolação convencional => subbandas de baixa frequência
Banco de Filtro de reconstrução perfeita

Filtros de síntese e análise projetados para formar CQFs (Conjugate Quadrature
Filters)

Filtros de ordem 15
Pós-Processamento Multitaxa
Estudo de Caso

Sinal utilizado: tom de piano em baixa
frequência

Estudo de Caso:


(a) insatisfatório

(b) Energia ok, desvio de fase em relação ao
sinal original => Som “bump-like” baixa
frequência

(c) Desvio de fase corrigido pelo pósprocessamento, efeito colateral => porção
modificada do sinal maior que a lacuna
original

(d) Melhor resultado
o sinal.
Custo Computacional:

Interpolação proposta (p=50) => Ci

G = 1800, N = 2100 @44,1 kHz

Pós-processamento => Cp

(a) Interpolador Convencional – p = 100

Cp = 0,7*Ci

(b) Método Proposto – p = 50

Custo total do esquema = 1,7 Ci

(c) Método Proposto – p = 50, pós
processamento

Custo equivalente ao esquema convencional
para p=85, que é insuficiente para restaurar

(d) Interpolador Convencional – p = 1000
Comparação com Outros Métodos
Métodos concorrentes


LSAR (Least-Square Autoregressive)

p = 100

3 iterações de processamento foram utilizadas para refinar os resultados de interpolação
LSAR-E (LSAR com sinal de excitação com energia constante)



p = 100, energia do sinal de excitação automaticamente ajustada
3 iterações de processamento foram utilizadas para refinar os resultados de interpolação
LSAR + SIN (LSA com base senoidal adicional)

LSAR com bases senoidais extras

p = 60

40 bases senoidais (frequências estimadas pela STFT)
= 100
Comparação com Outros Métodos


Pela Figura, as soluções (b), (c) e
(d) tem desempenhos comparáveis
(d) é o que apresenta menor custo
computacional

G = 1800, N = 2100 @44,1 kHz

(a) – LSAR


(b) – LSAR + SIN


Sinal reconstruído um pouco
suavizado, devido à predominância
de componentes senoidais
(c) – LSAR-E


Péssimo resultado, como esperado
Apresenta mais ruído e fora de fase
comparado ao sinal original
(d) - PM
Comparação com Outros Métodos

Realizando outros testes:

Sinais utilizados: 40 trechos de sinais de
instrumentos e musica com
acompanhamento vocal.

Usou-se a SNR para avaliar o desempenho
dos métodos analisados.

Cada sinal possui aproximadamente 6000
amostras;

Foram gerados 10 diferentes sinais
corrompidos para cada sinal;

As lacunas em cada sinal variam
randomicamente de 400 a 1800 amostras;
OBS: Em todos os casos, os piores resultados para erros de restauração obtidos foram
maiores do que se tivessem deixado do jeito que estava!
Avaliação Subjetiva

Objetivo: Comparar os resultados obtidos
pelo método utilizado tradicionalmente e
pelo proposto no artigo;

Sinais utilizados:


2 trechos de 10 a 20s de musica do tipo pop
ou clássica;

Uma voz feminina a capella;

Um tom de piano em baixa frequência;
Um grupo de 5 sinais foram criados para
cada sinal de teste:
COR
Sinal Corrompido
CM1K
Restaurado com método convencional
com p = 1000
CM100
Restaurado com método convencional
com p = 100
PM
Restaurado com método proposto
REF
Sinal Original
Avaliação Subjetiva – Realização do teste

12 pessoas aproximadamente participaram
dos testes;

Sem problemas auditivos;

Entre 24 a 35 anos;

Possuem certa experiência com musica;

Estão familiarizados a esse tipo de teste;
Avaliação Subjetiva – Resultados Gerais

O resultado obtido para o método proposto, na média, apresentou melhor resultado
que o método convencional com mesmo custo computacional;

O resultado obtido para o método proposto se compara ao obtido pelo método
convencional com p = 1000;
Avaliação Subjetiva – Resultados por sinal

Para os sinais “Classical” e “Pop” o PM foi considerado melhor que o CM1K;
Avaliação Subjetiva – Resultados por sinal

Para os sinais “Piano” e “Singing” o PM foi considerado pior que o CM1K, mas com
uma discrepância menor neste último;

Utilizando o PM, nota-se uma maior presença de artefatos nos sinais restaurados a
partir destes dois sinais;
Avaliação Subjetiva – Resultados (SNR)

Algumas inconsistências:

A avaliação subjetiva mostrou melhor
resultado para “classical” e “pop” para
PM se comparado ao CM1K, diferente da
avaliação objetiva;

Diferença entre PM e CM1K:
análise subjetiva >> análise objetiva

Resultado para “Singing” diferente nas
análises:
Análise Subjetiva: PM melhor que CM100
Análise Objetiva: PM pior que CM100
Conclusão

Este trabalho apresenta um eficiente método de interpolação para longos
trechos de amostras perdidas em sinais de áudio;

Os resultados obtidos demonstram que é possível obter resultados igualmente
satisfatórios com um custo computacional bastante inferior;
Bibliografia

[1] I. Kauppinen, J. Kauppinen, and P. Saarinen, “A method for long
extrapolation of audio signals,” J. Audio Eng. Soc., vol. 49, no. 12, pp.1167–
1180, Dec. 2001.

[2] I. Kauppinen and J. Kauppinen, “Reconstruction method for missing or
damaged long portions in audio signal,” J. Audio Eng. Soc., vol. 50, no. 7/8,
pp. 594–602, Jul./Aug. 2002.

[3] I. Kauppinen and K. Roth, “Audio signal extrapolation—theory and
applications,” in Proc. 5th Int. Conf. on Digital Audio Effects,
Hamburg,Germany, Sep. 2002, pp. 105–110.
Download

Apresentacao 2