An Efficient Model-Based Multirate Method for Reconstruction of Audio Signals Across Long Gaps Processamento Digital de Sinais de Áudio Alan Dantas de Medeiros Endalécio Nilson Carvalho Silva Junior Victor Pereira da Costa Vitor Borges Coutinho da Silva Motivação Problemas: Erros de transmissão -> perda de partes do sinal Degradação de sinal em gravações antigas de gramofones Necessária a reconstrução localizada de sinais. Reconstrução Localizada de Sinais Técnicas: Interpolação de banda limitada (Band-limited interpolation); Esquemas de substituição de forma de onda (Waveform substitution schemes); Interpolação com base em modelagem senoidal (Interpolation based on sinusoidal modeling); Métodos de Subbanda (Subband methods); Interpolação com base em modelagem autorregressiva (Autoregressive-based interpolation). Interpolação com base em Modelagem Autorregressiva Adequado para reconstrução de fragmentos curtos de sinais de áudio. Fragmento curto Limitado pela suposição de estacionariedade. Estacionariedade em sinais de áudio => janelas de 20 a 50 ms. Casos extremos: comprimento da lacuna ≈ período de estacionariedade Interpolação com base em Modelagem Autorregressiva - Casos Extremos Problemas: Meio da lacuna não é bem modelado Energia do sinal interpolado decresce Minimização do erro de modelagem AR Ordem do modelo AR insuficiente => raio dos pólos do modelo subestimados Características espectrais antes e depois da lacuna muito diferentes Interpolação com base em Modelagem Autorregressiva - Casos Extremos Soluções: Aumentar ordem do modelo AR Raio dos pólos aumentam: resposta ao impulso decai mais lentamente Dois modelos AR Modelo para o fragmento antes da lacuna Modelo para o fragmento depois da lacuna Proposta Modificação no esquema de Interpolação com base em Modelagem Autorregressiva (AR) proposto em [1]-[3]. Extrapolação pura do modelo AR: Condição Inicial Resposta relaxada x Proposta: Sinal excitando filtro de síntese Resposta forçada Objetivo: Reduzir ordem de modelos AR usados em métodos de interpolação. Core Interpolation Method Core Interpolation Method Algoritmo Supondo 𝑁 ≥ 𝐺 + 𝑝 𝑁 -> Número de Amostras intactas antes e depois da lacuna 𝐺 -> Número de Amostras corrompidas 𝑝 -> Ordem do modelo 1.Modelo AR calculado com o Método de Burg 2.Computar 𝑒𝑛 por filtragem inversa 3.Construir o sinal de excitação estendido 𝑒0 𝑒1 𝑒2 … 𝑒𝑁−2 𝑒𝑁−1 𝑒𝑁−2 𝑒𝑁−3 … 𝑒𝑁−1−𝐺 4.Utilizar o sinal de excitação estendido no modelo AR para gerar as últimas G amostras 5.Inverter a ordem das amostras e realizar as etapas 1 a 4 6.Reconstruir o trecho da lacuna utilizando os dois sinais gerados Cross-fading window do artigo “Reconstruction method for missing or damaged long portions in audio signal” Core Interpolation Method Em uma das referências Sinal de excitação estendido é formado concatenando G 0’s Para o caso de N < G Necessário concatenar 0’s ao sinal até que hajam G amostras para reconstrução Core Interpolation Method Excitação Espelhada Inspirada em técnicas de processamento por blocos Feitas para minimizar erros transitórios (indesejáveis) Considerações Modelos AR de ordem baixa Sinais longos Sinais típicos: energia e componentes frequenciais variantes Core Interpolation Method É importante notar que a reflexão do sinal de excitação garante que o sinal reconstruído é coerente com o sinal intacto O começo do gap parece mais com o sinal anterior à lacuna O fim do gap parece mais com o sinal após a lacuna Trecho reconstruído livre de distorções impulsivas Pós-Processamento Multitaxa Objetivo: Reduzir audibilidade dos artefatos em baixa frequência Descrição: 1. Decompor o sinal em 6 subbandas => Banco de Filtros Maximamente Decimado em oitavas 2. Reaplicar o processo de interpolação convencional nas duas subbandas de menor frequência. (1ª 0 – 690 Hz) (2ª 690 - 1380 Hz) Interpolação na subbanda mais fácil (modelo AR de menor ordem) 1. Menor número de modos ressonantes a serem modelados 2. Comprimento da lacuna a ser preenchida menor 32 vezes (fator de decimação das subbandas) Pós-Processamento Multitaxa Interpolação na subbanda mais fácil !? Melhor fazer apenas o método convencional nas subbandas, assim não tem erro nas frequências baixas. Certo!? Errado! Mais custoso computacionalmente. Lacuna da subbanda de menor frequência /= 32 Mas, Lacuna da subbanda de maior frequência /= 2 Não faz sentido se esforçar mais para recuperar as frequências altas que as baixas. Pós-Processamento Multitaxa E passando o sinal pelo Banco de Filtros no início? Aplica a proposta nas 4 subbandas superiores e o convencional nas duas inferiores, melhor!? Não! Mais custoso computacionalmente. Artigo: 3 interpolações de baixo custo (1º estágio e 1ª e 2ª subbandas) Ideia: 6 interpolações de baixo custo (1 por subbanda) Pós-Processamento Multitaxa Como decompor sinal em subbandas? Banco de filtro estruturado em árvore binária: Interpolação convencional => subbandas de baixa frequência Banco de Filtro de reconstrução perfeita Filtros de síntese e análise projetados para formar CQFs (Conjugate Quadrature Filters) Filtros de ordem 15 Pós-Processamento Multitaxa Estudo de Caso Sinal utilizado: tom de piano em baixa frequência Estudo de Caso: (a) insatisfatório (b) Energia ok, desvio de fase em relação ao sinal original => Som “bump-like” baixa frequência (c) Desvio de fase corrigido pelo pósprocessamento, efeito colateral => porção modificada do sinal maior que a lacuna original (d) Melhor resultado o sinal. Custo Computacional: Interpolação proposta (p=50) => Ci G = 1800, N = 2100 @44,1 kHz Pós-processamento => Cp (a) Interpolador Convencional – p = 100 Cp = 0,7*Ci (b) Método Proposto – p = 50 Custo total do esquema = 1,7 Ci (c) Método Proposto – p = 50, pós processamento Custo equivalente ao esquema convencional para p=85, que é insuficiente para restaurar (d) Interpolador Convencional – p = 1000 Comparação com Outros Métodos Métodos concorrentes LSAR (Least-Square Autoregressive) p = 100 3 iterações de processamento foram utilizadas para refinar os resultados de interpolação LSAR-E (LSAR com sinal de excitação com energia constante) p = 100, energia do sinal de excitação automaticamente ajustada 3 iterações de processamento foram utilizadas para refinar os resultados de interpolação LSAR + SIN (LSA com base senoidal adicional) LSAR com bases senoidais extras p = 60 40 bases senoidais (frequências estimadas pela STFT) = 100 Comparação com Outros Métodos Pela Figura, as soluções (b), (c) e (d) tem desempenhos comparáveis (d) é o que apresenta menor custo computacional G = 1800, N = 2100 @44,1 kHz (a) – LSAR (b) – LSAR + SIN Sinal reconstruído um pouco suavizado, devido à predominância de componentes senoidais (c) – LSAR-E Péssimo resultado, como esperado Apresenta mais ruído e fora de fase comparado ao sinal original (d) - PM Comparação com Outros Métodos Realizando outros testes: Sinais utilizados: 40 trechos de sinais de instrumentos e musica com acompanhamento vocal. Usou-se a SNR para avaliar o desempenho dos métodos analisados. Cada sinal possui aproximadamente 6000 amostras; Foram gerados 10 diferentes sinais corrompidos para cada sinal; As lacunas em cada sinal variam randomicamente de 400 a 1800 amostras; OBS: Em todos os casos, os piores resultados para erros de restauração obtidos foram maiores do que se tivessem deixado do jeito que estava! Avaliação Subjetiva Objetivo: Comparar os resultados obtidos pelo método utilizado tradicionalmente e pelo proposto no artigo; Sinais utilizados: 2 trechos de 10 a 20s de musica do tipo pop ou clássica; Uma voz feminina a capella; Um tom de piano em baixa frequência; Um grupo de 5 sinais foram criados para cada sinal de teste: COR Sinal Corrompido CM1K Restaurado com método convencional com p = 1000 CM100 Restaurado com método convencional com p = 100 PM Restaurado com método proposto REF Sinal Original Avaliação Subjetiva – Realização do teste 12 pessoas aproximadamente participaram dos testes; Sem problemas auditivos; Entre 24 a 35 anos; Possuem certa experiência com musica; Estão familiarizados a esse tipo de teste; Avaliação Subjetiva – Resultados Gerais O resultado obtido para o método proposto, na média, apresentou melhor resultado que o método convencional com mesmo custo computacional; O resultado obtido para o método proposto se compara ao obtido pelo método convencional com p = 1000; Avaliação Subjetiva – Resultados por sinal Para os sinais “Classical” e “Pop” o PM foi considerado melhor que o CM1K; Avaliação Subjetiva – Resultados por sinal Para os sinais “Piano” e “Singing” o PM foi considerado pior que o CM1K, mas com uma discrepância menor neste último; Utilizando o PM, nota-se uma maior presença de artefatos nos sinais restaurados a partir destes dois sinais; Avaliação Subjetiva – Resultados (SNR) Algumas inconsistências: A avaliação subjetiva mostrou melhor resultado para “classical” e “pop” para PM se comparado ao CM1K, diferente da avaliação objetiva; Diferença entre PM e CM1K: análise subjetiva >> análise objetiva Resultado para “Singing” diferente nas análises: Análise Subjetiva: PM melhor que CM100 Análise Objetiva: PM pior que CM100 Conclusão Este trabalho apresenta um eficiente método de interpolação para longos trechos de amostras perdidas em sinais de áudio; Os resultados obtidos demonstram que é possível obter resultados igualmente satisfatórios com um custo computacional bastante inferior; Bibliografia [1] I. Kauppinen, J. Kauppinen, and P. Saarinen, “A method for long extrapolation of audio signals,” J. Audio Eng. Soc., vol. 49, no. 12, pp.1167– 1180, Dec. 2001. [2] I. Kauppinen and J. Kauppinen, “Reconstruction method for missing or damaged long portions in audio signal,” J. Audio Eng. Soc., vol. 50, no. 7/8, pp. 594–602, Jul./Aug. 2002. [3] I. Kauppinen and K. Roth, “Audio signal extrapolation—theory and applications,” in Proc. 5th Int. Conf. on Digital Audio Effects, Hamburg,Germany, Sep. 2002, pp. 105–110.