Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel Abraham Alcaim CETUC Pontifícia Universidade Católica do Rio de Janeiro SBT’2004 Belém MOTIVAÇÃO Crescimento gigantesco da Internet e dos Sistemas de Comunicações Móveis Celulares Desenvolvimentos importantes em codificação de voz a baixas taxas Serviços de Reconhecimento Automático de Voz (RAV) Abraham Alcaim – SBT’2004 2 Codificação de Voz a Baixas Taxas Abraham Alcaim – SBT’2004 3 Codificação de Voz a Baixas Taxas Codecs em geral baseados em um modelo LPC aplicado a quadros (segmentos) de voz de curta duração ~ 20 ms Um filtro só de pólos --- através dos parâmetros LPC --caracteriza o aparelho vocal Usualmente transmite-se os parâmetros LSF por serem mais adequados que os LPC para quantização e interpolação {LSF} Aparelho Vocal Abraham Alcaim – SBT’2004 4 Codificação de Voz a Baixas Taxas em Canal Limpo Alguns Problemas •Bom modelo para a excitação •Bom modelo para o aparelho vocal •Quantização de seus parâmetros •Quantização de seus parâmetros •Interpolação dos parâmetros LSF dentro de cada quadro Abraham Alcaim – SBT’2004 5 Codificação de Voz a Baixas Taxas Padrões Empregados em Redes Móveis e IP Em geral são codecs do tipo CELP (Code Excited Linear Prediction) Buscam tirar proveito de estruturas especiais dos dicionários para simplificar a busca do melhor vetor-código Exemplos: VSELP (Vector-Sum Excited Linear Prediction) CS-ACELP (Conjugate Structure – Algebraic CELP) Abraham Alcaim – SBT’2004 6 Alguns Padrões Empregados em Redes Móveis e IP • 1995 : ITU-T G.723.1 (MOS~3,98) – 5,3 ou 6,3 kb/s – IP • 1995 : ITU-T G.729 / CS-ACELP (MOS~4,2) – 8 kb/s – IP • 1992 : TIA – IS-54 / VSELP (MOS~3,5) – 8 kb/s – Cel USA TDMA • 1993 : VSELP - Japão (MOS~3,3) – 6,7 kb/s – Cel Japonês TDMA • 1993 : TIA – IS-95 / QCELP (MOS~3,4) – 1 / 2 / 4 / 8 kb/s – Cel USA CDMA • 1995 : TIA – IS-96-A / QCELP – 1,2 / 2,4 / 4,8 / 9,6 kb/s – Cel USA CDMA • 1995 : GSM – HR (Half Rate) / VSELP (MOS~3,4) – 5,6 kb/s – Cel Europeu TDMA • 1997 : GSM – EFR (Enhanced Full Rate) / ACELP – 12,2 kb/s – Cel Europeu TDMA • 1997 : TIA – IS-641 (substitui o IS-54) / ACELP – 7,4 kb/s – Cel USA TDMA • 1998 : TIA – IS-733 / QCELP – 1,8 / 3,6 / 7,8 / 14,4 kb/s – Cel USA CDMA • 1998 : TIA – IS-127 EVRC (Enhanced Variable Rate Coder) / ACELP – 1,2 / 4,8 / 9,6 kb/s – Cel USA CDMA • 2001 : AMR-WB (Adaptive Multi Rate – Wide Band) / ACELP – 6,6 / 8,85 / 12,65 / 14,25 / 15,85 / 18,25 / 19,85 / 23,05 / 23,85 kb/s – Cel 3G Europa, Japão, USA, Coréia – WCDMA Abraham Alcaim – SBT’2004 7 Reconhecimento Automático de Voz (RAV) Conversão analógico digital Extração de Atributos da Voz Padrões de referência Classificação de padrões FALA TEXTO Abraham Alcaim – SBT’2004 8 Reconhecimento Automático de Voz (RAV) Baseados em um conjunto de atributos de voz extraídos em quadros (segmentos) de voz de curta duração --tipicamente a cada 10 ms Um classificador de padrões --- o HMM, p.ex. --- é projetado a partir de um conjunto de treinamento •Palavras Isoladas •Palavras Conectadas •Voz Contínua Vocabulário: •Pequeno •Médio •Grande •Dependente do Locutor •Independente do Locutor Abraham Alcaim – SBT’2004 9 Sistemas de RAV Distribuídos Grande interesse em disponibilizar serviços de RAV em redes móveis e IP Alta complexidade e grande quantidade de memória tornam atraentes a opção por sistemas de RAV distribuídos INTERNET REDES MÓVEIS •PC: extrai, codifica e transmite parâmetros da voz •Tel Celular: extrai, codifica e transmite parâmetros da voz •Servidor Remoto: decodifica parâmetros e faz o reconhecimento a partir de um classificador de padrões •Estação-base: decodifica parâmetros e faz o reconhecimento a partir de um classificador de padrões Abraham Alcaim – SBT’2004 10 Sistemas de RAV Distribuídos Processamento no Terminal do Usuário Processamento na Estação-Base ou no Servidor Remoto Dispositivo Local COD de Voz ou de Atributos V O Z Rede Móvel ou IP DECOD Extrator de Atributos Canais com limitação de faixa Operação a baixas taxas de bits RAV Abraham Alcaim – SBT’2004 11 Reconhecimento de Voz a partir dos Parâmetros do Codificador DECOD de Voz Dispositivo Local COD de Voz V O Z Voz Rede Móvel ou IP Extrator de Atributos para Reconhecimento RAV Comandos de Voz SÃO TRANSMITIDOS APENAS OS PARÂMETROS DO CODIFICADOR DE VOZ Abraham Alcaim – SBT’2004 12 Reconhecimento de Voz a partir da Voz Decodificada Dispositivo Local COD de Voz V O Z Rede Móvel ou IP DECOD de Voz Voz Extrator de Atributos para Reconhecimento RAV Comandos de Voz SÃO TRANSMITIDOS APENAS OS PARÂMETROS DO CODIFICADOR DE VOZ Abraham Alcaim – SBT’2004 13 Reconhecimento de Voz a partir da Codificação dos Atributos para Reconhecimento Dispositivo Local COD de Atributos Rede Móvel ou IP DECOD de Atributos V O Z RAV Comandos de Voz SÃO TRANSMITIDOS APENAS OS ATRIBUTOS DO RECONHECEDOR DE VOZ Abraham Alcaim – SBT’2004 14 Transmissão dos Parâmetros da Voz em Redes Móveis e IP CONDIÇÕES ADVERSAS PROVOCAM DEGRADAÇÕES NA QUALIDADE DE VOZ E NA TAXA DE RECONHECIMENTO Altas taxas de erros de bits Aumento do no. de quadros de voz em um pacote: retardos inaceitáveis Distorções introduzidas pelos codecs a baixa taxa Fragilidade dos codecs em ambientes ruidosos como carros, restaurantes, aviões, fábricas, etc Desvanecimento em Sistemas Móveis e Congestionamento em IP: perdas de pacotes em rajadas Descasamento entre Treinamento e Operação do reconhecedor de voz Abraham Alcaim – SBT’2004 15 Reconhecimento de Voz a partir da Voz Decodificada: Que atributos usar para reconhecimento? Dispositivo Local COD de Voz V O Z Rede Móvel ou IP DECOD de Voz Voz Voz ? Extrator de Atributos para Reconhecimento •Parâmetros da Excitação Quantizados •Parâmetros LSF Quantizados RAV Comandos de Voz SÃO TRANSMITIDOS APENAS OS PARÂMETROS DO CODIFICADOR DE VOZ Abraham Alcaim – SBT’2004 16 Reconhecimento de Voz a partir da Voz Decodificada: Que atributos usar para reconhecimento? DECOD de Voz Voz Extrator de Atributos para Reconhecimento (1) CC (Cepstral Coefficients) : estimados a partir do espectro suave da voz - Para RAV: melhores que LPC Voz RAV Comandos de Voz (2) MFCC (Mel-FrequencyCepstral Coefficients) : um dos mais usados em RAV - estimados a partir da voz – (DCT das logenergias nas saídas de filtros triangulares centrados nas freqs. da escala mel) - Mel melhora a taxa de reconhecimento (3) PLP –Cepstrum (Perceptual Linear Predictive - Cepstrum) : também muito usados em RAV - estimados a partir da voz – (usa filtros assimétricos espaçados na escala Bark) – Resultados em geral similares ao Mel, mas inferiores em algumas situações (fones) (4) ZCPA (Zero Crossings with Peak Amplitudes) : DCT de histogramas (por contagem de picos) do inverso de CZs nas saídas de FPFs - Para RAV: mais robustos que MFCC em ruído aditivo Abraham Alcaim – SBT’2004 17 Reconhecimento de Voz a partir dos Parâmetros do Codificador: Que atributos usar para reconhecimento? DECOD de Voz V O Z COD de Voz Voz Rede Móvel ou IP Extrator de Atributos para Reconhecimento ? LSFs Quantizados RAV •Parâmetros da Excitação Quantizados •Parâmetros LSF Quantizados Comandos de Voz Abraham Alcaim – SBT’2004 18 Reconhecimento de Voz a partir dos Parâmetros do Codificador: Atributos Extraídos dos Coeficientes LPC DECOD de Voz Voz Extrator de Atributos para Reconhecimento 2 Parâmetros Extraídos a partir dos Coeficientes LPC (1) LPCC (LPC Cepstral Coefficients) ou CEP Para RAV: melhores que as LSF L S F LSFs Quantizados L P C (2) MLPCC ou MCEP (na escala Mel): Para RAV: muito melhores que LPCC RAV Comandos de Voz Abraham Alcaim – SBT’2004 19 Reconhecimento de Voz a partir dos Parâmetros do Codificador: Atributos Extraídos a partir das LSFs DECOD de Voz Voz Extrator de Atributos para Reconhecimento 4 Parâmetros Extraídos a partir dos Coeficientes LSF mais simples que extraídos a partir de LPC (1) PCC (Pseudo- Cepstral Coefficients): aprox. Quantizados L S F RAV Comandos de Voz do LPCC – só que extraído a partir das LSFs, com % de reconhecimento levemente inferior à LPCC L LSFs (2) MPCC (na escala Mel): muito melhor que PCC e comparável à MLPCC Abraham Alcaim – SBT’2004 20 Reconhecimento de Voz a partir dos Parâmetros do Codificador: Atributos Extraídos a partir das LSFs DECOD de Voz Voz Extrator de Atributos para Reconhecimento 4 Parâmetros Extraídos a partir dos Coeficientes LSF (3) PCEP (Pseudo- Cepstrum): aprox. Quantizados L L S F LSFs matemática do LPCC um pouco pior que a do PCC – porém, com % de reconhecimento comparável ao PCC (resultado ainda não disponível na literatura) e menor complexidade (4) MPCEP (na escala Mel): muito melhor que RAV Comandos de Voz PCEP , melhor que MFCC e comparável ao MLPCC e ao MPCC (resultado ainda não disponível na literatura) Abraham Alcaim – SBT’2004 21 Transmissão dos Parâmetros da Voz em Redes Móveis e IP CONDIÇÕES ADVERSAS PROVOCAM DEGRADAÇÕES NA QUALIDADE DE VOZ E NA TAXA DE RECONHECIMENTO Uma delas Resulta do Desvanecimento em Sistemas Móveis e do Congestionamento em IP: perdas de pacotes em rajadas Abraham Alcaim – SBT’2004 22 Transmissão dos Parâmetros da Voz em Redes Móveis e IP Característica de rajadas do processo de perdas Modelo Markoviano de 2 estados: “Modelo de Gilbert” p = P[“packet received”“packet lost”] q = P[“packet lost”“packet received”] Comprimeno da Rajada B= 1/(1-clp) onde clp = 1-q Packet Loss Rate: PLR = p/(p+q) Abraham Alcaim – SBT’2004 23 Transmissão dos Parâmetros da Voz em Redes Móveis e IP Algumas referências de Modelos de Gilbert para simular diferentes condições de redes #1 [J. Wang and J. Gibson, “Parameter interpolation to enhance the frame erasure robustness of CELP coders in packet networks”, Proc. ICASSP 2001]. #2 [D. Quercia, L. Docio-Ferandez, C.Garcia-Mateo, L. Farinetti and J. C. De Martin, “Performance analysis of distributed speech recognition over IP networks on the AURORA database”, Proc. ICASSP 2002]. #3 as in [D. Rahikka, J. Collura, T. Fuja, D. Sridhara and T. Fazel, “Error coding strategies for MELP vocoder in wireless and ATM environments”, Proc. IEE Seminar on Speech Coding for Algorithms for Radio Channels, pp. 8/1-8/6, 2000]. Abraham Alcaim – SBT’2004 24 Alguns Resultados e Questões de Interesse A distorção espectral dos parâmetros LSF é função da estratégia de quantização adotada e da taxa de perdas de pacotes Afeta não só a qualidade da voz como o desempenho do reconhecedor Como projetar um bom quantizador de modo que nessas situações os desempenhos sejam pouco afetados ? Abraham Alcaim – SBT’2004 25 Alguns Resultados e Questões de Interesse Em RAV distribuído, extrair os atributos para reconhecimento dos parâmetros recebidos do codificador de voz fornece taxas de reconhecimento maiores do que extrair esses atributos a partir da voz decodificada Mas será que, se a voz foi obtida em ambiente ruidoso, extrair os parâmetros ZCPA da voz decodificada não será melhor do que extrair outros atributos a partir dos parâmetros recebidos do codificador ? Abraham Alcaim – SBT’2004 26 Alguns Resultados e Questões de Interesse • Os codecs de voz usados em redes móveis e IP extraem os parâmetros que caracterizam a evolução da envoltória espectral a cada 20 a 30 ms. • Porém os sistemas de reconhecimento usualmente requerem extração de atributos acústicos tipicamente a cada 10 ms SOLUÇÃO Interpolar linearmente os parâmetros a partir do que foi recebido do codificador Mas que parâmetros e como interpolar LSF ? MFCC ? MLPCC ? MPCEP ? ? Outros ? Abraham Alcaim – SBT’2004 27 Alguns Resultados e Questões de Interesse Algumas Experiências com Reconhecimento de Voz Distribuído operando na Internet Mesmo taxas relativamente altas de perdas de pacotes isolados não afetam de forma muito significativa o desempenho do reconhecedor se usarmos a técnica de repetição Reconhecedor CDHMM para seqüências de dígitos Perdas em rajadas acentuadas, como pode acontecer na Internet, causam resultados desastrosos Abraham Alcaim – SBT’2004 28 Alguns Resultados e Questões de Interesse Em geral, as perdas de pacotes em rajadas em redes móveis e IP afetam muito o desempenho do sistema de reconhecimento SOLUÇÃO Também interpolar linearmente os parâmetros a partir do que foi recebido do codificador Novamente que parâmetros e como interpolar ? LSF ? MFCC ? MLPCC ? MPCEP ? Outros ? Abraham Alcaim – SBT’2004 29 Alguns Resultados e Questões de Interesse Fragilidade dos codecs em ambientes ruidosos como carros, restaurantes, aviões, fábricas, etc Mas que técnicas usar para o reconhecimento de voz em um cenário que envolve um grande número de condições adversas? Distorções Perdas de Descasamento Outros originais dos entre treino e pacotes em Problemas codecs a operação dos rajadas baixas taxas reconhecedores Péssimo desempenho dos sistemas de reconhecimento Melhoras significativas na taxa de reconhecimento através do emprego de técnicas de realce de voz Abraham Alcaim – SBT’2004 30 31