Sistemas de Codificação e Reconhecimento de
Voz na Internet e em Redes de Telefonia Móvel
Abraham Alcaim
CETUC
Pontifícia Universidade Católica do Rio de Janeiro
SBT’2004
Belém
MOTIVAÇÃO
Crescimento gigantesco da Internet e
dos Sistemas de Comunicações Móveis
Celulares
Desenvolvimentos importantes em
codificação de voz a baixas taxas
Serviços de Reconhecimento
Automático de Voz (RAV)
Abraham Alcaim – SBT’2004
2
Codificação de Voz a Baixas Taxas
Abraham Alcaim – SBT’2004
3
Codificação de Voz a Baixas Taxas

Codecs em geral baseados em um modelo LPC aplicado a
quadros (segmentos) de voz de curta duração ~ 20 ms

Um filtro só de pólos --- através dos parâmetros LPC --caracteriza o aparelho vocal

Usualmente transmite-se os parâmetros LSF por serem
mais adequados que os LPC para quantização e
interpolação
{LSF}
Aparelho Vocal
Abraham Alcaim – SBT’2004
4
Codificação de Voz a Baixas Taxas em Canal Limpo
Alguns Problemas
•Bom modelo para
a excitação
•Bom modelo para
o aparelho vocal
•Quantização de
seus parâmetros
•Quantização de
seus parâmetros
•Interpolação dos
parâmetros LSF
dentro de cada quadro
Abraham Alcaim – SBT’2004
5
Codificação de Voz a Baixas Taxas
Padrões Empregados em Redes Móveis e IP
Em geral são codecs do tipo CELP (Code Excited Linear
Prediction)
Buscam tirar proveito de estruturas especiais dos
dicionários para simplificar a busca do melhor vetor-código
Exemplos:
VSELP (Vector-Sum Excited Linear Prediction)
CS-ACELP (Conjugate Structure – Algebraic CELP)
Abraham Alcaim – SBT’2004
6
Alguns Padrões Empregados em Redes Móveis e IP
• 1995 : ITU-T G.723.1 (MOS~3,98) – 5,3 ou 6,3 kb/s – IP
• 1995 : ITU-T G.729 / CS-ACELP (MOS~4,2) – 8 kb/s – IP
• 1992 : TIA – IS-54 / VSELP (MOS~3,5) – 8 kb/s – Cel USA TDMA
• 1993 : VSELP - Japão (MOS~3,3) – 6,7 kb/s – Cel Japonês TDMA
• 1993 : TIA – IS-95 / QCELP (MOS~3,4) – 1 / 2 / 4 / 8 kb/s – Cel USA CDMA
• 1995 : TIA – IS-96-A / QCELP – 1,2 / 2,4 / 4,8 / 9,6 kb/s – Cel USA CDMA
• 1995 : GSM – HR (Half Rate) / VSELP (MOS~3,4) – 5,6 kb/s – Cel Europeu TDMA
• 1997 : GSM – EFR (Enhanced Full Rate) / ACELP – 12,2 kb/s – Cel Europeu TDMA
• 1997 : TIA – IS-641 (substitui o IS-54) / ACELP – 7,4 kb/s – Cel USA TDMA
• 1998 : TIA – IS-733 / QCELP – 1,8 / 3,6 / 7,8 / 14,4 kb/s – Cel USA CDMA
• 1998 : TIA – IS-127 EVRC (Enhanced Variable Rate Coder) / ACELP –
1,2 / 4,8 / 9,6 kb/s – Cel USA CDMA
• 2001 : AMR-WB (Adaptive Multi Rate – Wide Band) / ACELP – 6,6 / 8,85 / 12,65 / 14,25 / 15,85 /
18,25 / 19,85 / 23,05 / 23,85 kb/s – Cel 3G Europa, Japão, USA, Coréia – WCDMA
Abraham Alcaim – SBT’2004
7
Reconhecimento Automático de Voz (RAV)
Conversão
analógico
digital
Extração de
Atributos da
Voz
Padrões de
referência
Classificação
de padrões
FALA
TEXTO
Abraham Alcaim – SBT’2004
8
Reconhecimento Automático de Voz (RAV)

Baseados em um conjunto de atributos de voz extraídos
em quadros (segmentos) de voz de curta duração --tipicamente a cada 10 ms

Um classificador de padrões --- o HMM, p.ex. --- é projetado
a partir de um conjunto de treinamento
•Palavras Isoladas
•Palavras Conectadas
•Voz Contínua
Vocabulário:
•Pequeno
•Médio
•Grande
•Dependente do Locutor
•Independente do Locutor
Abraham Alcaim – SBT’2004
9
Sistemas de RAV Distribuídos

Grande interesse em disponibilizar serviços de RAV em
redes móveis e IP

Alta complexidade e grande quantidade de memória tornam
atraentes a opção por sistemas de RAV distribuídos
INTERNET
REDES MÓVEIS
•PC: extrai, codifica e transmite
parâmetros da voz
•Tel Celular: extrai, codifica e transmite
parâmetros da voz
•Servidor Remoto: decodifica
parâmetros e faz o reconhecimento a
partir de um classificador de padrões
•Estação-base: decodifica parâmetros
e faz o reconhecimento a partir de um
classificador de padrões
Abraham Alcaim – SBT’2004 10
Sistemas de RAV Distribuídos
Processamento no
Terminal do
Usuário
Processamento na
Estação-Base ou no
Servidor Remoto
Dispositivo
Local
COD
de Voz
ou de
Atributos
V
O
Z
Rede Móvel
ou IP
DECOD
Extrator de
Atributos
Canais com
limitação de faixa
Operação a
baixas taxas
de bits
RAV
Abraham Alcaim – SBT’2004 11
Reconhecimento de Voz a partir dos Parâmetros
do Codificador
DECOD
de
Voz
Dispositivo
Local
COD
de
Voz
V
O
Z
Voz
Rede Móvel
ou IP
Extrator
de Atributos para
Reconhecimento
RAV
Comandos
de
Voz
SÃO TRANSMITIDOS APENAS OS PARÂMETROS
DO CODIFICADOR DE VOZ
Abraham Alcaim – SBT’2004 12
Reconhecimento de Voz a partir da Voz
Decodificada
Dispositivo
Local
COD
de
Voz
V
O
Z
Rede Móvel
ou IP
DECOD
de
Voz
Voz
Extrator
de Atributos para
Reconhecimento
RAV
Comandos
de
Voz
SÃO TRANSMITIDOS APENAS OS PARÂMETROS
DO CODIFICADOR DE VOZ
Abraham Alcaim – SBT’2004 13
Reconhecimento de Voz a partir da Codificação dos
Atributos para Reconhecimento
Dispositivo
Local
COD
de
Atributos
Rede Móvel
ou IP
DECOD
de
Atributos
V
O
Z
RAV
Comandos
de
Voz
SÃO TRANSMITIDOS APENAS OS ATRIBUTOS
DO RECONHECEDOR DE VOZ
Abraham Alcaim – SBT’2004 14
Transmissão dos Parâmetros da Voz em Redes Móveis e IP
CONDIÇÕES ADVERSAS PROVOCAM
DEGRADAÇÕES NA QUALIDADE DE VOZ E
NA TAXA DE RECONHECIMENTO
Altas taxas de
erros de bits
Aumento do no. de
quadros de voz em um pacote:
retardos inaceitáveis
Distorções
introduzidas pelos
codecs a baixa taxa
Fragilidade dos
codecs em ambientes
ruidosos como carros,
restaurantes, aviões,
fábricas, etc
Desvanecimento em Sistemas
Móveis e Congestionamento em IP:
perdas de pacotes em rajadas
Descasamento entre
Treinamento e Operação
do reconhecedor de voz
Abraham Alcaim – SBT’2004 15
Reconhecimento de Voz a partir da Voz
Decodificada: Que atributos usar para reconhecimento?
Dispositivo
Local
COD
de
Voz
V
O
Z
Rede Móvel
ou IP
DECOD
de
Voz
Voz
Voz
?
Extrator
de Atributos para
Reconhecimento
•Parâmetros da Excitação Quantizados
•Parâmetros LSF Quantizados
RAV
Comandos
de
Voz
SÃO TRANSMITIDOS APENAS OS PARÂMETROS
DO CODIFICADOR DE VOZ
Abraham Alcaim – SBT’2004 16
Reconhecimento de Voz a partir da Voz
Decodificada: Que atributos usar para reconhecimento?
DECOD
de
Voz
Voz
Extrator de Atributos para Reconhecimento
(1) CC (Cepstral Coefficients) : estimados a partir do espectro
suave da voz - Para RAV: melhores que LPC
Voz
RAV
Comandos
de
Voz
(2) MFCC (Mel-FrequencyCepstral Coefficients) : um dos mais
usados em RAV - estimados a partir da voz – (DCT das logenergias nas saídas de filtros triangulares centrados nas freqs.
da escala mel) - Mel melhora a taxa de reconhecimento
(3) PLP –Cepstrum (Perceptual Linear Predictive - Cepstrum) :
também muito usados em RAV - estimados a partir da voz –
(usa filtros assimétricos espaçados na escala Bark) –
Resultados em geral similares ao Mel, mas inferiores em
algumas situações (fones)
(4) ZCPA (Zero Crossings with Peak Amplitudes) : DCT de
histogramas (por contagem de picos) do inverso de CZs nas
saídas de FPFs - Para RAV: mais robustos que MFCC em
ruído aditivo
Abraham Alcaim – SBT’2004
17
Reconhecimento de Voz a partir dos Parâmetros
do Codificador: Que atributos usar para reconhecimento?
DECOD
de
Voz
V
O
Z
COD
de
Voz
Voz
Rede Móvel
ou IP
Extrator
de Atributos para
Reconhecimento
?
LSFs
Quantizados
RAV
•Parâmetros da Excitação Quantizados
•Parâmetros LSF Quantizados
Comandos
de
Voz
Abraham Alcaim – SBT’2004 18
Reconhecimento de Voz a partir dos Parâmetros
do Codificador: Atributos Extraídos dos Coeficientes LPC
DECOD
de
Voz
Voz
Extrator de Atributos para Reconhecimento
2 Parâmetros Extraídos a partir dos Coeficientes LPC
(1) LPCC (LPC Cepstral Coefficients) ou CEP
Para RAV: melhores que as LSF
L
S
F
LSFs
Quantizados
L
P
C
(2) MLPCC ou MCEP (na escala Mel):
Para RAV: muito melhores que LPCC
RAV
Comandos
de
Voz
Abraham Alcaim – SBT’2004
19
Reconhecimento de Voz a partir dos Parâmetros do
Codificador: Atributos Extraídos a partir das LSFs
DECOD
de
Voz
Voz
Extrator de Atributos para Reconhecimento
4 Parâmetros Extraídos a partir dos Coeficientes LSF
mais simples que extraídos a partir de LPC
(1) PCC (Pseudo- Cepstral Coefficients): aprox.
Quantizados
L
S
F
RAV
Comandos
de
Voz
do LPCC – só que extraído a partir das LSFs, com
% de reconhecimento levemente inferior à LPCC
L
LSFs
(2) MPCC (na escala Mel): muito melhor que PCC
e comparável à MLPCC
Abraham Alcaim – SBT’2004
20
Reconhecimento de Voz a partir dos Parâmetros
do Codificador: Atributos Extraídos a partir das LSFs
DECOD
de
Voz
Voz
Extrator de Atributos para Reconhecimento
4 Parâmetros Extraídos a partir dos Coeficientes LSF
(3) PCEP (Pseudo- Cepstrum): aprox.
Quantizados
L
L
S
F
LSFs
matemática do LPCC um pouco pior que a do
PCC – porém, com % de reconhecimento
comparável ao PCC (resultado ainda não
disponível na literatura) e menor complexidade
(4) MPCEP (na escala Mel): muito melhor que
RAV
Comandos
de
Voz
PCEP , melhor que MFCC e comparável ao MLPCC
e ao MPCC (resultado ainda não disponível na
literatura)
Abraham Alcaim – SBT’2004
21
Transmissão dos Parâmetros da Voz em Redes Móveis e IP
CONDIÇÕES ADVERSAS PROVOCAM
DEGRADAÇÕES NA QUALIDADE DE VOZ E
NA TAXA DE RECONHECIMENTO
Uma delas Resulta do Desvanecimento em Sistemas
Móveis e do Congestionamento em IP:
perdas de pacotes em rajadas
Abraham Alcaim – SBT’2004 22
Transmissão dos Parâmetros da Voz em Redes Móveis e IP
Característica de rajadas do processo de perdas
 Modelo Markoviano de 2 estados: “Modelo de Gilbert”
p = P[“packet received”“packet lost”]
q = P[“packet lost”“packet received”]
Comprimeno da Rajada B= 1/(1-clp)
onde clp = 1-q
Packet Loss Rate:
PLR = p/(p+q)
Abraham Alcaim – SBT’2004 23
Transmissão dos Parâmetros da Voz em Redes Móveis e IP
Algumas referências de Modelos de Gilbert para simular diferentes
condições de redes
#1 [J. Wang and J. Gibson, “Parameter
interpolation to enhance the frame erasure
robustness of CELP coders in packet
networks”, Proc. ICASSP 2001].
#2 [D. Quercia, L. Docio-Ferandez, C.Garcia-Mateo,
L. Farinetti and J. C. De Martin, “Performance analysis
of distributed speech recognition over IP networks on
the AURORA database”, Proc. ICASSP 2002].
#3 as in [D. Rahikka, J. Collura, T. Fuja, D. Sridhara and T.
Fazel, “Error coding strategies for MELP vocoder in wireless
and ATM environments”, Proc. IEE Seminar on Speech
Coding for Algorithms for Radio Channels, pp. 8/1-8/6,
2000].
Abraham Alcaim – SBT’2004 24
Alguns Resultados e Questões de Interesse
A distorção espectral dos parâmetros LSF é
função da estratégia de quantização adotada
e da taxa de perdas de pacotes
Afeta não só a
qualidade da voz como
o desempenho do
reconhecedor
Como projetar
um bom
quantizador de
modo que
nessas
situações os
desempenhos
sejam pouco
afetados
?
Abraham Alcaim – SBT’2004 25
Alguns Resultados e Questões de Interesse
Em RAV distribuído, extrair os atributos para
reconhecimento dos parâmetros recebidos do
codificador de voz fornece taxas de
reconhecimento maiores do que extrair esses
atributos a partir da voz decodificada
Mas será que, se a voz foi obtida em
ambiente ruidoso, extrair os
parâmetros ZCPA da voz
decodificada não será melhor do que
extrair outros atributos a partir dos
parâmetros recebidos do codificador
?
Abraham Alcaim – SBT’2004 26
Alguns Resultados e Questões de Interesse
• Os codecs de voz usados em redes móveis
e IP extraem os parâmetros que caracterizam a
evolução da envoltória espectral a cada 20 a 30
ms.
• Porém os sistemas de reconhecimento
usualmente requerem extração de atributos
acústicos tipicamente a cada 10 ms
SOLUÇÃO
Interpolar linearmente os
parâmetros a partir do
que foi recebido do
codificador
Mas que parâmetros e como interpolar
LSF ?
MFCC ?
MLPCC ?
MPCEP ?
?
Outros ?
Abraham Alcaim – SBT’2004 27
Alguns Resultados e Questões de Interesse
Algumas Experiências com Reconhecimento
de Voz Distribuído operando na Internet
Mesmo taxas
relativamente altas de
perdas de pacotes
isolados não afetam
de forma muito
significativa o
desempenho do
reconhecedor se
usarmos a técnica de
repetição
Reconhecedor
CDHMM para
seqüências de
dígitos
Perdas em
rajadas
acentuadas,
como pode
acontecer na
Internet, causam
resultados
desastrosos
Abraham Alcaim – SBT’2004 28
Alguns Resultados e Questões de Interesse
Em geral, as perdas de pacotes em rajadas em
redes móveis e IP afetam muito o desempenho
do sistema de reconhecimento
SOLUÇÃO
Também interpolar
linearmente os
parâmetros a partir do
que foi recebido do
codificador
Novamente que parâmetros e como interpolar
?
LSF ?
MFCC ?
MLPCC ?
MPCEP ?
Outros ?
Abraham Alcaim – SBT’2004 29
Alguns Resultados e Questões de Interesse
Fragilidade dos
codecs em ambientes
ruidosos como carros,
restaurantes, aviões,
fábricas, etc
Mas que técnicas usar para o reconhecimento de voz
em um cenário que envolve um grande número de
condições adversas?
Distorções
Perdas de Descasamento
Outros
originais dos
entre
treino
e
pacotes em
Problemas
codecs a
operação
dos
rajadas
baixas taxas
reconhecedores
Péssimo
desempenho
dos sistemas de
reconhecimento
Melhoras significativas na taxa de
reconhecimento através do
emprego de técnicas de realce de
voz
Abraham Alcaim – SBT’2004 30
31
Download

Palestra Convidada 2