Aplicações de
Processamento de Voz
Prof. Marcio Eisencraft
1
Sumário
1. Introdução
2. Modelagem básica
3. Aplicações:
1.
2.
3.
4.
Geração de fonemas
Reconhecimento de fonemas
Voz sintética
Codificação
4. Trabalhos presentes e futuros
Universidade Presbiteriana Mackenzie
2
1. Introdução


Processamento de voz é um dos mais
importantes instrumentos da era digital.
Exemplos de aplicação:
discagem automática
 atendimento automático
 auxílio de pessoas deficientes
 Segurança


Uma das grandes áreas de pesquisa dentro da
Engeharia de Telecomunicações
Universidade Presbiteriana Mackenzie
3
2. Modelagem básica (1/2)

O trato vocal
Universidade Presbiteriana Mackenzie
4
2. Modelagem básica (2/2)
Universidade Presbiteriana Mackenzie
5
3. Aplicações
1.
2.
3.
4.
Geração de fonemas
Reconhecimento de fonemas
Voz sintética
Codificação e compactação
Universidade Presbiteriana Mackenzie
6
3.1 Geração de fonemas

Trato vocal modelado como filtros digitais com
atrasos e ganhos.
Universidade Presbiteriana Mackenzie
7
3.2 Reconhecimento de fonemas (1/2)
Universidade Presbiteriana Mackenzie
8
3.2 Reconhecimento de fonemas (2/2)
Forma de Onda - vogal A
Forma de Onda - vogal U
Formantes
e
relação
entre
elas
são
tabeladas
e
1
0.2
0.1 e sexo do falante.
usadas
para identificar vogais
0.5
Amplitude
Amplitude

0
-0.5
-1
0
1
2
3
4
5
6
Tempo (s)
Densidade Espectral
7
8
-0.3
0
9
Nornal
Yule-Walker
-50
1
2
3
4
Tempo (s)
Densidade Espectral
5
-20
Amplitude
Amplitude
-0.1
-0.2
0
-100
0
0
6
Nornal
Yule-Walker
-40
-60
-80
-100
500
1000
1500
2000
Freq
2500
3000
3500
4000
0
500
Universidade Presbiteriana Mackenzie
1000
1500
2000
Freq
2500
3000
3500
4000
9
3.3 Voz sintética
Tendo
um banco de dados com os coeficientes
1
0.5
para
cada fonema, é possível gerar voz sintética.
0
-0.5
 Problema:
sons1.5são 2vocálicos
ou 3.5
fricativos.
0.5
1
2.5
3
4
4.5
original

4
x 10
impulsos
1
0.5
0
-0.5
0.5
1
1.5
2
2.5
3
3.5
4
4.5
4
x 10
ruido
1
0
-1
0.5
1
1.5
2
2.5
3
3.5
4
4.5
4
x 10
Universidade Presbiteriana Mackenzie
10
3.4 Codificação – Compactação

Coeficientes de predição – LPC
Transmite-se apenas o erro de predição ao invés
do próprio sinal
São necessários menos bits para a codificação
Usado, por exemplo, em sistemas de telefonia
digital – economia de até 50% na taxa de
transmissão.
original

1
0
-1
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
4


Reconstruido Erro de predicao Predicao
x 10
1
0
-1
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
4
x 10
1
0
-1
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
4
x 10
1
0
-1
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
4
x 10
Universidade Presbiteriana Mackenzie
11
4. Alguns trabalhos atuais e futuros




Eliminação de ruído em voz (videoconferência)
Sincronismo automatizado entre articulação e fala para
animações
Reconhecimento de voz em ambientes barulhentos
Novas técnicas de compactação baseadas em
percepção auditiva (wavelets)
Universidade Presbiteriana Mackenzie
12
Algumas Referências






PICKETT, J. M. Acoustics Of Speech Communication: Fundamentals,
Speech Perception Theory, And Technology. 2. ed. New Jersey: Prentice
Hall. 1999. 404 p
RABINER, L.R.; SCHAFER, R. W. Digital Processing of Speech
Signals. 7. ed., Prentice Hall. 1978.
STONICK, V. L. Labs for signals and systems: using MATLAB. PWS,
c1996.
BURRUS, C. S. et al. Computer-based exercises for signal processing using
Matlab 5. Prentice-Hall, c1998.
BEHLAU, M. S.; et al. Análise Espectrográfica de Formantes das
vogais do português brasileiro. Revista ACTA AWHO, Volume VII,
n. 2, p. 74-85, 1988.
MONTEIRO, M. C. Uma análise espectrográfica das formantes das vogais
orais do português brasileiro falado em São Paulo. 1995. 74f. Monografia
(Especialização)-Escola Paulista de Medicina, São Paulo, São Paulo,
1995.
Universidade Presbiteriana Mackenzie
13
FIM
Contato: [email protected]
meusite.mackenzie.br/marcioft
Universidade Presbiteriana Mackenzie
14