Aplicações de Processamento de Voz Prof. Marcio Eisencraft 1 Sumário 1. Introdução 2. Modelagem básica 3. Aplicações: 1. 2. 3. 4. Geração de fonemas Reconhecimento de fonemas Voz sintética Codificação 4. Trabalhos presentes e futuros Universidade Presbiteriana Mackenzie 2 1. Introdução Processamento de voz é um dos mais importantes instrumentos da era digital. Exemplos de aplicação: discagem automática atendimento automático auxílio de pessoas deficientes Segurança Uma das grandes áreas de pesquisa dentro da Engeharia de Telecomunicações Universidade Presbiteriana Mackenzie 3 2. Modelagem básica (1/2) O trato vocal Universidade Presbiteriana Mackenzie 4 2. Modelagem básica (2/2) Universidade Presbiteriana Mackenzie 5 3. Aplicações 1. 2. 3. 4. Geração de fonemas Reconhecimento de fonemas Voz sintética Codificação e compactação Universidade Presbiteriana Mackenzie 6 3.1 Geração de fonemas Trato vocal modelado como filtros digitais com atrasos e ganhos. Universidade Presbiteriana Mackenzie 7 3.2 Reconhecimento de fonemas (1/2) Universidade Presbiteriana Mackenzie 8 3.2 Reconhecimento de fonemas (2/2) Forma de Onda - vogal A Forma de Onda - vogal U Formantes e relação entre elas são tabeladas e 1 0.2 0.1 e sexo do falante. usadas para identificar vogais 0.5 Amplitude Amplitude 0 -0.5 -1 0 1 2 3 4 5 6 Tempo (s) Densidade Espectral 7 8 -0.3 0 9 Nornal Yule-Walker -50 1 2 3 4 Tempo (s) Densidade Espectral 5 -20 Amplitude Amplitude -0.1 -0.2 0 -100 0 0 6 Nornal Yule-Walker -40 -60 -80 -100 500 1000 1500 2000 Freq 2500 3000 3500 4000 0 500 Universidade Presbiteriana Mackenzie 1000 1500 2000 Freq 2500 3000 3500 4000 9 3.3 Voz sintética Tendo um banco de dados com os coeficientes 1 0.5 para cada fonema, é possível gerar voz sintética. 0 -0.5 Problema: sons1.5são 2vocálicos ou 3.5 fricativos. 0.5 1 2.5 3 4 4.5 original 4 x 10 impulsos 1 0.5 0 -0.5 0.5 1 1.5 2 2.5 3 3.5 4 4.5 4 x 10 ruido 1 0 -1 0.5 1 1.5 2 2.5 3 3.5 4 4.5 4 x 10 Universidade Presbiteriana Mackenzie 10 3.4 Codificação – Compactação Coeficientes de predição – LPC Transmite-se apenas o erro de predição ao invés do próprio sinal São necessários menos bits para a codificação Usado, por exemplo, em sistemas de telefonia digital – economia de até 50% na taxa de transmissão. original 1 0 -1 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 4 Reconstruido Erro de predicao Predicao x 10 1 0 -1 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 4 x 10 1 0 -1 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 4 x 10 1 0 -1 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 4 x 10 Universidade Presbiteriana Mackenzie 11 4. Alguns trabalhos atuais e futuros Eliminação de ruído em voz (videoconferência) Sincronismo automatizado entre articulação e fala para animações Reconhecimento de voz em ambientes barulhentos Novas técnicas de compactação baseadas em percepção auditiva (wavelets) Universidade Presbiteriana Mackenzie 12 Algumas Referências PICKETT, J. M. Acoustics Of Speech Communication: Fundamentals, Speech Perception Theory, And Technology. 2. ed. New Jersey: Prentice Hall. 1999. 404 p RABINER, L.R.; SCHAFER, R. W. Digital Processing of Speech Signals. 7. ed., Prentice Hall. 1978. STONICK, V. L. Labs for signals and systems: using MATLAB. PWS, c1996. BURRUS, C. S. et al. Computer-based exercises for signal processing using Matlab 5. Prentice-Hall, c1998. BEHLAU, M. S.; et al. Análise Espectrográfica de Formantes das vogais do português brasileiro. Revista ACTA AWHO, Volume VII, n. 2, p. 74-85, 1988. MONTEIRO, M. C. Uma análise espectrográfica das formantes das vogais orais do português brasileiro falado em São Paulo. 1995. 74f. Monografia (Especialização)-Escola Paulista de Medicina, São Paulo, São Paulo, 1995. Universidade Presbiteriana Mackenzie 13 FIM Contato: [email protected] meusite.mackenzie.br/marcioft Universidade Presbiteriana Mackenzie 14