Fala e Movimentação Facial
em Avatares
Alexandre Magno Maciel
[email protected]
Ricardo de Oliveira Schmidt
[email protected]
Módulo Text-To-Speech
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Síntese de voz
• Definição: “Geração automática pelo
computador de formas de onda de voz”
[TAH05]
• Outras denominações: Sistema de resposta
vocal ou Text-To-Speech (TTS)
• Dilema: Produção X Reprodução
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Síntese de voz
• Processo de síntese de voz:
Texto
Pré-processamento
Conversão
ortográfico-fonética
Processamento
prosódico
Baixo nível
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Síntese
Alto nível
Sinal
de voz
Síntese de voz
• Processo de síntese de voz:
Texto
Pré-processamento
Conversão
ortográfico-fonética
Processamento
prosódico
Síntese
– Normalização:
encontrar equivalentes “por extenso”
ex: símbolos ($ %), datas, pontuação (, .)
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Sinal
de voz
Síntese de voz
• Processo de síntese de voz:
Texto
Pré-processamento
Conversão
ortográfico-fonética
Processamento
prosódico
Síntese
– Conversão ortográfico-fonética:
encontrar seqüência correta de fonemas
ex: letra “x” -> xumbo, exame, tórax
“o piloto morreu”; “eu piloto bem”
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Sinal
de voz
Síntese de voz
• Processo de síntese de voz:
Texto
Pré-processamento
Conversão
ortográfico-fonética
Processamento
prosódico
Síntese
– Cálculo de intensidade e duração
ex: pausas entre palavras, entonação
(sentenças declarativas, imperativas e
interrogativas)
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Sinal
de voz
Síntese de voz
• Processo de síntese de voz:
Texto
Pré-processamento
Conversão
ortográfico-fonética
Processamento
prosódico
– Geração do áudio
– Estratégias: concatenativa
formantes
articulatória
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Síntese
Sinal
de voz
Síntese de voz
• Geração do áudio:
– Síntese concatenativa : segmentos de áudio
pré-gravadas a partir de um inventário de
unidades previamente construído.
– Tamanho das unidades:
• Palavras
• Silabas (Demissílabas)
• Fones (Difones)
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Síntese de voz
• Geração do áudio:
– Síntese de formantes: modelo acústico que
forma o áudio de acordo com uma série de
parâmetros
– Síntese articulatória: gera o sinal de voz
através da modelação das características
físicas, anatômicas e fisiológicas do aparelho
humano produtor de voz
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Síntese de voz
• Trabalhos realizados:
– Simões, 1999 (dissertação - UNICAMP)
• Dicionário de 2450 unidades
• Síntese concatenativa
• Voz masculina
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Síntese de voz
• Trabalhos realizados:
– Carvalho, 2005 (INESC)
•
•
•
•
DIXI
Síntese concatenativa
Dicionário de 4000 unidades
Vozes masculina e feminina
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Síntese de voz
• Trabalhos realizados:
– DOSVOX (UFRJ) ... 2008
• Auxílio deficientes físicos
• Software livre
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Síntese de voz
• Trabalhos realizados:
– MATRACA (UFCG) ... 2008
• Auxílio deficientes físicos
• Software livre
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Síntese de voz
• Aplicações Comerciais
– IBM ViaVoice 8.0
– NUANCE Dragon Systems
– Jaws for Windows
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Módulo Extração de Fonemas
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Extração de Fonemas
[FEC02]
• Processo de reconhecimento de padrões
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Extração de Fonemas
• Extração de Parâmetros:
– Dar representatividade
– Compactar (redução dimensionalidade)
– Simplicidade computacional
• Principais Parâmetros:
–
–
–
–
Energia por segmento;
Taxa cruzamento por zero;
Número total e diferença entre picos;
Coeficiente de Correlação Normalizado.
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
[FEC02]
Extração de Fonemas
[FEC02]
• Extração de Parâmetros
– Pré-Processamento:
• Pré-ênfase (filter)
• Segmentação (frames)
• Janelamento (stationary)
Palavra “zero”
após pré-ênfase
Segmento
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Janelamento
Extração de Fonemas
• Extração de Parâmetros:
– Principais técnicas: [DIM06]
• Mel Frequency Cepstral Coding (MFCC)
• Linear Predictive Coding (LPC)
• Perceptual Linear Predictive (PLP)
– Experimentos:
• Comparador: HMM
• Base de dados:
–
–
–
–
11 locutores(7 MS,4 WS);
Treino: 3300 locuções;
Teste: 880 locuções;
Frases: 300
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Extração de Fonemas
• Comparação dos Padrões:
– Determinísticas:
• Dynamic Time Warping;
• Quantização Vetorial;
• Redes Neurais.
– Estatísticas
• Função Densidade Probabilidade;
• Modelos de Markov Escondidos.
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Extração de Fonemas
• Trabalhos Realizados
– Fechine, 2002 (UFCG)
•
•
•
•
•
•
Reconhecimento de Locutor
Independente do Texto
Base própria, 20 locutores
20 sentenças por locutor
Parâmetros LPC (12)
Híbrido (QV + HMM)
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Extração de Fonemas
• Trabalhos Realizados
– Rustein, 1998 (UNICAMP)
•
•
•
•
•
•
Reconhecimento de fala
Independente de Locutor
Base própria, 30 locutores
10 sentenças por locutor
Parâmetros diversos
Redes Neurais
Backpropagation
Kohonen
Quantização Vetorial
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Interpretação de Visemas
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Interpretação de Visemas
• Associação entre fonemas/vogais e seus
respectivos visemas
• Parâmetros emocionais
• Energia
• Parâmetros de animação
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Etapa de Animação
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Etapa de Animação
• Construção da animação
• Síntese de video ou técnicas de keyframing
• Parâmetros ao modelo da face associados ao
áudio
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Aminação Facial
• Parametrização ideal para os sistemas de
animação facial
• Satisfazer todos os requisitos para um
sistema de animação facial não é fácil
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Aminação Facial
• Facilidade de uso
– Número de parâmetros, complexidade e
intuitividade
– Maior a flexibilidade, maior a complexidade
• Sutileza
– Movimentos suaves
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Aminação Facial
• Abstração de alto-nível
– Controlar a face com alto-nível de abstração
– Textos com marcações
• Previsibilidade
– O resultado da combinação de parâmetros
deve ser previsível
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Aminação Facial
• Portabilidade
– Troca fácil de modelos faciais
– Reuso de conjuntos de parâmetros
• Medição dos parâmetros
– Descritos em unidades físicas que possam ser
visualmente medidas na face
• Eficiência
– Comunicação através da rede
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Trabalhos
1.
Um sistema para Síntese de Voz e Animação de Faces
Virtuais Voltado para Dispositivos Móveis
2.
InterFace: Um Sistema de Animação Interativa de
Rostos Humanos
3.
Animação Facial Sincronizada com a Fala: Visemas
Dependentes do Contexto Fonético para o Português
do Brasil
4.
Um Sistema de Geração de Expressões Faciais
Dinâmicas em Animações Faciais 3D com
Processamento de Fala
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Trabalhos
1.
Um sistema para Síntese de Voz e Animação de
Faces Virtuais Voltado para Dispositivos Móveis
2.
InterFace: Um Sistema de Animação Interativa de
Rostos Humanos
3.
Animação Facial Sincronizada com a Fala: Visemas
Dependentes do Contexto Fonético para o Português
do Brasil
4.
Um Sistema de Geração de Expressões Faciais
Dinâmicas em Animações Faciais 3D com
Processamento de Fala
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Animação
• Parâmetros pré-calculados
– Qualquer modelo possa ser animado
– Usados pelo algoritmo de deformação
– Definidos offline (antes da execução em tempo
real)
– Captura de pontos através de ferramentas
• Feature Points
• Vértices vizinhos (pesos)
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Animação
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Animação
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Animação
• Busca pelas respectivas FAPs
– Facial Animation Parameters
– Por exemplo:
• Instrução para abrir a boca
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Animação
• Algoritmo de deformação
– Integração dos elementos do processo
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Animação
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Animação
Offline
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Animação
Módulos da
Análise fonética
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Animação
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Animação
Padrão
MPEG-4
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Trabalhos
1.
Um sistema para Síntese de Voz e Animação de Faces
Virtuais Voltado para Dispositivos Móveis
2.
InterFace: Um Sistema de Animação Interativa de
Rostos Humanos
3.
Animação Facial Sincronizada com a Fala: Visemas
Dependentes do Contexto Fonético para o Português
do Brasil
4.
Um Sistema de Geração de Expressões Faciais
Dinâmicas em Animações Faciais 3D com
Processamento de Fala
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
InterFace
• Java e Virtual Reality Modeling Language
• Sistema interativo para criação de diferentes
expressões faciais
• Animação entre as expressões
– Técnicas de composição digital de imagens
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
InterFace
• Dividido em 2 módulos:
– Criação de Expressões
• Suporte para a criação das ações
– Animação Facial
• Simulação do ator virtual através das 3 camadas
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
InterFace
O que é
Expressões Biblioteca
básica ou
modeladas
Ações
Entrada
Qual expressão Modificação do
e intensidade
rosto virtual
Ações definidas Quais ações
(olhos, lábios,
executar
etc)
Inteligência Quais ações
realizar
Saída
Usuário,
roteiro, I.A.,
síntese de voz
Expressões e
intensidades à
camada de
expressões
Quais ações
realizar à
camada de
ações
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
InterFace
• Cada expressão criada individualmente
– Objetos que compõe o rosto
• Expressão neutra
• Biblioteca básica de expressões
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
InterFace
• Biblioteca básica de expressões
– Conjunto de expressões simples
– Nem muitas, nem poucas
– Combinadas para criar expressões complexas
• Vetor de diferenças
• Valores de intensidade
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
InterFace
Dúvida
Ahh
Ohh
esquerda
direita
Rotação
X
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Y
Z
InterFace
Expressões básicas
Expressões combinadas
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
InterFace
• Ações
– Piscar, falar um fonema, cantar, chorar, dormir,
espirrar, ...
– Construídas através das expressões
• Valores de intensidade
– Grupos de ações
• Duas ações de um mesmo grupo podem ser executadas ao
mesmo tempo
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
InterFace
• Exemplos de grupos de ações
– Não intencionais
• Respirar ou piscar os olhos
– Emoções
• Chorar, sorrir ou dormir
– Sincronismo de movimentos labiais
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Trabalhos
1.
Um sistema para Síntese de Voz e Animação de Faces
Virtuais Voltado para Dispositivos Móveis
2.
InterFace: Um Sistema de Animação Interativa de
Rostos Humanos
3.
Animação Facial Sincronizada com a Fala: Visemas
Dependentes do Contexto Fonético para o
Português do Brasil
4.
Um Sistema de Geração de Expressões Faciais
Dinâmicas em Animações Faciais 3D com
Processamento de Fala
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Objetivos
• Definição de representações para os padrões visuais
de movimentação articulatória
– Ou seja, visemas
• Visemas dependentes do contexto fonético
• Modelos para movimentação temporomandibular e
do tecido dos lábios
– Elevação, depressão, protrusão e retração
– Deformações
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Movimentação Facial
• Idéia de pontos de interesse e referência
• Gerados através da captura de video
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Movimentação Facial
• Articulação temporomandibular
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Movimentação Facial
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Trabalhos
1.
Um sistema para Síntese de Voz e Animação de Faces
Virtuais Voltado para Dispositivos Móveis
2.
InterFace: Um Sistema de Animação Interativa de
Rostos Humanos
3.
Animação Facial Sincronizada com a Fala: Visemas
Dependentes do Contexto Fonético para o Português
do Brasil
4.
Um Sistema de Geração de Expressões Faciais
Dinâmicas em Animações Faciais 3D com
Processamento de Fala
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Objetivos
• Sistema para geração de expressões faciais
dinâmicas
– Variações ao longo do tempo
– Ligadas à emoções, fala e fenômenos afetivos
– Sincronismo com fala
– Face tridimensional realista
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Sistema
• VeeM (Virtual emotion-to-expression Model)
– Modelo de emoção para personagens virtuais
falantes
– Conceito de hipercubo emocional no espaço
canônico do R4
• Combinação de expressões básicas para gerar
emoções derivadas
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Sistema
• DynaFeX (Dynamic Facial eXpression)
– Para validação do VeeM
– Autoria e apresentação de animações faciais
– Processo de fala para sincronismo entre fonemas e
visemas
– Malha poligonal tridimensional (baseada no modelo de
animação MPEG-4)
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Familias de emoção
Robert Plutchik
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
VeeM
Alegria-Tristeza
combinada com
Medo-Raiva
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
VeeM
Alegria-Tristeza
combinada com
ConfiançaAbominação
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
VeeM e Parametrização Ideal
• VeeM em relação à parametrização ideal
– Combinação de emoções
– Emoções mapeadas em uma expressão única
– Manipulação do hipercubo emocional é fácil e direta
– Representação da expressão pode ser mapeada para
uma descrição de alto-nível
– VeeM é independente de face
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
MPEG-4
• MPEG-4 para especificação de uma face
– Definição de parâmetros (face neutra)
•
•
•
•
•
•
•
Olhar na direção do eixo z
Músculos da face relaxados
Pálpebras tangentes à íris
Pupila medindo um terço do diâmetro da íris
Lábios em contato (com linha na altura dos cantos)
Boca fechada com dentes se tocando
Língua plana na horizontal com ponta tocando o
limite dos dentes
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
MPEG-4
• A partir de Feature Points (pontos chaves)
– Parâmetros de Animação Facial (FAPs)
• Animação de pontos chaves característicos
• Representação de visemas e emoções
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
MPEG-4
• Visemas e Lip-Sync no MPEG-4
– Transição de um visema para outro é através
da combinação (blending) com um peso
associado a cada um deles
– Variação da intensidade de 0 a 63
Visema final = visema1 x (blend/63) + visema2 x (blend/63)
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
MPEG-4
• Combinação de visemas
– Cuidando as propriedades das FPs
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
DynaFeX
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Referências
1. TATHAM, M., “Developments in Speech Systems” Editora
Wiley, 2005.
2. SIMÕES, F.O., “Implementação de um Sistema de
Conversão Texto-Fala para o Português do Brasil”.
Dissertação de Mestrado, UNICAMP, 1999.
3. DIMITRU, C.O., et al. “A Comparative Study of Feature
Extraction Methods Applied to Continuous Speech
Recognition in Romanian Language”. ELMAR, 2006.
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Referências
4. FECHINE, J.M. “Reconhecimento Automático de
Identidade Vocal Utilizando Modelagem Híbrida:
Paramétrica e Estatística”, UFCG, 2002.
5. RUSTEIN, F.O. “Sistema de Reconhecimento de Fala
Baseado em Redes Neurais Artificiais” Tese de
doutorado,UNICAMP, 1998.
6. FIUZA, M.; Monteiro, M.; Dourato, C.; Soares, J.;
Barroso, G. “Um sistema para Síntese de Voz e
Animação de Faces Virtuais Voltado para Dispositivos
Móveis,” III CONNEPI, 2008.
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Referências
7. WEY, J. “InterFace: Um Sistema de Animação Interativa
de Rostos Humanos,” Dissertação de mestrado, Escola
Politécnica, USP, 1999.
8. MARTINO, J. de. “Animação Facial Sincronizada com a
Fala: Visemas Dependentes do Contexto Fonético para o
Português do Brasil,” Tese de doutorado, DCA/FEEC
UNICAMP, 2005.
9. RODRIGUES, P. “Um Sistema de Geração de
Expressões Faciais Dinâmicas em Animações Faciais 3D
com Processamento de Fala,” Tese de doutorado,
Departamento de Informática, PUC-RJ, 2007.
Alexandre Maciel e Ricardo Schmidt {[email protected]; [email protected]}
Fala e Movimentação Facial
em Avatares
Alexandre Magno Maciel
[email protected]
Ricardo de Oliveira Schmidt
[email protected]
Download

avatar.maciel - Centro de Informática da UFPE