USO DE RECONHECIMENTO AUTOMÁTICO DE
VOZ EM PORTUGUÊS DO BRASIL NA
GERAÇÃO DE CLOSED CAPTION
Luiz Fausto (Rede Globo)
Edilberto Strauss (UFRJ)
Flávio Mello (UFRJ)
Agenda
•
•
•
•
•
•
•
Closed Caption e Acessibilidade
Legislação
Estenotipia
Reconhecimento Automático de Voz
Uso ao Redor do Mundo
Situação Brasileira
Considerações Finais
CLOSED CAPTION
E ACESSIBILIDADE
Deficientes auditivos:
quase 10 milhões
Outras Situações de Interesse
• Quando o som da TV
não pode ser utilizado:
– Ambientes Barulhentos
(ex: academia, restaurante)
– Hospitais
– Para assistir TV à noite
sem acordar ninguém
• Para aprendizagem da língua
LEGISLAÇÃO
Norma Complementar Nº 001/2006
• Uso obrigatório de Legenda Oculta (Closed Caption) pelas
emissoras, conforme cronograma estabelecido:
Junho / 2012 12 horas / dia
Abril / 2014 16 horas / dia
Abril / 2015 20 horas / dia
Junho / 2017 24 horas / dia
NBR 15290:2005
Diretrizes para a legenda oculta
Acertos:
• no sistema CC ao vivo, o texto das legendas deve ter no
mínimo 98% de acerto;
• no sistema CC pré-gravada, o texto das legendas deve ter
100% de acerto.
Sincronia:
• no sistema CC ao vivo pode ser tolerado um atraso máximo
de quatro segundos;
• no sistema CC pré-gravada a legenda deve acompanhar o
tempo exato do quadro ou cena.
Erros de Closed Caption
Fala Espontânea ao Vivo
ESTENOTIPIA
Estenotipia
• Digitação em tempo real utilizando símbolos
fonéticos em teclado especial (estenótipo)
• Os símbolos são convertidos em palavras de
acordo com um dicionário
• Mão-de-obra escassa e cara, treinamento
demorado
• Erros: digitação, palavras fora do dicionário
RECONHECIMENTO AUTOMÁTICO DE VOZ
Erros: Limitações dos algoritmos, escassez de bases de dados para
treinamento, diferenças entre dados de treinamento e aplicação
USO AO REDOR
DO MUNDO
RAV para Closed Caption
• Relocução:
– Sistema adaptado a uma
voz, sem precisar
considerar a variabilidade
fonética entre pessoas
– Melhor relação sinal/ruído
– Correção da disfluência
oral
• Custo operacional mais
baixo que estenotipia
País
Sistema de RAV Modelo Acústico
NHK
AUDIMUS.media
Adaptado para
apresentador ou
relocutor.
Dicionário /
Modelo de
Linguagem
-
Independente de Atualização diária
locutor.
automática.
Correção
Manual
Acurácia
95% (sem
Sim. Tempo
correção) a
real com até 4 100% (com 4
operadores. operadores de
correção)
Latência
2s (sem
correção ou
relocução)
-
85%
-
IBM ViaVoice
Adaptado para
relocutor.
Segmentado por
assunto.
-
95 a 98%
-
CRIM
Adaptado para
relocutor.
Atualização
semiautomática.
Segmentado por
assunto.
Atualização semiautomática.
Sim. Tempo
real e pósprodução.
89 a 93% (sem
correção em
tempo real)
2s (sistema de
RAV) + 1s
(relocução) +
correção
-
-
82%
-
Univ. Maribor
Independente de
locutor. Treinado
com áudio
parcialmente
SITUAÇÃO
BRASILEIRA
IBM ViaVoice
• Sistema não otimizado para a
aplicação na geração de legenda
oculta
• Produto descontinuado há quase 10
anos, sem substituto comercial para
o Português do Brasil
• Ausência de suporte corretivo e
evolutivo
• Potenciais problemas para manter o
sistema funcionando a longo prazo
• A quantidade de licenças existentes é
limitada
Evolução
• Houveram avanços significativos na tecnologia de
reconhecimento de voz nos últimos 10 anos
(embora não no Brasil)
• Podemos dispor de mais capacidade computacional do que
normalmente se supõe disponível para os aplicativos de
reconhecimento de voz local, viabilizando a utilização de
algoritmos mais complexos
Software Livre
CMUSphinx
iATROS
FalaBrasil
SRILM
A pretty woman is
walking down the street.
Uma linda mulher está andando pela rua.
Uma linda mulher está pela rua andando.
Uma linda mulher pela rua andando está.
Uma linda mulher pela rua está andando.
Uma linda mulher andando está pela rua.
Uma linda mulher andando pela rua está.
Uma mulher linda está andando pela rua.
Uma mulher linda está pela rua andando.
Uma mulher linda pela rua andando está.
Uma mulher linda pela rua está andando.
Uma mulher linda andando está pela rua.
Uma mulher linda andando pela rua está.
Andando pela rua está uma linda mulher.
Andando pela rua está uma mulher linda.
Andando pela rua uma linda mulher está.
Andando pela rua uma mulher linda está.
Andando está pela rua uma linda mulher.
Andando está pela rua uma mulher linda.
Andando está uma linda mulher pela rua.
Andando está uma mulher linda pela rua.
Andando uma linda mulher pela rua está.
Andando uma linda mulher está pela rua.
Andando uma mulher linda pela rua está.
Andando uma mulher linda está pela rua.
Está andando pela rua uma linda mulher.
Está andando pela rua uma mulher linda.
Está andando uma linda mulher pela rua.
Está andando uma mulher linda pela rua.
Está pela rua andando uma linda mulher.
Está pela rua andando uma mulher linda.
Está pela rua uma linda mulher andando.
Está pela rua uma mulher linda andando.
Está uma linda mulher andando pela rua.
Está uma linda mulher pela rua andando.
Está uma mulher linda andando pela rua.
Está uma mulher linda pela rua andando.
Pela rua andando está uma linda mulher.
Pela rua andando está uma mulher linda.
Pela rua andando uma linda mulher está.
Pela rua andando uma mulher linda está.
Pela rua está andando uma linda mulher.
Pela rua está andando uma mulher linda.
Pela rua está uma linda mulher andando.
Pela rua está uma mulher linda andando.
• A língua portuguesa, tendo uma
gramática mais livre que a língua
inglesa, produz modelos de
linguagem mais complexos.
estudo
• Como existem
estuda
mais flexões de
study estudamos
palavras,
estudais
requer-se
também um
estudam
dicionário bem
querido
maior para
querida
uma aplicação dear
queridos
equivalente.
queridas
Acervo
• Para adaptar um sistema de reconhecimento de voz em outra língua é
necessário dispor de um vasto acervo de áudio com transcrição textual
para treinar o sistema.
• Para o Português do Brasil, é necessário um acervo substancialmente
maior do que seria para o inglês, para obter-se a mesma acurácia.
Entretanto, as bases de dados disponíveis publicamente para o
Português do Brasil são bem menores que as disponíveis para Inglês.
• O acervo das emissoras pode contribuir para o desenvolvimento das
bases de dados necessárias.
CONSIDERAÇÕES
FINAIS
Opções para contornar a falta de sistemas
de RAV para geração de CC em Português
do Brasil:
• Levantar as opções software livre
disponíveis
• Examinar os algoritmos utilizados e os
parâmetros de configuração disponíveis,
quanto à acurácia e ao custo
computacional
• Avaliar bases de dados públicas para
treinamento dos sistemas
• Propor formas de aproveitar o acervo
das emissoras no desenvolvimento das
bases de dados
• Verificar otimizações implementadas em
sistemas de reconhecimento de voz
nessa aplicação em emissoras ao redor
do mundo
PERGUNTAS?
OBRIGADO!
Download

Uso de Reconhecimento Automático de Voz em Português do Brasil