USO DE RECONHECIMENTO AUTOMÁTICO DE VOZ EM PORTUGUÊS DO BRASIL NA GERAÇÃO DE CLOSED CAPTION Luiz Fausto (Rede Globo) Edilberto Strauss (UFRJ) Flávio Mello (UFRJ) Agenda • • • • • • • Closed Caption e Acessibilidade Legislação Estenotipia Reconhecimento Automático de Voz Uso ao Redor do Mundo Situação Brasileira Considerações Finais CLOSED CAPTION E ACESSIBILIDADE Deficientes auditivos: quase 10 milhões Outras Situações de Interesse • Quando o som da TV não pode ser utilizado: – Ambientes Barulhentos (ex: academia, restaurante) – Hospitais – Para assistir TV à noite sem acordar ninguém • Para aprendizagem da língua LEGISLAÇÃO Norma Complementar Nº 001/2006 • Uso obrigatório de Legenda Oculta (Closed Caption) pelas emissoras, conforme cronograma estabelecido: Junho / 2012 12 horas / dia Abril / 2014 16 horas / dia Abril / 2015 20 horas / dia Junho / 2017 24 horas / dia NBR 15290:2005 Diretrizes para a legenda oculta Acertos: • no sistema CC ao vivo, o texto das legendas deve ter no mínimo 98% de acerto; • no sistema CC pré-gravada, o texto das legendas deve ter 100% de acerto. Sincronia: • no sistema CC ao vivo pode ser tolerado um atraso máximo de quatro segundos; • no sistema CC pré-gravada a legenda deve acompanhar o tempo exato do quadro ou cena. Erros de Closed Caption Fala Espontânea ao Vivo ESTENOTIPIA Estenotipia • Digitação em tempo real utilizando símbolos fonéticos em teclado especial (estenótipo) • Os símbolos são convertidos em palavras de acordo com um dicionário • Mão-de-obra escassa e cara, treinamento demorado • Erros: digitação, palavras fora do dicionário RECONHECIMENTO AUTOMÁTICO DE VOZ Erros: Limitações dos algoritmos, escassez de bases de dados para treinamento, diferenças entre dados de treinamento e aplicação USO AO REDOR DO MUNDO RAV para Closed Caption • Relocução: – Sistema adaptado a uma voz, sem precisar considerar a variabilidade fonética entre pessoas – Melhor relação sinal/ruído – Correção da disfluência oral • Custo operacional mais baixo que estenotipia País Sistema de RAV Modelo Acústico NHK AUDIMUS.media Adaptado para apresentador ou relocutor. Dicionário / Modelo de Linguagem - Independente de Atualização diária locutor. automática. Correção Manual Acurácia 95% (sem Sim. Tempo correção) a real com até 4 100% (com 4 operadores. operadores de correção) Latência 2s (sem correção ou relocução) - 85% - IBM ViaVoice Adaptado para relocutor. Segmentado por assunto. - 95 a 98% - CRIM Adaptado para relocutor. Atualização semiautomática. Segmentado por assunto. Atualização semiautomática. Sim. Tempo real e pósprodução. 89 a 93% (sem correção em tempo real) 2s (sistema de RAV) + 1s (relocução) + correção - - 82% - Univ. Maribor Independente de locutor. Treinado com áudio parcialmente SITUAÇÃO BRASILEIRA IBM ViaVoice • Sistema não otimizado para a aplicação na geração de legenda oculta • Produto descontinuado há quase 10 anos, sem substituto comercial para o Português do Brasil • Ausência de suporte corretivo e evolutivo • Potenciais problemas para manter o sistema funcionando a longo prazo • A quantidade de licenças existentes é limitada Evolução • Houveram avanços significativos na tecnologia de reconhecimento de voz nos últimos 10 anos (embora não no Brasil) • Podemos dispor de mais capacidade computacional do que normalmente se supõe disponível para os aplicativos de reconhecimento de voz local, viabilizando a utilização de algoritmos mais complexos Software Livre CMUSphinx iATROS FalaBrasil SRILM A pretty woman is walking down the street. Uma linda mulher está andando pela rua. Uma linda mulher está pela rua andando. Uma linda mulher pela rua andando está. Uma linda mulher pela rua está andando. Uma linda mulher andando está pela rua. Uma linda mulher andando pela rua está. Uma mulher linda está andando pela rua. Uma mulher linda está pela rua andando. Uma mulher linda pela rua andando está. Uma mulher linda pela rua está andando. Uma mulher linda andando está pela rua. Uma mulher linda andando pela rua está. Andando pela rua está uma linda mulher. Andando pela rua está uma mulher linda. Andando pela rua uma linda mulher está. Andando pela rua uma mulher linda está. Andando está pela rua uma linda mulher. Andando está pela rua uma mulher linda. Andando está uma linda mulher pela rua. Andando está uma mulher linda pela rua. Andando uma linda mulher pela rua está. Andando uma linda mulher está pela rua. Andando uma mulher linda pela rua está. Andando uma mulher linda está pela rua. Está andando pela rua uma linda mulher. Está andando pela rua uma mulher linda. Está andando uma linda mulher pela rua. Está andando uma mulher linda pela rua. Está pela rua andando uma linda mulher. Está pela rua andando uma mulher linda. Está pela rua uma linda mulher andando. Está pela rua uma mulher linda andando. Está uma linda mulher andando pela rua. Está uma linda mulher pela rua andando. Está uma mulher linda andando pela rua. Está uma mulher linda pela rua andando. Pela rua andando está uma linda mulher. Pela rua andando está uma mulher linda. Pela rua andando uma linda mulher está. Pela rua andando uma mulher linda está. Pela rua está andando uma linda mulher. Pela rua está andando uma mulher linda. Pela rua está uma linda mulher andando. Pela rua está uma mulher linda andando. • A língua portuguesa, tendo uma gramática mais livre que a língua inglesa, produz modelos de linguagem mais complexos. estudo • Como existem estuda mais flexões de study estudamos palavras, estudais requer-se também um estudam dicionário bem querido maior para querida uma aplicação dear queridos equivalente. queridas Acervo • Para adaptar um sistema de reconhecimento de voz em outra língua é necessário dispor de um vasto acervo de áudio com transcrição textual para treinar o sistema. • Para o Português do Brasil, é necessário um acervo substancialmente maior do que seria para o inglês, para obter-se a mesma acurácia. Entretanto, as bases de dados disponíveis publicamente para o Português do Brasil são bem menores que as disponíveis para Inglês. • O acervo das emissoras pode contribuir para o desenvolvimento das bases de dados necessárias. CONSIDERAÇÕES FINAIS Opções para contornar a falta de sistemas de RAV para geração de CC em Português do Brasil: • Levantar as opções software livre disponíveis • Examinar os algoritmos utilizados e os parâmetros de configuração disponíveis, quanto à acurácia e ao custo computacional • Avaliar bases de dados públicas para treinamento dos sistemas • Propor formas de aproveitar o acervo das emissoras no desenvolvimento das bases de dados • Verificar otimizações implementadas em sistemas de reconhecimento de voz nessa aplicação em emissoras ao redor do mundo PERGUNTAS? OBRIGADO!