Estado da Arte
Anderson Gomes
[email protected]
Principais Empresas e Centros de
Pesquisa









Google
Darpa
IBM
Philips
Nuance
INESC
UFRJ
UCS
Nagoya Institute of Technology
Google
Possui um grupo de pesquisa de voz
 GAudi

 Sistema de reconhecimento de voz
 Utilizado para indexar palavras faladas em
vídeos
 Restringe-se a política
 Vocabulário será ampliado

Mudar o “modo” de se fazer uma
pesquisa
DARPA
Grupo de pesquisa de voz
 Sistema de tradução entre diversas
línguas para uso militar
 Não realiza transcrição

IBM
Possui um grupo de pesquisa de voz
 ViaVoice

 Reconhece uma única Voz

Sisi
 Transforma a voz do usuário em sinais para
comunicação com deficientes auditivos
 Avatares representam os sinais

Fortes avanços no desenvolvimento de
um sistema de reconhecimento de voz
audio-visual
Philips

Speech Magic
 Softwares e hardwares
 Reconhece uma única Voz

Speech SDK
 Reconhece uma única Voz
 SDK para ser usada no desenvolvimento de
outros softwares
Nuance - Dragon Systems

Dragon NaturallySpeaking
 Reconhece uma única voz
INESC-ID

TECNOVOZ
 Amplo projeto envolvendo algumas
empresas e universidades
 Abrange vários projetos, inclusive
transcrição e legendagem automática
 O INESC-ID é responsável pelo módulo de
conversão fala-texto, além de outros
UFRJ

Implementação de um LVCSR para o
português brasileiro
 Rafael Teruszkin
 Fernando Gil Vianna Resende Junior
UCS

BRAVOZ – Reconhecimento de voz
com suporte a grandes vocabulários
(LVCSR) para o português brasileiro
 Verônica Feldkircher
 Vanessa Davanzo
 André Gustavo Adami (orientador)
Nagoya Institute of Technology

Julius
 Software open source de reconhecimento
de voz
 Japonês
 Pode ser integrado a outras línguas
Arquitetura
Speech
input
Spectral
analysis
Feature
vector
Word-level
match
Sentence-level
match
Recognized
sentence
Word
model
Word model
composition
Subword
models
Lexicon
Grammar
Semantics
Arquitetura – Primeiro passo

Spectral analysis
 Retorna o vetor das
características do sinal de voz
Speech
input
Spectral
analysis
Feature
vector
Arquitetura – Segundo passo

Junção de duas partes:
 World-level match
 Sentence-level match
Word-level
match
Sentence-level
match
Arquitetura – Segundo passo

Word-level match:
 Conjunto de subpalavras HMMs
 Forma léxica das palavras
 Criação de conjunto de modelo de palavras HMMs
Word-level
match
Sentence-level
match
Word
model
Word model
composition
Subword
models
Lexicon
Grammar
Semantics
Arquitetura – Segundo passo

Sentence-level match:
 Word grammar (syntax)
 Semantics
 Composição de um modelo de linguagem FSN
Word-level
match
Sentence-level
match
Word
model
Word model
composition
Subword
models
Lexicon
Grammar
Semantics
Arquitetura – Segundo passo

Integração do word-level match e do sentence-level
match
 Level Building (LB) algorithm
 Exemplo de integração de uma gramática FSN em um
algoritmo LB
Arquitetura

Após a integração dos módulos de wordlevel match e sentence-level match é
formada a sentença reconhecida
Word-level
match
Sentence-level
match
Recognized
sentence
Word
model
Word model
composition
Subword
models
Lexicon
Grammar
Semantics