Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Desenvolvimento de Aplicativos Usando Sı́ntese e
Reconhecimento de Voz
Aldebaro Klautau
PPGEE/ITEC/UFPA
Universidade Federal do Pará
26/11/2009
1 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
1
Introdução
Histórico
Estado-da-arte
Motivação
Objetivos
2
Tecnologias de Voz
Reconhecimento Automático de Voz
Sı́ntese de Voz
3
Interfaces
Interface com o Usuário
Engines e Language Packs
Application Programming Interface
4
Aplicativos Baseados em Voz
VoiceNavigate
PPTController
Simon 0.2
5
Mais Detalhes...
6
Conclusão
LaPS
Considerações Finais
Trabalhos Futuros
2 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Histórico
Estado-da-arte
Motivação
Objetivos
Máquinas que falam e escutam
Equipar máquinas com modalidades sensoriais humanas: um
sonho moderno e fascinação.
O homem é o único capaz de falar?
Falar é mais fácil que escutar.
A realidade é que ainda estamos longe das máquinas
apresentadas na ficção cientı́fica.
3 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Histórico
Estado-da-arte
Motivação
Objetivos
2001: Uma odisséia no espaço
HAL: fala, escuta, joga xadrez, soluciona problemas !!!
“Let me put it this way, Mr. Amer. The 9000 series is the most
reliable computer ever made. No 9000 computer has ever made a
mistake or distorted information. We are all, by any practical
definition of the words, foolproof and incapable of error.”
4 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Histórico
Estado-da-arte
Motivação
Objetivos
Sı́ntese de voz (“Text-to-Speech”)
Transformar:
“É fácil sintetizar fala”
Em:
5 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Histórico
Estado-da-arte
Motivação
Objetivos
Primeiro sintetizador mecânico: VODER
Homer Dudley, exibido na World Fair’s New York City, 1939.
6 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Histórico
Estado-da-arte
Motivação
Objetivos
Evolução da sı́ntese de voz
“Voder”, Homer Dudley, 1939
“OVE”, Gunnar Fant, 1953.
“PAT”, Walter Lawrence, 1962.
“Bell Laboratories text-to-speech system”, 1973.
“Voz feminina”, Dennis Klatt, 1986.
“Madalena”, Nuance RealSpeak Solo, 2005.
7 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Histórico
Estado-da-arte
Motivação
Objetivos
Reconhecimento automático de voz
Transformar:
Em:
“É fácil nós reconhecermos fala”
8 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Histórico
Estado-da-arte
Motivação
Objetivos
Evolução do reconhecimento automático de voz
1952: Bell Labs lança reconhecedor de dı́gitos “single-speaker”.
1960: FFT, predição linear, programação dinâmica:
NEC: reconhecedor de dı́gitos dependente de locutor.
1970: Projeto ARPA SUR 5-year:
Hidden Markov model: um grande avanço e mudança de paradigma.
1980-1990: Bases de dados DARPA:
Verbex: reconhecedor dependente de locutor, vocabulário reduzido.
Dragon Systems, IBM Via Voice: sistemas de ditado.
Sistemas ASR comerciais: AT&T, Nuance, SpeechWork, L&H.
Sistemas ASR multilinguais: serviços e aplicações.
2000: Projeto de tradução de idiomas DARPA GALE:
NTT: sistema de tradução para aparelhos celulares.
IBM: Tradutor portátil de voz usado no Iraque.
9 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Histórico
Estado-da-arte
Motivação
Objetivos
Estado-da-arte
A evolução da área de processamento de voz também é
atestada pelas projeções para o mercado, que em 2002 foi de
U$ 677 milhões. Em 2007, o mercado de reconhecimento de
voz (não incluindo sı́ntese) foi de U$1,6 bilhão e a Opus
Research prevê uma taxa anual de crescimento de 14,5%.
Além do aspecto econômico, o processamento de voz é um
dos melhores exemplos de um relevante desafio enfrentado
pela computação (e áreas afins): a construção de máquinas
capazes de interagir de forma natural com seres humanos.
10 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Histórico
Estado-da-arte
Motivação
Objetivos
Tipos de aplicações de voz
Aplicações convencionais:
Sistemas de diálogo falado.
Interactive Voice Response (IVR).
Desktop.
Automação (casa do futuro, carros, etc).
Aplicações multimodais.
Aplicações multilinguais.
11 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Histórico
Estado-da-arte
Motivação
Objetivos
Motivação
É incontestável a importância do processamento da voz (ou
fala) na computação moderna.
Muitos são os softwares de voz disponı́veis no mercado
programáveis via API. Porém, inexiste atualmente uma gama
variada de recursos em PB.
Por exemplo, o Windows Vista não incorpora tecnologia de
voz em PB e a IBM recentemente descontinuou o seu software
de reconhecimento (ViaVoice) para a lı́ngua portuguesa.
Discutir alguns esforços realizados nesse sentido, avaliando a
utilização de APIs de voz (e.g. Microsoft e Sun) existentes,
assim como recursos próprios desenvolvidos no LaPS, para a
construção de aplicativos com interface oral em PB.
12 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Histórico
Estado-da-arte
Motivação
Objetivos
Objetivos
Ao invés de se deter em aspectos da ciência da fala, tais
como, o uso de modelos probabilı́sticos para reconhecimento
de voz, o foco aqui será a tecnologia da camada de aplicação
(API), a qual faz uso dessas tecnologias a partir das camadas
mais baixas.
Serão expostos os principais tipos de aplicações de voz e os
pontos que devem ser levados em consideração no momento
da elaboração da interface com o usuário e da escolha do
software.
Por fim, será abordada a construção de aplicativos baseados
em voz.
13 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Histórico
Estado-da-arte
Motivação
Objetivos
DEMO
Uma aplicação simples com ASR + TTS
14 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Reconhecimento Automático de Voz
Sı́ntese de Voz
Reconhecimento automático de voz
Definição segundo a Wikipedia:
“Tecnologias de reconhecimento permitem que computadores
equipados com microfones interpretem a fala humana.”
Como funciona um sistema de reconhecimento?
A fala é uma sequência de palavras.
Cada palavra consiste numa série de sons (fonema).
Dicionário fonético: conversão de uma sequência de caracteres
em sequência de fonemas.
Modelos estatı́sticas baseados em probabilidades:
Acústica: cadeias escondidas de Markov (HMM).
Da lı́ngua: modelos n-gramas.
Modelos não-probabilı́sticos: context-free grammars.
15 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Reconhecimento Automático de Voz
Sı́ntese de Voz
Reconhecimento automático de voz
O último integrante de um sistema de reconhecimento é o
decodificador. Ele utiliza os modelos acústicos e de linguagem
para realizar a conversão dos sinais de fala para texto. Suas
principais caracterı́sticas são:
Modos de operação:
Comando e controle.
Ditado (ou fala espontânea).
Dependência de locutor.
Adaptação de locutor.
Principais métricas de avaliação: precisão e velocidade.
16 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Reconhecimento Automático de Voz
Sı́ntese de Voz
Reconhecimento Automático de Voz
Reconhecimento Automático de Voz (RAV)
17 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Reconhecimento Automático de Voz
Sı́ntese de Voz
É difı́cil construir um decodificador?
Dados para treino dos modelos acústicos e de linguagem.
Variações no ritmo, timbre e intensidade da fala.
Dificuldade na segmentação da fala.
Diferenças de sotaque.
Ruı́do ambiente.
18 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Reconhecimento Automático de Voz
Sı́ntese de Voz
Sı́ntese de voz (“Text-to-Speech”)
Produção “artificial” da voz humana.
Tipicamente, convertendo uma representação textual para fala
num formato de áudio.
Como funciona:
Gravação: simples reprodução da voz humana.
Concatenativa: concatena segmentos de voz gravada.
Por formantes: uso de modelo acústico.
Baseada em HMMs.
Prosódia: adicionar “emoção” à uma voz sintetizada.
Sintetizadores:
Genéricos.
Limitados ao domı́nio.
Nı́vel de entendimento: palavra e contexto.
Naturalidade: avaliação relacional.
19 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Interface com o Usuário
Engines e Language Packs
Application Programming Interface
Interface com o usuário
Pesquisas no campo de interação homem-máquina estimulam
o desenvolvimento de novas interfaces que reduzem a
complexidade facilitando o uso de computadores por usuários
não especializados.
É preciso conhecer o estado da arte e da realidade das
tecnologias de voz: grau de satisfação.
Estratégias de interação: controle da iniciativa e confirmações
durante o diálogo.
Nı́vel de confiabilidade e sensibilidade do reconhecedor de voz.
Robotização da voz sintetizada.
20 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Interface com o Usuário
Engines e Language Packs
Application Programming Interface
Engines
Engines para reconhecimento automático de voz.
Engines para sı́ntese de voz.
Existe um grande número de empresas no mercado que
apresentam soluções para que um desenvolvedor possa
incorporar a tecnologia de voz em seus aplicativos:
IBM.
Loquendo.
Microsoft.
Nuance.
Sun.
Poucos são os software para ditado em PB:
IBM ViaVoice (descontinuado).
Nuance Free Speech 2000.
21 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Interface com o Usuário
Engines e Language Packs
Application Programming Interface
Language Packs
Microsoft Speech Technology.
Speech Language Packs: pacotes especı́ficos por lı́ngua.
Tipicamente, LPs contêm:
Reconhecedores dependentes da lı́ngua.
Sintetizadores dependentes da lı́ngua.
Programas em versão beta para Português Brasileiro:
Speech Recognition Sample Engine for Portuguese:
reconhecedor de voz para PB sem suporte a ditado. Não
funciona no Windows Vista.
Em 2007, a Microsoft iniciou as gravações para o novo
sintetizador de voz natural em Português Europeu. Porém, sua
versão beta ainda não encontra-se disponı́vel para uso.
http://www.microsoft.com/portugal/mldc/betaprograms/
22 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Interface com o Usuário
Engines e Language Packs
Application Programming Interface
Algumas vozes modernas: comerciais e livres
AT&T Natural Voices
Nuance RealSpeak Solo voices
Cepstral Voices
Loquendo Emotional TTS Voices
A Microsoft disponibiliza em seus sistemas operacionais três
Text To Speech engines: Mary, Mike e Sam.
A Lernout & Hauspie disponibiliza gratuitamente vozes em
diversos idiomas, incluindo o Português Brasileiro.
23 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Interface com o Usuário
Engines e Language Packs
Application Programming Interface
Microsoft Speech API
A SAPI é uma interface para o desenvolvimento de aplicações
baseadas em voz em ambiente Windows.
A comunicação entre a SAPI e o engine é feita através de uma
interface Windows chamada DLL (Dynamic Link Library).
24 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Interface com o Usuário
Engines e Language Packs
Application Programming Interface
Microsoft Speech API
Atualmente na versão 5.3 a Microsoft Speech API fornece
uma interface de alto nı́vel entre a aplicação e o engine.
Kit de desenvolvimento SDK (Speech Development Kit).
Possui suporte a objetos OLE (Object Linking and
Embedding): permitindo que uma aplicação seja controlada
por outra.
Interface do estilo COM (Component Object Model):
programável por linguagens de alto nı́vel, como Visual Basic,
C Sharp, C++, etc.
Principais interfaces: System.Speech.Recognition e
System.Speech.Synthesis.
25 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Interface com o Usuário
Engines e Language Packs
Application Programming Interface
System.Speech.Synthesis
Como usar?
SpeechSynthesizer synthesizer = new SpeechSynthesizer();
synthesizer.Speak(“Olá mundo!”);
Inclui suporte para alterar padrões da voz: velocidade, volume,
pitch com suporte ao padrão XML:
synthesizer.Volume = 50; synthesizer.Rate = 5;
synthesizer.Speak(”C:/Teste.txt”,
SpeechVoiceSpeakFlags.SVSFIsFilename);
Gera arquivos de saı́da de áudio .wav.
26 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Interface com o Usuário
Engines e Language Packs
Application Programming Interface
System.Speech.Recognition
Como usar?
Definir o reconhecedor;
Construir uma gramática;
Carregar a gramática no reconhecedor;
Registar eventos;
Começar o reconhecimento...
Inclui suporte para gramáticas complexas padrão XML.
Gera arquivos de entrada de áudio .wav.
Eventos: nı́vel de confiança, reconhecimento de hipóteses,
inı́cio do reconhecimento, entre outros.
27 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Interface com o Usuário
Engines e Language Packs
Application Programming Interface
System.Speech.Recognition
SpeechRecognitionEngine recognizer = new SpeechRecognitionEngine(new
System.Globalization.CultureInfo(“en-us”));
void init()
{
Choices pizzaChoices = new Choices();
pizzaChoices.AddPhrase(“Eu quero uma pizza de queijo”);
pizzaChoices.AddPhrase(“Eu quero uma pizza de pepperoni”);
pizzaChoices.AddPhrase(“Eu quero uma pizza grande de pepperoni”);
Grammar pizzaGrammar = new Grammar(new GrammarBuilder(pizzaChoices));
recognizer.LoadGrammar(pizzaGrammar);
pizzaGrammar.SpeechRecognized += new
EventHandler<RecognitionEventArgs>(PizzaGrammar SpeechRecognized);
recognizer.Recognize(..);
}
void PizzaGrammar SpeechRecognized(object sender, RecognitionEventArgs e)
{
MessageBox.Show(e.Result.Text);
}
28 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Interface com o Usuário
Engines e Language Packs
Application Programming Interface
O que já vem no Windows Vista?
Reconhecedor de voz para lı́ngua inglesa. Adicionalmente,
cinco outras lı́nguas também estão disponı́veis via Windows
Update (Francês, Alemão, Espanhol, Japonês e Chinês).
Sintetizador de voz para lı́ngua inglesa - a voz “Anna”.
“Windows Speech Recognition”: guia que permite ao usuário
ditar documentos e e-mails; abrir e fechar aplicativos;
preencher formulários na Web. É uma interface que assiste o
usuário na tarefa de controlar o sistema via comandos de voz,
provendo listas de comandos para ajuda e correção.
Pacote de desenvolvimento .NET 3.0 e a interface de
programação de voz SAPI 5.3, que permitem a elaboração de
poderosas aplicações de voz para o ambiente Windows.
29 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Interface com o Usuário
Engines e Language Packs
Application Programming Interface
Java Speech API
A JSAPI da Sun permite aos desenvolvedores incorporarem
tecnologia de voz em seus applets e aplicações Java.
Representa a visão do programador sobre o engine.
Portabilidade e código livre da linguagem Java.
30 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Interface com o Usuário
Engines e Language Packs
Application Programming Interface
Java Speech API
A JSAPI na sua versão 1.0 suporta sı́ntese e reconhecimento
contı́nuo de voz.
Java Native Interface e Java Software Wrappers permitem a
implementação da JSAPI em uma camada de aplicação acima
dos softwares de voz já existentes. Exemplo:
Cloud Garden TalkingJava SDK: implementação completa da
especificação JSAPI para plataforma Windows, compatı́vel
com qualquer engine de voz SAPI 4 e SAPI 5.
Em maio de 2009, a Sun lançou uma extensão (versão 2.0)
propondo algumas melhorias: alinhamento dos formatos da
gramática e sı́ntese com as especificações W3C; suporte a
plataforma Java 2 Micro Edition; entre outras.
31 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Interface com o Usuário
Engines e Language Packs
Application Programming Interface
Comparação entre SAPI e JSAPI
A especificação JSAPI é bem mais simples, compacta e
acessı́vel que a SAPI.
A SAPI é mais robusta e difundida, com maior disponibilidade
de engines compatı́veis com a sua especificação.
A JSAPI 1.0 não permite o redirecionamento das amostras de
áudio para arquivos e/ou dispositivos.
A JSAPI 1.0 não possui uma interface léxica clara.
Ambas suportam XML, possuem métodos para “ligar” e
“desligar” o engine e controlam o nı́vel de confiabilidade.
Somente a JSAPI possui controle sobre a sensibilidade.
32 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Interface com o Usuário
Engines e Language Packs
Application Programming Interface
Coruja
Software para reconhecimento de voz em Português Brasileiro
desenvolvido pelo LaPS-UFPA.
Contém uma API (LapsAPI) que permite o controle em
tempo-real do engine Julius e da interface de áudio do
sistema.
Os modelos acústicos e de linguagem foram construı́dos com a
ferramenta HTK e recursos do próprio LaPS.
Possui suporte aos sistemas Windows e Linux.
33 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Interface com o Usuário
Engines e Language Packs
Application Programming Interface
Esquema
34 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Interface com o Usuário
Engines e Language Packs
Application Programming Interface
LapsAPI
A LapsAPI foi implementada em C++/CLI, o que a torna
programável por linguagens de alto nı́vel.
Metodo/Evento
SREngine
startRecognition
stopRecognition
OnRecognition
OnSpeechReady
Descrição básica
Método para carregar e inicializar o reconhecedor
Método para iniciar o reconhecimento
Método para pausar/parar o reconhecimento
Evento chamado quando alguma sentença é reconhecida
Evento chamado quando o reconhecimento é ativado
Tabela: Principais métodos e eventos da LapsAPI.
35 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
VoiceNavigate
PPTController
Simon 0.2
Exemplos de aplicativos desenvolvidos
VoiceNavigate
PPTController
SimonBR
36 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
VoiceNavigate
PPTController
Simon 0.2
VoiceNavigate
Consiste num sistema de diálogo simples desenvolvido pelo
LaPS que permite pesquisas acerca de paı́ses na Web.
Primeiro passo no desenvolvimento de um sistema para
navegação não-visual na Web.
Interface de programação: SAPI 5.1.
Engine de reconhecimento: versão beta do Microsoft Speech
Recognition Sample Engine for Portuguese.
Engine de sı́ntese: Lernout & Hauspie para lı́ngua portuguesa
da Nuance.
Agentes animados: Microsoft Agent.
37 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
VoiceNavigate
PPTController
Simon 0.2
PPTController
Aplicativo desenvolvido na linguagem C# para plataforma
Windows, que utiliza reconhecimento automático de voz para
controlar apresentação de slides no programa Microsoft
Powerpoint.
O usuário via comandos de voz é capaz de avançar ou
retroceder um slide, fechar uma apresentação, entre outras
funcionalidades.
Utiliza o Coruja como software de reconhecimento.
38 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
VoiceNavigate
PPTController
Simon 0.2
Simon 0.2
Software open-source de reconhecimento de voz que substitui
o mouse e o teclado pela voz.
Desenvolvido para pessoas com necessidades especiais.
Permite digitar textos, simular sequências de atalhos, iniciar
programas, controle do mouse, etc.
Baseado no decodificador Julius e modelos HMM (HTK).
Suporte para Windows e Linux.
Necessita de uma etapa de treino: dependente de locutor e
independente de lı́ngua.
39 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
VoiceNavigate
PPTController
Simon 0.2
SimonBR
Primeiros esforços para migrar a interface do Simon 0.2 para o
Português Brasileiro.
Utilizou-se do modelo acústico do Coruja.
Independente de locutor.
Excelente desempenho em tarefas de comando e controle.
40 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
Algoritmos, HTK, entre outros.
41 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
LaPS
Considerações Finais
Trabalhos Futuros
Laboratório de Processamento de Sinais - LaPS/UFPA
Hoje, o LaPS conta com 42 colaboradores e atua em várias
linhas de pesquisa, e.g. processamento de sinais, sistemas
embarcados, ADSL, entre outras.
As pesquisas em sı́ntese e reconhecimento de voz tiveram
inı́cio em 2000 e podem ser rastreadas pelas várias
publicações do grupo na área.
Está disponibilizado gratuitamente, desde julho de 2008,
recursos em Português Brasileiro (PB) que possibilitam
reconhecimento de palavras e/ou frases pré-especificadas com
bom desempenho em termos de rapidez e taxa de acerto.
http://www.laps.ufpa.br/
42 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
LaPS
Considerações Finais
Trabalhos Futuros
Missão ao longo do tempo
“Aperfeiçoamento e disseminação das tecnologias de voz para o
Português Brasileiro”
No âmbito da academia, para tornar mais eficiente o trabalho dos
grupos de pesquisa: disponibilidade de recursos em domı́nio público
para reconhecimento automático de voz e sı́ntese de voz.
No âmbito da indústria de software, procurando auxiliar
programadores e empreendedores brasileiros: disponibilidade de
“engines” (ou seja, reconhecedores e sintetizadores) gratuitos.
No âmbito social, oferecer material didático/informativo permitindo
que usuários sem formação especı́fica em voz possam usar os
engines através de APIs (“application programming interfaces”) e
desenvolver aplicativos com interface aural.
43 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
LaPS
Considerações Finais
Trabalhos Futuros
Linhas de Ação
Desenvolvimento de recursos e tecnologia nos domı́nios da
fala e da linguagem natural.
Linhas de cooperação com as universidades e institutos de
investigação e desenvolvimento (I&D) mais inovadores no
Brasil e com o Instituto Superior Técnico de Lisboa, Portugal.
Participação em projetos de I&D em consórcio com órgãos
nacionais (Universal CNPq, FAPESPA) e internacionais
(Fundação de Ciência e Tecnologia de Portugal).
Construção de aplicativos que sirvam de exemplos práticos.
Os mesmo irão também facilitar a utilização do computador
por parte de deficientes auditivos e pessoas que não
conseguem usar o teclado.
44 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
LaPS
Considerações Finais
Trabalhos Futuros
Projetos em andamento
Obtenção de corpus de voz e texto em PB.
Construção de um engine de reconhecimento de voz com
suporte a grandes vocabulários e aplicações de ditado:
desenvolvimento de recursos e uso de ferramentas
open-source.
Elaboração de uma API de voz: permitir que o nosso sistema
de reconhecimento possa ser utilizado com mais facilidade no
desenvolvimento de aplicativos baseados em voz.
Testes com a ferramenta HTS para sı́ntese de voz em PB.
45 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
LaPS
Considerações Finais
Trabalhos Futuros
Projetos em andamento
Desenvolvimento de uma ferramenta para transcrições de
áudio digitalizado para fins forenses no Estado do Pará.
Projeto realizado em parceria com o Centro de Perı́cias
Cientı́ficas “Renato Chaves”.
Em cooperação com o grupo de letras da UFPA, pretende-se
criar um dicionário fonético que conteria as possibilidades de
realização dos fonemas do PB de acordo com uma dada
variedade linguı́stica.
46 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
LaPS
Considerações Finais
Trabalhos Futuros
Considerações Finais
Foram abordados os principais itens que integram um sistema
de reconhecimento de voz.
Várias ferramentas utilizadas para construção de aplicativos
foram descritas.
Fazendo uso do conjunto limitado de métodos e eventos,
mostrou-se que é viável construir compactas aplicações
baseadas em voz com a LapsAPI.
Grupo FalaBrasil: www.laps.ufpa.br/falabrasil
47 / 48
Introdução
Tecnologias de Voz
Interfaces
Aplicativos Baseados em Voz
Mais Detalhes...
Conclusão
LaPS
Considerações Finais
Trabalhos Futuros
Trabalhos Futuros
Tornar o Coruja SAPI-compliant.
SimonBR.
Expansão das bases de dados.
Melhora dos modelos acústicos.
FFTranscriber.
Dicionário fonético com as variantes do Português.
Software para produção de legenda automática.
48 / 48
Download

slides - LaPS