Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Desenvolvimento de Aplicativos Usando Sı́ntese e Reconhecimento de Voz Aldebaro Klautau PPGEE/ITEC/UFPA Universidade Federal do Pará 26/11/2009 1 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão 1 Introdução Histórico Estado-da-arte Motivação Objetivos 2 Tecnologias de Voz Reconhecimento Automático de Voz Sı́ntese de Voz 3 Interfaces Interface com o Usuário Engines e Language Packs Application Programming Interface 4 Aplicativos Baseados em Voz VoiceNavigate PPTController Simon 0.2 5 Mais Detalhes... 6 Conclusão LaPS Considerações Finais Trabalhos Futuros 2 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Histórico Estado-da-arte Motivação Objetivos Máquinas que falam e escutam Equipar máquinas com modalidades sensoriais humanas: um sonho moderno e fascinação. O homem é o único capaz de falar? Falar é mais fácil que escutar. A realidade é que ainda estamos longe das máquinas apresentadas na ficção cientı́fica. 3 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Histórico Estado-da-arte Motivação Objetivos 2001: Uma odisséia no espaço HAL: fala, escuta, joga xadrez, soluciona problemas !!! “Let me put it this way, Mr. Amer. The 9000 series is the most reliable computer ever made. No 9000 computer has ever made a mistake or distorted information. We are all, by any practical definition of the words, foolproof and incapable of error.” 4 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Histórico Estado-da-arte Motivação Objetivos Sı́ntese de voz (“Text-to-Speech”) Transformar: “É fácil sintetizar fala” Em: 5 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Histórico Estado-da-arte Motivação Objetivos Primeiro sintetizador mecânico: VODER Homer Dudley, exibido na World Fair’s New York City, 1939. 6 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Histórico Estado-da-arte Motivação Objetivos Evolução da sı́ntese de voz “Voder”, Homer Dudley, 1939 “OVE”, Gunnar Fant, 1953. “PAT”, Walter Lawrence, 1962. “Bell Laboratories text-to-speech system”, 1973. “Voz feminina”, Dennis Klatt, 1986. “Madalena”, Nuance RealSpeak Solo, 2005. 7 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Histórico Estado-da-arte Motivação Objetivos Reconhecimento automático de voz Transformar: Em: “É fácil nós reconhecermos fala” 8 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Histórico Estado-da-arte Motivação Objetivos Evolução do reconhecimento automático de voz 1952: Bell Labs lança reconhecedor de dı́gitos “single-speaker”. 1960: FFT, predição linear, programação dinâmica: NEC: reconhecedor de dı́gitos dependente de locutor. 1970: Projeto ARPA SUR 5-year: Hidden Markov model: um grande avanço e mudança de paradigma. 1980-1990: Bases de dados DARPA: Verbex: reconhecedor dependente de locutor, vocabulário reduzido. Dragon Systems, IBM Via Voice: sistemas de ditado. Sistemas ASR comerciais: AT&T, Nuance, SpeechWork, L&H. Sistemas ASR multilinguais: serviços e aplicações. 2000: Projeto de tradução de idiomas DARPA GALE: NTT: sistema de tradução para aparelhos celulares. IBM: Tradutor portátil de voz usado no Iraque. 9 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Histórico Estado-da-arte Motivação Objetivos Estado-da-arte A evolução da área de processamento de voz também é atestada pelas projeções para o mercado, que em 2002 foi de U$ 677 milhões. Em 2007, o mercado de reconhecimento de voz (não incluindo sı́ntese) foi de U$1,6 bilhão e a Opus Research prevê uma taxa anual de crescimento de 14,5%. Além do aspecto econômico, o processamento de voz é um dos melhores exemplos de um relevante desafio enfrentado pela computação (e áreas afins): a construção de máquinas capazes de interagir de forma natural com seres humanos. 10 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Histórico Estado-da-arte Motivação Objetivos Tipos de aplicações de voz Aplicações convencionais: Sistemas de diálogo falado. Interactive Voice Response (IVR). Desktop. Automação (casa do futuro, carros, etc). Aplicações multimodais. Aplicações multilinguais. 11 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Histórico Estado-da-arte Motivação Objetivos Motivação É incontestável a importância do processamento da voz (ou fala) na computação moderna. Muitos são os softwares de voz disponı́veis no mercado programáveis via API. Porém, inexiste atualmente uma gama variada de recursos em PB. Por exemplo, o Windows Vista não incorpora tecnologia de voz em PB e a IBM recentemente descontinuou o seu software de reconhecimento (ViaVoice) para a lı́ngua portuguesa. Discutir alguns esforços realizados nesse sentido, avaliando a utilização de APIs de voz (e.g. Microsoft e Sun) existentes, assim como recursos próprios desenvolvidos no LaPS, para a construção de aplicativos com interface oral em PB. 12 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Histórico Estado-da-arte Motivação Objetivos Objetivos Ao invés de se deter em aspectos da ciência da fala, tais como, o uso de modelos probabilı́sticos para reconhecimento de voz, o foco aqui será a tecnologia da camada de aplicação (API), a qual faz uso dessas tecnologias a partir das camadas mais baixas. Serão expostos os principais tipos de aplicações de voz e os pontos que devem ser levados em consideração no momento da elaboração da interface com o usuário e da escolha do software. Por fim, será abordada a construção de aplicativos baseados em voz. 13 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Histórico Estado-da-arte Motivação Objetivos DEMO Uma aplicação simples com ASR + TTS 14 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Reconhecimento Automático de Voz Sı́ntese de Voz Reconhecimento automático de voz Definição segundo a Wikipedia: “Tecnologias de reconhecimento permitem que computadores equipados com microfones interpretem a fala humana.” Como funciona um sistema de reconhecimento? A fala é uma sequência de palavras. Cada palavra consiste numa série de sons (fonema). Dicionário fonético: conversão de uma sequência de caracteres em sequência de fonemas. Modelos estatı́sticas baseados em probabilidades: Acústica: cadeias escondidas de Markov (HMM). Da lı́ngua: modelos n-gramas. Modelos não-probabilı́sticos: context-free grammars. 15 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Reconhecimento Automático de Voz Sı́ntese de Voz Reconhecimento automático de voz O último integrante de um sistema de reconhecimento é o decodificador. Ele utiliza os modelos acústicos e de linguagem para realizar a conversão dos sinais de fala para texto. Suas principais caracterı́sticas são: Modos de operação: Comando e controle. Ditado (ou fala espontânea). Dependência de locutor. Adaptação de locutor. Principais métricas de avaliação: precisão e velocidade. 16 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Reconhecimento Automático de Voz Sı́ntese de Voz Reconhecimento Automático de Voz Reconhecimento Automático de Voz (RAV) 17 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Reconhecimento Automático de Voz Sı́ntese de Voz É difı́cil construir um decodificador? Dados para treino dos modelos acústicos e de linguagem. Variações no ritmo, timbre e intensidade da fala. Dificuldade na segmentação da fala. Diferenças de sotaque. Ruı́do ambiente. 18 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Reconhecimento Automático de Voz Sı́ntese de Voz Sı́ntese de voz (“Text-to-Speech”) Produção “artificial” da voz humana. Tipicamente, convertendo uma representação textual para fala num formato de áudio. Como funciona: Gravação: simples reprodução da voz humana. Concatenativa: concatena segmentos de voz gravada. Por formantes: uso de modelo acústico. Baseada em HMMs. Prosódia: adicionar “emoção” à uma voz sintetizada. Sintetizadores: Genéricos. Limitados ao domı́nio. Nı́vel de entendimento: palavra e contexto. Naturalidade: avaliação relacional. 19 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Interface com o Usuário Engines e Language Packs Application Programming Interface Interface com o usuário Pesquisas no campo de interação homem-máquina estimulam o desenvolvimento de novas interfaces que reduzem a complexidade facilitando o uso de computadores por usuários não especializados. É preciso conhecer o estado da arte e da realidade das tecnologias de voz: grau de satisfação. Estratégias de interação: controle da iniciativa e confirmações durante o diálogo. Nı́vel de confiabilidade e sensibilidade do reconhecedor de voz. Robotização da voz sintetizada. 20 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Interface com o Usuário Engines e Language Packs Application Programming Interface Engines Engines para reconhecimento automático de voz. Engines para sı́ntese de voz. Existe um grande número de empresas no mercado que apresentam soluções para que um desenvolvedor possa incorporar a tecnologia de voz em seus aplicativos: IBM. Loquendo. Microsoft. Nuance. Sun. Poucos são os software para ditado em PB: IBM ViaVoice (descontinuado). Nuance Free Speech 2000. 21 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Interface com o Usuário Engines e Language Packs Application Programming Interface Language Packs Microsoft Speech Technology. Speech Language Packs: pacotes especı́ficos por lı́ngua. Tipicamente, LPs contêm: Reconhecedores dependentes da lı́ngua. Sintetizadores dependentes da lı́ngua. Programas em versão beta para Português Brasileiro: Speech Recognition Sample Engine for Portuguese: reconhecedor de voz para PB sem suporte a ditado. Não funciona no Windows Vista. Em 2007, a Microsoft iniciou as gravações para o novo sintetizador de voz natural em Português Europeu. Porém, sua versão beta ainda não encontra-se disponı́vel para uso. http://www.microsoft.com/portugal/mldc/betaprograms/ 22 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Interface com o Usuário Engines e Language Packs Application Programming Interface Algumas vozes modernas: comerciais e livres AT&T Natural Voices Nuance RealSpeak Solo voices Cepstral Voices Loquendo Emotional TTS Voices A Microsoft disponibiliza em seus sistemas operacionais três Text To Speech engines: Mary, Mike e Sam. A Lernout & Hauspie disponibiliza gratuitamente vozes em diversos idiomas, incluindo o Português Brasileiro. 23 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Interface com o Usuário Engines e Language Packs Application Programming Interface Microsoft Speech API A SAPI é uma interface para o desenvolvimento de aplicações baseadas em voz em ambiente Windows. A comunicação entre a SAPI e o engine é feita através de uma interface Windows chamada DLL (Dynamic Link Library). 24 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Interface com o Usuário Engines e Language Packs Application Programming Interface Microsoft Speech API Atualmente na versão 5.3 a Microsoft Speech API fornece uma interface de alto nı́vel entre a aplicação e o engine. Kit de desenvolvimento SDK (Speech Development Kit). Possui suporte a objetos OLE (Object Linking and Embedding): permitindo que uma aplicação seja controlada por outra. Interface do estilo COM (Component Object Model): programável por linguagens de alto nı́vel, como Visual Basic, C Sharp, C++, etc. Principais interfaces: System.Speech.Recognition e System.Speech.Synthesis. 25 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Interface com o Usuário Engines e Language Packs Application Programming Interface System.Speech.Synthesis Como usar? SpeechSynthesizer synthesizer = new SpeechSynthesizer(); synthesizer.Speak(“Olá mundo!”); Inclui suporte para alterar padrões da voz: velocidade, volume, pitch com suporte ao padrão XML: synthesizer.Volume = 50; synthesizer.Rate = 5; synthesizer.Speak(”C:/Teste.txt”, SpeechVoiceSpeakFlags.SVSFIsFilename); Gera arquivos de saı́da de áudio .wav. 26 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Interface com o Usuário Engines e Language Packs Application Programming Interface System.Speech.Recognition Como usar? Definir o reconhecedor; Construir uma gramática; Carregar a gramática no reconhecedor; Registar eventos; Começar o reconhecimento... Inclui suporte para gramáticas complexas padrão XML. Gera arquivos de entrada de áudio .wav. Eventos: nı́vel de confiança, reconhecimento de hipóteses, inı́cio do reconhecimento, entre outros. 27 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Interface com o Usuário Engines e Language Packs Application Programming Interface System.Speech.Recognition SpeechRecognitionEngine recognizer = new SpeechRecognitionEngine(new System.Globalization.CultureInfo(“en-us”)); void init() { Choices pizzaChoices = new Choices(); pizzaChoices.AddPhrase(“Eu quero uma pizza de queijo”); pizzaChoices.AddPhrase(“Eu quero uma pizza de pepperoni”); pizzaChoices.AddPhrase(“Eu quero uma pizza grande de pepperoni”); Grammar pizzaGrammar = new Grammar(new GrammarBuilder(pizzaChoices)); recognizer.LoadGrammar(pizzaGrammar); pizzaGrammar.SpeechRecognized += new EventHandler<RecognitionEventArgs>(PizzaGrammar SpeechRecognized); recognizer.Recognize(..); } void PizzaGrammar SpeechRecognized(object sender, RecognitionEventArgs e) { MessageBox.Show(e.Result.Text); } 28 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Interface com o Usuário Engines e Language Packs Application Programming Interface O que já vem no Windows Vista? Reconhecedor de voz para lı́ngua inglesa. Adicionalmente, cinco outras lı́nguas também estão disponı́veis via Windows Update (Francês, Alemão, Espanhol, Japonês e Chinês). Sintetizador de voz para lı́ngua inglesa - a voz “Anna”. “Windows Speech Recognition”: guia que permite ao usuário ditar documentos e e-mails; abrir e fechar aplicativos; preencher formulários na Web. É uma interface que assiste o usuário na tarefa de controlar o sistema via comandos de voz, provendo listas de comandos para ajuda e correção. Pacote de desenvolvimento .NET 3.0 e a interface de programação de voz SAPI 5.3, que permitem a elaboração de poderosas aplicações de voz para o ambiente Windows. 29 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Interface com o Usuário Engines e Language Packs Application Programming Interface Java Speech API A JSAPI da Sun permite aos desenvolvedores incorporarem tecnologia de voz em seus applets e aplicações Java. Representa a visão do programador sobre o engine. Portabilidade e código livre da linguagem Java. 30 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Interface com o Usuário Engines e Language Packs Application Programming Interface Java Speech API A JSAPI na sua versão 1.0 suporta sı́ntese e reconhecimento contı́nuo de voz. Java Native Interface e Java Software Wrappers permitem a implementação da JSAPI em uma camada de aplicação acima dos softwares de voz já existentes. Exemplo: Cloud Garden TalkingJava SDK: implementação completa da especificação JSAPI para plataforma Windows, compatı́vel com qualquer engine de voz SAPI 4 e SAPI 5. Em maio de 2009, a Sun lançou uma extensão (versão 2.0) propondo algumas melhorias: alinhamento dos formatos da gramática e sı́ntese com as especificações W3C; suporte a plataforma Java 2 Micro Edition; entre outras. 31 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Interface com o Usuário Engines e Language Packs Application Programming Interface Comparação entre SAPI e JSAPI A especificação JSAPI é bem mais simples, compacta e acessı́vel que a SAPI. A SAPI é mais robusta e difundida, com maior disponibilidade de engines compatı́veis com a sua especificação. A JSAPI 1.0 não permite o redirecionamento das amostras de áudio para arquivos e/ou dispositivos. A JSAPI 1.0 não possui uma interface léxica clara. Ambas suportam XML, possuem métodos para “ligar” e “desligar” o engine e controlam o nı́vel de confiabilidade. Somente a JSAPI possui controle sobre a sensibilidade. 32 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Interface com o Usuário Engines e Language Packs Application Programming Interface Coruja Software para reconhecimento de voz em Português Brasileiro desenvolvido pelo LaPS-UFPA. Contém uma API (LapsAPI) que permite o controle em tempo-real do engine Julius e da interface de áudio do sistema. Os modelos acústicos e de linguagem foram construı́dos com a ferramenta HTK e recursos do próprio LaPS. Possui suporte aos sistemas Windows e Linux. 33 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Interface com o Usuário Engines e Language Packs Application Programming Interface Esquema 34 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Interface com o Usuário Engines e Language Packs Application Programming Interface LapsAPI A LapsAPI foi implementada em C++/CLI, o que a torna programável por linguagens de alto nı́vel. Metodo/Evento SREngine startRecognition stopRecognition OnRecognition OnSpeechReady Descrição básica Método para carregar e inicializar o reconhecedor Método para iniciar o reconhecimento Método para pausar/parar o reconhecimento Evento chamado quando alguma sentença é reconhecida Evento chamado quando o reconhecimento é ativado Tabela: Principais métodos e eventos da LapsAPI. 35 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão VoiceNavigate PPTController Simon 0.2 Exemplos de aplicativos desenvolvidos VoiceNavigate PPTController SimonBR 36 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão VoiceNavigate PPTController Simon 0.2 VoiceNavigate Consiste num sistema de diálogo simples desenvolvido pelo LaPS que permite pesquisas acerca de paı́ses na Web. Primeiro passo no desenvolvimento de um sistema para navegação não-visual na Web. Interface de programação: SAPI 5.1. Engine de reconhecimento: versão beta do Microsoft Speech Recognition Sample Engine for Portuguese. Engine de sı́ntese: Lernout & Hauspie para lı́ngua portuguesa da Nuance. Agentes animados: Microsoft Agent. 37 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão VoiceNavigate PPTController Simon 0.2 PPTController Aplicativo desenvolvido na linguagem C# para plataforma Windows, que utiliza reconhecimento automático de voz para controlar apresentação de slides no programa Microsoft Powerpoint. O usuário via comandos de voz é capaz de avançar ou retroceder um slide, fechar uma apresentação, entre outras funcionalidades. Utiliza o Coruja como software de reconhecimento. 38 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão VoiceNavigate PPTController Simon 0.2 Simon 0.2 Software open-source de reconhecimento de voz que substitui o mouse e o teclado pela voz. Desenvolvido para pessoas com necessidades especiais. Permite digitar textos, simular sequências de atalhos, iniciar programas, controle do mouse, etc. Baseado no decodificador Julius e modelos HMM (HTK). Suporte para Windows e Linux. Necessita de uma etapa de treino: dependente de locutor e independente de lı́ngua. 39 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão VoiceNavigate PPTController Simon 0.2 SimonBR Primeiros esforços para migrar a interface do Simon 0.2 para o Português Brasileiro. Utilizou-se do modelo acústico do Coruja. Independente de locutor. Excelente desempenho em tarefas de comando e controle. 40 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão Algoritmos, HTK, entre outros. 41 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão LaPS Considerações Finais Trabalhos Futuros Laboratório de Processamento de Sinais - LaPS/UFPA Hoje, o LaPS conta com 42 colaboradores e atua em várias linhas de pesquisa, e.g. processamento de sinais, sistemas embarcados, ADSL, entre outras. As pesquisas em sı́ntese e reconhecimento de voz tiveram inı́cio em 2000 e podem ser rastreadas pelas várias publicações do grupo na área. Está disponibilizado gratuitamente, desde julho de 2008, recursos em Português Brasileiro (PB) que possibilitam reconhecimento de palavras e/ou frases pré-especificadas com bom desempenho em termos de rapidez e taxa de acerto. http://www.laps.ufpa.br/ 42 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão LaPS Considerações Finais Trabalhos Futuros Missão ao longo do tempo “Aperfeiçoamento e disseminação das tecnologias de voz para o Português Brasileiro” No âmbito da academia, para tornar mais eficiente o trabalho dos grupos de pesquisa: disponibilidade de recursos em domı́nio público para reconhecimento automático de voz e sı́ntese de voz. No âmbito da indústria de software, procurando auxiliar programadores e empreendedores brasileiros: disponibilidade de “engines” (ou seja, reconhecedores e sintetizadores) gratuitos. No âmbito social, oferecer material didático/informativo permitindo que usuários sem formação especı́fica em voz possam usar os engines através de APIs (“application programming interfaces”) e desenvolver aplicativos com interface aural. 43 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão LaPS Considerações Finais Trabalhos Futuros Linhas de Ação Desenvolvimento de recursos e tecnologia nos domı́nios da fala e da linguagem natural. Linhas de cooperação com as universidades e institutos de investigação e desenvolvimento (I&D) mais inovadores no Brasil e com o Instituto Superior Técnico de Lisboa, Portugal. Participação em projetos de I&D em consórcio com órgãos nacionais (Universal CNPq, FAPESPA) e internacionais (Fundação de Ciência e Tecnologia de Portugal). Construção de aplicativos que sirvam de exemplos práticos. Os mesmo irão também facilitar a utilização do computador por parte de deficientes auditivos e pessoas que não conseguem usar o teclado. 44 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão LaPS Considerações Finais Trabalhos Futuros Projetos em andamento Obtenção de corpus de voz e texto em PB. Construção de um engine de reconhecimento de voz com suporte a grandes vocabulários e aplicações de ditado: desenvolvimento de recursos e uso de ferramentas open-source. Elaboração de uma API de voz: permitir que o nosso sistema de reconhecimento possa ser utilizado com mais facilidade no desenvolvimento de aplicativos baseados em voz. Testes com a ferramenta HTS para sı́ntese de voz em PB. 45 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão LaPS Considerações Finais Trabalhos Futuros Projetos em andamento Desenvolvimento de uma ferramenta para transcrições de áudio digitalizado para fins forenses no Estado do Pará. Projeto realizado em parceria com o Centro de Perı́cias Cientı́ficas “Renato Chaves”. Em cooperação com o grupo de letras da UFPA, pretende-se criar um dicionário fonético que conteria as possibilidades de realização dos fonemas do PB de acordo com uma dada variedade linguı́stica. 46 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão LaPS Considerações Finais Trabalhos Futuros Considerações Finais Foram abordados os principais itens que integram um sistema de reconhecimento de voz. Várias ferramentas utilizadas para construção de aplicativos foram descritas. Fazendo uso do conjunto limitado de métodos e eventos, mostrou-se que é viável construir compactas aplicações baseadas em voz com a LapsAPI. Grupo FalaBrasil: www.laps.ufpa.br/falabrasil 47 / 48 Introdução Tecnologias de Voz Interfaces Aplicativos Baseados em Voz Mais Detalhes... Conclusão LaPS Considerações Finais Trabalhos Futuros Trabalhos Futuros Tornar o Coruja SAPI-compliant. SimonBR. Expansão das bases de dados. Melhora dos modelos acústicos. FFTranscriber. Dicionário fonético com as variantes do Português. Software para produção de legenda automática. 48 / 48