UNIVERSIDADE FEDERAL DE SANTA CATARINA - UFSC CENTRO TECNOLÓGICO - CTC DEPARTAMENTO DE AUTOMAÇÃO E SISTEMAS - DAS PROJETO: ANÁLISE DE EXPERIMENTOS ESTATÍSTICOS FATORIAL PARA SISTEMAS DE RECONHECIMENTO DE FALA Por: David Daniel e Silva, Doutorando - DAS [email protected] Orientador: Prof. Marcelo Ricardo Stemmer, Dr [email protected] Motivação ESTADO DA ARTE DISCIPLINA DE ANÁLISE DE EXPERIMENTOS POSSIBILIDADE DE CONTRIBUIÇÃO NOS PROJETOS DE SISTEMAS DE REC. DE FALA Introdução ( APRESENTAÇÃO DO TRABALHO ) Reconhecimento de Fala Conceito e Aplicações; Características; Dificuldades/Problemas; Soluções; Modelos; Comentários; Projeto de Análise de Experimentos Estatístico Aplicado ao RF. Reconhecimento de Fala ( CONCEITO E APLICAÇÕES ) Conceito Processo de conversão de um sinal acústico, capturado por um microfone ou dispositivo transdutor similar, para um conjunto de palavras. Aplicações A palavra reconhecida pode ser o resultado final, para aplicações de controle ou dados de entrada. (Interface homem-máquina). Reconhecimento de Fala ( CARACTERÍSTICAS ) PARÂMETROS / FATORES Os sistemas de reconhecimento de fala podem ser caracterizados por muitos parâmetros que o afetam... ALGUNS PARÂMETROS Modo de Fala FAIXA/TIPO Isolada Contínua Estilo da Fala Lida Expontânea Vocabulário Simples ( < 20 ) Grande ( > 20K ) Reconhecimento de Fala ( CARACTERÍSTICAS ) PARÂMETROS / FATORES ( CONTINUAÇÃO ) ALGUNS PARÂMETROS Locutor FAIXA/TIPO Dependente Independente Modelo de Linguagem Estados finitos Sensível ao contexto Perplexidade Pequena ( < 10 ) Grande ( > 100 ) Transdutor Microfone sem ruído Telefone RSR(Razão Sinal Ruído) Alta ( > 30 db ) Baixa ( < 10 db ) Reconhecimento de Fala ( DIFICULDADES DOS SISTEMAS DE REC.) FORÇA MUSCULAR TRATO NASAL PALATO MOLE NARINAS T T PULMÕES TRAQUÉIA CORDAS VOCAIS BOCA TRATO VOCAL MODELO DO SISTEMA DO TRATO VOCAL Reconhecimento de Fala ( DIFICULDADES DOS SISTEMAS DE REC.) Reconhecimento de fala geralmente é mais difícil de ser realizado quando os vocabulários são grandes e/ou tem muitas palavras com sons similares. O reconhecimento de fala é um problema difícil devido às várias fontes de variabilidade associadas ao sinal de voz. Reconhecimento de Fala ( DIFICULDADES DOS SISTEMAS DE REC.) VARIABILIDADE FONÉTICA a acústica dos fonemas (menor unidade sonora na composição de uma palavra), é altamente dependente do contexto em que aparecem. Reconhecimento de Fala ( DIFICULDADES DOS SISTEMAS DE REC.) VARIABILIDADE FONÉTICA Nas fronteiras entre palavras, as variações contextuais podem tornar-se bem mais acentuadas fazendo, por exemplo, com que a frase “a justiça é...” seja reconhecida como “ajusticé...” Reconhecimento de Fala ( DIFICULDADES DOS SISTEMAS DE REC.) VARIABILIDADES ACÚSTICAS Podem resultar de mudanças no ambiente assim como da posição e características do transdutor. Reconhecimento de Fala ( DIFICULDADES DOS SISTEMAS DE REC.) VARIABILIDADES INTRA-LOCUTOR Podem resultar de mudanças no estado físico/emocional dos locutores, velocidade de pronúncia ou qualidade de voz. Reconhecimento de Fala ( DIFICULDADES DOS SISTEMAS DE REC.) VARIABILIDADES ENTRE-LOCUTORES Podem resultar das diferenças na condição sócio-cultural, dialeto, tamanho e forma do trato vocal para cada uma das pessoas. Um exemplo: “O caminho está iluminado” - “O caminho está alumiado”. Reconhecimento de Fala ( SOLUÇÕES DAS DIFICULDADES DOS SISTEMAS DE REC.) SOLUÇÕES Em termos fonéticos acústicos, a variabilidade dos locutores é tipicamente modelada usando técnicas estatísticas aplicadas a grandes quantidades de dados de treinamento. Também tem sido desenvolvidos algoritmos de adaptação ao locutor que adaptam modelos acústicos independentes do locutor para os do locutor corrente durante o uso. Reconhecimento de Fala ( SOLUÇÕES DAS DIFICULDADES DOS SISTEMAS DE REC.) SOLUÇÕES As variações acústicas são tratadas com o uso de adaptação dinâmica de parâmetros, uso de múltiplos microfones e processamento de sinal. Na parametrização dos sinais, os pesquisadores desenvolveram representações que enfatizam características independentes do locutor, e desprezam características dependentes do locutor. Reconhecimento de Fala ( SOLUÇÕES DAS DIFICULDADES DOS SISTEMAS DE REC.) SOLUÇÕES Os efeitos do contexto linguístico em termos fonético-acústicos são tipicamente resolvidos treinando modelos fonéticos separados para fonemas em diferentes contextos, isto é chamado de modelamento acústico dependente do contexto. Reconhecimento de Fala ( SOLUÇÕES DAS DIFICULDADES DOS SISTEMAS DE REC.) SOLUÇÕES A diferença de pronúncias das palavras são processadas de forma que alternativas mais comuns de cada palavra, assim como os efeitos de dialeto e sotaque são tratados ao permitir aos algoritmos de busca encontrarem caminhos alternativos de fonemas através de redes dessas alternativas. Reconhecimento de Fala ( SOLUÇÕES DAS DIFICULDADES DOS SISTEMAS DE REC.) SOLUÇÕES Modelos estatísticos de linguagem, baseados na estimativa de ocorrência de seqüências de palavras, são geralmente utilizados para guiar a busca através da seqüência de palavras mais provável. Reconhecimento de Fala ( MODELOS DE RECONHECIMENTO DE FALA ) MODELOS Atualmente, os algoritmos mais populares na área de reconhecimento de fala baseiam-se em métodos matemáticos e estatísticos. Dentre estes, dois métodos tem se destacado: ANN´s - Artificial Neural Networks HMM - Hidden Markov Models Reconhecimento de Fala ( MODELOS DE RECONHECIMENTO DE FALA ) MODELO - ANN´s ARTIFICIAL NEURAL NETWORKS Método Baseado no Sistema Neuronal Humano (Neurônio). Teoria combatida por Minsky e Papert que publicaram um livro em 1969 e provocou a não aceitação das RNA`s entre os pesquisadores. Atualmente, muitas pesquisas estão sendo feitas com o uso de avançados modelos de redes neurais baseados nas mais recentes descobertas do comportamento do neurônio humano. Reconhecimento de Fala ( MODELOS DE RECONHECIMENTO DE FALA ) MODELO - ANN´s ANN - ARTIFICIAL NEURAL NETWORKS Boa Capacidade de Generalização; Função de ativação; Certo Grau de Robustez Para Reconhecimento de Padrões; Teoria bem definida (base na matemática); Reconhecimento de Fala ( MODELOS DE RECONHECIMENTO DE FALA ) MODELO - HMM HMM - Hidden Markov Models Método é definido como um par de processos estocásticos (X, Y). O processo X é a medida linear de primeira ordem, e não é diretamente observável, quando o processo Y é uma seqüência de variáveis randômicas de valores tomados de parâmetros acústicos, ou observações. Reconhecimento de Fala ( MODELOS DE RECONHECIMENTO DE FALA ) MODELO - HMM HMM - Hidden Markov Models Boa Capacidade de seleção; Certo Grau de Robustez Para Reconhecimento de Padrões; Comparações estatísticas de probabilidade com base em um conjunto de amostra; Teoria bem definida (base estatística e matemática); Reconhecimento de Fala ( MODELOS DE RECONHECIMENTO DE FALA ) MODELO MAIS RECENTE - SVM SUPPORT VECTOR MACHINE Método Baseado na Teoria de Vapnik (1995) The Nature of Statistical Learning Theory. Reconhecimento de Fala ( MODELOS DE RECONHECIMENTO DE FALA ) MODELO MAIS RECENTE SVM - SUPPORT VECTOR MACHINE Teoria bem definida (Base na estatística e matemática); Elevada Capacidade de Generalização; Robustez em Grandes Dimensões (imagens); Diferentes núcleos caracterizam seu modo de reconhecimento de padrões. A correta definição de seus parâmetros implica em alta influência nos resultados obtidos por uma SVM. Convexidade da função objetivo, implicando na otimização de uma função quadrática, que tem apenas um mínimo (vantagem sobre as RNA´s); Reconhecimento de Fala ( COMENTÁRIO ) COMENTÁRIO Tanto HMM, como SVM e demais algoritmos para reconhecimento de fala, usam técnicas estatísticas, levando em consideração ocorrências de palavras, fonemas, etc. Reconhecimento de Fala ( COMENTÁRIO ) COMENTÁRIO As variáveis que influenciam no processo de reconhecimento de fala são em quantidade razoavelmente grandes e de difícil controle. QUE TAL ENTÃO UMA AJUDA...? DA ESTATÍSTICA....? Projeto e Análise de Experimentos Estatísticos Fatorial Para Reconhecimento de Fala ( CONCEITO DE EXPERIMENTO ) Experimento Estatístico Literalmente: um teste. Formalmente: série de testes em que manipula-se as variáveis de entrada de um processo ou sistema para identificar as razões que afetam a saída . Projeto e Análise de Experimentos Estatísticos Fatorial Para Reconhecimento de Fala ( MODELO GERAL DE UM PROCESSO OU SISTEMA ) x1 x2 . . . xn Entrada SISTEMA Saída z1 z2 . . . zm Onde: x1, x2, ..., xn são fatores controláveis; z1, z2, ..., zm são fatores não controláveis. Projeto e Análise de Experimentos Estatísticos Fatorial Para Reconhecimento de Fala ( CONCEITO DE PROJETO FATORIAL ) Muitos experimentos, envolvem o estudo de efeitos de dois ou mais fatores. Por projeto fatorial, entendemos que em cada teste completo ou replicação do experimento todas as possíveis combinações dos níveis dos fatores são investigadas. Projeto e Análise de Experimentos Estatísticos Fatorial Para Reconhecimento de Fala ( EXEMPLO DE PROJETO FATORIAL ) Exemplo: Seja A - Fator 1 com a níveis; B - Fator 2 com b níveis; Cada replicação contem todas as combinações dos ab tratamentos. O efeito do fator é definido pela mudança na resposta produzida pela variação no nível do fator. Projeto e Análise de Experimentos Estatísticos Fatorial Para Reconhecimento de Fala ( EXEMPLO DE PROJETO FATORIAL ) A, B Efeito Principal - Efeito da Interação - AB Projeto e Análise de Experimentos Estatísticos Fatorial Para Reconhecimento de Fala ( EXEMPLO DE PROJETO FATORIAL COM DOIS FATORES A DOIS NÍVEIS ) Para dois níveis (alto ou baixo) em A e B, pode-se considerar os efeitos de cada um como sendo a diferença entre a resposta média do nível alto para o nível baixo do fator. EfA = A+ - AEfB = B+ - B- Projeto e Análise de Experimentos Estatísticos Fatorial Para Reconhecimento de Fala ( EXEMPLO DE PROJETO FATORIAL COM DOIS FATORES A DOIS NÍVEIS ) Numericamente: Alto (+) 30 52 20 40 Fator B Baixo (-) Baixo (-) Alto (+) Fator A EfA = A+ - AEfB = B+ - B- EfA = (40 + 52)/2 - (20 + 30)/2 = 21 EfB = (30 + 52)/2 - (20 + 40)/2 = 11 Projeto e Análise de Experimentos Estatísticos Fatorial Para Reconhecimento de Fala ( EXEMPLO DE PROJETO FATORIAL COM DOIS FATORES A DOIS NÍVEIS ) EfA = (40 + 52)/2 - (20 + 30)/2 = 21 EfB = (30 + 52)/2 - (20 + 40)/2 = 11 Os resultados acima indicam que incrementando o nível do fator A do baixo para o alto, causa um incremento de 21 unidades na resposta. Projeto e Análise de Experimentos Estatísticos Fatorial Para Reconhecimento de Fala ( EXEMPLO DE PROJETO FATORIAL COM DOIS FATORES A DOIS NÍVEIS ) Quando passa-se do nível baixo de B para o nível alto, não afetando o comportamento da resposta para o fator A, sugere-se uma não interação entre os fatores. P/ BA = 40 - 20 = 20 P/ B+ A = 52 - 30 = 22 Alto (+) 30 52 20 40 Fator B Baixo (-) Baixo (-) Alto (+) Fator A Projeto e Análise de Experimentos Estatísticos Fatorial Para Reconhecimento de Fala ( EXEMPLO DE PROJETO FATORIAL COM DOIS FATORES A DOIS NÍVEIS ) Quando passa-se do nível baixo de B para o nível alto, afetando o comportamento da resposta para o fator A, sugere-se uma interação entre os fatores. P/ BA = 50 - 20 = 30 P/ B+ A = 12 - 40 = -28 Alto (+) 40 12 20 50 Fator B Baixo (-) Baixo (-) Alto (+) Fator A Projeto e Análise de Experimentos Estatísticos Fatorial Para Reconhecimento de Fala ( EXEMPLO DE PROJETO FATORIAL COM DOIS FATORES A DOIS NÍVEIS ) Sem Interação R e s p o s t a 60 B+ 50 40 30 Com Interação B+ B- 20 10 B- Fator A + R e s p o s t a 60 50 40 30 20 BB+ B- B+ 10 - Fator A + AB = (AB+ - AB-)/2 AB = (-28 - 30)/2 = -29 Projeto e Análise de Experimentos Estatísticos Fatorial Para Reconhecimento de Fala ( EXEMPLO DE PROJETO FATORIAL COM DOIS FATORES A DOIS NÍVEIS ) Supondo Valores Quantitativos Modelo de Regressão Linear y = 0 + 1x1 + 2x2 + 12x1x2 + Onde: y é a resposta; ´s são valores correspondentes aos efeitos; x1 é a variável que representa o fator A, x2 o fator B e é um erro devido ao processo aleatório. Projeto e Análise de Experimentos Estatísticos Fatorial Para Reconhecimento de Fala ( EXEMPLO DE PROJETO FATORIAL COM DOIS FATORES A DOIS NÍVEIS ) Para os fatores A e B sem Interação: y=35.5 + 10.5x1 + 5.5 x2 + 0.5 x1x2 OU y=35.5 + 10.5x1 + 5.5 x2 Curva de resposta Resíduo Projeto e Análise de Experimentos Estatísticos Fatorial Para Reconhecimento de Fala ( EXEMPLO DE PROJETO FATORIAL COM DOIS FATORES A DOIS NÍVEIS ) 59 49 1 39 y 29 19 -1 -0,6 -0,2 0,2 0,6 1 0,6 0,2 -0,2 x2 -0,6 -1 x1 Resposta da superfície do modelo de regressão. Projeto e Análise de Experimentos Estatísticos Fatorial Para Reconhecimento de Fala (DOIS FATORES ) Problema: Um experimento é feito para verificar a taxa de acerto de sistemas computacionais de reconhecimento de fala com 4 replicações. Um locutor diferente é sorteado para cada ensaio. A taxa de acerto dos sistemas é verificada frente a dois fatores: 1) quantidade de palavras faladas; 2) Tipo do sistema usado Os dados de resposta são mostrados na tabela abaixo. a) Faça a análise de variância e diga se o sistema usado e o número de palavras influenciam na taxa de acerto das palavras; b) Plote o gráfico para os resíduos e analise o modelo. Projeto e Análise de Experimentos Estatísticos Fatorial Para Reconhecimento de Fala (DOIS FATORES ) Dados do experimento o N de Palavras Tipo de Sistema 2 ANN 90 87 89 91 HMM 91 90 90 93 HMM/ANN 97 99 96 98 4 85 86 84 84 88 84 86 90 96 97 93 98 6 80 78 76 92 80 91 90 88 95 93 97 95 8 80 80 75 90 80 89 87 92 96 95 90 91 10 80 82 75 76 90 78 80 79 93 91 95 90 Tipo de Sistema No Palavras 2 4 6 8 yi.. 10 90 87 89 91 89,25 85 86 84 84 84,75 80 78 80 80 80 82 103,78 76 92 75 90 75 76 81,6 81,25 78,25 91 90 90 93 91,00 97 99 HMM/ANN 96 98 97,50 88 84 86 90 87,00 80 91 90 88 87,00 80 89 87 92 87,00 90 78 108,44 80 79 81,75 96 97 93 98 96,00 95 93 97 95 95,00 96 95 90 91 93,00 93 91 95 90 92,25 89,25 87,87 87,08 84,08 110,215 ANN yij. HMM y.j. 92,58 118,44 y... Hipóteses yijk = + i + j + ( )ij + ijk H0: Não há diferença entre os sistemas. 1 = 2 = ... = a = 0 H0: O No de palavras não afeta o grau de acerto do sistema. 1 = 2 = ... = b = 0 H0: A iteração entre os fatores não afetam a resposta. ( )ij = 0 para todo i, j. ANOVA Fonte de variação Sistema Soma de gl Quad. quadrados médio F P 1.438,0 2 719,0 49,23 0,000000 463,1 4 115,8 7,93 0,000063 64,6 8 8,1 0,55 0,809907 Erro 657,3 45 14,6 Total 2623 59 No Palavras Sist.*Palavras Conclusão I Rejeita H0 : O sistema e o número de palavras afetam a resultado. Aceita Ho para a iteração entre eles. Gráfico de médias S s i t e m a ;L S M e a n s C u r r e n te f f e c t :F ( 2 ,4 5 ) = 4 9 , 2 2 9 ,p = , 0 0 0 0 0 E f f e c t v i e h y p o t h e s s i d e c o m p o s t i o i n V e r t c i a lb a r s d e n o t e 0 , 9 5 c o n f d i e n c e n i t e r v a s l 9 8 9 6 9 4 9 2 Acerto 9 0 8 8 8 6 8 4 8 2 8 0 7 8 1 2 S s i t e m a 3 Gráfico de médias P a a l v r a s ;L S M e a n s C u r r e n te f f e c t :F ( 4 ,4 5 ) = 7 , 9 2 6 2 ,p = , 0 0 0 0 6 E f f e c t v i e h y p o t h e s s i d e c o m p o s t i o i n V e r t c i a lb a r s d e n o t e 0 , 9 5 c o n f d i e n c e n i t e r v a s l 9 8 9 6 9 4 9 2 Acerto 9 0 8 8 8 6 8 4 8 2 8 0 2 4 6 P a a l v r a s 8 1 0 Gráfico de médias S s i t e m a * P a a l v r a s ;L S M e a n s C u r r e n te f f e c t :F ( 8 ,4 5 ) = , 5 5 3 1 6 ,p = , 8 0 9 9 1 E f f e c t v i e h y p o t h e s s i d e c o m p o s t i o i n V e r t c i a lb a r s d e n o t e 0 , 9 5 c o n f d i e n c e i n t e r v a s l 1 0 5 1 0 0 9 5 Acerto 9 0 8 5 8 0 7 5 7 0 1 2 S s i t e m a 3 P a a l v r a s 2 P a a l v r a s 4 P a a l v r a s 6 P a a l v r a s 8 P a a l v r a s 1 0 Gráfico de médias S s i t e m a * P a a l v r a s ;L S M e a n s C u r r e n te f f e c t :F ( 8 ,4 5 ) = , 5 5 3 1 6 ,p = , 8 0 9 9 1 E f f e c t v i e h y p o t h e s s i d e c o m p o s t i i o n V e r t c i a lb a r s d e n o t e 0 , 9 5 c o n f d i e n c e i n t e r v a s l 1 0 5 1 0 0 9 5 Acerto 9 0 8 5 8 0 7 5 7 0 2 4 6 P a a l v r a s 8 1 0 S s i t e m a 1 S s i t e m a 2 S s i t e m a 3 Gráfico de Resíduos N o r m a lP r o b .P o l t ;R a w R e s d i u a s l D e p e n d e n tv a r a i b e l :A c e r t o ( A n a y l s s i s a m p l e ) 3 , 0 2 , 5 , 9 9 2 , 0 , 9 5 1 , 5 1 , 0 , 7 5 0 , 5 , 5 5 ExpectdNormalValue 0 , 0 , 3 5 0 , 5 1 , 0 , 1 5 1 , 5 , 0 5 2 , 0 , 0 1 2 , 5 3 , 0 1 0 8 6 4 2 0 2 R e s d i u a l 4 6 8 1 0 1 2 1 4 Histograma de Resíduos H s i t o g r a m o fR a w R e s d i u a s l D e p e n d e n tv a r a i b e l :A c e r t o ( A n a y l s s i s a m p e l ) 2 0 1 8 1 6 1 4 1 2 No.fobs. 1 0 8 6 4 2 0 1 21 0 8 6 4 2 0 2 4 X < = C a t e g o r y B o u n d a r y 6 8 1 0 1 2 1 4 Conclusão II O gráfico dos resíduos x preditos mostram comportamento dos pontos aleatórios. Os pontos dos resíduos mostram uma curva normal. Logo, o modelo é adequado. Projeto e Análise de Experimentos Estatísticos Fatorial Para Reconhecimento de Fala (2k-p ) CONSIDERAÇÃO AO PROJETO FATORIAL PARA RECONHECIMENTO DE FALA perplexidade = Modelo de Linguagem x Vocabulário Considerando 8 fatores... Resolução Tratamentos 2v8-2 64 2iv8-3 32 2v8-4 16 (menos custo) Fatores A-Transdutor B-Vocabulário E- Modelo Linguagem C- Modo de Fala F-RSR D- Estilo de Fala G- Sistema H-locutor Resolução 2v8-4 = 16 Tratamentos Confusões E = BCD F = ACD G= ABC H = ABD TABELA PARA O PROJETO FATORIAL A-Transdutor B-Vocabulário E- Modelo Linguagem E = BCD C- Modo de Fala F-RSR F = ACD 28-4 D- Estilo de Fala G- Sistema G= ABC H = ABD A B C D BCD ACD ABC ABD -1 -1 -1 -1 -1 -1 -1 -1 2 +1 -1 -1 -1 -1 +1 +1 +1 3 -1 +1 -1 -1 +1 -1 +1 +1 +1 +1 +1 +1 +1 +1 +1 +1 4 5 6 7 Y Y - RESPOSTA 1 8 H-locutor REFERÊNCIAS BIBLIOGRÁFICAS [01] Douglas C. Montgomery. “Design and Analysis of Experiments”. Sixth Edition, Arizona State University, 2005. [02] Editorial Board: Ronald A. Cole; Joseph Mariani; Hans Uszkoreit; Annie Zaenen and Victor Zue. “Survey of the State of the Art in Human Language Technology”. National Science Foundation Directorate XIII-E of the Commission of the European Communities Center for Spoken Language Undertanding, Oregon Graduate Institute, November 1995. [03] Sujun Huan and Zhirong Sun. “Support Vector Machine Approach for Protein Subcellular Localization Prediction” Institute of Bioinformatics, Department of Biological Sciences and Biotecnology, Tsinghua University, China. April 2001. [04] Klaus-Robert Müller, Sebastian Mika, Gunnar Rätch, Koji Tsuda, and Bernhard Schölkopf . “Na Introduction to Kernel-Based Learning.” IEEE Transaction on Neural Networks, vol. 12, No. 2 March 2001. [05] Marcelo C. Medeiros; Timo Teräsvirta and Gianluigi Rech. “Aspectos Estatísticos da Modelagem de Redes Neurais em Séries Temporais”. DEE, PUC - RJ. Projeto e Análise de Experimentos Estatísticos Fatorial Para Reconhecimento de Fala FIM [email protected] FELIZ NATAL E 2006 CHEIO DE... SAÚDE E PAZ!!!!