Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003 O que são Mel Frequency Cepstral Coefficients ? MFCC são geralmente usados como features de sistemas de reconhecimento de fala. Um exemplo seria um sistema de SAC que pode reconhecer automaticamente números falados em um telefone. Introdução Neste trabalho foi examinado com alguns detalhes Mel Frequency Cepstral Coefficients ( MFCCs ), que são features dominantes usadas no reconhecimento da fala. Investigamos a aplicabilidade destas features na modelagem musical. . . A composição espectral de um sinal contém muita informação. São features sensíveis ao ruído. Introdução MFCCs são features de curto prazo, elas são calculadas como segue: 1 – Divide o sinal em Frames. 2 - Para cada Frame, obtém a amplitude do espectro. 3 – Aplica-se logaritmo. 4 – Aplica-se DCT ( Discrete Cosine Transform ) . Introdução Examinamos 2 dos principais pressupostos no processo de formação de MFCC: 1 - A utilização de Mel Frequency scale para modelar o espectro. 2 - Discrete Cosine Transform (DCT ) para “decorrelate” Mel-spectral vectors. MFCC for Speech Recognition MFCC são as features dominantes utilizadas no reconhecimento da fala. Seu sucesso é devido a capacidade de representar a amplitude do espectro da fala de uma forma compacta. MFCC for Speech Recognition MFCC for Speech Recognition A escala Mel é baseada em um mapeamento entre a frequência real e o pitch aparentemente percebido do sistema auditivo humano. MFCCs for Music Analysis Como visto anteriormente o processo de cálculo de MFFCs para fala consiste em 5 etapas: .Dividir o sinal em frames .Obter a amplitude do espectro .Transformar para Logaritimo .Converter para espectro Mel .Aplicar DCT Vamos procurar determinar se este processo é adequado na criação de features para um modelo musical Mel vs Linear Spectral Modeling Para investigar se é apropriado para determinar o spectrum da música usando a escala mel, usamos um áudio de speech/music simples. Temos disponíveis cerca de 3 horas de dados rotulados de um programa de transmissão de rádio. O programa contém entrevistas, comerciais e uma série de segmentos de músicas. Mel vs Linear Spectral Modeling Os dados são divididos da seguinte maneira : .2 horas de dados de treino - 10% rotulados como música. . 40 minutos de dados de teste - 14 % rotulados como música. Mel vs Linear Spectral Modeling Nós convertemos os dados de treinamento para a escala ‘Mel’ e para ‘um Linear Spectral Modeling’. Usando uma versão padrão de algoritmos EM ( Expectation – Maximization ) nos treinamos uma mistura de Classificadores Gaussianos para rotular segmentos de fala/música dos dados de treinamento. Mel vs Linear Spectral Modeling Using the DCT to Approximate the KL Transform Oque é um Karhumen – Loève ? A KL é uma transformação linear que permite a representação de funções utilizando funções-base formadas pelos “eigenVectors” ( autovetores) da matriz de correlação do sinal. A KL é uma transformação linear que geralmente é realizada para encontrar ‘eigenValues” ( autovalores ) da matriz de covariância. KL Transform A transformação KL converte um vetor u de dimensão m em um vetor v de dimensão n onde : . n <= m e v é “uncorrelated” . Isso é expresso como : v = Ou KL Transform Obs : The speech used is the trainning set for TIMIT( Garofolo et al. 1993) which is a speaker independent, clean speech database ( 3 hours of speech ). Usando DCT Na comunidade de reconhecimento de fala é usado um DCT ( Discrete Cosine Transform ) para aproximar da transformação KL. A transformação é escrita como : c = Du onde c nxm é o coeficiente cepstral de u matrix of cosine basis. e D que é Usando DCT Pelos nossos estudos, observamos que o DCT está próximo do ótimo para a função de “decorrelated” para fala. KL transform for music spectra Vamos agora examinar a transformação KL para música. A figura a seguir mostra os “eigenValues” e os 15 primeiros “eigenVectors” para uma sequência de Mel Log Spectral vectores coletados de Músicas dos Beatles (289 minutos de música no total). KL transform for music spectra Conclusão Neste paper, procurou-se construir um caso de sucesso na comunidade de reconhecimento de fala pela investigação de como aplicável é, usar features dominantes da fala (spectral features ) para a modelagem de música. Referências Foote, J.T. (1997), Content-based retrieval of music and audio, in ‘SPIE’,pp. 138-147. Garolfo, J.S. Et al. (1993), Darpa timit. acoustic-phonetic continuous speech corpus. Nistir 4930, Technical report, DARPA. Logan, B. T. & Chu, S. (2000), Music summarization using key phrases, in ‘Proceedings IEEE International Conference in Spoken Language Processing’ EigenValues and EingenVectors Vejamos um exemplo de eigenValue e EigenVector: Se vc for perguntado se é um eigenVector correspondente do eigenValue voce pode descobrir, subistituindo x, e A na equação : para