Mel Frequency Cepstral Coefficients
for Music Modeling
Autores :
Beth Logan
Cambridge Research Laboratory
ISMIR - 2003
O que são Mel Frequency Cepstral Coefficients ?
 MFCC são geralmente usados como features de sistemas
de reconhecimento de fala.
 Um exemplo seria um sistema de SAC que pode
reconhecer automaticamente números falados em um
telefone.
Introdução
 Neste trabalho foi examinado com alguns detalhes
Mel Frequency Cepstral Coefficients ( MFCCs ), que
são features dominantes usadas no reconhecimento
da fala.
 Investigamos a aplicabilidade destas features na
modelagem musical.
.
.
A composição espectral de um sinal contém muita informação.
São features sensíveis ao ruído.
Introdução
 MFCCs são features de curto prazo, elas são
calculadas como segue:
1 – Divide o sinal em Frames.
2 - Para cada Frame, obtém a amplitude do
espectro.
3 – Aplica-se logaritmo.
4 – Aplica-se DCT ( Discrete Cosine Transform ) .
Introdução
 Examinamos 2 dos principais pressupostos
no processo de formação de MFCC:
1 - A utilização de Mel Frequency scale para
modelar o espectro.
2 - Discrete Cosine Transform (DCT ) para
“decorrelate” Mel-spectral vectors.
MFCC for Speech Recognition
 MFCC são as features dominantes utilizadas no
reconhecimento da fala.
 Seu sucesso é devido a capacidade de
representar a amplitude do espectro da fala de
uma forma compacta.
MFCC for Speech Recognition
MFCC for Speech Recognition
 A escala Mel é baseada em um
mapeamento entre a frequência real
e o pitch aparentemente percebido do
sistema auditivo humano.
MFCCs for Music Analysis
 Como visto anteriormente o processo de
cálculo de MFFCs para fala consiste em 5
etapas:
.Dividir o sinal em frames
.Obter a amplitude do espectro
.Transformar para Logaritimo
.Converter para espectro Mel
.Aplicar DCT
Vamos procurar determinar se este processo é adequado na
criação de features para um modelo musical
Mel vs Linear Spectral Modeling
 Para investigar se é apropriado para
determinar o spectrum da música usando a
escala mel, usamos um áudio de speech/music
simples.
 Temos disponíveis cerca de 3 horas de dados
rotulados de um programa de transmissão de
rádio.
 O programa contém entrevistas, comerciais e
uma série de segmentos de músicas.
Mel vs Linear Spectral Modeling
 Os dados são divididos da seguinte
maneira :
.2 horas de dados de treino
- 10% rotulados como música.
. 40 minutos de dados de teste
- 14 % rotulados como música.
Mel vs Linear Spectral Modeling
 Nós convertemos os dados de treinamento
para a escala ‘Mel’ e para ‘um Linear
Spectral Modeling’.
 Usando uma versão padrão de algoritmos
EM ( Expectation – Maximization ) nos
treinamos uma mistura de Classificadores
Gaussianos para rotular segmentos de
fala/música dos dados de treinamento.
Mel vs Linear Spectral Modeling
Using the DCT to Approximate the
KL Transform
 Oque é um Karhumen – Loève ?
A KL é uma transformação linear que permite a
representação de funções utilizando funções-base
formadas pelos “eigenVectors” ( autovetores) da matriz
de correlação do sinal.
A KL é uma transformação linear que geralmente é
realizada para encontrar ‘eigenValues” ( autovalores ) da
matriz de covariância.
KL Transform
A transformação KL converte um
vetor u de dimensão m em um
vetor v de dimensão n onde :
. n <= m
e
v é
“uncorrelated”
. Isso é expresso como : v = Ou
KL Transform
Obs : The speech used is the trainning set for TIMIT( Garofolo et al. 1993) which is a speaker
independent, clean speech database ( 3 hours of speech ).
Usando DCT
 Na comunidade de reconhecimento de fala é usado
um DCT ( Discrete Cosine Transform ) para aproximar
da transformação KL.
 A transformação é escrita como :
c = Du
onde c
nxm
é o coeficiente cepstral de u
matrix of cosine basis.
e
D
que é
Usando DCT

Pelos nossos estudos, observamos que o DCT está próximo do
ótimo para a função de “decorrelated” para fala.
KL transform for music spectra
 Vamos agora examinar a transformação KL para
música.
 A figura a seguir mostra os “eigenValues” e os 15
primeiros “eigenVectors” para uma sequência de Mel
Log Spectral vectores coletados de Músicas dos
Beatles (289 minutos de música no total).
KL transform for music spectra
Conclusão
 Neste paper, procurou-se construir um caso de
sucesso na comunidade de reconhecimento de
fala pela investigação de como aplicável é, usar
features dominantes da fala (spectral features
) para a modelagem de música.
Referências

Foote, J.T. (1997), Content-based retrieval of music and audio, in
‘SPIE’,pp. 138-147.

Garolfo, J.S. Et al. (1993), Darpa timit. acoustic-phonetic continuous
speech corpus. Nistir 4930, Technical report, DARPA.

Logan, B. T. & Chu, S. (2000), Music summarization using key phrases,
in ‘Proceedings IEEE International Conference in Spoken Language
Processing’
EigenValues and EingenVectors

Vejamos um exemplo de eigenValue e EigenVector:

Se vc for perguntado se
é um eigenVector correspondente do
eigenValue
voce pode descobrir, subistituindo x,
e A na equação :
para
Download

apresentação