A Review of Algorithms for
Audio Fingerprinting
Autores :
Pedro Cano
Ton Kalker
IEEE - MMSP – International WorkShop on Multimedia Signal Processing
2003
Introdução
 O AudioFingerPrint é uma assinatura
gerada do conteúdo do sinal do áudio.
 Pode ser utilizado para identificar um
som desconhecido rapidamente em uma
base de músicas (independente do
formato do áudio ).
Introdução
 Neste trabalho avaliamos diferentes técnicas e modelos
de Fingerprint.
 Quando apresentado um áudio desconhecido sua
FingerPrint é calculada e comparada ( matching) com
FingerPrints armazenadas em um Banco de Dados.
 Usando bons algoritmos de matching até mesmo áudio
com ruídos podem ser identificados.
Desafio
 A grande dificuldade de identificar o áudio
automaticamente :
1 - Seu conteúdo deriva de uma elevada
dimensionalidade.
2 - Existe uma variancia significativa dos
dados de audio para uma mesma música.
Requisitos básicos de um Sistema
de Indentificação Automático
 Deve ser capaz de identificar com
precisão um item mesmo com ruídos
ao fundo.
 Deve ser computacionalmente
eficiente.
FrameWork Padrão
 Apesar das diferentes aplicações, um sistema
de identificação de áudio compartilham de
certos aspectos:
1 - Extração de Impressão Digital.
2 – Algoritmo de Matching.
FrameWork Padrão
 Uma boa FingerPrint deve ser:
1 – Compacta
2 – Invariante a distorções
3 – Computacionalmente barata
FrameWork Padrão
FrameWork Padrão






A
B
C
D
E
F
–
–
–
–
–
–
Pré – Processamento
Framing / Overlap
Transformação Linear
Extração de Features
Processamento Posterior
FingerPrint Models
FrameWork Padrão
Front End
O Front End converte um sinal de áudio
em uma sequencia de feautures
relevantes para alimentar o FingerPrint
Modeling.
FingerPrint Modeling
 Redução da Dimensionalidade.
FingerPrint Modeling
 Assinatura TRM MusicBrainz inclui em um vetor :
batidas estimadas por minutos ( BPM ) , o espectro
médio , e mais algumas características que ele afirma
que já representa bem uma peça de áudio ( 26
segundos ).
 Redundâncias Globais dentro de uma música são
explorados. Se assumimos que as features obtidas de
um item de áudio são semelhantes entre eles, uma
representação compacta pode ser gerada para
agrupar estes vetores. ( Codebook ) .
Distancia e Métodos de Busca
 Métricas de distância estão muito relacionado
com o modelo de FingerPrint.
 Em [9] a referencia da Fingerprint
armazenada na base de dados e a de
amostra do som desconhecido são do mesmo
formato e comparadas de acordo com alguma
distancia métrica por exemplo a distância de
Hamming.
Busca
 Para usabilidade de um sistema de identificação, ele
deve ser eficiente para fazer a comparação do áudio
de amostra contra possivelmente milhões de
FingerPrints.
 O objetivo geral é a construção de uma estrutura de
dados, um índice, para reduzir o número de
avaliações quando uma consulta é realizada.
Avaliação
 Tem como objetivo responder se o som de amostra
esta presente ou não na base de dados.
 Durante a comparação pontuações ( resultantes das
distâncias ) são obtidos.
 Para decidir que há uma identificação correta, a
pontuação necessita ter um linear. ( Quanto maior a
base de dados maior a chance de falsos positivos ).
Referências

[1] R. Baeza-Yates and B. Ribeiro-Neto, Modern Information
Retrieval. Addison Wesley, 1999.

[2] S. Subramanya, R.Simha, B. Narahari, and A. Youssef,
“Transformbased indexing of audio data for multimedia databases,”
in Proc. of Int.Conf. on Computational Intelligence and Multimedia
Applications, New Delhi, India, Sept. 1999
[3] M. Mihak and R. Venkatesan, “A perceptual audio hashing
algorithm:
a tool for robust audio identification and information hiding,” in 4th
Workshop on Information Hiding, 2001.


[4] P. Cano, E. Batlle, H. Mayer, and H. Neuschmied, “Robust sound
modeling for song detection in broadcast audio,” in Proc. AES 112th
Int. Conv., Munich, Germany, May 2002.
Download

apresentação