A Review of Algorithms for Audio Fingerprinting Autores : Pedro Cano Ton Kalker IEEE - MMSP – International WorkShop on Multimedia Signal Processing 2003 Introdução O AudioFingerPrint é uma assinatura gerada do conteúdo do sinal do áudio. Pode ser utilizado para identificar um som desconhecido rapidamente em uma base de músicas (independente do formato do áudio ). Introdução Neste trabalho avaliamos diferentes técnicas e modelos de Fingerprint. Quando apresentado um áudio desconhecido sua FingerPrint é calculada e comparada ( matching) com FingerPrints armazenadas em um Banco de Dados. Usando bons algoritmos de matching até mesmo áudio com ruídos podem ser identificados. Desafio A grande dificuldade de identificar o áudio automaticamente : 1 - Seu conteúdo deriva de uma elevada dimensionalidade. 2 - Existe uma variancia significativa dos dados de audio para uma mesma música. Requisitos básicos de um Sistema de Indentificação Automático Deve ser capaz de identificar com precisão um item mesmo com ruídos ao fundo. Deve ser computacionalmente eficiente. FrameWork Padrão Apesar das diferentes aplicações, um sistema de identificação de áudio compartilham de certos aspectos: 1 - Extração de Impressão Digital. 2 – Algoritmo de Matching. FrameWork Padrão Uma boa FingerPrint deve ser: 1 – Compacta 2 – Invariante a distorções 3 – Computacionalmente barata FrameWork Padrão FrameWork Padrão A B C D E F – – – – – – Pré – Processamento Framing / Overlap Transformação Linear Extração de Features Processamento Posterior FingerPrint Models FrameWork Padrão Front End O Front End converte um sinal de áudio em uma sequencia de feautures relevantes para alimentar o FingerPrint Modeling. FingerPrint Modeling Redução da Dimensionalidade. FingerPrint Modeling Assinatura TRM MusicBrainz inclui em um vetor : batidas estimadas por minutos ( BPM ) , o espectro médio , e mais algumas características que ele afirma que já representa bem uma peça de áudio ( 26 segundos ). Redundâncias Globais dentro de uma música são explorados. Se assumimos que as features obtidas de um item de áudio são semelhantes entre eles, uma representação compacta pode ser gerada para agrupar estes vetores. ( Codebook ) . Distancia e Métodos de Busca Métricas de distância estão muito relacionado com o modelo de FingerPrint. Em [9] a referencia da Fingerprint armazenada na base de dados e a de amostra do som desconhecido são do mesmo formato e comparadas de acordo com alguma distancia métrica por exemplo a distância de Hamming. Busca Para usabilidade de um sistema de identificação, ele deve ser eficiente para fazer a comparação do áudio de amostra contra possivelmente milhões de FingerPrints. O objetivo geral é a construção de uma estrutura de dados, um índice, para reduzir o número de avaliações quando uma consulta é realizada. Avaliação Tem como objetivo responder se o som de amostra esta presente ou não na base de dados. Durante a comparação pontuações ( resultantes das distâncias ) são obtidos. Para decidir que há uma identificação correta, a pontuação necessita ter um linear. ( Quanto maior a base de dados maior a chance de falsos positivos ). Referências [1] R. Baeza-Yates and B. Ribeiro-Neto, Modern Information Retrieval. Addison Wesley, 1999. [2] S. Subramanya, R.Simha, B. Narahari, and A. Youssef, “Transformbased indexing of audio data for multimedia databases,” in Proc. of Int.Conf. on Computational Intelligence and Multimedia Applications, New Delhi, India, Sept. 1999 [3] M. Mihak and R. Venkatesan, “A perceptual audio hashing algorithm: a tool for robust audio identification and information hiding,” in 4th Workshop on Information Hiding, 2001. [4] P. Cano, E. Batlle, H. Mayer, and H. Neuschmied, “Robust sound modeling for song detection in broadcast audio,” in Proc. AES 112th Int. Conv., Munich, Germany, May 2002.