Recuperação Inteligente de Informação
de Músicas
Uraquitan Sidney Cunha
Roteiro

Introdução

ISMIR, IMIRSEL e MIREX
Importantes Áreas de Pesquisa e Aplicação da
MIR
Aplicações de MIR
Doutorado
Conclusão




• Recuperação de Informação de Músicas
• Motivações
Recuperação de Informação de
Músicas

A RI de músicas é um desafio a ser
superado com grande produção científica em
todo o mundo

A complexidade se justifica pela natureza da
atividade
• Quando realizada por seres humanos,
envolve processos cognitivos e de
aprendizagem que não têm seus limites muito
claros até mesmo para especialistas
Recuperação de Informação de
Músicas

Atualmente diversas subáreas de RI de músicas têm
sido objeto de pesquisas, e a cada ano diversas
novas técnicas são propostas
• Juntas elas tentam maximizar o poder da
recuperação da informação
MELODIA
ACORDES
SEGMENTAÇÃO
MÚSICA
BEATS
FREQUÊNCIAS
COMPASSO
Motivações

As principais motivações envolvem:
• Demandas por softwares educativos na área
de música
• Demandas da indústria e comércio que lida
com recomendações de estilos musicais
• Demandas da indústria de equipamentos de
•
áudio musical que pretendem dar sempre
maior suporte aos músicos
...
ISMIR – The International Society
for Music Information Retrieval

Sociedade internacional de pesquisa sobre
recuperação de dados e informações
relacionados com música (MIR – Music
Information Retrieval)

Grupo informal que estabeleceu um comitê
organizador de um simpósio no ano de 2000
• International Symposium on Music
Information Retrieval

Em 2002 formalizou-se se tornando uma
conferência chamada ISMIR
ISMIR – The International Society
for Music Information Retrieval

O objetivo da ISMIR:
• Espaço para a troca de notícias, ideias,
apresentação de projetos de pesquisa

A conferência busca atender as demandas
do meio acadêmico e das indústrias de
informação e entretenimento
• A música digital e seus metadados são cada
vez mais abundantes
ISMIR – The International Society
for Music Information Retrieval

MIR é uma área interdisciplinar
• Musicologia, Ciência Cognitiva, Ciência da
Informação, Ciência da Computação, entre outras

A conferência da ISMIR reuni pesquisadores,
desenvolvedores, educadores, estudantes e
usuários profissionais, de áreas deste
domínio multidisciplinar
IMIRSEL - International Music Information
Retrieval Systems Evaluation Laboratory

O IMIRSEL, localizado na Escola de Pós-Graduação
em Biblioteconomia e Ciência da Informação
(GSLIS) da Universidade de Illinois (UIUC),
atualmente chefiado pelo professor J. Stephen
Downie, tem os seguintes objetivos:.
•
•
Definir métricas que permitam a validação e
comparação das técnicas emergentes sobre MIR
Criação e disponibilização de materiais de música, e
de metadados de músicas.
MIREX - Music Information Retrieval Evaluation
eXchange

Competição entre várias categorias de algoritmos de
MIR
•


Objetiva a comparação do estado da arte de algoritmos
e sistemas relevantes para MIR.
O IMIRSEL é o principal organizador do MIREX
•
Normalmente acontece durante a realização do ISMIR
A seguir descreveremos cada uma das áreas de MIR
que têm sido testadas com algoritmos submetidos a
métricas previamente estabelecidas durante o MIREX
Importantes Áreas de Pesquisa e
Aplicação da MIR













Audio classification
Audio cover identification
Audio Music Similarity and Retrieval
Audio Music Similarity and Retrieval
Audio Onset Detection
Audio Key Detection
Query by Singing/Humming
Audio Melody Extraction
Multiple Fundamental Frequency Estimation & Tracking
Audio Chord Estimation
Structural Segmentation
Audio Tempo Estimation
Audio Beat Tracking
Audio Classification

Esta tarefa tem como objetivo a identificação de
estilos musicais e até estilos de compositores

No MIREX, as tarefas são testadas por grandes
grupos:
•
•
•
Identificação de compositores clássicos: Bach, Beethoven,
Brahms, Chopin, Dvorak, Handel, Haydn, Mendelssohn,
Mozart, Schubert e Vivaldi
Identificações de Estilos de Música Pop: Blues, Jazz,
Country/Western, Baroque, Classical, Romantic, Electronica,
Hip-Hop, Rock, HardRock/Metal
Identificações de Estilos de Música Latina: Axe, Bachata,
Bolero, Forro, Gaucha, Merengue, Pagode, Sertaneja, Tango
Audio Classification
Melhores Resultados em 2012

Algoritmo baseado em Support Vector
Machine nos dois primeiros lugares
• Acertos em 76% e 75%
Audio Cover Identification

Esta tarefa avalia algoritmos que tentam identificar se
um dado arquivo de áudio pode ser visto como uma
representação “cover” de uma outra composição

A ideia é a de que um algoritmo possa receber vários
arquivos de áudio e ranqueá-los de acordo com suas
semelhanças com um dado banco de canções
•
No banco de canções existem diferentes versões de
cada canção
Audio Cover Identification
Melhor Resultado em 2012

Algoritmo baseado nas medidas de
similaridade entre partes do audio através da
comparação dos centróides dos vetores
croma de parte do audio
• Acertos próximos de 62,5%
Audio Music Similarity and Retrieval

Um sistema de similaridade musical pode ajudar às
pessoas que lidam com música a encontrar novas
músicas que se encaixem por similaridade com
outras determinadas músicas.

Os algoritmos costumam ser implementados por
gêneros musicais: Blues, Jazz, Country/Western,
Baroque, Classical, Romantic, Electronica, Hip-Hop,
Rock, HardRock/Metal
Audio Music Similarity and Retrieval
Melhor Resultado em 2012

Algoritmo que extrai de uma canção as
características de áudio sobre timbre, tempo e ritmo
e calcula a distância das mesmas em relação as
mesmas características de outras canções
•
Acertos próximos de 64%
Symbolic Melodic Similarity

O objetivo desta tarefa é comparar
algoritmos que trabalham para verificar o
grau de similaridade entre as melodias
presentes em arquivos simbólicos de áudio
(MIDI)

Os algoritmos recebem um arquivo simbólico
de áudio e compara o mesmo com um banco
de arquivos, retornando um ranking dos mais
similares
Symbolic Melodic Similarity
Melhor Resultado em 2012

O melhor algoritmo utiliza técnicas de PPM
(Prediction by Partial Matching)
• Acertos em média de 60%
Audio Onset Detection

Esta tarefa tem como objetivo analisar
algoritmos capazes de encontrar os locais
dos eventos sônicos em um arquivo de áudio

Para este tipo de tarefa, que é normalmente
feita em aplicações dedicadas a um único
tipo de sinal de áudio, a base de arquivos é
dividida em classes
•
Bateria tocando, um instrumento de solo, etc.
Audio Onset Detection
Melhor Resultado em 2012

Algoritmo baseado em redes neurais
recorrentes e bidirecionais do tipo Long
Short Term Memory
• Acertos em 85%
Audio Key Detection

A determinação do tom de uma música é
uma informação extremamente importante
para a análise da música ocidental

Esta tarefa analisa e compara algoritmos
capazes de identificar o tom de canções
•
Para esta tarefa, são analisadas pelos algoritmos apenas
os 30 segundos iniciais de cada arquivo do banco de dados
de canções.
Audio Key Detection
Melhor Resultado em 2012

Algoritmo baseado na extração cromagrama
através da DFT em arquivos de áudio
clipados entre as frequências de 100 e
2000hz
• Acertos em 82%
Query by Singing/Humming

O objetivo desta tarefa é avaliar sistemas de
MIR que recebem como entrada áudios de
pessoas cantando e que tentam identificar
corretamente as notas que estariam sendo
executadas pelos cantores
Query by Singing/Humming
Melhor Resultado em 2012

Algoritmo baseado em Earth Mover’s
Distance (EMD) e Dynamic Time Warping
(DTW)
• Acertos em 96%
Audio Melody Extraction

O objetivo desta tarefa é avaliar a
capacidade de sistemas de MIR na extração
da frequência fundamental da voz de uma
melodia sendo executada.

A tarefa normalmente se divide e detectar a
voz e em seguida, a frequência fundamental
Audio Melody Extraction
Melhor Resultado emm 2012

Algoritmo baseado na segmentação do
áudio em pequenos clusters seguida da
identificação da frequência fundamental
predominante nos mesmos
• Acertos em 68%
Multiple Fundamental Frequency
Estimation & Tracking

O objetivo desta tarefa é avaliar sistemas
capazes de identificar as frequências
fundamentais (F0) de cada frame de um
sinal de áudio.

A identificação da F0 de um sinal de áudio é
muito importante para muitas tarefas de MIR,
pois ela pode ajudar muita na identificação
de notas musicais e timbres em sinais
complexos.
Multiple Fundamental Frequency Estimation &
Tracking
Melhor Resultado em 2012

Algoritmo baseado na análise da
transformada de Fourrier STFT com
identificação de predominância de
frequências através de um algoritmo de
extração de pitch
•
Acertos em 64%
Audio Chord Estimation

Esta tarefa avalia sistemas de MIR que tentam
extrair e transcrever a sequência de acordes de um
arquivo de áudio.

Para muitas aplicações de MIR algoritmos com bons
resultados nesta tarefa podem ajudar em muitos
aspectos, tais como análise semântica de áudio,
segmentação e busca por blocos similares do
arquivo de áudio, entre outras tarefas.

Esta tarefa envolve a identificação completa de cada
acorde (nota, tipo e duração), bem como sua
localização na música.
Audio Chord Estimation
Melhor Resultado em 2012

Algoritmo baseado em aprendizagem com um
algoritmo de HMM (Hidden Markov Model) préprocessado com filtros passa baixa entre 220hs e
1661hz
•
Acertos em 72%
Structural Segmentation

Esta tarefa busca avaliar sistemas de MIR
que são capazes de identificar as estruturas
das seções ou segmentos em canções.
Estes segmentos são representados pelas
estrofes e refrões

Estas estruturas definem um dos mais
importantes parâmetros da música,
sobretudo ocidental
Structural Segmentation
Melhor Resultado em 2012

Algoritmo que extrai o vetor PCP (Pitch
Class Profile) de segmentos de uma canção
e monta um algoritmo recorrente de análise
de repetições de padrões de PCP´s
• Acertos em 77%
Audio Tempo Estimation

Esta tarefa tem como objetivo avaliar
sistemas de MIR que sejam capazes de
identificar o tempo ou compasso de canções
diversas.

Esta não é uma tarefa fácil, até mesmo
porque diferentes ouvintes (inclusive
experientes) podem ter diferentes visões do
tempo de uma mesma música
Audio Tempo Estimation
Melhor Resultado em 2012

Algoritmo que propõe novas técnicas
capazes de determinar o pulso de uma
canção tomando técnicas que extraem o
LLFT (Low Level Features Tempogram)
• Acertos em 78%
Audio Beat Tracking

O principal objetivo desta tarefa é identificar
os “beats” de um arquivo de áudio.
• A identificação deve ser do momento em
que o mesmo ocorre

É importante que fique claro que esta tarefa
não é a mesma que é feita na tarefa de
Audio Tempo Extraction, que tem como
objetivo identificar o tempo ou compasso de
cada sinal de áudio. O “beat” define o ritmo e
velocidade de cada música.
Audio Beat Tracking
Melhor Resultado em 2012

Algoritmo baseado em aprendizagem
com HMM (Hidden Markov Models)
• Acertos em 57%
Aplicações de MIR

Sonic Visualizer

IChords

Musipedia

Peachnote
• www.sonicvisualiser.org/
• www.daccordmusic.com
• www.musipedia.org/
• www.peachnote.com/
Doutorado

Propor técnicas que possam melhorar a
performance dos algoritmos de classificação
de acordes
• A ideia é trabalhar no pós processamento do
áudio acrescentando informações de contexto
que possam diminuir os erros dos algoritmos
existentes
Conclusão

Vimos aqui uma breve introdução da área de
MIR
• As principais subáreas de pesquisa de MIR
•

foram explanadas
Foram destacados os enfoques das principais
pesquisas nestas subáreas e seus resultados
foram identificados
Vimos alguns exemplos de aplicações
• Área ainda tímida devido ainda ao nível dos
resultados
Recuperação Inteligente de Informação
de Músicas
Perguntas?
Download

RI para Musica