Recuperação Inteligente de Informação de Músicas Uraquitan Sidney Cunha Roteiro Introdução ISMIR, IMIRSEL e MIREX Importantes Áreas de Pesquisa e Aplicação da MIR Aplicações de MIR Doutorado Conclusão • Recuperação de Informação de Músicas • Motivações Recuperação de Informação de Músicas A RI de músicas é um desafio a ser superado com grande produção científica em todo o mundo A complexidade se justifica pela natureza da atividade • Quando realizada por seres humanos, envolve processos cognitivos e de aprendizagem que não têm seus limites muito claros até mesmo para especialistas Recuperação de Informação de Músicas Atualmente diversas subáreas de RI de músicas têm sido objeto de pesquisas, e a cada ano diversas novas técnicas são propostas • Juntas elas tentam maximizar o poder da recuperação da informação MELODIA ACORDES SEGMENTAÇÃO MÚSICA BEATS FREQUÊNCIAS COMPASSO Motivações As principais motivações envolvem: • Demandas por softwares educativos na área de música • Demandas da indústria e comércio que lida com recomendações de estilos musicais • Demandas da indústria de equipamentos de • áudio musical que pretendem dar sempre maior suporte aos músicos ... ISMIR – The International Society for Music Information Retrieval Sociedade internacional de pesquisa sobre recuperação de dados e informações relacionados com música (MIR – Music Information Retrieval) Grupo informal que estabeleceu um comitê organizador de um simpósio no ano de 2000 • International Symposium on Music Information Retrieval Em 2002 formalizou-se se tornando uma conferência chamada ISMIR ISMIR – The International Society for Music Information Retrieval O objetivo da ISMIR: • Espaço para a troca de notícias, ideias, apresentação de projetos de pesquisa A conferência busca atender as demandas do meio acadêmico e das indústrias de informação e entretenimento • A música digital e seus metadados são cada vez mais abundantes ISMIR – The International Society for Music Information Retrieval MIR é uma área interdisciplinar • Musicologia, Ciência Cognitiva, Ciência da Informação, Ciência da Computação, entre outras A conferência da ISMIR reuni pesquisadores, desenvolvedores, educadores, estudantes e usuários profissionais, de áreas deste domínio multidisciplinar IMIRSEL - International Music Information Retrieval Systems Evaluation Laboratory O IMIRSEL, localizado na Escola de Pós-Graduação em Biblioteconomia e Ciência da Informação (GSLIS) da Universidade de Illinois (UIUC), atualmente chefiado pelo professor J. Stephen Downie, tem os seguintes objetivos:. • • Definir métricas que permitam a validação e comparação das técnicas emergentes sobre MIR Criação e disponibilização de materiais de música, e de metadados de músicas. MIREX - Music Information Retrieval Evaluation eXchange Competição entre várias categorias de algoritmos de MIR • Objetiva a comparação do estado da arte de algoritmos e sistemas relevantes para MIR. O IMIRSEL é o principal organizador do MIREX • Normalmente acontece durante a realização do ISMIR A seguir descreveremos cada uma das áreas de MIR que têm sido testadas com algoritmos submetidos a métricas previamente estabelecidas durante o MIREX Importantes Áreas de Pesquisa e Aplicação da MIR Audio classification Audio cover identification Audio Music Similarity and Retrieval Audio Music Similarity and Retrieval Audio Onset Detection Audio Key Detection Query by Singing/Humming Audio Melody Extraction Multiple Fundamental Frequency Estimation & Tracking Audio Chord Estimation Structural Segmentation Audio Tempo Estimation Audio Beat Tracking Audio Classification Esta tarefa tem como objetivo a identificação de estilos musicais e até estilos de compositores No MIREX, as tarefas são testadas por grandes grupos: • • • Identificação de compositores clássicos: Bach, Beethoven, Brahms, Chopin, Dvorak, Handel, Haydn, Mendelssohn, Mozart, Schubert e Vivaldi Identificações de Estilos de Música Pop: Blues, Jazz, Country/Western, Baroque, Classical, Romantic, Electronica, Hip-Hop, Rock, HardRock/Metal Identificações de Estilos de Música Latina: Axe, Bachata, Bolero, Forro, Gaucha, Merengue, Pagode, Sertaneja, Tango Audio Classification Melhores Resultados em 2012 Algoritmo baseado em Support Vector Machine nos dois primeiros lugares • Acertos em 76% e 75% Audio Cover Identification Esta tarefa avalia algoritmos que tentam identificar se um dado arquivo de áudio pode ser visto como uma representação “cover” de uma outra composição A ideia é a de que um algoritmo possa receber vários arquivos de áudio e ranqueá-los de acordo com suas semelhanças com um dado banco de canções • No banco de canções existem diferentes versões de cada canção Audio Cover Identification Melhor Resultado em 2012 Algoritmo baseado nas medidas de similaridade entre partes do audio através da comparação dos centróides dos vetores croma de parte do audio • Acertos próximos de 62,5% Audio Music Similarity and Retrieval Um sistema de similaridade musical pode ajudar às pessoas que lidam com música a encontrar novas músicas que se encaixem por similaridade com outras determinadas músicas. Os algoritmos costumam ser implementados por gêneros musicais: Blues, Jazz, Country/Western, Baroque, Classical, Romantic, Electronica, Hip-Hop, Rock, HardRock/Metal Audio Music Similarity and Retrieval Melhor Resultado em 2012 Algoritmo que extrai de uma canção as características de áudio sobre timbre, tempo e ritmo e calcula a distância das mesmas em relação as mesmas características de outras canções • Acertos próximos de 64% Symbolic Melodic Similarity O objetivo desta tarefa é comparar algoritmos que trabalham para verificar o grau de similaridade entre as melodias presentes em arquivos simbólicos de áudio (MIDI) Os algoritmos recebem um arquivo simbólico de áudio e compara o mesmo com um banco de arquivos, retornando um ranking dos mais similares Symbolic Melodic Similarity Melhor Resultado em 2012 O melhor algoritmo utiliza técnicas de PPM (Prediction by Partial Matching) • Acertos em média de 60% Audio Onset Detection Esta tarefa tem como objetivo analisar algoritmos capazes de encontrar os locais dos eventos sônicos em um arquivo de áudio Para este tipo de tarefa, que é normalmente feita em aplicações dedicadas a um único tipo de sinal de áudio, a base de arquivos é dividida em classes • Bateria tocando, um instrumento de solo, etc. Audio Onset Detection Melhor Resultado em 2012 Algoritmo baseado em redes neurais recorrentes e bidirecionais do tipo Long Short Term Memory • Acertos em 85% Audio Key Detection A determinação do tom de uma música é uma informação extremamente importante para a análise da música ocidental Esta tarefa analisa e compara algoritmos capazes de identificar o tom de canções • Para esta tarefa, são analisadas pelos algoritmos apenas os 30 segundos iniciais de cada arquivo do banco de dados de canções. Audio Key Detection Melhor Resultado em 2012 Algoritmo baseado na extração cromagrama através da DFT em arquivos de áudio clipados entre as frequências de 100 e 2000hz • Acertos em 82% Query by Singing/Humming O objetivo desta tarefa é avaliar sistemas de MIR que recebem como entrada áudios de pessoas cantando e que tentam identificar corretamente as notas que estariam sendo executadas pelos cantores Query by Singing/Humming Melhor Resultado em 2012 Algoritmo baseado em Earth Mover’s Distance (EMD) e Dynamic Time Warping (DTW) • Acertos em 96% Audio Melody Extraction O objetivo desta tarefa é avaliar a capacidade de sistemas de MIR na extração da frequência fundamental da voz de uma melodia sendo executada. A tarefa normalmente se divide e detectar a voz e em seguida, a frequência fundamental Audio Melody Extraction Melhor Resultado emm 2012 Algoritmo baseado na segmentação do áudio em pequenos clusters seguida da identificação da frequência fundamental predominante nos mesmos • Acertos em 68% Multiple Fundamental Frequency Estimation & Tracking O objetivo desta tarefa é avaliar sistemas capazes de identificar as frequências fundamentais (F0) de cada frame de um sinal de áudio. A identificação da F0 de um sinal de áudio é muito importante para muitas tarefas de MIR, pois ela pode ajudar muita na identificação de notas musicais e timbres em sinais complexos. Multiple Fundamental Frequency Estimation & Tracking Melhor Resultado em 2012 Algoritmo baseado na análise da transformada de Fourrier STFT com identificação de predominância de frequências através de um algoritmo de extração de pitch • Acertos em 64% Audio Chord Estimation Esta tarefa avalia sistemas de MIR que tentam extrair e transcrever a sequência de acordes de um arquivo de áudio. Para muitas aplicações de MIR algoritmos com bons resultados nesta tarefa podem ajudar em muitos aspectos, tais como análise semântica de áudio, segmentação e busca por blocos similares do arquivo de áudio, entre outras tarefas. Esta tarefa envolve a identificação completa de cada acorde (nota, tipo e duração), bem como sua localização na música. Audio Chord Estimation Melhor Resultado em 2012 Algoritmo baseado em aprendizagem com um algoritmo de HMM (Hidden Markov Model) préprocessado com filtros passa baixa entre 220hs e 1661hz • Acertos em 72% Structural Segmentation Esta tarefa busca avaliar sistemas de MIR que são capazes de identificar as estruturas das seções ou segmentos em canções. Estes segmentos são representados pelas estrofes e refrões Estas estruturas definem um dos mais importantes parâmetros da música, sobretudo ocidental Structural Segmentation Melhor Resultado em 2012 Algoritmo que extrai o vetor PCP (Pitch Class Profile) de segmentos de uma canção e monta um algoritmo recorrente de análise de repetições de padrões de PCP´s • Acertos em 77% Audio Tempo Estimation Esta tarefa tem como objetivo avaliar sistemas de MIR que sejam capazes de identificar o tempo ou compasso de canções diversas. Esta não é uma tarefa fácil, até mesmo porque diferentes ouvintes (inclusive experientes) podem ter diferentes visões do tempo de uma mesma música Audio Tempo Estimation Melhor Resultado em 2012 Algoritmo que propõe novas técnicas capazes de determinar o pulso de uma canção tomando técnicas que extraem o LLFT (Low Level Features Tempogram) • Acertos em 78% Audio Beat Tracking O principal objetivo desta tarefa é identificar os “beats” de um arquivo de áudio. • A identificação deve ser do momento em que o mesmo ocorre É importante que fique claro que esta tarefa não é a mesma que é feita na tarefa de Audio Tempo Extraction, que tem como objetivo identificar o tempo ou compasso de cada sinal de áudio. O “beat” define o ritmo e velocidade de cada música. Audio Beat Tracking Melhor Resultado em 2012 Algoritmo baseado em aprendizagem com HMM (Hidden Markov Models) • Acertos em 57% Aplicações de MIR Sonic Visualizer IChords Musipedia Peachnote • www.sonicvisualiser.org/ • www.daccordmusic.com • www.musipedia.org/ • www.peachnote.com/ Doutorado Propor técnicas que possam melhorar a performance dos algoritmos de classificação de acordes • A ideia é trabalhar no pós processamento do áudio acrescentando informações de contexto que possam diminuir os erros dos algoritmos existentes Conclusão Vimos aqui uma breve introdução da área de MIR • As principais subáreas de pesquisa de MIR • foram explanadas Foram destacados os enfoques das principais pesquisas nestas subáreas e seus resultados foram identificados Vimos alguns exemplos de aplicações • Área ainda tímida devido ainda ao nível dos resultados Recuperação Inteligente de Informação de Músicas Perguntas?