294 IEEE LATIN AMERICA TRANSACTIONS, VOL. 5, NO. 5, SEPTEMBER 2007 Discriminador Voz/Música Baseado na Estimação de Múltiplas Freqüências Fundamentais Jayme G. A. Barbedo, Amauri Lopes, Member, IEEE Resumo—Este artigo introduz uma nova técnica para discriminação entre música e voz. A estratégia é baseada no conceito de estimação de múltiplas freqüências fundamentais, o qual fornece os elementos para extração de três parâmetros do sinal: proporção de freqüências fundamentais elevadas, prevalência da freqüência fundamental principal e variabilidade da freqüência. A discriminação entre voz e música é obtida pela combinação apropriada de tais parâmetros. O reduzido número de parâmetros, combinado ao fato de que nenhuma etapa de treinamento é necessária, torna essa estratégia muito robusta a uma vasta gama de condições práticas. O desempenho da técnica é analisado e comparado com trabalhos anteriores levando-se em conta a precisão da separação voz/música, a robustez frente a condições extremas e o esforço computacional. Palavras-chave—discriminação voz/música, freqüências fundamentais, escala MIDI. À múltiplas I. INTRODUÇÃO medida que as tecnologias multimídia evoluem, aumenta a demanda por ferramentas que tornem seu uso mais amigável e acessível a todos os tipos de usuários. Técnicas capazes de discriminar voz e música de maneira eficiente têm merecido especial atenção, especialmente devido ao seu papel central na operação de diversas ferramentas multimídia. Áreas como reconhecimento automático de voz e transcrição automática de música são fortemente dependentes de ferramentas capazes de selecionar apropriadamente os dados a serem processados (voz no primeiro e música no segundo caso). Os discriminadores voz/música (DVM) podem também ser usados como ferramentas de suporte no segmento de dados audiovisuais [1]-[9]. Outras tecnologias que podem se beneficiar dos discriminadores são a seleção automática de estações de rádio de acordo com o conteúdo e aparelhos Manuscrito recebido em 23 de outubro de 2005. Este trabalho foi financiado pela Fapesp, proc. 04/08281-0 e 03/09858-6. J. G. A. Barbedo está com o Departamento de Comunicações da Faculdade de Engenharia Elétrica e da Computação da Universidade Estadual de Campinas, Campinas, SP, Brasil, e com a School of Engineering and Applied Sciences da Harvard University, Cambridge, MA, USA (tel: +1-617-4183468; e-mail: [email protected]). A. Lopes está com o Departamento de Comunicações da Faculdade de Engenharia Elétrica e da Computação da Universidade Estadual de Campinas, Campinas, SP, Brasil (e-mail: [email protected]). auditivos adaptáveis ao conteúdo sonoro que chega aos ouvidos. O desempenho de um DVM pode ser avaliado levando-se em conta três fatores principais: precisão da discriminação, robustez e complexidade computacional. A maior parte das técnicas propostas tem tido sucesso em atender a primeira condição, com um índice de acerto entre 92% e 98%, dependendo da estratégia adotada e das condições dos testes [10]-[20]. Essas propostas têm em comum a extração de um grande número de parâmetros e o uso de ferramentas específicas para combiná-los em uma única classificação dos dados analisados. Sob o ponto de vista da robustez, ambos os fatos representam grandes desvantagens. Um grande número de parâmetros implica um grande número de graus de liberdade, fato que pode melhorar o desempenho quando uma base de dados limitada é considerada, mas que pode levar a classificações incorretas em condições que não foram consideradas no conjunto de treinamento. Adicionalmente, a maioria das ferramentas utilizadas para combinar os parâmetros é fortemente dependente de grandes conjuntos de treinamento, os quais devem incluir o maior número possível de condições práticas. Porém, devido à natureza intrinsecamente dinâmica dos dados multimídia, novas situações surgem todos os dias, e é praticamente impossível prever como tais ferramentas irão reagir frente a novas condições. Outro ponto negativo da extração de um grande número de parâmetros é o aumento da complexidade computacional. Apesar de a maioria dos parâmetros não demandar recursos computacionais excessivos para serem extraídos individualmente, juntos eles podem prejudicar o desempenho computacional da técnica até o ponto em que operações em tempo real se tornem impossíveis. O principal objetivo da técnica aqui proposta é superar algumas das limitações de seus predecessores sem perder precisão. A estratégia é inteiramente baseada no conceito de estimação de múltiplas freqüências fundamentais, cujos princípios são usados na extração de três parâmetros: proporção de freqüências fundamentais elevadas, prevalência da freqüência fundamental principal e variabilidade da freqüência. Esses parâmetros são extraídos no fim do processo, de modo que não há adição significativa de esforço computacional. Os parâmetros são combinados de uma maneira muito simples a fim de assegurar uma excelente robustez. O artigo é organizado como se segue. A Seção 2 descreve os passos relacionados à extração dos parâmetros. A GARCIA ARNAL BARBEDO AND LOPES : SPEECH/MUSIC DISCRIMINATOR BASED ON MULTIPLE Seção 3 descreve a base de dados usada nos testes. A Seção 4 descreve os testes realizados e os resultados alcançados. Finalmente, a Seção 5 apresenta as principais conclusões e trabalhos futuros. II. EXTRAÇÃO DE PARÂMETROS Antes de iniciar a extração de parâmetros propriamente dita, o sinal deve ser formatado apropriadamente para se adaptar aos requerimentos do processo. O primeiro passo é identificar se o sinal é monofônico ou estereofônico. No primeiro caso, nenhuma ação é realizada. Se o sinal é estéreo, os canais são combinados usando-se uma média aritmética simples, dada por x (n) = 1 ⋅ ⎡ xl ( n ) + xr ( n ) ⎤⎦ , 2 ⎣ (1) onde n é o índice de tempo do sinal e os subscritos l e r indicam as amostras correspondentes aos canais esquerdo e direito, respectivamente. Em seguida, o sinal deve ser dividido em quadros de 21,3 ms. Neste trabalho, os sinais são amostrados a 48 kHz, resultando em quadros de 1.024 amostras, superpostos em 50% e ponderados por uma janela de Hanning. Como a maior parte dos sinais é polifônica (várias fontes sonoras), algum tipo de processamento deve ser aplicado a fim de tornar possível a detecção de múltiplas freqüências fundamentais. A maioria das técnicas descritas a seguir foi inspirada no modelo de análise multipitch apresentado em [21]. A estratégia é ilustrada na Fig. 1. Passa-altas a 1 kHz Ret. meia onda xaltas Detecção de Filtro PassaPeriodicidade baixas entrada x2 + Passa-baixas a 1 kHz Passa-altas a 70 Hz xbaixas Autocorrelação saída Melhorada Detecção de Periodicidade Fig. 1. Estratégia para estimar múltiplas freqüências fundamentais. Na Fig. 1, a entrada consiste dos quadros do sinal. Como se pode ver, a entrada é dividida em duas bandas por um processo de filtragem. A porção de altas freqüências da entrada é determinada por um filtro passa-altas de segunda ordem do tipo Butterworth com freqüência de corte em 1 kHz. Esse valor foi especificamente projetado para revelar diferenças entre música e voz, conforme descrito na seção II.a. Um filtro passa-baixas com as mesmas características do passa-altas determina a porção das baixas freqüências, a qual é também submetida a uma filtragem extra para bloquear freqüências abaixo de 70 Hz. A porção de altas freqüências é então submetida a uma retificação de meia onda, que é equivalente a fazer com que todos os valores negativos assumam valor zero. Em seguida, ela é filtrada com um filtro passa-baixas similar àquele usado na determinação da porção de baixas freqüências. A detecção de periodicidade, a qual resulta em x2 na Fig. 1, baseia-se na “autocorrelação generalizada”, e é dada por k k x2 ( n ) = IDFT ⎡ DFT ( xlow ( n ) ) + DFT ( xhigh ( n ) ) ⎤ , ⎢⎣ ⎥⎦ 295 (2) onde DFT e IDFT representam a transformada discreta de Fourier e sua inversa, respectivamente, n é o índice de tempo e k é o fator de compressão usado. O valor de k normalmente é 2, fazendo com que (2) seja equivalente ao cálculo convencional da autocorrelação. Em [21], o valor adotado foi 0,67. No presente trabalho, o valor de k que propiciou os melhores resultados foi 1, o que pode ser explicado pelas diferenças de ênfase entre os dois trabalhos, sendo este voltado à discriminação entre voz e música, e [21] voltado à detecção de múltiplas freqüências fundamentais. Os picos da autocorrelação dada por x2 são bons indicativos de freqüências fundamentais potenciais presentes no sinal (Fig. 2a). Porém, a função de autocorrelação gera picos em todos os inteiros múltiplos do período fundamental. Para lidar com essa situação, uma técnica de redução de picos similar àquela usada em [21] é aplicada. Primeiro, uma retificação de meia onda é aplicada para tornar nulos os valores negativos de x2 (Fig. 2b). A função resultante é expandida no tempo por um fator de dois (Figura 2c) e subtraída da função de autocorrelação retificada; uma nova retificação de meia onda é aplicada (Fig. 2d). Comparando (b) e (d), pode-se observar que o sétimo pico (7 ms) foi eliminado, uma vez que este tem duas vezes o deslocamento de tempo de um pico de maior amplitude – o quarto pico, localizado em 3,5 ms. O procedimento também elimina a parte da função de autocorrelação próxima de zero. O procedimento é repetido para eliminar picos que têm três vezes o deslocamento de tempo de cada pico de referência. No exemplo apresentado na Fig. 2, nenhum pico é removido neste passo (Fig. 2e). O procedimento poderia ser repetido para outros múltiplos do pico de referência, mas testes revelaram que uma eliminação adicional de picos seria desnecessária. O último passo na estratégia de redução de picos é a eliminação de picos correspondendo a harmônicas de uma dada freqüência fundamental. Isso é necessário para evitar que uma harmônica seja tomada como uma freqüência fundamental. Esse procedimento consistiu na remoção de todos os picos cuja freqüência correspondente é um múltiplo da freqüência de um dado pico de referência. Como os cálculos não são sempre absolutamente precisos, adotou-se uma tolerância de 5% ao redor dos múltiplos exatos. Por exemplo, considerando uma freqüência fundamental de 200 Hz, qualquer pico com freqüência entre 190 Hz e 210 Hz é tomado como a primeira harmônica, e o mesmo é válido para todas as outras harmônicas. O resultado é ilustrado na Fig. 2f. O primeiro, segundo e quarto picos são descartados porque, de acordo com o critério estabelecido, eles foram considerados a terceira, segunda e primeira harmônica do último pico, respectivamente. É importante destacar que esse procedimento pode eliminar picos que não corresponderiam a uma harmônica, mas a outra fonte sonora. Adicionalmente, o método começa a perder confiabilidade quando mais de três fontes sonoras estão presentes, como apontado em [21]. Contudo, os testes descritos na Seção IV demonstram que a técnica alcança a precisão demandada pelo presente trabalho. IEEE LATIN AMERICA TRANSACTIONS, VOL. 5, NO. 5, SEPTEMBER 2007 Autocorrelação Generalizada 2 000 Valor da Autocorrelação Valor da Autocorrelação 296 1 000 0 -1 000 -2 000 0 2 4 6 8 10 2000 1500 1000 500 0 Expansão no T empo 2000 Valor da Autocorrelação Valor da Autocorrelação Tempo (ms) (a) 1500 1000 500 0 0 2 4 6 8 10 0 2 4 Valor da Autocorrelação Valor da Autocorrelação Eliminação dos Picos Múltiplos de 3 1000 500 0 2 4 6 10 1500 1000 500 0 0 2 4 6 8 10 8 10 Tempo (ms) (d) 1500 0 8 Eliminação dos Picos Múltiplos de 2 2000 Tempo (ms) (c) 2000 6 Tempo (ms) (b) 8 10 Seleção Final dos Picos 2000 1500 1000 500 0 0 2 4 Tempo (ms) (e) 6 Tempo (ms) (f) Fig. 2. Procedimento de eliminação de picos ⎛ f ⎞ m = 12 log 2 ⎜ ⎟ + 69 , ⎝ 440 ⎠ (3) onde f é a freqüência em Hz e m é o número da nota MIDI. Então, um número MIDI representará cada freqüência e estará limitado à faixa entre 37 e 135. Todas as freqüências com um mesmo número MIDI são contadas ao longo de todos os quadros, gerando um histograma cujas barras são notas MIDI, como exemplificado na Fig. 3. Os três parâmetros utilizados na estratégia aqui proposta são extraídos de tais histogramas, como descrito a seguir. a. Proporção de freqüências fundamentais elevadas: mede a proporção de freqüências fundamentais cujos números MIDI são maiores ou iguais a 100. A Fig. 4 mostra uma comparação entre histogramas típicos para voz e música. No exemplo, apenas o sinal de voz tem números MIDI maiores que 100. Algumas observações importantes devem ser feitas nesta parte do algoritmo. O procedimento descrito até aqui foi Histograma das Freqüências Fundamentais 600 500 Número de Ocorrências O próximo passo é identificar os três principais picos de referência da função de autocorrelação aperfeiçoada para cada quadro do sinal. As posições desses três picos determinam os períodos fundamentais das três principais fontes sonoras do quadro correspondente. Se menos de três fontes estão presentes, situação que é bastante comum em sinais de voz, somente um ou dois picos serão identificados. As freqüências estimadas são então convertidas para a escala MIDI, de acordo com o procedimento descrito em [22] e dado por 400 300 200 Fig. 3. Exemplo de histograma. 100 0 20 40 60 80 100 120 140 Número MIDI especificamente projetado para detectar freqüências fundamentais até 1 kHz, conforme comprovam as freqüências de corte dos filtros utilizados. Isso significa que, em princípio, as notas MIDI não deveriam ultrapassar o valor de 83. Contudo, o filtro passa-baixas usado no procedimento tem uma atenuação de 12 dB/oitava. Quando o conteúdo de alta freqüência domina fortemente o sinal, situação que é comum em quadros compostos por ruído ou voz fricativa, os picos associados a tais altas freqüências na função de autocorrelação mostram-se fortes em comparação aos picos associados à parte mais baixa do espectro, porque a porção das altas freqüências GARCIA ARNAL BARBEDO AND LOPES : SPEECH/MUSIC DISCRIMINATOR BASED ON MULTIPLE não é suficientemente atenuada a ponto de ser eliminada ou desprezada. Isso explica o fato de sinais de voz estarem freqüentemente associados a altos valores MIDI. b. Prevalência da freqüência fundamental principal: é obtida dividindo-se o valor da barra de maior amplitude do histograma pela soma dos valores de todas as barras, conforme max ⎡ h ( i ) ⎦⎤ , (4) pf0 = 135 ⎣ h i ( ) ∑ i = 37 onde i é o número da barra e h(i) representa sua amplitude. Este parâmetro fornece uma medida para o domínio da freqüência fundamental principal sobre todas as outras. Foi observado que tal domínio é mais pronunciado em sinais de voz, como pode ser visto no exemplo da Fig. 4. 297 comportamento suave, com picos suaves e em pequeno número; essa situação é mais comum em sinais de voz. Essas situações podem ser observadas na Fig. 4. Cada um dos parâmetros carrega informação relevante e independente sobre os dados analisados. Uma estratégia muito simples foi usada para combinar tais parâmetros, como será visto na Seção IV. III. DESCRIÇÃO DA BASE DE DADOS Um dos mais importantes estágios em estudos sobre classificação de áudio é o desenvolvimento de uma boa base de dados, a qual deve ser suficientemente ampla e representativa para permitir que os resultados obtidos sejam consistentes. Se tal necessidade não for satisfeita, as conclusões dos estudos não serão suficientemente fortes e Histogramas das Freqüências Fundamentais Histograma das Freqüências Fundamentais - Voz (Zoom) Número de Ocorrências Número de Ocorrências Histograma das Freqüências Fundamentais - Voz Número MIDI Número MIDI Histograma das Freqüências Fundamentais - Música (Zoom) Número de Ocorrências Número de Ocorrências Histograma das Freqüências Fundamentais - Música Número MIDI Número MIDI Fig. 4. Comparação entre histogramas típicos para voz e música. c. Variabilidade da freqüência: este parâmetro mede como a amplitude de barras vizinhas do histograma varia, conforme 135 f0v = ∑ h ( i ) − h ( i − 1) . (5) i = 38 Se a variação no número de ocorrências entre notas MIDI sucessivas é grande, este parâmetro assume valores elevados. Nesse caso, o histograma apresentará fortes oscilações, com vários picos e depressões; essa situação é comum em sinais de música. Se f0v for pequeno, o histograma terá um confiáveis para representar uma contribuição real ao estado da arte da área. Por esse motivo, um cuidado especial foi dedicado à construção da base de dados utilizada nesta pesquisa. A base de dados é composta por 2.587 arquivos de áudio, todos no formato wav, com uma quantização de 16 bits e amostrados a 48 kHz. A base inteira possui 13,5 GB, correspondendo a mais de 20 horas de áudio. A base de dados é dividida em dois grupos principais: voz e música. A única diferença entre esses dois grupos, além de seu 298 IEEE LATIN AMERICA TRANSACTIONS, VOL. 5, NO. 5, SEPTEMBER 2007 conteúdo, é a duração dos sinais. Sinais de voz têm duração entre 9 s e 21 s, enquanto sinais de música têm duração de 32 s. Os sinais de música são divididos em 16 gêneros. O conjunto de voz foi extraído de discos compactos (CDs), transmissões de rádio convencionais e pela Internet. Essas fontes geram sinais com características e níveis de qualidade distintos. A rotulação de tais sinais foi realizada manualmente de acordo com os seguintes critérios: - Voz limpa: esta classe inclui sinais de voz para os quais distorções, artefatos ruidosos e sons ambientes são muito pequenos ou inexistentes. Corresponde a aproximadamente 50% de todos os sinais de voz da base. - Voz ruidosa: a maior parte dos sinais nesta classe têm uma relação sinal ruído (SNR) abaixo de 30 dB. A maior parte do ruído é branco. Este grupo corresponde a pouco mais de 20% da base de dados. - Voz distorcida: os sinais neste grupo têm distorções de média ou grande intensidade em seu conteúdo. Tais distorções são em grande parte causadas por falhas na transmissão e por baixas taxas de dados na Internet. Este grupo corresponde a aproximadamente 15% da base de dados. - Voz com ruído ambiente: os sinais deste grupo são compostos por uma mistura de voz e sons ambientes, sempre com SNR abaixo de 30 dB. Os sons ambientes são de escritórios, ruas, restaurantes, tráfego, natureza, entre outros. Este grupo corresponde a 10% da base de dados. - Voz com música: os sinais deste grupo são compostos por uma mistura de voz e música, sendo que o limiar para que um sinal seja considerado voz ou música foi manualmente determinado. Este grupo corresponde a 5% da base de dados. Como se pode ver, uma parte significativa da base de dados possui sérias degradações e/ou ruído ambiente. Tais arquivos foram incluídos a fim de testar a robustez da técnica proposta frente a condições extremas, como será visto na próxima seção. A base de música foi extraída de CDs, transmissões pela Internet e também a partir de arquivos codificados (mp3, wma, ogg, aac). Todos os sinais desta base têm boa qualidade, e são divididos em 15 gêneros: clássico (6,1 % da base), country (6,5 %), heavy metal (5,4 %), jazz (7,0 %), música latina (6,5 %), new age (6,0 %), ópera/coro (5,7 %), pop (6,1 %), rap (5,4 %), reggae (6,0 %), rock (6,8 %), rock leve (5,6 %), suave (5,9 %), techno (6,7 %) e miscelânea (14,3 %). IV. TESTES E RESULTADOS Antes do processo de combinação, os parâmetros descritos na Seção 2 foram testados separadamente a fim de se determinar seus desempenhos individuais. As regras apresentadas a seguir foram estabelecidas após a realização de testes de otimização, que consistiram numa análise cuidadosa dos valores assumidos pelos parâmetros, de modo que se pudessem escolher os limiares entre voz e música que resultassem nos melhores resultados. Cerca de 30% dos sinais presentes na base de dados apresentada na Seção III foram aleatoriamente escolhidos para esta etapa. Esses sinais foram excluídos dos testes finais, cujos resultados são apresentados mais adiante nesta seção. As regras aplicadas a cada parâmetro são apresentadas a seguir. a. Proporção de freqüências fundamentais elevadas: os melhores resultados para este parâmetro foram obtidos quando as seguintes regras foram aplicadas: se a proporção de valores MIDI iguais ou maiores que 100 supera 0,1%, o sinal é considerado voz; caso contrário, é considerado música. Neste caso, o parâmetro alcançou uma precisão de 94,0% para sinais de voz e 93,6% para sinais de música. Tais resultados são muito bons, uma vez que eles foram obtidos usando-se apenas uma variável. Adicionalmente, as bases de dados contêm vários sinais degradados e ruidosos, tornando o desempenho deste parâmetro ainda mais expressivo. b. Prevalência da freqüência fundamental principal: a seguinte regra foi adotada para este parâmetro: se o pico dominante do histograma concentra mais de 18,5% das ocorrências, o sinal é classificado como voz; caso contrário, é classificado como música. A precisão alcançada por este parâmetro foi de 79% para voz e 76% para música. Como se pode observar, este parâmetro produziu resultados relativamente pobres quando considerado individualmente; contudo, ele provê informações importantes quando combinado com os demais. c. Variabilidade da freqüência: este parâmetro alcançou os melhores resultados quando a seguinte regra foi aplicada: se seu valor é menor que 5,24, o sinal é classificado como voz; caso contrário, é classificado como música. A precisão obtida por este parâmetro foi de 84,7% para voz e música. Como no caso do parâmetro anterior, a variabilidade da freqüência individualmente não é muito útil, mas fornece informações valiosas quando combinada com os outros parâmetros. A análise do desempenho individual revela que o primeiro parâmetro sozinho possui precisão suficiente para várias aplicações. Porém, foi observado que a combinação dos 3 parâmetros leva a melhores resultados. Antes da combinação, os parâmetros foram escalados de tal maneira que eles assumem somente valores entre –1 e 1. Quanto mais negativo é seu valor, maior é a probabilidade de que o sinal correspondente seja voz. De maneira equivalente, quanto mais positivo é o valor, maior é a probabilidade de que o sinal seja música. Após vários testes, uma combinação aritmética simples entre os parâmetros foi escolhida, porque produz bons resultados com uma insignificante complexidade computacional associada: comb = 1 ⋅ (5 ⋅ A + B + C ) , 7 (6) onde A, B e C são os parâmetros apresentados anteriormente. A classificação final é dada pela seguinte regra: se comb é negativo ou zero, o sinal é classificado como voz; do contrário, é classificado como música. Os testes foram realizados submetendo-se todos os sinais da base de dados que não foram utilizados na etapa de otimização do método e comparando-se as classificações fornecidas pelo método com os rótulos atribuídos manualmente a esses sinais. A Tabela 1 apresenta o índice de acerto da estratégia. GARCIA ARNAL BARBEDO AND LOPES : SPEECH/MUSIC DISCRIMINATOR BASED ON MULTIPLE TABELA 1 DESEMPENHO DO MÉTODO Tipo de Sinal Voz (todos os arquivos) Voz limpa Voz ruidosa Voz distorcida Voz com ruído ambiente Voz com música Música (todos os arquivos) Música (sem arquivos de rap) V. CONCLUSÕES E TRABALHOS FUTUROS Precisão 99,0% 99,3% 98,6% 99,0% 98,7% 97,5% 95,6% 97,2% Como se pode observar na Tabela 1, a precisão global da estratégia proposta se situa entre 95 e 99%, dependendo dos sinais considerados. Tais resultados colocam esta proposta pelo menos no mesmo nível das melhores propostas anteriores encontradas na literatura, as quais apresentam um índice de acerto entre 92% e 98% [10-20], dependendo das condições e sinais utilizados. Os resultados também mostram que a técnica é muito robusta a sinais ruidosos, situação em que técnicas anteriores raramente atingiram 93% de acerto. É importante ainda destacar que a maior parte dos sinais de música classificados incorretamente tem fortes elementos de voz, tornando difícil a tarefa de identificar corretamente o tipo de sinal. Esse tipo de situação é muito comum em sinais de rap, em que os vocais freqüentemente parecem de fato voz. Por esse motivo, somente 70% dos sinais de rap são corretamente classificados como música. Sob o ponto de vista da robustez, esta estratégia mostra uma clara vantagem sobre seus predecessores. Como comentado anteriormente, isso ocorre porque a técnica depende de somente 3 parâmetros e, adicionalmente, a combinação dos parâmetros é realizada através de uma simples combinação aritmética, de modo que nenhuma fase de treinamento é necessária. Tais características são também responsáveis pelo baixo esforço computacional demandado pela técnica. O programa, executado em um computador pessoal com processador AMD Athlon 2000+, 512 MB de RAM e sistema operacional Windows XP, levou menos de 4 ms para processar um quadro de 21,3 ms. Esse desempenho indica que o procedimento pode ser usado em aplicações em tempo real, mesmo quando os recursos computacionais disponíveis são limitados. Outro fator analisado foi a resolução da classificação, isto é, a duração mínima do sinal necessária para alcançar o desempenho de classificação desejado. Existem várias aplicações que demandam segmentação contínua da cadeia de áudio em voz e música. Além disso, é desejável que a segmentação seja a mais fina possível. Porém, esse tipo de aplicação implica, em geral, menos dados para extrair informação sobre os sinais, fato que tende a reduzir a precisão. A resolução das técnicas descritas na literatura varia fortemente (entre 0,5 e 10 s), dependendo do contexto do trabalho. A estratégia apresentada aqui requer pelo menos 10 s de dados de áudio para funcionar corretamente. Tal resolução é suficiente para preencher os requisitos demandados pela maioria das aplicações. Este artigo apresentou uma nova estratégia para discriminar entre sinais de voz e música. A técnica consiste na extração de três parâmetros que são baseados no conceito de estimação de múltiplas freqüências fundamentais. O desempenho da estratégia em termos de estimativas corretas é compatível com os mais bem sucedidos trabalhos anteriores. Adicionalmente, apresenta uma clara vantagem em termos de robustez e complexidade computacional, além de ser simples de implementar. As características desta técnica tornam-na apropriada para ser aplicada a uma vasta gama de situações, particularmente onde condições potencialmente problemáticas, como degradações e ruído ambiental, são esperadas. Além disso, pode ser usada em aplicações que exijam operação em tempo real. Existem diversas direções para pesquisas futuras. Uma possível melhoria pode ser alcançada com o aperfeiçoamento do processo usado para estimar múltiplas freqüências fundamentais. Outra linha de pesquisa interessante é tentar combinar a estratégia aqui apresentada com outras técnicas bem sucedidas. Por fim, seria interessante aumentar a resolução da classificação, a fim de melhorar a capacidade de segmentação da técnica. VI. REFERÊNCIAS [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] A. A. Alatan, A. N. Akansu and W. Wolf, “Multi-modal Dialogue Scene Detection Using Hidden Markov Models for Content-based Multimedia Indexing,” Kluwer Acad., Int. Journal on Multimedia Tools and Applications, vol. 14, pp. 137-151, 2001. Y. Cao, W. Tavanapong, K. Kim and J. Oh, “Audio Assisted Scene Segmentation for Story Browsing,” Proc. of Int. Conf. on Image and Video Retrieval, Urbana-Champaign, USA, pp. 446-455, 2003. L. Chen, S. Rizvi and M. T. Özsu, “Incorporating Audio Cues into Dialog and Action Scene Extraction,” Proc. of the 15th Annual Symp. on Electronic Imaging - Storage and Retrieval for Media Databases, Santa Clara, USA, 2003. N. Dimitrova, “Multimedia Content Analysis and Indexing for Filtering and Retrieval Applications,” Special Issue on Multimedia Technologies and Informing Systems, Part I, Vol. 2, pp. 87-100, 1999. P. Q. Dinh, C. Dorai and S. Venkatesh, “Video Genre Categorization Using Audio Wavelet Coefficients”, Proc. of 5th Asian Conference on Computer Vision, Melbourne, Australia, January 2002. Y. Li, W. Ming and C. -C. J. Kuo, “Semantic Video Content Abstraction Based on Multiple Cues,” Proc. of Int. Conf. on Multimedia and Expo, Tokyo, Japan, August 2001. Z. Liu, J. Huang, Y. Wang and T. Chen, “Audio Feature Extraction & Analysis for Scene Classification”, Proc. of 1997 Workshop on Multimedia Signal Processing, Princeton, pp. 343-348, June 1997. K. Minami, A. Akutsu, H. Hamada and Y. Tonomura, “Video Handling with Music and Speech Detection,” IEEE MultiMedia, Vol. 5, No. 3, pp.17-25, 1998. T. Zhang, C. -C. J. Kuo, “Audio content analysis for online audiovisual data segmentation and classification,” IEEE Transactions on Speech and Audio Processing, Vol. 3, No. 4, pp. 441-457, 2001. T. Beierholm and P.M. Baggenstoss, “Speech Music Discrimination Using Class-Specific Features,” Proc. of Int. Conf. on Pattern Recognition, Cambridge, UK, pp. 379-382, 2004. M. J. Carey, E. S. Parris and H. Lloyd-Thomas, “A comparison of features for speech, music discrimination”, Proc. of IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, Phoenix, USA, pp. 149-152, 1999. Y. -C. Cho, S. Choi and S. -Y. Bang, “Non-negative component parts of sound for classification,” Proc. IEEE Int. Symp. Signal Processing and Information Technology, Darmstadt, Germany, 2003. K. El-Maleh, M. Klein, G. Petrucci and P. Kabal, “Speech/Music Discrimination for Multimedia Applications,” Proc. IEEE Int. Conf. 299 300 [14] [15] [16] [17] [18] [19] [20] [21] [22] IEEE LATIN AMERICA TRANSACTIONS, VOL. 5, NO. 5, SEPTEMBER 2007 Acoustics, Speech, Signal Processing, Istanbul, Turkey, pp. 2445-2448, 2000. H. Harb and L. Chen, “Robust Speech/Music Discrimination Using Spectrum’s First Order Statistics and Neural Networks”, Proc. of the IEEE Int. Symposium on Signal Processing and its Applications, Paris, France, July 2003. R. Jarina, N. O'Connor and S. Marlow, “Rhythm Detection for SpeechMusic Discrimination in MPEG Compressed Domain,” Proc. of the IEEE Int. Conf. on Digital Signal Processing, Santorini, Greece, pp. 129-132, 2002. L. Lu, H. -J. Zhang and H. Jiang, “Content Analysis for Audio Classification and Segmentation,” IEEE Transactions on Speech and Audio Processing, Vol. 10, No. 7, pp. 504-516, 2002. J. Saunders, “Real-Time Discrimination of Broadcast Speech/Music”, Proc. of the IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, Atlanta, pp 993-996, 1996. E. Scheirer and M. Slaney, “Construction and Evaluation of a Robust Multifeature Speech/Music Discriminator”, Proc. of the IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, Munich, Germany, pp. 1331-1334, 1997. P. Wang, R. Cai and S. -Q. Yang, “A Hybrid Approach to News Video Classification with Multi-modal Features,” Proc. of Int. Conf. on Information, Communications & Signal Processing, Singapore, pp. 787791, 2003. G. Williams and D. Ellis, “Speech/music discrimination based on posterior probability features”, Proc. of European Conf. on Speech Communication and Technology, Budapest, Hungary, 1999. T. Tolonen and M. Karjalainen, “A Computationally Efficient Multipitch Analysis Model,” IEEE Transactions on Speech and Audio Processing, Vol. 8, No. 6, pp. 708-716, 2000. G. Tzanetakis and P. Cook, “Musical Genre Classification of Audio Signals,” IEEE Transactions on Speech and Audio Processing, Vol. 10, No. 5, pp. 293-302, 2002. VII. BIOGRAFIAS Jayme Garcia Arnal Barbedo nasceu em São Paulo, Brasil, em 1976. Graduou-se em Engenharia Elétrica pela Universidade Federal de Mato Grosso do Sul em 1998 e recebeu os títulos de mestre e doutor pela Universidade Estadual de Campinas em 2001 e 2004, respectivamente. Em 2004, juntou-se à Diretoria de TV Digital da Fundação CPqD de Campinas, onde trabalhou na área de codificação de sinais-fonte no âmbito do projeto para determinação do sistema brasileiro de televisão digital. Desde 2005, vem desenvolvendo um projeto de pós-doutorado na área de classificação de sinais de áudio junto ao Departamento de Comunicações da Faculdade de Engenharia Elétrica e Computação da Unicamp. Suas áreas de interesse incluem avaliação objetiva de sinais de áudio e voz, classificação de sinais de áudio, codificação de áudio, TV digital, processamento digital de sinais e redes neurais. Amauri Lopes graduou-se e obteve os títulos de Mestre e Doutor em Engenharia Elétrica pela Universidade Estadual de Campinas em 1972, 1975 e 1982, respectivamente. Ele está na Faculdade de Engenharia Elétrica e de Computação (FEEC) da Universidade Estadual de Campinas (UNICAMP) desde 1973, onde exerce atualmente o cargo de professor titular. Suas áreas de interesse são: processamento de sinais, teoria de circuitos e transmissão de sinais digitais. Publicou cerca de 70 artigos em periódicos e conferências nacionais e internacionais e produziu cerca de 30 relatórios técnicos relativos a desenvolvimento de protótipos industriais em telecomunicações, equipamentos para laboratório de ensino e pesquisa e relatos de pesquisas. Orientou três teses de doutorado, 13 teses de mestrado e 10 iniciações científicas. Orienta atualmente quatro trabalhos de doutorado e 2 de mestrado. Foi vice-chefe e chefe do Departamento de Comunicações da FEEC e diretor associado da FEEC. Ministrou várias palestras convidadas e cursos de extensão. Ministra aulas no curso de graduação em engenharia elétrica da FEEC desde 1973. É professor do curso de pós-graduação em engenharia elétrica da FEEC desde 1983.