294
IEEE LATIN AMERICA TRANSACTIONS, VOL. 5, NO. 5, SEPTEMBER 2007
Discriminador Voz/Música Baseado na
Estimação de Múltiplas Freqüências
Fundamentais
Jayme G. A. Barbedo, Amauri Lopes, Member, IEEE
Resumo—Este artigo introduz uma nova técnica para
discriminação entre música e voz. A estratégia é baseada no
conceito de estimação de múltiplas freqüências fundamentais, o
qual fornece os elementos para extração de três parâmetros do
sinal: proporção de freqüências fundamentais elevadas,
prevalência da freqüência fundamental principal e
variabilidade da freqüência. A discriminação entre voz e
música é obtida pela combinação apropriada de tais parâmetros.
O reduzido número de parâmetros, combinado ao fato de que
nenhuma etapa de treinamento é necessária, torna essa estratégia
muito robusta a uma vasta gama de condições práticas. O
desempenho da técnica é analisado e comparado com trabalhos
anteriores levando-se em conta a precisão da separação
voz/música, a robustez frente a condições extremas e o esforço
computacional.
Palavras-chave—discriminação
voz/música,
freqüências fundamentais, escala MIDI.
À
múltiplas
I. INTRODUÇÃO
medida que as tecnologias multimídia evoluem, aumenta
a demanda por ferramentas que tornem seu uso mais
amigável e acessível a todos os tipos de usuários.
Técnicas capazes de discriminar voz e música de maneira
eficiente têm merecido especial atenção, especialmente devido
ao seu papel central na operação de diversas ferramentas
multimídia. Áreas como reconhecimento automático de voz e
transcrição automática de música são fortemente dependentes
de ferramentas capazes de selecionar apropriadamente os
dados a serem processados (voz no primeiro e música no
segundo caso). Os discriminadores voz/música (DVM) podem
também ser usados como ferramentas de suporte no segmento
de dados audiovisuais [1]-[9]. Outras tecnologias que podem
se beneficiar dos discriminadores são a seleção automática de
estações de rádio de acordo com o conteúdo e aparelhos
Manuscrito recebido em 23 de outubro de 2005. Este trabalho foi
financiado pela Fapesp, proc. 04/08281-0 e 03/09858-6.
J. G. A. Barbedo está com o Departamento de Comunicações da Faculdade
de Engenharia Elétrica e da Computação da Universidade Estadual de
Campinas, Campinas, SP, Brasil, e com a School of Engineering and Applied
Sciences da Harvard University, Cambridge, MA, USA (tel: +1-617-4183468; e-mail: [email protected]).
A. Lopes está com o Departamento de Comunicações da Faculdade de
Engenharia Elétrica e da Computação da Universidade Estadual de Campinas,
Campinas, SP, Brasil (e-mail: [email protected]).
auditivos adaptáveis ao conteúdo sonoro que chega aos
ouvidos.
O desempenho de um DVM pode ser avaliado levando-se
em conta três fatores principais: precisão da discriminação,
robustez e complexidade computacional. A maior parte das
técnicas propostas tem tido sucesso em atender a primeira
condição, com um índice de acerto entre 92% e 98%,
dependendo da estratégia adotada e das condições dos testes
[10]-[20]. Essas propostas têm em comum a extração de um
grande número de parâmetros e o uso de ferramentas
específicas para combiná-los em uma única classificação dos
dados analisados. Sob o ponto de vista da robustez, ambos os
fatos representam grandes desvantagens. Um grande número
de parâmetros implica um grande número de graus de
liberdade, fato que pode melhorar o desempenho quando uma
base de dados limitada é considerada, mas que pode levar a
classificações incorretas em condições que não foram
consideradas no conjunto de treinamento. Adicionalmente, a
maioria das ferramentas utilizadas para combinar os
parâmetros é fortemente dependente de grandes conjuntos de
treinamento, os quais devem incluir o maior número possível
de condições práticas. Porém, devido à natureza
intrinsecamente dinâmica dos dados multimídia, novas
situações surgem todos os dias, e é praticamente impossível
prever como tais ferramentas irão reagir frente a novas
condições. Outro ponto negativo da extração de um grande
número de parâmetros é o aumento da complexidade
computacional. Apesar de a maioria dos parâmetros não
demandar recursos computacionais excessivos para serem
extraídos individualmente, juntos eles podem prejudicar o
desempenho computacional da técnica até o ponto em que
operações em tempo real se tornem impossíveis.
O principal objetivo da técnica aqui proposta é superar
algumas das limitações de seus predecessores sem perder
precisão. A estratégia é inteiramente baseada no conceito de
estimação de múltiplas freqüências fundamentais, cujos
princípios são usados na extração de três parâmetros:
proporção de freqüências fundamentais elevadas, prevalência
da freqüência fundamental principal e variabilidade da
freqüência. Esses parâmetros são extraídos no fim do
processo, de modo que não há adição significativa de esforço
computacional. Os parâmetros são combinados de uma
maneira muito simples a fim de assegurar uma excelente
robustez. O artigo é organizado como se segue. A Seção 2
descreve os passos relacionados à extração dos parâmetros. A
GARCIA ARNAL BARBEDO AND LOPES : SPEECH/MUSIC DISCRIMINATOR BASED ON MULTIPLE
Seção 3 descreve a base de dados usada nos testes. A Seção 4
descreve os testes realizados e os resultados alcançados.
Finalmente, a Seção 5 apresenta as principais conclusões e
trabalhos futuros.
II. EXTRAÇÃO DE PARÂMETROS
Antes de iniciar a extração de parâmetros propriamente
dita, o sinal deve ser formatado apropriadamente para se
adaptar aos requerimentos do processo. O primeiro passo é
identificar se o sinal é monofônico ou estereofônico. No
primeiro caso, nenhuma ação é realizada. Se o sinal é estéreo,
os canais são combinados usando-se uma média aritmética
simples, dada por
x (n) =
1
⋅ ⎡ xl ( n ) + xr ( n ) ⎤⎦ ,
2 ⎣
(1)
onde n é o índice de tempo do sinal e os subscritos l e r
indicam as amostras correspondentes aos canais esquerdo e
direito, respectivamente. Em seguida, o sinal deve ser dividido
em quadros de 21,3 ms. Neste trabalho, os sinais são
amostrados a 48 kHz, resultando em quadros de 1.024
amostras, superpostos em 50% e ponderados por uma janela
de Hanning.
Como a maior parte dos sinais é polifônica (várias fontes
sonoras), algum tipo de processamento deve ser aplicado a fim
de tornar possível a detecção de múltiplas freqüências
fundamentais. A maioria das técnicas descritas a seguir foi
inspirada no modelo de análise multipitch apresentado em
[21]. A estratégia é ilustrada na Fig. 1.
Passa-altas
a 1 kHz
Ret. meia onda xaltas
Detecção de
Filtro PassaPeriodicidade
baixas
entrada
x2
+
Passa-baixas
a 1 kHz
Passa-altas
a 70 Hz
xbaixas
Autocorrelação saída
Melhorada
Detecção de
Periodicidade
Fig. 1. Estratégia para estimar múltiplas freqüências fundamentais.
Na Fig. 1, a entrada consiste dos quadros do sinal. Como se
pode ver, a entrada é dividida em duas bandas por um
processo de filtragem. A porção de altas freqüências da
entrada é determinada por um filtro passa-altas de segunda
ordem do tipo Butterworth com freqüência de corte em 1 kHz.
Esse valor foi especificamente projetado para revelar
diferenças entre música e voz, conforme descrito na seção II.a.
Um filtro passa-baixas com as mesmas características do
passa-altas determina a porção das baixas freqüências, a qual é
também submetida a uma filtragem extra para bloquear
freqüências abaixo de 70 Hz.
A porção de altas freqüências é então submetida a uma
retificação de meia onda, que é equivalente a fazer com que
todos os valores negativos assumam valor zero. Em seguida,
ela é filtrada com um filtro passa-baixas similar àquele usado
na determinação da porção de baixas freqüências.
A detecção de periodicidade, a qual resulta em x2 na Fig. 1,
baseia-se na “autocorrelação generalizada”, e é dada por
k
k
x2 ( n ) = IDFT ⎡ DFT ( xlow ( n ) ) + DFT ( xhigh ( n ) ) ⎤ ,
⎢⎣
⎥⎦
295
(2)
onde DFT e IDFT representam a transformada discreta de
Fourier e sua inversa, respectivamente, n é o índice de tempo e
k é o fator de compressão usado. O valor de k normalmente é
2, fazendo com que (2) seja equivalente ao cálculo
convencional da autocorrelação. Em [21], o valor adotado foi
0,67. No presente trabalho, o valor de k que propiciou os
melhores resultados foi 1, o que pode ser explicado pelas
diferenças de ênfase entre os dois trabalhos, sendo este
voltado à discriminação entre voz e música, e [21] voltado à
detecção de múltiplas freqüências fundamentais.
Os picos da autocorrelação dada por x2 são bons indicativos
de freqüências fundamentais potenciais presentes no sinal
(Fig. 2a). Porém, a função de autocorrelação gera picos em
todos os inteiros múltiplos do período fundamental. Para lidar
com essa situação, uma técnica de redução de picos similar
àquela usada em [21] é aplicada.
Primeiro, uma retificação de meia onda é aplicada para
tornar nulos os valores negativos de x2 (Fig. 2b). A função
resultante é expandida no tempo por um fator de dois (Figura
2c) e subtraída da função de autocorrelação retificada; uma
nova retificação de meia onda é aplicada (Fig. 2d).
Comparando (b) e (d), pode-se observar que o sétimo pico (7
ms) foi eliminado, uma vez que este tem duas vezes o
deslocamento de tempo de um pico de maior amplitude – o
quarto pico, localizado em 3,5 ms. O procedimento também
elimina a parte da função de autocorrelação próxima de zero.
O procedimento é repetido para eliminar picos que têm três
vezes o deslocamento de tempo de cada pico de referência. No
exemplo apresentado na Fig. 2, nenhum pico é removido neste
passo (Fig. 2e). O procedimento poderia ser repetido para
outros múltiplos do pico de referência, mas testes revelaram
que uma eliminação adicional de picos seria desnecessária.
O último passo na estratégia de redução de picos é a
eliminação de picos correspondendo a harmônicas de uma
dada freqüência fundamental. Isso é necessário para evitar que
uma harmônica seja tomada como uma freqüência
fundamental. Esse procedimento consistiu na remoção de
todos os picos cuja freqüência correspondente é um múltiplo
da freqüência de um dado pico de referência. Como os
cálculos não são sempre absolutamente precisos, adotou-se
uma tolerância de 5% ao redor dos múltiplos exatos. Por
exemplo, considerando uma freqüência fundamental de 200
Hz, qualquer pico com freqüência entre 190 Hz e 210 Hz é
tomado como a primeira harmônica, e o mesmo é válido para
todas as outras harmônicas. O resultado é ilustrado na Fig. 2f.
O primeiro, segundo e quarto picos são descartados porque, de
acordo com o critério estabelecido, eles foram considerados a
terceira, segunda e primeira harmônica do último pico,
respectivamente. É importante destacar que esse procedimento
pode eliminar picos que não corresponderiam a uma
harmônica, mas a outra fonte sonora. Adicionalmente, o
método começa a perder confiabilidade quando mais de três
fontes sonoras estão presentes, como apontado em [21].
Contudo, os testes descritos na Seção IV demonstram que a
técnica alcança a precisão demandada pelo presente trabalho.
IEEE LATIN AMERICA TRANSACTIONS, VOL. 5, NO. 5, SEPTEMBER 2007
Autocorrelação Generalizada
2 000
Valor da Autocorrelação
Valor da Autocorrelação
296
1 000
0
-1 000
-2 000
0
2
4
6
8
10
2000
1500
1000
500
0
Expansão no T empo
2000
Valor da Autocorrelação
Valor da Autocorrelação
Tempo (ms)
(a)
1500
1000
500
0
0
2
4
6
8
10
0
2
4
Valor da Autocorrelação
Valor da Autocorrelação
Eliminação dos Picos Múltiplos de 3
1000
500
0
2
4
6
10
1500
1000
500
0
0
2
4
6
8
10
8
10
Tempo (ms)
(d)
1500
0
8
Eliminação dos Picos Múltiplos de 2
2000
Tempo (ms)
(c)
2000
6
Tempo (ms)
(b)
8
10
Seleção Final dos Picos
2000
1500
1000
500
0
0
2
4
Tempo (ms)
(e)
6
Tempo (ms)
(f)
Fig. 2. Procedimento de eliminação de picos
⎛ f ⎞
m = 12 log 2 ⎜
⎟ + 69 ,
⎝ 440 ⎠
(3)
onde f é a freqüência em Hz e m é o número da nota MIDI.
Então, um número MIDI representará cada freqüência e estará
limitado à faixa entre 37 e 135. Todas as freqüências com um
mesmo número MIDI são contadas ao longo de todos os
quadros, gerando um histograma cujas barras são notas MIDI,
como exemplificado na Fig. 3.
Os três parâmetros utilizados na estratégia aqui proposta
são extraídos de tais histogramas, como descrito a seguir.
a. Proporção de freqüências fundamentais elevadas: mede
a proporção de freqüências fundamentais cujos números MIDI
são maiores ou iguais a 100. A Fig. 4 mostra uma comparação
entre histogramas típicos para voz e música. No exemplo,
apenas o sinal de voz tem números MIDI maiores que 100.
Algumas observações importantes devem ser feitas nesta parte
do algoritmo. O procedimento descrito até aqui foi
Histograma das Freqüências Fundamentais
600
500
Número de Ocorrências
O próximo passo é identificar os três principais picos de
referência da função de autocorrelação aperfeiçoada para cada
quadro do sinal. As posições desses três picos determinam os
períodos fundamentais das três principais fontes sonoras do
quadro correspondente. Se menos de três fontes estão
presentes, situação que é bastante comum em sinais de voz,
somente um ou dois picos serão identificados. As freqüências
estimadas são então convertidas para a escala MIDI, de acordo
com o procedimento descrito em [22] e dado por
400
300
200
Fig. 3. Exemplo de histograma.
100
0
20
40
60
80
100
120
140
Número MIDI
especificamente projetado para detectar freqüências
fundamentais até 1 kHz, conforme comprovam as freqüências
de corte dos filtros utilizados. Isso significa que, em princípio,
as notas MIDI não deveriam ultrapassar o valor de 83.
Contudo, o filtro passa-baixas usado no procedimento tem
uma atenuação de 12 dB/oitava. Quando o conteúdo de alta
freqüência domina fortemente o sinal, situação que é comum
em quadros compostos por ruído ou voz fricativa, os picos
associados a tais altas freqüências na função de autocorrelação
mostram-se fortes em comparação aos picos associados à parte
mais baixa do espectro, porque a porção das altas freqüências
GARCIA ARNAL BARBEDO AND LOPES : SPEECH/MUSIC DISCRIMINATOR BASED ON MULTIPLE
não é suficientemente atenuada a ponto de ser eliminada ou
desprezada. Isso explica o fato de sinais de voz estarem
freqüentemente associados a altos valores MIDI.
b. Prevalência da freqüência fundamental principal: é
obtida dividindo-se o valor da barra de maior amplitude do
histograma pela soma dos valores de todas as barras,
conforme
max ⎡ h ( i ) ⎦⎤
,
(4)
pf0 = 135 ⎣
h
i
(
)
∑
i = 37
onde i é o número da barra e h(i) representa sua amplitude.
Este parâmetro fornece uma medida para o domínio da
freqüência fundamental principal sobre todas as outras. Foi
observado que tal domínio é mais pronunciado em sinais de
voz, como pode ser visto no exemplo da Fig. 4.
297
comportamento suave, com picos suaves e em pequeno
número; essa situação é mais comum em sinais de voz. Essas
situações podem ser observadas na Fig. 4.
Cada um dos parâmetros carrega informação relevante e
independente sobre os dados analisados. Uma estratégia muito
simples foi usada para combinar tais parâmetros, como será
visto na Seção IV.
III. DESCRIÇÃO DA BASE DE DADOS
Um dos mais importantes estágios em estudos sobre
classificação de áudio é o desenvolvimento de uma boa base
de dados, a qual deve ser suficientemente ampla e
representativa para permitir que os resultados obtidos sejam
consistentes. Se tal necessidade não for satisfeita, as
conclusões dos estudos não serão suficientemente fortes e
Histogramas das Freqüências Fundamentais
Histograma das Freqüências Fundamentais - Voz (Zoom)
Número de Ocorrências
Número de Ocorrências
Histograma das Freqüências Fundamentais - Voz
Número MIDI
Número MIDI
Histograma das Freqüências Fundamentais - Música (Zoom)
Número de Ocorrências
Número de Ocorrências
Histograma das Freqüências Fundamentais - Música
Número MIDI
Número MIDI
Fig. 4. Comparação entre histogramas típicos para voz e música.
c. Variabilidade da freqüência: este parâmetro mede como
a amplitude de barras vizinhas do histograma varia, conforme
135
f0v = ∑ h ( i ) − h ( i − 1) .
(5)
i = 38
Se a variação no número de ocorrências entre notas MIDI
sucessivas é grande, este parâmetro assume valores elevados.
Nesse caso, o histograma apresentará fortes oscilações, com
vários picos e depressões; essa situação é comum em sinais de
música. Se f0v for pequeno, o histograma terá um
confiáveis para representar uma contribuição real ao estado da
arte da área. Por esse motivo, um cuidado especial foi
dedicado à construção da base de dados utilizada nesta
pesquisa.
A base de dados é composta por 2.587 arquivos de áudio,
todos no formato wav, com uma quantização de 16 bits e
amostrados a 48 kHz. A base inteira possui 13,5 GB,
correspondendo a mais de 20 horas de áudio.
A base de dados é dividida em dois grupos principais: voz e
música. A única diferença entre esses dois grupos, além de seu
298
IEEE LATIN AMERICA TRANSACTIONS, VOL. 5, NO. 5, SEPTEMBER 2007
conteúdo, é a duração dos sinais. Sinais de voz têm duração
entre 9 s e 21 s, enquanto sinais de música têm duração de 32
s. Os sinais de música são divididos em 16 gêneros.
O conjunto de voz foi extraído de discos compactos (CDs),
transmissões de rádio convencionais e pela Internet. Essas
fontes geram sinais com características e níveis de qualidade
distintos. A rotulação de tais sinais foi realizada manualmente
de acordo com os seguintes critérios:
- Voz limpa: esta classe inclui sinais de voz para os quais
distorções, artefatos ruidosos e sons ambientes são muito
pequenos ou inexistentes. Corresponde a aproximadamente
50% de todos os sinais de voz da base.
- Voz ruidosa: a maior parte dos sinais nesta classe têm
uma relação sinal ruído (SNR) abaixo de 30 dB. A maior parte
do ruído é branco. Este grupo corresponde a pouco mais de
20% da base de dados.
- Voz distorcida: os sinais neste grupo têm distorções de
média ou grande intensidade em seu conteúdo. Tais distorções
são em grande parte causadas por falhas na transmissão e por
baixas taxas de dados na Internet. Este grupo corresponde a
aproximadamente 15% da base de dados.
- Voz com ruído ambiente: os sinais deste grupo são
compostos por uma mistura de voz e sons ambientes, sempre
com SNR abaixo de 30 dB. Os sons ambientes são de
escritórios, ruas, restaurantes, tráfego, natureza, entre outros.
Este grupo corresponde a 10% da base de dados.
- Voz com música: os sinais deste grupo são compostos
por uma mistura de voz e música, sendo que o limiar para que
um sinal seja considerado voz ou música foi manualmente
determinado. Este grupo corresponde a 5% da base de dados.
Como se pode ver, uma parte significativa da base de
dados possui sérias degradações e/ou ruído ambiente. Tais
arquivos foram incluídos a fim de testar a robustez da técnica
proposta frente a condições extremas, como será visto na
próxima seção.
A base de música foi extraída de CDs, transmissões pela
Internet e também a partir de arquivos codificados (mp3,
wma, ogg, aac). Todos os sinais desta base têm boa qualidade,
e são divididos em 15 gêneros: clássico (6,1 % da base),
country (6,5 %), heavy metal (5,4 %), jazz (7,0 %), música
latina (6,5 %), new age (6,0 %), ópera/coro (5,7 %), pop (6,1
%), rap (5,4 %), reggae (6,0 %), rock (6,8 %), rock leve (5,6
%), suave (5,9 %), techno (6,7 %) e miscelânea (14,3 %).
IV. TESTES E RESULTADOS
Antes do processo de combinação, os parâmetros descritos
na Seção 2 foram testados separadamente a fim de se
determinar seus desempenhos individuais. As regras
apresentadas a seguir foram estabelecidas após a realização de
testes de otimização, que consistiram numa análise cuidadosa
dos valores assumidos pelos parâmetros, de modo que se
pudessem escolher os limiares entre voz e música que
resultassem nos melhores resultados. Cerca de 30% dos sinais
presentes na base de dados apresentada na Seção III foram
aleatoriamente escolhidos para esta etapa. Esses sinais foram
excluídos dos testes finais, cujos resultados são apresentados
mais adiante nesta seção. As regras aplicadas a cada
parâmetro são apresentadas a seguir.
a. Proporção de freqüências fundamentais elevadas: os
melhores resultados para este parâmetro foram obtidos quando
as seguintes regras foram aplicadas: se a proporção de valores
MIDI iguais ou maiores que 100 supera 0,1%, o sinal é
considerado voz; caso contrário, é considerado música. Neste
caso, o parâmetro alcançou uma precisão de 94,0% para sinais
de voz e 93,6% para sinais de música. Tais resultados são
muito bons, uma vez que eles foram obtidos usando-se apenas
uma variável. Adicionalmente, as bases de dados contêm
vários sinais degradados e ruidosos, tornando o desempenho
deste parâmetro ainda mais expressivo.
b. Prevalência da freqüência fundamental principal: a
seguinte regra foi adotada para este parâmetro: se o pico
dominante do histograma concentra mais de 18,5% das
ocorrências, o sinal é classificado como voz; caso contrário, é
classificado como música. A precisão alcançada por este
parâmetro foi de 79% para voz e 76% para música. Como se
pode observar, este parâmetro produziu resultados
relativamente pobres quando considerado individualmente;
contudo, ele provê informações importantes quando
combinado com os demais.
c. Variabilidade da freqüência: este parâmetro alcançou os
melhores resultados quando a seguinte regra foi aplicada: se
seu valor é menor que 5,24, o sinal é classificado como voz;
caso contrário, é classificado como música. A precisão obtida
por este parâmetro foi de 84,7% para voz e música. Como no
caso do parâmetro anterior, a variabilidade da freqüência
individualmente não é muito útil, mas fornece informações
valiosas quando combinada com os outros parâmetros.
A análise do desempenho individual revela que o primeiro
parâmetro sozinho possui precisão suficiente para várias
aplicações. Porém, foi observado que a combinação dos 3
parâmetros leva a melhores resultados. Antes da combinação,
os parâmetros foram escalados de tal maneira que eles
assumem somente valores entre –1 e 1. Quanto mais negativo
é seu valor, maior é a probabilidade de que o sinal
correspondente seja voz. De maneira equivalente, quanto mais
positivo é o valor, maior é a probabilidade de que o sinal seja
música.
Após vários testes, uma combinação aritmética simples
entre os parâmetros foi escolhida, porque produz bons
resultados
com
uma
insignificante
complexidade
computacional associada:
comb =
1
⋅ (5 ⋅ A + B + C ) ,
7
(6)
onde A, B e C são os parâmetros apresentados anteriormente.
A classificação final é dada pela seguinte regra: se comb é
negativo ou zero, o sinal é classificado como voz; do
contrário, é classificado como música.
Os testes foram realizados submetendo-se todos os sinais da
base de dados que não foram utilizados na etapa de otimização
do método e comparando-se as classificações fornecidas pelo
método com os rótulos atribuídos manualmente a esses sinais.
A Tabela 1 apresenta o índice de acerto da estratégia.
GARCIA ARNAL BARBEDO AND LOPES : SPEECH/MUSIC DISCRIMINATOR BASED ON MULTIPLE
TABELA 1
DESEMPENHO DO MÉTODO
Tipo de Sinal
Voz (todos os arquivos)
Voz limpa
Voz ruidosa
Voz distorcida
Voz com ruído ambiente
Voz com música
Música (todos os arquivos)
Música (sem arquivos de rap)
V. CONCLUSÕES E TRABALHOS FUTUROS
Precisão
99,0%
99,3%
98,6%
99,0%
98,7%
97,5%
95,6%
97,2%
Como se pode observar na Tabela 1, a precisão global da
estratégia proposta se situa entre 95 e 99%, dependendo dos
sinais considerados. Tais resultados colocam esta proposta
pelo menos no mesmo nível das melhores propostas anteriores
encontradas na literatura, as quais apresentam um índice de
acerto entre 92% e 98% [10-20], dependendo das condições e
sinais utilizados. Os resultados também mostram que a técnica
é muito robusta a sinais ruidosos, situação em que técnicas
anteriores raramente atingiram 93% de acerto. É importante
ainda destacar que a maior parte dos sinais de música
classificados incorretamente tem fortes elementos de voz,
tornando difícil a tarefa de identificar corretamente o tipo de
sinal. Esse tipo de situação é muito comum em sinais de rap,
em que os vocais freqüentemente parecem de fato voz. Por
esse motivo, somente 70% dos sinais de rap são corretamente
classificados como música.
Sob o ponto de vista da robustez, esta estratégia mostra uma
clara vantagem sobre seus predecessores. Como comentado
anteriormente, isso ocorre porque a técnica depende de
somente 3 parâmetros e, adicionalmente, a combinação dos
parâmetros é realizada através de uma simples combinação
aritmética, de modo que nenhuma fase de treinamento é
necessária. Tais características são também responsáveis pelo
baixo esforço computacional demandado pela técnica. O
programa, executado em um computador pessoal com
processador AMD Athlon 2000+, 512 MB de RAM e sistema
operacional Windows XP, levou menos de 4 ms para
processar um quadro de 21,3 ms. Esse desempenho indica que
o procedimento pode ser usado em aplicações em tempo real,
mesmo quando os recursos computacionais disponíveis são
limitados.
Outro fator analisado foi a resolução da classificação, isto é,
a duração mínima do sinal necessária para alcançar o
desempenho de classificação desejado. Existem várias
aplicações que demandam segmentação contínua da cadeia de
áudio em voz e música. Além disso, é desejável que a
segmentação seja a mais fina possível. Porém, esse tipo de
aplicação implica, em geral, menos dados para extrair
informação sobre os sinais, fato que tende a reduzir a precisão.
A resolução das técnicas descritas na literatura varia
fortemente (entre 0,5 e 10 s), dependendo do contexto do
trabalho. A estratégia apresentada aqui requer pelo menos 10 s
de dados de áudio para funcionar corretamente. Tal resolução
é suficiente para preencher os requisitos demandados pela
maioria das aplicações.
Este artigo apresentou uma nova estratégia para discriminar
entre sinais de voz e música. A técnica consiste na extração de
três parâmetros que são baseados no conceito de estimação de
múltiplas freqüências fundamentais.
O desempenho da estratégia em termos de estimativas
corretas é compatível com os mais bem sucedidos trabalhos
anteriores. Adicionalmente, apresenta uma clara vantagem em
termos de robustez e complexidade computacional, além de
ser simples de implementar. As características desta técnica
tornam-na apropriada para ser aplicada a uma vasta gama de
situações, particularmente onde condições potencialmente
problemáticas, como degradações e ruído ambiental, são
esperadas. Além disso, pode ser usada em aplicações que
exijam operação em tempo real.
Existem diversas direções para pesquisas futuras. Uma
possível melhoria pode ser alcançada com o aperfeiçoamento
do processo usado para estimar múltiplas freqüências
fundamentais. Outra linha de pesquisa interessante é tentar
combinar a estratégia aqui apresentada com outras técnicas
bem sucedidas. Por fim, seria interessante aumentar a
resolução da classificação, a fim de melhorar a capacidade de
segmentação da técnica.
VI. REFERÊNCIAS
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
A. A. Alatan, A. N. Akansu and W. Wolf, “Multi-modal Dialogue
Scene Detection Using Hidden Markov Models for Content-based
Multimedia Indexing,” Kluwer Acad., Int. Journal on Multimedia Tools
and Applications, vol. 14, pp. 137-151, 2001.
Y. Cao, W. Tavanapong, K. Kim and J. Oh, “Audio Assisted Scene
Segmentation for Story Browsing,” Proc. of Int. Conf. on Image and
Video Retrieval, Urbana-Champaign, USA, pp. 446-455, 2003.
L. Chen, S. Rizvi and M. T. Özsu, “Incorporating Audio Cues into
Dialog and Action Scene Extraction,” Proc. of the 15th Annual Symp.
on Electronic Imaging - Storage and Retrieval for Media Databases,
Santa Clara, USA, 2003.
N. Dimitrova, “Multimedia Content Analysis and Indexing for Filtering
and Retrieval Applications,” Special Issue on Multimedia Technologies
and Informing Systems, Part I, Vol. 2, pp. 87-100, 1999.
P. Q. Dinh, C. Dorai and S. Venkatesh, “Video Genre Categorization
Using Audio Wavelet Coefficients”, Proc. of 5th Asian Conference on
Computer Vision, Melbourne, Australia, January 2002.
Y. Li, W. Ming and C. -C. J. Kuo, “Semantic Video Content
Abstraction Based on Multiple Cues,” Proc. of Int. Conf. on Multimedia
and Expo, Tokyo, Japan, August 2001.
Z. Liu, J. Huang, Y. Wang and T. Chen, “Audio Feature Extraction &
Analysis for Scene Classification”, Proc. of 1997 Workshop on
Multimedia Signal Processing, Princeton, pp. 343-348, June 1997.
K. Minami, A. Akutsu, H. Hamada and Y. Tonomura, “Video Handling
with Music and Speech Detection,” IEEE MultiMedia, Vol. 5, No. 3,
pp.17-25, 1998.
T. Zhang, C. -C. J. Kuo, “Audio content analysis for online audiovisual
data segmentation and classification,” IEEE Transactions on Speech and
Audio Processing, Vol. 3, No. 4, pp. 441-457, 2001.
T. Beierholm and P.M. Baggenstoss, “Speech Music Discrimination
Using Class-Specific Features,” Proc. of Int. Conf. on Pattern
Recognition, Cambridge, UK, pp. 379-382, 2004.
M. J. Carey, E. S. Parris and H. Lloyd-Thomas, “A comparison of
features for speech, music discrimination”, Proc. of IEEE Int. Conf. on
Acoustics, Speech, and Signal Processing, Phoenix, USA, pp. 149-152,
1999.
Y. -C. Cho, S. Choi and S. -Y. Bang, “Non-negative component parts of
sound for classification,” Proc. IEEE Int. Symp. Signal Processing and
Information Technology, Darmstadt, Germany, 2003.
K. El-Maleh, M. Klein, G. Petrucci and P. Kabal, “Speech/Music
Discrimination for Multimedia Applications,” Proc. IEEE Int. Conf.
299
300
[14]
[15]
[16]
[17]
[18]
[19]
[20]
[21]
[22]
IEEE LATIN AMERICA TRANSACTIONS, VOL. 5, NO. 5, SEPTEMBER 2007
Acoustics, Speech, Signal Processing, Istanbul, Turkey, pp. 2445-2448,
2000.
H. Harb and L. Chen, “Robust Speech/Music Discrimination Using
Spectrum’s First Order Statistics and Neural Networks”, Proc. of the
IEEE Int. Symposium on Signal Processing and its Applications, Paris,
France, July 2003.
R. Jarina, N. O'Connor and S. Marlow, “Rhythm Detection for SpeechMusic Discrimination in MPEG Compressed Domain,” Proc. of the
IEEE Int. Conf. on Digital Signal Processing, Santorini, Greece, pp.
129-132, 2002.
L. Lu, H. -J. Zhang and H. Jiang, “Content Analysis for Audio
Classification and Segmentation,” IEEE Transactions on Speech and Audio
Processing, Vol. 10, No. 7, pp. 504-516, 2002.
J. Saunders, “Real-Time Discrimination of Broadcast Speech/Music”,
Proc. of the IEEE Int. Conf. on Acoustics, Speech, and Signal
Processing, Atlanta, pp 993-996, 1996.
E. Scheirer and M. Slaney, “Construction and Evaluation of a Robust
Multifeature Speech/Music Discriminator”, Proc. of the IEEE Int. Conf.
on Acoustics, Speech, and Signal Processing, Munich, Germany, pp.
1331-1334, 1997.
P. Wang, R. Cai and S. -Q. Yang, “A Hybrid Approach to News Video
Classification with Multi-modal Features,” Proc. of Int. Conf. on
Information, Communications & Signal Processing, Singapore, pp. 787791, 2003.
G. Williams and D. Ellis, “Speech/music discrimination based on
posterior probability features”, Proc. of European Conf. on Speech
Communication and Technology, Budapest, Hungary, 1999.
T. Tolonen and M. Karjalainen, “A Computationally Efficient
Multipitch Analysis Model,” IEEE Transactions on Speech and Audio
Processing, Vol. 8, No. 6, pp. 708-716, 2000.
G. Tzanetakis and P. Cook, “Musical Genre Classification of Audio
Signals,” IEEE Transactions on Speech and Audio Processing, Vol. 10,
No. 5, pp. 293-302, 2002.
VII. BIOGRAFIAS
Jayme Garcia Arnal Barbedo nasceu em São Paulo,
Brasil, em 1976. Graduou-se em Engenharia Elétrica
pela Universidade Federal de Mato Grosso do Sul em
1998 e recebeu os títulos de mestre e doutor pela
Universidade Estadual de Campinas em 2001 e 2004,
respectivamente. Em 2004, juntou-se à Diretoria de
TV Digital da Fundação CPqD de Campinas, onde
trabalhou na área de codificação de sinais-fonte no
âmbito do projeto para determinação do sistema
brasileiro de televisão digital. Desde 2005, vem
desenvolvendo um projeto de pós-doutorado na área de classificação de sinais
de áudio junto ao Departamento de Comunicações da Faculdade de
Engenharia Elétrica e Computação da Unicamp. Suas áreas de interesse
incluem avaliação objetiva de sinais de áudio e voz, classificação de sinais de
áudio, codificação de áudio, TV digital, processamento digital de sinais e
redes neurais.
Amauri Lopes graduou-se e obteve os títulos de
Mestre e Doutor em Engenharia Elétrica pela
Universidade Estadual de Campinas em 1972, 1975
e 1982, respectivamente.
Ele está na Faculdade de Engenharia Elétrica e de
Computação (FEEC) da Universidade Estadual de
Campinas (UNICAMP) desde 1973, onde exerce
atualmente o cargo de professor titular. Suas áreas de
interesse são: processamento de sinais, teoria de
circuitos e transmissão de sinais digitais.
Publicou cerca de 70 artigos em periódicos e
conferências nacionais e internacionais e produziu cerca de 30 relatórios
técnicos relativos a desenvolvimento de protótipos industriais em
telecomunicações, equipamentos para laboratório de ensino e pesquisa e
relatos de pesquisas.
Orientou três teses de doutorado, 13 teses de mestrado e 10 iniciações
científicas. Orienta atualmente quatro trabalhos de doutorado e 2 de mestrado.
Foi vice-chefe e chefe do Departamento de Comunicações da FEEC e diretor
associado da FEEC. Ministrou várias palestras convidadas e cursos de
extensão. Ministra aulas no curso de graduação em engenharia elétrica da
FEEC desde 1973. É professor do curso de pós-graduação em engenharia
elétrica da FEEC desde 1983.
Download

PDF Full-Text