Análise do vídeo a partir da sua simplificação Silvio Jamil Ferzoli Guimarães1, Michel Couprie2, Neucimar Jerônimo Leite3 & Arnaldo de Albuquerque Araújo1 1 NPDI/DCC/UFMG- {sjamil,arnaldo}@dcc.ufmg.br 2 LA2SI/ESIEE - [email protected] 3 LIS/IC/UNICAMP - [email protected] Resumo: Devido à crescente quantidade de vídeos digitais, métodos para sua análise, computacionalmente eficientes com grande qualidade dos resultados, são cada vez mais requeridos. Neste sentido, descrevemos uma metodologia para detecção de "cortes" em vídeo digital considerando uma simplificação do mesmo. Esta simplificação é obtida a partir de uma amostragem sistemática do conteúdo do vídeo, onde os diferentes efeitos do vídeo são representados por diferentes padrões sobre esta simplificação. 1 Introdução O problema de segmentação de vídeo pode ser considerado como um problema de dissimilaridade entre imagens (ou quadros). Normalmente, este problema pode ser resolvido a partir do uso de uma medida de dissimilaridade que permite identificar o limite entre tomadas consecutivas de vídeo. A mais simples transição entre duas tomadas é o "corte". Uma outra abordagem para o problema de segmentação do vídeo é transformá-lo numa imagem 2D, e aplicar métodos de processamento de imagens para extrair os padrões relacionados a cada tipo de evento sobre o vídeo. Esta abordagem pode ser encontrada em Chung [1] e Ngo [2], onde a imagem transformada é chamada de ritmo visual. Nestes trabalhos, são considerados métodos estatísticos e modelos de Markov, respectivamente. Informalmente, o ritmo visual representa uma simplificação do conteúdo do vídeo e pode ser obtido a partir de uma amostragem sistemática de pixels em cada quadro do vídeo, como por exemplo, extração de todos os pixels de uma diagonal de cada quadro. Então, o problema de segmentação do vídeo é transformado em um problema de segmentação de imagens. Nas próximas seções, descrevemos como é possível fazer a simplificação do vídeo, e a partir desta simplificação, propomos um novo método para a detecção de cortes. 2 Simplificação do vídeo Um quadro é uma função de {0,...,M-1}x{0,...,N-1} em Z2, onde cada posição espacial (x,y) representa o nível de cinza do pixel ft(x,y). Um vídeo V pode ser visualizado com uma seqüência de T quadros. O ritmo visual R é uma simplificação do conteúdo do vídeo. Definição 2.1 (Ritmo visual) Considere V um vídeo qualquer no domínio 2D+t. O ritmo visual R, no domínio 1D+t, é uma simplificação do vídeo onde cada quadro ft é transformado em uma linha vertical sobre a imagem do ritmo visual. O ritmo visual é dado por: R(t,z)= ft (rx*z+a,ry*z+b) onde z ∈ {0,...,Mz-1} e t ∈ {0,...,Nt-1}, são a altura e a largura do ritmo visual, respectivamente. rx e ry são as razões da amostragem de pixels, a e b são os deslocamentos em cada quadro. As mais comuns amostragens de pixels são: pixels da diagonal, linha vertical central e linha horizontal central. A escolha da amostragem é um problema pois diferentes amostragens produzem diferentes ritmos visuais com diferentes padrões. Chung [1] apresenta algumas amostragens de pixels com seus correspondentes ritmos visuais. Em geral, os melhores resultados são encontrados quando a amostragem é baseada na diagonal, pois esta contém características horizontais e Anais do II Workshop em Tratamento de Imagens, NPDI/DCC/UFMG, 2001 verticais. A partir deste ritmo visual, podemos observar que os cortes no vídeo são representados por "linhas verticais". 3 Detecção de cortes A abordagem mais comum, usada pelos métodos que trabalham diretamente com o vídeo digital, é a definição de uma medida de dissimilaridade e os resultados são altamente dependentes da escolha desta medida. Com o objetivo de realizar uma segmentação do vídeo, sem precisar definir esta medida, podemos usar uma simplificação do conteúdo do vídeo, o ritmo visual, onde o problema de segmentação do vídeo é transformado em um problema de segmentação de imagem. Então, podemos aplicar métodos de processamento de imagens 2D para identificar diferentes padrões sobre a imagem de ritmo visual, pois cada evento do vídeo corresponde a um padrão nesta imagem, por exemplo, cada corte no vídeo é transformado em uma "linha vertical" sobre o ritmo visual. Infelizmente, esta correspondência não é uma correspondência unívoca, isto é, um corte correponde a um linha vertical, mas uma linha vertical não é necessariamente um corte. Este problema pode ser resolvido considerando ritmos visuais obtidos a partir de diferentes amostragens de pixels. E a partir destes resultados, uma simples operação de interseção pode ser usada para identificar corretamente os cortes. Felizmente, em geral, podemos usar somente um ritmo visual obtido a partir de uma amostragem de uma diagonal pois este problema raramente ocorre na prática e de acordo com Chung [1], este ritmo visual representa a melhor simplificação do conteúdo do vídeo. A seguir, descrevemos as principais etapas de um novo método para a detecção de cortes baseado no ritmo visual: • Obtenção do ritmo visual, a partir de uma amostragem dos pixels da diagonal principal; • Filtragem do ritmo visual, com o objetivo de eliminar pequenos ruídos a partir de filtros morfológicos [5]; • Cálculo do gradiente horizontal, através da primeira derivada em relação ao tempo; • Afinamento [6] de cada linha horizontal da imagem do gradiente, com o objetivo de encontrar pontos centrais do gradiente. Linhas verticais podem ser detectadas se os centros dos gradientes nas diferentes linhas estiverem verticalmente alinhados; • Identificação dos pontos de máximo; • Filtragem dos máximos, para a eliminação de componentes irrelevantes (ruído); • Cálculo do número de máximos, em cada linha vertical; e • Aplicação de limiar nos números de máximos, para a detecção de cortes, onde o limiar é empírico. Figura 1. Detecção de cortes a partir de um vídeo real. O limiar utilizado é 50% do valor máximo. A Fig. 1 ilustra os resultados de algumas etapas do algoritmo proposto para a detecção de cortes, desde a obtenção do ritmo visual (figura da esquerda) até a sobreposição entre os cortes Anais do II Workshop em Tratamento de Imagens, NPDI/DCC/UFMG, 2001 detectados e o ritmo visual (figura da direita). Guimarães [3] apresenta uma análise comparativa entre este método proposto e alguns outros métodos existentes na literatura, onde podemos observar que o método proposto produz melhores resultados. 4 Conclusão Neste trabalho, propomos um novo método para a detecção de cortes a partir da simplificação do conteúdo do vídeo. Esta simplificação proporciona uma análise do vídeo de maneira mais eficiente, pois transformamos o problema de segmentação do vídeo em um problema de segmentação de imagens 2D. Guimarães [3] apresenta uma análise mais detalhada deste novo método bem como uma análise comparativa com outros métodos existentes na literatura, além de propor algumas medidas de qualidade para analisar os resultados de métodos aplicados ao problema de segmentação do vídeo. Agradecimentos Os autores agradecem à FAPEMIG, CAPES/COFECUB, CNPq e ao Projeto SIAM DCC/PRONEX pelo suporte financeiro deste trabalho. Referências [1] M.G. Chung et al. Automatic video segmentation based on spatio-temporal features. Korea Telecom Journal, 4(1):4-14, 1999. [2] C. W. Ngo et al. Detection of gradual transition through temporal slice analysis. In IEEE CVPR, pages 36-41, 1999. [3] S. J. F. Guimarães et al. A new method for cut detection based on visual rhythm. Submetido para SIBGRAPI 2001. [4] J. Serra. Image analysis and mathematical morphology. Academic Press, 1988. [5] G. Bertrand et al. Image segmentation through operators based upon topology. Journal of Electronic Imaging, 6: 395-405, 1997. Anais do II Workshop em Tratamento de Imagens, NPDI/DCC/UFMG, 2001