Análise do vídeo a partir da sua simplificação
Silvio Jamil Ferzoli Guimarães1, Michel Couprie2,
Neucimar Jerônimo Leite3 & Arnaldo de Albuquerque Araújo1
1
NPDI/DCC/UFMG- {sjamil,arnaldo}@dcc.ufmg.br
2
LA2SI/ESIEE - [email protected]
3
LIS/IC/UNICAMP - [email protected]
Resumo: Devido à crescente quantidade de vídeos digitais, métodos para sua análise,
computacionalmente eficientes com grande qualidade dos resultados, são cada vez mais
requeridos. Neste sentido, descrevemos uma metodologia para detecção de "cortes" em
vídeo digital considerando uma simplificação do mesmo. Esta simplificação é obtida a
partir de uma amostragem sistemática do conteúdo do vídeo, onde os diferentes efeitos do
vídeo são representados por diferentes padrões sobre esta simplificação.
1
Introdução
O problema de segmentação de vídeo pode ser considerado como um problema de dissimilaridade
entre imagens (ou quadros). Normalmente, este problema pode ser resolvido a partir do uso de
uma medida de dissimilaridade que permite identificar o limite entre tomadas consecutivas de
vídeo. A mais simples transição entre duas tomadas é o "corte". Uma outra abordagem para o
problema de segmentação do vídeo é transformá-lo numa imagem 2D, e aplicar métodos de
processamento de imagens para extrair os padrões relacionados a cada tipo de evento sobre o
vídeo. Esta abordagem pode ser encontrada em Chung [1] e Ngo [2], onde a imagem
transformada é chamada de ritmo visual. Nestes trabalhos, são considerados métodos estatísticos e
modelos de Markov, respectivamente. Informalmente, o ritmo visual representa uma simplificação
do conteúdo do vídeo e pode ser obtido a partir de uma amostragem sistemática de pixels em cada
quadro do vídeo, como por exemplo, extração de todos os pixels de uma diagonal de cada quadro.
Então, o problema de segmentação do vídeo é transformado em um problema de segmentação de
imagens. Nas próximas seções, descrevemos como é possível fazer a simplificação do vídeo, e a
partir desta simplificação, propomos um novo método para a detecção de cortes.
2
Simplificação do vídeo
Um quadro é uma função de {0,...,M-1}x{0,...,N-1} em Z2, onde cada posição espacial (x,y)
representa o nível de cinza do pixel ft(x,y). Um vídeo V pode ser visualizado com uma seqüência
de T quadros. O ritmo visual R é uma simplificação do conteúdo do vídeo.
Definição 2.1 (Ritmo visual) Considere V um vídeo qualquer no domínio 2D+t. O ritmo visual
R, no domínio 1D+t, é uma simplificação do vídeo onde cada quadro ft é transformado em uma
linha vertical sobre a imagem do ritmo visual. O ritmo visual é dado por:
R(t,z)= ft (rx*z+a,ry*z+b)
onde z ∈ {0,...,Mz-1} e t ∈ {0,...,Nt-1}, são a altura e a largura do ritmo visual, respectivamente.
rx e ry são as razões da amostragem de pixels, a e b são os deslocamentos em cada quadro. As
mais comuns amostragens de pixels são: pixels da diagonal, linha vertical central e linha horizontal
central. A escolha da amostragem é um problema pois diferentes amostragens produzem
diferentes ritmos visuais com diferentes padrões. Chung [1] apresenta algumas amostragens de
pixels com seus correspondentes ritmos visuais. Em geral, os melhores resultados são encontrados
quando a amostragem é baseada na diagonal, pois esta contém características horizontais e
Anais do II Workshop em Tratamento de Imagens, NPDI/DCC/UFMG, 2001
verticais. A partir deste ritmo visual, podemos observar que os cortes no vídeo são representados
por "linhas verticais".
3
Detecção de cortes
A abordagem mais comum, usada pelos métodos que trabalham diretamente com o vídeo digital, é
a definição de uma medida de dissimilaridade e os resultados são altamente dependentes da
escolha desta medida. Com o objetivo de realizar uma segmentação do vídeo, sem precisar definir
esta medida, podemos usar uma simplificação do conteúdo do vídeo, o ritmo visual, onde o
problema de segmentação do vídeo é transformado em um problema de segmentação de imagem.
Então, podemos aplicar métodos de processamento de imagens 2D para identificar diferentes
padrões sobre a imagem de ritmo visual, pois cada evento do vídeo corresponde a um padrão
nesta imagem, por exemplo, cada corte no vídeo é transformado em uma "linha vertical" sobre o
ritmo visual. Infelizmente, esta correspondência não é uma correspondência unívoca, isto é, um
corte correponde a um linha vertical, mas uma linha vertical não é necessariamente um corte. Este
problema pode ser resolvido considerando ritmos visuais obtidos a partir de diferentes
amostragens de pixels. E a partir destes resultados, uma simples operação de interseção pode ser
usada para identificar corretamente os cortes.
Felizmente, em geral, podemos usar somente um ritmo visual obtido a partir de uma
amostragem de uma diagonal pois este problema raramente ocorre na prática e de acordo com
Chung [1], este ritmo visual representa a melhor simplificação do conteúdo do vídeo. A seguir,
descrevemos as principais etapas de um novo método para a detecção de cortes baseado no ritmo
visual:
• Obtenção do ritmo visual, a partir de uma amostragem dos pixels da diagonal principal;
• Filtragem do ritmo visual, com o objetivo de eliminar pequenos ruídos a partir de filtros
morfológicos [5];
• Cálculo do gradiente horizontal, através da primeira derivada em relação ao tempo;
• Afinamento [6] de cada linha horizontal da imagem do gradiente, com o objetivo de
encontrar pontos centrais do gradiente. Linhas verticais podem ser detectadas se os centros
dos gradientes nas diferentes linhas estiverem verticalmente alinhados;
• Identificação dos pontos de máximo;
• Filtragem dos máximos, para a eliminação de componentes irrelevantes (ruído);
• Cálculo do número de máximos, em cada linha vertical; e
• Aplicação de limiar nos números de máximos, para a detecção de cortes, onde o limiar é
empírico.
Figura 1. Detecção de cortes a partir de um vídeo real. O limiar utilizado é 50% do valor máximo.
A Fig. 1 ilustra os resultados de algumas etapas do algoritmo proposto para a detecção de
cortes, desde a obtenção do ritmo visual (figura da esquerda) até a sobreposição entre os cortes
Anais do II Workshop em Tratamento de Imagens, NPDI/DCC/UFMG, 2001
detectados e o ritmo visual (figura da direita). Guimarães [3] apresenta uma análise comparativa
entre este método proposto e alguns outros métodos existentes na literatura, onde podemos
observar que o método proposto produz melhores resultados.
4
Conclusão
Neste trabalho, propomos um novo método para a detecção de cortes a partir da simplificação do
conteúdo do vídeo. Esta simplificação proporciona uma análise do vídeo de maneira mais
eficiente, pois transformamos o problema de segmentação do vídeo em um problema de
segmentação de imagens 2D. Guimarães [3] apresenta uma análise mais detalhada deste novo
método bem como uma análise comparativa com outros métodos existentes na literatura, além de
propor algumas medidas de qualidade para analisar os resultados de métodos aplicados ao
problema de segmentação do vídeo.
Agradecimentos
Os autores agradecem à FAPEMIG, CAPES/COFECUB, CNPq e ao Projeto SIAM
DCC/PRONEX pelo suporte financeiro deste trabalho.
Referências
[1] M.G. Chung et al. Automatic video segmentation based on spatio-temporal features. Korea
Telecom Journal, 4(1):4-14, 1999.
[2] C. W. Ngo et al. Detection of gradual transition through temporal slice analysis. In IEEE
CVPR, pages 36-41, 1999.
[3] S. J. F. Guimarães et al. A new method for cut detection based on visual rhythm. Submetido
para SIBGRAPI 2001.
[4] J. Serra. Image analysis and mathematical morphology. Academic Press, 1988.
[5] G. Bertrand et al. Image segmentation through operators based upon topology. Journal of
Electronic Imaging, 6: 395-405, 1997.
Anais do II Workshop em Tratamento de Imagens, NPDI/DCC/UFMG, 2001
Download

Análise do vídeo a partir da sua simplificação - m-fit