Sumarização Automática
de Vídeos
Edward Cayllahua
[email protected]
Introdução
• Sumarização de vídeo é o processo de extração de um resumo do
conteúdo original do vídeo.
• O objetivo é fornecer rapidamente a informação do conteúdo do
vídeo, preservando a mensagem do vídeo original
• Eles permitem ao usuário uma navegação rápida de vídeo e
recuperação de conteúdo.
Introdução
• Sumarizaçao de vídeo implica extrair uma amostra de frames.
• Essas
amostras
são
sua seqüência de tempo.
então
juntadas
respeitando
• Consiste em se-selecionar as
porções pequenas mais
relevantes
de
áudio
e vídeo, a fim de gerar o resumo de vídeo.
Problema
• A fim de gerar um resumo perfeito o modelo teria que realizar
uma boa compreenção da semântica do vídeo.
• A compreenção da semântica é uma tarefa muito complexa e ainda
está muito além da inteligência dos atuais sistemas de computação
Definições
• Vídeo: É uma sequencia do frames, geralmente consiste de cenas.
• Cena: cada cena inclui um ou mais shots
• Shot: é um segmento ininterrupto de seqüência de quadros(frames) de vídeo
• Frame é uma imagem do vídeo
Anatomia de um Vídeo
Modelos
• Keyframe based summarization: Keyframe
• Skimming based summarization: eles fazem
uso de informações do shot.
Trabalhos Relacionados
• Modelos baseados em informação
visual, recursos como histograma de cores,
movimento, etc. [3] [6] [8] .
• Informação Visual e de Áudio como
discriminante. [5] [2] [7].
• Informação Visual, audio e Textual(filmes e
series) [1] [4].
Summarizing Video Sequences
Through
Histogram Evolution
• O conceito de evolução de histograma é usado
para summarização de vídeo [8].
Modelo
Extração de histograma
• Histograma são amplamente utilizados
em visão computacional.
• Elas descrevem as características de cor
quando aplicada a um frame de vídeo.
• O modelo usa histogramas RGB , mas
também pode trabalhar em cinza.
Extração de histograma
• Empiricamente, descobrimos que os melhores
resultados foram obtidos com 16 bins
por cada canal de cor.
• O histograma é extraído e salvo em um vetor.
Redução de dimensão
• O vetor obtido (Histrograma) é de alta
dimensionalidade.
• Método PCA é executado ao longo desse vetor, a
fim de reduzir a dimensão .
• Cada frame seria representado como um único
ponto a ser plotado em um espaço 2D.
Redução de dimensão
Detecção de shots
• Identificamos os shots que podem ocorrer no
vídeo
• Usamos o Método de Fuzzy C means ao nosso
espaço 2D de valores computados na
última etapa.
Fuzzy C-Means
• O Fuzzy C-means é um algoritmo popular para
classificação, e é usado em reconhecimento de
padrões e problemas de processamento de
imagens.
• O modelo considera a detecção de shot como um
problema de classificação.
• Frames análogos serão agrupados em um cluster
Fuzzy C Means
Vídeo final
• depois de detectar os clusters, extraímos o
frame mais próximo para cada classe, este
frame será marcado como um keyframe
• Uma vez que tenhamos detectado todos os
keyframes, extraímos uma vizinhança de até
30 frames que rodeiam cada keyframe.
Problemas do Modelo
• O Fuzzy C-Means precisa conhecer a priori o
número de clusters.
• Um usuario deve forneçer o número possivel de
shots.
• O processo não é completamente automático.
• ¿Por qué o PCA só reduz a dimensão a 2D?
Modelo Proposto
• Propomos o uso do Fuzzy-ART para encontrar
automaticamente o número de shots.
• Verificamos a variância dos componentes
principais e só escolhemos aqueles com uma
variância superior a 50%.
Modelo Proposto
Teste e Resultados
• Vídeos geralmente contêm mais de 400 frames é
impossível mostrar toda a seqüência de um vídeo.
• Extraídos de «Open Video Project»
(http://www.open-video.org)
• O «Open Video Project» fornece um storyboard,
assim é possivel fazer comparações
OPEN VIDEO
STORYBOARD
OUR
STORYBOARD
OPEN VIDEO
STORYBOARD
OUR
STORYBOARD
OPEN VIDEO
STORYBOARD
OUR
STORYBOARD
OPEN VIDEO
STORYBOARD
OUR
STORYBOARD
OPEN VIDEO
STORYBOARD
OUR
STORYBOARD
Tabela de testes
Problemas
• Dado que o modelo so usa o histograma de
cor, ele herda suas desvantagens.
– O descriptor não usa informaçao espacial.
– Ele é sensível mudanças de intensidade de iluminação.
Conclusões
• A partir dos resultados obtidos dos testes o
modelo é eficaz quando encontrar os keyframes e
não é computacionalmente caro.
• Nenhum modelo formal foi criado para avaliar
resumos de vídeo.
• Informação de cor, não é suficiente para nos
fornecer informações discriminativas
Trabalho futuro
• Usar informação espacial ou de textura
que podem ser extraídos usando algoritmos
não computacionalmente caros.
• Avaliar outros métodos de clustering: X
means.
•
•
•
•
•
•
•
•
Referências
[1] B.-W. Chen, J.-C. Wang, and J.-F. Wang. A novel video sum-marization based on mining the storystructure and semantic relations among concept entities. IEEE Transactions on Multimedia, 11:295–312,
February 2009.
[2] F. Chen, M. Cooper, and J. Adcock. Video summarization preserving dynamic content. In International
Workshop on TRECVID video summarization, TVS ’07, pages 40–44, New York, NY, USA, 2007. ACM.
[3] R. Laganière, P. Lambert, and B. E. Ionescu. Video sum-marization from spatio-temporal features. ACM
Workshop on Video Summarization, ACM, 2008.
[4] L. Li, K. Zhou, G.-R. Xue, H. Zha, and Y. Yu. Video summa-rization via transferrable structured learning. In
International conference on World wide web, WWW ’11, pages 287–296, New York, NY, USA, 2011. ACM.
[5] J. Nam and A. H. Tewfik. Dynamic video summarization and visualization. In Proceedings of the seventh
ACM inter-national conference on Multimedia (Part 2), MULTIMEDIA ’99, pages 53–56, New York, NY, USA,
1999. ACM.
[6] W. Ren and Y. Zhu. A video summarization approach based on machine learning. In Intelligent
Information Hiding and Multimedia Signal Processing, 2008. IIHMSP ’08 International Conference on, pages
450 –453, 2008.
[7] C. wah Ngo, Y. fei Ma, and H. jiang Zhang. Automatic video summarization by graph modeling. In IEEE
International Conference on Computer Vision, pages 104–109, 2003.
[8] T. Wan and Z. Qin. A new technique for summarizing video sequences through histogram evolution. In
Signal Processing and Communications (SPCOM), 2010 International Conference on, pages 1 –5, july 2010.
Download

slides - Decom