Sumarização Automática de Vídeos Edward Cayllahua [email protected] Introdução • Sumarização de vídeo é o processo de extração de um resumo do conteúdo original do vídeo. • O objetivo é fornecer rapidamente a informação do conteúdo do vídeo, preservando a mensagem do vídeo original • Eles permitem ao usuário uma navegação rápida de vídeo e recuperação de conteúdo. Introdução • Sumarizaçao de vídeo implica extrair uma amostra de frames. • Essas amostras são sua seqüência de tempo. então juntadas respeitando • Consiste em se-selecionar as porções pequenas mais relevantes de áudio e vídeo, a fim de gerar o resumo de vídeo. Problema • A fim de gerar um resumo perfeito o modelo teria que realizar uma boa compreenção da semântica do vídeo. • A compreenção da semântica é uma tarefa muito complexa e ainda está muito além da inteligência dos atuais sistemas de computação Definições • Vídeo: É uma sequencia do frames, geralmente consiste de cenas. • Cena: cada cena inclui um ou mais shots • Shot: é um segmento ininterrupto de seqüência de quadros(frames) de vídeo • Frame é uma imagem do vídeo Anatomia de um Vídeo Modelos • Keyframe based summarization: Keyframe • Skimming based summarization: eles fazem uso de informações do shot. Trabalhos Relacionados • Modelos baseados em informação visual, recursos como histograma de cores, movimento, etc. [3] [6] [8] . • Informação Visual e de Áudio como discriminante. [5] [2] [7]. • Informação Visual, audio e Textual(filmes e series) [1] [4]. Summarizing Video Sequences Through Histogram Evolution • O conceito de evolução de histograma é usado para summarização de vídeo [8]. Modelo Extração de histograma • Histograma são amplamente utilizados em visão computacional. • Elas descrevem as características de cor quando aplicada a um frame de vídeo. • O modelo usa histogramas RGB , mas também pode trabalhar em cinza. Extração de histograma • Empiricamente, descobrimos que os melhores resultados foram obtidos com 16 bins por cada canal de cor. • O histograma é extraído e salvo em um vetor. Redução de dimensão • O vetor obtido (Histrograma) é de alta dimensionalidade. • Método PCA é executado ao longo desse vetor, a fim de reduzir a dimensão . • Cada frame seria representado como um único ponto a ser plotado em um espaço 2D. Redução de dimensão Detecção de shots • Identificamos os shots que podem ocorrer no vídeo • Usamos o Método de Fuzzy C means ao nosso espaço 2D de valores computados na última etapa. Fuzzy C-Means • O Fuzzy C-means é um algoritmo popular para classificação, e é usado em reconhecimento de padrões e problemas de processamento de imagens. • O modelo considera a detecção de shot como um problema de classificação. • Frames análogos serão agrupados em um cluster Fuzzy C Means Vídeo final • depois de detectar os clusters, extraímos o frame mais próximo para cada classe, este frame será marcado como um keyframe • Uma vez que tenhamos detectado todos os keyframes, extraímos uma vizinhança de até 30 frames que rodeiam cada keyframe. Problemas do Modelo • O Fuzzy C-Means precisa conhecer a priori o número de clusters. • Um usuario deve forneçer o número possivel de shots. • O processo não é completamente automático. • ¿Por qué o PCA só reduz a dimensão a 2D? Modelo Proposto • Propomos o uso do Fuzzy-ART para encontrar automaticamente o número de shots. • Verificamos a variância dos componentes principais e só escolhemos aqueles com uma variância superior a 50%. Modelo Proposto Teste e Resultados • Vídeos geralmente contêm mais de 400 frames é impossível mostrar toda a seqüência de um vídeo. • Extraídos de «Open Video Project» (http://www.open-video.org) • O «Open Video Project» fornece um storyboard, assim é possivel fazer comparações OPEN VIDEO STORYBOARD OUR STORYBOARD OPEN VIDEO STORYBOARD OUR STORYBOARD OPEN VIDEO STORYBOARD OUR STORYBOARD OPEN VIDEO STORYBOARD OUR STORYBOARD OPEN VIDEO STORYBOARD OUR STORYBOARD Tabela de testes Problemas • Dado que o modelo so usa o histograma de cor, ele herda suas desvantagens. – O descriptor não usa informaçao espacial. – Ele é sensível mudanças de intensidade de iluminação. Conclusões • A partir dos resultados obtidos dos testes o modelo é eficaz quando encontrar os keyframes e não é computacionalmente caro. • Nenhum modelo formal foi criado para avaliar resumos de vídeo. • Informação de cor, não é suficiente para nos fornecer informações discriminativas Trabalho futuro • Usar informação espacial ou de textura que podem ser extraídos usando algoritmos não computacionalmente caros. • Avaliar outros métodos de clustering: X means. • • • • • • • • Referências [1] B.-W. Chen, J.-C. Wang, and J.-F. Wang. A novel video sum-marization based on mining the storystructure and semantic relations among concept entities. IEEE Transactions on Multimedia, 11:295–312, February 2009. [2] F. Chen, M. Cooper, and J. Adcock. Video summarization preserving dynamic content. In International Workshop on TRECVID video summarization, TVS ’07, pages 40–44, New York, NY, USA, 2007. ACM. [3] R. Laganière, P. Lambert, and B. E. Ionescu. Video sum-marization from spatio-temporal features. ACM Workshop on Video Summarization, ACM, 2008. [4] L. Li, K. Zhou, G.-R. Xue, H. Zha, and Y. Yu. Video summa-rization via transferrable structured learning. In International conference on World wide web, WWW ’11, pages 287–296, New York, NY, USA, 2011. ACM. [5] J. Nam and A. H. Tewfik. Dynamic video summarization and visualization. In Proceedings of the seventh ACM inter-national conference on Multimedia (Part 2), MULTIMEDIA ’99, pages 53–56, New York, NY, USA, 1999. ACM. [6] W. Ren and Y. Zhu. A video summarization approach based on machine learning. In Intelligent Information Hiding and Multimedia Signal Processing, 2008. IIHMSP ’08 International Conference on, pages 450 –453, 2008. [7] C. wah Ngo, Y. fei Ma, and H. jiang Zhang. Automatic video summarization by graph modeling. In IEEE International Conference on Computer Vision, pages 104–109, 2003. [8] T. Wan and Z. Qin. A new technique for summarizing video sequences through histogram evolution. In Signal Processing and Communications (SPCOM), 2010 International Conference on, pages 1 –5, july 2010.