Apresentação do Artigo: Gradient Field Descriptor for Sketch Based Retrieval and Localization RUI HU, MARK BARNARD AND JOHN COLLOMOSSE CENTRE FOR VISION, SPEECH AND SIGNAL PROCESSING UNIVERSITY OF SURREY, GUILDFORD, SURREY, UK Introdução Geralmente as bibliotecas de imagens são indexadas utilizando palavras chaves de conteúdo (tags): QVE – Querying databases by Visual Example: As tags não são suficientes para descrever uma forma mais complexa; Requer uma imagem realística, que pode estar indisponível; SBIR – Sketch Based Image Retrieval - Esboços; Imagens adaptadas de: Eitz, M.; Hildebrand, K.; Boubekeur, T.; Alexa, M., "Sketch-Based Image Retrieval: Benchmark and Bag-ofFeatures Descriptors," Visualization and Computer Graphics, IEEE Transactions, vol.17, no.11, pp.1624,1636, Nov. 2011 SBIR – Sketch Based Image Retrieval Bag of Visual Words Utilizam um dicionário de palavras visuais para discriminar features (descritores) de uma imagem; Ambas as imagens (query e database) são descritas utilizando um histograma de frequência de palavras visuais nelas presentes; Para realizar a recuperação o histograma da query é comparado com os da base de dados; Problemas do Sketch: Não é rico em detalhes, tornando o descritor pouco discriminativo; Diferentes escalas e localizações e deformações na forma do objeto; O BoW carece de informações espaciais dos descritores; É eficiente para imagens que é rica em detalhes e as relações espaciais são menos importantes; Proposta dos Autores Utilizar um novo descritor por eles proposto para a tarefa de recuperação de imagens de uma base de dados a partir de esboços; Gradient Field Descriptor; O novo descritor é uma adaptação do HOG que supre a falta de informação espacial das palavras visuais do BoW; A adaptação feita pelos autores apresentou melhorias significantes em relação a outros descritores como SIFT e HOG padrão; Também é demonstrado como o método é capaz de localizar o objeto desejado na imagem; Pré-Processamento Primeiramente as imagens da base de dados são transformadas em um mapa de arestas utilizando o método Canny Edge Detector; Resultado: M(x, y) = {0, 1} Para os esboços é apenas detectado os contornos; Fonte: http://www.cs.umd.edu/~yluo1/Projects/canny.html Gradient Field Multi Scale Histogram of Gradient Relembrando o HOG: O descritor é computado para uma janela w centrada em um ponto de interesse; A janela é dividida em n x n grids e um histograma de frequências é calculado para cada grid; Os histogramas são divididos em q bins; Os histogramas são concatenados e normalizados, formando o descritor; A partir do campo de gradientes é calculado um conjunto de descritores, de forma similar ao HOG, para cada ponto da aresta, ou seja, M(x, y) = 1. Para tanto é estabelecido um grid de n x n O artigo proposto utiliza os seguintes parâmetros para o cálculo: n = [5, 10, 15] w=3 q=9 Ao contrário de abordagens multiescala, onde os descritores são concatenados para formar uma única feature, os autores consideram cada escala de descritor de forma independente. Sketch Based Retrieval Os descritores de todas as imagens são clusterizados para formar um codebooks de palavras visuais, utilizando o k-means; Um histograma HI é calculado para cada imagem; Para cada query é calculado um histograma HS. As imagens são ordenadas de acordo com a similaridade entre os dois histogramas. Object Localization Estimação da localização do esboço na imagem recuperada; Aplicação do RANSAC para “encaixar” o esboço à imagem, por meio de uma transformação rígida; Linear Conformal Affine Transform (LCAT): Uniform Scale, Rotation e Translation; Primeiramente é realizado uma correspondência putativa entre os descritores das duas imagens, resultando nos conjuntos abaixo: Depois, randomicamente, são amostrados pares de correspondência calculando o LCAT: Experimentos Experimentos Conclusão dos Autores Os autores demonstraram a viabilidade da utilização do descritor proposto para a tarefa de recuperação de imagens a partir de um esboço; Por meio de experimentos, foi constatado a superioridade, em termos de acurácia, em relação aos seguintes descritores: HOG SIFT SSIM Como trabalho futuro é sugerido a utilização de sketchs coloridos;