Apresentação do Artigo:
Gradient Field Descriptor for
Sketch Based Retrieval and
Localization
RUI HU, MARK BARNARD AND JOHN COLLOMOSSE
CENTRE FOR VISION, SPEECH AND SIGNAL PROCESSING
UNIVERSITY OF SURREY, GUILDFORD, SURREY, UK
Introdução
Geralmente as bibliotecas de imagens são indexadas utilizando
palavras chaves de conteúdo (tags):
QVE – Querying databases by Visual Example:
As tags não são suficientes para descrever uma forma mais complexa;
Requer uma imagem realística, que pode estar indisponível;
SBIR – Sketch Based Image Retrieval - Esboços;
Imagens adaptadas de: Eitz, M.; Hildebrand, K.; Boubekeur, T.; Alexa, M., "Sketch-Based Image Retrieval: Benchmark and Bag-ofFeatures Descriptors," Visualization and Computer Graphics, IEEE Transactions, vol.17, no.11, pp.1624,1636, Nov. 2011
SBIR – Sketch Based Image Retrieval
Bag of Visual Words
Utilizam um dicionário de palavras visuais para discriminar features
(descritores) de uma imagem;
Ambas as imagens (query e database) são descritas utilizando um
histograma de frequência de palavras visuais nelas presentes;
Para realizar a recuperação o histograma da query é comparado
com os da base de dados;
Problemas do Sketch:
Não é rico em detalhes, tornando o descritor pouco discriminativo;
Diferentes escalas e localizações e deformações na forma do objeto;
O BoW carece de informações espaciais dos descritores;
É eficiente para imagens que é rica em detalhes e as relações
espaciais são menos importantes;
Proposta dos Autores
Utilizar um novo descritor por eles proposto para a tarefa de
recuperação de imagens de uma base de dados a partir de
esboços;
Gradient Field Descriptor;
O novo descritor é uma adaptação do HOG que supre a falta de
informação espacial das palavras visuais do BoW;
A adaptação feita pelos autores apresentou melhorias significantes
em relação a outros descritores como SIFT e HOG padrão;
Também é demonstrado como o método é capaz de localizar o
objeto desejado na imagem;
Pré-Processamento
Primeiramente as imagens da base de
dados são transformadas em um mapa
de arestas utilizando o método Canny
Edge Detector;
Resultado: M(x, y) = {0, 1}
Para os esboços é apenas detectado
os contornos;
Fonte: http://www.cs.umd.edu/~yluo1/Projects/canny.html
Gradient Field
Multi Scale Histogram of Gradient
Relembrando o HOG:
O descritor é computado para uma
janela w centrada em um ponto de
interesse;
A janela é dividida em n x n grids e
um histograma de frequências é
calculado para cada grid;
Os histogramas são divididos em q
bins;
Os histogramas são concatenados e
normalizados, formando o descritor;
A partir do campo de gradientes é
calculado um conjunto de
descritores, de forma similar ao
HOG, para cada ponto da aresta,
ou seja, M(x, y) = 1. Para tanto é
estabelecido um grid de n x n
O artigo proposto utiliza os seguintes
parâmetros para o cálculo:
n = [5, 10, 15]
w=3
q=9
Ao contrário de abordagens multiescala, onde os descritores são
concatenados para formar uma
única feature, os autores
consideram cada escala de
descritor de forma independente.
Sketch Based Retrieval
Os descritores de todas as imagens são clusterizados para formar
um codebooks de palavras visuais, utilizando o k-means;
Um histograma HI é calculado para cada imagem;
Para cada query é calculado um histograma HS.
As imagens são ordenadas de acordo com a similaridade entre os
dois histogramas.
Object Localization
Estimação da localização do esboço
na imagem recuperada;
Aplicação do RANSAC para “encaixar”
o esboço à imagem, por meio de uma
transformação rígida;
Linear Conformal Affine Transform (LCAT):
Uniform Scale, Rotation e Translation;
Primeiramente é realizado uma correspondência putativa entre os
descritores das duas imagens, resultando nos conjuntos abaixo:
Depois, randomicamente, são amostrados pares de
correspondência calculando o LCAT:
Experimentos
Experimentos
Conclusão dos Autores
Os autores demonstraram a viabilidade da utilização do descritor
proposto para a tarefa de recuperação de imagens a partir de um
esboço;
Por meio de experimentos, foi constatado a superioridade, em
termos de acurácia, em relação aos seguintes descritores:
HOG
SIFT
SSIM
Como trabalho futuro é sugerido a utilização de sketchs coloridos;