EXTRAÇÃO DE PONTOS-CHAVEPELO ALGORITMO SIFT E
CORRESPONDÊNCIA ENTRE DOIS PARES DE IMAGENS
ESTEREOSCÓPICAS OBTIDAS POR UM SISTEMA FOTOGRAMÉTRICO
TERRESTRE
Maurício Correia Lemes Neto1
João Fernando Custódio da Silva2
Victor Blasechi3
1
Universidade Tecnológica Federal do Paraná
[email protected]
Universidade Estadual Paulista – Unesp
Faculdade de Ciências e Tecnologia
2
Departamento de Cartografia
[email protected]
1,3
Programa de Pós-graduação em Ciências Cartográficas
[email protected]
RESUMO
A automação da extração e reconhecimento de características em imagens digitais tem sido objeto de
estudo de diversos pesquisadores e comunidades científicas. Os resultados de tais pesquisas são
algoritmos cada vez mais eficientes e robustos com aplicações em outras áreas que não sejam somente a
visão computacional. Dentre esses algoritmos, o SIFT (Scale-Invariant Feature Transform) é uma técnica
desenvolvida para extrair características invariantes a escala e rotação em imagem digital. A estratégia
usada pelo algoritmo é filtrar sucessivamente a imagem a fim de obter por um processo rápido a extração
de pontos-chaves e eliminar os que não se enquadram em um critério previamente determinado
garantindo assim o destaque das características com invariância local da escala. Uma vez obtidos esses
pontos-chaves e seus respectivos descritores (vetores de características) é possível estabelecer a
correspondência (matching) entre as imagens analisadas. O SIFT estabelece uma correspondência entre os
descritores de cada ponto-chave pela técnica da distância euclidiana, selecionando assim apenas os
candidatos que estão próximos ao ponto-chave da imagem analisada no momento. A solução proposta
neste trabalho é estabelecer a correspondência entre os descritores dos pontos-chaves extraídos de uma
sequênica de pares de imagens estereoscópicas obtidas em momentos consecutivos de um levantamento
fotogramétrico terrestre. A análise proposta aqui, de dois em dois pares, levou em consideração diferentes
dimensões de imagem e limiares (thresholds). Experimentos com a combinação entre esses dois
parâmetros deram informações sobre a quantidade e a distribuição dos pontos-chaves na cena que tiveram
correspondência ao mesmo tempo nas quatro imagens analisadas. Essa informação é importante, por
exemplo, para realizar uma fototriangulação com base nessas observações (pontos-chaves) a fim de
estimar a orientação exterior. Também, o tempo de processamento do algoritmo SIFT está diretamente
ligado aos valores desses dois parâmetros, informação relevante quando o interesse é desenvolver
extrações de feições em tempo real. Por isso, esperamos que os resultados deste trabalho dêem suporte à
tomada de decisão sobre qual será a melhor configuração (parâmetros) a se utilizar para aplicações em
fotogrametria, no contexto do mapeamento móvel que produz pares de imagens frontais e sequenciais de
ruas e rodovias.
Palavras chaves: SIFT, Correspondência entre Imagens, Imagens Estereoscópicas.
ABSTRACT
The automation of extraction and recognition of features in digital images has been studied by many
researchers and scientific communities. The results have becoming more effective and robust for
applications in other areas than only computer vision. Among many algorithms there is SIFT (Scale Invariant Feature Transform) that is a technique developed to extract invariant features fromrotation and
scale in digital imaging . The SIFT algorithm filters successively the image in order to make fast the key
point extracting process as well as the elimination of those that do not fit to a predefined criterion what
highlight thefeatures with local scale invariance. Once obtained these key points and their descriptors
(feature vectors ) it is possible to establish the correspondence (matching) between the images analyzed.
The SIFT establishes a correspondence between the descriptors of each key point by the technique of
Euclidean distance, thereby selecting only the candidates that are close to the key point of the image
analyzed at the moment. The solution proposed in this paper is to establish the correlation between the
descriptors of the key points extracted from two pairs of stereoscopic images obtained at two consecutive
eppoches. The analysis takes into account different image dimensions and thresholds. The result of the
experiments will make possible to get better information about dimension and reliable threshold to
establish a correspondence between two pairs of images providedby a photogrammetric system for a
terrestrial mobile mapping.Experiments with the combination of these two parameters gave information
about the amount and distribution of the key points that had matched in all four images. We believe that
this is an important information, for example, to perform a phototriangulation based on those observations
(key points) to estimate the exterior orientation parameters. Also, the processing time of the SIFT
algorithm is related to the valuesof these two parameters, which is a relevant information when someone
intends to develop features extraction in real time. We hope that the results of this study give support to
the decision making process about the best configuration (parameters) to be used for applications in
photogrammetry, in the realm of mobile mapping that produces frontal and sequential image pairs of
streets and roads.
Keywords: SIFT, Matching between Images, Stereoscopic Images.
1.
INTRODUÇÃO
Um sistema de mapeamento móvel terrestre pode ser composto por diversos sensores, tais como:
câmaras fotográficas, receptores GNSS (Global Navigation Satelite System), hodômetros, LiDAR (Light
Detection And Ranging), IMU (Inertial Measurement Unit), magnetômetros, barômetros, etc. Esses sensores
integrados produzem imagens georreferenciadas do trecho levantado. Dentre as vantagens deste sistema
integrado existe a possibilidade de determinar as coordenadas tridimensionais de pontos no espaço objeto sem a
necessidade de conhecer pontos de apoio no terreno, conhecendo apenas a orientação exterior das câmeras
fornecidas pelo sistema inercial e/ou GNSS e utilizando processosfotogramétricos.
Porém, problemas podem ocorrer na utilização dos sensores. O sistema inercial quando utilizado por
grande período de tempo ocasiona um acumulo de erro afetando a qualidade de dados obtidos por ele. O
recebimento do sinal GPS pode sofrer interrupções e/ou multicaminhamento, afetando também a qualidade dos
dados adquiridos.
Mesmo com algumas limitações (como a luminosidade da cena) as imagens adquiridas por câmaras
digitais que compõem um sistema de mapeamento móvel terrestre podem ser uma alternativa para a realização
de um caminhamento. Caminhamento é definido neste trabalho como um tipo de levantamento fotogramétrico
terrestre baseado em sucessivos pares de imagens estereoscópicas cuja base formada entre os centros
perspectivos das estações de exposição é perpendicular ao eixo do levantamento. Porém, para fazer uso das
imagens é necessário lançar mãos de técnicas de processamento de imagem (visão computacional) afim de
extrair informações (dados) que poderão ser utilizadas para realizar, por exemplo, a estimaçãoda orientação
exterior das estações de exposição.
É verificada em processos automáticos – sem a intervenção humana – ou semiautomáticos – com a
intervenção humana em alguma parte do processo – que a extração de característica é a etapa mais custosa numa
tarefa de obtenção de dados puramente pela imagem digital. Pesquisadores estão empregando esforços para
desenvolver técnicas com baixo custo de processamento sem comprometer a qualidade (confiabilidade) dos
dados obtidos.Silva et al. (2007) e Barbosa (2007) desenvolveram uma solução para orientar as imagens com
base somente no processamento de imagem e técnicas fotogramétricas sem auxílio de sensores externos do tipo
GNSS e INS. A técnica de extração de característica utilizada por eles foi o fluxo óptico para estimar a
velocidade do veículo.Veth (2011) sintetizou em um de seus trabalhos as técnicas e os avanços na navegação por
imagem, onde o SIFT é utilizado para rastrear feições (características) a partir do movimento aparente de partes
da imagem entre os quadros.
O presente trabalho utilizou-se da técnica SIFT (seção 2) que é disponibilizada em um código demo em
sua página 1. A utilização dessa técnica tem o objetivo de extrair características invariantes à escala e rotação e
identificá-las como pontos-chaves. Os objetos de estudo são pares de uma sequência de imagens
estereoscópicastomadas em um dado intervalo de tempo. Considerando dois pares de imagens, o propósito deste
trabalho é a extração de pontos-chaves e estabelecer a correspondência entre os vetores de características obtidos
nas quatro imagens com diferentes dimensões e limiares.
2.
SIFT
Scale Invariant Feature Transform, ou SIFT, é uma técnica de visão computacional para extrair
características invariantes à escala eà rotação de imagens digitais. O algoritmo desenvolvido para solucionar esse
problema foi publicado em um artigo intitulado de Distinctive Image Feature from Scale-Invariant Keypoints no
International Journal of Computer Vision(Lowe, 20014), e teve grande repercussão e aceitação.
A estratégia inicial adotada pelo algoritmo SIFT é filtrar sucessivamente a imagem a fim de obter um
processo rápido na extração de pontos-chaves e em seguida a eliminação daqueles que não se enquadram em
critérios previamente definidos. Todo esse processo procura garantir a invariância das características locais em
escala. Esse algoritmo foi desenvolvido inicialmente para reconhecimento de objetos, porém, hoje, é possível
encontrar aplicações dele em diversas áreas, como a navegação de robôs, modelagem 3D, o reconhecimento de
gesto e detecção de objetos em imagem de vídeo. Um dos motivos de tantas aplicações é que a técnica utilizada
pelo SIFT tem como objetivo extrair das imagens digitais pontos-chaves e seus respectivos vetores de
características representando assim propriedades acerca do objeto que podem ser utilizadas para diversos
fins.Acredita-se que a vantagem dessa técnica está justamente no fato de que esses vetores de características
serem invariantes à translação, escala, rotação, mudança de iluminação, ruído na imagem e pequenas mudanças
de perspectiva, tal que o reconhecimento de objetos através de imagens de ambientes com elementos menos
suscetíveis a ao controle do processo, como uma rua, por exemplo, seja uma possibilidade a ser investigada.
Rachid et al. (2009) destaca que o algoritmo SIFT tem a capacidade de analisar uma imagem e
descrevê-la a partir de assinaturas ligadas a pontos-chaves e que estão relacionadas às posições relativas de cada
pixel e sua intensidade de níveis de cinza.Esse algoritmo é considerado robusto pelo fato de realizar uma série de
procedimentos com a imagem que se deseja estudar. Estes procedimentos devem seguir uma metodologia para
que a extração de pontos-chaves seja bem sucedida. No total, os procedimentos são agrupados em quatro etapas.
A primeira etapa, detecção de extremos, é composta por processos de extração de bordas por diferença
de filtros gaussianos. O resultado dessa etapa é a identificação dos pontos de interesse, isto é, as bordas.
A segunda etapa, localização de pontos-chaves, define a localização dos pontos-chaves e também pode
descartar os pontos considerados instáveis. Todos os pontos detectados na etapa anterior são candidatos a
tornarem-se pontos-chaves. Por isso, nesta etapa objetiva-se calcular a localização exata destes pontos-chaves e a
escala gaussiana dos mesmos a partir de um modelo. Esses pontos-chaves são identificados através dos valores
máximo e mínimo que são obtidos a partir da comparação entre os pixels vizinhos das imagens obtidas pela
diferença gaussiana. Assim, esses pontos-chaves são selecionados baseados em medidas de estabilidade entre os
pixels.
A terceira etapa, definição de orientação, atribui para cada ponto-chave uma orientação baseada em
características locais da imagem. Isso é feito calculando para cada amostragem da imagem em uma determinada
escala uma magnitude e uma orientação do gradiente usando as diferenças entre pixels vizinhos ao ponto-chave
analisado.
Na quarta etapa, os descritores dos pontos-chaves são construídos a partir de uma medição dos
gradientes locais em uma região vizinha a cada ponto de interesse. As medidas encontradas nesta etapa são
normalizadas para garantir um nível significante de distorção e mudança na iluminação de cada ponto.
Gonzáles (2012) define os descritores como vetores que contêm característica de uma imagem ou
regiões da mesma. Normalmente, os descritores são utilizados para comparar a mesma região em diferentes
imagens podendo ser locais ou globais. Em Nunes et al. (2009) é mencionado que o descritor mais simples é um
vetor com as intensidades dos pixels de uma determinada imagem e que, também, pode ser a distribuição de
intensidades de uma região representada por seu histograma.
1
O código demo pode ser obtido em: http://www.cs.ubc.ca/~lowe/keypoints/
3.
CORRESPONDÊNCIA
Uma das técnicas mais tradicionais de reconhecimento de objeto é a procura de uma correspondência
entre modelos de objetos e dados sensoriais obtidos por algum processamento em uma imagem digital. O fator
mais crítico neste esforço é encontrar representações adequadas tanto para os objetos analisados quanto para os
dados obtidos (SCHENK, 1999). Este autor expõe em seu trabalho diversas técnicas de correspondência.
Segundo ele muitos sistemas de reconhecimento descrevem objetos e dados como geométricos organizados em
estruturas relacionais. Em uma estrutura geométrica, a solução mais comum é parametrizar os objetos e os dados
organizando-os em vetores. Neste caso, a correspondência é uma tentativa de encontrar o melhor ajuste entre
duas representações paramétricas. Existem várias técnicas para otimizar os parâmetros envolvidos nas estruturas,
podeser por uma solução analítica direta ou pela análise do gradiente.
Gonzales e Woods (2008) mencionam que técnicas de reconhecimento com base em correspondência
costumam representar as classes de padrões por vetores que são submetidos a um teste de proximidade em
termos de uma métrica predefinida. A idéia mais simples é classificar esses vetores pela menor distância
computando em seguida a distância entre eles, a fim de escolher os que estão mais próximos. Outra abordagem
destes autores é a correspondência baseada em correlação que é formulada diretamente nos termos da imagem
(característica espacial); essa aproximação é considerada muito intuitiva, pois uma correlação indica a medida da
relação entre duas variáveis aleatórias. Em fotogrametria utiliza-se da correspondência entre duas imagens
(fotografias) para determinar o nível de correlação existente entre elas, isso é feito através da detecção em áreas
ou por vetores de características análogos. Essas características podem estar relacionadas, por exemplo, com a
magnitude do gradiente circundante a um determinado ponto.
A correspondência entre imagens tem aplicações em diversas áreas. Em cartografia, a produção de
mapas por meio de fotogrametria pode ser auxiliada por técnicas diversas de correspondência na detecção de
pontos homólogos entre as imagens. A etapa de correspondência entre imagens digitais é considerada primordial
e relevante para se obterem resultados confiáveis em processos fotogramétricos, tal como a fototriangulação.
Andrade (1998) destaca que a correspondência entre duas imagens é dada pela comparação entre elas fazendo
percorrer uma matriz de amostra da primeira imagem em uma janela (matriz de busca) na imagem
correspondente afim de calcular um valor de comparação para cada posição da matriz de amostra.
Outro método de estabelecer a correlação entre pontos homólogos é através da comparação de vetores
de características. Esses vetores contêm informações acerca da imagem e a correspondência entre eles pode ser
estabelecida sob uma medida de similaridade. Essa medida pode ser obtida por métodos como a distância
euclidiana, vizinho mais próximo ou a menor distância comparada com a segunda melhor distância considerando
um limiar.
Schenk (1999) considera que a construção de uma solução robusta na busca de pontos correspondentes
pode ser considerada como um elemento primordial na automação das tarefas fotogramétricas. Por isso,
organizar os dados em vetores pode ajudar nessa construção.A idéia, segundo Lowe (2004), de estabelecer uma
correspondência inicia pela extração dos pontos-chaves de duas imagens a partir da técnica SIFT e em seguida
estabelecer a correspondência através de uma comparação entre os pontos extraídos em duas imagens a fim de
obter as similaridades entre seus descritores locais. A similaridade neste caso é obtida pelo cálculo da menor
distância com a segunda melhor distância a partir dos vetores de características (descritores). A correspondência
é estabelecida se os vetores são similares com base num limiar previamente estabelecido.
4.
MATERIAIS E MÉTODOS
As imagens usadas nos experimentos foram adquiridas por um sistema com duas câmeras calibradas
individualmente do modelo Cannon EOS T3i (600D). As câmeras foram acopladas em uma barra de madeira
com uma distância da base (distância entre os centros perspectivos das duas câmaras) de 0,40m formando, assim,
um sistema fotogramétrico estéreo. O sincronismo entre as câmaras de cada tomada de fotografia foi feito
através de um disparador remoto compatível com o modelo aqui utilizado (Fig. 1).
Fig. 1– Sistema de câmaras estéreo.
Os valores dos parâmetros intrínsecos às câmaras como os relativos não são relevantes neste projeto já
que o objetivo do mesmo é a realização da extração de características pela técnica SIFT de dois pares de imagens
estereoscópicas e realizar a correspondência entre os pontos-chave obtidos por ela nas quatro imagens que
compõem a primeira seqüência de fotos do levantamento e não a realização de processo que envolve alguma
técnica de fotogrametria, como a intersecção e ressecção espacial. Assim, a metodologia proposta aqui é
composta por cinco etapas, conforme descrito no fluxograma da Fig. 2.
Fig. 1– Fluxograma do processo.
O levantamento fotogramétrico foi realizado em uma via urbana e os pares de imagens obtidos de forma
seqüencial (tempos diferentes). Cada par recebeu uma numeração respeitando sua lateralidade. Isto é, as imagens
da seqüência da esquerda receberam números crescentes e impares, iniciado do valor 1 e as imagens da direita
foram identificadas com números pares iniciado com o valor 2 (Fig. 3).
Fig.3– Esquema dos pares de imagens sequenciais.
A procura de pontos homólogos entre as imagens foi realizada através da verificação da
correspondência sempre entre pares (Fig. 4). A ordem do processo de procura não é importante,pois leva sempre
ao mesmo resultado. Isto é, se a ordem de análise dos pares for 1-2, 3-4, 1-3 e 2-4, o resultado final (pontos que
aparecem ao mesmo tempo nas quatro imagens) será o mesmo com outra ordem, por exemplo: 3-4, 1-2, 4-2 e 31. Portanto, a escolha da ordem deu-se apenas pela construção da solução computacional e não por uma ter
resultado melhor do que a outra.
Fig. 4 – Esquema das correspondências laterais (estéreo) e à vante.
A técnica SIFT foi aplicada nas quatro imagens respeitando os pares indicados na Fig. 3. O resultado
dessa etapa foi um conjunto de pontos-chave e seus respectivos descritores (vetor de características) para cada
imagem analisada. A quantidade de pontos-chave depende da resolução (dimensão em pixels) da imagem, já o
número de correspondências entre eles está ligado, também, ao limiar (threshold)escolhido (Fig. 5). Por isso,
diversos experimentos foram realizados combinando percentuais de redução a partir da imagem original e
diferentes limiares a fim de verificar qual melhor combinação (dimensão e limiar) teria um tempo de
processamento reduzido em relação ao processamento da imagem em dimensão original e o quanto desses
pontos-chave extraídos estariam espalhados na cena e sua quantidade. Situação importante quando se pretende
realizar uma fototriangulação tendo como observações esses pontos, pois quanto mais estiverem espalhados pela
imagem maior será o equilíbrio geométrico.
Fig. 5 – Exemplos de imagens reduzidas e convertidas em escala de cinza.
Uma vez obtidos os pontos-chave e seus descritores nas quatro imagens, a etapa de correspondência
pode ser realizada. Ela faz parte de um processo de busca de pontos homólogos nas imagens laterais (1-2 e 3-4) e
à vante (1-3 e 2-4) a partir da técnica do vizinho mais próximo implementado no algoritmo do SIFT.
A seqüência de verificação é dada da seguinte forma: primeiro procura-se correspondência entre as
imagens laterais no tempo 0 (imagem 1 e 2) e no tempo 1 (imagem 3 e 4). Essa busca se repete nas imagens à
vante do lado esquerdo (imagem 1 e 3) e do lado direito (imagem 2 e 4). Ao final dessa verificação, fecha-se o
quadro de correspondência entre todos os pares. Este processo considera apenas os pontos-chave que tem ligação
nas quatro imagens, caso contrário, o mesmo é descartado. Na sexta etapa do processo que liga os pontos-chave
das quatro imagens é utilizada a técnica do vizinho mais próximo a partir dos descritores locais construídos pela
técnica SIFT (etapa 4 da Fig. 2). O conjunto das soluções computacionais (algoritmos e programas) de cada
etapa da metodologia proposta neste trabalho foi desenvolvido com a ferramenta Matlab, cuja escolha deu-se
pelo fato de que o código disponibilizado por Davi Lowe em seu site está em Matlab e, também, pelas funções
que já estão implementadas na plataforma.
5.
EXPERIMENTO E RESULTADOS
A aquisição das imagens foi realizada numa rua próxima a Universidade Estadual Paulista de Presidente
Prudente. Faixas foram marcadas no chão com uma distância de 1 metro entre elas ao longo do caminhamento.
Essa mediçãoserviu para termos uma informação inicial das distâncias entre os pares de imagens tomadas
seqüencialmente. Os paresanalisados por este trabalho foramsomente os dois primeiros (Fig. 6).
Fig. 6 –Sentido do caminhamento no experimento.
Na seqüência são mostradas imagens resultantes da aplicação do SIFT e as correspondências entre elas.
Verifica-se que a dimensão e o limiar utilizado influenciam diretamente na quantidade de pontos-chave extraídos
e a correspondência entre eles. Nota-se, também, que por característica da própria técnica SIFT as
correspondências estabelecidas são em maior número entre as imagens à vante do que nas laterais. Isso ocorre
pois existe uma diferença de escala entre as imagens 1-3 e 2-4 (Fig. 7).
Fig. 7 – Correspondência entre as imagens à vante (A) e laterais (B).
O quadro 1mostra o resultado dos testes aplicados nas quatro imagens, levando em consideração o
percentual de redução e o limiar. É possível verificar que o maior número de pontos-chave obtidos pelo SIFT e
suas correspondências entre os pares refere-se àimagem de dimensão original (1920 x 1280 pixels) com um
limiar de 0,8. Entretanto, isso não é garantia de uma boa qualidade nos resultados finais, pois imagens com
dimensões grandes tendem a ter um tempo de processamento grande. Também, um limiar maior do que 0,6
(recomendado por seu criador) tende a gerar correspondências falsas (falso-positivo).
Limiar
SIFT
Perc. Redução
0%
40%
50%
60%
80%
0%
40%
50%
60%
80%
0%
40%
50%
60%
80%
0%
40%
50%
60%
80%
0.3
0.5
0.6
0.8
Dimensão Reduzida
(Pixels)
1920 x 1280
1152 x 768
960 x 640
768 x 512
384 x 256
1920 x 1280
1152 x 768
960 x 640
768 x 512
384 x 256
1920 x 1280
1152 x 768
960 x 640
768 x 512
384 x 256
1920 x 1280
1152 x 768
960 x 640
768 x 512
384 x 256
Imagens (pontos-chaves)
1
2
3
4
12282 14912 14604 12282
4728 5755 5476 4728
3292 3714 3737 3292
2258 2468 2471 2258
667 707 698
667
12282 14912 14604 12282
4728 5755 5476 4728
3292 3714 3737 3292
2258 2468 2471 2258
667 707 698
667
12282 14912 14604 12282
4728 5755 5476 4728
3292 3714 3737 3292
2258 2468 2471 2258
667 707 698
667
12282 14912 14604 12282
4728 5755 5476 4728
3292 3714 3737 3292
2258 2468 2471 2258
667 707 698
667
1e 2
374
62
90
41
1832
436
463
261
91
2622
708
681
389
132
4095
1300
1106
668
205
Correspondências
3 e 4 1 e 3 2 e 4 1, 2, 3 e 4
641 1057 1083
89
93 167 178
11
153 270 256
16
64 107 112
5
falhou
2280 3548 3231 684
538 757 740
110
618 859 785
161
279 402 447
75
75 113 140
22
3104 4580 4075 1101
825 1129 1079 213
847 1131 1028 273
403 566 611
130
108 157 191
36
4584 6109 5473 1862
1473 1853 1691 486
1211 1586 1408 487
699 895 900
261
199 241 263
68
Quadro 1– Quantidade de correspondências resultantes dos experimentos.
O tempo de processamento também foi levado em consideração neste trabalho. É possível ver no
quadro 2 os tempos gastos no processamento todo (etapas de 1 a 7) de cada par de imagem em relação à
dimensão escolhida para elas. O processo composto por imagens com maior dimensão teve o maior tempo de
processamento. O tempo de 10 minutos no processamento pode inviabilizar processos automáticos em tempo
real ou em escala de produção. Por isso, adotou-sea imagem com redução de 50% por ter um tempo considerável
quando o objetivo é processar uma grande quantidade de pares de imagens pertencentes a um levantamento
fotogramétrico.
Perc. Redução
0%
40%
50%
60%
80%
Dimensão Reduzida
Tempo
(Pixels)
Aproximado
10 minutos
1920 x 1280
3 minutos 50 seg.
1152 x 768
1 minuto 50 seg.
960 x 640
58 segundos
768 x 512
50 segundos
384 x 256
Quadro 2 – Tempos gastos nos processamentos.
A informação do tempo gasto em cada processamento também é importante quando se tem interesse em
realizar a extração de características e a correspondência usando técnicas automáticas de processamento de
imagem, como é oSIFT em tempo real, isto é, concomitante às tomadas das imagens. Por isso, foi verificado que
a utilização das imagens com dimensões grandes– por exemplo, 1920x1280 pixels– inviabiliza tal procedimento.
Entretanto, o mesmo pode se tornar viável quando o processamento das imagens é realizado em momentos
diferentes, como é o caso pós-processado.
6.
CONCLUSÃO
O principal objetivo da metodologia desenvolvida neste trabalho foi à esquematização das etapas
envolvidas na extração de características e a correspondência entre pares de imagens estereoscópicas obtidas por
um levantamento fotogramétrico a partir de um mapeamento móvel terrestre.
A partir dos pontos-chave e seus respectivos descritores obtidos pela técnica SIFT das imagens
pertencente ao levantamento foi possível estabelecer o número de correspondências entre os pares
estereoscópicos. Verificou-se que a quantidade de pontos-chave extraídos pelo SIFT está diretamente ligada a
dimensão da imagem, isto é, quanto maior a dimensão maior o número de pontos-chave obtidos para a mesma
cena. Já o número de correspondência tem uma influência proporcional ao valor do limiar do SIFT escolhido,
assim, quanto maior o limiar maior será a quantidade de correspondências. Entretanto, um limiar maior do que o
recomendado por seu criador pode gerar correspondências falsas.
Este trabalho proporcionou uma gama de informações pertinentes aos diferentes resultados obtidos pela
combinação entre a dimensão e o limiar usado no processo do SIFT. Julgamos essa informação relevante pelo
fato que se pode utilizá-la na tomada de decisão dependendo da aplicação e do interesse. Por exemplo, se deseja
usar o SIFT em aplicações em tempo real, provavelmente, a dimensão da imagem deverá ser pequena. Porém, se
o interesse é uma nuvem de pontos-chave distribuída por toda a cena então o limiar pode ser maior do que o
recomendado pelo autor da técnica, desde que não haja preocupação com falsas correspondências.
Para aplicações em fotogrametria há uma preocupação com a distribuição uniforme dos pontos-chave
por toda a cena e, também, que as correspondências entre eles sejam verdadeiras com precisão subpíxel. Por isso,
com os resultados obtidos por este trabalho foi possível verificar que uma redução da imagem de 50% e um
limiar de 0,6 (recomendado por Lowe) é o mais apropriado para o levantamento realizado. Essa conclusão deuse pela análise dos resultados obtidos pela combinação entre os dois parâmetros (dimensão e limiar) e uma
análise visual da inexistência de falsas correspondências.
Portanto, pelo estudo realizado e demonstrado neste trabalho foi possível verificar que a técnica SIFT
foi eficiente na extração de pontos e correspondência entre eles para o levantamento realizado. Mesmo com
escolha de um limiar diferente do recomendado e da redução das imagens obteve-se ao final da sétima etapa a
quantidade e a distribuição dos pontos suficientes para garantir recursos mínimos exigidos em técnicas de
fotogrametria. Por isso, há interesse em continuar a investigação do processo aqui exposto e aplicá-la em
fotototriangulação para estimar os parâmetros de orientação exterior em um processo fotogramétrico de um
levantamento móvel terrestre.
REFERÊNCIAS BIBLIOGRÁFICAS
ANDRADE, J. B. Fotogrametria. SBEE. Curitiba. 258p. 1998.
BARBOSA, R. L. Caminhamento fotogramétrico utilizando o fluxo óptico filtrado. 2006. Tese (Doutorado
em Ciências Cartográficas) - Faculdade de Ciência e Tecnologia, Universidade Estadual Paulista,Presidente
Prudente, São Paulo.
GONZÁLES, G. L. G. Aplicação da Técnica SIFT para Determinação de Campos de Deformações de
Materiais usando Visão Computacional. 2010. Dissertação (Mestrado em Engenharia Mecânica) - Pontifícia
Universidade Católica do Rio de Janeiro, Rio de Janeiro.
GONZALEZ, R. C.; WOODS, R. E. Digital image processing. 3 ed. Pearson Prentice Hall. 2008.
LOWE, D.G. Distinctiveimage features from scale-invariant keypoints.University of British Columbia.
Computer
Science
Department.
Vancouver.
Canada.
2004.
Disponível
em
<http://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf>. Acesso em: 02 nov. 2012.
RACHID, C. L.; PEREIRA, A. A. S. Algoritmos de busca SIFT e SURF no uso de dispositivos móveis. II
Encontro Multidisciplinar da Unipac Ubá (SEMULT). Minas Gerais. 2009.
SCHENK, T. Digital Photogrammetry.. Laurelville: TerraScience. 428p. 1999. v. 1.
SILVA, J.F.C.; BARBOSA, R.L.; JUNIOR, M.M.; GALLIS, R. B. A. Photogrammetric bridging using
filtered monocular optical flow. Proceedings. ISMMT2077. Padova. Itália. 2007.
VETH, M. J. Navigation using images, a survey of techniques. Journal of the Institute of Navigation. Vol. 58.
N. 2. USA. 2011.
Download

Maurício Correia Lemes Neto João Fernando Custódio da Silva