Anais XVI Simpósio Brasileiro de Sensoriamento Remoto - SBSR, Foz do Iguaçu, PR, Brasil, 13 a 18 de abril de 2013, INPE
Identificação de objetos móveis com uso de imagens aéreas obtidas por VANT
Rodrigo Augusto Rebouças 1
Matheus Habermann 1
Elcio Hideiti Shiguemori 1
1
Instituto de Estudos Avançados – IEAv/DCTA
São José dos Campos - SP, Brasil
[email protected], {habermann, elcio}@ieav.cta.br
Abstract. In this paper, the problem of identifying moving objects using aerial images obtained by UAV is
discussed. The main interest is to automatic information extraction for monitoring large areas.
The SURF descriptor has been employed for the detection of interest points, while the binary
descriptor FREAK has been used to construct feature vectors. The RANSAC method is employed to estimate the
parameters from
the
matrix of
points,
and
then, the
displacement of
the
camera is
estimated. Finally, morphological operations have been employed to identify moving objects. The results
show that the methodology can be used to identify moving objects from UAV images.
Palavras-chave: image processing, moving objects, UAV, processamento de imagens, objetos móveis, VANT.
1. Introdução
O uso de imagens e vídeos digitais obtidos por aeronaves e satélites representa um papel
de grande importância no sensoriamento remoto e na navegação autônoma aérea Canhoto et
al. (2009). Nos últimos anos, o crescente desenvolvimento e emprego de Veículos Aéreos
Não Tripulados (VANT) tem propiciado a captura de imagens e vídeos para uma grande gama
de aplicações nas áreas de Visão Computacional e Processamento de Imagens Gonzales e
Woods (2008).
Neste estudo aborda-se o problema de identificação de objetos móveis com uso de
imagens aéreas obtidas por VANT, tendo como o objetivo a extração automática de
informações para a navegação aérea autônoma baseada em imagens e para o monitoramente
de grandes áreas, utilizando o descritor SURF (Speeded Up Robust Features) Bay et al.
(2006) para detecção de pontos de interesse, o descritor binário FREAK (Fast Retina
Keypoint) Alahi et al. (2012) para construir um vetor de características desses pontos
formando os descritores. Com os descritores formados é feito a correspondência dos
descritores dos pontos de interesse. E depois faz-se uso do método RANSAC (RANdom
SAmple Consensus) Fischler e Bolles (1981) para estimar os parâmetros a partir da matriz de
pontos casados e com isso, encontrar o deslocamento da câmera do VANT e para finalizar
usa-se operações morfológicas para identificação de objetos móveis.
2. Metodologia de Trabalho
Objetivo do estudo é a identificação de objetos móveis com uso de imagens obtidas por
VANT para aplicações na navegação aérea autônoma baseada em imagens e monitoramento
de grandes áreas. São utilizadas imagens de uma videografia realizada em São José dos
Campos – SP. As principais técnicas empregadas neste estudo fazem uso do descritor SURF
Bay et al. (2006) e FREAK Alahi et al. (2012) e o método RANSAC Fischler e Bolles (1981)
para identificar o deslocamento da câmera do VANT. Essas abordagens são ilustradas na
Figura 1.
Na Figura 1 é feita a captura entre dois frames consecutivos nos tempos os e
. Em
seguida é aplicada a técnica SURF Bay et al. (2006) para detecção de pontos de interesse e a
técnica FREAK Alahi et al. (2012) para construir um vetor de características desses pontos
formando os descritores. Com os descritores formados é feito a correspondência dos
descritores dos pontos de interesse. E depois faz-se uso do método RANSAC Fischler e
8293
Anais XVI Simpósio Brasileiro de Sensoriamento Remoto - SBSR, Foz do Iguaçu, PR, Brasil, 13 a 18 de abril de 2013, INPE
Bolles (1981) para estimar os parâmetros a partir da matriz de pontos casados para encontrar o
deslocamento da câmera do VANT e para finalizar usa-se operações morfológicas para
identificação do objetos móveis.
Capturar
vídeo
Identificar
objetos
móveis
Encontrar
pontos de
interesse
Calcular o
deslocamento
da câmera
Formar os
descritores
Casar os
pontos
Figura 1. Metodologia do estudo.
Por serem utilizadas imagens aéreas obtidas em diferentes instantes de tempo, faz-se
necessário compensar o movimento da câmera. Neste estudo, primeiramente precisam ser
reconhecidos os pontos de interesse nas imagens capturadas pelo VANT, para isso, faz uso do
descritor SURF Bay et al. (2006) bastante utilizada na literatura por apresentar desempenho
computacionalmente superior, quando comparado com outros descritores Rachid e Pereira
(2009).
2.1 Descritor SURF
O SURF Bay et al. (2006) é uma técnica para extrai e descrever pontos de interesse de
imagens invariantes a sua iluminação, rotação e escala. Basicamente, ele é dividido em 3
partes: criação da imagem integral, extração dos pontos de interesse e descrição dos pontos de
interesse Bay et al. (2006).
A extração dos pontos de interesse é feita com uso do determinante da matriz Hessiana
, Fast-Hessian (Equação 1):
(1)
onde
é a convolução da derivada da Gaussiana de segunda ordem com a imagem no
ponto , com as coordenadas
e é a escala da imagem.
E o determinante
, por custo computacional, é descrito em (Equação 2) Bay et al.
(2006).
(2)
8294
Anais XVI Simpósio Brasileiro de Sensoriamento Remoto - SBSR, Foz do Iguaçu, PR, Brasil, 13 a 18 de abril de 2013, INPE
onde
é a segunda derivada em relação à .
Para se reduzir o custo computacional, o processo é calculado em imagens integrais da
própria imagem. Em cada um desses pontos de interesse é construído um vetor de
características, para isso, faz uso do descritor binário FREAK Alahi et al. (2012) por
apresentar desempenho computacionalmente mais superior, quando comparado com outros
descritores d’Angelo et al. (2012).
2.2 Descritor FREAK
O descritor FREAK Alahi et al. (2012) faz uso de uma grade de amostragem da retina
utilizando um padrão circular, semelhante ao BRISK Leutenegger et al. (2011), porém sua
densidade de pontos próximos ao centro é maior, com isso a densidade de pontos cai
exponencialmente. E para cada ponto de amostra usa-se um tamanho de kernel diferente,
como é ilustrada na Figura 1, onde cada círculo representa os desvios-padrão dos kernels
gaussianos aplicados aos pontos de amostragem correspondentes.
Figura 2. Topologia dos campos receptivos.
O descritor binário d’Angelo et al. (2012) é formado por uma sequencia de 0 e 1 através
da Diferença Gaussiana (DoG) (Equação 3):
(3)
onde
é um par de campos receptivos,
é o tamanho do descritor e
e
é a intensidade do primeiro campo receptivo do par
8295
.
Anais XVI Simpósio Brasileiro de Sensoriamento Remoto - SBSR, Foz do Iguaçu, PR, Brasil, 13 a 18 de abril de 2013, INPE
Com os campos receptivos, vários pares são possíveis de se encontrar com o descritor e é
feito um algoritmo semelhante ao ORB Rublee et al. (2011) para aprender os melhores pares
de dados de treinamento.
Cria-se uma matriz de pontos-chave extraídos, onde cada linha corresponde a um ponto
chave representado com o seu descritor feito de todos os pares possíveis no padrão de
amostragem da retina ilustrado na Figura 2. Em seguida, calcula-se a média de cada coluna e
ordenam-se as colunas em relação à maior variância, mantendo a melhor coluna e
iterativamente adicionar colunas restantes com baixa correlação com as colunas selecionadas
Alahi et al. (2012).
Para estimar a orientação do ponto de interesse (Equação 4) é feito a soma dos gradientes
locais selecionando os pares. Seja o conjunto de pares utilizados para calcular os gradientes
locais:
(4)
é o vetor das coordenadas espacial do centro do
onde,
é o numero de pares em e
campo receptor.
Para fazer a correspondência entre os pontos de interesse nos frames nos tempos e
, para cada descritor local binário do ponto encontra o descritor mais próximo,
utilizando a distancia de Hamming entre os descritores binários a quantidade de posições que
eles diferem entre si, como é apresentado na Figura 3, sendo as linhas a correspondência dos
pontos casados.
Figura 3. Correspondência entre os frames.
Em seguida, usa-se o método de RANSAC Fischler e Bolles (1981) para encontrar a
perspectiva de cada uma das imagens com as coordenadas dos vetores dos descritores casados
entre os tempos os e
. Com as coordenadas que o RANSAC Fischler e Bolles (1981)
encontra, pode-se obter a informação de deslocamento no tempo t para o tempo t + 1. Como é
mostrada na Figura 4.
8296
Anais XVI Simpósio Brasileiro de Sensoriamento Remoto - SBSR, Foz do Iguaçu, PR, Brasil, 13 a 18 de abril de 2013, INPE
Figura 4. Correspondência entre os frames e a perspectiva com o RANSAC.
Para finalizar é feito o corte (Figura 5) e a subtração (Figura 6.a) em ambos os frames nos
tempos e
, a fim de identificar os objetos móveis desejados, neste caso, os veículos.
Figura 5. Corte entre os frames nos tempos t e t + ∆t.
Os frames obtidos dos vídeos podem sofrer degradações, devido à movimentação da
câmera, pois são detectados borrões e distorções. Esses ruídos podem ser, erroneamente,
considerados em movimento juntamente com os veículos. Para resolver esse problema na
imagem subtraída (Figura 6.a) é aplicada uma limiarização (Figura 6.b) e operações
morfológicas binárias, a erosão (Figura 6.c) e dilatação (Figura 6.d) Bradski e Kaehler (2008),
para identificar apenas os objetos móveis e desconsiderar esses ruídos.
(a)
(b)
8297
Anais XVI Simpósio Brasileiro de Sensoriamento Remoto - SBSR, Foz do Iguaçu, PR, Brasil, 13 a 18 de abril de 2013, INPE
(c)
(d)
Figura 6. Subtração entre as imagens (a), Imagem limiarizada (b), imagem aplicada erosão (c)
e imagem aplicada dilatação (d).
3. Resultados e Discussão
Com os resultados obtidos no estudo, avaliou-se o desempenho das técnicas em relação à
Precisão ( ) e Sensibilidade ( ) Fawcett (2006), como é mostrada na (Equação 13 e 14).
(13)
(14)
São considerados os Veículos em Movimento (VM), os Verdadeiros Positivos (VP), os
veículos identificados corretamente, Falsos Positivos (FP), objetos identificados que não são
veículos e Falsos Negativos (FN), os veículos que não são identificados. Os frames foram
extraídos da videografia realizada em São José dos Campos - SP em intervalos de 0,066
segundos.
Frames
1
2
3
4
5
6
7
8
9
10
Média
VM
12
12
12
12
12
13
13
12
12
13
12
VP
11
10
8
10
10
11
11
9
9
10
10
Tabela 1. Resultados do estudo.
FP
FN
Sensibilidade (%)
2
1
92
1
2
83
1
4
67
0
2
83
3
2
83
1
2
85
1
2
85
2
3
75
3
3
75
1
3
77
2
2
80
Precisão (%)
85
91
89
100
77
92
92
82
75
91
87
Os resultados são ilustrados na Figura 7 da seguinte maneira: Os círculos e elipses
representam os VP; os triângulos representam os FP; e os quadrados e retângulos representam
os FN.
8298
Anais XVI Simpósio Brasileiro de Sensoriamento Remoto - SBSR, Foz do Iguaçu, PR, Brasil, 13 a 18 de abril de 2013, INPE
(a)
(b)
Figura 7. Identificação de objetos móveis.
4. Conclusões
Os resultados obtidos até o momento mostram que as abordagens com uso da técnica
SURF Bay et al. (2006) para identificar pontos de interesse, o FREAK Alahi et al. (2012)
para criar os descritores dos pontos, o método do RANSAC Fischler e Bolles (1981) para
identificar o deslocamento da câmera e operações morfológicas para identificar os objetos
móveis mostram-se promissoras para o problema proposto, porém este estudo ainda está em
desenvolvimento e outras abordagens devem ser estudas a fim de melhorar a sensibilidade,
precisão e velocidade do sistema e obter mais informações sobre os objetos móveis.
Agradecimentos
Ao CNPq, através da bolsa de Iniciação Científica PIBIC-IEAv e ao EMAER, através do
projeto PITER, no. V01050303.
Refenrências Bibliográficas
Alahi, A.; Ortiz, R.; Vandergheynst, P.; FREAK: Fast Retina Keypoint. Computer Vision and Pattern
Recognition (CVPR), p. 510-517, 2012.
Bay, H.; Tuytelaars, T.; Gool, L. V.; SURF: Speeded Up Robust Features. Proceedings of the Ninth European
Conference on Computer Vision, p. 404-417, 2006.
Bradski.; G.; Kaehler.; A.; Learning OpenCV - Computer Vision with the OpenCV Library. O’Reilly
Media, 2008.
Canhoto, A.; Shiguemori, E. H.; Domiciano, M. A. P. Image sequence processing applied to autonomous aerial
navigation. Signal and Image Processing Applications (ICSIPA), IEEE International Conference on, p.
496-499, 2009.
d’Angelo, E.; Jacques, L.; Alahi, A.; Vandergheynst, P.; From Bits to Images: Inversion of Local Binary
Descriptors. Computer Vision and Pattern Recognition (CVPR), 2012.
Fawcett, T.; An introduction to ROC analysis. Patter Recognition Letters, v. 27, n.8, p. 861-874, 2006.
Fischler, M. A.; Bolles, R. C.; Random sample consensus: a paradign for model fitting with applications to
image analysis and automated cartography. Communications of the ACM, v. 24, n. 6, p. 381-395, 1981.
Gonzales, R. C.; Woods, R. E.; Digital Image Processing, 3ed., Person Education, Inc., 2008.
Leutenegger, S.; Chli, M.; Siegwart, R.; BRISK: Binary Robust Invariant Scalable Keypoints. Computer Vision
(ICCV), 2011 IEEE International Conference on, p. 2548-2555, 2011.
8299
Anais XVI Simpósio Brasileiro de Sensoriamento Remoto - SBSR, Foz do Iguaçu, PR, Brasil, 13 a 18 de abril de 2013, INPE
Rachid, C. L.;Pereira, A. A. S.; Algoitmos de Busca SIFT e SURF no Uso de Dispositivos Móveis. II Encontro
Multidisciplinar da Unipac Ubá, 2009.
Rebouças, R. A.; Shiguemori, E. H.; Acompanhamento de objetos móveis em imagens aéreas. I Simpósio de
Ciência e Tecnologia do IEAv, 2012.
Rublee, E.; Rabaud, V.; Konolige K.; Braski, G.; ORB: An efficiente alternative to SIFT or SURF. Computer
Vision (ICCV), 2011 IEEE International Conference on, p. 2564-2571, 2011.
8300
Download

Identificação de objetos móveis com uso de imagens aéreas obtidas