Anais XVI Simpósio Brasileiro de Sensoriamento Remoto - SBSR, Foz do Iguaçu, PR, Brasil, 13 a 18 de abril de 2013, INPE Identificação de objetos móveis com uso de imagens aéreas obtidas por VANT Rodrigo Augusto Rebouças 1 Matheus Habermann 1 Elcio Hideiti Shiguemori 1 1 Instituto de Estudos Avançados – IEAv/DCTA São José dos Campos - SP, Brasil [email protected], {habermann, elcio}@ieav.cta.br Abstract. In this paper, the problem of identifying moving objects using aerial images obtained by UAV is discussed. The main interest is to automatic information extraction for monitoring large areas. The SURF descriptor has been employed for the detection of interest points, while the binary descriptor FREAK has been used to construct feature vectors. The RANSAC method is employed to estimate the parameters from the matrix of points, and then, the displacement of the camera is estimated. Finally, morphological operations have been employed to identify moving objects. The results show that the methodology can be used to identify moving objects from UAV images. Palavras-chave: image processing, moving objects, UAV, processamento de imagens, objetos móveis, VANT. 1. Introdução O uso de imagens e vídeos digitais obtidos por aeronaves e satélites representa um papel de grande importância no sensoriamento remoto e na navegação autônoma aérea Canhoto et al. (2009). Nos últimos anos, o crescente desenvolvimento e emprego de Veículos Aéreos Não Tripulados (VANT) tem propiciado a captura de imagens e vídeos para uma grande gama de aplicações nas áreas de Visão Computacional e Processamento de Imagens Gonzales e Woods (2008). Neste estudo aborda-se o problema de identificação de objetos móveis com uso de imagens aéreas obtidas por VANT, tendo como o objetivo a extração automática de informações para a navegação aérea autônoma baseada em imagens e para o monitoramente de grandes áreas, utilizando o descritor SURF (Speeded Up Robust Features) Bay et al. (2006) para detecção de pontos de interesse, o descritor binário FREAK (Fast Retina Keypoint) Alahi et al. (2012) para construir um vetor de características desses pontos formando os descritores. Com os descritores formados é feito a correspondência dos descritores dos pontos de interesse. E depois faz-se uso do método RANSAC (RANdom SAmple Consensus) Fischler e Bolles (1981) para estimar os parâmetros a partir da matriz de pontos casados e com isso, encontrar o deslocamento da câmera do VANT e para finalizar usa-se operações morfológicas para identificação de objetos móveis. 2. Metodologia de Trabalho Objetivo do estudo é a identificação de objetos móveis com uso de imagens obtidas por VANT para aplicações na navegação aérea autônoma baseada em imagens e monitoramento de grandes áreas. São utilizadas imagens de uma videografia realizada em São José dos Campos – SP. As principais técnicas empregadas neste estudo fazem uso do descritor SURF Bay et al. (2006) e FREAK Alahi et al. (2012) e o método RANSAC Fischler e Bolles (1981) para identificar o deslocamento da câmera do VANT. Essas abordagens são ilustradas na Figura 1. Na Figura 1 é feita a captura entre dois frames consecutivos nos tempos os e . Em seguida é aplicada a técnica SURF Bay et al. (2006) para detecção de pontos de interesse e a técnica FREAK Alahi et al. (2012) para construir um vetor de características desses pontos formando os descritores. Com os descritores formados é feito a correspondência dos descritores dos pontos de interesse. E depois faz-se uso do método RANSAC Fischler e 8293 Anais XVI Simpósio Brasileiro de Sensoriamento Remoto - SBSR, Foz do Iguaçu, PR, Brasil, 13 a 18 de abril de 2013, INPE Bolles (1981) para estimar os parâmetros a partir da matriz de pontos casados para encontrar o deslocamento da câmera do VANT e para finalizar usa-se operações morfológicas para identificação do objetos móveis. Capturar vídeo Identificar objetos móveis Encontrar pontos de interesse Calcular o deslocamento da câmera Formar os descritores Casar os pontos Figura 1. Metodologia do estudo. Por serem utilizadas imagens aéreas obtidas em diferentes instantes de tempo, faz-se necessário compensar o movimento da câmera. Neste estudo, primeiramente precisam ser reconhecidos os pontos de interesse nas imagens capturadas pelo VANT, para isso, faz uso do descritor SURF Bay et al. (2006) bastante utilizada na literatura por apresentar desempenho computacionalmente superior, quando comparado com outros descritores Rachid e Pereira (2009). 2.1 Descritor SURF O SURF Bay et al. (2006) é uma técnica para extrai e descrever pontos de interesse de imagens invariantes a sua iluminação, rotação e escala. Basicamente, ele é dividido em 3 partes: criação da imagem integral, extração dos pontos de interesse e descrição dos pontos de interesse Bay et al. (2006). A extração dos pontos de interesse é feita com uso do determinante da matriz Hessiana , Fast-Hessian (Equação 1): (1) onde é a convolução da derivada da Gaussiana de segunda ordem com a imagem no ponto , com as coordenadas e é a escala da imagem. E o determinante , por custo computacional, é descrito em (Equação 2) Bay et al. (2006). (2) 8294 Anais XVI Simpósio Brasileiro de Sensoriamento Remoto - SBSR, Foz do Iguaçu, PR, Brasil, 13 a 18 de abril de 2013, INPE onde é a segunda derivada em relação à . Para se reduzir o custo computacional, o processo é calculado em imagens integrais da própria imagem. Em cada um desses pontos de interesse é construído um vetor de características, para isso, faz uso do descritor binário FREAK Alahi et al. (2012) por apresentar desempenho computacionalmente mais superior, quando comparado com outros descritores d’Angelo et al. (2012). 2.2 Descritor FREAK O descritor FREAK Alahi et al. (2012) faz uso de uma grade de amostragem da retina utilizando um padrão circular, semelhante ao BRISK Leutenegger et al. (2011), porém sua densidade de pontos próximos ao centro é maior, com isso a densidade de pontos cai exponencialmente. E para cada ponto de amostra usa-se um tamanho de kernel diferente, como é ilustrada na Figura 1, onde cada círculo representa os desvios-padrão dos kernels gaussianos aplicados aos pontos de amostragem correspondentes. Figura 2. Topologia dos campos receptivos. O descritor binário d’Angelo et al. (2012) é formado por uma sequencia de 0 e 1 através da Diferença Gaussiana (DoG) (Equação 3): (3) onde é um par de campos receptivos, é o tamanho do descritor e e é a intensidade do primeiro campo receptivo do par 8295 . Anais XVI Simpósio Brasileiro de Sensoriamento Remoto - SBSR, Foz do Iguaçu, PR, Brasil, 13 a 18 de abril de 2013, INPE Com os campos receptivos, vários pares são possíveis de se encontrar com o descritor e é feito um algoritmo semelhante ao ORB Rublee et al. (2011) para aprender os melhores pares de dados de treinamento. Cria-se uma matriz de pontos-chave extraídos, onde cada linha corresponde a um ponto chave representado com o seu descritor feito de todos os pares possíveis no padrão de amostragem da retina ilustrado na Figura 2. Em seguida, calcula-se a média de cada coluna e ordenam-se as colunas em relação à maior variância, mantendo a melhor coluna e iterativamente adicionar colunas restantes com baixa correlação com as colunas selecionadas Alahi et al. (2012). Para estimar a orientação do ponto de interesse (Equação 4) é feito a soma dos gradientes locais selecionando os pares. Seja o conjunto de pares utilizados para calcular os gradientes locais: (4) é o vetor das coordenadas espacial do centro do onde, é o numero de pares em e campo receptor. Para fazer a correspondência entre os pontos de interesse nos frames nos tempos e , para cada descritor local binário do ponto encontra o descritor mais próximo, utilizando a distancia de Hamming entre os descritores binários a quantidade de posições que eles diferem entre si, como é apresentado na Figura 3, sendo as linhas a correspondência dos pontos casados. Figura 3. Correspondência entre os frames. Em seguida, usa-se o método de RANSAC Fischler e Bolles (1981) para encontrar a perspectiva de cada uma das imagens com as coordenadas dos vetores dos descritores casados entre os tempos os e . Com as coordenadas que o RANSAC Fischler e Bolles (1981) encontra, pode-se obter a informação de deslocamento no tempo t para o tempo t + 1. Como é mostrada na Figura 4. 8296 Anais XVI Simpósio Brasileiro de Sensoriamento Remoto - SBSR, Foz do Iguaçu, PR, Brasil, 13 a 18 de abril de 2013, INPE Figura 4. Correspondência entre os frames e a perspectiva com o RANSAC. Para finalizar é feito o corte (Figura 5) e a subtração (Figura 6.a) em ambos os frames nos tempos e , a fim de identificar os objetos móveis desejados, neste caso, os veículos. Figura 5. Corte entre os frames nos tempos t e t + ∆t. Os frames obtidos dos vídeos podem sofrer degradações, devido à movimentação da câmera, pois são detectados borrões e distorções. Esses ruídos podem ser, erroneamente, considerados em movimento juntamente com os veículos. Para resolver esse problema na imagem subtraída (Figura 6.a) é aplicada uma limiarização (Figura 6.b) e operações morfológicas binárias, a erosão (Figura 6.c) e dilatação (Figura 6.d) Bradski e Kaehler (2008), para identificar apenas os objetos móveis e desconsiderar esses ruídos. (a) (b) 8297 Anais XVI Simpósio Brasileiro de Sensoriamento Remoto - SBSR, Foz do Iguaçu, PR, Brasil, 13 a 18 de abril de 2013, INPE (c) (d) Figura 6. Subtração entre as imagens (a), Imagem limiarizada (b), imagem aplicada erosão (c) e imagem aplicada dilatação (d). 3. Resultados e Discussão Com os resultados obtidos no estudo, avaliou-se o desempenho das técnicas em relação à Precisão ( ) e Sensibilidade ( ) Fawcett (2006), como é mostrada na (Equação 13 e 14). (13) (14) São considerados os Veículos em Movimento (VM), os Verdadeiros Positivos (VP), os veículos identificados corretamente, Falsos Positivos (FP), objetos identificados que não são veículos e Falsos Negativos (FN), os veículos que não são identificados. Os frames foram extraídos da videografia realizada em São José dos Campos - SP em intervalos de 0,066 segundos. Frames 1 2 3 4 5 6 7 8 9 10 Média VM 12 12 12 12 12 13 13 12 12 13 12 VP 11 10 8 10 10 11 11 9 9 10 10 Tabela 1. Resultados do estudo. FP FN Sensibilidade (%) 2 1 92 1 2 83 1 4 67 0 2 83 3 2 83 1 2 85 1 2 85 2 3 75 3 3 75 1 3 77 2 2 80 Precisão (%) 85 91 89 100 77 92 92 82 75 91 87 Os resultados são ilustrados na Figura 7 da seguinte maneira: Os círculos e elipses representam os VP; os triângulos representam os FP; e os quadrados e retângulos representam os FN. 8298 Anais XVI Simpósio Brasileiro de Sensoriamento Remoto - SBSR, Foz do Iguaçu, PR, Brasil, 13 a 18 de abril de 2013, INPE (a) (b) Figura 7. Identificação de objetos móveis. 4. Conclusões Os resultados obtidos até o momento mostram que as abordagens com uso da técnica SURF Bay et al. (2006) para identificar pontos de interesse, o FREAK Alahi et al. (2012) para criar os descritores dos pontos, o método do RANSAC Fischler e Bolles (1981) para identificar o deslocamento da câmera e operações morfológicas para identificar os objetos móveis mostram-se promissoras para o problema proposto, porém este estudo ainda está em desenvolvimento e outras abordagens devem ser estudas a fim de melhorar a sensibilidade, precisão e velocidade do sistema e obter mais informações sobre os objetos móveis. Agradecimentos Ao CNPq, através da bolsa de Iniciação Científica PIBIC-IEAv e ao EMAER, através do projeto PITER, no. V01050303. Refenrências Bibliográficas Alahi, A.; Ortiz, R.; Vandergheynst, P.; FREAK: Fast Retina Keypoint. Computer Vision and Pattern Recognition (CVPR), p. 510-517, 2012. Bay, H.; Tuytelaars, T.; Gool, L. V.; SURF: Speeded Up Robust Features. Proceedings of the Ninth European Conference on Computer Vision, p. 404-417, 2006. Bradski.; G.; Kaehler.; A.; Learning OpenCV - Computer Vision with the OpenCV Library. O’Reilly Media, 2008. Canhoto, A.; Shiguemori, E. H.; Domiciano, M. A. P. Image sequence processing applied to autonomous aerial navigation. Signal and Image Processing Applications (ICSIPA), IEEE International Conference on, p. 496-499, 2009. d’Angelo, E.; Jacques, L.; Alahi, A.; Vandergheynst, P.; From Bits to Images: Inversion of Local Binary Descriptors. Computer Vision and Pattern Recognition (CVPR), 2012. Fawcett, T.; An introduction to ROC analysis. Patter Recognition Letters, v. 27, n.8, p. 861-874, 2006. Fischler, M. A.; Bolles, R. C.; Random sample consensus: a paradign for model fitting with applications to image analysis and automated cartography. Communications of the ACM, v. 24, n. 6, p. 381-395, 1981. Gonzales, R. C.; Woods, R. E.; Digital Image Processing, 3ed., Person Education, Inc., 2008. Leutenegger, S.; Chli, M.; Siegwart, R.; BRISK: Binary Robust Invariant Scalable Keypoints. Computer Vision (ICCV), 2011 IEEE International Conference on, p. 2548-2555, 2011. 8299 Anais XVI Simpósio Brasileiro de Sensoriamento Remoto - SBSR, Foz do Iguaçu, PR, Brasil, 13 a 18 de abril de 2013, INPE Rachid, C. L.;Pereira, A. A. S.; Algoitmos de Busca SIFT e SURF no Uso de Dispositivos Móveis. II Encontro Multidisciplinar da Unipac Ubá, 2009. Rebouças, R. A.; Shiguemori, E. H.; Acompanhamento de objetos móveis em imagens aéreas. I Simpósio de Ciência e Tecnologia do IEAv, 2012. Rublee, E.; Rabaud, V.; Konolige K.; Braski, G.; ORB: An efficiente alternative to SIFT or SURF. Computer Vision (ICCV), 2011 IEEE International Conference on, p. 2564-2571, 2011. 8300