Reconstrução e modelagem interativa da estrutura/esqueleto 3D de objetos reais (Interactive wireframe reconstruction and modelling 3D of real objects) Exame de proposta de doutorado Manuel Eduardo Loaiza Fernandez Marcelo Gattass Alberto B. Raposo Motivação da proposta • Esta proposta inicialmente surgiu como analise ao problema de recuperar medidas 3D da estrutura de objetos existentes numa cena real, para as quais é complicado realizar uma medição manual. • Esta iniciativa foi inspirada nos trabalhos apresentado por [Chengke et al, 2002], [Chen et al, 2004], [Liang et al 2004]. Motivação da proposta • Nesses trabalhos mostrasse a extração de medidas de diferentes objetos e estruturas. Os objetos medidos podem estar num ambiente interno bem controlado (a), ou externo sem nenhum controle (b). a b • Nossa intenção é desenvolver uma aplicação que permitisse ao usuário interagir diretamente com a imagem do objeto, e indicando alguns pontos específicos dele, poder realizar as medições desejadas. Motivação da proposta • Mas uma nova idéia inspirado no trabalho de [Hengel et al 2007] surgiu como complemento para nossa proposta. • Nesse trabalho descrevesse uma forma de fazer modelagem interativa 3D usando uma seqüência de imagens de vídeo de um objeto específico. • Inicialmente se faz uma modelagem da estrutura base do objeto, para logo fazer uma analise mais refinada sobre as superfícies do esqueleto definido inicialmente. Trabalhos relacionados • Podemos analisar as duas abordagens dos trabalhos diretamente relacionados a esta proposta de tese: – [Chengke et al,2002 ] recuperação de medidas reais. – [Hengel et al, 2007] modelagem interativa 3D. • E mostrar que elas podem se complementar. Trabalhos relacionados • Ambos trabalhos relacionados, tem certas características em comum: – Implementados sobre um sistema de uma câmera. – Precisam de um pré - processamento de imagem computacionalmente caro, para obter uma de calibração de câmera, correspondência 2D e reconstrução 3D robusta. – Tanto a medição e a modelagem não são feitos no momento da captura das imagens do objeto analisado, só numa etapa de pos - processamento. Objetivo da Proposta • Fazer a reconstrução 3D da estrutura base de um objeto presente numa cena real, baseado na seleção e reconstrução de pontos característicos pertencentes ao objeto analisado. • Todo o processo poderá ser feito diretamente no momento da captura da imagem de vídeo da cena onde se encontra o objeto analisado. Objetivo da Proposta • Este objetivo tenta juntar as abordagens dos trabalhos relacionados: – Extração de medidas reais. – Modelagem 3D da estrutura base do objeto. • E dar a vantagem de realizar estas atividades e interações diretamente no momento da captura da imagem de vídeo. • Para implementar nossa proposta usaremos e exploraremos as vantagens de um sistema de estéreo visão. Objetivo da Proposta • Tanto o processo de modelagem 3D e o de extração de medidas será interativo, permitindo a cada momento a inserção de novos pontos que enriqueçam a modelagem ou melhorem nossas medições. • Também será necessário implementar um rastreamento espaço - temporal dos pontos característicos previamente selecionados no decorrer da interação. Descrição da proposta • Nossa proposta tenta provar que: – Utilizando as vantagens de um sistema de estéreo visão pré calibrado podemos conseguir implementar um sistema interativo para extração de medidas e modelagem do esqueleto 3D de objetos específicos,isto num ambiente interno ou externo. – As vantagens da utilização do sistema estéreo podem se resumir em: • O sistema precisa ser calibrado uma vez. • A correspondência 2D entre as imagens é baseado na teoria da geometria epipolar implícita e pré - processada junto a calibração do sistema estéreo. • O baixo custo de analise da correspondência e posterior reconstrução 3D neste tipo de sistema poderão permitir a realização da interação no momento da captura de vídeo da cena analisada. Descrição da Proposta • Nossa proposta pode se resumir em: Sistema de estéreo visão Extração de medidas reais Modelagem do esqueleto em 3D Descrição da proposta • Como seria o funcionamento do sistema ? – A proposta assume que a interação do usuário será direta sobre uma das imagens do sistema estéreo. Sobre essa imagem teremos a possibilidade de selecionar pontos específicos de um objeto, e automaticamente se irão criando e extraindo as medidas do esqueleto formado pela junção dos pontos que foram selecionados. Seleção manual de pontos característicos Imagem visualizada pelo usurário Descrição da proposta • Todo o processamento de: • Correspondência 2D: restrito pelo campo de busca da linha epipolar. • E reconstrução 3D: triangulação dos pontos selecionados na imagem esquerda e a seus correspondentes achados automaticamente na imagem da direita. • Estará oculto ao usuário e será automático. Linha epipolar Pontos correspondentes Imagem visualizada pelo usurário Correspondência 2D e reconstrução 3D automática (Oculto) Implementação da proposta • Para desenvolvimento da presente proposta foram propostos o estudo dos seguintes temas: • Calibração de câmera. – Calibrar um sistema estéreo. • Correspondência 2D. – Explorar as vantagens da geometria epipolar. – Extrair e comparar pequenos padrões de imagem. • Reconstrução 3D. – Reconstruir metricamente a posição 3D dos pontos específicos escolhidos dentro do cenário. – Criar um modelo 3D da estrutura formada pelos pontos. • Rastreamento 2D e 3D. – Realizar o rastreamento dos pontos característicos quadro a quadro permitindo a movimentação do sistema estéreo em volta do objeto analisado. Implementação da proposta • O hardware necessário para implementar nosso sistema esta composto por: – Um sistema estéreo de câmeras. – Um computador (ou Laptop ). Base teórica • Calibração de câmera. – • Estéreo e múltipla calibração câmera. • Padrão de calibração. – Padrão planar. – Barra de calibração. – Marcador pontual. Correspondência de imagens 2D. – Geometria epipolar. • – Extração de pontos ou padrões característicos. • • • Manual. Automático. Reconstrução 3D. – – – • Calculo da matriz fundamental. Afim. Euclidiana. Métrica. Rastreamento de pontos característicos – Comparação e rastreamento de padrões vista a vista, e entre as vista da duas câmeras que conformam o sistema estéreo. • • • • • Invariância a mudanças e contraste de iluminação. Invariância a translação. Invariância a rotação. Invariância a escala. Invariância a mudança perspectiva. Base teórica • Calibração de câmera • • Encontrar uma medida de relacionamento entre o mundo 3D ( espaço físico que é visto pela câmera ) e o plano da imagem 2D que nós vemos na tela do computador visualizando o espaço físico capturado. O modelo mais utilizado é o modelo de câmera “Pinhole”. Base teórica • Calibração de câmera: parâmetros. • Internos. – – Distancia focal (f). Centro da imagem(Ou’,Ov’). • Externos. – – Matriz de rotação ( R ). Vetor de translação ( T ). Base teórica • Calibração de câmera: parâmetros. – Coeficientes da distorção das lentes. • Radial (k1,k2). • Tangencial (p1,p2). – Tipos de distorção “pincushion” e “barrel”. Barrel Pincushion Base teórica • Estéreo e múltipla calibração câmera – Calibração de varias câmeras simultaneamente. – Estéreo: calibração de 2 câmeras. Estéreo calibração Múltipla calibração Base teórica • Estéreo e múltipla calibração câmera – Alguns dos métodos mais conhecidos para calibração de câmera são: • [Jean-Yves Bouguet, 2008 ] que apresenta um toolbox completa para calibração de câmera onde se inclui uma versão para estéreo câmera calibração . • [Borghese, 2000] quem apresentou um método para estéreo calibração baseada na captura de uma barra com 2 marcadores bem identificados, adotado por vários sistema de rastreamento ótico comerciais como [ART, 2008 ] [VICON, 2008]. • [Svoboda et al, 2005] quem apresentou novo método para múltipla calibração câmera baseada na captura de um 1 marcador, e foi modificado para funcionar num sistema estéreo por [Pintaric, 2007]. Base teórica • Estéreo câmera calibração apresentada em [JeanYves Bouguet, 2008 ]: – Padrão de calibração: padrão planar com formato de tabuleiro de xadrez. Base teórica • Estéreo câmera calibração apresentada em [JeanYves Bouguet, 2008 ]: – Calibração inicial individual para cada câmera. – Na captura da amostragem para otimização global do sistema estéreo é difícil capturar uma boa amostra de vistas validas do padrão nas duas câmeras ao mesmo tempo. – Otimização baseada no erro de reprojeção 2D dos pontos da amostragem em cada vista do padrão. – Não aplicável para um sistema múltipla calibração. Base teórica • Estéreo câmera calibração apresentada em [Borghese, 2000]: – Padrão de calibração: barra com dois marcadores em cada extremo e barra em formato de L. Base teórica • Estéreo câmera calibração apresentada em [Borghese, 2000]: – Calibração inicial é baseada na extração dos parâmetros internos e externos a partir da decomposição da matriz fundamental. – A captura da amostragem para calibração precisa de um processamento especifico para realizar a correspondência entre as imagens dos pontos que conformam a barra. – Otimização baseada no erro de reprojeção 2D dos pontos da amostragem e distancia 3D entre os pontos do padrão. – Extensível para um sistema múltipla calibração. Base teórica • Múltipla calibração de câmera apresentada em [Svoboda et al, 2005] modificada por [Pintaric, 2007]. – Padrão de calibração: marcador pontual. Base teórica • Múltipla calibração de câmera apresentada em [Svoboda et al, 2005] modificada por [Pintaric, 2007]: – Calibração inicial é baseada na teoria da “ rank – 4 factorization” e “ euclidean estratification”. – Alguns parâmetros internos e de distorção radial precisam ser pré - calculados. – Otimização baseada no erro de reprojeção 2D dos pontos da amostragem. – Adaptável para um sistema de múltipla calibração estéreo, mas com muitas restrições iniciais sobre que parâmetros são pré - definidos. – Correspondência 2D entre pontos da amostragem nas diferentes câmeras precisam de um pós – processamento para detectar falsas correspondências. Base teórica • Método próprio desenvolvido para estéreo e múltipla calibração de câmera. – Padrão de calibração: padrão planar e padrão colinear invariante a projeção [Loaiza et al, 2007]. – Calibração feita em duas etapas. Base teórica • Etapa inicial: – Calibração inicial individual para cada câmera usando método planar [Zhang, 2000]. – Calibração estéreo pode ser com padrão planar ou um padrão do tipo em L. Base teórica • Etapa final: – Captura de um amostra do padrão colinear projetivo invariante. – Detecção do padrão e correspondência dos pontos que conformam o padrão é feita usando a teoria sobre padrões projetivos invariantes [Loaiza et al, 2007], [Meer et al, 1998]. Base teórica • Etapa final: – Otimização é feita explorando as características do padrão: – Erro reprojeção 3D - 2D dos pontos: parâmetros internos. – Erro distancias entre pontos do padrão: parâmetros externos (Reconstrução métrica 3D). – Erro colinearidade do padrão: coeficientes da distorção das lentes. Base teórica • Correspondência de imagens 2D – Geometria epipolar é a geometria intrínseca projetiva existente entre duas vistas. – A matriz fundamental encapsula esta geometria intrínseca projetiva. – Duas formas de calcular a matriz fundamental: • Baseado no calculo de pontos correspondentes entre duas imagens, sem precisar conhecer os parâmetros câmeras. • Por composição dos parâmetros intrínsecos e extrínsecos das câmeras. Base teórica • Calculo da matriz fundamental: – Diretamente desde pontos correspondentes entre duas imagens. – Trabalhos relacionados temos: • Algoritmos dos 8 pontos [Longuet-Higgins, 1981], [Hartley, 1997]. • LMeds [Zhang,1996] e RANSAC [Torr, 1997]. Base teórica • Calculo da matriz fundamental: – Por composição dos parâmetros intrínsecos e extrínsecos das câmeras. – Baseado nos parâmetros intrínsecos de cada câmera e os parâmetros extrínsecos em relação a uma origem em comum podemos calcular a Rotação e Translação “(R,t)” entre as câmeras do sistema estéreo. F K´T t x R K 1 E t x R K, Rl , Tl K´, Rr , Tr Base teórica • Correspondência de imagens 2D – Extração de pontos ou padrões característicos • Automaticamente: pontos escolhidos com alto contraste (Cantos, bordas)[Harris, 1988]. • Manualmente: pontos com uma aparência bem distinguível (Texturas) [Flusser, 2000]. Base teórica • Correspondência de imagens 2D – Seleção de padrões característicos e busca deles sobre a linha epipolar imagem sem distorção ( Modelagem do sistema estéreo com câmeras pinhole ). Base teórica • Correspondência de imagens 2D – Correspondência e busca dos pontos característicos sobre uma linha epipolar distorcida na imagem com distorção. Base teórica • Correspondência de imagens 2D – Como podemos ver a linha epipolar distorcida consegui passar sobre ponto correspondente na imagem (esquerda e direita) do sistema estéreo. Base teórica • Reconstrução 3D – Afim. – Euclidiana. – Métrica. • Rastreamento de pontos característicos – Vista a vista. – Entre diferentes pontos de vista. Base teórica • Rastreamento de pontos característicos – Comparação dos padrões de texturas 2D • Invariância a mudanças e contraste de iluminação • Invariância a translação • Invariância a rotação • Invariância a escala • Invariância a mudança perspectiva Cronograma de desenvolvimento da proposta (2008 -1 ) Tarefas Implementação sistema estéreo. Calibração das câmeras. Calculo matriz fundamental. Extração matrizes de projeção para cada câmera. Calculo das matrizes de projeção métrica. Calculo das matrizes para reconstrução métrica 3D. Testes sobre precisão da matriz fundamental e reconstrução 3D Teste de extração de medidas entre pontos selecionados na imagens (Manual). Teste de captura do esqueleto de um objeto simples sem movimentação. Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez Cronograma de desenvolvimento da proposta (2008 - 2 ) Abr Tarefas Teste de captura do esqueleto de um objeto simples sem movimentação. Teste reconhecimento e rastreamento dos pontos que conformam o esqueleto (Automático). Teste reconhecimento e rastreamento dos pontos que conformam o esqueleto (Automático). Teste de captura do esqueleto de um objeto simples com movimentação. Escrita do texto da Tese de doutorado Mai Jun Jul Ago Set Out Nov Dez Jan Fev Mar Alguns resultados • Alguns resultados do avanço feito ate agora na implementação da proposta são: – Novo método de calibração estéreo. – Precisão das medidas recuperadas. – Uso de linhas epipolares distorcidas para restringir espaço de busca de pontos característicos. – Pareamento automático da área 2D escolhida como padrão a ser correlacionado. Testes: • Imagem 1, medida real entre os pontos selecionados: 196.0 mm ( 19.6 cm). • Imagem 2, medida real entre os pontos selecionados: ~ 1685.0 mm (1.68 m). • Imagem 1 • Imagem 2 Testes na imagem 1: • Vista 1 : medida recuperada 194.01 mm (19.4 cm - real 19.6 cm ) Testes na imagem 1: • Vista 2 : medida recuperada 192.14 mm (19.2 cm - real 19.6 cm ) Testes na imagem 1: • Vista 3 : medida recuperada 194.87 mm (19.4 cm - real 19.6 cm ) Testes na imagem 2: • Vista 1 : medida recuperada 1671.79 mm (1.67 m - real 1.68 m ) Testes na imagem 2: • Vista 2 : medida recuperada 1671.26 mm (1.67 m - real 1.68 m ) Testes na imagem 2: • Vista 3 : medida recuperada 1666.85 mm (1.66 m - real 1.68 m ) Observações • Precisão depende de dois fatores: – Boa calibração estéreo (otimizada). – Bom pareamento do padrão de textura escolhido como ponto de referencia na reconstrução 3D. Trabalho a ser desenvolvido • Dar maior robustez ao pareamento 2D. • Testar o sistema num ambiente de captura em tempo real. Referencias • • • • • • • • • [Wu et al, 2002 ] , Chengke Wu , Zezhi Chen and Peter Sturm,“ 3D Reconstruction and Metrolog y from Uncalibrated Image Sequences”, Proceedings of the PRA Workshop on Information Science and Technology, Beijing, China,2002. [Chen et al, 2004], Z ezhi Chen, Chengke Wu, Yong Liu and Nick Pears. “ 3D Euclidean reconstruction of buildings from uncalibrated image sequences ”. International Journal of Shape Modeling, 2004. [Liang et al 2004], Bojian Liang, Zezhi Chen and Nick Pears. “ Uncalibrated two-view metrology”. The Proc. International Conference on Pattern recognition (ICPR'04), Cambridge, UK, 2004. [Hengel et al 2007], Anton van den Hengel, Anthony Dick, Thorsten Thormählen, Ben Ward and Philip H. S. Torr, “ VideoTrace: rapid interactive scene modelling from video”, International Conference on Computer Graphics and Interactive Techniques archive, ACM SIGGRAPH 2007, San Diego, California, 2007. [Borghese, 2000] , Alberto Borghese and Pietro Cerveri . “ Calibrating a video camera pair with a rigid bar”. Pattern Recognition, 2000. [Svoboda et al, 2005] , Tomas Svoboda, Daniel Martinec and Tomas Pajdla, “ A Convenient Multi-Camera Self-Calibration for Virtual Environments”, PRESENCE: Teleoperators and Virtual Environments, MIT Press, August 2005. [Bouguet, 2008 ] Jean-Yves Bouguet , “Camera Calibration Toolbox for Matlab”, http://www.vision.caltech.edu/bouguetj/calib_doc/htmls/example5.html, August ,2008. [Vicon, 2008 ], Vicon Motion Systems, http://www.vicon.com/, August 2005. [ART, 2008 ], Advanced Real Time Tracking GmbH, http://www.ar-tracking.de/,August 2005. Referencias • • • • • • • • • • [Pintaric, 2007] , Thomas Pintaric and Hannes Kaufmann, "Affordable Infrared-Optical Pose Tracking for Virtual and Augmented Reality“, IEEE VR Workshop on Trends and Issues in Tracking for Virtual Environments, Charlotte, NC (USA), 2007. [Loaiza et al, 2007], Mnauel Loaiza, Alberto B. Raposo, Marcelo Gattass, "A Novel Optical Tracking Algorithm for Point-Based Projective Invariant Marker Patterns“, 3rd International Symposium on Visual Computing – ISVC 2007, Lake Tahoe, Nevada/California, EUA. Advances in Visual Computing - Lecture Notes in Computer Science, vol. 4841, p.160-169. Springer-Verlag, 2007. [Zhang, 2000], Z. Zhang, “A Flexible New Technique For Camera Calibration”, IEEE Transactions on Pattern Analysis and Machine Intelligence, 22(11):1330-1334, 2000. [Zhang,1996], Zhengyou Zhang, “Determining the epipolar geometry and its uncertainty: A review,” Tech. Rep. 2927, Institut National de Recherche en Informatique et en Automatique, July 1996. [Meer et al, 1998], Peter Meer,Reiner Lenz amd Sudhir Ramakrishna,“ Efficient Invariant Representations”. International Journal of Computer Vision 26, 137–152, 1998. [Torr, 1997] Phil Torr and David Murray, “The development and comparision of robust methods for estimating the fundamental matrix”, International Journal Computer Ession, vol. 24, no. 3, pp. 271-300, September, 1997. [Longuet-Higgins, 1981], H.C. Longuet-Higgins. “A computer algorithm for reconstructing a scene from two projections”, Nature, 293:133–135, September, 1981. [Hartley, 1997], Richard Hartley, “In defense of the eight-point algorithm”, IEEE Transactions on Pattern Analysis and Machine Intelligence, pp. 580-593, Vol. 19, June, 1997. [Harris, 1988], C. Harris and M. Stephens. “A combined corner and edge detector”. In ALVEY Vision Conference, pages 147-151, 1988. [Flusser, 2000],J. Flusser: "On the Independence of Rotation Moment Invariants", Pattern Recognition, vol. 33, pp. 1405-1410, 2000