Sistema de Recuperação de Imagens Baseada em Conteúdo Usando Mapas de Kohonen e Técnicas de Correlação Cruzada. T. C. S. Santos André *, P. M. de Azevedo Marques*, J. A. H. Rodrigues* and R. M. Rangayyan**. *Centro de Ciência das Imagens e Física Médica USP / FMRP / Departamento de Clínica Médica, Ribeirão Preto, SP, Brasil. ** University of Calgary/ Department of Electrical& Computer Engineering, Calgary, AB, Canada. INTRODUÇÃO BASE DE DADOS MÉTODOS RESULTADOS DISCUSSÃO CONCLUSÃO INTRODUÇÃO: Os primeiros sistemas de recuperação de imagem baseado em conteúdo (RIBC) foram desenvolvidos no início dos anos 80; A maioria das pesquisas nesta área se inspirou no sistema da IBM (“Query By Image Content” - QBIC) como ponto de partida dos seus trabalhos A maioria dos sistemas conhecidos é da área acadêmica; Basicamente todo sistema RIBC usa a suposição de equivalência da imagem e sua representação no espaço de características; Alguns Sistemas RIBC usam técnicas de medidas tais como modelo de vetores. Nestes casos as imagens são representadas como vetores de características em um espaço vetorial n-dimensional; Distância Euclidiana, distância “city-block” ou distância “Mahalanobis” entre tais vetores. INTRODUÇÃO: Vários sistemas usam métodos que são bem conhecidos no campo de recuperação de textos, ou busca por palavras, que se baseia nos dois princípios a seguir: Uma característica que aparece com frequência numa imagem descreve bem esta imagem; Uma característica que aparece com frequência numa coleção de imagens é um forte indicador para se distinguir uma imagem em relação à outra. INTRODUÇÃO: Estamos propondo um sistema RIBC baseado em uma rede neural do tipo mapa auto-organizável (MAO) de Kohonen para criar um vetor de características de cada imagem; Estamos usando a técnica da correlação cruzada para estabelecer as semelhanças existentes. BASE DE DADOS mini MIAS [SUCKLING J., PARKER et. al. (1994)] 322 imagens de 161 pacientes, mamas esquerda e direita, projeção médio lateral; Resolução espacial - 200 mm de tamanho de pixel; Resolução de contraste – 256 níveis de cinza (8 bits de quantização); Tamanho das imagens - 1024 por 1024 pixels (centralizadas). PARA MEDIR A PERFORMANCE DO SISTEMA RIBC: Densidade (1 a 4) – de acordo com BIRADS; Tamanho da mama (pequeno, médio ou grande); Lado (mama esquerda ou direita); Forma da mama (arredondada ou periforme). PARA MEDIR A PERFORMANCE DO SISTEMA RIBC: númerode images relevantesrecuperadas precisão númerode imagensrecuperadas númerode imagensrelevantesrecuperadas revocação númerode imagensrelevantes PARA MEDIR A PERFORMANCE DO SISTEMA RIBC: MÉTODOS O Mapa Auto Organizável de Kohonen: MÉTODOS Rede MAO: 1601 neurônios na entrada. Vetores de entrada com 1601 posições; Rede é alimentada com os valores de pixel normalizados de quadros de 51x51 pixels retirados dos mamogramas que possuem 1024x1024 pixels; Treinamento auto organizável, neste só os pesos do neurônio vencedor e de sua vizinhança são alterados. Wi(t+1) = Wi(t) + hci(t)[x(t) - Wi(t)] ; Saída com nove neurônios num arranjo 3x3; Função de vizinhança que diminui com o tempo e com o raio da vizinhança : hci t e rc ri 2 2 2 t MÉTODOS A técnica da correlação cruzada: 1 M N Am, n ABm, n B C MN m 1 n 1 A B 2 1 M N A Am, n MN m1 n1 1 M N B Bm, n MN m1 n1 2 1 M N Am, n A A MN m1 n1 2 2 1 M N 2 Bm, n B B MN m1 n1 RESULTADOS Visão apresentada pelo MAO que seria percebida pelo olho humano: RESULTADOS Resultado da pesquisa: mdb003 mdb007 100 100 200 200 300 300 400 400 500 500 600 600 700 700 800 800 900 900 1000 1000 100 200 300 400 500 1 600 700 800 900 1000 100 200 300 400 mdb247 500 600 0.967494 700 800 900 1000 mdb013 100 100 200 200 300 300 400 400 500 500 600 600 700 700 800 800 900 900 1000 1000 100 200 300 400 500 600 0.946341 700 800 900 1000 100 200 300 400 500 600 0.945953 mdb119 700 800 900 1000 mdb291 100 100 200 200 300 300 400 400 500 500 600 600 700 700 800 800 900 900 1000 100 200 300 400 500 600 0.943388 700 800 900 1000 1000 100 200 300 400 500 600 0.943378 700 800 900 1000 Cinco imagens recuperadas pelo sistema RIBC para a imagem de pes quisa mdb003 (superior esquerdo). 2 Os valores de C para as imagens recuperadas são, em ordem dec rescente: 0.9675, 0.9463, 0.9460, 0.9434 e 0.9434. RESULTADOS Resultado da pesquisa: mdb154 mdb003 100 100 200 200 300 300 400 400 500 500 600 600 700 700 800 800 900 900 1000 1000 100 200 300 400 500 1 600 700 800 900 100 1000 200 300 600 500 -0.404311 400 900 800 700 1000 mdb274 mdb132 100 100 200 200 300 300 400 400 500 500 600 600 700 700 800 800 900 900 1000 1000 100 200 300 400 600 500 -0.243974 700 800 900 100 1000 200 300 400 600 500 -0.219384 mdb096 700 800 900 1000 mdb042 100 100 200 200 300 300 400 400 500 500 600 600 700 700 800 800 900 900 1000 1000 100 200 300 400 600 500 -0.179898 700 800 900 1000 100 200 300 400 600 500 -0.151828 700 800 900 1000 Cinco imagens menos correlacionadas em relação à imagem de pesquisa mdb003 (superior esquerdo). 2 Os valores de C para estas imagens são: -0,4043, 0,2440, -0,2194, -0,1799 e –0,1518. RESULTADOS Resultado da pesquisa: Todas Características Dens. Precisão Rev. Precisão 0.2088 0.2302 0.3567 Forma Tam. Lado Precisão Precisão Precisão 0.8038 0.6233 1.0000 DISCUSSÃO A busca através de um sistema RIBC que usa apenas características visuais (análise de textura) é relativamente difícil; O sistema RIBC apresentou resultados ruins, no que diz respeito à densidade; Os resultados das demais característica separadamente são relativamente bons, demonstrando um potencial de aplicação [BOONE J. M. et. al. (2003)]; Os resultados que mostram as imagens menos correlacionadas, são visualmente interessantes; Modificar a fase de treinamento do MAO pode melhorar os resultados; Incluir técnicas adicionais em conjunto com a correlação cruzada (modelamento do disco fibro glandular através da mistura de Gaussianas [FERRARI R. J. et. al. (2004)]); A simulação de um sistema deste tipo, onde a busca é feita apenas nas imagens que possuem a mesma densidade da imagem de pesquisa, e não em toda a base de dados, apresenta acentuada melhora; RESULTADOS Resultado da pesquisa considerando apenas mamogramas de mesma densidade: mdb003 mdb291 100 100 200 200 300 300 400 400 500 500 600 600 700 700 800 800 900 900 1000 1000 100 200 300 400 500 1 600 700 800 900 1000 100 200 300 400 500 600 0.944178 700 800 900 1000 700 800 900 1000 700 800 900 1000 mdb315 mdb121 100 100 200 200 300 300 400 400 500 500 600 600 700 700 800 800 900 900 1000 100 200 300 400 500 600 0.936945 700 800 900 1000 1000 100 200 300 400 mdb125 500 0.9319 600 mdb209 100 100 200 200 300 300 400 400 500 500 600 600 700 700 800 800 900 900 1000 100 200 300 400 500 600 0.919996 700 800 900 1000 1000 100 200 300 400 500 600 0.919971 Cinco imagens recuperadas pelo sistema RIBC para a imagem de pes quisa mdb003 (superior esquerdo). 2 Os valores de C para as imagens recuperadas são, em ordem dec rescente: 0.9442, 0.9369, 0.9319, 0.9200 e 0.9200. DISCUSSÃO: Necessitamos de uma definição do que seja similaridade entre imagens; Temos que apresentar os resultados da busca a potenciais usuários do sistema RIBC proposto para que estes possam avaliá-lo; Neste projeto caracterizamos os mamogramas usados de acordo com quatro grandezas fornecidas por apenas um radiologista experiente. Isto nos leva a outra questão, qual seja, a variabilidade entre observadores; CONCLUSÃO: Os resultados obtidos até o momento mostram que novos estudos serão necessários para melhorar a performance do sistema RIBC proposto; Uma linha de pesquisa interessante a seguir diz respeito à classificação automática da densidade dos mamogramas. AGRADECIMENTOS: À Fapesp pelo apoio financeiro; À comissão organizadora do CIBIS por esta oportunidade;