Uma Proposta de Melhoria no Processo de Recuperação de Imagens com Base na Distribuição de Características de Baixo Nível em seus Segmentos Utilizando Índice Invertido Patrícia Proença1, Ilmério Silva2, Celia Barcelos3, 1 [email protected], 2 [email protected], 3 [email protected], 4 Objetivo indexação de características de baixo nível de segmentos de imagens digitais mapeadas para um índice invertido: melhoras de desempenho no processamento de consultas; ganho na precisão no conjunto de imagens recuperadas em grandes bases de dados; 2 Motivação Grande número de imagens digitais; Necessidade de localizar imagens: melhores algoritmos de busca, métodos de indexação e técnicas de classificação de imagens digitais; Trabalhos Relacionados crescimento da busca de imagens pelo próprio conteúdo - CBIR (Recuperação de Imagens Baseada no Conteúdo), [Datta et al, 2008]: encontrar imagens relevantes - características visuais extraídas automaticamente das imagens; em [Matos et al, 2008a] e [Matos et al, 2008b] adaptação do CBIR: paradigma Índice Invertido; índice invertido - ganho na velocidade de recuperação de documentos sem perda de qualidade na recuperação; 4 Trabalhos Relacionados [Matos et al, 2008a] - sistema de recuperação baseado em conteúdo: técnicas textuais - indexação e cálculo da similaridade; termos da recuperação textual palavras presentes nos arquivos textuais - na recuperação por conteúdo : faixas de valores extraídos da imagem através característica de baixo nível - momentos de cor; momentos de cor - caracteriza as imagens em termos da distribuição dos canais de cores: três medidas estatísticas: média, desvio padrão e obliqüidade; 5 Trabalhos Relacionados - [Matos et al, 2008a] imagens - espaço de cor RGB para o espaço de cor HSV e calculo dos três momentos para cada canal H, S e V – vetor com nove posições; Imagens indexadas com os valores - cada canal de cor HSV; similaridade - cosseno entre os vetores; melhoria no desempenho do processamento: sem perda significativa na qualidade da recuperação quando comparada com a busca por distância euclidiana; Vetor de Característica Tabela 1 – Descrição do vetor de característica resultante da extração de característica da imagem usando os três momentos de cor do espaço HSV, [Matos et al, 2008a]. 7 Índice Invertido Índice Invertido Vocabulário Imagens Africa10: MHA...DSC...IVH Flor13: MHB...DSD...IVH Africa12: MHB...DSD...IVH Ônibus33: MHA...DSC...IVH . . . Lista Invertida MHA MHB áfrica10, ônibus33... áfrica12, flor13, ... DSC DSD áfrica10, ônibus33... áfrica12, flor13, ... IVH IVH áfrica12, ônibus33... áfrica10, flor13, ... 8 Cálculo da Similaridade – Utilizando o Índice Invertido Banco de dados de imagens Imagem de Consulta: I1 = [MHA ,MSC] Vetor de característica Ic =[MHA, MSB] Lista Invertida: MHA I11, I33 MHB I2 MHC I4 MSB I3 MSC I1, I2 MSD I4 Neste caso teríamos as imagens ordenadas da seguinte forma: I3 , I1 I2 = [MHB, MSC] I3 = [MHA,MSB] I4 = [MHF,MSD] 9 Metodologia algoritmos de segmentação - obter uma segmentação satisfatória das imagens; adaptar o algoritmo desenvolvido em [Matos et al, 2008a]: atribuir os termos da Tabela 1 a cada segmento das imagens segmentadas; vetor - termos encontrados em todos os segmentos da imagem; Imagem 1 Segmentação Segmento 1 = [MHA, DHC, ....., IVE] Segmento 2 = [MHB, DHG, ......, IVA] Imagem 1 = Segmento 1 + Segmento 2 Imagem 1 = [MHA, MHB, DHC, DHG, ......, IVA, IVE] Metodologia importância do termo no documento: trabalhos [Matos et al, 2008a] e [Matos et al, 2008b] - pesos de valores fixos são atribuídos as faixas de valores; discriminação dos termos : estudar formas de reformular esses pesos; observando a distribuição destes termos nos segmentos; Metodologia experimentos - coleção referência com aproximadamente 32.000 imagens, [Datta et al, 2008]; objetivo principal - ganho no tempo de execução em grandes coleções sem perder a qualidade da recuperação; Banco de dados da imagem 14 Resultados Esperados Aumentar qualitativamente e quantitativamente a quantidade de faixas segmentação de imagens; Atribuição de pesos em cada faixa - uma melhor discriminação entre as faixas; Melhorar a qualidade da precisão obtida no trabalho [Matos et al, 2008a], mantendo o ganho de desempenho no processamento da consulta; 15 Muito Obrigada! Patrícia Proença [email protected]