Universidade Federal de Campina Grande - UFCG
Centro de Engenharia Elétrica e Informática - CEEI
Coordenação de Pós-Graduação em Ciência da Computação - COPIN
Investigação de Técnicas para Extração de
Características e Classificação Aplicadas à
Recuperação de Imagens por Conteúdo
Saulo de Tarso Oliveira Rodrigues
Mestrando
Herman Martins Gomes
Orientador
2
Roteiro
 Introdução
 Conceitos Fundamentais
 Trabalhos Relacionados
 Sistema Proposto
 Estudo Experimental
 Contribuições
 Trabalhos Futuros
 Referências
3
Introdução
 Grande número de organizações vêm coletando e
armazenando imagens, como também as
adicionando massivamente à World Wide Web.
– Difícil organização.
 Foram identificados dois principais problemas na
recuperação de imagens.
– Anotações manuais.
– Extração de informações.
4
Introdução
 Criação da Recuperação de imagens por conteúdo
(“Content-Based Image Retrieval”).
– Indexação e Recuperação de imagens utilizando as suas
próprias características visuais.
 Mesmo com os avanços na área de recuperação por
conteúdo.
– Existem algumas áreas com deficiências no contexto de
busca por conteúdo [Datta, 2006].
 Internet.
5
Conceitos Fundamentais
 Em particular, a maioria dos Sistemas de
Recuperação de Imagens Baseada em Conteúdo
(SRIBC) possuem as seguintes características em
comum [Subrahmanian, 1998]:
– Extração de Características;
– Indexação;
– Reconhecimento.
6
Conceitos Fundamentais: Extração de
Características - Cor
Freqüência
 Representação através de histogramas.
Nível de Cinza
 Representação através de diferentes espaços de cor;
– RGB (Red, Green e Blue);
– HSV (Hue, Saturation e Value);
– YCbCr.
 Nesta dissertação: Histogramas em diferentes espaços de cor e quantizados.
7
Conceitos Fundamentais: Extração de
Características - Forma
 Característica diz respeito às formas dos objetos.
 Binarização e detectores de bordas.
Nível de Cinza
Binarização
Borda Detectada
 Após a identificação das formas dos objetos, geralmente é
necessário descrevê-las com base nas propriedades
invariantes a escala, rotação e translação.
– Nesta dissertação: Momentos Invariantes de Hu [Hu, 1962].
8
Conceitos Fundamentais: Extração de
Características - Textura
 São mudanças na intensidade da imagem que
formam determinados padrões repetitivos [Tuceryan,
1993].
Exemplos de texturas
 Nesta dissertação: Texturas representadas através de
Local Binary Patterns (LBP) [Ojala, 2002] e Wavelets
de Haar e Daubechies [Wang, 1998].
9
Conceitos Fundamentais: Estruturas de
Indexação
 Após a extração das características é necessário
representar essas informações de forma que seja
possível uma recuperação.
– Vetores de características ou estruturas de dados
multidimensionais.
 As técnicas de extração de características produzem
vetores de grande dimensão.
– Utilização de novos métodos de indexação.
 Eficiente com dados multidimensionais
 Eficientes na busca
10
Conceitos Fundamentais: Estruturas de
Indexação
 Entre os métodos existentes, pode-se destacar o GHSOM (Growing
Hierarquical Self-Organizing Maps) [Rauber, 2002].
–
–
–
–
Treinamento não-supervisionado;
Criação de estrutura de árvore para indexação;
Criação de grupos dinâmicos;
Capacidade de suporte a medidas de similaridades arbitrárias.
11
Conceitos Fundamentais: Combinação
de Classificadores
 A combinação de classificadores é utilizada como um método para
diminuir a probabilidade de erro na classificação.
 Segundo Kittler [Kittler, 1998], um combinador pode melhorar o
desempenho do sistema, fazendo com que as deficiências de um
classificador sejam suprimidas pelo bom desempenho de outros.
 Geralmente o conjunto de classificadores são organizados em uma
arquitetura e uma regra de combinação.
12
Conceitos Fundamentais: Combinação
de Classificadores
 Quanto a arquitetura são classificados como:
– Lineares
Classificador
Classificador
Classificador
– Paralelos
Classificador
Classificador
Combinador
– Hierárquicos
Classificador
Classificador
Classificador
Classificador
Combinador
Trabalhos Relacionados: Sistemas
Existentes
Sistema
Consulta
Forma de Extração
Medida de similaridade
Indexação
QBIC
Imagem Exemplo, esboço
e por padrões de cor e
textura
Histograma de Cor, Texturas
segundo Tamura e Momentos
invariantes
Distância Euclidiana
R*-tree
NETRA
Imagens Pré-definidas
Histograma de cor quantizados,
Wavelet de Gabor e
Transformada rápida de Fourier
Distância Euclidiana
SS-tree
PicSOM
Imagens Pré-definidas
com refinamento
interativo
Histogramas de Cor, Momentos
de Cor e Transformada de
Fourier
Distância Euclidiana
SOM
VisualSEEk
Esboço
Histograma de cor quantizado
Distância Euclidiana
R-tree
WebSEEk
Esboço e texto
Histograma de cor quantizado
Distância entre
histogramas
Dados da Extração
Sistema de French
Imagem exemplo
Histograma de cor (para as
diferentes representações da
imagem de consulta)
Distância entre
histogramas
Dados extraídos de
cara representação
Sistema de Barcellos
Imagem exemplo
Histograma de cor quantizado
Distância Euclidiana
Dados da Extração
Sistema de Presad
Imagem exemplo
Histograma de cor quantizado,
Forma (Maior Eixo, Menor Eixo
e Centro de gravidade)
Diferença entre as
regiões extraídas,
utilizando um limiar
Dado não informado
Sistema de Edvarden
Imagem exemplo
Histograma de cor quantizado
Distância Euclidiana,
Interseção de histograma
e distância quadrática
Dados da Extração
13
14
Sistema Proposto: Arquitetura do
Sistema
 A arquitetura macro do sistema proposto é formada por:
–
–
–
–
–
–
Interface com usuário
Robô de Busca
Extração de Características
Treinamento dos Classificadores
Classificadores
Combinação de Classificadores
 No sistema proposto existe dois modos de operação
distintos:
– Modo de consulta
– Modo de busca
15
Sistema Proposto: Arquitetura do
Sistema
16
Sistema Proposto: Módulo de Extração
Extração de Características
– Métodos de extração:
 RGB, HSV e YCbCr, com diferentes números de bins
(128, 64, 32 e 16).
 LBP e Wavelets.
 Momentos Invariantes de Hu.
17
Sistema Proposto: Módulo de
Classificação
18
Sistema Proposto: Módulo de
Classificação
Treinamento dos Classificadores
– Treinamento das redes GHSOM (cada classificador
utilizando apenas um tipo de característica).
Classificadores
– Similaridade entre características submetidas e o
classificador GHSOM específico.
– Neurônios vencedores.
qei 

x j  Ci
mi  x j
19
Sistema Proposto: Módulo de
Combinação
 Combinação de Classificadores
– Ordenação das imagens recuperadas de forma
decrescente.
20
Sistema Proposto: Módulo de
Combinação
Para a combinação, foi utilizado um método
em que cada imagem recuperada recebe um
voto.
– Ordena as imagens através dos votos.
O cálculo do voto de cada imagem é expresso
por:
G
 LC 
vi   1  QEg ,i   


g
 LTg 
g ,i
21
Sistema Proposto: Arquitetura do
Sistema
Robô de Busca
– Web Crawler: busca e indexação automática de
imagens disponíveis na World Wide Web.
– Regras de download das imagens:
 Tamanho mínimo de 150 x 150 pixels.
 Razão entre altura e largura entre 3 e 1/3.
 Formato JPEG.
– Indexação das características extraídas e URLs das
imagens.
22
Sistema Proposto: Interface com o
Usuário
23
Estudo Experimental
 Experimento 1 – Busca pelos melhores parâmetros dos
classificadores GHSOM.
– Melhores parâmetros de treinamento para cada classificador.
 Experimento 2 – Combinação de classificadores.
– Experimentos objetivos.
 Experimento 3 – Teste com a Interface Web e os usuários.
– Experimentos subjetivos.
24
Experimento 1 – Busca por Melhores
Parâmetros
Avaliação do parâmetro τ2
– Valores avaliados:
 0,5; 0,1; 0,05; 0,01; 0,005; 0,001; 0,0005; 0,00001;
0,000005; 0,000001 e 0,0000001.
Banco rotulado com 800 imagens, distribuídas
em 16 grupos.
– aviões, vegetação, aves, garrafas, camelos, carros,
faces, flores, futebol, guitarras, casas,
motocicletas, outono, planetas e pôr-do-sol.
25
Experimento 1 – Busca por Melhores
Parâmetros
Métricas de Avaliação de Classificadores
Precisão =
quantidadeDeIm agensRelevantesRecuperadas
quantidadeTotalDeIm agensRecuperadas
Cobertura =
quantidadeDeIm agensRelevantesRecuperadas
quantidadeTotalDeIm agensRelevantes
Medida-F =
2  Precisão Cobertura
Precisão Cobertura
26
Experimento 1 – Busca por Melhores
Parâmetros
Extratores
τ2
Precisão
Cobertura
Medida-F
LBP
0,05
0,191790091
0,280625
0,227855102
Wav
0,10
0,128562369
0,408125
0,195531029
HU_MOMENTS
0,10
0,093021798
0,4096875
0,151617916
HSV128
0,10
0,142346118
0,2415625
0,179133692
HSV64
0,50
0,145480311
0,3390625
0,203601898
HSV32
0,10
0,183727882
0,2365625
0,206824276
HSV16
0,10
0,199642902
0,23953125
0,21777563
RGB128
0,05
0,183070331
0,16859375
0,175534069
RGB64
0,50
0,110120024
0,241875
0,151338962
RGB32
0,10
0,172415855
0,24046875
0,20083396
RGB16
0,10
0,145861759
0,30953125
0,198284873
YCBCR128
0,10
0,176315762
0,21390625
0,193300441
YCBCR64
0,10
0,150864074
0,2621875
0,191524143
YCBCR32
0,10
0,186840728
0,26125
0,217867218
YCBCR16
0,10
0,135528171
0,2771875
0,182046467
27
Experimento 2 – Combinação de
Classificadores
 Comparação entre os classificadores simples e
combinados.
– RGB com 32 bins, HSV com 16 bins, YCbCr com 32
bins, Wavelets, LBP e Momentos Invariantes de Hu.
– Redução da quantidade de imagens recuperadas:
 400, 300, 200, 100, 90, 80, 70, 60, 50, 45, 40, 35, 30, 25, 20,
15, 10 e 5.
– Os classificadores foram combinados de forma dois a
dois, três a três, quatro a quatro, cinco a cinco e seis a
seis.
28
Experimento 2 – Combinação de
Classificadores
 Com a redução da quantidade de imagens, a precisão das combinações foi
superiores aos classificadores simples.
29
Experimento 2 – Combinação de
Classificadores
 Durante todo o experimento a cobertura dos classificadores combinados foi
superior aos classificadores simples.
30
Experimento 3 – Teste com a Interface
Web e os Usuários
 Teste utilizando o sistema proposto.
 Banco de imagens com aproximadamente 64.000
URLs de imagens.
 Experimento 3 foi subdividido em três partes:
– Imagens aleatórias;
– Conjunto de imagens fixas;
– Única imagem.
31
Experimento 3 – Teste com a Interface
Web e os Usuários
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
HSV com 16 bins;
HSV com 32 bins;
HSV com 64 bins;
RGB com 16 bins;
RGB com 32 bins;
RGB com 64 bins;
YCbCr com 16 bins;
YCbCr com 32 bins;
YCbCr com 64 bins;
LBP;
Wavelets;
Momentos Invariantes de Hu;
Combinação de Cor;
Combinação de Textura;
Combinação de Cor e Textura;
Combinação de Cor e Forma;
Combinação de Textura e Forma;
Combinação de Cor, Textura e Forma.
Extratores
τ2
LBP
0,0005000
WAV
0,0000010
HUMOMENTS
0,0000050
HSV64
0,0000100
HSV32
0,0000001
HSV16
0,0000010
RGB64
0,0000050
RGB32
0,0000010
RGB16
0,0000500
YCBCR64
0,0001000
YCBCR32
0,0000500
YCBCR16
0,0001000
32
Experimento com Usuários – Imagens
Aleatórias
 Foram selecionados 25 usuários.
 Download da imagem para utilizar como consulta.
 Os melhores resultados foram:
– Combinação de Cor com 36,2%.
– Combinação de Forma e Textura com 35,0%.
 Problema para identificação dos usuários incomuns.
– Imagens diferentes para cada usuário.
33
Experimento com Usuários – Conjunto
de Imagens Fixas
 Definição de nova metodologia de testes.
– Testes configurados automaticamente, transparência para
o usuário.
– Tentativa de identificar possíveis usuários incomuns.
– Foram utilizados 35 usuários.
 Em adição aos classificadores utilizados, foi testada a
Melhor Combinação.
– RGB com 32 bins, HSV com 16 bins, LBP e Wavelets.
34
Experimento com Usuários – Conjunto
de Imagens Fixas
 Conjunto de imagens fixas utilizadas nos testes.
RGB32
HSV16
HSV32
HSV64
RGB16
YCBCR32
RGB64
YCBCR16
YCBCR64
Com. Text.
Wavelets
Cor & Forma
HuMoments
Com. Cor
Cor, Text. e
Forma
Text. e Forma
Melhor Comb.
LBP
Cor e Text.
35
Experimento com Usuários – Conjunto
de Imagens Fixas
 As melhores precisões foram obtidas para as
combinações.
– Melhor Combinação (RGB32, HSV16 , LBP e Wavelets)
obteve 48,0%.
– Combinação de Cor e Textura obteve 39,1%.
– Combinação de Cor obteve 38,9%.
 Alguns classificadores simples se destacaram.
– YCbCr com 16 bins obteve 35,7%.
– HSV com 16 bins obteve 32,0%.
36
Experimento com Usuários – Conjunto
de Imagens Fixas
 Identificação de usuários incomuns
– Média geral das precisões 23,5%.
37
Experimento com Usuários – Conjunto
de Imagens Fixas
 Precisões dos classificadores sem os usuários
incomuns .
– Aumento na precisão dos melhores classificadores.
 Melhor Combinação, aumento de 48,0% para 48,8%.
– Redução na precisão dos piores classificadores.
 HSV com 64 bins, diminuiu de 5,1% para 3,2%.
 A retirada dos usuários incomuns contribui para
destacar os melhores classificadores.
38
Experimento com Usuários – Única
Imagem
 Uma única imagem selecionada foi utilizada para
todos os testes.
 Os mesmo 35 usuários do experimento anterior.
 Os usuários incomuns também foram identificados.
39
Experimento com Usuários – Única
Imagem
 Dos classificadores testados, os que obtiveram
melhores resultados foram:
– Melhor Combinação obteve 27,7%.
– Combinação de Cor e Textura obteve 25,4%.
– YCbCr com 32 bins obteve 25,4%.
40
Experimento com Usuários – Única
Imagem
 Média geral das precisões 18,5%.
41
Experimento com Usuários – Única
Imagem
 Após a retirada dos usuários incomuns.
– Redução do número de usuários incomuns.
– Redução na precisão dos classificadores, mas os melhores
classificadores obtiveram destaque.
– Os melhores classificadores foram:
 Combinação de Cor e Textura, YCbCr com 32 bins e Melhor
Combinação.
– Possivelmente os resultados dos classificadores podem ter
sido influenciados pela escolha da imagem de consulta.
42
Contribuições
 Foi desenvolvido um novo método de combinação de classificadores
GHSOM.
– Avaliados através de testes objetivos e subjetivos.
 Foi desenvolvido um sistema de recuperação por conteúdo.
– Banco de dados dinâmico.
 Foram realizadas investigações sobre:
– Extração de características;
– Indexação;
 Publicações
– Workshop de Teses e Dissertações (SIBGRAPI 2007).
– Poster aceito para publicação no SIBGRAPI 2008.
– Escrita de artigo em andamento para submissão ao JBCS.
43
Trabalhos Futuros
 Estudar novos métodos de extração de características.
 Estudar novos métodos de indexação e classificação.
 Incorporar estratégias de processamento distribuído aos diferentes
módulos do sistema.
 Desenvolver uma interface que permita feedback dos usuários.
 Automatizar a criação das redes GHSOM (a medida que a base de dados
cresce) .
 Investigar método para eliminar URLs de imagens inválidas.
44
Referências Bibliográficas
 [Datta, 2006] R. Datta, D. Joshi, J. Li, and J. Z. Wang. Image retrieval: Ideas,
influences, and trends of the new age. ACM Computing Surveys, pages 1–
60, 2006.
 [Hu, 1962] M.K Hu. Visual pattern recognition by moment invariants.
Information Theory, IEEE Transactions on, 8(2):179–187, 1962.
 [Huang, 1997] Y. Rui, T. S. Huang, and S. F. Chang. Image retrieval: Past,
present, and future. In International Symposium on Multimedia
Information Processing, pages 2–16, 1997.
 [Kittler, 1998] J. Kittler, M. Hatef, RPW Duin, and J. Matas. On combining
classifiers. Pattern Analysis and Machine Intelligence, IEEE Transactions
on, 20(3):226–239, 1998.
Referências Bibliográficas
 [Ojala, 2002] T. Ojala, M. Pietikainen, and T. Maenpaa. Multiresolution grayscale
and rotation invariant texture classification with local binary patterns. IEEE
Transactions on Pattern Analysis and Machine Intelligence, 24(7):971–987, 2002.
 [Rauber, 2002] A. Rauber, D. Merkl, and M. Dittenbach. The growing hierarchical
selforganizing map: exploratory analysis of high-dimensional data. Neural
Networks, IEEE Transactions on, 13(6):1331–1341, 2002.
 [Subrahmanian, 1998] V. S. Subrahmanian. Principles of multimedia database
systems. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 1998.
 [Tuceryan, 1993] M. Tuceryan and A. K. Jain. Texture analysis. Handbook of Pattern
Recognition and Computer Vision, pages 235–276, 1993.
 [Wang, 1998] J. Z. Wang, G.Wiederhold, O. Firschein, and S. XinWei. Content-based
image indexing and searching using Daubechies’ wavelets. International Journal on
Digital Libraries, 1(4):311–328, 1998.
Universidade Federal de Campina Grande - UFCG
Centro de Engenharia Elétrica e Informática - CEEI
Coordenação de Pós-Graduação em Ciência da Computação - COPIN
Investigação de Técnicas para Extração de
Características e Classificação Aplicadas à
Recuperação de Imagens por Conteúdo
Saulo de Tarso Oliveira Rodrigues
Mestrando
Herman Martins Gomes
Orientador
Tempo de processamento do
sistema
Tempo
Tempo
Tempo
Classificadores
Extrator
Classificador
Combinador
Tempo Total
RGB16
0,109354
0,695717
X
RGB32
0,109642
0,777791
X
RGB64
0,103476
0,772575
X
HSV16
0,119441
0,577365
X
HSV32
0,113153
0,736847
X
HSV64
0,110972
0,781814
X
YCbCr16
0,114826
0,623778
X
YCbCr32
0,107831
0,567676
X
YCbCr64
0,104747
0,587171
X
LBP
1,300055
0,662135
X
Wavelets
1,580270
0,098529
X
Momentos de Hu
0,139364
0,565734
X
Combinação Cor
0,323098
0,780349
1,072461
Combinação Textura
2,410962
0,556455
0,927330
Combinação Cor e Textura
2,700370
1,274722
1,687175
Combinação Cor e Forma
0,430542
1,280255
1,275038
Combinação Forma e Textura
2,519608
0,847213
1,172503
Combinação Cor, Forma e Textura
2,821672
1,596423
1,734224
Melhor Combinação
2,592550
0,384204
0,563112
0,805072
0,887433
0,876051
0,696806
0,850000
0,892786
0,738604
0,675507
0,691918
1,962190
1,678799
0,705098
2,175908
3,894747
5,662267
2,985835
4,539324
6,152319
3,539866
Vídeo Demonstrativo
Download

1 - Computação UFCG - Universidade Federal de Campina Grande