17o Encontro Nacional de Modelagem Computacional
5o Encontro de Ciência e Tecnologia de Materiais
Universidade Católica de Petrópolis,Rio de Janeiro, RJ, Brasil. 15-17 out. 2014.
Pré-imagem com mapas de difusão
Lúcia Maria dos Santos [email protected]
Ricardo [email protected]
Francisco Duarte Moura [email protected]
Instituto Politécnico, Universidade do Estado do Rio de Janeiro,
Caixa Postal 97282, 28601-970 Nova Friburgo, RJ, Brasil
Resumo. A aplicação de difusão, um dos métodos mais recentes de redução de dimensionalidade,
Coifman & et al. (2005), só pode ser calculada nas entradas, X i , de um conjunto de treinamento,
E = {X 1 , X 2 , . . . X n }. Esta é uma questão que não se coloca para o já tradicional PCA, análise
das componentes principais, onde não há dificuldade de calcular as projeções de novos pontos
fora do conjunto dado. Este já começa a ser um primeiro obstáculo na procura da pré-imagem
para aplicações de difusão. Por isso neste trabalho consideramos a questão da extensão, ou seja,
estendemos a aplicação de difusão a todo o espaço Rd , o qual contém o conjunto E de sinais
dados inicialmente, com a ajuda da já conhecida extensão de Nyström. Desta forma poderemos
abordar a questão da pré-imagem das caracterı́sticas (ou features) correspondentes a um sinal
qualquer do Rd que tenha sido difundido num espaço de mais baixa dimensão. Esta inversão ou
reconstrução do sinal, no caso do PCA, é mais simples quando se considera a opção natural,
linear, envolvendo as direções principais, sendo objeto de pesquisa recente no caso da aplicação
de difusão. No último experimento exposto neste trabalho utilizamos uma função custo baseada em
dados para encontrar a pré-imagem no caso da aplicação de difusão. Ao procurar tal pré-imagem
percebemos que poderı́amos também inverter o PCA de forma não linear, bastando para isso que
a inversão levasse em conta os dados experimentais. Achamos interessante então comparar tais
pré-imagens, sendo esperado que o PCA não funcionasse tão bem como os mapas de difusão, uma
vez que ele é originalmente um método linear.
Keywords: pré-imagem, extensão, mapas de difusão, análise das componentes principais.
1.
Introdução
A ideia da redução de dimensionalidade consiste em sair de um espaço de entrada com dados de alta dimensão e chegar num espaço reduzido com vetores de poucas componentes que
correspondam às caracterı́sticas essenciais de cada um dos respectivos dados de certa forma capazes de parametrizar os dados de entrada ou sinais do sistema fı́sico em estudo. Estes dados
rotulados na entrada fazem parte do conjunto de treinamento que será aqui representado por
E = {X 1 , X 2 , . . . X n }.
Existe atualmente na literatura uma grande variedade de métodos de redução de dimensionalidade. Neste trabalho citamos apenas o clássico e poderoso método linear conhecido como PCA
17o Encontro Nacional de Modelagem Computacional
5o Encontro de Ciência e Tecnologia de Materiais
Universidade Católica de Petrópolis,Rio de Janeiro, RJ, Brasil. 15-17 out. 2014.
e o mais recente método, não linear, das aplicações ou mapas de difusão. O objetivo principal
deste trabalho é discutir uma forma de encontrar a pré-imagem para o caso dos mapas de difusão.
O método do PCA é citado nos experimentos pelo fato de ter se adaptado perfeitamente à função
custo que construı́mos baseada nos dados.
Em poucas palavras poderı́amos dizer que o problema da pré-imagem consiste em encontrar no espaço de entrada algum elemento do conjunto de treinamento que melhor aproxime uma
possı́vel ‘imagem inversa’ de um elemento no espaço reduzido. A pré-imagem exata geralmente
não existe ou não é única e por isso precisamos de uma solução aproximada, Mika & et al. (1998).
Nada impede que este problema da pré-imagem esteja também presente em casos onde não há
redução de dimensionalidade e nestes casos, que não serão aqui abordados, mesmo a solução
aproximada pode não ser tão fácil de se obter.
Uma das aplicações da pré-imagem consiste no chamado denoising, ou seja, retirada do ruı́do
de algum dos dados de entrada, podendo o ruı́do ser bastante complexo. Kwok & Tsang (2004)
apresentam um experimento onde conseguem tirar o ruı́do de um conjunto de dı́gitos manuscritos
(http://www.kernel-machines.org) usando pré-imagens baseadas em restrições de distâncias sem
precisar recorrer a otimizações não lineares como seria o caso originalmente proposto por Mika &
et al. (1998).
Conforme já mencionado, algumas vezes o problema da pré-imagem é associado ao problema
da extensão. Etyngier & Segonne & Keriven (2007) utilizaram a extensão clássica de Nyström
e triangulação de Delaunay para uma solução variacional do ruı́do na variedade dos dados. A
próxima seção trata da extensão de Nyström que será também utilizada neste trabalho com a finalidade de obtermos a pré-imagem procurada. Uma proposta para possı́vel inversão da aplicação de
difusão é apresentada na seção 3. Experimentos são apresentados na seção 4.
2.
Extensão de Nyström
Considere nosso conjunto de entradas do treinamento, E = {X 1 , X 2 , . . . , X n } em Rd , e o
conjunto das respectivas imagens dos dados, F = {Y 1 , Y 2 , . . . , Y n }, pela aplicação de difusão,
aqui representada por D, no conjunto Rn−1 .
Para estendermos a função D a outros vetores de Rd que não sejam entradas do conjunto
de treinamento, a fim de classificar novos sinais, utilizaremos a extensão de Nyström que será
representada por D̃, ver por exemplo Lafon & Lee (2006).
A aplicação de difusão (truncada em k termos) é definida apenas nos vértices de um grafo que
constitui o conjunto de treinamento,


λt1 v1 (j)


..
Dt (X j ) = 
(1)
 ,
.
t
λk vk (j)
onde vi (j) é a j-ésima componente do autovetor à direita de D−1 W , v i , associado ao autovalor λi ,
com i = 1, . . . , k, e k ≤ n − 1, enquanto t é o parâmetro considerado para o processo de Markov
associado à difusão, ver Pinto (2014). Neste texto W é a matriz de adjacência do grafo citado,
enquanto D é a matriz grau, ou seja, a matriz diagonal cujos elementos são a soma das linhas de
17o Encontro Nacional de Modelagem Computacional
5o Encontro de Ciência e Tecnologia de Materiais
Universidade Católica de Petrópolis,Rio de Janeiro, RJ, Brasil. 15-17 out. 2014.
W. Assim,
D−1 W v i = λi v i ,
donde
vi=
1 −1
D Wv i ,
λi
ou ainda, em coordenadas,
n
n
1 X −1
1
1 X
−1
vi (j) = (D W v i )j =
(D W )jl vi (l) =
Wjl vi (l) .
λi
λi l=1
λi dj l=1
Mas Wjl = K(X j , X l ), onde K(X, Y ) = e−
mente, então,
kX−Y k2
ε
é o núcleo de difusão utilizado frequente-
n
1 X
vi (j) =
vi (l)K(X j , X l )
λi dj l=1
n
X
1
=
λi
Pn
−
m=1 e
kX j −X m k2
ε
vi (l)e−
kX j −X l k2
ε
,
(2)
l=1
P
P
kX j −X m k2
ε
uma vez que dj = nm=1 K(X j , X m ) = nm=1 e−
. Fixado i, observa-se que ao passo
que o lado esquerdo da equação(2) está definido para j ligado ao X j , o lado direito pode ser
definido para um X arbitrário. Isto é, podemos definir
v̄i : Rd −→ R
X
7→
P
kX−X l k2
1 nl=1 vi (l)e− ε
,
v̄i (X) =
λi Pn e− kX−Xε m k2
m=1
e neste caso, vi (j) é dado em função de v̄i ,
vi (j) = v̄i (X j ) ,
ou seja, podemos pensar em v̄i como uma extensão de v i para pontos que não sejam do grafo dos
dados originalmente observados.
Desta forma, podemos considerar a seguinte extensão da aplicação de difusão,
Rd × [0, +∞) −→ Rk

(X, t)
7→

λt1 v̄1 (X)


..
D̃t (X) = 
 ,
.
t
λk v̄k (X)
que coincide com Dt nos pontos do conjunto E = {X 1 , . . . , X n }. Esta é a extensão de Nyström,
Lafon & Lee (2006).
17o Encontro Nacional de Modelagem Computacional
5o Encontro de Ciência e Tecnologia de Materiais
Universidade Católica de Petrópolis,Rio de Janeiro, RJ, Brasil. 15-17 out. 2014.
3.
Uma possı́vel inversa
Como D é injetora nas entradas do conjunto E de treinamento, Pinto (2014), então a imagem
inversa de cada elemento no conjunto F, é única. Para dados que estejam fora das entradas do
treinamento esta questão é bem mais complicada. O problema da pré-imagem de um elemento
qualquer de Rn−1 é um problema mal posto e em geral a pré-imagem de um único ponto, se
existir, será um conjunto de vetores no espaço de entrada, Arias & Randall & Sapiro (2007).
Para fugir deste inconveniente temos que buscar modificações adequadas e uma oportunidade é a
regularização do problema a partir da utilização do conjunto de sinais do treinamento.
Vamos inicialmente considerar um ponto b ∈ Rn−1 fixado. Buscamos a melhor aproximação
para uma possı́vel pré-imagem, x, deste ponto. Desejamos que este x esteja o mais próximo
possı́vel do nosso conjunto de dados de entrada, E, como uma forma de regularizar a inversão.
Obviamente, também buscamos que a imagem deste x pela extensão da aplicação de difusão seja
o próprio b ou o mais próximo disso. Para cada b fixado podemos representar estas exigências pela
função objetivo, f : Rd → R, a seguir:
f (x) = kD̃(x) − bk + γ min(kx − X k k).
(3)
k
Ou seja, dado um b ∈ Rn−1 , a sua pré-imagem, se existir, será o vetor x ∈ Rd que minimiza a
função f acima. O parâmetro γ foi utilizado para que seja possı́vel regular o nı́vel de influência
da segunda parcela de (3) em relação à primeira. Ao considerarmos γ < 1 estamos indicando que,
no algoritmo de minimização a ser utilizado, a primeira parcela contará mais do que a segunda.
O parâmetro γ é um parâmetro de regularização para este problema. É bom lembrar, como dito
anteriormente, que estas ideias podem também ser utilizadas, e as exploraremos nos experimentos,
para obter uma reconstrução não linear (inversão) do PCA.
Pensando agora num conjunto formado de vários b ∈ Rn−1 , se quisermos saber suas préimagens, podemos considerar a função anterior como dependente não apenas do x, mas também
do b. Assim podemos reescrever f como função de duas variáveis,
f : Rd × Rn−1 → R, definida por
f (x, b) = kD̃(x) − bk + γ min(kx − X k k).
k
(4)
Notamos que a função f como foi definida é sempre maior ou igual a zero. Avaliando-a em
(X i , D(X i )) e lembrando da seção anterior que a função extensão de Nyström interpola as entradas
do treinamento podemos substituir D̃(X i ) por D(X i ) em (4) e obtermos:
f (X i , D(X i )) = kD(X i ) − D(X i )k + γ min(kX i − X k k) = 0.
k
Logo o mı́nimo desta função é atingido em zero.
Gostarı́amos que pelo menos nas entradas do conjunto de treinamento a minimização desta
função, a qual produz a pré-imagem de um ponto fixado b ∈ Rn−1 , fosse a função inversa da
aplicação de difusão. Para que isso seja realmente verdade é preciso que façamos b = D(X i ) em
(4) e seja a única solução da minimização de f, ou seja, gostarı́amos de verificar que
f (X i , D(X i )) = 0
(5)
17o Encontro Nacional de Modelagem Computacional
5o Encontro de Ciência e Tecnologia de Materiais
Universidade Católica de Petrópolis,Rio de Janeiro, RJ, Brasil. 15-17 out. 2014.
e
f (X j , D(X i )) > 0, ∀j 6= i.
(6)
Vamos desenvolver estes cálculos,
f (X j , D(X i )) = kD̃(X j ) − D(X i )k + γ min(kX j − X k k).
(7)
Podemos substituir D̃(X j ) por D(X j ) em (7). Como X j é entrada do treinamento vemos que a
segunda parcela no lado direito da Equação (7) atingirá seu mı́nimo zero e portanto
f (X j , D(X i )) = kD(X j ) − D(X i )k.
(8)
Como D é injetora nas entradas do treinamento, Pinto (2014), a equação (8) será nula exclusivamente quando i = j, como querı́amos demonstrar.
Resumindo tudo que foi dito, a proposta é considerar uma função G definida a partir da
minimização da função f apresentada anteriormente, G : Rn−1 → Rd , tal que
G(b) = arg min f (x, b).
(9)
x
Em geral G(b) pode ser um conjunto de Rd uma vez que f (·, b) pode ter vários pontos de mı́nimo.
Desta forma a proposta da inversa G é razoável uma vez que se comporta como inversa pelo menos
nas entradas do conjunto de treinamento.
4.
Experimentos
A tı́tulo de ilustração da questão da pré-imagem para denoising foi construı́do o seguinte experimento. Um banco de dados sintético foi constituı́do de 360 rotações de uma mesma vogal,
A, sendo cada imagem formada de 50 × 50 pı́xeis. Foi considerado o exemplar referente à vogal
rotacionada de 10o aqui representado por X 10 correspondente à décima coluna da matriz dos dados
10
originais. Um ruı́do foi adicionado a X 10 em forma de variação da iluminação, Xruido
= 0, 5X 10 ,
ou seja, a vogal escurecida pelo fator 0, 5 foi usada como elemento diferente de todas as entradas
do conjunto de treinamento e foram calculadas suas features em R3 pelo truncamento (para R3 ) da
extensão da aplicação de difusão. Este ponto estendido corresponde ao b da seção anterior e o objetivo é encontrar a sua pré-imagem. Para esta extensão os parâmetros utilizados foram ε = r2 , t = 2
e α = 1, onde r é o diâmetro do conjunto dos dados, ε é o tamanho da vizinhança considerada
no núcleo de difusão (ver Equação 2), t é o parâmetro de Markov e α é uma normalização escolhida para a aplicação de difusão, Coifman & Lafon (2006). Para obter esta pré-imagem fizemos
uma minimização da função f dada pela equação (3) com γ = 0, 2 com ajuda do algoritmo simulated anneling. Obtivemos uma imagem da letra A rotacionada também de 10o porém com a
iluminação muito mais próxima de X 10 , vogal original, do que da imagem escurecida, mostrando
10
que a imagem escurecida Xruido
foi efetivamente projetada no espaço das 360 vogais originais.
A Figura 1(a) representa a pré-imagem da extensão da vogal escurecida a ser comparada com
a Figura 1(b) da vogal que deu origem àquela com ruı́do (escurecimento) e a Figura 1(c) da vogal
17o Encontro Nacional de Modelagem Computacional
5o Encontro de Ciência e Tecnologia de Materiais
Universidade Católica de Petrópolis,Rio de Janeiro, RJ, Brasil. 15-17 out. 2014.
(a) Pré-imagem
(b) Vogal original
(c) Vogal escurecida
Figura 1: As figuras acima são para efeito de comparação. A vogal está rotacionada de 10o e o fator de
iluminação utilizado no item (c) foi de 0, 5. A pré-imagem ficou mais perto da vogal original do que da
escurecida mostrando que esta pré-imagem da aplicação de difusão tem capacidade de retirar o ruı́do por
fator de iluminação da imagem, denoising.
com ruı́do, ou seja, da vogal escurecida. Neste exemplo o fator de iluminação, utilizado como
ruı́do, que provocaria uma dificuldade maior de identificação da vogal original foi praticamente
eliminado com a utilização da pré-imagem da aplicação de difusão. Visualmente a pré-imagem
ficou mais perto da letra original (modelo) do que da letra escurecida. As normas das diferenças
entre elas confirmam esta impressão. A norma da diferença da pré-imagem para a vogal original
foi de 0, 4281 enquanto para a vogal escurecida que deu origem a pré-imagem foi de 1, 8400.
Pré-imagem para a hélice
Ainda com o objetivo de explorar melhor a ideia da pré-imagem de um dado (ou reconstrução
de um sinal) pela aplicação de difusão construı́mos o seguinte experimento. Consideramos uma
hélice de três voltas com o parâmetro angular variando de zero a 6π, formada por 189 pontos em
R3 . O parâmetro ε = 0, 1r2 foi utilizado para o núcleo da difusão, lembrando que r é a maior
distância entre os dados de entrada.
O exemplar considerado dentre os pontos da hélice para o nosso experimento é aqui representado por X 85 , correspondente à 85a coluna da matriz dos dados. Aqui consideramos um ruı́do nas
três componentes de X 85 com auxı́lio do comando rand do Matlab e vamos representar este novo
85
ponto de R3 como Xruido
. Calculamos a extensão deste ponto para R1 e a chamamos de b para
ser coerente com as notações da seção anterior. Para esta extensão os parâmetros utilizados foram
ε = r2 , t = 1 e α = 1. O objetivo é encontrar a pré-imagem de b. Novamente foi utilizado o simulated anneling para uma minimização da função dada pela equação (3) desta vez com γ = 0, 8.
A condição inicial escolhida para o simulated annealing foi o centróide do conjunto formado pelo
ponto X 85 e seus pontos vizinhos anterior e posterior.
Obtivemos como mı́nimo de f na equação (3) o ponto (−0.5193, 0.8555, 8.4000) de R3 que
85
é mais próximo do ponto X 85 da hélice do que do Xruido
. A norma desta diferença entre este
85
85
ponto de mı́nimo e o ponto X foi de 8, 9785e − 04 enquanto para o Xruido
foi de 9, 3923e − 04.
Foi também verificado que de todos os 189 pontos da hélice considerada o mais próximo da pré-
17o Encontro Nacional de Modelagem Computacional
5o Encontro de Ciência e Tecnologia de Materiais
Universidade Católica de Petrópolis,Rio de Janeiro, RJ, Brasil. 15-17 out. 2014.
85
imagem da extensão de Xruido
foi exatamente o ponto X 85 . Analogamente ao caso da letra A do
experimento anterior concluı́mos que a imagem ruidosa foi projetada no mesmo espaço dos 189
pontos da hélice original.
Tendo em vista este resultado para um ponto da hélice individualmente resolvemos explorar
mais este tópico aplicando raciocı́nio análogo para vários pontos e comparando os resultados das
aplicações de difusão com os resultados do PCA. Vale ressaltar que aqui utilizamos a função
objetivo dada pela equação (3) para ambos os métodos em lugar de considerarmos a reconstrução
clássica do PCA.
Desta vez, para o conjunto de treinamento consideramos apenas 38 pontos da hélice anterior
obtendo desta forma uma nuvem de pontos mais esparsa. No entanto, foram adicionados ruı́dos
aleatórios através do randn do Matlab a todos os 189 pontos da hélice original. Estes pontos ruidosos foram levados ao espaço de chegada da difusão (ou do PCA) por uma extensão (ou projeção),
respectivamente. Buscamos a pré-imagem destes pontos aplicando a técnica do simulated annealing à função objetivo dada pela equação (3) com as devidas adaptações para o caso do PCA. O
parâmetro γ = 0.09 foi utilizado em ambos os casos. Além disso para o método das aplicações de
difusão utilizamos ε = 0, 001r2 , t = 50 e α = 1.
A Figura 2 apresenta este experimento com pequeno trecho ampliado onde, em azul, estão os
pontos da hélice ideal, os pontos ruidosos estão em vermelho e as pré-imagens em verde para o
caso do PCA. A Figura 3 faz o mesmo para o caso das aplicações de difusão. Uma observação
visual nos leva a crer que as pré-imagens se aproximam mais da curva original, ideal, no caso
das aplicações de difusão. Para confirmar esta percepção, de volta ao espaço original da hélice,
fizemos a diferença entre os pontos ideais da mesma e os pontos encontrados como pré-imagem.
Consideramos o erro representado pela norma desta diferença para cada um dos 189 pontos da
hélice ideal e plotamos num mesmo gráfico o erro para as duas técnicas consideradas. A Figura 4
mostra esta comparação.
Este gráfico confirma que a técnica das aplicações de difusão com a função custo considerada
na Equação 3 é mais eficiente que o PCA quando utilizamos a pré-imagem para a retirada de ruı́dos
(denoising). A mediana dos erros para o caso da difusão foi de 0, 0501, enquanto para o PCA ficou
em 0, 1063.
5.
Conclusão
Este trabalho quis discutir a questão da pré-imagem para o caso especı́fico dos mapas de
difusão, um método não linear, mais recente de redução de dimensionalidade. A primeira dificuldade encontrada diz respeito a extensão de pontos do espaço de alta dimensão que não sejam
parte integrante dos dados originais da pesquisa. Com a finalidade de encarar este problema uma
adaptação da extensão de Nyström para este caso especı́fico da difusão foi utilizada. Criamos uma
função custo (ver Equação 3) que nos permitiu encontrar a pré-imagem que melhor se ajustasse ao
conjunto de treinamento dado e a extensão utilizada.
Um experimento geométrico com uma hélice ideal onde alguns pontos foram acrescidos de
ruı́do foi apresentado como forma de visualizar a questão da pré-imagem. O parâmetro ε no
denominador do núcleo gaussiano para a difusão foi escolhido como 0, 1% da máxima distância
euclidiana entre os dados do experimento e o parâmetro de Markov foi t = 50. Com o parâmetro
17o Encontro Nacional de Modelagem Computacional
5o Encontro de Ciência e Tecnologia de Materiais
Universidade Católica de Petrópolis,Rio de Janeiro, RJ, Brasil. 15-17 out. 2014.
Hélice ideal
Pontos com ruídos
Pré-imagens
Figura 2: Hélice ideal(em azul) com alguns de seus pontos modificados por pequenos ruı́dos aleatórios
(em vermelho) e as pré-imagens correspondentes (em verde) para o caso do PCA. Um pequeno trecho foi
ampliado para melhor visualização.
Hélice ideal
Pontos com ruídos
Pré-imagens
Figura 3: Hélice com pequeno trecho ampliado onde conseguimos ver seus pontos ruidosos (em vermelho)
e as pré-imagens correspondentes (em verde) para o caso das aplicações de difusão.
17o Encontro Nacional de Modelagem Computacional
5o Encontro de Ciência e Tecnologia de Materiais
Universidade Católica de Petrópolis,Rio de Janeiro, RJ, Brasil. 15-17 out. 2014.
Figura 4: Esta figura apresenta os erros gerados pela aplicação de difusão (em azul) e pelo PCA (em verde)
no que diz respeito a reconstrução para o experimento da hélice.
regularizador γ = 0, 09 da função custo para a pré-imagem rodamos o algoritmo com ajuda do
simulated annealing tanto para os mapas de difusão quanto para o PCA com as devidas adaptações.
Notamos que as pré-imagens ficaram mais próximas da hélice ideal para o primeiro, como era de
se esperar já que este último é originalmente um método linear.
Referências
Arias, P. & Randall, G. & Sapiro, G., 2007. Connecting the out-of-sample and pre-image problems in kernel methods. In Computer Vision and Pattern Recognition, 2007. CVPR’07. IEEE
Conference on, pp.1-8, 2007.
Pinto, L. M. dos S., 2014. Mapeamento de difusão para reconhecimento e reconstrução de sinais.
Instituto politécnico IPRJ/ Universidade do Estado do Rio de Janeiro UERJ - PhD Thesis, 2014.
Etyngier, P. & Segonne, F. & Keriven, R., 2007. Shape priors using manifold learning techniques.
Computer Vision, 2007. ICCV 2007. IEEE 11th International Conference on. In IEEE, pp.1-8,
2007.
Kwok, JT-Y & Tsang, IW-H, 2004. The pre-image problem in kernel methods. In IEEE, volume 15(6), pp.1517-1525, 2004.
Mika, S. & Schölkopf, B. & Smola, A. J. & Müller, Klaus-Robert & Scholz, M. & Rätsch, G.,
1998. Kernel PCA and De-Noising in Feature Spaces. In NIPS, volume 11, pp.536-542, 1998.
Coifman, R.R. & Lafon, S. & Lee, A. B. & Maggioni, M. & Nadler, B. & Warner, F. & Zucker,
S.W., 2005. Geometric diffusions as a tool for harmonic analysis and structure definition of
17o Encontro Nacional de Modelagem Computacional
5o Encontro de Ciência e Tecnologia de Materiais
Universidade Católica de Petrópolis,Rio de Janeiro, RJ, Brasil. 15-17 out. 2014.
data: Diffusion maps In Proceedings of the National Academy of Sciences of the United States
of America, volume 102-21, pp.7426, 2005. National Acad Sciences.
Coifman, R.R. & Lafon, S., 2006. Diffusion maps In Applied and computational harmonic analysis, volume 21-1, pp.5-30, 2006. Elsevier.
Lafon, S. & Lee, A. B., 2006. Diffusion maps and coarse-graining: A unified framework for dimensionality reduction, graph partitioning, and data set parameterization In IEEE Transactions
on Pattern Analysis and Machine Intelligence, volume 28-9, pp.1393-1403, 2006.
Pre-image with diffusion maps
The diffusion map, one of the most recent method for dimensionality reduction, Coifman & et
al. (2005), may only be calculated in the inputs, X i , in a set of training, E = {X 1 , X 2 , . . . X n }.
This is an issue that does not arise for the now traditional PCA, principal component analysis,
where there is no difficulty in calculating the projections of new points outside the given set. This
gets to be a first hurdle to find the pre-image for diffusion maps. That is why in this work we
consider the issue of the extension, ie extend the diffusion map to the whole space Rd , which
contains E, set of first data signals, with the help of already known Nyström extension. Thus we
can address the issue of pre-image of the characteristics (or features) corresponding to a any signal
of Rd that has been widespread in the space of lower dimension. This reversal or reconstruction
of a signal, in the case of PCA, is simpler when considering the linear natural option involving
the main directions, but it is a subject of recent research in the case of diffusion map. In the
last experiment exposed in this work we use a cost function based on data to find the pre-image
in the case of application of diffusion. When looking for such pre-image we realized we could
also reverse the PCA non-linearly by simply taking into account the experimental data. We find it
interesting then to compare these pre-images, and it is expected that the PCA did not work as well
as maps of diffusion, since it is originally a linear method.
Keywords: pre-image, extension, diffusion maps, principal component analysis
Download

Pré-imagem com mapas de difus˜ao Lúcia Maria dos Santos Pinto