Análise das Componentes Principais
PCA
Paulo Adeodato
Germano Vasconcelos
Grupo de Inteligência Computacional
Departamento de Informática
Universidade Federal de Pernambuco
Análise das Componentes Principais (PCA)
ou Transformada Karhunen-Loéve
Utilizada para redução de dimensão do espaço de
entrada
 Minimizar a perda ao reduzir a dimensão do espaço
(soma dos erros quadráticos, medidas de
covariância, entropia da população etc.)
 Transformação linear (mudança de base do espaço)
 Técnica não-supervisionada (ignora a que classes os
dados de entrada pertencem)

Procedimento
Montar a matriz de covariância do conjunto de
treinamento
 Fazer a mudança de base para a matriz de autovetores
da matriz de covariância
 Re-ordenar os auto-vetores dessa matriz em ordem
decrescente dos auto-valores correspondentes
 Manter os k primeiros vetores (k componentes principais)
da matriz, descartando os de ordem inferior que
totalizam um erro de reconstrução  = ½ k+1, m i
 Multiplicar todos os exemplos de treinamento, validação
e teste por essa matriz

Procedimento Ilustrado
Vetor de
Características
=
kx1
Matriz de
Transformação
x
kx m
Vetor de
Entrada
kx1
Procedimento Exemplo do Projeto SAPRI
300 imagens de 32x32 pixels (usando o IDL)
Matriz de
Imagens
Matriz de
Covariância
300x1024
Matriz de
Transformação
kx1024
1024x1024
Matriz de
Autovetores
Decrescente
1024x1024
Procedimento Exemplo do Projeto SAPRI
Dimensão Reduzida x Erro de Reconstrução

54 x z%
81 x z2%
PCA
Porcentagem de Perda de
Reconstituição

30%
25%
20%
15%
10%
5%
0%
0
100 200 300 400 500 600 700 800 900 1000 1100
Núm ero de Características
Tipos de Transformações

Geométricas
• Globais (Fourier, Walsh-Hadamard etc.)
• Locais (Wavelets de Gabor)

Estatísticas
• Globais (PCA etc.)
• Locais (Filtros de média etc.)
Reversibilidade das Transformações
[F] = W[]W
T
W= W
[] = W[F]W
Transformada Walsh-Hadamard
H2N 
H2 
 HN HN 


 HN - HN 
1
1 1


2 1 1
Download

Data Mining - Centro de Informática da UFPE