ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
Análise Factorial
O propósito essencial da análise factorial é descrever, se possível, a estrutura
de covariâncias entre as variáveis em termos de um nº menor de variáveis (não
observáveis) chamadas factores. Por outras palavras, a análise factorial estuda
os inter-relacionamentos entre as variáveis, num esforço para encontrar um
conjunto de factores (em menor nº que o conjunto de variáveis originais) que
exprima o que as variáveis originais partilham em comum.
1
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
Basicamente o modelo de análise factorial é motivado pelo seguinte:
Suponhamos que as variáveis podem ser agrupadas tendo em conta as
correlações entre elas. Isto é, todas as variáveis de um dado grupo estão
fortemente correlacionadas entre si, mas têm correlações relativamente
pequenas com variáveis de outro grupo. É concebível que cada grupo de
variáveis represente um factor, factor esse que é responsável pelas
correlações observadas.
2
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
Em geral o primeiro passo a dar neste tipo de análise, consiste no exame das
relações entre as variáveis utilizando o coeficiente de correlação como medida
de associação entre cada par de variáveis. A matriz de correlações poderá
permitir identificar subconjuntos de variáveis que estão muito correlacionadas
entre si no interior de cada subconjunto, mas pouco associados a variáveis de
outros subconjuntos. Neste caso a aplicação da análise factorial permitir-nos-á
concluir se é possível explicar este padrão de correlações através de um menor
nº de variáveis - os factores.
De forma resumida, podemos dizer que a análise factorial é uma técnica
estatística usada para identificar um número relativamente pequeno de factores
que podem ser usados para identificar relacionamentos entre um conjunto de
muitas variáveis inter-relacionadas entre si.
3
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
EXEMPLO:
Suponha que um director de uma fábrica de automóveis pretende entender o
que leva um consumidor a escolher um modelo específico de automóvel, isto é,
quais os factores que levam os consumidores a escolher um modelo específico
de automóvel. Para isso foram consideradas as opiniões de um conjunto de
consumidores acerca da importância das seguintes variáveis para a escolha de
um automóvel:
CRB - custos de reparação baixos VC - variedade de cores à disposição
EIA - espaço interior amplo
BC - bom consumo
FM - fácil de manejar
DM - design moderno
BM - bom motor
PRA - preço de revenda alto
C - confortável
AS - aparência suave
FC - fácil de conduzir
MA - modelo atraente
MG - mala grande
FE - fácil de estacionar
4
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
É difícil avaliar 14 variáveis separadamente ou desenvolver planos de acção
tendo em conta tantas variáveis.
Em vez disso seria ideal saber como pensam os consumidores em termos de
dimensões (factores) mais gerais.
Para identificar estas dimensões foi aplicada a análise factorial, cujos resultados
sugerem que as 14 variáveis podem ser caracterizadas por
4 factores (I, II, III e IV) relacionados com
I
l conforto
II
l custo/eficiência
III l estilo
IV l facilidade de manipulação
5
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
CRB
VC
FM
DM
MA
AS
FC
FE
MG
EIA
CRB
PRA
II
MG
BM
BC
C
PRA
BM
EIA
BC
I
C
III
VC
FM
IV
FE
FC
DM
AS
MA
6
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
MODELO FACTORIAL (ORTOGONAL)
T
Seja X =(X1, X2,...,Xp) um vector aleatório de média PT=(P1, P2,..., Pp) e matriz de
covariâncias 6.
Modelo de análise factorial:
X1-P1= l11F1+ l12F2 +...+ l1mFm +H1
X2-P2= l21F1+ l22F2 +...+ l2mFm +H2
Xp-Pp= lp1F1+ lp2F2 +...+ lpmFm +Hp
em notação matricial:
X-P = LF + H
(px1)
(pxm)
(px1)
7
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
onde:
x lij - loading (ou peso) da variável Xi no factor Fj
ªl11 l1m º
»
«
x L= « » - matriz de loadings
«¬l p1 l pm »¼
T
x F = >F1 F2 Fm @ - vector de variáveis aleatórias não observáveis
chamadas factores comuns
T
x H = >H1 H 2 H m @ - vector de variáveis aleatórias não observáveis
chamadas factores específicos ou factores únicos
8
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
Note que:
i) o factor específico Hi está associado apenas com a variável Xi;
ii) os p desvios X1-P1, X2-P2,..., Xp-Pp são expressos em termos de p+m
variáveis não observáveis: F1, F2,...,Fm, H1, H2,..., Hp.
Pressupostos:
x
ª E(F1 ) º ª0º
«E(F ) » « »
2
» = «0 »
E(F) = «
« » «»
«E(F )» ¬«0»¼
¬ m ¼
x
ª1 0 0º
«0 1 0 »
T
»
Cov(F) = E(FF ) = I = «
« »
»
«
¬0 0 1 ¼
o
os
factores
independentes entre si
são
9
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
x
ªE(İ 1 ) º ª0º
«E(İ )» « »
2
» = «0 »
E(H) = «
« » «»
«E(İ )» «0»
¬ p ¼ ¬ ¼
x
ª\1 0
«0 \
2
T
Cov(H) = E(HH ) = < = «
«
«
0
¬0
x
F e H são independentes
0º
0»
» m matriz diagonal
»
»
\p ¼
logo
Cov(Hi, Fj) = E(Hi Fj) - E(Hi) E(Fj) = 0,
e
ª Cov(İ 1,F1 ) Cov(İ 1,F2 )
«Cov(İ ,F ) Cov(İ ,F )
2
1
2
2
Cov(H, F) = E(H FT) = «
«
«Cov(İ ,F ) Cov(İ ,F )
p
1
p
2
¬
i=1,2,...p
e
j=1,2,...m
Cov(İ 1,Fm ) º
Cov(İ 2 ,Fm )»
» =0
»
Cov(İ p ,Fm )»¼
10
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
Estrutura de covariâncias para o modelo:
1.
¦ = Cov(X) = LLT + <
i.e.
2
Var(Xi) = l i12 l i22 l im
<i
,
h i2
variância
específica
comunalidade
Cov(Xi,Xk) = li1 lk1 + li2 lk2 +}+ lim lkm
2.
Cov(X,F) = L
i.e.
Cov(Xi,Fj) = lij
11
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
Em que:
-
h i2 – comunalidade
p
porção da Var(Xi)
que pode ser atribuída aos factores comuns
explicada pelos factores comuns
que é partilhada com todas as outras variáveis
-
<i – variância especifica
p
˜ porção da Var(Xi) que é específica de Xi e que não está associada com
outras variáveis
˜ indica até que ponto os factores comuns falham na explicação da
variância total da variável
-
l ij2 – contribuição do factor Fj para a variância de Xi
12
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
Ambiguidade associada ao modelo:
A matriz L de loadings é determinada a menos de uma transformação
ortogonal.
Se L é a matriz de loadings associada a um modelo factorial e T é uma matriz
ortogonal (i.e., tal que TTT=I), então a matriz L* = LT é também uma matriz
admissível para o modelo factorial:
* *
T
X - P = LF + H = LT
T
F
+
H
=
L
F +H
,
I
com
˜ F* e H independentes
˜ E(F*) = 0
˜ E(H) = 0
e
e
Cov(F*) = I
Cov(H) = <
As comunalidades dadas na diagonal de LLT e de L*(L*)T não são afectadas
pela escolha de T.
13
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
Métodos de Estimação:
Dadas n observações das p variáveis correlacionadas X1, X2,...,Xp, a análise
factorial procura responder à questão:
Será que o modelo factorial ortogonal com um pequeno nº de factores
representa adequadamente os dados?
Para tal, à que tentar verificar a estrutura de covariâncias do modelo.
Quando os elementos fora da diagonal principal da matriz amostral de
covariâncias S forem muito pequenos, ou no caso da matriz amostral de
correlações R forem próximos de zero, as variáveis não estão relacionadas ou
estão pouco relacionadas e a análise factorial não será útil.
14
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
Nestas circunstâncias os factores específicos têm um papel dominante e o
objectivo principal da análise factorial é determinar alguns factores comuns.
Por isso, uma vez calculada a matriz amostral de correlações, se existirem
variáveis não correlacionadas em número elevado deverá ser testada a validade
de aplicação deste tipo de análise.
15
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
Existem vários métodos de estimação (ou de extracção de factores), de entre os
quais:
 método das componentes principais - principal components;
 método da máxima verosimilhança - maximum likelihood;
 método dos mínimos quadrados - unweighted least squares (ULS) e
generalized least squares (GLS);
 principal-axes factoring;
 método alfa.
16
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
Método das componentes principais:
É um método para estimar L, que se baseia no seguinte:
1
¦
1
T
2
2 T
PD
,D
P CC
C
onde:
P
>a
1
CT
a2 ap @
m
matriz ortogonal cujas colunas são os vectores
próprios de ¦
Ȝ1
0
0
0
Ȝ2
0
D
Oi
m i-ésimo maior valor próprio da matriz ¦
ai
m vector próprio normalizado associada a Oi
0
Ȝ2
0
ª
«
«
«
«
¬«
ªȜ 1
«0
«
«
«
¬0
0º
0»
»
»
»
Ȝp ¼
e
D
1
2
0 º
»
0 »
»
»
Ȝ p ¼»
17
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
As variâncias específicas são nulas se são considerados tantos factores como
variáveis. Mas é desejável ter m<p factores.
Um procedimento possível quando os últimos p-m valores próprios são
pequenos é negligenciar a contribuição de O m 1a m 1a mT 1 O p a p a pT para ¦.
Desprezando as últimas colunas da matriz C, tem-se a matriz L:
>
C= O 1 a1 Op ap
@
o L= > O 1 a1 Om am @ ,
com m < p
¦ = CCT = O 1a 1a 1T O m a m a mT O m 1a m 1a mT 1 O p a p a pT
# LLT + <
onde Ȍi
m
Var(X i ) ¦ O i a ij2
j 1
p
2
¦ O i a ij
j m 1
18
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
Solução das componentes principais do modelo factorial:
~
L
>
O1 a 1
O2a2
Omam @
i.e.
~
lij
O j a ij
~
ªȌ1 0 0 º
~
«
»
m ~
elementos da
~ « 0 Ȍ2 0 »
~
~~ T
onde Ȍ i s ii ¦ lij 2 m diagonal de S - L
Ȍ
L
« j 1
»
«
~ »
0 Ȍ p »¼
«¬ 0
~
~
~
~
hi2 li12 li22 lim2
m soma dos quadrados da linha i de L
m
2
¦ O j a ij
m é exactamente a comunalidade do modelo 1 da ACP
j 1
~
porção da Var(Xi) explicada pelos factores comuns onde lij 2
O j a ij2 é a
contribuição do j-ésimo factor comum para a Var(Xi)
Nota: Usamos S estimativa de ¦, mas também se pode fazer para R estimativa de U.
19
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
Escolha do nº de factores:
Dado que o objectivo é identificar m factores que expliquem a estrutura de
covariâncias, devemos escolher m tal que, o que se despreza na matriz de
covariâncias estimadas seja quase nulo, i.e.,
~~
~
S - L L T < # 0 m matriz residual
Os elementos diagonais são nulos, mas se o que está fora da diagonal também
for próximo de zero, então o valor de m considerado é apropriado:
soma dos quadrados das
~~
~ d
entradas de S - L L T <
O2m1 O2p
um valor baixo para a soma dos quadrados dos valores
próprios rejeitados implica um valor baixo para a soma
dos quadrados dos erros cometidos na aproximação
20
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
Outra maneira de determinar m:
Oj
Oj
para uma análise
factorial de S
p
s11 s22 spp
¦ Oi
i 1
Oj
para uma análise
factorial de R
p
proporção da variância total amostral
explicada pelo j-ésimo factor
Escolhemos m, de modo a que uma proporção suficiente da variância total amostral
seja explicada.
Outras regras:
valor próprio maior que 1 (análise a partir de R)
scree-test
21
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
Resumindo, a solução apresentada por este método escolhe para os m
factores as primeiras m componentes principais divididas pela raiz quadrada da
sua variância
Fj
Yj
Oj
Yj
j=1,…,m
Var(Yj )
Estimando os loadings da seguinte maneira:
lij =
O j a ij
estamos a considerar o modelo
Xi
O 1 a i1F1 O m a imFm O P a iPFP
estimativa dos
factores específicos H i
e portanto o modelo factorial estimado é:
m
Xi
¦ l ijFj İ i , i = 1,…,p
j 1
com
lij =
O j a ij
22
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
Neste modelo estimado, cada factor comum tem variância unitária, e os factores
são não correlacionados.
Mais, os factores comuns são não correlacionados com os factores específicos.
No entanto, note-se que a covariância entre Hi e Hk é
p
Cov(İ i , İ k )
¦ a ij a kj Ȝ j
izk
j m 1
Como estas covariâncias não são necessariamente nulas, isto constitui uma
violação dos pressupostos originais do modelo.
23
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
TABELA DE RESULTADOS
Análise feita a partir da matriz de covariâncias amostral S.
Loadings
j
O j aij
lij =
Y1
X1
i
O1 a11
Xp
Soma dos quadrados por
coluna = Oj
}
Yn
m
}
Ȝ m a1m
O1 a p1
Soma dos quadrados por linha
Comunalidades hi
¦ Ȝ ja1j2
j 1
}
Ȝ m a pm
h12
m
¦ Ȝ japj2
hp2
j 1
total em linha = total em coluna
O1
}
Om
O1+}+ Om =
m
m
j 1
j 1
¦ Ȝ ja1j2 + }+ ¦ Ȝ japj2
proporção da variância total
explicada pelos m factores
proporção da variância
total amostral explicada
pelo j-ésimo factor
Ȝm
Ȝ1
p
¦ Ȝi
i 1
}
p
¦ Ȝi
i 1
m
¦Ȝj
j 1
p
¦ Ȝi
i 1
24
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
Este quadro de resultados, resume o essencial de uma aplicação da ACP ou da
Análise Factorial (AF) pelo método das componentes principais.
Apesar de ACP e AF se tratarem de duas técnicas conceptualmente diferentes,
na prática os resultados da ACP e da AF pelo método das componentes
principais, podem ser resumidos na tabela anterior, sendo válidas as
respectivas interpretações.
Se a análise é feita a partir da matriz de correlações R, o quadro é o mesmo,
mas Oj e aj são extraídos da matriz R.
25
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
EXEMPLO
Consideremos novamente o exemplo (exercício 6).
15 alunos de uma determinada escola foram classificados a 6 disciplinas
Na ACP identificaram-se 2 componentes principais, a reter:
1º Factor: Factor Geral de Inteligência
2º Factor: Factor Matemática / não Matemática
Se aplicarmos a AF pelo método das componentes principais, os factores
comuns podem ser obtidos dividindo as 2 componentes principais pela raiz
quadrada dos valores próprios:
F1
F2
Y1
O1
Y2
O2
0.33 u X 1 0.41u X 2 0.44 u X 3 0.44 u X 4 0.39 u X 5 0.42 u X 6
3.87
0.53 uX 1 0.42 u X 2 0.3 u X 3 0.31u X 4 0.45 u X 5 0.39 u X 6
1.55
26
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
As variáveis podem-se escrever em função dos factores da seguinte maneira:
X1
0.33
0.53
3.87
u
u F1 1.55
u
u F2 İ 1
0.65
X2
0.66
0.41
0.42
3.87
u
u F1 1.55
u
u F2 İ 2
0.81
X6
0.52
0.42
1.55
3.87
u
u F1 u
0.39
u F2 İ 1
0.49
0.83
com İ i
Ȝ 3 a i3 F3 Ȝ 6 a i6 F6
,
,
Y3
Ȝ3
Y6
Ȝ3
O quadro de resultados do slide 4 da secção anterior resume o essencial da AF
pelo método das componentes principais.
Este exemplo ilustra bem o motivo pelo qual existe dificuldade na distinção das
duas técnicas.
27
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
ESTIMAÇÂO DOS VALORES DOS FACTORES (FACTOR SCORES)
Ao contrário do que se passa com a ACP, onde os scores das componentes
principais são determinados, os scores dos factores na AF têm de ser
estimados, isto resulta do facto de no modelo da AF existirem mais parâmetros
a estimar do que valores observados.
Existem diversos métodos para estimação dos scores dos factores, sendo os
mais usados:
ƒ Método de Bartlet ou método dos mínimos quadrados ponderados;
ƒ Método de Thompson ou método de regressão.
28
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
Conclusão:
¾ a ACP procura resumir a informação presente num conjunto de variáveis
correlacionadas através de um modelo matemático concreto, bem definido
e conduz geralmente a uma única solução;
¾ a AF procura encontrar a explicação, sobre a forma de um ou mais
factores latentes, para as relações existentes entre as variáveis e é
passível de várias soluções igualmente aceitáveis.
29
Download

Análise Factorial