Análise Fatorial
Factor analysis
1
Análise Fatorial
Objetivo: Estudar a estrutura de
dependência existente em um conjunto
de variáveis através da criação de
fatores que, eventualmente, expressam
constructos subjacentes aos dados.
Spearman (1904) - medida de inteligência
2
Análise Fatorial
Situação comum: observar grande
número de variáveis
• Como caracterizar a amostra
• Como descrever a inter-relação entre
as variáveis
3
Constructos
Definir o que e como medir
•
•
•
•
nível de ansiedade
satisfação
bem-estar
percepção
4
Exemplo: Escala IDATE-T
X1
X9
X10
X11
X13
X16
X17
X18
Sinto-me bem
Preocupo-me demais com as coisas sem
importância
Sou feliz
Deixo-me afetar muito pelas coisas
Sinto-me seguro
Estou satisfeito
Às vezes idéias sem importância me
entram na cabeça e ficam me preocupando
Levo os desapontamentos tão a sério que
não consigo tirá-los da cabeça
5
Matriz de Correlação
X1
X10
X13
X16
X9
X11
X17
X18
X1
1.00
0.58
0.39
0.51
-0.14
-0.20
-0.18
-0.32
X10
X13
X16
X9
X11
X17
X18
1.00
0.47
0.66
-0.16
-0.24
-0.20
-0.33
1.00
0.54
-0.31
-0.38
-0.33
-0.37
1.00
-0.22
-0.32
-0.25
-0.40
1.00
0.46
0.53
0.40
1.00
0.46
0.48
1.00
0.48
1.00
6
Modelo de Análise Fatorial
Variáveis
originais
AF
Fatores
comuns
X1
1
X2
2


Xp
m
m<p
7
Modelo de Análise Fatorial
X1  1   11 1  12  2  ...   1m  m   1
X 2   2   21 1  22  2  ...   2m  m   2
...
X p   p   p1 1  p2  2  ...   pm  m   p
1, …, m: fatores comuns
1, …, p: fatores únicos ou específicos
8
Modelo de Análise Fatorial
Modelo na forma matricial:
X -  =  + 
X = (X1, X2, …, Xp)T,  = (1, 2, …, m)T,
 = ( 1,  2, …,  p)T
 11

 21




 p1
12  1m 

22  2m 

p2
 

 pm 

9
Modelo esquematizado
1
2
X1
X2
1
2
m
p
Xp
10
Características impostas ao
modelo
• Os fatores únicos são não correlacionados.
• Os fatores comuns e únicos são não
correlacionados entre si.
• Os
fatores
comuns
são
não
correlacionados (esta suposição pode ser
abandonada em alguns tipos de AF).
• As variâncias dos fatores comuns são
iguais a 1.
11
Análise do modelo
Xi  i1 1  i2 2  ...  im m   i
Var Xi   Var i1 1  i2 2  ...   im m   i 
  Var Xi       ...   Var( i )
2
i
2
i1
2
i2
2
im
i2  c i2  i
Ci2 = comunalidade ou variância comum
i = especificidade
12
Análise do modelo
  c  i
2
i
2
i
Ci2 = comunalidade ou variância comum:
expressa o quanto da variabiliade de Xi é
explicada pelo modelo (se Var (Xi)=1 pode
ser encarada como uma proporção)
i = especificidade: expressa o quanto da
variabilidade de Xi não é explicada pelo
modelo.
Um
bom modelo deve apresentar uma
comunalidade alta para todas as variáveis
13
Alguns métodos de
estimação
• Máxima verossimilhança: supõe que os
dados seguem uma distribuição normal
multivariada.
• Método da componente principal:
baseia-se na análise de componentes
principais.
14
Método da componente principal
Modelo: X = + 
Var(X)  Σ    Ψ
T
Decomposição espectral de :
Σ      ...  mm  ...  pp
~
T
1 1 1
~ ~
~ ~

~~
T
m
T
p
~ ~
T
15
Método da componente principal
Σ    ...  pp
T
Σ    Ψ
T


 11 ,
T
p
 2  2 , ,  m  m

 i   i1,  i2 , ..., ip 
T
m
ψi  σ    j
2
i
j 1
2
ji
16
Método da máxima
verossimilhança
Suposição: distribuição normal
Estimação dos parâmetros
 = T + 
Restrição:
T -1  : diagonal
17
Resultado importante
 = T + 
 =  T
 T +  = ( T)( T)T + 
=  T TT T +  = T +  = 
18
Rotação VARIMAX
Var(X)  Σ    Ψ
T
Há infinitas matrizes que resultam na mesma
matriz T. Essas matrizes podem ser
obtidas através da rotação de uma solução
inicial (por exemplo, oriunda do método
das componentes principais).
Problema:
solução?
Como
escolher
uma
boa
19
Rotação - Interpretação
geométrica
2
Exemplo: Solução com
dois fatores
1 e 2 definem um plano
1
1* e 2* , obtidos através de
uma rotação ortogonal dos
eixos, definem o mesmo
plano. Logo representam
uma solução equivalente.
20
Quantos fatores usar?
• Critério de Kaiser
• Porcentagem da variância total
explicada
• Atingir comunalidade fixada
• Critério scree-test
• Métodos inferenciais
21
4
3,5
3
2,5
2
1,5
1
0,5
0
0
2
4
6
Componentes
8
10
22
Exemplo
X1
X9
X10
X11
X13
X16
X17
X18
Sinto-me bem
Preocupo-me demais com as coisas sem
importância
Sou feliz
Deixo-me afetar muito pelas coisas
Sinto-me seguro
Estou satisfeito
As vezes idéias sem importância me
entram na cabeça e ficam me preocupando
Levo os desapontamentos tão a sério que
não consigo tirá-los da cabeça
23
Autovalores
Componente Autovalores
1
2
3
4
5
6
7
8
3.525
1.504
0.665
0.614
0.512
0.444
0.425
0.311
% da
Variância
44.06
18.80
8.31
7.68
6.40
5.55
5.31
3.89
%
Acumulada
44.06
62.86
71.17
78.85
85.25
90.80
96.11
100.00
24
Comunalidades 2 fatores
X1
X9
X10
X11
X13
X16
X17
X18
Comunalidades
0.657
0.644
0.758
0.536
0.497
0.719
0.670
0.548
25
Cargas Fatoriais
X1
X9
X10
X11
X13
X16
X17
X18
1
0.678
-0.549
0.719
-0.633
0.679
0.751
-0.593
-0.686
2
0.445
0.585
0.492
0.367
0.192
0.392
0.564
0.279
26
Gráfico das Cargas Fatoriais
1
2
0,8
0,6
0,4
0,2
1
0
-1
-0,5
-0,2 0
0,5
1
-0,4
-0,6
-0,8
-1
27
Rotação
1
2
0,8
0,6
0,4
0,2
1
0
-1
-0,5
-0,2 0
0,5
1
-0,4
-0,6
-0,8
-1
28
Cargas Fatoriais Rotacionadas
X1
X9
X10
X11
X13
X16
X17
X18
1*
0.804
-0.038
0.866
-0.244
0.641
0.826
-0.086
-0.341
2*
-0.101
0.802
-0.092
0.690
-0.294
-0.189
0.814
0.657
29
Cargas Fatoriais Rotacionadas
X1
X9
X10
X11
X13
X16
X17
X18
1*
2*
0.804
-0.038
0.866
-0.244
0.641
0.826
-0.086
-0.341
-0.101
0.802
-0.092
0.690
-0.294
-0.189
0.814
0.657
X1
X9
X10
X11
X13
X16
X17
X18
Sinto-me bem
Preocupo-me demais com as coisas sem
importância
Sou feliz
Deixo-me afetar muito pelas coisas
Sinto-me seguro
Estou satisfeito
As vezes idéias sem importância me
entram na cabeça e ficam me preocupando
Levo os desapontamentos tão a sério que
não consigo tirá-los da cabeça
30
Interpretação
• Fator 1: Satisfação pessoal
• Fator 2: Dificuldade em lidar com
problemas
31
Escores Fatoriais
• Métodos dos mínimos quadrados ponderados
xi -  = i + i
Minimizar: (xi -  - i)T -1 (xi -  - i)
EMQ(fi) = (T -1 )-1 T -1 (xi - )
32
Escores Fatoriais
• Métodos da regressão
 e  : distribuição normal

x

  N p  m  0,
  


 T

 
 
Im 
ER(i) = T (T + )-1 (xi - )
33
Viabilidade da AF
matriz anti-imagem
X1
X9
X10
X11
X13
X16
X17
X18
X1
X9
-0.03
-0.34
0.00
-0.08
-0.15
0.00
0.11
-0.02
-0.22
0.09
0.00
-0.34
-0.11
X10
X11
X13
X16
X17
X18
-0.02
-0.14 0.14
-0.43 0.07 -0.26
0.00 -0.17 0.08 -0.02
-0.03 -0.24 0.03 0.12 -0.24
Coeficiente de correlação parcial entre os pares, excluindose o efeito das demais variáveis.
Esperam-se valores baixos.
34
Viabilidade da AF
Coeficiente KMO: Kaiser-Meyer-Olkin
p
KMO 
p
 r
i 1 j 1
p
p
r
i 1 j 1
2
ij
2
ij
p
p
  aij2
i 1 j 1
a2ij é a correlação parcial entre Xi e Xj,
eliminado o efeito das demais variáveis
35
Interpretação da KMO
Escala IDATE: 0,841
KMO
Interpretação
0.90 - 1.00
Excelente
0.80 - 0.90
Ótimo
0.70 - 0.80
Bom
0.60 - 0.70
Regular
0.50 - 0.60
Ruim
0.00 - 0.50 Inadequado
0.80 - 1.00
Excelente
0.70 - 0.80
0.60 - 0.70
Ótimo
Bom
0.50 - 0.60
0.00 - 0.50
Regular
Insuficiente
36
Viabilidade da AF
MSA: Measure of sampling adequacy
p
MSAi 
r
j 1
p
2
ij
p
r  a
j 1
2
ij
j 1
2
ij
a2ij é a correlação parcial entre Xi e Xj,
eliminado o efeito das demais variáveis
37
Interpretação da MSA
Para o exemplo IDATE
Variável
X1
MSA
0.853
X9
0.818
X10
X11
X13
X16
X17
X18
Média
0.789
0.865
0.899
0.820
0.820
0.878
0.843
38
Avaliação do ajuste do
modelo
ˆ
Res    
ˆ
ˆT  
ˆ
ˆ  
resumo: raiz do quadrado médio residual
p
RQMR 
p
 ( 
i 1 j 1
ij
 ˆ ij ) 2
p ( p  1) / 2
39
Exemplo IDATE
RQMR = 0.106
X1
X1
X9
X10
X11
X13
X16
X17
X18
-0.05
-0.11
0.01
-0.14
-0.15
-0.04
0.00
X9
X10
X11
X13
-0.05
-0.14 0.01
0.02 -0.10 0.03
-0.01 -0.07 0.00 -0.06
-0.12 -0.04 -0.16 0.04
-0.14 0.04 -0.08 0.10
X16
X17
X18
0.01
0.03 -0.09
40
1
X1
1
X1
10
X10
10
X10
13
X13
13
X13
16
X16
16
X16
9
X9
9
X9
11
X11
11
X11
17
X17
17
X17
18
X18
18
X18
1
2
1
2
41
Comentários
Sucesso
• Número pequeno de fatores
• fatores interpretáveis
Insucesso
• Tamanho insuficiente da amostra
• variáveis com fraca dependência
• estrutura não homogênea (grupos)
42
Download

Análise Fatorial