ANÁLISE
FACTORIAL DE
COMPONENTES
PRINCIPAIS
Análise Factorial de Componentes Principais
A análise factorial é um nome genérico para uma classe de
procedimentos utilizados para redução de dados.
A análise factorial avalia as interdependências entre todas
as variáveis de um estudo e procura um conjunto sumário
de factores que seja representativo das variáveis originais.
AFCP – Exemplo
Como é que os consumidores avaliam um banco?
Um inquérito aos consumidores pediu-lhes que avaliassem
a importância de 15 atributos de um banco. Foi utilizada
uma escala de 5 pontos, desde não importante até muito
importante.
Após a aplicação da AFCP, os 15 atributos iniciais
resultaram em 4 factores: serviços tradicionais,
conveniência, visibilidade e competência.
AFCP – Exemplo
Serviços tradicionais incluíram:
• Taxas de juros sobre empréstimos
• Reputação na comunidade
• Taxas baixas sobre cheques
• Serviço personalizado e amigável
• Extractos mensais de fácil leitura
• Fácil obtenção de empréstimos
AFCP – Exemplo
Conveniência incluiu:
• Boa localização de agências
• Boa localização de ATMs
• Rapidez de serviço
• Horas de serviço convenientes
AFCP – Exemplo
Visibilidade incluiu:
• Recomendações de amigos e familiares
• Atractividade das instalações
• Envolvimento na comunidade
• Facilidade de obtenção de empréstimos
AFCP – Exemplo
Competência incluiu:
• Competência dos funcionários
• Existência de serviços bancários auxiliares
AFCP – Utilização
A análise factorial utiliza-se nas seguintes circunstâncias:
• Para identificar as dimensões subjacentes, ou seja, os
factores, que explicam as correlações entre as variáveis.
• Para identificar um novo conjunto, mais pequeno, de
variáveis não correlacionadas, para substituir o conjunto
de variáveis originais em análises estatísticas
subsequentes.
AFCP – Modelo (1)
Matematicamente a análise factorial é similar à regressão
múltipla pelo facto de cada variável ser expressa como uma
combinação linear de factores subjacentes.
A quantidade de variância que uma variável partilha com
outras variáveis incluídas na análise denomina-se
comunalidade.
AFCP – Modelo (2)
A co-variância entre as variáveis é descrita em termos de
um pequeno número de factores comuns e de um factor
único para cada variável:
X i  Ai1F1  Ai 2 F2  ... Aim Fm  ViUi
Xi – i-ésima variável
Aij – coeficiente de regressão múltipla para a variável i, factor j.
F – factor comum
Vi – coeficiente de regressão múltipla para a variável i, factor único i.
Ui – factor único para a variável i.
m – número de factores comuns
AFCP – Modelo (3)
Os factores comuns podem ser expressos
combinações lineares das variáveis observadas.
Fi  Wi1 X1  Wi 2 X 2  ... Wik X k
Fi – estimativa para o i-ésimo factor
Wi – peso factorial
k – número de variáveis
como
AFCP – Modelo (4)
É possível seleccionar os pesos, de forma a que o primeiro
factor explique a maior parte da variância total.
Depois pode seleccionar-se um segundo conjunto de pesos,
de forma a que o segundo factor explique a maior parte da
variância residual sem que esteja relacionado com o
primeiro factor.
É possível estimar os factores de forma a que não estejam correlacionados,
contrariamente ao que se passa com as variáveis originais.
AFCP – Estatísticas associadas (1)
Teste de esfericidade de Bartlett – é utilizado para
examinar a hipótese nula de que as variáveis originais
não estão correlacionadas na população. Ou seja, que a
matriz de correlação é uma matriz identidade: cada
variável está perfeitamente relacionada consigo (r=1),
mas não tem relação com as outras variáveis (r=0).
AFCP – Estatísticas associadas (2)
Matriz de correlação – é uma matriz triangular inferior
que mostra as relações simples (r) entre todos os pares
possíveis de variáveis. Os elementos da diagonal
principal, que são 1, são usualmente omitidos.
Comunalidade – é a quantidade de variância que uma
variável partilha com todas as outras variáveis
consideradas. É também a proporção de variância
explicada pelos factores comuns.
AFCP – Estatísticas associadas (3)
Valor próprio – representa a variância total explicada por
cada factor.
Pesos factoriais – relações simples entre as variáveis e os
factores.
Gráfico dos pesos factoriais – representa as variáveis
originais em função dos pesos factoriais .
AFCP – Estatísticas associadas (4)
Matriz de factores – contém os pesos factoriais de todas
as variáveis em função de todos os factores extraídos.
Scores dos factores – são resultados compostos, estimados
para cada respondente a partir dos factores calculados.
Medida da adequação das amostras KMO (KeiserMeyer-Olkin) – é um índice utilizado para examinar a
apropriação da análise factorial. Valores elevados (entre
0,5 e 1,0 indicam que a AF é apropriada. Valores
inferiores a 0,5 indicam que pode não ser apropriada.
AFCP – Estatísticas associadas (5)
Percentagem de variância – é a percentagem da variância
total atribuída a cada factor.
Resíduos – são as diferenças entre as correlações
observadas, dadas pela matriz de correlação de entrada,
e as correlações reproduzidas estimadas pela matriz de
factores.
Scree plot – é um gráfico dos valores próprios em função
do número dos factores por ordem de extracção.
AFCP – Procedimento
Formulação do problema
Construção da matriz de correlação
Determinação do número de factores
Rotação dos factores
Interpretação dos factores
Cálculo dos scores
dos factores
Selecção de variáveis
substitutas
Determinação do ajustamento do modelo
Formulação do problema
• Identificar os objectivos da análise factorial
• As variáveis devem ser especificadas com base em
investigações anteriores, teorias e discernimento do
investigador.
• É aconselhável que as variável sejam medidas numa
escala intervalar ou de razão.
• A amostra deve ser suficientemente grande – quatro a
cinco vezes mais que o número de variáveis.
Formulação do problema – Exemplo
Considere-se o exemplo seguinte, respondido por 237
indivíduos, sobre os benefícios que os consumidores
procuram quando compram uma pasta dentífrica:
V1 – É importante comprar uma pasta que previna as cavidades.
V2 – Gosto de uma pasta dentífrica que deixe os dentes brancos.
V3 – Uma pasta dentífrica deve fortalecer as gengivas.
V4 – Prefiro uma pasta que deixe o hálito fresco.
V5 – Uma pasta dentífrica deve prevenir a cárie dentária.
V6 – A consideração mais importante na compra de uma pasta
dentífrica é criar dentes atractivos.
V7 – Uma pasta dentífrica deve fortalecer os dentes
Construção da matriz de correlação
• Para a análise factorial ser apropriada, as variáveis devem
estar correlacionadas. Na prática, esse é o caso usual.
• Espera-se que variáveis altamente correlacionadas entre
si, estejam também fortemente correlacionadas com os
mesmos factores.
• Existem testes formais para verificar a adequação de
aplicação do modelo factorial: teste de esfericidade de
Bartlett, e medida de adequação das amostras de KMO.
Matriz de correlação – Exemplo
A matriz de correlação para o exemplo anterior é
apresentada a seguir.
Pode observar-se que há correlações relativamente fortes entre as variáveis V1, V3,
V5 e V7. Devemos esperar que estas variáveis se relacionem com os mesmos
factores. Da mesma forma, há uma correlação forte entre as variáveis V2, V4 e V6,
que deverão relacionar-se com outros factores.
Matriz de correlação – Exemplo
Após a aplicação da AFCP, obtêm-se os seguintes valores:
Matriz de correlação – Exemplo
• Na estatística inicial, verifica-se que a comunalidade para cada
variável V1 a V7 é 1,0, uma vez que é este o valor na diagonal
principal da matriz de correlação.
• Os valores próprios para os factores estão, como esperado, em
ordem decrescente de magnitude, à medida que se avança do factor
1 para o factor 7.
• O valor próprio de um factor indica a variância total atribuída a
esse factor. A variância total para os sete factores é 7,0 que é igual
ao número de variáveis.
• O factor 1 tem uma variância de 3,38111 que corresponde a 48,3%
da variância total (3,38111/7). O segundo factor tem uma variância
de 28,0% (1,96150/7). O conjunto dos dois factores explica 76,3%
da variância total.
Número de factores
É possível utilizar tantos factores como o número de
variáveis. No entanto, dessa forma não se ganha nada com
o processo.
Para resumir a informação contida nas variáveis originais
deve extrair-se apenas um pequeno conjunto de factores.
Resta saber quantos.
Há diversos procedimentos que podem ser utilizados para
determinar o número de factores a utilizar.
Número de factores
Determinação a priori – O investigador pode determinar o
número de factores a priori. A extracção de factores
termina quando o número de factores desejado foi
extraído.
Determinação baseada nos valores próprios – Apenas
são utilizados os factores com valores próprios
superiores a 1,0. O valor próprio representa a quantidade
de variância associada com o factor. Logo só são
utilizados factores com variância superior a 1,0. Factores
com variância inferior a 1,0 não são tão representativos
quanto cada variável individual (que têm variância 1,0).
Número de factores
Determinação baseada no scree plot – A forma do scree
plot pode ser usada para determinar o número de
factores. Tipicamente, o gráfico tem uma inflexão clara
entre a linha correspondente aos valores próprios mais
elevados e a linha correspondente aos valores próprios
de menor valor. Utiliza-se o número de factores
correspondente ao ponto da inflexão. Este método
determina, normalmente, mais factores do que o método
anterior.
Número de factores
Determinação baseada na percentagem de variância –
O número de factores é determinado de forma a que a
variância acumulada atinja um valor satisfatório. Este
valor nunca deve ser inferior a 60% e, tipicamente, é
superior a 70%.
Número de factores – Exemplo
Inspeccionando a tabela de valores próprios apresentada
anteriormente verifica-se que apenas os dois primeiros
factores têm valores próprios superiores a 1,0.
Podemos concluir que a decisão de compra de uma pasta
dentífrica baseia-se em apenas dois factores.
Número de factores – Exemplo
O scree plot
correspondente é
apresentado ao lado.
Pelo método do scree
plot teríamos escolhido
3 factores ao invés de 2.
Número de factores – Exemplo
O quadro seguinte mostra a informação relevante após
terem sido extraídos os factores relevantes.
Os valores das comunalidades são diferentes dos valores do quadro
anterior, porque as variâncias associadas com as variáveis só são
explicadas na totalidade se se mantiverem todos os factores.
Rotação dos factores
A interpretação da solução é, muitas vezes, melhorada pela
rotação dos factores. Observe-se a matriz dos factores:
A matriz dos factores contém os coeficientes usados para expressar
as variáveis em termos dos factores. Um coeficiente com um valor
absoluto elevado indica uma correlação forte entre o factor e a
variável.
Rotação dos factores
Por inspecção da tabela anterior, observa-se que o factor 1
está fortemente relacionado com todas as variáveis, o que
dificulta a interpretação deste factor.
A rotação permite tornar a matriz dos factores mais fácil de
interpretar.
Com a rotação dos factores pretende-se que cada factor
tenha pesos diferentes de zero apenas para algumas
variáveis.
Rotação dos factores
A rotação não afecta as comunalidades, nem o valor total da
variância explicada.
Contudo, o valor da variância explicada por cada factor é
alterado. Este valor é redistribuído pela rotação.
As rotações podem ser ortogonais, se mantiverem os factores
ortogonais entre si. O procedimento Varimax produz uma
rotação ortogonal.
Por outro lado, uma rotação pode também ser oblíqua. Utiliza-se quando os factores na população estão fortemente
correlacionados.
Rotação dos factores – Exemplo
Segue-se a matriz de factores rodados pelo procedimento
Varimax.
Após a rotação percebe-se que o factor 1 está fortemente relacionado
com as variáveis V1, V3, V5 e V7; e que o factor 2 está fortemente
relacionado com as variáveis V2, V4 e V6.
Esta conclusão coincide com as previsões iniciais.
Interpretação dos factores
A interpretação é facilitada se se identificarem as variáveis
que tenham pesos fortes no mesmo factor. Esse factor pode
ser interpretado em termos das variáveis que tenham um
peso forte na sua constituição.
Se um factor não pode ser definido, de forma clara, em
termos das variáveis originais, deve ser considerado como
indefinido ou como um factor geral.
No quadro anterior pode denominar-se o factor 1 de
“benefícios para a saúde” e o factor 2 de “benefícios
sociais”.
Scores dos factores
No caso de se pretender usar a AFCP para reduzir um
conjunto inicial de variáveis e utilizar o conjunto reduzido
(factores) em análises posteriores, é necessário calcular os
scores dos factores para cada respondente.
Scores dos factores
O score para o factor i pode ser calculado da seguinte
forma:
Fi  Wi1 X1  Wi 2 X 2  ... Wik X k
Os pesos podem ser obtidos da matriz de coeficientes de
scores de factores.
Scores dos factores – Exemplo
Segue-se a matriz de coeficientes de scores de factores para
o exemplo apresentado atrás:
Selecção de variáveis substitutas
Por vezes, ao invés de calcular os scores dos factores, o
investigador utiliza algumas das variáveis originais como
substitutas dos factores.
Examinando a matriz de factores, pode escolher-se, para
cada factor, a variável mais representativa, e utilizá-la em
lugar do factor.
Este processo funciona correctamente se uma das variáveis
tem, claramente, um peso superior às outras, na definição
do factor.
Selecção de variáveis substitutas – Exemplo
Examinando a matriz de factores do exemplo anterior, pode
verificar-se que, relativamente ao factor 1, todas as
variáveis V1, V3, V5 e V7 têm um peso relativamente alto.
Se à partida se admitir que a prevenção da cárie é um
benefício importante, então pode escolher-se a variável V5
como representante do factor 1.
Relativamente ao factor 2, existe a mesma dificuldade na
escolha da variável substituta. Se à partida se admitir que a
brancura dos dentes é o benefício social mais importante,
pode escolher-se a variável V2.
Ajustamento do modelo
A assumpção básica no modelo de AFCP é que a correlação
observada entre variáveis pode ser atribuída aos factores
comuns.
Assim, as correlações entre variáveis podem ser deduzidas
a partir das correlações estimadas entre variáveis e factores.
Ajustamento do modelo
As diferenças observadas entre as correlações observadas
(matriz de correlações iniciais) e as correlações
reproduzidas (estimadas a partir da matriz de factores) pode
ser examinada para determinar o ajustamento do modelo.
Estas diferenças são designadas por resíduos. Se houver
muitos resíduos elevados, o modelo de análise factorial não
fornece um bom ajustamento aos dados.
Ajustamento do modelo – Exemplo
No exemplo apresentado anteriormente, apenas quatro
resíduos são superiores a 0,1, e seis são superiores a 0,05, o
que indica um ajustamento aceitável do modelo.
SPSS
Na barra de menus escolher:
Analyze  Data Reduction  Factor…
Seleccionar as variáveis para a análise factorial.
Consulte o ficheiro de saída
Consulte o ficheiro de sintaxe
SPSS
O quadro
deve ficar
com a
seguinte
configuração:
SPSS
Na caixa de diálogo, premir Descriptives.
A opção Univariate descriptives inclui a média, o desvio padrão e o
número de casos válidos para cada variável.
A opção Initial solution apresenta as comunalidades, os valores
próprios, e a percentagem de variância explicada.
As opções no grupo Correlation Matrix apresentam a matriz de
correlações entre variáveis, e outros parâmetros afins, e os resultados
dos testes de Kaiser-Meyer-Olkin, e de esfericidade de Bartlett.
Estes dois testes permitem saber se a aplicação da análise factorial
tem validade para as variáveis escolhidas.
SPSS
A caixa deve ficar com a seguinte configuração:
SPSS
Na caixa de diálogo, premir Extraction.
A análise da matriz de correlação (Correlation matrix) é útil quando as variáveis se
apresentam em escalas diferentes.
A análise da matriz de co-variância (Covariance matrix) é útil quando se dispõe de
múltiplos grupos, com diferentes variâncias para cada variável.
Pode pedir-se a apresentação da solução (Unrotated factor solution), e do scree
plot, ou seja, o gráfico dos valores próprios por cada componente.
Pode especificar-se o número de factores pretendidos, ou o valor próprio
(eigenvalue) acima do qual se obtêm os factores.
Pode também especificar-se o número de iterações necessárias para o algoritmo
estimar a solução.
SPSS
A caixa deve ficar com a seguinte configuração:
SPSS
Na caixa de diálogo, premir Rotation.
Varimax – pretende que, para cada componente principal, existam
apenas alguns pesos significativos e todos os outros sejam próximos
de zero.
Quartimax – pretende tornar os pesos da cada variável elevados para
um número reduzido de componentes, e próximos de zero para as
restantes componentes.
Equamax – é uma combinação dos anteriores.
Direct Oblimin, Promax – métodos oblíquos (não ortogonais), em
que não se observa o pressuposto da independência das componentes.
SPSS
A caixa deve ficar com a seguinte configuração:
SPSS
Na caixa de diálogo, premir Scores.
Escolher a opção Save as variables.
Escolher o método através do qual são calculados os scores para cada
caso (linha de dados).
Os scores dão o valor das componentes para cada indivíduo. Esses
valores podem depois ser utilizados, em vez das variáveis iniciais.
SPSS
A caixa deve ficar com a seguinte configuração:
SPSS
Na caixa de diálogo principal, premir OK.
O teste KMO deve ser interpretado segundo a tabela
abaixo:
KMO
1 – 0,90
Análise de componentes principais
Muito boa
0,80 – 0,90
Boa
0,70 – 0,80
Média
0,60 – 0,70
Razoável
0,50 – 0,60
Má
< 0,50
Inaceitável
SPSS
KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling Adequacy.
,871
Bartlett' s Test of Sphericity
Approx. Chi-Square
df
Sig .
1751,392
45
,000
O resultado do teste KMO indica que a aplicação do
modelo é adequada.
SPSS
Valores próprios e percentagem de variância explicada.
Total Variance Explained
Component
1
2
3
4
5
6
7
8
9
10
Total
6,774
2,072
,536
,200
,178
9,539E-02
6,437E-02
4,083E-02
2,522E-02
1,420E-02
Initial Eigenvalues
% of Variance
Cumulative %
67,736
67,736
20,724
88,460
5,362
93,821
1,996
95,817
1,782
97,600
,954
98,554
,644
99,197
,408
99,606
,252
99,858
,142
100,000
Extraction Method: Principal Component Analysis.
Extraction Sums of Squared Loading s
Total
% of Variance
Cumulative %
6,774
67,736
67,736
2,072
20,724
88,460
SPSS
Scree Plot
8
6
Eigenvalue
4
2
0
1
2
3
Component Number
4
5
6
7
8
9
10
SPSS
Matriz de factores (componentes principais):
Component Matrixa
Component
Esperança de vida feminina
Mortalidade infantil (mortes por 1000 nascimentos)
Pessoas que lêem (%)
Taxa de nascimento por 1000 pessoas
Fertilidade: número médio de crianças
Pessoas que vivem em cidades (%)
Log (base 10) do PIB_CAP
Crescimento da população (% por ano)
Ratio nascimento - morte
Taxa de mortalidade por 1000 pessoas
Extraction Method: Principal Component Analysis.
a. 2 components extracted.
1
-,951
,952
-,925
,960
,940
-,772
-,866
,760
,314
,530
2
,243
-,191
-3,43E-04
,197
,170
,305
6,456E-02
,617
,922
-,762
SPSS
Matriz de componentes rodados pelo método Varimax:
a
Rotated Component Matrix
Component
Esperança de vida feminina
Mortalidade infantil (mortes por 1000 nascimentos)
Pessoas que lêem (%)
Taxa de nascimento por 1000 pessoas
Fertilidade: número médio de crianças
Pessoas que vivem em cidades (%)
Log (base 10) do PIB_CAP
Crescimento da população (% por ano)
Ratio nascimento - morte
Taxa de mortalidade por 1000 pessoas
Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 3 iterations.
1
-,980
,964
-,880
,852
,841
-,828
-,843
,532
1,381E-02
,739
2
-6,28E-02
,112
-,286
,484
,452
5,149E-02
-,206
,821
,974
-,561
SPSS
Matriz de coeficientes de scores de factores (componentes
principais):
Component Score Coefficient Matrix
Component
Esperança de vida feminina
Mortalidade infantil (mortes por 1000 nascimentos)
Pessoas que lêem (%)
Taxa de nascimento por 1000 pessoas
Fertilidade: número médio de crianças
Pessoas que vivem em cidades (%)
Log (base 10) do PIB_CAP
Crescimento da população (% por ano)
Ratio nascimento - morte
Taxa de mortalidade por 1000 pessoas
Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.
Component Scores.
1
-,170
,162
-,130
,105
,107
-,154
-,131
,015
-,093
,188
2
,068
-,044
-,042
,134
,121
,105
-,010
,318
,438
-,326
Download

013-analiseFactorial