ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL Análise Factorial O propósito essencial da análise factorial é descrever, se possível, a estrutura de covariâncias entre as variáveis em termos de um nº menor de variáveis (não observáveis) chamadas factores. Por outras palavras, a análise factorial estuda os inter-relacionamentos entre as variáveis, num esforço para encontrar um conjunto de factores (em menor nº que o conjunto de variáveis originais) que exprima o que as variáveis originais partilham em comum. 1 ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL Basicamente o modelo de análise factorial é motivado pelo seguinte: Suponhamos que as variáveis podem ser agrupadas tendo em conta as correlações entre elas. Isto é, todas as variáveis de um dado grupo estão fortemente correlacionadas entre si, mas têm correlações relativamente pequenas com variáveis de outro grupo. É concebível que cada grupo de variáveis represente um factor, factor esse que é responsável pelas correlações observadas. 2 ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL Em geral o primeiro passo a dar neste tipo de análise, consiste no exame das relações entre as variáveis utilizando o coeficiente de correlação como medida de associação entre cada par de variáveis. A matriz de correlações poderá permitir identificar subconjuntos de variáveis que estão muito correlacionadas entre si no interior de cada subconjunto, mas pouco associados a variáveis de outros subconjuntos. Neste caso a aplicação da análise factorial permitir-nos-á concluir se é possível explicar este padrão de correlações através de um menor nº de variáveis - os factores. De forma resumida, podemos dizer que a análise factorial é uma técnica estatística usada para identificar um número relativamente pequeno de factores que podem ser usados para identificar relacionamentos entre um conjunto de muitas variáveis inter-relacionadas entre si. 3 ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL EXEMPLO: Suponha que um director de uma fábrica de automóveis pretende entender o que leva um consumidor a escolher um modelo específico de automóvel, isto é, quais os factores que levam os consumidores a escolher um modelo específico de automóvel. Para isso foram consideradas as opiniões de um conjunto de consumidores acerca da importância das seguintes variáveis para a escolha de um automóvel: CRB - custos de reparação baixos VC - variedade de cores à disposição EIA - espaço interior amplo BC - bom consumo FM - fácil de manejar DM - design moderno BM - bom motor PRA - preço de revenda alto C - confortável AS - aparência suave FC - fácil de conduzir MA - modelo atraente MG - mala grande FE - fácil de estacionar 4 ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL É difícil avaliar 14 variáveis separadamente ou desenvolver planos de acção tendo em conta tantas variáveis. Em vez disso seria ideal saber como pensam os consumidores em termos de dimensões (factores) mais gerais. Para identificar estas dimensões foi aplicada a análise factorial, cujos resultados sugerem que as 14 variáveis podem ser caracterizadas por 4 factores (I, II, III e IV) relacionados com I l conforto II l custo/eficiência III l estilo IV l facilidade de manipulação 5 ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL CRB VC FM DM MA AS FC FE MG EIA CRB PRA II MG BM BC C PRA BM EIA BC I C III VC FM IV FE FC DM AS MA 6 ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL MODELO FACTORIAL (ORTOGONAL) T Seja X =(X1, X2,...,Xp) um vector aleatório de média PT=(P1, P2,..., Pp) e matriz de covariâncias 6. Modelo de análise factorial: X1-P1= l11F1+ l12F2 +...+ l1mFm +H1 X2-P2= l21F1+ l22F2 +...+ l2mFm +H2 Xp-Pp= lp1F1+ lp2F2 +...+ lpmFm +Hp em notação matricial: X-P = LF + H (px1) (pxm) (px1) 7 ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL onde: x lij - loading (ou peso) da variável Xi no factor Fj ªl11 l1m º » « x L= « » - matriz de loadings «¬l p1 l pm »¼ T x F = >F1 F2 Fm @ - vector de variáveis aleatórias não observáveis chamadas factores comuns T x H = >H1 H 2 H m @ - vector de variáveis aleatórias não observáveis chamadas factores específicos ou factores únicos 8 ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL Note que: i) o factor específico Hi está associado apenas com a variável Xi; ii) os p desvios X1-P1, X2-P2,..., Xp-Pp são expressos em termos de p+m variáveis não observáveis: F1, F2,...,Fm, H1, H2,..., Hp. Pressupostos: x ª E(F1 ) º ª0º «E(F ) » « » 2 » = «0 » E(F) = « « » «» «E(F )» ¬«0»¼ ¬ m ¼ x ª1 0 0º «0 1 0 » T » Cov(F) = E(FF ) = I = « « » » « ¬0 0 1 ¼ o os factores independentes entre si são 9 ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL x ªE(İ 1 ) º ª0º «E(İ )» « » 2 » = «0 » E(H) = « « » «» «E(İ )» «0» ¬ p ¼ ¬ ¼ x ª\1 0 «0 \ 2 T Cov(H) = E(HH ) = < = « « « 0 ¬0 x F e H são independentes 0º 0» » m matriz diagonal » » \p ¼ logo Cov(Hi, Fj) = E(Hi Fj) - E(Hi) E(Fj) = 0, e ª Cov(İ 1,F1 ) Cov(İ 1,F2 ) «Cov(İ ,F ) Cov(İ ,F ) 2 1 2 2 Cov(H, F) = E(H FT) = « « «Cov(İ ,F ) Cov(İ ,F ) p 1 p 2 ¬ i=1,2,...p e j=1,2,...m Cov(İ 1,Fm ) º Cov(İ 2 ,Fm )» » =0 » Cov(İ p ,Fm )»¼ 10 ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL Estrutura de covariâncias para o modelo: 1. ¦ = Cov(X) = LLT + < i.e. 2 Var(Xi) = l i12 l i22 l im <i , h i2 variância específica comunalidade Cov(Xi,Xk) = li1 lk1 + li2 lk2 +}+ lim lkm 2. Cov(X,F) = L i.e. Cov(Xi,Fj) = lij 11 ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL Em que: - h i2 – comunalidade p porção da Var(Xi) que pode ser atribuída aos factores comuns explicada pelos factores comuns que é partilhada com todas as outras variáveis - <i – variância especifica p porção da Var(Xi) que é específica de Xi e que não está associada com outras variáveis indica até que ponto os factores comuns falham na explicação da variância total da variável - l ij2 – contribuição do factor Fj para a variância de Xi 12 ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL Ambiguidade associada ao modelo: A matriz L de loadings é determinada a menos de uma transformação ortogonal. Se L é a matriz de loadings associada a um modelo factorial e T é uma matriz ortogonal (i.e., tal que TTT=I), então a matriz L* = LT é também uma matriz admissível para o modelo factorial: * * T X - P = LF + H = LT T F + H = L F +H , I com F* e H independentes E(F*) = 0 E(H) = 0 e e Cov(F*) = I Cov(H) = < As comunalidades dadas na diagonal de LLT e de L*(L*)T não são afectadas pela escolha de T. 13 ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL Métodos de Estimação: Dadas n observações das p variáveis correlacionadas X1, X2,...,Xp, a análise factorial procura responder à questão: Será que o modelo factorial ortogonal com um pequeno nº de factores representa adequadamente os dados? Para tal, à que tentar verificar a estrutura de covariâncias do modelo. Quando os elementos fora da diagonal principal da matriz amostral de covariâncias S forem muito pequenos, ou no caso da matriz amostral de correlações R forem próximos de zero, as variáveis não estão relacionadas ou estão pouco relacionadas e a análise factorial não será útil. 14 ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL Nestas circunstâncias os factores específicos têm um papel dominante e o objectivo principal da análise factorial é determinar alguns factores comuns. Por isso, uma vez calculada a matriz amostral de correlações, se existirem variáveis não correlacionadas em número elevado deverá ser testada a validade de aplicação deste tipo de análise. 15 ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL Existem vários métodos de estimação (ou de extracção de factores), de entre os quais: método das componentes principais - principal components; método da máxima verosimilhança - maximum likelihood; método dos mínimos quadrados - unweighted least squares (ULS) e generalized least squares (GLS); principal-axes factoring; método alfa. 16 ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL Método das componentes principais: É um método para estimar L, que se baseia no seguinte: 1 ¦ 1 T 2 2 T PD ,D P CC C onde: P >a 1 CT a2 ap @ m matriz ortogonal cujas colunas são os vectores próprios de ¦ Ȝ1 0 0 0 Ȝ2 0 D Oi m i-ésimo maior valor próprio da matriz ¦ ai m vector próprio normalizado associada a Oi 0 Ȝ2 0 ª « « « « ¬« ªȜ 1 «0 « « « ¬0 0º 0» » » » Ȝp ¼ e D 1 2 0 º » 0 » » » Ȝ p ¼» 17 ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL As variâncias específicas são nulas se são considerados tantos factores como variáveis. Mas é desejável ter m<p factores. Um procedimento possível quando os últimos p-m valores próprios são pequenos é negligenciar a contribuição de O m 1a m 1a mT 1 O p a p a pT para ¦. Desprezando as últimas colunas da matriz C, tem-se a matriz L: > C= O 1 a1 Op ap @ o L= > O 1 a1 Om am @ , com m < p ¦ = CCT = O 1a 1a 1T O m a m a mT O m 1a m 1a mT 1 O p a p a pT # LLT + < onde Ȍi m Var(X i ) ¦ O i a ij2 j 1 p 2 ¦ O i a ij j m 1 18 ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL Solução das componentes principais do modelo factorial: ~ L > O1 a 1 O2a2 Omam @ i.e. ~ lij O j a ij ~ ªȌ1 0 0 º ~ « » m ~ elementos da ~ « 0 Ȍ2 0 » ~ ~~ T onde Ȍ i s ii ¦ lij 2 m diagonal de S - L Ȍ L « j 1 » « ~ » 0 Ȍ p »¼ «¬ 0 ~ ~ ~ ~ hi2 li12 li22 lim2 m soma dos quadrados da linha i de L m 2 ¦ O j a ij m é exactamente a comunalidade do modelo 1 da ACP j 1 ~ porção da Var(Xi) explicada pelos factores comuns onde lij 2 O j a ij2 é a contribuição do j-ésimo factor comum para a Var(Xi) Nota: Usamos S estimativa de ¦, mas também se pode fazer para R estimativa de U. 19 ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL Escolha do nº de factores: Dado que o objectivo é identificar m factores que expliquem a estrutura de covariâncias, devemos escolher m tal que, o que se despreza na matriz de covariâncias estimadas seja quase nulo, i.e., ~~ ~ S - L L T < # 0 m matriz residual Os elementos diagonais são nulos, mas se o que está fora da diagonal também for próximo de zero, então o valor de m considerado é apropriado: soma dos quadrados das ~~ ~ d entradas de S - L L T < O2m1 O2p um valor baixo para a soma dos quadrados dos valores próprios rejeitados implica um valor baixo para a soma dos quadrados dos erros cometidos na aproximação 20 ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL Outra maneira de determinar m: Oj Oj para uma análise factorial de S p s11 s22 spp ¦ Oi i 1 Oj para uma análise factorial de R p proporção da variância total amostral explicada pelo j-ésimo factor Escolhemos m, de modo a que uma proporção suficiente da variância total amostral seja explicada. Outras regras: valor próprio maior que 1 (análise a partir de R) scree-test 21 ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL Resumindo, a solução apresentada por este método escolhe para os m factores as primeiras m componentes principais divididas pela raiz quadrada da sua variância Fj Yj Oj Yj j=1,…,m Var(Yj ) Estimando os loadings da seguinte maneira: lij = O j a ij estamos a considerar o modelo Xi O 1 a i1F1 O m a imFm O P a iPFP estimativa dos factores específicos H i e portanto o modelo factorial estimado é: m Xi ¦ l ijFj İ i , i = 1,…,p j 1 com lij = O j a ij 22 ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL Neste modelo estimado, cada factor comum tem variância unitária, e os factores são não correlacionados. Mais, os factores comuns são não correlacionados com os factores específicos. No entanto, note-se que a covariância entre Hi e Hk é p Cov(İ i , İ k ) ¦ a ij a kj Ȝ j izk j m 1 Como estas covariâncias não são necessariamente nulas, isto constitui uma violação dos pressupostos originais do modelo. 23 ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL TABELA DE RESULTADOS Análise feita a partir da matriz de covariâncias amostral S. Loadings j O j aij lij = Y1 X1 i O1 a11 Xp Soma dos quadrados por coluna = Oj } Yn m } Ȝ m a1m O1 a p1 Soma dos quadrados por linha Comunalidades hi ¦ Ȝ ja1j2 j 1 } Ȝ m a pm h12 m ¦ Ȝ japj2 hp2 j 1 total em linha = total em coluna O1 } Om O1+}+ Om = m m j 1 j 1 ¦ Ȝ ja1j2 + }+ ¦ Ȝ japj2 proporção da variância total explicada pelos m factores proporção da variância total amostral explicada pelo j-ésimo factor Ȝm Ȝ1 p ¦ Ȝi i 1 } p ¦ Ȝi i 1 m ¦Ȝj j 1 p ¦ Ȝi i 1 24 ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL Este quadro de resultados, resume o essencial de uma aplicação da ACP ou da Análise Factorial (AF) pelo método das componentes principais. Apesar de ACP e AF se tratarem de duas técnicas conceptualmente diferentes, na prática os resultados da ACP e da AF pelo método das componentes principais, podem ser resumidos na tabela anterior, sendo válidas as respectivas interpretações. Se a análise é feita a partir da matriz de correlações R, o quadro é o mesmo, mas Oj e aj são extraídos da matriz R. 25 ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL EXEMPLO Consideremos novamente o exemplo (exercício 6). 15 alunos de uma determinada escola foram classificados a 6 disciplinas Na ACP identificaram-se 2 componentes principais, a reter: 1º Factor: Factor Geral de Inteligência 2º Factor: Factor Matemática / não Matemática Se aplicarmos a AF pelo método das componentes principais, os factores comuns podem ser obtidos dividindo as 2 componentes principais pela raiz quadrada dos valores próprios: F1 F2 Y1 O1 Y2 O2 0.33 u X 1 0.41u X 2 0.44 u X 3 0.44 u X 4 0.39 u X 5 0.42 u X 6 3.87 0.53 uX 1 0.42 u X 2 0.3 u X 3 0.31u X 4 0.45 u X 5 0.39 u X 6 1.55 26 ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL As variáveis podem-se escrever em função dos factores da seguinte maneira: X1 0.33 0.53 3.87 u u F1 1.55 u u F2 İ 1 0.65 X2 0.66 0.41 0.42 3.87 u u F1 1.55 u u F2 İ 2 0.81 X6 0.52 0.42 1.55 3.87 u u F1 u 0.39 u F2 İ 1 0.49 0.83 com İ i Ȝ 3 a i3 F3 Ȝ 6 a i6 F6 , , Y3 Ȝ3 Y6 Ȝ3 O quadro de resultados do slide 4 da secção anterior resume o essencial da AF pelo método das componentes principais. Este exemplo ilustra bem o motivo pelo qual existe dificuldade na distinção das duas técnicas. 27 ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL ESTIMAÇÂO DOS VALORES DOS FACTORES (FACTOR SCORES) Ao contrário do que se passa com a ACP, onde os scores das componentes principais são determinados, os scores dos factores na AF têm de ser estimados, isto resulta do facto de no modelo da AF existirem mais parâmetros a estimar do que valores observados. Existem diversos métodos para estimação dos scores dos factores, sendo os mais usados: Método de Bartlet ou método dos mínimos quadrados ponderados; Método de Thompson ou método de regressão. 28 ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL Conclusão: ¾ a ACP procura resumir a informação presente num conjunto de variáveis correlacionadas através de um modelo matemático concreto, bem definido e conduz geralmente a uma única solução; ¾ a AF procura encontrar a explicação, sobre a forma de um ou mais factores latentes, para as relações existentes entre as variáveis e é passível de várias soluções igualmente aceitáveis. 29