Universidade Federal Rural do Rio de Janeiro Pós-Graduação em Agronomia Ciência do Solo: CPGA-CS Carlos Alberto Alves Varella Doutor em Engenharia Agrícola Novembro 2011 Introdução É a técnica mais conhecida da estatística multivariada; Pode ser utilizada para geração de índices e agrupamento de indivíduos; Cada componente principal é uma combinação linear de todas as variáveis originais; São independentes entre si; É importante ter uma visão conjunta de todas ou quase todas as técnicas da estatística multivariada para resolver a maioria dos problema práticos. Construção da matriz de dados (Matriz X) Matriz de dados para ‘p’ variáveis e ‘n’ indivíduos; Características observadas são : X1, X2, X3, ..., Xp; A matriz é de ordem n x p. x11 x21 X x31 xn1 x12 x22 x32 x x1 p x23 x2 p x33 x3 p xn 3 xnp x13 Matriz de Covariância, S Obtida a partir da matriz X de dados de ordem ‘n x p’; É uma estimativa da matriz de covariância Σ da população π; A matriz S é simétrica e de ordem ‘p x p’. Vˆar( x1 ) Cˆ ov( x2 x1 ) S Cˆ ov( x3 x1 ) ˆ Cov( x p x1 ) Cˆ ov( x1 x2 ) Cˆ ov( x1 x3 ) Cˆ ov( x1 x p ) Vˆar( x2 ) Cˆ ov( x2 x3 ) Cˆ ov( x2 x p ) Cˆ ov( x3 x2 ) Vˆar( x3 ) Cˆ ov( x3 x p ) Cˆ ov( x p x2 ) Cˆ ov( x p x3 ) Vˆar( x p ) Padronização dos dados Média zero e variância 1 z ij x ij x j s(x j ) , i 1, 2, , n e j 1, 2, , p Média qualquer e variância 1 z ij x ij s( x j ) , i 1, 2, , n e j 1, 2, , p Variáveis Padronizadas A matriz Z é igual a matriz de correlação R da matriz de dados X; z11 z 21 Z z 31 z n1 z12 z 22 z32 zn2 z13 z1 p z 23 z 2 p z 33 z3 p z n 3 z np Considerações sobre a padronização Normalmente partimos da matriz padronizada; O resultado a partir da matriz S pode ser diferente do resultado a partir da matriz R. A padronização só dever ser feita quando as unidades das variáveis observadas não são as mesmas. Determinação dos Componentes Principais Os componentes principais são determinados resolvendo-se a equação característica da matriz S ou R, isto é: detR I 0 ou R I 0 Autovalores da matriz R λ1, λ2, λ3, ..., λp são as raízes da equação característica da matriz R ou S, então: λ1, λ2, λ3, ..., λp podem se autovalores da matriz R ou S; r ( x1 x2 ) r ( x1 x3 ) 1 1 r ( x2 x3 ) r ( x2 x1 ) R r ( x3 x1 ) r ( x3 x2 ) 1 r ( x p x1 ) r ( x p x2 ) r ( x p x3 ) r ( x1 x p ) r ( x2 x p ) r ( x3 x p ) 1 Autovetores Para cada autovalor λi existe um autovetor: ai1 a i2 ~ ai aip Componente principal Yi Sendo o autovalor = λi , então o i-ésimo componente principal é dado por: Yi ai1 X1 + ai2 X2 + + aip Xp Propriedades dos Componentes Principais A variância do componente principal Yi é igual ao valor do autovalor λi: Vˆ ar(Y i ) i O primeiro componente é o que apresenta maior variância e assim por diante: Vˆar(Y1 ) > Vˆar(Y2 ) > > Vˆar(Yp ) Propriedades dos Componentes Principais Total de variância das variáveis originais = somatório dos autovalores = total de variância dos componentes principais: ˆ V ar(Xi ) i ˆ V ar(Y i ) Os componentes principais não são correlacionados entre si: Cˆov(Yi , Yj ) 0 Importância de cada componente principal Medida pela porcentagem de variância de cada componente em relação ao total Ci Vˆ ar(Yi ) p Vˆar(Yi ) i 1 100 i p i 1 i 100 i traço(S ) 100 Número de componentes Não existe um modelo estatístico; O número de ser aquele que acumula 70% ou mais de proporção da variância total. Vˆar(Y 1 ) + Vˆ ar(Y k ) 100 70% onde k < p k Vˆar(Yi ) i 1 Interpretação dos componentes Verifica-se o Grau de influência que cada variável Xj tem sobre o componente Yi. Corr(X j, Y1 ) rXj Y 1 a1 j Vˆar(Y1 ) Vˆar X j ) 1 a1 j ) Var(X j ) Interpretação dos componentes Verifica-se o peso ou loading de cada variável sobre o componente w1 a11 a12 a1 p , w2 ) , wp ) ) Var(X1 ) Var(X 2 ) Var(X p ) Escores dos componentes Organização dos dados Trat (Indiv) Escores dos componentes principais Variáveis X1 X2 ... Xp Y1 Y2 ... Yk 1 X11 X12 ... X1p Y11 Y12 ... Y1k 2 X21 X22 ... X2p Y21 Y22 ... Y2k n Xn1 Xn2 Xnp Yn1 Yn2 ... Ynk Escores do primeiro componente para ‘n’ tratamentos e ‘p’ variáveis O escore é o valor da cominação linear; Yn1=componente 1 do tratamento n para p variáveis. Y11 a11X11 + a12 X12 + + a1p X1p Y21 a11X 21 + a12 X 22 + + a1p X 2p Yn1 a11X n1 + a12 X n 2 + + a1p X np Exemplo de Aplicação Variáveis originais observadas (X1 e X2) e padronizados (Z1 e Z2). Duas variáveis para cinco tratamentos (k=5). Tratamentos Variáveis originais Variáveis padronizadas X1 X2 Z1 Z2 1 102 96 24,3827 6,9554 2 104 87 24,8608 6,3033 3 101 62 24,1436 4,4920 4 93 68 22,2313 4,9268 5 100 77 23,9046 5,5788 Variância 17,50 190,50 1 1 Padronização da Variância Os dados serão padronizados para variância 1: Zij X ij s(X j ) Z12 104 17,5 24,8608 Matriz de Correlação Elementos da diagonal principal igual a 1. Significa a correlação entre mesmas variáveis; Elementos fora da diagonal principal igual a 0,5456. Significa a correlação entre as variáveis (X1,X2). 1 0,5456 R 0,5456 1 Autovalores da matriz de correlação São os elementos fora da diagonal principal da matriz. Significa a variância de cada componente principal. λ1 = 1,5456 e λ2 = 0,4544 1 0,5456 R 0,5456 1 Traço da matriz de correlação Somatório dos elementos da diagonal da matriz. Significa o total de variância. Traço(R) = 1+1=2 1 0,5456 R 0,5456 1 Primeiro autovetor da matriz de correlação São os coeficientes das variáveis padronizadas Z1, Z2. a 11 1 1 0,7071 ~ a1 a 1 0 , 7070 2 12 Y1 é a combinação linear de Z1, Z2 que denominamos de primeiro componente principal Y1 0,7071Z1 + 0,7070Z 2 Resultados da análise Variância, ponderação, correlação, % de variância e % de variância acumulada dos componentes principais. CP Variância Ponderação (λ) Correlação entre Zj eYi % de variância Z1 Z2 Z1 Z2 0,707 0,879 0,879 77,28 Y1 1,5456 0,707 Y2 0,4544 -0,707 0,707 -0,476 0,476 22,72 % de variância acumulada dos Yi 77,28 100,00 Escores dos componentes principais Componentes principais Tratamentos Y1 Y2 1 22,16 -12,32 2 22,04 -13,12 3 20,25 -13,90 4 19,20 -12,24 5 20,85 -12,96 Gráfico de dispersão Permite visualizar se os componentes principais (Yis) são Primeiro componente (Y1) capazes de discriminar indivíduos da população () utilizando características (Xi). 23 22 21 20 19 -14 -13.5 -13 -12.5 Segundo componente (Y2) -12 Aula prática com o programa computacional SAS Material didático: http://www.ufrrj.br/institutos/it/deng/varella/multivariada.htm Disciplina: Análise Multivariada Aplicada as Ciências Agrárias. Aula prática: 14-17 com SAS.