A teoria dos métodos estatísticos multivariados pode ser explicada razoavelmente bem somente com uso de alguma álgebra matricial. Por essa razão é útil, senão essencial ter pelo menos algum conhecimento nessa área (Bryan F. J. Manly). o Prof. Lorí Viali, Dr. Estatístico Ecologista com mais de 30 anos de experiência como pesquisador, consultor e professor de Estatística. [email protected]; [email protected]; http://www.pucrs.br/famat/viali; http://www.mat.ufrgs.br/~viali/ Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Otimização (Maximização) Muitos Estatística Multivariada dos procedimentos multivariados são maximizações ou otimizações. As noções de maximização Pré-Requisitos e de combinações lineares são combinadas em muitos procedimentos multivariados. Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Prof. Lorí Viali, Dr. – Exemplos: Na PUCRS – FAMAT: Departamento de Estatística Combinação Linear regressão múltipla uma A idéia de Combinação Linear de combinação linear dos previsores que variáveis é básica para quase todos os maximiza a correlação com a variável dependente é procurado e na Análise de Componentes Principais a Combinação tipos de Análise Multivariada. Uma Combinação Linear de p variáveis é dada Linear das variáveis responsável pela por: Y = a1x1 + a2x2 + ... + apxp, onde a1, a2, maior porção da variância é considerada. ..., ap Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística são os coeficientes das variáveis. Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Distâncias Exemplo: Suponha que tenhamos um grupo Considere dois pontos (x1, y1) e tratamento e controle ou um pré e um (x2, y2) no plano. Então a distância pós teste. Se representarmos as variáveis usual (Euclidiana) entre os dois por x1 (pré-teste) e x2 (pós-teste) então a variável diferença pode ser escrita como Y = x2 - x1, onde a1 = -1 e a2 = 1. Prof. Lorí Viali, Dr. – PUCRS – pontos é obtida pela aplicação do teorema de Pitágoras. FAMAT: Departamento de Estatística Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Exemplo: Assim: d2 Se os dois pontos forem (2, 3) e )2 )2 = (x2 – x1 + (y2 – y1 (4, 6), então a distância entre eles é: Ou, também: d= 2 2 (x 2 − x 1) + ( y 2 − y 1) Prof. Lorí Viali, Dr. – PUCRS – 2 (x 2 − x 1)2 + ( y 2 − y 1) = ( 4 − 2 )2 + (6 − 3)2 = d= = 13 = 3 ,61 FAMAT: Departamento de Estatística Prof. Lorí Viali, Dr. – espaço p-dimensional é dado por: d( P , Q ) = ( x 1− y 1) + ( x 2 − y 2 ) + ... + ( x p − y p) 2 2 2 FAMAT: Departamento de Estatística Johnson e Wichern (1982) colocam As distâncias entre dois pontos P = (x1, x2, ..., xp) e Q = (y1, y2, ..., yp) no PUCRS – que: “linhas retas e distâncias euclidianas não são adequadas para muitos procedimentos estatísticos. Isso de deve ao fato de que cada coordenada tem a mesma contribuição para o cálculo da distância. Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Fatores: Quando as coordenadas representam medidas que estão sujeitas a flutuações aleatórias de diferentes Levar em conta: (i) A variabilidade pode ser magnitudes, é desejável ponderar as diferente porque as escalas não coordenadas são as mesmas; sujeitas a grande variabilidade com pesos menores do que (ii) A correlação entre as variáveis. as com menor variabilidade (p. 20)”. Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Exemplo: Um critério Suponha A distância ao quadrado, padronizada que temos duas que se ajusta a diferentes variabilidades é variáveis x1 e x2 com variâncias 36 e dada por: 100 e com médias 4 e 6. Vamos admitir 2 2 d = ( xi 1 − x 1) s 2 1 2 + ( xi 2 − x 2 ) s 2 2 que elas não estão correlacionadas. Onde xi1 e xi2 representam os valores Para determinar a distância de um para o sujeito “i” na variáveis 1 e 2 e x 1 , sujeito com escores (2, 3) até o vetor x 2 são as médias das duas variáveis. Prof. Lorí Viali, Dr. – PUCRS – das médias, isto é, até (4, 6) fazemos: FAMAT: Departamento de Estatística Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Correlação 2 2 d = (2 − 4) 36 + (3 − 6) 100 Suponha agora que as variáveis 2 = 0 ,11 + 0 , 09 = 0 , 20 . Esses são os mesmos dois pontos que tem uma correlação moderada, isto é, rx1,x2 = 0,50. A distância de foram considerados anteriormente. Note Mahalanobis, que leva em conta a que a maior parte da distância é devida a correlação é dada por: variável x2 (9). Depois de padronizada a maior porção é devida a x1 (0,11 em 0,20). Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística D2 = 2 2 ⎤ ⎡ 1 ⎢ (x i 1− x 1) (x i 2 − x 2) 2r ( xi 1− x 1) ( xi 2 − x2 ) ⎥ + − ⎥ 1 − r2 ⎢ s1 s 2 s12 s 22 ⎦ ⎣ Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Mahalanobis Note que se a correlação é positiva Prasanta Chandra Mahalanobis (1893 - 1972). • Fundou do ISI (Instituto de Estatística Indiano). • Lançou o periódico Sankhia na área de Estatística. • Criou o conceito de amostra piloto. Prof. Lorí Viali, Dr. – PUCRS – então a distância é reduzida de uma quantidade equivalente ao terceiro termo nos colchetes. Isso ocorre porque as distâncias ao longo da segunda dimensão (da segunda variável) podem ser previstas pela correlação com a outra variável. FAMAT: Departamento de Estatística Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Exemplo: Se Nesse caso, a distância do ponto (2, 3) para (4, 6) supondo uma ⎡ ( 2 − 4)2 (3 − 6)2 2.0 ,5( 2 − 4)( 3 − 6) ⎤ ⎥ = 0 ,13 ⎢ + − D = 2 100 6.10 1 − 0 ,5 ⎢⎣ 36 ⎥⎦ 1 Prof. Lorí Viali, Dr. – PUCRS – correlação é forte (por exemplo: 0,71, então a distância de Mahalanobis é ainda menor: correlação de 0,50 é: 2 a FAMAT: Departamento de Estatística D2 = 1 1 − 0 ,71 2 ⎡ (2 − 4)2 (3 − 6 )2 2.0 ,71( 2 − 4 )( 3 − 6 ) ⎤ ⎢ ⎥ = 0 ,12 + − 100 6.10 ⎢⎣ 36 ⎥⎦ Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Propriedades Por outro lado se a correlação é Qualquer distância entre os pontos P e negativa, então a distância será maior Q será válida desde que satisfaça as seguintes do que quando as variáveis não forem correlacionadas. Suponha que a correlação seja -0,5, então: D2 = 1 1 − 0 ,5 2 ⎡ ( 2 − 4 )2 ( 3 − 6)2 2.( −0 , 5)( 2 − 4 )( 3 − 6) ⎤ ⎥ = 0 , 40 ⎢ + − 100 6.10 ⎥⎦ ⎢⎣ 36 Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística propriedades: d(P, Q) = d (Q , P) d(P, Q) > 0 se P ≠ Q d(P, Q) = 0 se P = Q d(P, Q) ≤ d(P, R) + d(R, Q) (Desigualdade triangular) Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Vetores ℜ é o conjunto dos reais; ℜn é o conjunto n-dimensionais reais; dos vetores Os vetores em ℜn são colunas ao menos que seja estabelecido o contrário; Para qualquer x ∈ ℜn, x’ é o vetor transposto de x, isto é o vetor linha ndimensional; Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Prof. Lorí Viali, Dr. – Módulo e Produto Interno PUCRS – FAMAT: Departamento de Estatística Ângulo entre dois Vetores O produto interno (inner product) de dois n vetores x, y ∈ ℜn é definido por: x' y = ∑ xi yi . Cálculo do ângulo θ entre dois vetores x e y. i =1 Quaisquer dois vetores x, y ∈ ℜn x’ = [x1, x2] satisfazendo x’y = 0 são ditos ortogonais. Módulo de um vetor |x| = PUCRS – x2 x12 + x22 +...+ x2n |x| = Prof. Lorí Viali, Dr. – x'.x . Prof. Lorí Viali, Dr. – Pela figura pode-se ver que o ângulo θ pode ser representado pela diferença entre os ângulos θ1 e θ2 formados pelos dois vetores e o coordenado. Assim: primeiro cos(θ1 ) = sen(θ1 ) = Prof. Lorí Viali, Dr. – PUCRS – eixo x 1 e cos( ) = y 1 θ2 |x | | y| x 2 e sen( ) = y 2 θ2 | x| FAMAT: Departamento de Estatística x θ θ2 y1 FAMAT: Departamento de Estatística | y| y’ = [y1, y2] y y2 PUCRS – θ1 x1 FAMAT: Departamento de Estatística Então: cos(θ) = cos(θ2 − θ1) = cos(θ2 ) cos(θ1) + sen(θ2 )sen( θ1 ) Substituindo vem: ⎛ y ⎞⎛ x ⎞ ⎛ y ⎞⎛ x ⎞ cos(θ) = cos(θ2 − θ1) = ⎜ 1 ⎟⎜⎜ 1 ⎟⎟ + ⎜ 2 ⎟⎜⎜ 2 ⎟⎟ = ⎜| y|⎟⎝| x|⎠ ⎜|y|⎟ | y| ⎠ ⎝ ⎠ ⎝ ⎠⎝ x' y x1 y1 + x2 y2 = = |x|| y| |x|| y| Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Dependência e Independência Linear Seja V = {v1, v2, ..., vn} um conjunto de vetores com a mesma dimensão. Uma Combinação Linear (CL) dos vetores em V é qualquer vetor v da forma: Um conjunto V de n vetores mdimensionais é linearmente independente se a única CL de vetores em V que iguala a zero é a combinação trivial, isto é, se: c1 = c2 = ... = cn = 0. v = c1v1 + c2v2 + ... + cnvn onde c1, c2, ..., cn são escalares arbitrários. Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Um conjunto V de n vetores mdimensionais é Prof. Lorí Viali, Dr. – 2 dependente se existe uma CL de 1 vetores não trivial em V que iguala a zero. Prof. Lorí Viali, Dr. – v1 = (1, 1) = AB v2 = (2, 2) = AC y linearmente A PUCRS – v1 B 1 C 2 v2 1 2 3 FAMAT: Departamento de Estatística Prof. Lorí Viali, Dr. – v2 = (1, 1) v1 = (1, 0) y x (i) Dois vetores LD PUCRS – FAMAT: Departamento de Estatística PUCRS – A v2 v1 1 2 3 x (ii) Dois vetores LI FAMAT: Departamento de Estatística Matrizes Para qualquer matriz A, a notação aij indica o elemento da linha “i” e coluna “j”. A notação A’ significa a Transposta de A que é obtida trocando as linhas pelas Para duas matrizes A e B de dimensões compatíveis (AB)’ = B’A’ colunas. Assim se uma matriz A tem dimensões r x s então A’ terá dimensões s x r. Se A é uma matriz quadrada diremos que A é simétrica se A’ = A. Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Matrizes Especiais Traço de uma Matriz Uma matriz A é diagonal se aij = 0 sempre que i ≠ j. Ela é uma triangular inferior se aij = 0 para i < j. Ela é triangular superior se sua transposta for triangular O traço de uma matriz quadrada A de ordem “n” é a soma dos termos da diagonal principal. Traço(A) = a11 + a22 + ... + ann inferior. In representa a matriz identidade e det(A) representa o determinante de A. Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Operações com Matrizes Duas matrizes A e B podem ser Para multiplicar duas matrizes elas adicionadas, subtraídas, multiplicadas não precisam ser de mesma dimensão, e no entanto o número de colunas em A multiplicadas por um escalar (matriz à esquerda) deve ser igual ao (número). Para somar ou subtrair duas matrizes de mesma ordem, basta somar ou subtrair seus elementos. Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística A matriz produto AB é formada por número de linhas em B (matriz à direita). Assim uma matriz nxk só pode ser multiplicada por uma matriz kxp. Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística todos os elementos obtidos tomando o Assim se quisermos multiplicar produto interno de cada linha de A com Anxk por Bkxp então o resultado cij da cada coluna de B. A matriz produto AnxkBkxp é a matriz Cnxp cujo elemento da i-ésima linha e j-ésima matriz produto Cnxp é dado por: k cij = ai1b1j + ai2b2j + ... + aikbkj = ∑ ail blj l =1 coluna é o produto interno da i-ésima linha de A pela j-ésima coluna de B. Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Determinante Convém lembrar que a multiplicação de matrizes não é comutativa, assim AxB ≠ BA. No entanto, a multiplicação de matrizes é associativa, isto é, (AB)C = A(BC). Para multiplicar uma matriz por um escalar (número) multiplica-se cada elemento da matriz por esse número. Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Antes de calcular o determinante de matrizes de ordem mais alta é necessário definir o conceito de menor de uma matriz. Se A é uma matriz de ordem mxn então para quaisquer dois valores i, j ≤ m, o Mij menor de A é a submatriz obtida de A eliminando-se a linha i e a coluna j. Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Associado a qualquer matriz quadrada A existe um número denominado de determinante de A (abreviado por det(A) ou |A|). Assim se A = [a11] é uma matriz de ordem 1x1, então o determinante de A é definido como |a11| = a11. Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Seja A uma matriz mxm com m > 2 então o determinante de A é dado por: |A| = (-1)i+1ai1|Mi1| + (-1)i+2ai2|Mi2| + ... + m i +1 (-1)i+maim|Mim| = ∑ ai 1|Mi 1|(−1) i =1 Essa fórmula é denominada de expansão do det(A) pelos cofatores da linha i. Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Exemplo: Para uma matriz 2x2 ⎡a11 a12⎤ A=⎢ ⎥ ⎣a21 a22⎦ Calcular o determinante pela expansão dos cofatores da seguinte matriz: ⎡1 2 3⎤ ⎢4 5 6⎥ ⎢ ⎥ ⎢⎣7 8 9⎥⎦ O determinante é dado por: det(A) = = a11a22 – a12a21 Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Solução: O determinante de uma matriz O determinante é: representa a variância generalizada das 1 2 3 5 6 4 6 4 5 2 3 4 4 5 6 = (−1) .1. + (−1) .2. + (−1) .3. = 8 9 7 9 7 8 7 8 9 várias variáveis. Isto é, ele caracteriza = (45− 48) − 2(36− 42) + 3(32 − 35) = −3 + 12 − 9 = 0 variabilidade existe em um conjunto de em um único valor quanta variáveis. Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Prof. Lorí Viali, Dr. – Definição: matriz B de mesma ordem é a Inversa de A se e somente se: AB = BA = In. matriz B é representada por A-1. A inversão de matrizes corresponde a operação de divisão com números. PUCRS – FAMAT: Departamento de Estatística de uma matriz quadrada A são as soluções |A – λI| = 0. A matriz A terá p raízes, algumas das quais poderão ser iguais a zero. Prof. Lorí Viali, Dr. – Exemplo: PUCRS – FAMAT: Departamento de Estatística Exemplo: Determinar os autovalores da matriz: Mas 1 ⎤ ⎡1 0 ⎤ ⎡3 − λ ⎡3 1 ⎤ A − λI = ⎢ ⎥ − λ ⎢0 1⎥ = ⎢ 1 − λ ⎥⎦ 1 2 2 ⎦ ⎣ ⎣ ⎦ ⎣ ⎡3 1 ⎤ A=⎢ ⎥ ⎣1 2 ⎦ devemos resolver |A – λI| = 0 Prof. Lorí Viali, Dr. – Os autovalores (raízes características) da seguinte equação: In é a matriz identidade de ordem n. A Para tal equação: FAMAT: Departamento de Estatística Autovalores (Eingenvalues) Dada uma matriz A de ordem nxn a Prof. Lorí Viali, Dr. – PUCRS – PUCRS – FAMAT: Departamento de Estatística a Assim devemos resolver o seguinte determinante: 3−λ 1 1 2−λ Prof. Lorí Viali, Dr. – = 0 ⇒ λ 2 − 5λ + 5 = 0 PUCRS – FAMAT: Departamento de Estatística Matriz das Variâncias e Covariâncias Propriedade: A soma dos autovalores de uma matriz é igual ao Traço da matriz. O traço é multivariados. utilizado nos testes PUCRS – FAMAT: Departamento de Estatística Considere o seguinte conjunto de valores: PUCRS – FAMAT: Departamento de Estatística Primeiro considere a matriz Xd dos desvios, isto é, o quanto cada valor de 1 1 cada uma das variáveis difere da média 3 4 da própria variável: 2 7 PUCRS – FAMAT: Departamento de Estatística ⎡− 1 1 0⎤ X d = ⎢ − 3 0 3⎥ ⎣ ⎦ Podemos obter agora a matriz, denominada de: soma dos quadrados e produtos cruzados (SSCP), fazendo o ' produto de Xd por Xd. Prof. Lorí Viali, Dr. – Prof. Lorí Viali, Dr. – X2 Agora transpomos a matriz Xd, obtendo: ' meio de um exemplo. X1 x1 = 2 e x2 = 4 Prof. Lorí Viali, Dr. – matriz das variâncias e covariâncias de um conjunto de variáveis por Assim Traço(A) = λ1 + λ2 + ... + λn Prof. Lorí Viali, Dr. – Vamos ilustrar a obtenção da PUCRS – FAMAT: Departamento de Estatística X X ⎡ 1 1 ⎤ ⎡ 2 4 ⎤ ⎡− 1 − 3 ⎤ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ = Xd ⎢ 3 4 ⎥ − ⎢2 4 ⎥ = ⎢ 1 0 ⎥ ⎢⎣ 2 7 ⎥⎦ ⎢⎣ 2 4 ⎥⎦ ⎢⎣ 0 3 ⎥⎦ Prof. Lorí Viali, Dr. – X'd PUCRS – FAMAT: Departamento de Estatística Xd ⎡ − 1 − 3⎤ ⎡ ss ss12 ⎤ ⎡ − 1 1 0⎤ ⎢ SSCP = ⎢ 0 ⎥⎥ = ⎢ 1 ⎥ ⎥⎢ 1 ss21 ss 2 ⎦ ⎣ − 3 0 3⎦ ⎢ 0 3 ⎥⎦ ⎣ ⎣ Os elementos da diagonal serão as somas dos quadrados: ss1 = (-1)2 + 12 + 02 = 2 ss2 = (-3)2 + 02 + 32 = 18 Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Note que esses valores são os Esse resultado é justo o numerador da numeradores das variâncias das variáveis, covariância para as duas variáveis, uma vez uma vez que a variância da variável é: que a covariância é dada por: 2 s2 = ∑ ( x ii − x ) s12 = n A soma dos desvios dos produtos cruzados para as duas variáveis é: PUCRS – n resultados são estimadores tendenciosos. Para obter um não tendencioso é ss12 = ss21 = (-1)(-3) + 1.0 + 0.3 = 3. Prof. Lorí Viali, Dr. – Esses ∑ ( x i 1 − x 1) ( x i 2 − x 2 ) só multiplicar por: n/(n – 1) FAMAT: Departamento de Estatística Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Notação Finalmente a matriz das variâncias e covariâncias S é obtida da SSCP multiplicando-a por pela constante: 1/n ou 1/(n - 1). Assim: da variável Prof. Lorí Viali, Dr. – que foi observada no j-ésimo item ou experimento, isto é, xjk = medida da k-ésima variável no j-ésimo item. Assim n medidas de p variáveis serão apresentadas como: Prof. Lorí Viali, Dr. – PUCRS – valores dessas variáveis são unidade experimental. FAMAT: Departamento de Estatística k-ésima os registrados para cada item, indivíduo ou A representação xjk indica um um valor particular natureza social ou física. Se for selecionado então 1 ⎡ 2 3 ⎤ ⎡ 1 1, 5 ⎤ S= ⎢ ⎥ ⎥=⎢ 2 ⎣ 3 18⎦ ⎣1,5 9 ⎦ PUCRS – se procura investigar e entender fenômenos de um número p ≥ 1 de variáveis ou características S = SSCP/(n – 1) Prof. Lorí Viali, Dr. – Dados multivariadas surgem sempre que FAMAT: Departamento de Estatística PUCRS – FAMAT: Departamento de Estatística A média aritmética de cada uma das variáveis é dada por: xk = 1 n n ∑ x jk k = 1, 2, ..., p j=1 A variância é dada por: sk2 = 1 n n ∑ (x jk − x k ) j=1 Prof. Lorí Viali, Dr. – PUCRS – 2 k = 1, 2, ..., p FAMAT: Departamento de Estatística Uma A covariância da amostra é dada por: n 1 sik = n ∑ (x ji − x i )(x jk − xk ) i = 1, 2, ..., p j =1 k = 1, 2, ..., p Ela mede a associação entre a i-ésima e a k-ésima variável. Note que se i = k, então a covariância fica igual a última PUCRS – descritiva é o Coeficiente de Correlação de Pearson, que mede a associação linear entre duas variáveis e não depende utilizadas. r ik = sik = sii skk das unidades de medida n ∑ (x ji − x i )(x jk − x k ) j= 1 n 2 n 2 ∑ ( x ji − x i ) ∑ (x jk − x k ) j= 1 variância e que sik = ski. Prof. Lorí Viali, Dr. – medida i = 1, 2, ..., p j= 1 k = 1, 2, ..., p FAMAT: Departamento de Estatística Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Representação Pode-se representar os escores de n Variáveis S u j e i t o s 1 2 3 ... p 1 x11 x12 x13 ... X1p 2 x21 x22 x23 ... X2p ... ... ... ... ... ... n Xn1 Xn2 xn3 ... xnp Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Essas medidas podem ser organizadas na forma matricial da seguinte maneira: x ⎡ x1⎤ ⎢ ⎥ x2 = ⎢ ⎥ ⎢ ... ⎥ ⎢ ⎥ ⎣⎢ x p ⎦⎥ SSCP ⎡ s11 s12 ... s1p ⎤ ⎥ ⎢ s21 s22 ... s2 p ⎥ = ⎢ ⎢ M M O M ⎥ ⎥ ⎢ ⎢⎣sp 1 sp 2 ... spp⎥⎦ sujeitos (participantes) em p variáveis por uma matriz nxp da seguinte forma: X ⎡ x11 ⎢ ⎢ x 21 ⎢ M = ⎢ ⎢ x j1 ⎢ M ⎢ ⎣⎢x n 1 Prof. Lorí Viali, Dr. – x 12 ... x1k ... x1 p ⎤ x 22 ... x 2 k ... x2 p ⎥⎥ M x j2 O ... x jk M ... ... xn2 ... x nk PUCRS – M M ⎥ ⎥ x jp ⎥ ... M ⎥ ⎥ ... x np ⎦⎥ O ... FAMAT: Departamento de Estatística A matriz das variâncias-covariâncias não viciada é dada por: ⎡ s11 ⎢ 1 ⎢ s 21 SSCP S= = n−1 n -1 ⎢ M ⎢ ⎣⎢sp1 s12 ... s1p ⎤ ⎥ s22 ... s2p⎥ = M O sp 2 ... M ⎥ ⎥ spp⎦⎥ 1 n = ∑ ( X j − X )( X j − X )' n - 1 j=1 Um elemento dessa matriz é dado por: 1 n sik = n - 1 ∑ ( x ji − xi )( x jk − x k ) j =1 Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Variância Generalizada Com uma única variável a variância amostral é utilizada para descrever a Algumas vezes é desejável atribuir um quantidade de variação dos valores daquela único valor para a variação expressa por S. variável. Quando p variáveis são observadas Uma escolha é o valor do determinante de S, a variação é descrita pela matriz das que se reduz a variância usual quando p = 1. variâncias-covariâncias. Esse variâncias e 0,5(p Ela – 1) contém p covariâncias potencialmente diferentes. Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística determinante é denominado de Variância Amostral Generalizada: |S|. Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Interpretação Pode ser mostrado que a Variância Amostral A variância generalizada é afetada pela Generalizada: |S|= (volume)2/(n – 1)p para um variabilidade das medidas de uma única dado conjunto de dados. Isto é, ela é variável. Nesse caso é útil substituir os proporcional ao volume ao quadrado gerado valores das variáveis originais pelos seus pelos desvios dos “p” vetores (variáveis) em valores padronizados: relação as suas médias (di = yi - x i ). Prof. Lorí Viali, Dr. – PUCRS – z jk = FAMAT: Departamento de Estatística Prof. Lorí Viali, Dr. – A matriz das variâncias-covariâncias das variáveis padronizadas será então R, a matriz de correlações amostral variáveis originais. PUCRS – FAMAT: Departamento de Estatística Define-se: Variância Generalizada das Variáveis Padronizadas |R|. As quantidades |S| e |R| estão relacionadas da seguinte forma: ⎡ 1 r 12 ... r 1p ⎤ ⎢ ⎥ r21 1 ... r 2p ⎥ R = ⎢⎢ M M O M ⎥ ⎢ ⎥ ⎣⎢r p 1 r p 2 ... 1 ⎦⎥ Prof. Lorí Viali, Dr. – das PUCRS – x jk − xk skk FAMAT: Departamento de Estatística |S| = (s11s22...spp)|R| Ou (n – 1)p|S| = (n – 1)p|R| Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Referências: Assim o volume ao quadrado (n - 1)p|S| é proporcional ao volume ao quadrado (n – 1)p|R|. A constante de proporcionalidade é o produto das variâncias. Como |R| é padronizado ele não é afetado por mudanças de escala. Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística JOHNSON, Richard A., WICHERN, Dean W. Applied Multivariate Statistical Analysis. Upper Saddle River (NJ): Prentice Hall, 1998. KACHIGAN, Sam Kash. Statistical Analysis: An Interdisciplinary Introduction to Univariate & Multivariate Methods. New York (NY): 1986. Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística GRIM, Laurence G., YARNOLD, Paul R. (Ed.) Reading and Understanding More Multivariate Statistics. Whashington (DC): American Psychological Association, 2000. HARMAN, Harry H. Modern Factor Analysis. Chicago: The University of Chicago Press, 1970. Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística MANLY, Bryan F. J. Métodos Estatísticos Multivariados: uma introdução. Porto Alegre: Artmed, 2008. 3ª ed. STEVENS, James. Applied Multivariate Statistics for The Social Sciences. Mahwah (NJ): Lawrence Erlbaum Assocates, 1996. Third Edition. Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística