A
teoria
dos
métodos
estatísticos
multivariados
pode
ser
explicada
razoavelmente bem somente com uso de
alguma álgebra matricial. Por essa razão é útil,
senão essencial ter pelo menos algum
conhecimento nessa área (Bryan F. J. Manly).
o
Prof. Lorí Viali, Dr.
Estatístico Ecologista com
mais de 30 anos de experiência
como pesquisador, consultor e
professor de Estatística.
[email protected];
[email protected];
http://www.pucrs.br/famat/viali;
http://www.mat.ufrgs.br/~viali/
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Otimização (Maximização)
Muitos
Estatística Multivariada
dos
procedimentos
multivariados são maximizações ou
otimizações. As noções de maximização
Pré-Requisitos
e
de
combinações
lineares
são
combinadas em muitos procedimentos
multivariados.
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Prof. Lorí Viali, Dr. –
Exemplos:
Na
PUCRS –
FAMAT: Departamento de Estatística
Combinação Linear
regressão
múltipla
uma
A idéia de Combinação Linear de
combinação linear dos previsores que
variáveis é básica para quase todos os
maximiza a correlação com a variável
dependente é procurado e na Análise de
Componentes Principais a Combinação
tipos
de
Análise
Multivariada.
Uma
Combinação Linear de p variáveis é dada
Linear das variáveis responsável pela
por: Y = a1x1 + a2x2 + ... + apxp, onde a1, a2,
maior porção da variância é considerada.
..., ap
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
são os coeficientes das variáveis.
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Distâncias
Exemplo:
Suponha que tenhamos um grupo
Considere dois pontos (x1, y1) e
tratamento e controle ou um pré e um
(x2, y2) no plano. Então a distância
pós teste. Se representarmos as variáveis
usual (Euclidiana) entre os dois
por x1 (pré-teste) e x2 (pós-teste) então a
variável diferença pode ser escrita como
Y = x2 - x1, onde a1 = -1 e a2 = 1.
Prof. Lorí Viali, Dr. –
PUCRS –
pontos é obtida pela aplicação do
teorema de Pitágoras.
FAMAT: Departamento de Estatística
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Exemplo:
Assim:
d2
Se os dois pontos forem (2, 3) e
)2
)2
= (x2 – x1 + (y2 – y1
(4, 6), então a distância entre eles é:
Ou, também:
d=
2
2
(x 2 − x 1) + ( y 2 − y 1)
Prof. Lorí Viali, Dr. –
PUCRS –
2
(x 2 − x 1)2 + ( y 2 − y 1) = ( 4 − 2 )2 + (6 − 3)2 =
d=
= 13 = 3 ,61
FAMAT: Departamento de Estatística
Prof. Lorí Viali, Dr. –
espaço p-dimensional é dado por:
d( P , Q ) =
( x 1− y 1) + ( x 2 − y 2 ) + ... + ( x p − y p)
2
2
2
FAMAT: Departamento de Estatística
Johnson e Wichern (1982) colocam
As distâncias entre dois pontos P =
(x1, x2, ..., xp) e Q = (y1, y2, ..., yp) no
PUCRS –
que:
“linhas
retas
e
distâncias
euclidianas não são adequadas para
muitos procedimentos estatísticos. Isso
de deve ao fato de que cada coordenada
tem a mesma contribuição para o
cálculo da distância.
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Fatores:
Quando
as
coordenadas
representam medidas que estão sujeitas
a flutuações aleatórias de diferentes
Levar em conta:
(i)
A
variabilidade
pode
ser
magnitudes, é desejável ponderar as
diferente porque as escalas não
coordenadas
são as mesmas;
sujeitas
a
grande
variabilidade com pesos menores do que
(ii) A correlação entre as variáveis.
as com menor variabilidade (p. 20)”.
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Exemplo:
Um critério
Suponha
A distância ao quadrado, padronizada
que
temos
duas
que se ajusta a diferentes variabilidades é
variáveis x1 e x2 com variâncias 36 e
dada por:
100 e com médias 4 e 6. Vamos admitir
2
2
d =
( xi 1 − x 1)
s
2
1
2
+
( xi 2 − x 2 )
s
2
2
que elas não estão correlacionadas.
Onde xi1 e xi2 representam os valores
Para determinar a distância de um
para o sujeito “i” na variáveis 1 e 2 e x 1 ,
sujeito com escores (2, 3) até o vetor
x 2 são as médias das duas variáveis.
Prof. Lorí Viali, Dr. –
PUCRS –
das médias, isto é, até (4, 6) fazemos:
FAMAT: Departamento de Estatística
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Correlação
2
2
d =
(2 − 4)
36
+
(3 − 6)
100
Suponha agora que as variáveis
2
= 0 ,11 + 0 , 09 = 0 , 20 .
Esses são os mesmos dois pontos que
tem uma correlação moderada, isto é,
rx1,x2
=
0,50.
A
distância
de
foram considerados anteriormente. Note
Mahalanobis, que leva em conta a
que a maior parte da distância é devida a
correlação é dada por:
variável x2 (9). Depois de padronizada a
maior porção é devida a x1 (0,11 em 0,20).
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
D2 =
2
2
⎤
⎡
1 ⎢ (x i 1− x 1) (x i 2 − x 2) 2r ( xi 1− x 1) ( xi 2 − x2 ) ⎥
+
−
⎥
1 − r2 ⎢
s1 s 2
s12
s 22
⎦
⎣
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Mahalanobis
Note que se a correlação é positiva
Prasanta
Chandra
Mahalanobis (1893 - 1972).
• Fundou do ISI (Instituto de
Estatística Indiano).
• Lançou o periódico Sankhia
na área de Estatística.
• Criou o conceito de amostra
piloto.
Prof. Lorí Viali, Dr. –
PUCRS –
então a distância é reduzida de uma
quantidade equivalente ao terceiro termo nos
colchetes. Isso ocorre porque as distâncias ao
longo da segunda dimensão (da segunda
variável) podem ser previstas pela correlação
com a outra variável.
FAMAT: Departamento de Estatística
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Exemplo:
Se
Nesse caso, a distância do ponto
(2,
3)
para
(4,
6)
supondo
uma
⎡ ( 2 − 4)2 (3 − 6)2 2.0 ,5( 2 − 4)( 3 − 6) ⎤
⎥ = 0 ,13
⎢
+
−
D =
2
100
6.10
1 − 0 ,5 ⎢⎣ 36
⎥⎦
1
Prof. Lorí Viali, Dr. –
PUCRS –
correlação
é
forte
(por
exemplo: 0,71, então a distância de
Mahalanobis é ainda menor:
correlação de 0,50 é:
2
a
FAMAT: Departamento de Estatística
D2 =
1
1 − 0 ,71
2
⎡ (2 − 4)2 (3 − 6 )2 2.0 ,71( 2 − 4 )( 3 − 6 ) ⎤
⎢
⎥ = 0 ,12
+
−
100
6.10
⎢⎣ 36
⎥⎦
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Propriedades
Por outro lado se a correlação é
Qualquer distância entre os pontos P e
negativa, então a distância será maior
Q será válida desde que satisfaça as seguintes
do que quando as variáveis não forem
correlacionadas.
Suponha
que
a
correlação seja -0,5, então:
D2 =
1
1 − 0 ,5
2
⎡ ( 2 − 4 )2 ( 3 − 6)2 2.( −0 , 5)( 2 − 4 )( 3 − 6) ⎤
⎥ = 0 , 40
⎢
+
−
100
6.10
⎥⎦
⎢⎣ 36
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
propriedades: d(P, Q) = d (Q , P)
d(P, Q) > 0 se P ≠ Q
d(P, Q) = 0 se P = Q
d(P, Q) ≤ d(P, R) + d(R, Q)
(Desigualdade triangular)
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Vetores
ℜ é o conjunto dos reais;
ℜn
é
o
conjunto
n-dimensionais reais;
dos
vetores
Os vetores em ℜn são colunas ao menos
que seja estabelecido o contrário;
Para qualquer x ∈ ℜn, x’ é o vetor
transposto de x, isto é o vetor linha ndimensional;
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Prof. Lorí Viali, Dr. –
Módulo e Produto Interno
PUCRS –
FAMAT: Departamento de Estatística
Ângulo entre dois Vetores
O produto interno (inner product) de dois
n
vetores x, y ∈ ℜn é definido por: x' y = ∑ xi yi .
Cálculo do ângulo θ entre dois
vetores x e y.
i =1
Quaisquer dois vetores x, y ∈ ℜn
x’ = [x1, x2]
satisfazendo x’y = 0 são ditos ortogonais.
Módulo de um vetor |x| =
PUCRS –
x2
x12 + x22 +...+ x2n
|x| =
Prof. Lorí Viali, Dr. –
x'.x .
Prof. Lorí Viali, Dr. –
Pela figura pode-se ver que o ângulo
θ pode ser representado pela diferença
entre os ângulos θ1 e θ2 formados pelos
dois
vetores
e
o
coordenado. Assim:
primeiro
cos(θ1 ) =
sen(θ1 ) =
Prof. Lorí Viali, Dr. –
PUCRS –
eixo
x 1 e cos( ) = y 1
θ2
|x |
| y|
x 2 e sen( ) = y 2
θ2
| x|
FAMAT: Departamento de Estatística
x
θ
θ2
y1
FAMAT: Departamento de Estatística
| y|
y’ = [y1, y2]
y
y2
PUCRS –
θ1
x1
FAMAT: Departamento de Estatística
Então:
cos(θ) = cos(θ2 − θ1) = cos(θ2 ) cos(θ1) + sen(θ2 )sen( θ1 )
Substituindo vem:
⎛ y ⎞⎛ x ⎞ ⎛ y ⎞⎛ x ⎞
cos(θ) = cos(θ2 − θ1) = ⎜ 1 ⎟⎜⎜ 1 ⎟⎟ + ⎜ 2 ⎟⎜⎜ 2 ⎟⎟ =
⎜| y|⎟⎝| x|⎠ ⎜|y|⎟ | y|
⎠
⎝
⎠
⎝
⎠⎝
x' y
x1 y1 + x2 y2
=
=
|x|| y|
|x|| y|
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Dependência e Independência Linear
Seja V = {v1, v2, ..., vn} um conjunto de
vetores com a mesma dimensão.
Uma Combinação Linear (CL) dos vetores
em V é qualquer vetor v da forma:
Um conjunto V de n vetores mdimensionais
é
linearmente
independente se a única CL de vetores
em V que iguala a zero é a combinação
trivial, isto é, se: c1 = c2 = ... = cn = 0.
v = c1v1 + c2v2 + ... + cnvn
onde c1, c2, ..., cn são escalares arbitrários.
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Um conjunto V de n vetores mdimensionais
é
Prof. Lorí Viali, Dr. –
2
dependente se existe uma CL de
1
vetores não trivial em V que iguala a
zero.
Prof. Lorí Viali, Dr. –
v1 = (1, 1) = AB
v2 = (2, 2) = AC
y
linearmente
A
PUCRS –
v1
B
1
C
2
v2
1
2
3
FAMAT: Departamento de Estatística
Prof. Lorí Viali, Dr. –
v2 = (1, 1)
v1 = (1, 0)
y
x
(i) Dois vetores LD
PUCRS –
FAMAT: Departamento de Estatística
PUCRS –
A
v2
v1 1
2
3
x
(ii) Dois vetores LI
FAMAT: Departamento de Estatística
Matrizes
Para qualquer matriz A, a notação
aij indica o elemento da linha “i” e
coluna “j”.
A notação A’ significa a Transposta de A
que é obtida trocando as linhas pelas
Para duas matrizes A e B de
dimensões compatíveis (AB)’ = B’A’
colunas. Assim se uma matriz A tem
dimensões r x s então A’ terá dimensões s x r.
Se A é uma matriz quadrada
diremos que A é simétrica se A’ = A.
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Matrizes Especiais
Traço de uma Matriz
Uma matriz A é diagonal se aij = 0
sempre que i ≠ j. Ela é uma triangular
inferior se aij = 0 para i < j. Ela é triangular
superior se sua transposta for triangular
O traço de uma matriz quadrada A de
ordem “n” é a soma dos termos da
diagonal principal.
Traço(A) = a11 + a22 + ... + ann
inferior.
In representa a matriz identidade e
det(A) representa o determinante de A.
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Operações com Matrizes
Duas matrizes A e B podem ser
Para multiplicar duas matrizes elas
adicionadas, subtraídas, multiplicadas
não precisam ser de mesma dimensão,
e
no entanto o número de colunas em A
multiplicadas
por
um
escalar
(matriz à esquerda) deve ser igual ao
(número).
Para
somar
ou
subtrair
duas
matrizes de mesma ordem, basta somar
ou subtrair seus elementos.
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
A matriz produto AB é formada por
número de linhas em B (matriz à
direita). Assim uma matriz nxk só pode
ser multiplicada por uma matriz kxp.
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
todos os elementos obtidos tomando o
Assim se quisermos multiplicar
produto interno de cada linha de A com
Anxk por Bkxp então o resultado cij da
cada coluna de B.
A matriz produto AnxkBkxp é a matriz
Cnxp cujo elemento da i-ésima linha e j-ésima
matriz produto Cnxp é dado por:
k
cij = ai1b1j + ai2b2j + ... + aikbkj = ∑ ail blj
l =1
coluna é o produto interno da i-ésima linha
de A pela j-ésima coluna de B.
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Determinante
Convém lembrar que a multiplicação de
matrizes não é comutativa, assim AxB ≠ BA.
No entanto, a multiplicação de matrizes é
associativa, isto é, (AB)C = A(BC).
Para multiplicar uma matriz por um
escalar (número) multiplica-se cada elemento
da matriz por esse número.
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Antes de calcular o determinante de
matrizes de ordem mais alta é necessário
definir o conceito de menor de uma matriz.
Se A é uma matriz de ordem mxn então
para quaisquer dois valores i, j ≤ m, o Mij
menor de A é a submatriz obtida de A
eliminando-se a linha i e a coluna j.
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Associado a qualquer matriz quadrada
A existe um número denominado de
determinante de A (abreviado por det(A) ou
|A|).
Assim se A = [a11] é uma matriz de
ordem 1x1, então o determinante de A é
definido como |a11| = a11.
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Seja A uma matriz mxm com m > 2 então
o determinante de A é dado por:
|A| = (-1)i+1ai1|Mi1| + (-1)i+2ai2|Mi2| + ... +
m
i +1
(-1)i+maim|Mim| = ∑ ai 1|Mi 1|(−1)
i =1
Essa fórmula é denominada de expansão
do det(A) pelos cofatores da linha i.
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Exemplo:
Para uma matriz
2x2
⎡a11 a12⎤
A=⎢
⎥
⎣a21 a22⎦
Calcular o determinante pela expansão
dos cofatores da seguinte matriz:
⎡1 2 3⎤
⎢4 5 6⎥
⎢
⎥
⎢⎣7 8 9⎥⎦
O determinante é dado por: det(A) =
= a11a22 – a12a21
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Solução:
O determinante de uma matriz
O determinante é:
representa a variância generalizada das
1 2 3
5 6
4 6
4 5
2
3
4
4 5 6 = (−1) .1.
+ (−1) .2.
+ (−1) .3.
=
8 9
7 9
7 8
7 8 9
várias variáveis. Isto é, ele caracteriza
= (45− 48) − 2(36− 42) + 3(32 − 35) = −3 + 12 − 9 = 0
variabilidade existe em um conjunto de
em
um
único
valor
quanta
variáveis.
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Prof. Lorí Viali, Dr. –
Definição:
matriz B de mesma ordem é a Inversa de A
se e somente se: AB = BA = In.
matriz B é representada por A-1. A inversão
de matrizes corresponde a operação de
divisão com números.
PUCRS –
FAMAT: Departamento de Estatística
de uma matriz quadrada A são as soluções
|A – λI| = 0.
A matriz A terá p raízes, algumas das
quais poderão ser iguais a zero.
Prof. Lorí Viali, Dr. –
Exemplo:
PUCRS –
FAMAT: Departamento de Estatística
Exemplo:
Determinar os autovalores da matriz:
Mas
1 ⎤
⎡1 0 ⎤ ⎡3 − λ
⎡3 1 ⎤
A − λI = ⎢
⎥ − λ ⎢0 1⎥ = ⎢ 1
−
λ ⎥⎦
1
2
2
⎦ ⎣
⎣
⎦
⎣
⎡3 1 ⎤
A=⎢
⎥
⎣1 2 ⎦
devemos
resolver
|A – λI| = 0
Prof. Lorí Viali, Dr. –
Os autovalores (raízes características)
da seguinte equação:
In é a matriz identidade de ordem n. A
Para tal
equação:
FAMAT: Departamento de Estatística
Autovalores (Eingenvalues)
Dada uma matriz A de ordem nxn a
Prof. Lorí Viali, Dr. –
PUCRS –
PUCRS –
FAMAT: Departamento de Estatística
a
Assim devemos resolver o seguinte
determinante:
3−λ
1
1
2−λ
Prof. Lorí Viali, Dr. –
= 0 ⇒ λ 2 − 5λ + 5 = 0
PUCRS –
FAMAT: Departamento de Estatística
Matriz das Variâncias e Covariâncias
Propriedade:
A soma dos autovalores de uma
matriz é igual ao Traço da matriz.
O traço é
multivariados.
utilizado nos testes
PUCRS –
FAMAT: Departamento de Estatística
Considere o seguinte conjunto de
valores:
PUCRS –
FAMAT: Departamento de Estatística
Primeiro considere a matriz Xd dos
desvios, isto é, o quanto cada valor de
1
1
cada uma das variáveis difere da média
3
4
da própria variável:
2
7
PUCRS –
FAMAT: Departamento de Estatística
⎡− 1 1 0⎤
X d = ⎢ − 3 0 3⎥
⎣
⎦
Podemos obter agora a matriz,
denominada de: soma dos quadrados e
produtos cruzados (SSCP), fazendo o
'
produto de Xd por Xd.
Prof. Lorí Viali, Dr. –
Prof. Lorí Viali, Dr. –
X2
Agora transpomos a matriz Xd,
obtendo:
'
meio de um exemplo.
X1
x1 = 2 e x2 = 4
Prof. Lorí Viali, Dr. –
matriz das variâncias e covariâncias
de um conjunto de variáveis por
Assim Traço(A) = λ1 + λ2 + ... + λn
Prof. Lorí Viali, Dr. –
Vamos ilustrar a obtenção da
PUCRS –
FAMAT: Departamento de Estatística
X
X
⎡ 1 1 ⎤ ⎡ 2 4 ⎤ ⎡− 1 − 3 ⎤
⎥ ⎢
⎥
⎢
⎥ ⎢
=
Xd ⎢ 3 4 ⎥ − ⎢2 4 ⎥ = ⎢ 1 0 ⎥
⎢⎣ 2 7 ⎥⎦ ⎢⎣ 2 4 ⎥⎦ ⎢⎣ 0
3 ⎥⎦
Prof. Lorí Viali, Dr. –
X'd
PUCRS –
FAMAT: Departamento de Estatística
Xd
⎡ − 1 − 3⎤
⎡ ss ss12 ⎤
⎡ − 1 1 0⎤ ⎢
SSCP = ⎢
0 ⎥⎥ = ⎢ 1
⎥
⎥⎢ 1
ss21 ss 2 ⎦
⎣ − 3 0 3⎦ ⎢ 0
3 ⎥⎦ ⎣
⎣
Os elementos da diagonal serão as
somas dos quadrados:
ss1 = (-1)2 + 12 + 02 = 2
ss2 = (-3)2 + 02 + 32 = 18
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Note
que
esses
valores
são
os
Esse resultado é justo o numerador da
numeradores das variâncias das variáveis,
covariância para as duas variáveis, uma vez
uma vez que a variância da variável é:
que a covariância é dada por:
2
s2 =
∑ ( x ii − x )
s12 =
n
A soma dos desvios dos produtos
cruzados para as duas variáveis é:
PUCRS –
n
resultados
são
estimadores
tendenciosos. Para obter um não tendencioso é
ss12 = ss21 = (-1)(-3) + 1.0 + 0.3 = 3.
Prof. Lorí Viali, Dr. –
Esses
∑ ( x i 1 − x 1) ( x i 2 − x 2 )
só multiplicar por: n/(n – 1)
FAMAT: Departamento de Estatística
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Notação
Finalmente a matriz das variâncias e
covariâncias
S
é
obtida
da
SSCP
multiplicando-a por pela constante: 1/n ou
1/(n - 1). Assim:
da
variável
Prof. Lorí Viali, Dr. –
que
foi
observada no j-ésimo item ou experimento,
isto é, xjk = medida da k-ésima variável no
j-ésimo item.
Assim n medidas de p variáveis serão
apresentadas como:
Prof. Lorí Viali, Dr. –
PUCRS –
valores
dessas
variáveis
são
unidade experimental.
FAMAT: Departamento de Estatística
k-ésima
os
registrados para cada item, indivíduo ou
A representação xjk indica um um valor
particular
natureza social ou física. Se for selecionado
então
1 ⎡ 2 3 ⎤ ⎡ 1 1, 5 ⎤
S= ⎢
⎥
⎥=⎢
2 ⎣ 3 18⎦ ⎣1,5 9 ⎦
PUCRS –
se procura investigar e entender fenômenos de
um número p ≥ 1 de variáveis ou características
S = SSCP/(n – 1)
Prof. Lorí Viali, Dr. –
Dados multivariadas surgem sempre que
FAMAT: Departamento de Estatística
PUCRS –
FAMAT: Departamento de Estatística
A média aritmética de cada uma das
variáveis é dada por:
xk =
1
n
n
∑ x jk k = 1, 2, ..., p
j=1
A variância é dada por:
sk2 =
1
n
n
∑ (x jk − x k )
j=1
Prof. Lorí Viali, Dr. –
PUCRS –
2
k = 1, 2, ..., p
FAMAT: Departamento de Estatística
Uma
A covariância da amostra é dada por:
n
1
sik = n ∑ (x ji − x i )(x jk − xk ) i = 1, 2, ..., p
j =1
k = 1, 2, ..., p
Ela mede a associação entre a
i-ésima e a k-ésima variável. Note que
se i = k, então a covariância fica igual a
última
PUCRS –
descritiva
é
o
Coeficiente de Correlação de Pearson, que
mede a associação linear entre duas variáveis e
não
depende
utilizadas.
r ik =
sik =
sii skk
das
unidades
de
medida
n
∑ (x ji − x i )(x jk − x k )
j= 1
n
2 n
2
∑ ( x ji − x i ) ∑ (x jk − x k )
j= 1
variância e que sik = ski.
Prof. Lorí Viali, Dr. –
medida
i = 1, 2, ..., p
j= 1
k = 1, 2, ..., p
FAMAT: Departamento de Estatística
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Representação
Pode-se representar os escores de n
Variáveis
S
u
j
e
i
t
o
s
1
2
3
...
p
1
x11
x12
x13
...
X1p
2
x21
x22
x23
...
X2p
...
...
...
...
...
...
n
Xn1
Xn2
xn3
...
xnp
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Essas medidas podem ser organizadas
na forma matricial da seguinte maneira:
x
⎡ x1⎤
⎢ ⎥
x2
= ⎢ ⎥
⎢ ... ⎥
⎢ ⎥
⎣⎢ x p ⎦⎥
SSCP
⎡ s11 s12 ... s1p ⎤
⎥
⎢
s21 s22 ... s2 p ⎥
= ⎢
⎢ M
M O M ⎥
⎥
⎢
⎢⎣sp 1 sp 2 ... spp⎥⎦
sujeitos (participantes) em p variáveis por
uma matriz nxp da seguinte forma:
X
⎡ x11
⎢
⎢ x 21
⎢ M
= ⎢
⎢ x j1
⎢ M
⎢
⎣⎢x n 1
Prof. Lorí Viali, Dr. –
x 12 ... x1k ... x1 p ⎤
x 22 ... x 2 k ... x2 p ⎥⎥
M
x j2
O
...
x jk
M
...
...
xn2
...
x nk
PUCRS –
M
M ⎥
⎥
x jp ⎥
...
M ⎥
⎥
... x np ⎦⎥
O
...
FAMAT: Departamento de Estatística
A matriz das variâncias-covariâncias não
viciada é dada por:
⎡ s11
⎢
1 ⎢ s 21
SSCP
S=
=
n−1 n -1 ⎢ M
⎢
⎣⎢sp1
s12 ... s1p ⎤
⎥
s22 ... s2p⎥
=
M
O
sp 2
...
M ⎥
⎥
spp⎦⎥
1 n
=
∑ ( X j − X )( X j − X )'
n - 1 j=1
Um elemento dessa matriz é dado por:
1
n
sik = n - 1 ∑ ( x ji − xi )( x jk − x k )
j =1
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Variância Generalizada
Com uma única variável a variância
amostral
é
utilizada
para
descrever
a
Algumas vezes é desejável atribuir um
quantidade de variação dos valores daquela
único valor para a variação expressa por S.
variável. Quando p variáveis são observadas
Uma escolha é o valor do determinante de S,
a variação é descrita pela matriz das
que se reduz a variância usual quando p = 1.
variâncias-covariâncias.
Esse
variâncias
e
0,5(p
Ela
–
1)
contém
p
covariâncias
potencialmente diferentes.
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
determinante
é
denominado
de
Variância Amostral Generalizada: |S|.
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Interpretação
Pode ser mostrado que a Variância Amostral
A variância generalizada é afetada pela
Generalizada: |S|= (volume)2/(n – 1)p para um
variabilidade das medidas de uma única
dado conjunto de dados. Isto
é, ela é
variável. Nesse caso é útil substituir os
proporcional ao volume ao quadrado gerado
valores das variáveis originais pelos seus
pelos desvios dos “p” vetores (variáveis) em
valores padronizados:
relação as suas médias (di = yi - x i ).
Prof. Lorí Viali, Dr. –
PUCRS –
z jk =
FAMAT: Departamento de Estatística
Prof. Lorí Viali, Dr. –
A matriz das variâncias-covariâncias
das variáveis padronizadas será então R, a
matriz
de
correlações
amostral
variáveis originais.
PUCRS –
FAMAT: Departamento de Estatística
Define-se: Variância Generalizada das
Variáveis Padronizadas |R|.
As quantidades |S| e |R| estão
relacionadas da seguinte forma:
⎡ 1 r 12 ... r 1p ⎤
⎢
⎥
r21 1 ... r 2p ⎥
R = ⎢⎢ M
M O M ⎥
⎢
⎥
⎣⎢r p 1 r p 2 ... 1 ⎦⎥
Prof. Lorí Viali, Dr. –
das
PUCRS –
x jk − xk
skk
FAMAT: Departamento de Estatística
|S| = (s11s22...spp)|R|
Ou (n – 1)p|S| = (n – 1)p|R|
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Referências:
Assim o volume ao quadrado (n - 1)p|S|
é proporcional ao volume ao quadrado
(n
–
1)p|R|.
A
constante
de
proporcionalidade é o produto das variâncias.
Como |R| é padronizado ele não é
afetado por mudanças de escala.
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
JOHNSON, Richard A., WICHERN, Dean W.
Applied Multivariate Statistical Analysis.
Upper Saddle River (NJ): Prentice Hall,
1998.
KACHIGAN, Sam Kash. Statistical Analysis:
An
Interdisciplinary
Introduction
to
Univariate & Multivariate Methods. New
York (NY): 1986.
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
GRIM, Laurence G., YARNOLD, Paul R. (Ed.)
Reading
and
Understanding
More
Multivariate Statistics. Whashington (DC):
American Psychological Association, 2000.
HARMAN, Harry H. Modern Factor Analysis.
Chicago: The University of Chicago Press,
1970.
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
MANLY, Bryan F. J.
Métodos Estatísticos
Multivariados: uma introdução. Porto Alegre:
Artmed, 2008. 3ª ed.
STEVENS, James.
Applied Multivariate
Statistics for The Social Sciences. Mahwah
(NJ): Lawrence Erlbaum Assocates, 1996.
Third Edition.
Prof. Lorí Viali, Dr. –
PUCRS –
FAMAT: Departamento de Estatística
Download

Álgebra Matricial