Análise de regressão linear simples:
abordagem matricial
Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma
necessidade na regressão linear múltipla, pois permite que grandes sistemas de
equações e conjunto de dados sejam representados de forma compacta e operacional.
Matrizes
Matriz: um conjunto de elementos arranjados em linhas e colunas. Exemplo:
Linha 1 16 23
Linha 2 33 47
Linha 3  21 35
(Dimensão: 3 x 2)
 a11

A =  a 21
(3 x 2)  a
 31
a12 
a22 
a32 
i=1,2,3 (linhas)
j=1,2 (colunas)
Representada por letras em negrito, p.e., A, B, C, , , , , etc.
1
Matriz quadrada:
4 7 
3 9 


Vetor:
 a11
a
 21
 a31
a13 
a23 
a33 
a12
a22
a32
Número de linhas =
número de colunas.
Contém apenas uma coluna. Também são representados por letras
minúsculas em negrito.
4
Vetor linha ou transposto:
b'  15 25 50
a   7 
10 
Matriz transposta (A’):
A( 3 x 2 )
2 5 
 7 10


 3 4 
'
A ( 2 x 3)
2 7 3


5
10
4


Igualdade de matrizes: mesma dimensão e todos os correspondentes
elementos são iguais.
a=b implica:
 a1 
a  a2 
( 3 x 1)
a3 
a1  4
a2  7
4
b  7 
( 3 x 1)
3 
a3  3
2
Aplicação na regressão:
O vetor y consiste de n observações da variável resposta:
Y1 
Y 
 2
Y y  . 
( n x 1)
 
. 
Yn 
y '  Y1 Y2
(1 x n)
Matriz X de delineamento:
1 X 1 
1 X 
2

. . 
X 

(n x 2)
.
.


. . 


1
X
n

1
X 
(2 x n)
 X1
'
. . Yn 
O vetor dos parâmetros:
1 . . . 1
X 2 . . . X n 
 0 
β  
2 x1
 1 
3
Adição e subtração de matrizes:
 1 4
A   2 5


(3 x 2)
 3 6
 11
A  B  2  2
(3 x 2 )
 3  3
 11
A  B  2  2
(3 x 2 )
 3  3
 1 2
B   2 3


(3 x 2)
 3 4
4  2  2
5  3   4
6  4 6
4  2  0
5  3   0
6  4 0
Matrizes de mesma
dimensão
6
8 
10
2
2
2
Aplicação na regressão:
Temos o modelo de regressão, para a i-ésima observação:
Yi  E(Yi )  i i  1,2,..,n
Este modelo pode ser escrito em forma matricial.
4
Vamos definir os vetores de respostas médias e de resíduos:
E ( Y ) ( n x 1)
 E (Y1 ) 
 E (Y )
2 

 . 


.


 . 


E
(
Y
)
n 

 1 
 
 2
.
  
( n x 1)
.
.
 
 n 
Assim, o modelo de regressão escrito na forma matricial, fica:
Y  E ( Y)  
( n x 1)
( n x 1)
( n x 1)
Multiplicação de matrizes:
Por escalar:
2 7  8 28
4A  4 
  36 12
9
3

 

5
Multiplicação de matriz por matriz:
2 5 4 6 (2.4  5.5) (2.6  5.8) 33 52
AB 
 






4
1
5
8
(
4
.
4

1
.
5
)
(
4
.
6

1
.
8
)
21
32
2 2 
2 2 
2 

2
Nota: geralmente ABBA.
1
Exercício: faça a multiplicação das matrizes: AB  
0
3
5
 3
4  
5 .



8

 2

Aplicação na regressão:
1 y n n y 1  Y1 Y2
'
Y1 
Y 
 2
.  n 2
. . . Yn    Yi  Soma de quadrados
 .  i 1
. 
 
Yn 
6
Importante:
'
X
2 n n X2
1

 X1
1
. . .
X2
. . .
1 X1 
1 X 

2

n
1  . .  

  n

X n  . .  
Xi


 . .  2  i 1


1 X n 

 Xi 
i 1

n
2
X
 i
i 1
2
n
Importante:
'
X
2 n n y1
1

 X1
1
X2
Y1 
Y 
 2
. . . 1   .   Yi 
  

. . . X n   .   X iYi 
2
1
.
 
Yn 
7
1 X 1 
  0  1 X 1 
1 X 
   X 
2
1 2

 0
. .   0  

.
   

n X 2 2β 1  
.
 . .   1  

. . 


.




1 X n 
  0  1 X n 
Importante:
Portanto, o modelo na forma matricial fica:
Y  X  
Tipos especiais de matrizes
Matriz simétrica: se A=A’ ela é dita simétrica. Exemplo:
1 4 6 
 2 5
3 A 3  4

6 5 3
1 4 6 
A '  4 2 5
6 5 3
8
Um caso importante de matriz simétrica na regressão é:
X' X
Matriz diagonal: é uma matriz quadrada, cujos elementos fora da diagonal são
todos iguais a zero, por exemplo,
a1
A   0
 0
0
a2
0
0
0 
a3 
Dois tipos importantes de matrizes diagonal são: matriz identidade e matriz escalar.
Matriz identidade (I): é uma matriz diagonal cujos elementos da diagonal são
todos iguais a um (1).
Pré multiplicando (ou pós multiplicando) qualquer matriz A (r x r), pela
identidade, a matriz A fica inalterada.
1 0 0  a11
IA  0 1 0 a21
0 0 1 a31
a12
a22
a32
a13   a11
a23   a21
a33  a31
a12
a22
a32
a13 
a23 
a33 
Para uma matriz A de dimensão (r x r), temos:
AI  IA  A
9
Matriz escalar: é uma matriz diagonal cujos elementos da diagonal são todos
iguais. Pode ser dada por I:
 0 0 
1 0 0 
 0  0    0 1 0  I




 0 0  
0 0 1
Vetores e matrizes com todos os elementos iguais a um (1)
1
1

.
r 11   
.
.

1
1
1

r J r  .

.
1
1 . . 1
1 . . 1
. . . .

. . . .
1 . . 1
10
1
.
1'1  1 . . 1   n  n
.

1
Operações importantes:
1
1
.
1
11'   1 . . 1  
.
.


1

1
.
.
.
.
.
.
.
.
1
1
 n jn
.

1
Dependência linear e posto de uma matriz
Dependência linear
11
Considere a matriz:
1 2 5 1 
A  2 2 10 6
3 4 15 1
Observe que a terceira coluna é um múltiplo da primeira coluna:
5
1 
10  52
 
 
15
3
Portanto, as colunas da matriz A, são linearmente dependentes. Elas contém
informações redundantes (supérfluas), pois uma coluna pode ser obtida como uma
combinação linear das outras.
Considere c vetores colunas de uma matriz (r x c) : c1, c2,...,cc.De modo geral,
define-se dependência linear como:
• quando c escalares 1,..., c, nem todos iguais a zero, podem ser determinados tal
que:
1 c1 2 c2  ...  c cc  0  Os c vetores colunas são
linearmente dependentes
12
Se o único conjunto de escalares, para o qual a igualdade vale (=0) é:
1  0, 2  0,...,c  0
 Os c vetores colunas são
linearmente independentes
Exemplo: considere os escalares:1=5, 2=0, 3=-1e 4=0, assim temos:
 1   2   5  1   0 
52  0 2  110  0 6  0
3 4 15 1 0
Portanto, as colunas são linearmente dependentes. Observe que alguns ’s são
iguais a zero.
Posto (rank) de uma matriz
O posto de uma matriz é definida como sendo o número máximo de colunas (linhas)
linearmente independentes. No exemplo acima, encontramos 3 colunas (1,2 e 4)
linearmente independentes. Não existem escalares 1, 2 e 4 tal que 1C1+ 2C2+
4C4=0 a não ser estes: 1=0, 2=0 e 4=0. Assim, o posto de A é 3.
13
Segue-se que o posto de uma matriz (r x c) não pode exceder o min(r,c), isto é, o
mínimo entre r e c. No caso de uma matriz, por exemplo, C, que é o resultado do
produto de duas outras matrizes (A e B), o rank de C não pode exceder o mínimo
entre o rank(A) e o rank(B).
(Definição: o rank, posto ou característica de uma matriz, é o número de linhas
não nulas na sua forma escalonada canônica).
Exercício: seja a matriz
4 2 2
A  2 2 0
2 0 2
encontre o valor do rank de (A).
OBS. Matriz de rank incompleto
Inversa de uma matriz
Na álgebra de matrizes, a inversa de uma matriz A (quadrada), é uma outra matriz,
denominada por A-1, tal que:
A 1A  AA 1  I
Muitas matrizes quadradas não tem inversa. Para aquelas que têm, a inversa é única.
14
Encontrando a inversa.
A inversa de uma matriz quadrada (r x r) existe se o rank da matriz é r. Esta matriz
é denominada de não singular ou de posto completo.Uma matriz (r x r) com rank
menor do que r é denominada de matriz singular ou de posto incompleto e não tem
inversa. A inversa de uma matriz (r x r) de rank completo também tem rank r.
Usaremos programas estatísticos ou matemáticos para encontrar inversas de
matrizes. Por exemplo, para a matriz:
 2 4
A

3 1 
a inversa, obtida no PROC IML do SAS, é dada por:
Comandos SAS
A
INVERSA
2 rows
2
3
2 cols
4
1
2 rows
-0.1
0.3
2 cols
0.4
-0.2
proc iml;
reset print;
A={2 4,
3 1};
INVERSA=inv(A);
15
Aplicação na regressão
Na análise de regressão, a principal inversa é a de X’X:
 n
XX
 X i
'
X
X
i
2
i



O determinante desta matriz é dada por:
( X )
D  n X  ( X i )(  X i )  n  X i2  n i   n ( X i  X ) 2


2
2
i
Assim, a inversa de X’X é dada por:
  Xi 2
n (X X )
( X ' X) 1     iX i

2
 n( X i  X )
2
Como:
X
i
 nX
e

n( X i  X )

n

n( X i  X )2 
 X i
(X - X)   X
2
i
2
2
i
 nX 2
Chega-se a forma simplificada:
16
 1n  X 2
(X X )
( X' X) 1    X i
 n ( X i  X )2

2
n


X
( X i  X )2
1
( X i  X )2




Uso da matriz inversa
Se temos uma equação:
AY  C
Assumindo que A tem inversa, podemos pré-multiplicar ambos os lados da igualdade
por A-1:
1
1
A AY  A C
Como A-1AY=IY=Y, obtemos a solução:
Y  A 1C
Exemplo: suponha o seguinte sistema de equações:
2 y1  4 y2  20
3 y1  y2  10
Escrevendo na forma matricial temos:
17
2 4  y1  20
3 1  y   10

 2   
A solução do sistema de equações é dada por:
1
 y1  2 4 20  y1   0.1 0.4  20 2
 y   3 1 10   y    0.3  0.2 10  4
    2 
   
 2 
Matrizes e vetores aleatórios
São vetores ou matrizes que contém elementos que são variáveis aleatórias. Por
exemplo, o vetor Y é aleatório, pois os elementos Yi são variáveis aleatórias.
O valor esperado de um vetor ou matriz aleatória
Para um vetor aleatório y, a esperança matemática é:
E(y)( n x 1 ) n [ E( Yi )]1 i  1,2,...,n
Para uma matriz Y, de dimensão n x p, a esperança matemática é:
n

E(Y) p n E(Yij )

p
i  1,2,...,n j  1,2,...,p
Valores esperados das v.a.
18
Aplicação na regressão:
Sabemos que os termos dos erros aleatórios, i, tem esperança igual a
zero,isto é, E(i )=0. Para o vetor de erros aleatórios, temos:
 1   E (1 )  0
   E ( ) 0
2 
 2 
 
    .   .  0
n E ( )1  E .
  
  
 .   .  .
 n   E ( n ) 0
Matriz de variância-covariância de um vetor aleatório
A matriz de variância-covariância de um vetor aleatório y, de dimensão n x 1, é:
19
 2 (y)( n x n )
  2 ( Y1 )  ( Y1 ,Y2 )

2

(
Y
,
Y
)

( Y2 )
2
1


.
.

.
.

 ( Y ,Y )  ( Y ,Y )
n
1
n
2

.
.
.
.
.
.  ( Y1 ,Yn ) 

.  ( Y2 ,Yn )

.
.

.
.

.  2 ( Yn ) 
Observe que na diagonal temos as variâncias das variáveis aleatórias, 2(Yi). Na iésima linha e j-ésima coluna da matriz temos as covariâncias, (Yi,Yj). Como
(Yi,Yj)=(Yj,Yi), para todo ij, 2(y) é uma matriz simétrica.
Exercício: considere um vetor aleatório y, com três observações Y1, Y2 e Y3. A
variância de uma v. a. é definida por , 2(Y)=E[(Y-E(Y))2] (Apêndice). A covariância
entre Y1 e Y2 é definida por: (Y1,Y2)=E[(Y1-E(Y1))(Y2-E(Y2))]. Mostre que:
 2 (y)  E[(y E(y))(y E(y))' ]
Aplicação na regressão
Suponha que os erros tenham variância constante, 2(i)= 2, e sejam não
correlacionados, (i, j)=0 para ij. A matriz de variância-covariância do vetor
de erros é dada por:
2
2
 (ε )   I( n x n )
20
Alguns teoremas básicos
Em muitas situações temos um vetor aleatório W, o qual é obtido prémultiplicando-se o vetor aleatório Y por uma matriz A (com valores fixos):
W=AY. Temos os seguintes teoremas:
E( A )  A
E( W )  E( A y)  AE( y)
σ 2 ( W )   2 ( A y)  A 2 ( y)A'
Exercício: considere,
W1  1  1 Y1 
W   1 1  Y 
  2
 2 
W
A
Y
Mostre as expressões para E(W) e 2(W).
Análise de regressão linear simples através de
matrizes
O modelo de regressão linear simples, com erros normais (3) é dado por:
Yi  0  1 X i   i
i  1,2,...,n
(9)
21
Já definimos o vetor de observações Y, a matriz de delineamento X, e o vetor
de erros aleatórios . O vetor de parâmetros , é definido como:
0 
β  
 1 
O modelo de regressão linear simples em termos matriciais, fica:
y  X β  ε
n x1
nx22x1
nx1
( 10 )
Exercício: mostre que aplicando-se as operações matriciais do modelo (10 )
chegamos as observações do modelo ( 9).
Os valores esperados das observações Yi são dados por:
E(Yi)= 0+1Xi
assim,
E(y)  X
nx1
nx1
22
A coluna de un’s (1’s) na matriz de delineamento X pode ser vista como uma variável
dummy X01 no modelo de regressão linear alternativo:
Yi  0 X 0  1 X i   i
No modelo ( 10), o  é um vetor de variáveis aleatórias com distribuição
normal, independentes com E( )=0 e 2()=2I.
Método de mínimos quadrados para estimação dos
parâmetros do modelo
Para obter as equações normais pelo método de mínimos quadrados, devemos
minimizar o critério:
Q  (Yi  ( 0  1 X i ))2
Na forma matricial escrevemos:
Q  (y  Xβ )' (y  Xβ )
Fazendo o desenvolvendo temos:
Q  y' y  β' X' y  y' Xβ  β' X' Xβ
23
Como (X)’=’X’ e y’X é um escalar, portanto:
Q  y ' y  2β' X' y  β' X' Xβ
Para encontrar os valores de  que minimizam Q, devemos diferenciar Q com
respeito a 0 e 1, ou seja:
Q
β
 2 X' y  2 X' Xβ
Igualando o vetor a zero, dividindo por 2, e substituindo  por b obtemos:
X' Xb  X' y
Sistema de
equações normais
Onde b’=[b0 b1]
Observando-se as equações normais e X’X vemos que sempre que as colunas de X’X
são linearmente dependentes, as equações normais também serão linearmente
dependentes. Diversas soluções para b0 e b1 podem ser obtidas. Felizmente, na
regressão, as colunas de X’X são linearmente independentes, portanto, temos solução
única para b0 e b1.
Exercício: desenvolva X’Xb=X’y e verifique que são exatamente as equações
normais obtidas no capítulo (parte) 1 do curso.
24
Estimativas dos coeficientes de regressão
Para obtermos as estimativas dos coeficientes de regressão, a partir das equações
normais, devemos pré-multiplicar ambos os lados da igualdade pela inversa de
X’X:
1 '
1 '
( X X ) X Xb  ( X X ) X y
'
'
Como (X’X)-1( X’X)=I e Ib=b, temos:
1 '
b  ( X X) X y
'
25
Exemplo: vamos usar a abordagem matricial para obtermos os coeficientes de
regressão para o exemplo de uma pesquisadora que está estudando a porcentagem de
acertos com o tamanho da cache. Vamos definir o vetor y e a matriz X:
44,45
 42,10 


 44,68


46
,
99


 46,26


 48,82
y

12 1
50,66 


 47,68
52,44 


 53,21


51
,
85


55,38 
1
1

1

1
1

1
X

12 2
1

1
1

1

1
1
0,25 
0,25 
0,25 

0,30 
0,30 

0,30 
0,35 

0,35 
0,35 

0,40

0,40
0,40
26
1
1

1

1
1

1
1
1
1
1
1
1
1
1
1
1
1


1
X' X  


0,25 0,25 0,25 0,30 0,30 0,30 0,35 0,35 0,35 0,40 0,40 0,40 1
1
1

1

1
1
0,25
0,25
0,25

0,30 
0,30 

0,30   12
3,9 


0,35  3,9 1,305

0,35 
0,35 

0,40

0,40
0,40
44,45
 42,10 


44,68


 46,99 
46,26


1
1
1
1
1
1
1
1
1
1
1
1
48
,
82



  584,52
X' y  


 
0,25 0,25 0,25 0,30 0,30 0,30 0,35 0,35 0,35 0,40 0,40 0,40 50,66  192,38 
47,68
52,44 


 53,21


51
,
85


27
55,38 
A inversa de (X’X) é:
 2,900  8,667
(X' X) 1  

 8,667 26,667
Finalmente, obtemos:
b0 
27,836
'
1 '
b     ( X X) X y  

b
64
,
227


 1
28
Exemplo: vamos usar a abordagem matricial para obtermos os coeficientes de
regressão para o exemplo de uma pesquisadora que está estudando o comportamento
de Staphilococcus aureus em frango, mantido sob condições de congelamento
doméstico (-18oC) ao longo do tempo. Vamos definir o vetor Y e a matriz X:
 3,114
 3,568


 2,845

6Y1  
3
,
079


2,699


 2,663
1
1

1
6 X2  
1

1

1
0
7

14

21
28

35
29
1
1

1 1 1 1 1 1  1
X'X  
 1
0
7
14
21
28
35


1

1
0
7

14  6
105 


21 105 2695
28

35
 3,114
 3,568


1 1 1 1 1 1   2,845  17,968 
X'Y  




0 7 14 21 28 35  3,079  298,242
 2,699


2
,
663


A inversa de (X’X) é:
 0,5238  0,0204
( X X)  


0
,
0204
0
,
0012


'
Finalmente, obtemos:
1
b 
 3 ,3252 
b   0   ( X ' X )1 X 'Y  

 0 ,0189 
 b1 
30
Exercício: usando métodos(álgebra) matriciais, encontre os coeficientes de
regressão para o exemplo das idades das casas e o valor do aluguel do imóvel. O
vetor Y e a matriz X são dadas por:
4
 3
 
5Y1   6
 
 5
2
1 10
1 13


5
5 X 2  1


1
7


1 20
Valores estimados e resíduos
Valores estimados
Em termos matriciais, os valores estimados são obtidos por:
ˆ  X b
Y
1
n
22 1
n
31
Exemplo: vamos estimar os valores de porcentagem de acertos na cache de acordo
com o nosso modelo RLS.
1
1

1

1
1

1

ˆ
Y
1

1
1

1

1
1
0.25
 43,893
 43,893
0.25


 43,893
0.25



0.30
 47,104
 47,104
0.30



0.30  27,836  47,104




0.35 64,227 50,316



0.35
50,316
50,316
0.35



53,527
0.40



0.40
53
,
527


53,527
0.40
32
Para o exemplo de populações de bactérias e o tempo, temos:
1
1

1
ˆ
Y
1
1

1
0
3,3252381
3,1930095
7 


14  3,3252  3,060781 



21  0,0189 2,9285524
2,7963238
28



35
2,6640952


Exercício: usando métodos (álgebra) matriciais, encontre os valores estimados
pelo modelo de regressão ajustado, para o exemplo das idades das casas e o valor
do aluguel do imóvel.
33
Matriz de projeção (Hat Matrix)
O vetor de valores estimados, pode ser obtido através da seguinte expressão:
ˆ  X( X' X) 1 X' Y
Y
ˆ  HY
Y
(Matriz de projeção, simétrica e
idempotente: HH=H)
H  X( X' X) 1 X'
Como vemos, os valores ajustados (estimados), podem ser obtidos como
combinações lineares das observações da variável de resposta Yi, com os coeficientes
sendo os elementos da matriz H.
34
Exercício: para o exemplo de porcentagem de acertos na cache e o tamanho da
cache, obtenha os valores ajustados através da expressão:
ˆ  HY.
Y
Resíduos
Os resíduos, em termos matriciais, são dados por:
ˆ  Y  Xb
e  YY
Para o exemplo de porcentagem de acerto na cache e o tamanho, obtemos os
seguintes valores para os resíduos:
e'  0,557 1,793 0,787  0,114  0,844 1,716 0,344  2,636  2,124  0,317 1,677 1,853
35
Continuando com o exemplo de populações de bactérias e o tempo, obtemos os
seguintes valores para os resíduos:
- 0.211238
0.3749905


- 0.215781
e

0.1504476
- 0.097324


- 0.001095
Exercício: obtenha os valores dos resíduos para o exemplo das idades e
valores dos aluguéis de imóveis.
36
Matriz de variância-covariância dos resíduos
Da mesma forma que os valores estimados, os resíduos também podem ser obtidos
como combinação linear das observações Yi, isto é:
ˆ  Y  HY  (I  H)Y
e  YY
 e  (I  H ) Y
A matriz (I-H) é simétrica e idempotente.
A derivação da matriz de variância-covariância do vetor dos resíduos é feita
como segue. Sabemos que
e  (I  H ) Y
Portanto,
σ 2 (e)  (I  H)σ 2 (Y)(I  H)'
Porém, para o modelo com erros normais, temos:
σ 2 (Y)  σ 2 (ε )   2I
Também, (I-H)’=(I-H) , devido a propriedade de simetria. Assim:
σ 2 (e)  σ 2 (I  H)I(I  H)  σ 2 (I  H)(I  H)  σ 2 (I  H)
37
Esta matriz é estimada por:
s2 (e)  QME(I  H).
( n x n)
Exercício: obter s2(e) para os dados de população de Staphilococcus. Calcule a
correlação entre (e1,e2). Programe no SAS a matriz de correlação.
Proc IML do SAS
X
6 rows
XLX
1
1
1
1
1
1
2 rows
6
105
IXLX (inversa)
2 cols
(numeric)
2 cols
(numeric)
0
7
14
21
28
35
105
2695
2 rows
2 cols
0.5238095 -0.020408
-0.020408 0.0011662
(numeric)
proc iml;
reset print;
X={1 0,
1 7,
1 14,
1 21,
1 28,
1 35};
XLX= X`*X;
IXLX=inv(XLX);
H=X*IXLX*X`;
I=I(6);
S=I-H;
QME=0.065977;
s2erros=QME*S:
38
S=I-H
0.4762
-0.3810
-0.2381
-0.0952
0.0476
0.1905
S2ERROS
-0.3810
0.7048
-0.2095
-0.1238
-0.0381
0.0476
6 rows
-0.2381
-0.2095
0.8190
-0.1524
-0.1238
-0.0952
s2(erros)
0.0314
-0.0251
-0.0157
-0.0063
0.0031
0.0126
-0.0251
0.0465
-0.0138
-0.0082
-0.0025
0.0031
-0.0952
-0.1238
-0.1524
0.8190
-0.2095
-0.2381
(numeric)
0.0476 0.1905
-0.0381 0.0476
-0.1238 -0.0952
-0.2095 -0.2381
0.7048 -0.3810
-0.3810 0.4762
6 rows
-0.0157
-0.0138
0.0540
-0.0101
-0.0082
-0.0063
6 cols
-0.0063
-0.0082
-0.0101
0.0540
-0.0138
-0.0157
6 cols
(numeric)
0.0031 0.0126
-0.0025 0.0031
-0.0082 -0.0063
-0.0138 -0.0157
0.0465 -0.0251
-0.0251 0.0314
39
Análise de variância
Soma de quadrados
O termo da correção é dada por:
C   n1 Y'JY
A soma de quadrados total é dada por:
SQTO  Y'Y   n1 Y'JY
A soma de quadrados do erro (resíduo) é dada por:
SQE  e 'e  ( Y  Xb )' ( Y  Xb )
 Y' Y  2b' X ' Y  b' X ' Xb
 Y' Y  2b' X ' Y  b' X ' X ( X ' X ) 1 X ' Y
 Y' Y  2b' X ' Y  b'IX ' Y
 Y' Y  b' X ' Y
A soma de quadrados da regressão é dada por:
SQRE  b'X'Y   n1 Y'JY
40
Exemplo: Para os dados de porcentagem de acertos na cache e o tamanho da
cache, vamos obter as somas de quadrados da ANOVA.
Correção:
1
1

.
121 44,45 42,10 . . 51,85 55,38
.
1

1
1 . . 1 1 44,45
1 . . 1 1  42,10
. . . . . . 

  28.471,969
. . . . . . 
1 . . 1 1  51,85


1 . . 1 1  55,38
Soma de quadrados total:
44,45
 42,10


 . 
44,45 42,10 . . 51,85 55,38
  28.652,398
.


 51,85


55
,
38


Assim: SQTotal =28.652,398-28471,969=180,428
41
Soma de quadrados da regressão:
44,45
 42,10


1
1
1
1
1
1
1
1
1
1
1
1  . 
27,836  64,227
  28.626,959

0,25 0,25 0,25 0,30 0,30 0,30 0,35 0,35 0,35 0,40 0,40 0,40  . 
 51,85


 55,38
Assim: SQRegressão = 28626,659-28471,969=154,6899
Soma de quadrados do erro:
SQErro = 180,4284-154,6899=25,7385
Estes resultados são exatamente os mesmos obtidos no capítulo 1.
42
Exemplo: Continuando com os dados de populações de bactérias e o tempo,
vamos obter as somas de quadrados da ANOVA.
Correção:
1
1

1
 16 3,114 3,568 2,845 3,079 2,699 2,663
1
1

1
1 1 1 1 1  3,114
1 1 1 1 1  3,568


1 1 1 1 1  2,845

  53.8082
1 1 1 1 1  3,079
1 1 1 1 1 2,699


1 1 1 1 1  2,663
Soma de quadrados total:
 3,114
 3,568


 2,845
3,114 3,568 2,845 3,079 2,699 2,663
  54.3781
3
,
079


2,699


2
,
663


Assim: SQTotal =54,3781-53,8082=0,5699
43
Soma de quadrados da regressão:
 3,114
 3,568


1 1 1 1 1 1   2,845
3,3252  0,0189

  54.1141

0 7 14 21 28 35  3,079
2,699


2
,
663


Assim: SQRegressão = 54,1141-53,8082=0,3059
Soma de quadrados do erro:
SQErro = 54,3781-54,1142=0,264
Estes resultados são exatamente os mesmos obtidos no capítulo 1.
44
Soma de quadrados como formas quadráticas
As somas de quadrados de uma ANOVA, correspondem ao que se denomina de
formas quadráticas, isto é, pode-se mostrar que as somas de quadrados são formas
quadráticas. Exemplo de uma forma quadrática das observações Yi para n=2 é:
5Y12  6Y1Y2  4Y22
Polinômio de
segundo grau
Podemos colocar esta expressão em termos matriciais da seguinte forma:
Y1
5 3 Y1 
'
Y2 

Y
AY



3 4 Y2 
A matriz A deve ser simétrica e é chamada matriz da forma quadrática. Em
geral uma forma quadrática é definida por:
n
n
Y' AY   aijYiY j
(1 x 1 )
i 1 j 1
onde aij  a ji
45
Sabemos que:
Com este resultado podemos
expressar as somas de
quadrados através das formas
quadráticas:
ˆ  Xb
1. Y
2. (AB)’=B’A’
Assim, podemos escrever:
Soma de quadrados total:
ˆ'
b' X'  (Xb )'  Y
Y' I   n1 JY
Usando o resultado:
ˆ  HY
Y
Soma de quadrados da
regressão
Y' H   n1 JY
Obtemos:
b'X'  (HY)'
Soma de quadrados do erro
Como H é simétrica, H’=H, assim podemos escrever:
b X  (HY)  Y H  Y H
'
'
'
'
'
'
Y' (I  H)Y
Exercício: verifique que as matrizes
das formas quadráticas são simétricas
46
Inferência na análise de regressão
Vamos tratar aqui das expressões para o cálculo das estimativas das variâncias dos
estimadores pontuais de maior interesse.
Coeficientes de regressão
A matriz de variância-covariância de b é dada por:
2


(b0 )  (b0 , b1 ) 
2
σ (b )  

2
 (b0 , b1 )  (b1 ) 
1
2
2
'

σ (b ) σ ( X X )
 n2   2 X 2 2
( Xi X )
2


σ (b )
 2 X

  ( X i  X )2



2


 ( X i  X )2 
 2 X
( X i  X )2
Substituindo-se 2 pelo Quadrado médio residual (QME), obtemos a estimativa
da matriz de variância-covariância de b, representada por s2(b).
47
Demonstração:
Sabemos que:
b  ( X' X) 1 X' Y  AY
A  ( X' X) 1 X'
Assim,
σ ( b )   ( AY )  Aσ ( Y )A
2
Mas,
2
2
'
σ 2 (Y)   2I
Além disso, pelo fato de que (X’X)-1 é
simétrica, temos: A’=X(X’X)-1
Dessa forma encontramos:
σ 2 (b)  ( X ' X) 1 X ' 2 IX( X ' X) 1
  2 ( X ' X) 1 X ' X( X ' X) 1
  2 ( X ' X) 1 I
  2 ( X ' X) 1
48
Exemplo: desejamos calcular s2(b0) e s2(b1) com os dados de porcentagem de
acertos na cache e o tamanho através da abordagem matricial.
2,900 - 8.667 
s (b)  QME( X X)  2,5738

8.667
26,667


7,464 - 22,306


22,306
68,635


2
'
1
s(b0 )  2,723
s(b1 )  8,285
49
Exemplo: desejamos calcular s2(b0) e s2(b1) com os dados de populações de
bactérias e o tempo através da abordagem matricial.
0.5238095 - 0.020408 0.0345594 - 0.001346
s 2 (b)  QME(X' X) 1  0,065977



- 0.020408 0.0011662 - 0.001346 0.0000769
Exercício: calcular s2(b0) e s2(b1) com os dados de valores de aluguéis e a idade das
casas.
Resposta média
Para estimar a resposta média em Xh, vamos definir o vetor:
1
X h     X 'h  1 X h 
2 x1
Xh 1x 2
Vimos que os valores estimados, na forma matricial, são dados por:
Yˆh  X'hb
( 1 x 1)
50
Exemplo: Para o exemplo das porcentagens de acerto na cache, desejamos determinar a
estimativa da resposta média quando Xh=0,33. Temos:
 1 
'
Xh  

X
h  1 0,33

2 x1
0,33 1 x 2
27,836
'
ˆ
Yh  Xhb  1 0,33
 49,03

(1 x 1)
64,227
51
A variância de uma resposta média é dada por:
Sabemos que :2(W)= 2(AY)= A 2(Y)A’
Assim,
 2 (Yˆh )  X'hσ 2 (b)X h .
Mas σ 2 (b)   2 ( X' X) 1
  2 (Yˆh )   2 ( X'h ( X' X) 1 X h )
A estimativa da variância é obtida substituindo-se 2 pelo Quadrado médio residual
(erro)
s2 (Yˆh )  QME(X'h (X'X)1 Xh )
52
Exemplo:Para o exemplo das porcentagens de acerto na cache, desejamos determinar a
estimativa da variância da média de uma observação estimada quando Xh=0,33. Temos:
Xh'  1 0,33
7,464 - 22,306
s (b)  

22,306
68,635


2
s 2 (Yˆh )  X 'hs 2 (b) X h
7,464
22,306
1




ˆ
s (Yh )  1 0,33
 0,2161



- 22,306 68,635 0,33
2
53
Exemplo: Para o exemplo das populações de Staphilococcus, desejamos determinar a
estimativa da variância da média de uma observação estimada quando Xh=22. Temos:
Xh'  1 22
0.0345594 - 0.001346
s2 (b)  

0.001346
0.0000769


s 2 (Yˆh )  X 'h s2 ( b) X h
0.0346 - 0.0013  1 
ˆ
s (Yh )  1 22
 0.0126



- 0.0013 0.0001 22
2
Exercício: encontre a estimativa da variância da resposta média para os dados de
aluguel e idade de casas para Xh=15.
54
Predição de uma observação
Para predizer a resposta média em Xh, vamos definir o vetor:
1
X h     X 'h  1 X h 
2 x1
Xh 1x 2
Vimos que os valores preditos, na forma matricial, são dados por:
Yˆh  X'hb
( 1 x 1)
Exemplo: Para o exemplo das porcentagens de acerto na cache, desejamos predizer a
resposta média quando Xh=0,33. Temos:
 1 
'
Xh  

X
h  1 0,33

2 x1
0,33 1 x 2
27,836
'
ˆ
Yh  Xhb  1 0,33
 49,03

(1 x 1)
64,227
55
A variância de uma predição é dada por:
s 2 ( Yˆh )  QME( 1 X 'h (X' X)1 X h )
Exemplo:Para o exemplo das porcentagens de acerto na cache, desejamos determinar a
estimativa da variância da predição de uma observação quando Xh=0,33. Temos:
Xh'  1 0,33

7,464 - 22,306  1  
ˆ

  2,7895
s ( Yh )  2,57381  1 0,33




22,306
68,635
0
,
33






2
56
proc iml;
Y={3.114, 3.568, 2.845, 3.079, 2.699, 2.663};
print Y;
X={1 0, 1 7, 1 14, 1 21, 1 28, 1 35};
print X;
XLX= X`*X;
print XLX;
xlY=X`*Y;
print xly;
xlxinver=inv(xlx);
print xlxinver;
b=xlxinver*xly;
print b;
/* valores estimados
Yestima=x*b;
print yestima;
/* residuos
*/
residuo=y-yestima;
print residuo;
*/
57
/* correcao */
Cor=(1/6)*Y`*J(6,6,1)*Y;
print cor;
/* Soma de quadrados total
sqtotal=Y`*Y;
print sqtotal;
*/
/* Soma de quadrados da regressao
sqregres=b`*x`*y;
print sqregres;
*/
/* estimativas das variancias de b0 e b1
varianci=0.065977*xlxinver;
print varianci;
/* variancia de uma media estimada
x_h={1, 22};
s2yhat=x_h`*varianci*x_h;
print s2yhat;
NOTA: fazer lista de exercícios número 5.
*/
*/
58