Tópicos sobre regressão linear
múltipla
 Soma de quadrados extra (testes de hipóteses)
 Multicolinearidade
Modelos polinomiais
1. Soma de quadrados extra
Nos textos de estatística em língua inglesa, este assunto aparece com a denominação
de Soma de Quadrados Extra (Extra Sums fo Squares).
A idéia básica é verificar a redução na soma de quadrados do erro quando uma ou
mais variáveis preditoras são adicionadas no modelo de regressão, dado que outras
variáveis preditoras já estão incluídas no modelo. De outro lado, podemos pensar no
acréscimo na soma de quadrados da regressão quando uma ou mais variáveis
explanatórias são adicionadas no modelo.
* Utilização: verificar se certas variáveis X podem ser retiradas do modelo de
regressão. (Construção de modelos).
1
Exemplo: foi realizado um estudo com 20 mulheres para estudar a relação da
quantidade de gordura no corpo (Y) com as seguintes variáveis explanatórias:1)
espessura do triceps (X1); 2) circunferência da coxa (X2) e 3) circunferência do meio
do braço (X3). Os dados são apresentados na tabela a seguir:
Xi1
Xi2
Xi3
Yi
------------------------------------------
19.5
24.7
30.7
29.8
19.1
25.6
31.4
27.9
22.1
25.5
31.1
30.4
18.7
19.7
14.6
29.5
27.7
30.2
22.7
25.2
43.1
49.8
51.9
54.3
42.2
53.9
58.5
52.1
49.9
53.5
56.6
56.7
46.5
44.2
42.7
54.4
55.3
58.6
48.2
51.0
29.1
28.2
37.0
31.1
30.9
23.7
27.6
30.6
23.2
24.8
30.0
28.3
23.0
28.6
21.3
30.1
25.7
24.6
27.1
27.5
11.9
22.8
18.7
20.1
12.9
21.7
27.1
25.4
21.3
19.3
25.4
27.2
11.7
17.8
12.8
23.9
22.6
25.4
14.8
21.1
A quantidade de gordura no corpo das
20 mulheres foram obtidas por um
método incômodo e dispendioso, pois
envolve a imersão das pessoas na água.
Portanto, seria muito útil se um modelo
de regressão com algumas ou todas as
variáveis preditoras fornecessem
estimativas confiáveis da quantidade de
gordura no corpo pois as mensurações
das variáveis preditoras são fáceis de
serem obtidas.
2
A seguir vamos apresentar os resultados da análise de variância da regressão para
quatro modelos ajustados:
Modelo 1) regressão da quantidade de gordura (Y) sobre espessura do triceps (X1);
Modelo 2) regressão da quantidade de gordura (Y) sobre a circunferência da coxa
(X2);
Modelo 3) regressão da quantidade de gordura (Y) sobre espessura do triceps (X1) e
sobre a circunferência da coxa (X2);
Modelo 4) regressão da quantidade de gordura (Y) sobre espessura do triceps (X1),
sobre a circunferência da coxa (X2) e circunferência do braço (X3)
Modelo 1:
3
Modelo 2:
Modelo 3:
4
Modelo 4:
Notação:
SQR(X1): soma de quadrados da regressão quando apenas X1 está no modelo.
SQE(X1): soma de quadrados do erro quando apenas X1 está no modelo.
SQR(X1,X2): soma de quadrados da regressão quando X1 e X2 estão incluías no
modelo.
SQE(X1,X2): soma de quadrados do erro quando X1 e X2 estão incluías no modelo.
5
Observe, no exemplo, que a SQE(X1,X2)=109,95, a qual é menor do que aquela que
contém apenas X1 no modelo, SQE(X1)=143,12. A diferença é denominada de soma
de quadrados extra e é representada por SQR(X2|X1):
SQR( X 2 | X 1 )  SQE( X 1 )  SQE( X1 , X 2 )
SQR( X 2 | X 1 )  143,12  109,95  33,17
Esta redução na soma de quadrados do erro é o resultado da adição de X2 no modelo
dado que X1 já está incluída no modelo. Esta soma de quadrados extra dada por
SQR(X2|X1), mede o efeito marginal da adição de X2 no modelo de regressão quando
X1 já está incluída no modelo.
Equivalentemente, podemos calcular a soma de quadrados extra como:
SQR( X 2 | X 1 )  SQR( X 1 , X 2 )  SQR( X 1 )
SQR( X 2 | X 1 )  385,44  352,27  33,17
Vamos considerar a soma de quadrados extra de X3 dado que X1 e X2 já estão
incluídas no modelo:
SQR( X 3 | X 1 , X 2 )  SQE( X 1 , X 2 )  SQE( X 1 , X 2 , X 3 )
SQR( X 3 | X 1 X 2 )  109,95  98,41  11,54
6
Ou, de forma equivalente:
SQR( X 3 | X 1 , X 2 )  SQR( X 1 , X 2 , X 3 )  SQR( X 1 , X 2 )
SQR( X 3 | X 1 , X 2 )  396,98  385,44  11,54
Outra soma de quadrados extra:
(efeito da adição de X2 e X3 ao modelo quando X1 já está no modelo).
SQR( X 2 , X 3 | X 1 )  SQE( X 1 )  SQE( X 1 , X 2 , X 3 )
SQR( X 2 | X 1 )  143,12  98,41  44,71
Ou, de forma equivalente:
SQR( X 2 , X 3 | X 1 )  SQR( X 1 , X 2 , X 3 )  SQR( X 1 )
SQR( X 2 | X 1 )  396,98  352,27  44,71
Decomposição da SQRegressão em soma de quadrados extra
SQR( X1, X 2 , X 3 )  SQR( X1 )  SQR( X 2 | X1 )  SQR( X 3 | X1, X 2 )
7
Tabela da ANOVA com a decomposição da soma de
quadrados da regressão.
A tabela da ANOVA abaixo contém a decomposição da SQR para o caso de três
variáveis explanatórias (X), frequêntemente usadas nos programas estatísticos.
Decomposição da soma de quadrados da regressão para 3 variáveis
explanatórias
Causas de
Soma de
Graus de
Quadrados
variação
quadrados
liberdade
médios
Regressão
SQR(X1,X2,X3)
3
QMR(X1,X2,X3)
X1
SQR(X1)
1
QMR(X1)
X2|X1
SQR(X2|X1)
1
QMR(X2|X1)
X3|X1,X2
SQR(X3|X1,X2)
1
QMR(X3|X1,X2)
Erro
SQE(X1,X2,X3)
n-4
QME(X1,X2,X3)
Total
SQTO
n-1
QMR( ) 
SQR(
gl
)
8
Exemplo: para os dados de gordura do corpo, os resultados da decomposição
indicada na tabela anterior, ficam:
Decomposição da soma de quadrados da regressão para o exemplo de
gordura do corpo
Causas de
Soma de
Graus de
Quadrados
variação
quadrados
liberdade
médios
Regressão
(396,98)
(3)
(132,33)
X1
352,27
1
352,27
X2 |X1
33,17
1
33,17
X3 |X1,X2
11,54
1
11,54
Erro
98,41
16
6,15
Total
495,39
19
Observe que cada soma de quadrados de regressão extra, envolvendo uma única
variável, está associado 1 grau de liberdade. Da mesma forma, a uma soma de
quadrados de regressão extra, envolvendo duas variáveis explanatórias, como:
SQR(X2, X3|X1), estão associados dois graus de liberdade, pois,
SQR(X2, X3|X1)= SQR(X2|X1)+ SQR(X3|X1,X2)
9
Considerações sobre o programa estatístico: SAS (Statistical Analysis System).
data gordura;
input triceps coxa midarm gordura;
datalines;
19.5 43.1 29.1 11.9
24.7 49.8 28.2 22.8
30.7 51.9 37.0 18.7
.
.
.
.
.
.
.
.
30.2 58.6 24.6 25.4
22.7 48.2 27.1 14.8
25.2 51.0 27.5 21.1
;
proc glm;
model gordura=triceps coxa midarm;
run;
Source
DF
Type I SS
TRICEPS
COXA
MIDARM
1
1
1
352.27
33.17
11.55
X1
X2|X1
X3|X1,X2
Mean Square
352.279
33.17
11.55
F Value
57.28
5.39
1.88
Pr > F
0.0001
0.0337
0.1896
10
Por exemplo, se desejamos calcular a soma de quadrados extra, SQR(X1, X3 |X2),
utilizando o SAS ou outro programa estatístico, que fornece soma de quadrados
extra com 1 grau de liberdade, na ordem em que as variáveis entram no modelo,
precisaríamos entrar com as variáveis na ordem X2, X1, X3 ou X2, X3, X1. Na
primeira ordem temos:
SQR(X2)
SQR(X1|X2)
SQR(X3|X1, X2)
SQR(X1, X3 |X2)
No SAS:
proc glm;
model gordura=coxa triceps midarm;
run;
Source
DF Type I SS
COXA (X2)
1 381.97
TRICEPS (X1|X2)
1
3.47
MIDARM (X3| X2, X1) 1
11.55
Mean Square
381.97
3.47
11.55
F Value
62.11
0.56
1.88
Pr > F
0.0001
0.4633
0.1896
11
Exemplo: para os dados de empresas de estúdio fotográfico, os resultados da
decomposição da soma de quadrados da regressão em X1 e X2|X1, fica:
Decomposição da soma de quadrados da regressão para o exemplo de empresas de
estúdio fotográfico X1= população e X2=renda
Causas de
Soma de
Graus de
Quadrados
F
Valor p
variação
quadrados
liberdade
médios
Regressão
(24015,28)
(2)
(12007,64)
99,10
0,0000
X1 (População)
23371,81
1
23371,81
192,2
0,0000
X2|X1
643,47
1
643,47
5,31
0,0333
Erro
2180,93
18
121,16
Total
26196,21
20
Decomposição do modelo: X2 (renda) e X1|X2 (população|renda)
Decomposição da soma de quadrados da regressão para o exemplo de empresas de
estúdio fotográfico X1= população e X2=renda
Causas de
Soma de
Graus de
Quadrados
F
Valor p
variação
quadrados
liberdade
médios
Regressão
(24015,28)
(2)
(12007,64)
99,10
0,0000
X2 (renda)
18299,78
1
18299,78
151,04
0,0000
X1|X2
5715,5
1
5715,50
47,17
0,0001
Erro
2180,93
18
121,16
Total
26196,21
20
12
A importância do cálculo das somas de quadrados extra, é que podemos fazer
uma variedade de testes de hipóteses sobre os coeficientes de regressão, onde, a
questão de interesse, é saber se certas variáveis explanatórias podem ser
retiradas do modelo de regressão.
2. Testes de hipóteses sobre os coeficientes de
regressão usando as somas de quadrados extra.
Teste se um único coeficiente k=0
Desejamos saber se o termo kXk pode ser retirado do modelo. As hipóteses são:
H 0 : k  0
H a : k  0
O modelo completo:
Vamos considerar um modelo de primeira ordem com 3 variáveis preditoras:
Yi  0  1 X i1  2 X i 2  3 X i 3  i
13
Vamos considerar as hipóteses:
H 0 : 3  0
H a : 3  0
Ajustamos o modelo completo e obtemos SQE(completo)=SQE(X1,X2,X3), com n-4
graus de liberdade, uma vez que há 4 parâmetros no modelo.
O modelo reduzido:
Sob a hipótese nula, o modelo fica:
Yi  0  1 X i1  2 X i 2  i
Ajustamos o modelo reduzido e obtemos SQE(reduzido)=SQE(X1,X2), com n-3
graus de liberdade.
14
O teste estatístico (como já foi visto) é dado por:
F* 
SQE ( R )  SQE ( C )
gl R  glC
F* 
SQE ( X 1 , X 2 )  SQE ( X 1 , X 2 , X 3 )
( n  3) ( n  4 )
 SQEglC( C )
 SQE ((Xn1,4X)2 , X 3 )
Observe que no numerador temos a soma de quadrados extra:
SQE( X1, X 2 )  SQE( X1, X 2 , X 3 )  SQR( X 3 | X1, X 2 )
Assim, o teste estatístico é dado por:
F* 
SQR ( X 3 | X 1 , X 2 )
(1)
 SQE ((Xn1,4X)2 , X 3 ) 
QMR ( X 3 | X 1 , X 2 )
QME ( X 1 , X 2 , X 3 )
Exemplo: com os dados de gordura do corpo, vamos verificar se podemos retirar a
variável circunferência do meio do braço (X3) do modelo. As hipóteses são:
H 0 : 3  0
H a : 3  0
15
Já obtivemos os resultados das somas de quadrados do erro do modelo completo
e, também, da soma de quadrados extra, quando as variáveis entram no modelo
na ordem X1, X2, X3.Assim, o teste estatístico vale:
F* 
SQR ( X 3 | X 1 , X 2 )
(1)
QMR ( X 3 | X 1 , X 2 )
 SQE ((Xn1,4X)2 , X 3 )  QME
( X1 , X 2 , X 3 )
F *  111,54  9816,41  1,88
Com o auxílio de um programa estatístico encontramos P(F>1,88)=0,189261,
portanto, não rejeitamos a hipótese nula e concluímos que podemos retirar a variável
X3 do modelo que já contém X1, X2.
O mesmo teste pode ser feito com o uso da estatística
t* 
b3
s ( b3 )

2 ,186
1,596
 1,37
Com 1 grau de liberdade, sempre temos que: (t*)2=(-1,37)=1,88=F*, portanto, os
dois testes produzem os mesmos resultados.
16
Nota: soma de quadrados parcial no SAS
Soma de quadrados tipo III no SAS, também conhecida como soma de
quadrados parcial. Este tipo produz somas de quadrados do tipo:
SQR( X 1 | X 2 , X 3 )
SQR( X 2 | X 1 , X 3 )
SQR( X 3 | X 1 , X 2 )
Exemplo: para os dados de gordura do corpo, temos:
Source
TRICEPS (X1|X2,X3)
COXA
(X2|X1,X3)
MIDARM (X3|X1,X2)
DF Type III SS Mean Square
1
1
1
12.70
7.53
11.55
12.70
7.53
11.55
F Value
Pr > F
2.07
1.22
1.88
0.1699
0.2849
0.1896
17
Teste se vários coeficientes k=0
Exemplo: para o modelo
Yi  0  1 X i1  2 X i 2  3 X i 3  i
Podemos querer saber se podemos retirar os termos 2X2 e 3X3 do modelo. As
hipóteses são dadas por:
H 0 :  2  3  0
H a : pelo m enosum k  0
O modelo reduzido:
Sob a hipótese nula, o modelo fica:
Yi  0  1 X i1  i
A soma de quadrados do erro para este modelo é SSE(R)=SQE(X1), com n-2
graus de liberdade.
18
O teste estatístico é dado por:
F* 
SQE ( R )  SQE ( C )
gl R  glC
F* 
SQE ( X 1 )  SQE ( X 1 , X 2 , X 3 )
( n  2 ) ( n  4 )
 SQEglC( C )
 SQE ((Xn1,4X)2 , X 3 )
Observamos que:
SQE( X1 )  SQE( X1, X 2 , X 3 )  SQR( X 2 , X 3 | X1 )
Substituindo, o teste F* fica:
F* 
SQR ( X 2 , X 3 | X 1 )
( 2)
 SQE ((Xn1,4X)2 , X 3 ) 
QMR ( X 2 , X 3 | X 1 )
QME ( X 1 , X 2 , X 3 )
Exemplo: desejamos saber se para os dados do problema de gordura do corpo,
podemos retirar ambas as variáveis: circunferência da coxa (X2) e circunferência
do meio do braço (X3).
19
Como já vimos anteriormente:
SQR(X2, X3|X1)= SQR(X2|X1)+ SQR(X3|X1,X2)
SQR(X2, X3|X1)= 33,17+11,54=44,71
 resultados na tabela
da ANOVA
O valor da estatística de teste é:
F 
*
SQR ( X 2 , X 3 | X1 )
( 2)

SQE ( X1 , X 2 , X 3 )
( n 4 )
 9844,,4171//162  3,63
A probabilidade de se encontrar um valor de F* mais extremo do que este é
P(F>3,63)=0,050128. Para =0,05, estamos no ponto limitrófico, pode-se desejar
fazer outras análises antes de se tomar uma decisão.
20
3. Outros tipos de testes
Quando deseja-se fazer um teste sobre os coeficientes de regressão, que não se
um (1) ou todos eles são iguais a zero, as somas de quadrados extra não podem
mais serem utilizadas e o teste necessita que se faça ajustes separados dos
modelos completo e reduzido.
Caso 1) Exemplo, para o modelo completo
Yi  0  1 X i1  2 X i 2  3 X i 3  i
Desejamos testar:
H 0 : 1   2
H a : 1   2
O procedimento é ajustar o modelo completo, e então ajustar o modelo
reduzido:
Yi  0  c ( X i1  X i 2 )  3 X i 3  i
Onde c representa um coeficiente comum para 1 e 2 sob H0 e (Xi1+Xi2) é a nova
variável X.
21
Usamos o teste estatístico geral:
F* 
SQE ( R ) SQE ( C )
gl R  glC
 SQEglC(C )
Com 1 [p.e.dados gordura corpo (20-3)-(20-4)=17-16=1] e n-4 graus de
liberdade.
Caso 2) Exemplo: desejamos testar,
H 0 : 1  3,
3  5
H a : 1  3,
e/ou 3  5
De acordo com a hipótese nula, o modelo reduzido fica:
Yi  3X i1  5X i 3  0  2 X i 2  i
A variável resposta fica Yi-3Xi1-5Xi3. Usamos o teste estatístico geral dado
anteriormente com 2 e n-4 graus de liberdade.
22
Exemplo: desejamos saber se para os dados do problema de gordura do corpo,
podemos considerar um único coeficiente para ambas as variáveis circunferência
da coxa (X2) e circunferência do meio do braço (X3), ou seja, 2=3.
Para o modelo completo, a SQE(C)=98,41com 16 gl. O modelo reduzido fica:
Yi  0  1 X i1   2 ( X i 2  X i 3 )   i
A SQE(R)=101,11 com 17 graus de liberdade.
F *  111,17111698,41  9816,41  12,7 6,15 2,06
A P(F>2,06)=0,170470, portanto, não devemos rejeitar a hipótese nula.
Exercício: qual a interpretação: a taxa de variação em Y é a mesma para
mudança de uma unidade em X2 e X3.
23
4. Multicolinearidade
Questões de interesse na análise de regressão múltipla:
qual é a importância relativa dos efeitos das diferentes variáveis
preditoras?
qual é a magnitude do efeito de uma dada variável preditora sobre a
variável resposta?
pode alguma variável preditora ser retirada do modelo porque ela tem
pouco efeito sobre a variável resposta?
alguma variável preditora ainda não incluída no modelo deveria ser
considerada para inclusão?
As respostas para estas questões são relativamente fácil se:
1.
As variáveis preditoras incluídas no modelo não são correlacionadas
entre si;
2.
Além disso, não são correlacionadas com qualquer outra variável que é
relacionada com a variável resposta, mas é omitida do modelo.
24
Ocorrência de multicolinearidade: exemplo
Variável resposta: gasto com alimentação
Variáveis regressoras: renda, poupança, idade do chefe do lar
(Variáveis incluídas no modelo)
Provavelmente
estas variáveis são
correlacionadas
Provavelmente estas variáveis regressoras estão correlacionadas com outras
variáveis que afetam o gasto com alimentação, por exemplo, tamanho da família
(variável não incluída no modelo).
25
5. Modelos de Regressão Polinomial
As variáveis explanatórias devem ser quantitativas.
Servem para representar modelos com resposta curvilínea.
São fáceis de serem ajustados, pois são um caso especial do modelo de
regressão linear múltipla.
Usos dos modelos polinomiais
•Quando a função de resposta curvilínea verdadeira é realmente uma função
polinomial.
•Quando a função de resposta curvilínea verdadeira é desconhecida (ou
complexa), porém, uma função polinomial é uma boa aproximação para a
verdadeira função. Exemplo: produção em resposta a aplicação de adubação.
O principal problema com o uso de modelos polinomiais é com a extrapolação.
26
Uma variável preditora - Modelo de segunda ordem
Considere o modelo polinomial:
Yi  0  1 xi  2 xi2   i
Onde,
xi  X i  X
A variável preditora, xi, é centrada, ou seja, é dada como desvio em relação a
sua média. A razão para usar uma variável preditora centrada no modelo de
regressão polinomial é que X e X2 freqüentemente são altamente
correlacionadas. Isto pode causar sérias dificuldades para inverter a matriz
X’X para estimar os coeficientes de regressão. Trabalhando-se com variáveis
centradas, reduz-se a multicolinearidade substancialmente e, isto, tende a
diminuir as dificuldades computacionais.
Geralmente, muda-se a notação para os modelos polinomiais:
Yi  0  1xi  11 xi2   i
cuja função de resposta (resposta média) é:
E(Y )  0  1x  11 x2
27
O gráfico desta função é uma parábola e denominada de função de resposta quadrática.
E(Y )  52  8x  2x 2
0
E(Y )  52  8x  2x 2
0
28
O coeficiente de regressão 0 representa a resposta média de Y quando x=0, isto
é, quando X=média de X. O coeficiente de regressão 1 é frequentemente
chamado de coeficiente de efeito linear, e 11 é chamado de coeficiente de efeito
quadrático.
Duas variáveis preditoras - Modelo de segunda ordem
linear
Modelo:
quadrático
Yi  0  1xi1  2 xi 2  11 xi21  22 xi22  12 xi1xi 2   i
Onde:
xi1  X i1  X 1
xi 2  X i 2  X 2
Observe que o penúltimo termo do modelo representa a interação entre x1 e x2.
O coeficiente 12 denomina-se coeficiente do efeito da interação.
29
Modelo usado:
E(Y )  1740 4 x12  3x22  3x1x2
Observe que o modelo
apresenta ponto de
máximo em x1=0 x2=0.
Mostra as várias
combinações dos níveis
das 2 v. preditoras que
resultam na mesma
resposta
30
Implementação dos modelos de regressão polinomial
Ajuste dos modelos de regressão polinomiais. Como já foi visto, os
modelos de regressão polinomial são casos especiais do modelo de
regressão linear múltipla geral, assim, todos os resultados vistos para o
ajuste de modelos e para inferência estatística são válidos aqui.
Uma abordagem hierárquica para o ajuste do modelo. Geralmente,
ajusta-se um modelo de segunda ou terceira ordem e, então, procura-se
estudar se um modelo de menor ordem é adequado. Exemplo: vamos
considerar uma variável preditora e um modelo com efeito cúbico,
Yi  0  1xi  11 xi2  111 xi3  i
Provavelmente, desejaríamos testar:
H 0 : 111  0
H 0 : 11 e 111  0
Podemos usar as somas de quadrados extra para realizar estes testes.
31
A decomposição da SQR é dada por:
SQR ( x )
SQR ( x 2 | x )
SQR ( x 3 | x, x 2 )
Para testar 111=0, a soma de quadrados extra adequada é SQR(x3|x,x2).
Se, ao invés, desejamos testar se 11= 111=0, a soma de quadrados
apropriada é SQR(x2,x3|x)=SQR(x2|x)+SQR(x3|x,x2).
Para manter a hierarquia do modelo, se, por exemplo, o termo cúbico é
significativo, então o termo quadrático e linear devem ser mantidos no
modelo. Por exemplo, para duas variáveis preditoras, x1 e x2 o termo da
interação (x1x2 ) não deveria ser mantida no modelo, sem, também,
manter as variáveis preditoras na primeira potência (termos lineares).
A equação de regressão em termos das variáveis X. Depois que o
modelo de regressão polinomial foi ajustado, freqüentemente, desejamos
expressar o nosso modelo em termos das variáveis originais X.Isto é feito
facilmente.
32
Suponha o seguinte modelo:
Yˆ  b0  b1x  b11 x2 com x  X - X
(12)
Em termos da variável original, X, o modelo fica:
Yˆ  b0'  b1' X  b11' X 2
Onde:
b0'  b0  b1 X  b11 X 2
(14)
b1'  b1  2b11 X
(15)
b11'  b11
(16)
(13)
Exercício: substitua x por ( X  X ) em 12 e obtenha as expressões 14, 15 e 16.
Os valores ajustados e os resíduos para a função de regressão em termos de
X ou das variáveis centradas são os mesmos.
33
Os desvios padrões estimados dos coeficientes de regressão em termos das variáveis
centradas x em (12) não valem para os coeficientes de regressão em termos das variáveis
originais, X, em (13). Se os desvios padrões estimados para os coeficientes de regressão
em termos de X são necessários, eles podem ser obtidos usando-se o teorema
σ 2 (W)  σ 2 (AY)  Aσ 2 (Y)A'
onde a matriz de transformação A é obtida de (14)-(16).
Exercício: estruture a matriz A.
Exercício: um analista de uma cadeia de cafeterias deseja investigar a relação entre o
número de máquinas self service e as vendas de café. 14 cafeterias que são similares
em termos de volume de negócios, tipo de clientela, e localização foram escolhidas
para o experimento. O número de máquinas colocadas em teste variou de zero (o
café é fornecido por um (a) atendente) até 6 e foi atribuído aleatoriamente para cada
cafeteria. Os resultados do experimento foram:
Dados para o exemplo de vendas de café
Cafeteria
Máquinas
Vendas
i
Xi
Yi
1
0
508,1
2
0
498,4
3
1
568,2
4
1
577,3
5
2
651,7
6
2
657,0
7
3
713,4
Cafeteria
i
8
9
10
11
12
13
14
Máquinas
Xi
3
4
4
5
5
6
6
Vendas
Yi
697,5
755,3
758,9
787,6
792,1
841,4
831,8
34
Foi ajustado um modelo de efeito quadrático para os dados:
Yˆi  705,47  54,89xi  4,25xi2
Com:
xi  X i  X  X i  3
A matriz de variância-covariância das estimativas dos parâmetros é:
0
 1,470
 10,291
s2 ( b)   0
1,103
0 


0
0,368 
  1,470
Encontre as variâncias das estimativas dos coeficientes de regressão em termos das
variáveis originais, X.
Exemplo: um pesquisador está estudando os efeitos da taxa de carga e da temperatura
sobre o tempo de vida de pilhas. A taxa de carga (X1) foi controlada em três níveis (0,6,
1,0 e 1,4) e a temperatura ambiente (X2)foi controlada em três níveis (10, 20 e 30oC).
Os outros fatores que contribuem para a perda de carga foram controlados (fixos). A
vida das pilhas (Y) foi medida em termos do número de ciclos de carga-descarga até
falhar. Os resultados obtidos, foram:
35
Dados de vida de pilhas
(1)
(2)
(3)
Pilha Número Taxa Tempe
de ciclos carga ratura
i
Yi
Xi1
Xi2
1
150
0,6
10
2
86
1,0
10
3
49
1,4
10
4
288
0,6
20
5
157
1,0
20
6
131
1,0
20
7
184
1,0
20
8
109
1,4
20
9
279
0,6
30
10
235
1,0
30
11
224
30
X 1,4
1  1,0 X 2  20
(4)
(5)
Valores
codificados
xi1
xi2
-1
-1
0
-1
1
-1
-1
0
0
0
0
0
0
0
1
0
-1
1
0
1
1
1
(6)
x i21
1
0
1
1
0
0
0
1
1
0
1
(7)
x i22
1
1
1
0
0
0
0
0
1
1
1
(8)
xi1xi2
1
0
-1
0
0
0
0
0
-1
0
1
O pesquisador não está seguro sobre a natureza da função de resposta na região de
estudo. Assim, o pesquisador decidiu ajustar um modelo de regressão polinomial de
segundo grau:
2
2
Yi  0  1xi1  2xi 2  11xi1  22xi 2  12xi1xi 2  i
(17)
36
As variáveis foram codificadas da seguinte forma (considerando que os
níveis são equidistantes)
xi1 
X i1  X 1
0, 4
xi 2 
Xi2 X2
10


X i 1 1, 0
0, 4
X i 2  20
10
Aqui, 0,4 e 10 é a diferença entre os níveis adjacentes das variáveis. As
correlações entre as variáveis valem:
X 12
X 22
x12
x22
X1
0,991
X2
x1
x2
0,986
0,000
0,000
Ajuste do modelo. Os resultados, apresentados na página seguinte, foram obtidos
com o uso do programa SAS.
37
Dependent Variable: NUMERO
Analysis of Variance
Source
DF
Sum of
Squares
Model
Error
C Total
5
5
10
55365.56140
5240.43860
60606.00000
Root MSE
Dep Mean
C.V.
32.37418
172.00000
18.82220
Mean
Square
11073.11228
1048.08772
R-square
Adj R-sq
F Value
Prob>F
10.565
0.0109
0.9135
0.8271
Parameter Estimates
Variable
DF
Parameter
Estimate
INTERCEP
COTAXA
COTEMPE
COTAXA2
COTEMPE2
TATE
1
1
1
1
1
1
162.842105
-55.833333
75.500000
27.394737
-10.605263
11.500000
Standard
Error
T for H0:
Parameter=0
Prob > |T|
Type I SS
16.60760542
13.21670483
13.21670483
20.34007956
20.34007956
16.18709146
9.805
-4.224
5.712
1.347
-0.521
0.710
0.0002
0.0083
0.0023
0.2359
0.6244
0.5092
325424
18704
34202
1645.966667
284.928070
529.000000
Modelo
2
2
ajustado: Yˆ  162,84  55,83x1  75,50 x2  27,39 x1  10,61x2  11,50 x1x2
38
Gráfico de resíduos: nenhum dos gráficos sugere que o modelo de regressão seja
inadequado.
39
Teste do ajuste (Test of fit): como existem 3 repetições em x1=0, x2=0, podemos
realizar o teste F para falta de ajuste (lack of fit) do modelo (17). A soma de
quadrados do erro puro é dado por:
c
n
j
i
SQEP   (Yij  Y j ) 2 
 (157 157,33) 2  (131 157,33) 2  (184 157,33) 2  1404,67
Como existem c=9 distintas combinações dos níveis de X, existem n-c=11-9=2 graus
de liberdade associados com a soma de quadrados do erro puro. Além disso, no output
do SAS, temos: SQE=5240,44, portanto, a soma de quadrados da falta de ajuste vale:
SQFA  SQE  SQEP  5240,44  14040,67  3835,77
Com c-p=9-6=3 graus de liberdade, onde p é o número de parâmetros do modelo.
O teste estatístico é dado por:
SQEP
3835 , 77 1404 , 67
F *  SQFA


 2  1,82
c p
n c
3
A P(F>1,82)=0,626153, portanto, não rejeitamos a hipótese nula, assim, o
modelo está ajustado.
40
Coeficiente de determinação: no output do SAS temos:
R2  0,9135
Assim, cerca de 91% da variabilidade do tempo de vida das pilhas é explicada
pelo modelo (17). Observe que o coeficiente de determinação ajustado é bem
menor: 0,8271(devido ao grande número de parâmetros no modelo).
Teste F (Verificar se um modelo de 1a. ordem é suficiente)
H 0 : 11   22  12  0
H a : pelo menosum difere de zero.
O teste estatístico é dado por:
F 
SQR ( X q ,...,X p 1 | X 1 ,...,X q 1 )
pq

QMR ( X q ,...,X p 1 | X 1 ,...,X q 1 )
QME

SQR ( x12 , x22 , x1 x2 |x1 , x2 )
633
*

SQE ( X 1 ,...,X p 1 )
n p
 QME
41
Na saída do SAS, temos as somas de quadrados tipo I (Type I SS). A ordem
de entrada das variáveis explanatórias no modelo foi:
x1, x2 , x12 , x22 , x1x2
Portanto, temos as seguintes somas de quadrados parciais:
SQR( x1 )  18.704,
SQR( x2 | x1 )  34.202,
SQR( x12 | x1 , x2 )  1645,97
SQR( x22 | x1 , x2 , x12 )  284,93
SQR( x1 x2 | x1 , x2 , x12 , x22 )  529,00
A soma de quadrados extra desejada é calculada por:
2
2
2
2
2
SQR ( x1 , x 2 , x1 x 2 | x1 , x 2 )  SQR ( x1 | x1 , x 2 )  SQR ( x 2 | x1 , x 2 , x1 )
2
2
 SQR ( x1 x 2 | x1 , x 2 , x1 , x 2 )
42
O valor desta soma de quadrados é:
1646, 284,9  529  2459,9
O quadrado médio residual vale: QMR=1048,1. Assim, o teste estatístico vale:
F *  24593 ,9  1048,1  0,78
A P(F>0,78)=,553749. Portanto, concluímos que os termos quadráticos e da
interação podem ser retirados do modelo, assim, um modelo de primeira ordem é
adequado na região de estudo.
O modelo de primeira ordem
Yi  0  1xi1  2 xi 2  i
O modelo de primeira ordem ajustado é dado por:
Yˆ  172,00  55,83x1  75,50x2
(18)
Exercício: 1)faça uma análise de resíduos e verifique se o ajuste do modelo está
realmente bom. 2) Reescreva o modelo (18) em termos das variáveis originais X.
3) Calcule os desvios padrões das estimativas dos parâmetros para este modelo.
43
A figura mostra a superfície de resposta para o modelo de primeira ordem com
as variáveis originais. Usamos esta superfície para estudar o efeito da carga e
temperatura sobre a vida das pilhas. Observamos que usando-se temperaturas
mais altas e menores taxas, a vida das pilhas diminui.
44
Intervalo de confiança para k
O pesquisador deseja encontrar os intervalos de confiança de 95% para os
parâmetros do modelo (18). Sabemos que:
bk  t (1   / 2; n  p)s(bk )
Para 1 o intervalo de confiança é dado por:
 55,83  2,306(12,67)
 55,83  29,217
 85,047  1  26,613
Exercício: dado o s(b2)=12,67, encontre o intervalo de confiança para 2.
45
Modelos de regressão com interação
Efeitos da interação
EY   0 1 X1   2X2  3 X1 X 2
Termo da interação
Interpretação dos modelos de regressão com interação
de efeito linear
Considere o modelo:
Yi  0  1 X i1  2 X i 2  3 X i1 X i 2   i
46
Pode ser mostrado que a mudança na resposta média com o acréscimo de 1 unidade
em X1 quando X2 é mantido constante é:
1  3 X i 2
Da mesma forma temos para X2:
 2  3 X i1
Exemplo:
EY   10  2 X1  5 X 2  0,5 X1 X 2
X 2  1  1  3 X 2  2  0,5(1)  2,5
X 2  3  1  3 X 2  2  0,5(3)  3,5
47
O aumento em Y com o acréscimo de 1 unidade em X1 é maior, quanto maior for
o nível de X2.
48
Implementação dos modelos de regressão com interação
I.
Alta multicolinearidade pode existir entre algumas das variáveis
explanatórias e algumas das interações, assim como entre algumas
interações. Uma medida remediadora é usar: x  X  X
Uma alternativa é usar a técnica conhecida como regressão polinomial,
pois os polinômios ortogonais sempre serão não correlacionados.
II.
Com muitas variáveis regressoras implica num grande número de
interações. Medida: usar um modelo aditivo e fazer o gráfico de resíduos
versus interações;
49
Fazer a lista de exercícios
número 7
50
Download

Tópicos sobre regressão linear múltipla