Regressão Linear Múltipla
Rejane Sobrino Pinheiro
Tânia Guillén de Torres
Regressão linear múltipla
Introdução
 Pode ser vista como uma extensão da regressão simples
 Mais de uma variável independente é considerada.
 Lidar com mais de uma variável é mais difícil, pois:
 É mais difícil escolher o melhor modelo, uma vez que
diversas variáveis candidatas podem existir
 É mais difícil visualizar a aparência do modelo ajustado,
mais difícil a representação gráfica em mais de 3
dimensões
 Às vezes, é difícil interpretar o modelo ajustado
 Cálculos difíceis de serem executados sem auxílio de
computador
Exemplo: Supondo dados de peso, altura e idade de 12 crianças:
Criança
1
2
3
4
5
6
7
8
9
10
11
12
Peso (Y)
64
71
53
67
55
58
77
57
56
51
76
68
Altura (X1)
57
59
49
62
51
50
55
48
42
42
61
57
Idade (X2)
8
10
6
11
8
7
10
9
10
6
12
9
 A regressão múltipla pode ser usada para estudar o peso e sua
variação em função da altura e idade das crianças.
Modelo
 O modelo de Regressão Linear Múltipla é representado pela equação
Y   0   1 X 1   2 X 2  ...   k X k  
 As constantes: 0, 1, 2, ...,k, são os parâmetros populacionais.
^
^
^
^
 Os estimadores são representadas por:  0,  1,  2,...,  k
 Um exemplo de regressão linear múltipla pode ser dado a partir da
inclusão de um termo de ordem mais elevada, como X2.
 Embora seja a mesma variável (X), esta pode ser interpretada como
uma segunda variável (X2).
Y   0  1 X   2 X 2  
Y   0  1 X 1   2 X 2  
Usos da Regressão Múltipla
 Ajustar dados: estudar o efeito de uma variável X, ajustando ou
levando em conta outras variáveis independentes.
 Obter uma equação para predizer valores de Y a partir dos
valores de várias variáveis X1, X2, ...,Xk .
 Explorar as relações entre múltiplas variáveis ( X1, X2, ..., Xk )
para determinar que variáveis influenciam Y.
 A solução dos mínimos quadrados é a que minimiza a soma dos
quadrados dos desvios entre os valores observados e a superfície de
regressão ajustada.
^
n
 (Y i  Y i ) 
2
I 1
^
^
^
^
^
^
n
2
 (Yi (    X 1i   X 2i ...  X ki)
0
1
2
k
i 1
^
^
^
^
 i  Y i  Y i  Y i  (  0  X 1i   2 X 2i  ...   k X ki)
1
Pressupostos da Regressão Linear Múltipla
 Os pressupostos da regressão linear simples podem ser estendidos
para a regressão linear múltipla
1. Existência: Para uma combinação específica das variáveis
independentes X1, X2, ...,Xk, Y é uma variável aleatória com
uma certa distribuição de probabilidade, com média e
variância finitas.
2. Independência: As observações de Y são estatisticamente
independentes umas das outras. Este pressuposto é violado
quando mais de uma observação é feita de um mesmo
indivíduo.
Pressupostos da Regressão Linear Múltipla (cont...)
3.Linearidade: O valor médio de Y para cada combinação específica
de X1, X2, ...,Xk é uma função linear de X1, X2, ...,Xk.
Y | X X X  E (Y / X 1 X 2 X k )   0   1 X 1   2 X 2  ...   k X k
1
2
k
Ou
Y   0  1 X 1   2 X 2  ...   k X k  
  componente de erro do modelo, refletindo a diferença entre o
valor observado para um indivíduo e a verdadeira resposta média
Y | X X X para o conjunto de indivíduos de mesmas características.
1
2
k
 A relação entre Y e Xi é linear ou é bem aproximada por uma
função linear.
Pressupostos da Regressão Múltipla (cont...)
4. Homocedasticidade: A variância de Y é a mesma para qualquer
combinação fixa de X1, X2, ...,Xk.

2
Y / X 1 X 2X k
 Var(Y / X 1 X 2 X k )   2
 Este
pressuposto
pode
parecer
muito
restritivo.
Heterocedasticidade deve ser considerada somente quando os
dados apresentarem óbvia e significante não homogeneidade das
variâncias.
 Em geral, não considerar a homocedasticidade não acarreta efeitos
adversos nos resultados.
5. Amostra aleatória ou representativa da população.
Pressupostos da Regressão Múltipla (cont...)
6. Normalidade: para uma combinação fixa de X1, X2, ..., Xk, a
variável Y tem distribuição normal.
Y~N(
 Y | X X X
1
2
k
Ou de modo equivalente
 ~N (0, 2)
, 2)
Pressupostos da Regressão Múltipla
7. Normalidade de Y
 Este pressuposto não é necessário para o ajuste do modelo usando os
mínimos quadrados, mas é importante para a realização da inferência.
 Os testes de hipóteses paramétricos usuais e os cálculos dos intervalos de
confiança utilizados nas análises de regressão são bastante robustos, de
modo que somente em casos em que a distribuição de Y se afaste muito da
distribuição normal os resultados gerados serão inadequados.
 No caso de não normalidade, transformações matemáticas de Y podem
gerar conjunto de dados com distribuição aproximadamente normal (Log Y,
Y); no caso de variável Y categórica nominal ou ordinal, métodos de
regressão alternativos são necessários (logística - dados binários, Poisson dados discretos)
 A Homocedasticidade e a Normalidade se aplicam à distribuição
condicional de Y | X1, X2, ...,Xk
Y / X 1 X 2 X k ~ N (
2
,
)
Y / X ,X ...,X 
1
2
k
Determinando a melhor estimativa para o modelo de regressão
múltipla
A abordagem dos mínimos quadrados
 Minimiza a soma dos quadrados dos erros ou as distâncias entre os
valores observados (Yi) e os valores preditos Yˆ i  pelo modelo
ajustado.
Yˆ  ˆ  ˆ
0
n
1
X  ˆ X
1
2
n
 (Y i  Yˆ i)   (Y i  ( ˆ  ˆ
I 1
2
I 1
0
1
2
   ˆ
X 1i  ˆ
2
p
X
p
X 2i    ˆ
p
X
2
))
pi
 i  (Y i Yˆ i) Y i (ˆ 0  ˆ 1 X 1i  ˆ 2 X 2i    ˆ p X pi)
 A solução de mínimos quadrados consiste nos valores de
ˆ 0 , ˆ1, ˆ 2 ,..., ˆ k (chamados de estimadores de mínimos
quadrados) para os quais a soma da equação anterior é mínima.
 Cada um dos estimadores
linear dos valores de Y.
ˆ 0 , ˆ1, ˆ 2 ,..., ˆ k
é
uma
função
 Se os valores de Y são normalmente distribuídos e são
independentes entre si, os estimadores terão distribuição normal,
com desvios padrões facilmente computáveis.
Exemplo:
Supondo dados de peso, altura e idade de 12 crianças:
Criança
1
2
3
4
5
6
7
8
9
10
11
12
Peso (Y)
64
71
53
67
55
58
77
57
56
51
76
68
Altura (X1)
57
59
49
62
51
50
55
48
42
42
61
57
Idade (X2)
8
10
6
11
8
7
10
9
10
6
12
9
2
PESO   0   1 ALTURA   2 IDADE   3 (IDADE )
^
2
PESO  3.438  0.724 ALTURA 2.777 IDADE  0.042( IDADE )
^
^
^
 0  3.438  1  0.724  2  2.777
^
 3  0.042
A velocidade do efeito da idade diminui com o passar da idade
Apresentar o efeito da idade para determinadas faixas:
Peso1 para crianças de X anos
Peso2 para crianças de Z anos
X – Z  Peso1 - Peso2
Interpretação dos coeficientes
 O coeficiente apresentado na tabela refere-se ao coeficiente
parcial da regressão e difere do da regressão simples
considerando a relação de cada variável independente em
separado.
 O coeficiente expressa o aumento médio em Y dado um aumento
de 1 unidade de X, sem considerar o efeito de qualquer outra
variável independente (mantendo todos os outros fatores
constantes).
 Para um aumento de 1 unidade na altura, há um aumento médio
de 0.724 no peso, para crianças de mesma idade.
O coeficiente da regressão padronizado
 Interesse em ordenar os coeficientes por grau de importância na
predição de Y.
 Difícil comparar os coeficientes da regressão para saber qual variável
independente possui maior associação com a variável dependente Y,
pois cada variável está em uma unidade diferente.
 O coeficiente padronizado permite comparação da importância de cada
variável para a predição de Y.
 Se X aumenta em 1 desvio padrão (Sx), indo para x + Sx, então Y
aumentaria .Sx unidades. Caso seja desejado que o aumento em Y
seja dado em desvios padrões de Y, podemos dividir a expressão por
SY, para saber quantos desvios padrões possui o termo .Sx

.Sx/Sy
 O coeficiente padronizado da regressão (standard estimates)
representa o aumento médio em Y (expresso em unidades de desvio
padrão de Y) por um aumento de 1 desvio padrão em X, depois de
ajustado por todas as outras variáveis do modelo
Y1   0  1 X 1   2 X 2
Y2   0  1 ( X 1  S X 1 )   2 X 2
Y2  Y1   0  1 ( X 1  S X 1 )   2 X 2  (  0  1 X 1   2 X 2 )
Y2  Y1  1 ( X 1  S X1  X 1 )
Y2  Y1  1S X1
Y2  Y1  1
S X1
SY
padronizado
 Se fizermos gráficos separados entre as diversas variáveis,
poderemos ter uma visão de pedaços ou projeções da superfície
ajustada. Suponhamos que a superfície seja um plano (relação
linear entre todos os fatores).
A tabela ANOVA da Regressão Múltipla
 Como no modelo de Regressão Simples:
Variação total não explicada =
Variação devida à regressão + variação residual não explicada
SSY= SSR + SSE
n
_
n
^
_
n
^
 (Yi  Y )   (Yi  Y )   (Yi  Yi )
i 1
2
i 1
2
2
i 1
R2 = (SSY-SSE)/SSY
 R2 sempre cresce à medida que mais variáveis são incluídas no
modelo.
 Um acréscimo muito pequeno em R2 pode não apresentar
importância prática ou importância estatística.
^
2

3
.
438

0
.
724
ALTURA

2
.
777
IDADE

0
.
042
(
IDADE
)
PESO
Fonte
g.l.
F
R2
231.02
9.47
0.7802
24.40
P = 0.0052
SS
MS
soma dos
quadrados
quadrados
médios
k=3
SSY-SSE=693.06
Resíduo
n-k-1=8
SSE=195.19
Total
n-1=11
SSY=888.25
de variação
Regressão
SSR
R 
SSY
2
Fcrítico = Fk,n-k-1,1-
MSR
F

MSE SSE
SSR
k
(n  k  1)
REGREESSION OF PAS (Y) ON IDADE (X)
Analysis of Variance
Sum of
Mean
Squares
Square
F Value
6394.02269
6394.02269
21.330
8393.44398
299.76586
14787.46667
SSY-SSE
Source
Model
Error
C Total1
DF
1
28
29
SSY
^
^
SSE
_
^
^
^
^
^
_
_
^
^
_
Y   X   Y   X
Yi     X i
n
Prob > F
0.0001
^
_
_
_
^
SSY  SSE   (Y i  Y)  [   X i  Y ]  [  ( X i  X )]
2
2
2
^
1 gl   β
i 1
n
^
^
^
_
^
_
^
SSE   (Yi  Yi )  [Yi  (   X i )]  [Yi  (Y   X   X i )]2
2
2
i 1
n
_
SSY   (Y i  Y) 2
i 1
_
n  1 gl   Y
Aqui, trabalha-se com os dados originais
^
^
n  2 gl   α e β
Modelo 1: PESO = 0 + 1 ALTURA + 
Analysis of Variance
Source
Model
Error
C Total
DF
1
10
11
Sum of
Squares
588.9225231
299.3274768
888.2500000
SSR=
SSY-SSE
estatística F para o teste
global
F Value
19.67
Prob > F
0.0013
SSE
Dep Mean
62.750000
SSY
C.V.
8.718857
R-square
0.663014
R2
Parameter Estimates
Variable
Parameter
Estimate
INTERCEPT
ALTURA
6.189848707
1.072230356
^
0
T for H0:
Parameter=0
0.48
4.44
Prob >
|T|
0.6404
0.0013
Standard
Error OS
Estimate
12.84874620
0.24173098
^
1
Modelo 1: PESOi = 6.1898 + 1.0722 ALTURA + i
Modelo 2: PESO = 0 + 1 IDADE + 
Analysis of Variance
Source
Model
Error
C Total
Dep Mean
62.750000
DF
1
10
11
Sum of
Squares
526.39285714
361.85714286
888.25000000
F Value
14.55
C.V.
9.586385
Prob > F
0.0034
R-square
0.592618
Parameter Estimates
Variable
Parameter
Estimate
INTERCEPT
IDADE
30.57142857
3.64285714
T for H0:
Parameter=0
3.55
3.81
Prob >
|T|
0.0053
0.0034
Standard
Error OS
Estimate
8.61370526
0.95511512
Modelo 3: PESO = 0 + 1 ALTURA + 2IDADE + 
Analysis of Variance
Source
Model
Error
C Total
Dep Mean
62.75000000
DF
2
9
11
Sum of
Squares
692.82260654
195.42739346
888.25000000
F Value
15.95
C.V.
7.426048
Prob > F
0.0011
R-square
0.779986
Parameter Estimates
Variable
Parameter
Estimate
INTERCEPT
ALTURA
IDADE
6.553048251
0.722037958
2.050126352
T for H0:
Parameter=0
0.60
2.77
2.19
Prob >
|T|
0.5641
0.0218
0.0565
Standard
Error OS
Estimate
10.94482708
0.26080506
0.93722561
O modelo 3 possui melhor ajuste dos 3 modelos apresentados (maior R2).
Modelo 4: PESO = 0 + 1 ALTURA + 2IDADE + 3(IDADE)2 + 
Analysis of Variance
Source
Model
Error
C Total
Dep Mean
62.75000000
DF
3
8
11
Sum of
Squares
693.06046340
195.18953660
888.25000000
F Value
9.47
C.V.
7.871718
Prob > F
0.0052
R-square
0.780254
Parameter Estimates
Variable
Parameter
Estimate
INTERCEPT
ALTURA
IDADE
(IDADE)2
3.438426001
0.723690241
2.776874563
-0.041706699
T for H0:
Parameter=0
0.10
2.61
0.37
-0.10
Prob >
|T|
0.9210
0.0310
0.7182
0.9238
Standard
Error OS
Estimate
33.61081984
0.27696316
7.42727877
0.42240715
R2 modelo 3 = 0.780 e R2 modelo 4 = 0.7803 ==> 0.7803  0.780?
Efito da colinearidade – fx pequena de
Modelo 3 mais parcimonioso.
idade; e a relação deve ser uma reta
Teste de hipótese em Regressão Múltipla
 Uma vez que o modelo está ajustado, algumas questões com respeito ao
ajuste e sobre a contribuição de cada variável independente para a predição
de Y são importantes.
 São 3 questões básicas a serem respondidas:
1. Teste sobre a contribuição global de todas as variáveis  tratadas
coletivamente, o conjunto completo das variáveis (ou, equivalentemente, o
modelo ajustado propriamente dito) contribui significativamente para a
predição de Y?
2. Teste da adição de uma variável  a adição de uma variável independente
em particular melhora significativamente a predição de Y (a predição que
foi alcançada pelas variáveis já existentes no modelo)?
3. Teste sobre a inclusão de um grupo de variáveis  a adição de um
conjunto de variáveis independentes melhora significativamente a predição
de Y obtida pelas outras variáveis já previamente incluídas no modelo?
 Estas perguntas são tipicamente respondidas com a realização
de testes de hipóteses.
 Os testes podem ser expressos via o teste F. Em alguns casos,
este teste pode ser equivalentemente realizado usando-se o
teste t.
^
 Todo teste F em regressão
envolve uma razão de variâncias
 02
estimadas 
H0 :
2
MS = SS/graus de liberdade
Fcrítico=Fnumerador, denominador, 1-nível de significância do teste
1. Teste para o modelo global
 Um modelo contendo k variáveis independentes como a
seguir:
Y   0  1 X 1   2 X 2  ...   k X k  
 A hipótese nula para este teste: "Todas as k variáveis
independentes consideradas conjuntamente não explicam
significativa quantidade de variação de Y“
H0: 1 = 2 = ... = k = 0
 H1: ao menos 1   0 (pelo menos 1 variável contribui
significativamente para a predição de Y)
 Sob a hipótese H0, o modelo completo pode ser resumido ao
intercepto 0
 Se uma variável auxiliar na predição (determinado   0), H0 é
rejeitada  mesmo que os outros 's sejam = 0.
 Para realização do teste, usam-se os termos médios quadráticos do
modelo e do resíduo, como na regressão simples, para cálculo da
estatística F:
Fontes de
variação
Soma dos
quadrados
Graus de
liberdade
SS
n
^
_
2
i 1
Resíduo
SSE 

k
MSR 
n-k-1
MSE 
^
(Yi  Yi ) 2
i 1
n
Total
SSY 
Estatística F
Valor p
MS
Regressão SSR   (Yi  Y )
n
Quadrados
médios
SSR
k
F
MSR
MSE
P
SSE
n  k 1
_
 (Yi  Y )2
n-1
i 1
n
MS Regressão ( SSY  SSE ) / k
F

MS Resíduo
SSE /( n  k  1)
_
SSY   (Yi  Y )2
i 1
n
^
SSÊ   (Yi  Y i ) 2
i 1
 O teste F calculado pode ser comparado com o ponto crítico da
dstribuição F  Fk,n-k-1,1-
(n  k  1)
MSE SSE
F

k
MSR
( SSY  SSE)
   nível de significância.
 H0 é rejeitada se o valor calculado exceder o valor crítico.
 F pode ser escrito em função de R2.
R2 
SSY  SSE
SSY
F
R2
(1  R )
k
2
(n  k  1)
(n  k  1)
(n  k  1)
(n  k  1)
MSE SSE
SSY  R 2 .SSY (1  R 2 )
F


k 
k
k
MSR
R
( SSY  SSE)
2
R 2 .SSY
 Se os erros têm distribuição normal e se H0 é verdadeira, a
estatística F tem distribuição F com k e n-k-1 graus de liberdade.
 Para um nível de significância , temos que:
 F crítico: Fk,n-k-1,1-  rejeita H0 para F calculado maior que F
crítico.
 Interpretação de H0 rejeitada  a amostra sugere que as variáveis
independentes consideradas cojuntamente ajudam na predição da
variável dependente Y.
 Não significa que todas as variáveios sejam necessárias para a
predição de Y.
 Modelo mais parcimonioso pode ser adotado?
2. O teste F parcial
 A partir da tabela ANOVA, informação adicional pode ser obtida
com respeito ao ganho na predição pela inclusão de variáveis
independentes.
 X1 = ALTURA , X2 = IDADE , X3 = (IDADE)2
1. X1 = ALTURA sozinha prediz Y?
2. A inclusão de X2 = IDADE contribui significativamente para a
predição de Y, após considerar (ou controlar por) X1?
3. A inclusão de X3 - (IDADE)2 - contribui significativamente para a
predição de Y, após controlar por X1 e X2?
 SS(X1)  soma dos quadrados explicada por somente X1 para
predição de Y.
 SS(X2|X1)  soma dos quadrados explicada extra pela inclusão de
X2 em adição à X1 para predição de Y.
 SS(X3|X1,X2)  soma dos quadrados explicada extra pela inclusão
de X3 em adição à X1 e X2 para predição de Y
 Para responder à pergunta 1, basta ajustar um modelo linear
simples (X1 = ALTURA).
F = MSR extra
MSE completo
SSY = SSR + SSE
FIXO 

Y
^
SSE2
^
^
^
^
^
Y   0  1 X 1   2 X 2
^
Y   0  1 X 1
SSY
SSE1
SSR2
SSR1
Y
Y
SSR1,2
X
x1
Fonte
X1
X1 e X2
X1, X2 e X3
SSR
588.92
692.82
693.06
SSE
299.33
195.43
195.19
SSY
888.25
888.25
888.25
SS(X1) = 588.92
SS(X2|X1) = SSR (X2|X1) = 692.82 - 588.92 = 103.90 --- SSE (X2|X1) = 299.33-195.43 = 103.43
SS(X3|X1,X2) = SSR (X3|X1,X2) = 693.06 - 692.82 = 0.24 --- SSE (X3|X1,X2) = 195.43-195.19 = 0.24
588.92  SSR do modelo linear simples e SSE = 299.33 (103.90+0.24+195.19)  10 (8+1+1) g.l.
103.90+0.24+195.19 = 299.33
299.33
n-k-1
588/(299.33/10)
d.f.
SS
MS
F
R2
X1
1
588.92
588.92
19.67
0.7802
X2|X1
1
103.90
103.90
4.78
(0.05<P<0.10)
X3|X1,X2
1
0.24
0.24
0.01
Resíduo
8
195.19
24.40
Total
11
888.25
Source
Regressão
F=103.9/1 / (195.19+0.24)/9
12-k-1
Fonte
X1
X1 e X2
X1, X2 e X3
SSR
588.92
692.82
693.06
SSE
299.33
195.43
195.19
SSY
888.25
888.25
888.25
588.92
1  19.67
F
299.33 / 10
n-k-1
588/(299.33/10)
d.f.
SS
MS
F
R2
X1
1
588.92
588.92
19.67
0.7802
X2|X1
1
103.90
103.90
4.78
(0.05<P<0.10)
X3|X1,X2
1
0.24
0.24
0.01
Resíduo
8
195.19
24.40
Total
11
888.25
Source
Regressão
Fonte
X1
X1 e X2
X1, X2 e X3
SSR
588.92
692.82
693.06
SSE
299.33
195.43
195.19
SSY
888.25
888.25
888.25
Y = 0 + 1X1 + 2X2 +...+ pXp + *X* + 
SSR( copleto)  SSR( reduzido )
F ( X 2 | X1) 
1 
SSE (com pleto)
(n - p - 2)
103.90
103.90 103.90


 4.78
(195.19  0.24)
195.43
21.71
9
(12  1  2)
n- k-1 = p+1
n-(p+1)-1
9 g.l.
195.43
d.f.
SS
MS
F
R2
X1
1
588.92
588.92
19.67
0.7802
X2|X1
1
103.90
103.90
4.78
(0.05<P<0.10)
X3|X1,X2
1
0.24
0.24
0.01
Resíduo
8
195.19
24.40
Total
11
888.25
Source
Regressão
F=103.9/1 / (195.19+0.24)/9
12-k-1
Fonte
X1
X1 e X2
X1, X2 e X3
SSR
588.92
692.82
693.06
SSE
299.33
195.43
195.19
SSY
888.25
888.25
888.25
SS(X3|X1,X2) = SSR (X3|X1,X2) = 693.06 - 692.82 = 0.24 --- SSE (X3|X1,X2) = 195.43-195.19 = 0.24
SSR( copleto)  SSR( reduzido )
F ( X 3 | X1, X 2 ) 
1 
SSE (com pleto)
0.24
195.19
(n - p - 2)

(12  2  2)
0.24
 0.0098
24.40
n-k-1  p+1
8 g.l.
195.19
d.f.
SS
MS
F
R2
X1
1
588.92
588.92
19.67
0.7802
X2|X1
1
103.90
103.90
4.78
(0.05<P<0.10)
X3|X1,X2
1
0.24
0.24
0.01
Resíduo
8
195.19
24.40
Total
11
888.25
Source
Regressão
 O teste F para testar se existe uma regressão linear significante
quando usa-se apenas X1 = ALTURA para predição de Y é dada
por:
588.92
1  19.67
F
299.33 / 10
 Para responder às perguntas 2 e 3, devemos usar o teste F parcial.
 Este teste avalia se a inclusão de uma variável independente
específica, mantendo as já existentes no modelo, contribui
significativamente para a predição de Y.
 O teste auxilia na exclusão de variáveis que não auxiliam na
modelagem, mantendo o modelo mais parcimonioso  preditores
"importantes".
F ( X * | X 1 , X 2 ,..., X p ) 
Soma dos quadrados Extra pela adição de X *, dados X 1 , X 2 ,..., X p
Quadrado médio dos resíduos para o modelo com todas as variáveis X 1 , X 2 ,..., X p , X *
A hipótese nula - Teste parcial
 Incluir X* melhora significativamente a predição de Y (outros X's já
estão no modelo)?
 H0: "X* NÃO melhora significativamente a predição de Y, dados
X1, X2,...,Xp existentes no modelo”
 H0: * = 0 no modelo Y = 0 + 1X1 + 2X2 +...+ pXp + *X* + 
 O teste essencialmente compara 2 modelos: o completo e o
reduzido
 O objetivo é determinar qual modelo é mais apropriado, baseado na
informação adicional que X* fornece para Y, além da já fornecida
por X1, X2,...,Xp
O procedimento do teste
 Para realizar o teste F parcial, deve-se computar a soma dos
quadrados extra pela adiçao de X*, que aparece na tabela ANOVA
como SSR X*| X1, X2,...,Xp
reduzido
completo
Soma dos quadrados
Extra
pela inclusão de X*,
dados
X1, X2,...,Xp
=
Soma dos quadrados da
Regressão
pela inclusão de X*,
dados
X1, X2,...,Xp
-
Soma dos quadrados da
Regressão
dados
X1, X2,...,Xp
 Ou mais compactadamente:
SS (X*| X1, X2,...,Xp) = SS Regressão (X1, X2,...,Xp, X*) - SS Regressão (X1, X2,...,Xp)
 Como SSY = SSR + SSE, podemos também fazer:
SS (X*| X1, X2,...,Xp) = SS Resíduo (X1, X2,...,Xp) - SS Resíduo (X1, X2,...,Xp, X*)
Comparação de 2 modelos: completo e o reduzido
 Modelo completo: Y = 0 + 1X1 + 2X2 +...+ pXp + *X* + 
 Modelo reduzido: Y = 0 + 1X1 + 2X2 +...+ pXp + 
 H0: * = 0
F ( X * | X 1 , X 2 ,..., X p ) 
Soma dos quadrados Extra pela adição de X *, dados X 1 , X 2 ,..., X p
Quadrado médio dos resíduos para o modelo com todas as variáveis X 1 , X 2 ,..., X p , X *
SS ( X * | X 1 , X 2 ,..., X p )
F ( X * | X 1 , X 2 ,..., X p ) 
MSE( X 1 , X 2 ,..., X p , X *)
SSR( copleto)  SSR( reduzido )
F ( X * | X 1 , X 2 ,..., X p ) 

MSE( X 1 , X 2 ,..., X p , X *)
SSR( copleto)  SSR( reduzido )
1
SSE (com pleto)
(n - p - 2)
n-k-1
Comparação de 2 modelos: completo e o reduzido
 H0: * = 0
SSR( copleto)  SSR( reduzido )
F ( X * | X 1 , X 2 ,..., X p ) 

MSE( X 1 , X 2 ,..., X p , X *)
SSR( copleto)  SSR( reduzido )
1
SSE (com pleto)
(n - p - 2)
SS(X2|X1) = SSR(X1,X2) - SSR (X1) = 692.82-588.92 = 103.90
SS(X3|X1, X2) = SSR(X1,X2, X3) - SSR (X1, X2) = 693,06-692.82 = 0.24
SSE(completo) = 195.19
SSR( copleto)  SSR( reduzido )
F ( X 2 | X1) 
1 
SSE (com pleto)
(n - p - 2)
103.90
103.90 103.90


 4.78
(195.19  0.24)
195.43
21.71
9
(12  1  2)
SSR( copleto)  SSR( reduzido )
F ( X 3 | X1, X 2 ) 
SSE (com pleto)
1 
(n - p - 2)
Fcrítico=F1,n-p-2,1- = F1,9,0.95 = 5.12
F1,9,0.90 = 3.36
0.24
195.19
(12  2  2)

0.24
 0.0098
24.40
não rejeita H0
rejeita H0 a um nível de 0.10
3. Teste F parcial múltiplo

Testa a contribuição adicional de um conjunto de variáveis
independentes na predição de Y.

Testa a inclusão simultânea de 2 ou mais variáveis.

Por exemplo, variáveis que tenham características em comum, e que seja
importante testá-las em conjunto, como as variáveis de ordem superior a
1:

(IDADE)2, ALTURA X IDADE, (ALTURA)2

Ou variáveis de termo de ordem superior, que correspondam ao produto
de variáveis de 1a. ordem, como os termos de interação  X1X2, X1,X3,
X2X3.

Muitas vezes é de interesse conhecer o efeito das interações em conjunto,
antes de considerar cada termo individualmente.

Este procedimento pode reduzir o trabalho de testes individuais, uma vez
que variáveis podem ser retiradas do modelo em conjunto.
Hipótese nula
 Modelo completo:
 Y = 0 + 1X1 + 2X2 +...+ pXp + *1X*1 + *2X*2 +...+ *kX*k + 
 Modelo reduzido: Y = 0 + 1X1 + 2X2 +...+ pXp + 
 H0: "X*1 , X*2 , ..., X*k NÃO melhoram significativamente a predição
de Y.”
 H0: *1 = *2 = ... = *k = 0
O procedimento
 Necessitamos calcular a soma dos quadrados EXTRA devida à
inclusão dos X*i do modelo completo.
SS(X*1, X*2, ..., X*k|X1, X2, ..., Xp) =
SS Regressão (X1, X2, ..., Xp, X*1, X*2, ..., X*k)
-
SS Regressão (X1, X2, ..., Xp)
=
SS Resíduo (X1, X2, ..., Xp)
-
SS Resíduo (X1, X2, ..., Xp, X*1, X*2, ..., X*k)
p
k
parâmetros
A estatística F:
*
*
*
SS
(
X
,
X
,...,
X
| X 1 , X 2 ,..., X p )/k
1
2
k
F ( X 1* , X 2* ,..., X k* | X 1 , X 2 ,..., X p ) 
MS Resíduo ( X 1 , X 2 ,..., X p , X 1* , X 2* ,..., X k* )
F ( X 1* , X 2* ,..., X k* | X 1 , X 2 ,..., X p ) 
F ( X 1* , X 2* ,..., X k* | X 1 , X 2 ,..., X p ) 
[SS Resíduo (reduzido) - SS Resíduo (completo)]/k
MS Resíduo (completo)
[SS Regressão (completo) - SS Regressão (reduzido) ]/k
SS Resíduo (completo)/( n - p - k - 1)
A estatística F:
[SS Regressão (completo) - SS Regressão (reduzido) ]/k
F ( X , X ,..., X | X 1 , X 2 ,..., X p ) 
SS Resíduo (completo)/( n - p - k - 1)
*
1

*
2
*
k
Exemplo:

Inclusão de idade no modelo que já tem ALTURA  IDADE e IDADE2.
[SS Regressão (ALTURA, IDADE, IDADE 2 )  SS Regressão (ALTURA)]/ k
F (IDADE, IDADE | ALTURA) 
MS Resíduo (ALTUR, IDADE, IDADE 2 )
2
F (IDADE, IDADE 2 | ALTURA) 
[(588.92  103.90  0.24)  588.92]/2
 2.13
24.40
Fcrítico= Fk,(n-p-k-1),1- = F2,12-1-2-1),0.95 = F2,8,0.90 = 4.46
F calculado menor que o Fcrítico  não rejeita H0
 Testando a significância estatística do coeficiente parcial  teste F parcial
 H0: rYX|Z1,...,Zp = 0
 Exemplo:
 Para testar se rPESO,(IDADE)2|ALTURA, IDADE = 0,

encontra-se F[(IDADE)2|ALTURA, IDADE] e

compara-se com F1,12-2-2,0.90 = F1,8,0.90=3.46
F[(IDADE)2 | ALTURA, IDADE] 
SSR(X1, X2) - SSR(X1, X2, X3)
MSE(X1, X2, X3)
MSE = SSE(X3|X1,X2)/df = 195.19/(11-2-1) = 195.19/8=24.399
195.43 - 195.19
 0.010
24.399
 F calculado < F crítico --> NÃO rejeita H0 --> (IDADE)2 não contribui para a
predição de PESO.
Modelo A: PESO = 0 + 1 ALTURA + 
Analysis of Variance
Source
Model
Error
C Total
R2
DF
1
10
11
Sum of
Squares
588.9225231
299.3274768
888.2500000
0.663014
Mean
Square
588.9225231
29.93274768
F Value
Prob > F
Modelo B: PESO = 0 + 1 ALTURA + 2IDADE + 
Analysis of Variance
Source
Model
Error
C Total
R2
DF
2
9
11
rY2, X | X 
1
2
Sum of
Squares
692.82260654
195.42739346
888.25000000
0.77999
Mean
Square
346.4113
21.714154
F Value
SSE ( X 1 )  SSE ( X 1 , X 2 ) 299.3275  195.4274

 0.347
SSE ( X 1 )
299.3275
Prob > F
Simples
Y = 0 + 1X1 + 
H0: 1 = 0
H1: 1  0
Múltipla
Parcial
Parcial múltipla
Modelo completo:
Y=0 + 1X1 +...+ kXk +  Modelo completo:
Y=0 +
Y=0 +1X1+...+kXk + *X* + Y=0 + 1X1 + ...+ kXk + *1X*1 +
...+ *pX*p + 
Modelo reduzido:
Modelo reduzido:
Y = 0 + 1X1 + ...+ kXk + 
Y=0 + 1X1 + ...+ kXk + 
H0: 1 = 2 = ... = k = 0
H1: pelo menos 1   0
SSR
SSR
MSR
1
MSR
k
F

F

MSE SSE
MSE SSE
( n  2)
(n  k  1)
Fk,n-2,1-
Fk,n-k-1,1-
H0: * = 0
H0: *1 = *2 = *p = 0
H1: pelo menos 1 *  0
H1: *  0
SSR ( copleto )  SSR ( reduzido)
F
1
SSE (completo)
(n - k - 2)
[SSR(co mp leto ) - SSR(red u zid o )]
F
k
SSE( co mp leto )
(n - p - k - 1)
Fk,(n-k-2),1-
Fk,(n-p-k-1),1-
Download

Pressupostos da Regressão Linear Múltipla