Regressão linear múltipla
Modelos de regressão linear múltipla
Exemplos:
•Em um estudo com 67 escritórios de uma rede financeira, a variável resposta foi
o custo operacional no ano que se findou. Haviam 4 variáveis preditoras: o valor
médio emprestado aos clientes durante o ano, o número médio de empréstimos,
número total de novos empréstimos processados, e índice de salários dos
escritórios. (Temos um levantamento).
• Num estudo sobre a produtividade de trabalhadores ( em aeronave, navios) o
pesquisador deseja controlar o número desses trabalhadores e o bônus pago
(remuneração). (Aqui temos um experimento).
• Num estudo sobre a resposta à uma droga, o pesquisador deseja controlar as
doses da droga e o método de aplicação. (Também temos um experimento).
 Num estudo sobre o tempo de CPU, para avaliar a demanda por recursos, o
pesquisador decidiu verificar o efeito de X1=disk I/O e X2=memory size.
1
» Em todos os exemplos foram necessárias várias variáveis preditoras no
modelo para um bom ajuste do mesmo.
» Um modelo contendo várias variáveis preditoras resulta numa estimação
mais precisa.
» As análises aqui desenvolvidas são válidas para o delineamento inteiramente
casualizado.
2
Modelo de regressão de primeira ordem com duas
variáveis preditoras
O modelo de regressão linear é dado por:
Yi   0   1 X i1   2 X i 2   i
(1)
Onde Yi é a resposta no i-ésimo ensaio, Xi1 e Xi2 são os valores das duas variáveis
preditoras no i-ésimo ensaio. Os parâmetros do modelo são 0, 1, 2 e o termo do erro
é i .
Vamos assumir que E(i)=0, portanto, a função de regressão do modelo de primeira
ordem é:
E (Y )   0   1 X 1   2 X 2
(2)
A representação gráfica desta função é um plano no espaço. A figura, na página
seguinte, mostra este plano para a função:
E ( Y )  10  2 X 1  5 X 2
(3)
A função de regressão na regressão múltipla é chamada de superfície de resposta.
3
Plano de resposta
Yi
•
E(Yi) = 20,00
0
i
•
(1,33;1,67)
4
Significado dos coeficientes de regressão:
O parâmetro 0 é o intercepto do plano de regressão. Se a abrangência do modelo
inclui X1=0 e X2=0 então 0=10 representa a resposta média E(Y) neste ponto.
Em outras situações, 0 não tem qualquer outro significado como um termo
separado no modelo de regressão.
O parâmetro 1 indica a mudança na resposta média E(Y) por unidade de
acréscimo em X1 quando X2 é mantido constante. Da mesma forma 2 indica a
mudança na resposta média por unidade de aumento em X2 quando X1 é mantido
constante.
Neste modelo, o efeito de X1 sobre a resposta média não depende de X2 e viceversa, assim, dissemos que as variáveis preditoras tem efeito aditivo ou não
interagem. Temos um modelo de primeira ordem sem interação.
Exemplo: considerar o modelo de regressão da figura anterior.
Y = vendas no mercado (em 10.000 unidades monetárias); X1= despesas com o
ponto de venda (em 1.000 u.m.); X2= gastos com TV (em 1.000 u.m.). Como 1=2,
se o gasto em uma localidade aumenta em 1 unidade (1.000 u.m.), enquanto o gasto
com TV é mantido constante, espera-se um acréscimo nas vendas de 2 unidades
(20.000 u.m.).
5
Exercício: faça a interpretação para 2. Resposta: como 2=5 se o gasto com
TV em uma localidade aumenta em 1 unidade (1.000 u.m.) e o gasto com o
ponto é mantido constante, as vendas esperadas aumentam 50.000 u.m.
Exercício: no modelo
Y i   0   1 X i 1   2 X i 2  ...   p  1 X i , p  1   i
Faça a interpretação do parâmetro k . Resposta: indica a mudança na
resposta média E(Y) com o acréscimo de uma (1) unidade na variável
preditora Xk, quando todas as outras variáveis preditoras são mantidas
constantes.
6
Modelo linear geral de regressão
Vamos supor que temos X1, X2,..., Xp-1 variáveis preditoras. Vamos definir o modelo
de regressão, com erros normais, em termos das variáveis preditoras:
Y i   0   1 X i 1   2 X i 2  ...   p  1 X i , p  1   i
(4)
Onde: 0, 1,..., p-1, são os parâmetros;
Xi1,..., Xi,p-1 são constantes conhecidas;
i são independentes com distribuição N(0, 2)
i=1,2,...,n.
A função resposta para o modelo, como E(i )=0,é dada por:
E (Y )   0   1 X 1   2 X 2  ...   p  1 X
p 1
(5)
Algumas situações em que podemos usar o modelo em consideração.
7
1) Temos p-1 variáveis preditoras: todas as variáveis preditoras apresentam efeito
aditivo, ou seja, não apresentam um efeito de interação entre elas (o efeito de uma
variável preditora não depende dos níveis da outra variável preditora).
2) As variáveis preditoras são qualitativas: neste caso temos variáveis como: sexo,
invalidez (normal, parcialmente inválido, inválido). Usamos variáveis indicadoras,
que recebem valores 0 e 1 para identificar as categorias de uma variável qualitativa.
Exemplo: desejamos fazer uma análise de regressão para estimar a distância de um
hospital (Y), baseado na idade dos pacientes (X1) e sexo (X2).
O modelo de regressão é:
Yi   0   1 X i1   2 X i 2   i
Onde:
(6)
X i 1  idade dos pacientes;
X i2
 1 se o paciente é do sexo feminino
 
 0 se o paciente é do sexo masculino
8
A resposta média do modelo (6) é:
E (Y )   0   1 X 1   2 X 2
(7)
Para pacientes do sexo masculino, X2=0, temos:
E (Y )   0   1 X 1
(8)
Para pacientes do sexo feminino, X2=1, temos:
E (Y )  (  0   2 )   1 X 1
(9)
As duas funções respostas representam duas retas paralelas com diferentes
interceptos. Exercício: faça a representação gráfica das funções 8 e 9.
Outro exemplo: vamos considerar uma terceira variável no modelo, o status sobre
a invalidez dos pacientes, a qual apresenta três categorias. Em geral,
representamos uma variável qualitativa com c categorias, por meio de c-1
variáveis indicadoras. Portanto, no exemplo, vamos definir as variáveis X3 e X4
como:
9
X
X
3
4
1 se o paciente é normal
 
 0 se o paciente está em outra categoria
1 se o paciente é parcialmen te inválido
 
 0 se o paciente está em outra categoria
O modelo com idade, sexo e status da invalidez fica:
Yi   0   1 X i1   2 X i 2   3 X i 3   4 X i 4   i
(10)
Neste curso, temos um capítulo somente para o estudo de variáveis qualitativas.
Como modelar e interpretar os coeficientes de regressão?
3) Regressão polinomial: contém termos quadráticos e de maior ordem nas
variáveis preditoras. Exemplo:
Yi   0   1 X i   2 X i   i
2
(11)
10
O gráfico deste modelo é uma parábola.
Diagram
adedispersãoparaosdadosdeproduçãodem
ilho
11
9
Produçãoemkg/parcela
7
5
3
1
-20
0
20
40
60
80
100
120
Dosesdefósforo
Apesar da natureza curvilínea da função resposta do modelo (11) ele é um caso
especial do modelo (4). Fazendo-se Xi1=Xi e Xi2=Xi2, temos o modelo (1).
11
4)Variáveis transformadas: uma transformação bastante utilizada é a
logarítmica:
Y i  log Y i
'
O modelo fica:
Yi   0   1 X i1   2 X i 2   3 X i 3   i
'
(12)
A função resposta é complexa. Porém, o modelo (12) é da forma do modelo
linear geral de regressão.
Exercício: coloque o modelo (13) na forma do modelo de regressão linear
geral (4).
Yi 
1
 0  1X i 1  2 X i 2
 i
(13)
Basta fazer:
Yi 
'
1
Yi
 Yi   0   1 X i1   2 X i 2   i
'
12
5) Modelos com efeito da interação entre variáveis preditoras. O efeito de uma
variável preditora depende dos níveis das outras variáveis preditoras. Exemplo:
Yi   0   1 X i1   2 X i 2   3 X i1 X i 2   i
(14)
Observe que fazendo-se Xi3=Xi1Xi2 obtemos o modelo linear geral
de regressão (4).
6) Combinando modelos: Exemplo:
Yi   0   1 X i1   2 X i1   3 X i 2   4 X i 2   5 X i1 X i 2   i
2
2
(15)
Fazendo-se:
Z i 1  X i 1 Z i2  X i 1 Z i 3  X i 2
2
Z
 X i2
2
i4
Z i 5  X i1 X i 2
temos o modelo linear geral de regressão (4).
13
A figura ilustra um desses modelos mais complexos.
14
Modelo de regressão linear múltipla em termos
matriciais
A expressão do modelo linear geral de regressão é dada por:
Y i   0   1 X i 1   2 X i 2  ...   p  1 X i , p  1   i
(16)
Em termos matriciais, precisamos definir:
 Y1 
 
Y
 2
Y   . 
nx 1
 
 . 
Y 
 n
1

1

.
X  
nx p
.
.

1
X 11
.
.
X 21
.
.
.
.
.
.
.
.
.
.
.
X n1
.
.
X 1 , p 1 

X 2 , p 1

. 

. 
. 

X n , p 1 
 0 


1


β   . 
px1


.


 
 p 1 
1 
 

 2
 . 
ε   
n x1
 . 
 . 
 
  n 
15
Em termos matriciais, o modelo de regressão linear geral é dado por:
Y  Xβ  ε
(17)
 é um vetor de variáveis aleatórias independentes e normalmente distribuídas
com esperança (média), E()=0 e matriz de variância-covariância dada por:
 2

0
2
σ (ε )  
 .

 0
0

.
2
.
.
.
0
.
0 

0 
. 
2
 
=2I
Assim, o vetor das observações Y tem esperança e variância dadas por:
E(Y )  Xβ
n x1
σ (Y )   I
2
2
(18)
n xn
16
Exercício: uma empresa opera estúdios fotográficos para crianças em 12
cidades. A empresa deseja expandir seus estúdios para outras cidades
semelhantes e deseja investigar se as vendas (Y) podem ser estimadas através
do número de pessoas com 16 anos ou menos (X1) e a renda per capita na
cidade (X2). Os resultados foram:
17
A) Escreva o modelo de regressão linear de primeira ordem (sem efeito
quadrático e interação).
B) Faça um gráfico de dispersão (Scatterplot) entre vendas e número e outro
para vendas e renda.
C) Mostre a matriz X, os vetores Y e  para os dados do exercício.
D) calcule os valores médios (esperanças) das observações,
E(Y).
18
Respostas:
A)
Yi   0   1 X i 1   2 X i 2   i
B)
19
20
1

1
C)

1

1

1

1

X 
1

1
1

1
1


1
68
45
91
48
47
66
50
52
49
38
88
73
17 

16

18 

16

17 

18 
17 

17 
17 

16 
18 

17 

 174

164

 244

154

 182

208

Y 
 163

145
145

137
 242


 191



















0 


β  1



2 

21
 0


 0
 0

0

0

0

E(Y ) 
0

 0
 0

0

 0

 0
 68  1  17  2 

 45  1  16  2

 91  1  18  2 
 48  1  16  2 

 47  1  17  2 
 66  1  18  2 

 50  1  17  2 
 52  1  17  2 

 49  1  17  2 

 38  1  16  2

 88  1  18  2 

 73  1  17  2 
22
Estimação dos coeficientes de regressão
O sistema de equações normais para o modelo (17) é:
X Xb  X Y
'
'
(19)
E os estimadores de mínimos quadrados são dados por:
1
b  (X X ) X Y
'
'
(20)
Método de máxima verossimilhança
Vamos considerar o modelo com erros normais (17). A função de máxima
verossimilhança é dada por:
L (β, ) 
2
1
( 2 
2 n/2
)

exp  

2
(
Y




X

...


X
)
 i 0 1 i1
p 1
i , p 1
 (21)
i 1

n
1
2
2
Os estimadores de máxima verossimilhança são exatamente os mesmos obtidos com o
método de mínimos quadrados.
23
Continuação do Exercício do estúdio fotográfico. Dados os resultados:
 12
'

X X  715

 204
 2149
'

X Y  134330

 36772
715
45921
12269
204 

12269

3474 
'
( X X)
1
 108,435


0,228

 - 7.174
0,228
0,001
- 0,016
- 7,174 

- 0,016

0,480 




E) Encontre as estimativas dos parâmetros do modelo.
F) Apresente a função de regressão estimada.
G) Faça a interpretação das estimativas dos parâmetros do modelo.
24
Valores estimados e resíduos
Os valores estimados são obtidos por:
Yˆ  Xb
(22)
n x1
Os resíduos são obtidos através da expressão matricial:
e  Y  Yˆ  Y  Xb
(23)
n x1
Exercício:
H) para verificar o ajuste do modelo de regressão para os dados, é necessário
encontrar os valores estimados e os resíduos. Encontre estes resultados para os dados
da empresa de estúdio fotográfico.
25
Análise de variância
Soma de quadrados e quadrados médios
SQTotal  Y ' [ I  ( n1 ) J ] Y
SQ Regressão
SQ Resíduo
com n - 1 graus de liberdade
 Y [H  ( n1 ) J ] Y
'
com p - 1 graus de liberdade
 Y ( I  H ) Y com n - p graus de liberdade
'
Onde J é uma matriz n x n de un’s e H=X(X’X)-1X’ é a matriz de projeção. Os
quadrados médios são dados por:
QMRegressã
QMErro 
o
SQRegressã o
p 1
SQErro
n p
26
Teste F para regressão
Hipóteses em teste:
H 0 :  1   2  ...  
p 1
 0
H a : pelo menos um  k é diferente
de zero.
A estatística de teste é dada por:
F 
*
QMRegressã o
QMErro
(24)
Se F*> F(; p-1,n-p), rejeitamos a hipótese nula, caso contrário, aceitamos a
hipótese. Não devemos esquecer de usar o valor p.
Exemplo: continuação do exercício sobre a empresa de estúdio fotográfico.
27
Exercício: interprete o teste F da análise de variância com o uso do valor p. Se a
hipótese nula for rejeitada, isto garante que podemos fazer estimação (predição)
válidas? Resp. não.
28
Coeficiente de determinação (R2)
Define-se R2 por:
R 
2
SQRegressã o
SQTotal
 1
SQErro
SQTotal
(25)
Mede a redução da variabilidade total de Y associada com o uso do conjunto de
variáveis X1,...,Xp-1. Como na regressão linear simples, temos:
0  R 1
2
Assim, R2=0 se todas as estimativas bk=0 (k=1,...,p-1), e R2=1 quando todas as
observações Y caírem exatamente na superfície de regressão ajustada, isto é,
quando:
Y i  Yˆi
para todo i.
Como R2 aumenta com a adição de variáveis explanatórias, sugere-se utilizar o
coeficiente de determinação ajustado (corrigido) para os graus de liberdade. O
coeficiente de determinação ajustado é dado por:
S QErro
R  1
2
a
n p
S QTo ta l
n 1
 1
 
n 1
n p
SQErro
SQTotal
(26)
29
Um alto valor de R2 não necessariamente implica que o modelo ajustado se presta
para se fazer inferências precisas, pois apesar de um valor alto de R2, o QME ainda
pode ser grande. O modelo pode não ser exatamente linear.
Coeficiente de correlação múltipla (R)
R
R
2
(27)
O coeficiente de correlação
múltipla mede o relacionamento
linear entre Y e Ŷ.
Exercício: calcule o coeficiente de determinação (R2), o coeficiente de
determinação ajustado (R2a) e o coeficiente de correlação (R), para os dados da
empresa de estúdios fotográficos . Faça a interpretação desses coeficientes.
Inferência sobre os parâmetros da regressão
Os estimadores de mínimos quadrados ou de máxima verossimilhança são não
tendenciosos, isto é: E(b)=.
A matriz de variância-covariância dos estimadores, 2(b), é dada por:
σ (b )   ( X X )
2
(p x p)
2
'
1
(28)
30
A estimativa da matriz de variância-covariância é dada por:
s ( b )  QMErro ( X X )
2
'
1
(29)
(p x p)
Exercício: para o exemplo da empresa de estúdios fotográficos, obtenha
s2(b).
Intervalo de confiança para os parâmetros k
Para o modelo com erros normais, (17), temos:
bk   k
s ( bk )
~ t(n  p )
k  0,1,..., p - 1
(30)
Assim, o intervalo para k, com confiança 1- é dado por:
bk  t (1   / 2 ; n  p ) s ( bk )
(31)
Exercício: para o exemplo da empresa de estúdios fotográficos calcule o
intervalo de confiança para 2, com confiança de 95%. Faça a
interpretação.
31
Testes de hipóteses para k
Hipóteses:
H 0 : k  0
H a : k  0
(32)
Estatística de teste:
t* 
bk
s ( bk )
(33)
Critério do teste:
Se |t* |t(1-/2;n-p), aceita-se a hipótese nula, caso contrário rejeita-se a mesma.
Exercício: para o exemplo da empresa de estúdios fotográficos, teste a hipótese
para 2=0 vs a hipótese de que 2 é diferente de zero, ao nível de significância de
5%. Faça a interpretação. Verifique se chegamos a mesma conclusão com o uso
do intervalo de confiança.
32
Estimação da resposta média e predição de uma
nova observação
Intervalo de confiança para E(Yh)
Para valores dados de X1,X2,...,XP-1, representados por: Xh1,Xh2,...,Xh,P-1, a
resposta média é representada por E(Yh). Vamos definir o vetor:
 1 


X h1


Xh   . 
p x1


.


X

 h , p 1 
A resposta média estimada, correspondente ao vetor Xh, é dada por :
'
Yˆh  X h b
(34)
33
A variância estimada da resposta média é dada por:
2
'
'
1
'
2
s ( Yˆh )  QMErro ( X h ( X X ) X h )  X h s ( b ) X h
(35)
O intervalo de confiança para a resposta média, E(Yh), é dado por:
Yˆh  t (1   / 2 ; n  p ) s ( Yˆh )
(36)
Exercício: encontre o intervalo de confiança.para a resposta média (vendas)
considerando Xh1=65,4 (população objeto) e Xh2=17,6, (renda per capita) com
95%. Faça a interpretação. Você considera que este intervalo dá informação
precisa? Utilize os seguintes resultados:
 26932,446
2

s (b ) 


56,748
0,215
- 1781,941 

- 4,093

119,166 
2
s ( Yˆ h )  42 ,316  s( Yˆh )  6 ,505
34
Limites de predição para uma nova observação Yh(novo)
Os limites de predição com confiança 1- para uma nova observação Yh(nova)
correspondente ao vetor Xh, os valores das variáveis explanatórias, são:
Yˆh  t (1   / 2 ; n  p ) s ( pred )
(37)
A variância do erro de predição (é a diferença entre a nova observação e o valor
estimado) é dado por:
1
s ( pred )  QMErro (1  X h ( X X ) X h )
2
'
'
(38)
Exercício: a empresa deseja predizer as vendas para uma nova cidade com as
seguintes características
Cidade A: Xh1=53,1
Xh2=17,7
encontre o intervalo de predição com 95%. Faça a interpretação. Você considera
que este intervalo é satisfatório? Utilize os seguintes resultados:
Yˆ h  177 ,034
s(pred)
 19,331
t(0,975;12
- 3)  2,306
35
Observação: Isto serve para mostrar que apesar de termos um alto valor para o
R2=0,845, não temos precisão suficiente para fazer os intervalos de predição.
Assim, alto coeficiente de determinação, não significa que podemos fazer predição
precisa.
Pode-se pensar em adicionar ou substituir variáveis preditoras do modelo.
Cautela com extrapolações.
X2
•
X2
X1
X1
36
Diagnóstico do modelo
Os procedimentos vistos para o modelo de regressão linear simples aplicam-se
diretamente para o caso do modelo de regressão linear múltipla.
Os capítulos 9 e 10 do livro texto apresentam muitos outros procedimentos.
• matriz de diagrama de dispersão
• gráfico tridimensional (ver a nuvem de pontos de diferentes perspectivas para
identificar padrões)
• gráficos de resíduos (versus: valores estimados, tempo, alguma outra
seqüência, variáveis regressoras, variáveis regressoras omitidas, termos da
interação, box-plot(desenho esquemático), gráfico normal de probabilidades)
• testes para homogeneidade de variâncias, normalidade, falta de ajuste
Exemplo:
Empresa de estúdio fotográfico em 21 cidades.
37
Dados de 21 cidades da empresa de estúdio fotográfico:
OBS
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
POPULACA
68.5
45.2
91.3
47.8
46.9
66.1
49.5
52.0
48.9
38.4
87.9
72.8
88.4
42.9
52.5
85.7
41.3
51.7
89.6
82.7
52.3
RENDA
16.7
16.8
18.2
16.3
17.3
18.2
15.9
17.2
16.6
16.0
18.3
17.1
17.4
15.8
17.8
18.4
16.5
16.3
18.1
19.1
16.0
VENDAS
174.4
164.4
244.2
154.6
181.6
207.5
152.8
163.2
145.4
137.2
241.9
191.1
232.0
145.3
161.1
209.7
146.4
144.0
232.6
224.1
166.5
População (X1)
Renda (X2)
Vendas (Y)
38
Matriz de diagrama de dispersão:
Observa-se uma tendência linear entre vendas (Y) e população (X1); também entre
vendas (Y) e renda (X2). Observa-se, também, uma relação linear entre X1 e X2.
Não se observa outliers, não se observa separações nos dados.
39
40
A matriz de correlação:
Observe que a renda ESTÁ CORRELACIONADA com a população.
41
A figura indica que é razoável admitir uma superfície plana como modelo de
regressão para os dados.
y i   0   1 X i1   2 X i 2   i
42
Exercício: dados os vetores dos valores estimados e dos resíduos. Faça os
seguintes gráficos e interprete.
1 - resíduos versus valores estimados
2 - resíduos versus X1
3 - resíduos versus X2
4 - resíduos versus X1X2 (interação)
43
Y ajustados
187.18411
154.22943
234.39632
153.32853
161.38493
197.74142
152.05508
167.86663
157.7382
136.84602
230.38737
197.18492
222.6857
141.51844
174.21321
228.12389
145.74699
159.00131
230.98702
230.31606
157.0644
ERROS
-12.78411
10.170574
9.8036764
1.271469
20.215072
9.7585779
0.7449178
-4.666632
-12.3382
0.3539791
11.512629
-6.084921
9.3142995
3.7815611
-13.11321
-18.42389
0.6530062
-15.00131
1.6129777
-6.216062
9.4356009
X1X2
1143.95
759.36
1661.66
779.14
811.37
1203.02
787.05
894.4
811.74
614.4
1608.57
1244.88
1538.16
677.82
934.5
1576.88
681.45
842.71
1621.76
1579.57
836.8
44
 Indica que a função de regressão linear múltipla é adequada (plano)
 Indica que a suposição de homogeneidade de variância é atendida
 Não apresenta outliers (valores discrepantes).
45
 A suposição de normalidade dos erros está satisfeita, ou seja, a
distribuição dos erros segue aproximadamente uma distribuição normal.
46
 Não se observa nenhum padrão, indicando que o modelo linear é
adequado.
 Homogeneidade de variâncias.
47
 Não se observa nenhum padrão, indicando que o modelo linear é
adequado.
 Homogeneidade de variâncias.
48
 Nota-se que não é necessário a inclusão da interação X1*X2 no modelo.
49
Gráfico dos valores absolutos dos resíduos versus valores estimados: homogeneidade de
variâncias.
 Não se observa um acréscimo ou decréscimo da variabilidade com o aumento dos valores
estimados. Portanto, considera-se a suposição de homogeneidade de variância atendida.
 Se ocorrer heterogeneidade de variância, fazer gráficos dos resíduos absolutos versus cada
variável preditora para identificar qual(is) estão relacionadas com a falta de homogeneidade.
50
Análise de variância:
H 0 : 1  0 e  2  0
H a : pelo menos um é diferente
de zero.
Conclusão: Rejeita-se H0. Assim, pelo menos um coeficiente de regressão difere
de zero.
Observação: se o modelo de regressão é útil para realizar estimação e predição
ainda será visto.
51
Estimação de uma resposta média:
Xh
 1 


 65 , 4


17 , 6 
Interpretação: podemos afirmar com 95% de confiança, que para valor de população
igual a 65,4 e renda igual a 17,6, a venda média está entre 185,29 e 196,92.
Importante: os consultores da empresa consideram este intervalo preciso para seus
objetivos.
52
Intervalo de predição: desejam predizer as vendas para duas novas cidades com
as seguintes características:
Cidade A: População (Xh1)=65,4 Renda (Xh2)=17,6
Cidade B: População (Xh1)=53,1 Renda (Xh2)=17,7
Cidade A
As duas cidades apresentam
características dentro dos
padrões da amostra estudada.
Cidade B
Interpretação: as vendas estão dentro dos intervalos acima. A precisão dos
intervalos deixa à desejar. Intervalos mais precisos seriam necessários, pode-se
pensar em outras variáveis regressoras para entrar no modelo. Observe que
valor de R2 alto não significa boas predições.
53
Medidas Remediadoras
 Usar modelo apropriado
 Usar transformações ( na variável resposta ou na variável preditora (quando
os efeitos são curvelíneos, redução do efeito de interação)
NOTA: fazer lista de exercícios número 6.
54