Regressão Múltipla
• Predizer valores de uma variável dependente
(Y)
em função de várias variáveis
independentes (X1, X2, ..., Xk).
• Conhecer o quanto variações de Xj (j = 1,...,k)
podem afetar Y.
Ogliari, P. J. Técnicas estatísticas de predição
Regressão Múltipla
(X1, X2, X3)
Y
Aplicação na economia:
X1 = renda
X2 = taxa de juros
X3 = poupança
Y = consumo
Ogliari, P. J. Técnicas estatísticas de predição
Regressão Múltipla
(X1, X2, X3)
Y
Aplicação no mercado mobiliário (avaliação) :
X1 = área construída
X2 = custo do m2
X3 = localização
Ogliari, P. J. Técnicas estatísticas de predição
Y = preço do
imóvel
Regressão Múltipla
(X1, X2, X3)
Y
Aplicação na ciência da computação:
X1 = memória RAM
X2 = sistema operacional
X3 = tipo de processador
Ogliari, P. J. Técnicas estatísticas de predição
Y = tempo de
resposta
Regressão Múltipla
(X1, X2)
Y
Aplicação na ciência da computação:
X1 = disco I/O
X2 = tamanho da
memória
Y = tempo de CPU
Ogliari, P. J. Técnicas estatísticas de predição
Modelo de Regressão Linear Múltipla
• Y = 0 + 1X1 + 2X2 + ... + kXk+
•
E{Y} = f(X1, X2, ..., Xk)
• Linear:
E{Y} = 0 + 1X1 + 2X2 + ... + kXk
– onde Y, X1, ..., Xk podem representar as variáveis originais ou
transformadas.
– Admite-se que X1, ..., Xk são valores fixos e Y é uma variável
aleatória.
Ogliari, P. J. Técnicas estatísticas de predição
Modelo de Regressão Linear Múltipla
• E{Y} = 0 + 1X1 + 2X2 + ... + kXk
– O coeficiente k representa a variação esperada de Y
para cada unidade de variação em Xk (k = 1, 2, ..., k),
considerando as outras variáveis independentes fixas.
– O primeiro objetivo é estimar os coeficientes: 0, 1, 2,
..., k.
Ogliari, P. J. Técnicas estatísticas de predição
Modelo de Regressão Múltipla
AMOSTRA:
obs.
1
2
...
n
Y
y1
y2
...
yk
variáveis
X1
X2
x11
x12
x21
x22
...
...
xn1
xn2
• E{yi} = 0 + 1xi1 + 2xi2 + ... + kxik
• yi = 0 + 1xi1 + 2xi2 + ... + kxik + ei
Ogliari, P. J. Técnicas estatísticas de predição
...
...
...
...
...
Xk
x1k
x2k
...
xnk
termo
aleatório
(erro)
Modelo de Regressão Múltipla
Suposições
• yi = 0 + 1xi1 + 2xi2 + ... + kxik + ei
termo
aleatório
(erro)
• Os erros (ei) são independentes e variam
aleatoriamente
segundo
uma
distribuição
(normal) com média zero e variância constante.
Ogliari, P. J. Técnicas estatísticas de predição
Regressão Múltipla
Equação de
regressão
ajustada aos dados:
yˆ  b0  b1 X1  b2 X 2  ... bk X k
Valores preditos:
yˆi  b0  b1xi1  b2 xi 2  ... bk xik
Resíduos:
eˆi  yi  yˆi
(estimativa da
variância do se2  QME 
erro) :
n
2
1
SQE
  yi  ˆyi  
n  k  1 i 1
n  k 1
Ogliari, P. J. Técnicas estatísticas de predição
Exercício: uma empresa opera estúdios fotográficos para crianças em 7
cidades. A empresa deseja expandir seus estúdios para outras cidades
semelhantes e deseja investigar se as vendas (Y) podem ser estimadas
através do número de pessoas com 16 anos ou menos (X1) e a renda per
capita na cidade (X2). Os resultados foram:
Ogliari, P. J. Técnicas estatísticas de predição
• Escreva o modelo de regressão linear.
• Mostre a matriz X, os vetores Y e  para os dados do
exercício.
• Encontre as estimativas dos parâmetros do modelo.
• Apresente a função de regressão estimada.
• Faça a interpretação das estimativas dos parâmetros
do modelo.
• Encontre os valores estimados (preditos) e os resíduos.
• Calcule a estimativa da variância do erro.
SQE  Y 'Y  b' X 'Y  e 'e
se2  QME 
Ogliari, P. J. Técnicas estatísticas de predição
SQE
n  k 1
Análise de variância
Soma de quadrados e quadrados médios
SQTotal  Y ' Y  C
com n - 1 graus de liberdade
SQRegressão b' X 'Y  C
com k graus de liberdade
SQErro  Y 'Y  b' X 'Y com n - k - 1 graus de liberdade
1 '
C   Y JY
n
Os quadrados médios são dados por:
SQRegressã
o
QMRegressão 
k
SQErro
QMErro 
n  k 1
Ogliari, P. J. Técnicas estatísticas de predição
Tabela da análise de variância – Tabela da ANOVA
Variações no
modelo
Regressão
Erro
Total
GL
K
SQ
QM
SQR SQR/(K)
n-k-1 SQE SQE/(N-K-1)
n-1
SQT
Ogliari, P. J. Técnicas estatísticas de predição
F*
QMR/QME
• Exercício
– Com os dados das empresas de estúdios fotográficos
obter as somas de quadrados da ANOVA.
– Fazer a tabela da ANOVA com a razão F*.
Ogliari, P. J. Técnicas estatísticas de predição
Teste F para regressão
Hipóteses em teste:
H 0 : 1  2  ...  k  0
H a : pelo m enosum  j é diferentede zero.
A estatística de teste é dada por:
QMRegressã
o
F 
QMErro
*
Se F* > F(; k, n-k-1), rejeitamos a hipótese nula, caso contrário, não
rejeitamos a hipótese. Não devemos esquecer de usar o valor p.
Ogliari, P. J. Técnicas estatísticas de predição
• Exercício
– Fazer o teste F da ANOVA para os dados da empresa
de estúdio fotográfico. Interpretar o resultado.
Ogliari, P. J. Técnicas estatísticas de predição
Medida do Ajuste
Coeficiente de determinação (R2)
R2 =
Variação
explicada
Variação
total
=
SQRegressão
SQTotal
0  R2  1
Mede a redução da variabilidade total de Y associada
com o uso conjunto de variáveis independentes.
Ogliari, P. J. Técnicas estatísticas de predição
Medida do Ajuste
• Como R2 aumenta com a adição de variáveis explanatórias,
sugere-se utilizar o coeficiente de determinação ajustado
(corrigido) para os graus de liberdade. O coeficiente de
determinação ajustado é dado por:
Ra2  1 
SQErro
n  k 1
SQTotal
n 1


SQErro
n

1
 1
n  k 1 SQTotal
Ogliari, P. J. Técnicas estatísticas de predição
• Exercício
– Calcule o coeficiente de determinação R2 e R2a para os
dados da empresa de estúdios fotográficos. Fazer a
interpretação dos coeficientes.
Ogliari, P. J. Técnicas estatísticas de predição
Regressão Múltipla:
teste sobre um particular coeficiente
H0: j = 0
H1:j  0
j=0, 1, 2, ....,k
A estatística do teste é dada por:
t 
*
bj
se c

bj
DPb j 
onde c é o (j+1)-ésimo elemento da diagonal principal da
matriz C = (X’X)-1 e se = (QMErro)1/2. DP(bj) é o desvio
padrão de bj.
Ogliari, P. J. Técnicas estatísticas de predição
Sob H0 e considerando as suposições do modelo, a
estatística t tem distribuição t de student com g.l. = n-k-1
Critério do teste:
Se |t* |>t(/2;n-k-1), rejeita-se a hipótese nula, caso
contrário não rejeita-se a mesma.
Ogliari, P. J. Técnicas estatísticas de predição
Regressão Múltipla:
cálculo do desvio padrão de um particular
coeficiente
147,9324 0,39891  10,1465
1
t
C  X X   0,39891 0,001782  0,02983
 10,1465  0,02983 0,705037


QME = 105,0323
Ogliari, P. J. Técnicas estatísticas de predição
Var b0   105,0323*147,9324 15.537,68
Var b1   105,0323* 0,001782 0,19
Var b2   105,0323* 0,705037 74,05
DPb0   15.537,68  124,65
DPb1   0,187194 0,43
DPb2   74,05168 8,61
Ogliari, P. J. Técnicas estatísticas de predição
• Exercício
• para o exemplo da empresa de estúdios fotográficos, teste a
hipótese para 2=0 vs a hipótese de que 2 é diferente de zero,
ao nível de significância () de 5%. Faça a interpretação.
Ogliari, P. J. Técnicas estatísticas de predição
Estimação da resposta média e predição de uma
nova observação
Intervalo de confiança para E(Yh) (a média)
Para novos valores dados de X1,X2,...,Xk, representados por:
Xh1,Xh2,...,Xh,k, a resposta média é representada por E(Yh). Vamos definir
o vetor:
 1 
X 
 h1 
Xh   . 
( k 1 ) x 1  . 


 X h ,k 


A resposta média estimada, correspondente ao vetor Xh, é dada por :
Yˆh  X 'h b
Ogliari, P. J. Técnicas estatísticas de predição
A variância estimada da resposta média é dada por:
s 2 ( Yˆh )  QMErro ( X 'h ( X ' X )1 X h )  X 'h s 2 ( b ) X h
O intervalo de confiança para a resposta média, E(Yh), é dado por:
Yˆh  t .s( Yˆh )
Exercício: suponha que o administrador deseja manter a variável renda no
modelo, encontre o intervalo de confiança.para a resposta média (venda
média) considerando Xh1=65,4 (população) e Xh2=17,6, (renda per capita)
com 95%. Faça a interpretação. Você considera que este intervalo dá
informação precisa? Utilize os seguintes resultados:

2
' 1 
s ( b )  QMErro X X  

s 2 ( Yˆh ) 




 
 s(Yˆh ) 
Ogliari, P. J. Técnicas estatísticas de predição
Limites de predição para uma nova observação Yh(novo)
Os limites de predição com confiança 1- para uma nova observação Yh(nova)
correspondente ao vetor Xh, os valores das variáveis explanatórias, são:
Yˆh  t .s( pred )
A variância do erro de predição é dado por:
s 2 ( pred )  QMErro ( 1  X 'h ( X ' X )1 X h )
Exercício: a empresa deseja predizer as vendas para uma nova cidade com as
seguintes características:
Cidade A: Xh1=53,1
Xh2=17,7
encontre o intervalo de predição com 95%. Faça a interpretação. Você considera
que este intervalo é satisfatório? Utilize os seguintes resultados:
Yˆh 
s(pred) 
t(0,05;7- 3) 
Ogliari, P. J. Técnicas estatísticas de predição
Regressão múltipla:
variáveis independentes qualitativas
• Ex1. (Neter et al. – “Applied Linear Regression Models”, 1996, p. 455)
• Variável dependente: rapidez com que um novo
seguro é adotado (número de meses);
• Variáveis independentes:
– Tamanho da firma (milhões de dólares);
– Tipo de firma (0 = comercial, 1 = capital).
Ogliari, P. J. Técnicas estatísticas de predição
Regressão múltipla:
variáveis independentes qualitativas
• Ex2. (Chatterjee, Hadi e Price – “Regression Analysis by Example”, 2000, p. 124)
• Variável dependente: salários de uma empresa;
• Variáveis independentes:
– experiência (anos de trabalho na empresa);
– cargo de gerência
(0 = não, 1 = sim);
– nível educacional
(1 = primeiro grau
2 = segundo grau
3 = superior)
Ogliari, P. J. Técnicas estatísticas de predição
Regressão múltipla:
variáveis independentes qualitativas
• As variáveis qualitativas devem entrar no modelo na forma de
variáveis indicadoras (0 e 1);
– cargo de gerência, G
(0 = não, 1 = sim)
– nível educacional, E1
(1 = primeiro grau
0 = caso contrário)
– nível educacional, E2
(1 = segundo grau
0 = caso contrário)
• E1 = 0, E2 = 0
===> superior (categoria referência)
• E1 = 1, E2 = 0
===> primeiro grau
• E1 = 0, E2 = 1
===> segundo grau
Ogliari, P. J. Técnicas estatísticas de predição
• Uma variável qualitativa com c categorias será
representada por c-1 variáveis indicadoras, cada
uma delas recebendo os valores 0 e 1.
Ogliari, P. J. Técnicas estatísticas de predição
Regressão múltipla:
variáveis independentes qualitativas
Exemplo1: o modelo é dado por:
Yi = 0 + 1Xi1 + 2Xi2+i
X i1  tamanho da firma
X i2
1 firma de capital

0 outro caso
Ogliari, P. J. Técnicas estatísticas de predição
• 2 mede o efeito diferencial do tipo de firma. Em
geral mostra quanto maior (ou menor) é a
resposta média para a classe codificada com 1 do
que a resposta média para a classe codificada
com 0, para qualquer valor dado de X1.
• O coeficiente de uma variável indicadora indica a variação
esperada em Y quando a variável indicadora muda de 0
para 1, mantendo-se as demais variáveis constantes.
– Ex: 2 é o incremento esperado no tempo médio passado pela
empresa ser do tipo capital.
Ogliari, P. J. Técnicas estatísticas de predição
Regressão múltipla:
variáveis independentes qualitativas
Exemplo2: a função de resposta é dada por:
E{Y} = 0 + 1X1 + 2G + 3E1 + 4E2
• O coeficiente de uma variável indicadora indica a variação
esperada em Y quando a variável indicadora muda de 0
para 1, mantendo-se as demais variáveis constantes.
– Ex: 2 é o incremento esperado no salário pelo indivíduo ocupar
um cargo de gerente para qualquer valor de X1 e da outra variável
preditora.
Ogliari, P. J. Técnicas estatísticas de predição
Exemplo1:
Para o exemplo de seguros, o economista estudou
10 firmas de comércio e 10 firmas de capital. Os
resultados são dados na tabela a seguir.
Ogliari, P. J. Técnicas estatísticas de predição
Firma
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
(1)
(2)
(3)
Número de Tamanho da Tipo de firma
meses
firma
Yi
Xi1
17
151 Comercial
26
92 Comercial
21
175 Comercial
30
31 Comercial
22
104 Comercial
0
277 Comercial
12
210 Comercial
19
120 Comercial
4
290 Comercial
16
238 Comercial
28
164
Capitais
15
272
Capitais
11
295
Capitais
38
68
Capitais
31
85
Capitais
21
224
Capitais
20
166
Capitais
13
305
Capitais
30
124
Capitais
14
246
Capitais
Ogliari, P. J. Técnicas estatísticas de predição
(4)
Variável
codificada
Xi2
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
1
1
Abordagem matricial (passo a passo)
 17 
 26 
 
 21 
 
30 
 22 
 
 0
12 
 
19 
4 
 
16 
Y  
28
 
15 
11 
 
38 
31 
 
 21 
 
 20 
13 
 
30 
14 
1
1

1

1
1

1
1

1
1

1
X
1

1
1

1
1

1

1
1

1
1
151 0
92 0

175 0

31 0
104 0

277 0
210 0

120 0
290 0

238 0
164 1

272 1
295 1

68 1
85 1
224 1

166 1
305 1

124 1
246 1
3637
 20
X' X  3637 796043

1949
 10
10 
1949 

10 
Y 'Y  9208
 388 
X'Y  57909 


 221
 0.3171 - 0.001286 - 0.0664 
(X'X)1  - 0.0013 7.6191E - 6 - 0.0002


- 0.0664 - 0.000199 0.2052 
Ogliari, P. J. Técnicas estatísticas de predição
33.874069 
b  ( X' X) 1 X'Y  - 0.101742 


 8.0554692
O modelo ajustado é dado por:
Yˆ  33,8741  0,1017 X1  8,0555 X 2
Ogliari, P. J. Técnicas estatísticas de predição
A figura contém a função de resposta ajustada para
cada tipo de firma, juntamente com os valores
observados
Yˆ  (33,87407  8,05547)  0,10174 X1
Yˆ  33,87407  0,10174 X1
Ogliari, P. J. Técnicas estatísticas de predição
Concluímos que a companhia de capitais tende a
adotar a inovação num tempo de aproximadamente
8 meses depois, em média, da companhia de
comércio, para qualquer tamanho de companhia.
Ogliari, P. J. Técnicas estatísticas de predição
Análise de variância
O termo da correção vale:
(Y )
n
i
2
 ( 1n )Y ' JY  7.527,2
Soma de quadrados total:
SQTO  Y 'Y  ( 1n )Y 'JY  1.680,8
Soma de quadrados da regressão:
SQR  b' X 'Y  ( 1n )Y 'JY  1.504,4133
Soma de quadrados do erro:
'
' '
SQE  Y Y  b X Y  176,38667
Ogliari, P. J. Técnicas estatísticas de predição
Ogliari, P. J. Técnicas estatísticas de predição
Estimativa da matriz de variância-covariância de b:
3637
10 
 20
s 2 (b)  QME ( X ' X ) 1  10,38 3637 796043 1949


1949
10 
 10
3.2914 - 0.0134 - 0.6896 
s 2 (b)  QME ( X ' X ) 1  - 0.0134 0.0001 - 0.0021 


- 0.6896 - 0.0021 2.1299
As estimativas dos desvios padrões das estimativas dos parâmetros
valem:
1.8142353 
s (b)   0.0088931


1.459409 
Ogliari, P. J. Técnicas estatísticas de predição
O economista decide realizar o seguinte teste de
hipótese sobre 2, ao nível de significância de 5%,
H 0 : 2  0
H1 :  2  0
Qual a conclusão do pesquisador?
8,0554
t
 5,519
1,4594
t0,05;17   2,110
Portanto, rejeita-se a hipótese nula.
Ogliari, P. J. Técnicas estatísticas de predição
Ogliari, P. J. Técnicas estatísticas de predição
Exemplo2:
Os dados são uma amostra de salários de
profissionais da computação de uma grande
empresa. O objetivo foi identificar e
quantificar as variáveis que determinam as
diferenças salariais. Os dados estão na tabela
a seguir.
Ogliari, P. J. Técnicas estatísticas de predição
Obs.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
S
13876
11608
18701
11283
11767
20872
11772
10535
12195
12313
14975
21371
19800
11417
20263
13231
12884
13245
13677
15965
12336
21352
13839
X
1
1
1
1
1
2
2
2
2
3
3
3
3
4
4
4
4
5
5
5
6
6
6
E
1
3
3
2
3
2
2
1
3
2
1
2
3
1
3
3
2
2
3
1
1
3
2
G
1
0
1
0
0
1
0
0
0
0
1
1
1
0
1
0
0
0
0
1
0
1
0
Obs.
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
S
22884
16978
14803
17404
22184
13548
14467
15942
23174
23780
25410
14861
16882
24170
15990
26330
17949
25685
27837
18838
17483
19207
19346
Ogliari, P. J. Técnicas estatísticas de predição
X
6
7
8
8
8
8
10
10
10
10
11
11
12
12
13
13
14
15
16
16
16
17
20
E
2
1
2
1
3
1
1
2
3
2
2
1
2
3
1
2
2
3
2
2
1
2
1
G
1
1
0
1
1
0
0
0
1
1
1
0
0
1
0
1
0
1
1
0
0
0
0
O modelo é dado por:
Y  0  1 X  2 E1  3E2  4G  
Avaliando-se este modelo, pode-se ver que existe
uma equação de regressão diferente para cada
combinação de escolaridade e cargo de gerência, ou
seja, temos seis equações de regressão.
Ogliari, P. J. Técnicas estatísticas de predição
Modelo
1
E
1
G
0
2
1
1
3
2
0
4
2
1
5
3
0
6
3
1
Modelo de regressão
Y  0   2   1 X  
Y   0   2   4   1 X  
Y  0  3   1 X  
Y  0  3   4   1 X  
Y  0   1 X  
Y  0   4   1 X  
Y  0  1 X  2 E1  3E2  4G  
Ogliari, P. J. Técnicas estatísticas de predição
Resultados
 o coeficiente da variável anos de experiência é
546, ou seja, a cada ano adicional de experiência é
estimado um aumento no salário de $546.
Ogliari, P. J. Técnicas estatísticas de predição
o coeficiente da variável indicadora cargo de
gerência, 4, é estimado em 6.883,5. Da tabela de
modelos interpretamos este valor como o aumento
médio no salário anual com o cargo de gerência,
independentemente do nível educacional.
 Para as variáveis de nível educacional, 2 mede o
diferencial salarial do primeiro grau relativo ao
superior e 3 mede o diferencial salarial do segundo
grau relativo ao superior.
 Pelos resultados o nível superior tem uma valor
médio de $2996 maior do que o nível de primeiro
grau, independentemente
do cargo de gerência.
Ogliari, P. J. Técnicas estatísticas de predição
 Pelos resultados o nível segundo grau tem uma
valor médio de $148 maior do que o nível
superior (esta diferença não é estatisticamente
significante).
 Estes diferenciais salariais valem para todo
valor fixo de experiência.
Ogliari, P. J. Técnicas estatísticas de predição
Ogliari, P. J. Técnicas estatísticas de predição
Ex. de regressão múltipla:
O sistema de entrega de um
distribuidor de cervejas
Pretende-se predizer o tempo (y) requerido para se
fazer um lote de entregas.
O Eng. de produção
encarregado de fazer o estudo sugere que o tempo é
influenciado fundamentalmente por dois fatores: o número
de entregas (x1) e a distância máxima (x2) que o
entregador precisa fazer por viagem.
Ogliari, P. J. Técnicas estatísticas de predição
Sistema de entrega do distribuidor de cerveja
ENTREGAS DISTANC TEMPO
(X1) (X2)
(Y)
1
10
30
24
2
15
25
27
3
10
40
29
4
20
18
31
5
25
22
25
6
18
31
33
7
12
26
26
8
14
34
28
9
16
29
31
10
22
37
39
11
24
20
33
12
17
25
30
13
13
27
25
14
30
23
42
15
24
33 Ogliari, P. J. Técnicas
40estatísticas de predição
Ex. de regressão múltipla:
O sistema de entrega de um
distribuidor de cervejas
Resumo da regressão
R² = 0,736
se2 = 3,1408
F(2,12) = 16,795
p < 0,00033
Intercepto
ENTREGAS
DISTANC
erro padrão
coef. dos coef. t(12)
p
2,311 5,857
0,877 0,153
0,455 0,146
0,700
0,000
0,009
0,394
5,732
3,106
Ogliari, P. J. Técnicas estatísticas de predição
Análise dos resíduos:
O sistema de entrega de um
distribuidor de cervejas
H
is
to
g
ra
m
ad
o
sre
s
íd
u
o
s
1
0
9
8
7
freqüência
6
5
4
3
2
1
0
-1
2
-1
0
-8
-6
-4
-2
Ogliari, P. J. Técnicas estatísticas
des
predição
re
s
íd
u
o
0
2
4
6
Análise dos resíduos:
O sistema de entrega de um
distribuidor de cervejas
4
2
0
resíduos
-2
-4
-6
-8
-1
0
-1
2
2
2
2
6
3
0
3
4
Ogliari, P. J. Técnicas v
estatísticas
der
predição
a
lo
re
sp
e
d
ito
s
3
8
4
2
Análise dos resíduos:
modelo sem o ponto discrepante
O sistema de entrega de um distribuidor de cervejas
1
5
,
1
0
,
0
5
,
Resíduos
0
0
,
-0
5
,
-1
0
,
-1
5
,
-2
0
,
-2
5
,
2
2
2
6
3
0
3
4
V
a
lo
re
sp
re
d
ito
s
3
8
Ogliari, P. J. Técnicas estatísticas de predição
4
2
4
6
Análise dos resíduos:
modelo sem o ponto discrepante
O sistema de entrega de um distribuidor de cervejas
Resumo da regressão
R²= 0,968
se2 = 1,0878
F(2,11)=168,94
p < 0,00000
Intercepto
ENTREGAS
DISTANC
Coef.
E.P.
t(11) valor p
2,92
1,00
0,38
2,03 1,44
0,05 18,35
0,05 7,39
0,179
0,000
0,000
0 de entregas) + 0,38(distância)
tempo esperado = 2,92
Ogliari,+
P. J.1,00(n
Técnicas estatísticas
de predição
Download

Regressão Múltipla