Aula 9. Regressão Linear Simples.
2
Qualidade de modelo 𝑅
1. C.Dougherty “Introduction to Econometrics”
2. Capítulo 16. Bussab&Morettin “Estatística Básica” 7ª Edição
amostra
x
x1 x2
,
, , n
yn
y1 y2
população
Modelo – relação entre
variável x e y
y = F(x) ?
termo de perturbação
– parte aleatória do modelo
y 


x


Modelo: F(x) é simples linear
parte não aleatória
termo de perturbação
– omissão de variável explicative
– agregação de variáveis
– espicificação incorreta do modelo
– espicificação incorreta de dependência funcional
– erros de medição
Estimação de parâmetros. Método de mínimos quadrados
y
xn
x1 x2
,
, ,
yn
y1 y2
y1
observações
objeto de estudo,
por exemplo
x é renda familiar
y é gasto em alimentos
y2
y
?
x2
x1
x
?
y    x
mas parâmetros são desconhecidos
x
Estimação de parâmetros. Método de mínimos quadrados
verdadeiro
estimação
como?
y    x
ˆ  a  bx
y
y
ˆ  a  bx
y
yi
ei  yi  yˆi  yi  (a  bxi )
yˆi
desvio (erro)
ideia – minimirar soma total dos erros
realizamos – minimizar soma total de quadrados dos erros
n
xi
n
2
ˆ
e

(
y

y
)

 i i 
x
2
i
i 1
n
i 1
  ( yi  (a  bxi ))2  SS(a, b)  min
i 1
Estimação de parâmetros. Método de mínimos quadrados
SS(a, b)  min
achar a e b tais que SS(a, b) possue o valor minimo possível
(a, b)  arg min SS (a, b)
( a ,b )
 SS(a, b)
0

a
 SS(a, b)

0
b

n
SS(a, b)   ( yi  (a  bxi ))2
n

 2 ( yi  (a  bxi ))  0


i 1

n
 2 xi ( yi  (a  bxi ))  0

i 1

n
n

yi  na  b xi



i 1
i 1
 n
n
n
 xi yi  a  xi  b xi2

i 1
i 1
 i 1
i 1
 n
( yi  (a  bxi ))  0


 i 1
 n
 xi ( yi  (a  bxi ))  0

 i 1
y  a  bx
n
b
x y
i 1
n
i
i
 nx y
2
2
x

n
x
 i
i 1
Estimação de parâmetros. Método de mínimos quadrados
y  a  bx
n
b
x y
i 1
n
i
x
i 1
2
i
i
 nx y
 nx 2
1 n
Cov ( x, y )   xi yi  x y  xy  x  y
n i 1
1 n 2
n 1 2
2
2
2
Var ( x)   xi  nx  x  x 
s
n i 1
n
a  y  bx
Cov( x, y )
b
Var ( x )
Estimação de parâmetros. Método de mínimos quadrados
Media de x e a média de y estão na reta de regressão:
y
yˆ  a  bx
a  bx  ( y  bx )  bx  y
y
x
x
Interpretação de equação de regressão
verdadeiro
y    x
estimação
ˆ  a  bx
y
FOOD = 53.044 + 0.097 DPI
FOODnew = 53.044 + 0.097 (DPI+1) = FOOD + 0.097 literalmente, o coeficiente de
Inclinação significa que se x aumenta em uma unidade então y aumenta em 0.097
As duas variável são em $billion, por isso se a renda aumenta em 1$billion então gasto
em alimentos aumenta em média em 97$milhões. Em outras palavras, para cada
aumento da renda em 1$ o gasto em alimentos aumenta em 9.7 cents.
Constante? Literalmente, ela mostra o valor do y quando x = 0. As vezes isso pode
levar a alguma interpretação adequada, mas não nesse caso.
Modelo estatístico
y    x  
parte aleatória do modelo
Gauss-Markov conditions
1. 𝐸[𝜀𝑖 ] = 0 para todos os 𝑖 = 1, … , 𝑛
2. 𝐷[𝜀𝑖 ] = 𝜎2 para todos os 𝑖 = 1, … , 𝑛 (homoscedasticidade)
3. 𝜀𝑖 são independentes 𝑐𝑜𝑣(𝜀𝑖 , 𝜀𝑗) = 0 para todos os 𝑖 ≠ 𝑗
4. 𝜀𝑖 não depende do 𝑥𝑖 são independentes – termo de perturbação não depende
de variáveis explicativas
OBS: em curso vamos considerar 𝑥 como constante
5. 𝜀𝑖 tem distribuição normal
1. 𝜀𝑖 são i.i.d. 𝜀𝑖 ≈ 𝑁(0, 𝜎2)
2. 𝜀 e 𝑥 são independentes
Propriedades estatísticas de coeficientes
𝑎 e 𝑏 são não viesados:
Cov( x,  )  Cov( x, x)  Cov( x,  )
Cov( x, y ) Cov( x,   x   )


b
Var ( x)
Var ( x)
Var ( x)
Cov( x,  )  0 Cov( x, x)  Cov( x, x)  Var( x)

Var ( x)  Cov( x,  )
Var ( x)

Cov( x,  )
Var ( x)

 Cov( x,  ) 
Cov( x,  ) 
E[Cov( x,  )]
E[b]  E  
   E




Var ( x) 
Var ( x)

 Var( x) 
1  n
 1 n
E[Cov( x,  )]  E  xi i  nx    xi E[ i ]  nx E[ ]  0
n  i 1
 n i 1
EX.DOMÉSTICO: provar que a não viesado
Propriedades estatísticas de coeficientes
 2 
x2 
D[ a ] 
1 

n  Var ( x) 
D[b] 
 2
nVar( x)
como estimar a variância de termo de perturbação?
e  (e1 , e2 ,, en ) ei  yi  yˆi  yi  (a  bxi )
um candidato para estimar e é
1 n
1 n 2
2
Var (e)   (ei  e )   ei
n i 1
n i 1
1 n
1 n
e   ei   ( yi  a  bxi )  y  a  bx  y  ( y  bx )  bx  0
n i 1
n i 1
n2 2
  sub-estima a variação verdareira
n
n
2
se 
Var (e) não viesado
n2
Mas Var(e) é viesado: E[Var (e)] 
s.e.(a) 
s2
n

x2 
1 

Var
(
x
)


s.e.(b) 
s2
nVar( x)
Propriedades estatísticas de coeficientes
 2 
x2 
D[ a ] 
1 

n  Var ( x) 
s.e.(a) 
s2
n

x2 
1 

Var
(
x
)


D[b] 
s.e.(b) 
menor σ2 →
menor variação de b
maior Var(x) →
menor variação de b
 2
nVar( x)
s2
nVar( x)
Propriedades estatísticas de coeficientes
a 
 tn2
s.e.(a )
b
 tn2
s.e.(b)
Teste de hipótese
FOOD = 53.044 + 0.097 DPI
(s.e.) (3.48) (0.0043)
𝑎 e 𝑏 são estatisticamente significados?
H0 :   0
A :  0
estatística do teste é
0.097
b
b

 22.6
t

0.0043
s.e.(a )
s.e.(b)
graus de liberdade 𝑛 – 2 = 25 – 2 = 23
valor critico de 5% bilateral é 2.069
Teste de hipótese
saida do programa R
www.r-project.org
Call:
lm(formula = x$FOOD ~ x$DPI)
Residuals:
Min
1Q
Median 3Q
Max
-8.2976 -1.3975 0.3045 0.9550 10.1591
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 53.043771 3.481715 15.23 1.65e-13 ***
x$DPI
0.097104 0.004381 22.16 < 2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.061 on 23 degrees of freedom
Multiple R-squared: 0.9553, Adjusted R-squared: 0.9533
F-statistic: 491.2 on 1 and 23 DF, p-value: < 2.2e-16
Teste de hipótese
depende da taxa percentual
Supomos que taxa percentual da inflação de preços p
 de accordo com o modelo linear:
da inflação salarial w
    w
 
p
Nos podemos supor tambem que na realidade a taxa pecentual da inflação de
preços é igual à taxa percentual da inflação salarial.
H0 :   1
A :  1
Em estudo longo de 20 anos (20 observações) o modelo de regressão obtida é
   1.21  0.82w

p
( s.e.)
(0.05)
(0.10)
estatística do teste correspondente nesse caso é
b
0.82  1.00
t

 1.8
s.e.(a)
0.10
graus de liberade n – 2 = 20 – 2 = 18 e o valor crítico é 2.101
população
x 
 x1   x2 
 ,  ,  ,  n 
 y1   y 2 
 yn 
ESTIMAÇÂODE MODELO
yˆ  a  bx
MODELO
y    x  
qualidade de modelo é a significância de coeficientes a e b
qualidade de modelo “inteiro” em “total” ?
podemos analizar variação de dados
– se o modelo explica bem a variação total de dados
ANOVA e qualidade de ajuste (goodness of fit) R2
ANOVA, e qualidade de ajuste (goodness of fit) R2
variação total:
n
SSTotal   ( yi  y ) 2
SSTotal
i 1

SSR eg
variação de dados ajustados:
n
SSR eg   ( yˆ i  y ) 2

i 1
variação “não explicada”, erro:
n
n
i 1
i 1
SSErro   ei2   ( yi  yˆ i ) 2
n
?
SSErro
n
SSTotal   ( yi  y )   ( yi  yˆ i  yˆ i  y ) 2
2
i 1
n
i 1

  ( yi  yˆ i ) 2  ( yˆ i  y ) 2  2( yi  yˆ i )( yˆ i  y )
i 1
n
n
n

  ( yi  yˆ i )   ( yˆ i  y )  2 ( yi  yˆ i )( yˆ i  y )
2
i 1
2
i 1
i 1
n
 SSErro  SSReg  2 ( yi  yˆ i )( yˆ i  y )
i 1
ANOVA, e qualidade de ajuste (goodness of fit) R2
1 n
( yi  yˆ i )( yˆ i  y )  Cov(e, yˆ )

n i 1
n
(y
i
i 1
n
n
n
i 1
i 1
i 1
 yˆ i )( yˆ i  y )   ei ( yˆ i  y )   ei yˆ i  y  ei
n
n
n
n
n
i 1
i 1
i 1
i 1
i 1
  ei yˆ i   ei (a  bxi )   ei a  b ei xi  b ei xi
n
e x
i 1
i
i
n
n
n
n
i 1
i 1
n
i 1
i 1
  ( yi  a  bxi ) xi   yi xi  a  xi  b xi2
n
n
  yi xi  ( y  bx ) xi  b x
i 1
n
i 1
n
i 1
n
2
i
n
  yi xi  y x n  bx n  b xi2
2
i 1
i 1


  yi xi  y xn  b  xi2  x 2 n   nCov( y, x)  bnVar( x)
i 1
 i 1



Cov( y, x)
Var( x)   0
 nCov( y, x)  bVar( x)   n Cov( y, x) 
Var( x)


n
(y
i 1
i
 yˆ i )( yˆ i  y )  0
ou
Cov(e, yˆ )  0
ANOVA, e qualidade de ajuste (goodness of fit) R2
n número de observações
Tabela ANOVA para modelo de regressão
k numero de parâmtros
causas de graus de
soma
variação liberades quadrados
quadrados
médios
F-estatística
nível
descritivo
MSSReg
MSSErro
p
Regressão
k -1
SSReg
MSSReg=SSReg/(k-1)
Resíduo
n-k
SSErro
MSSErro=SSErro/(n - k)
Total
n -1
SSTotal
MSSR eg
MSSErro
 Fk 1,n  k
Tabela ANOVA para modelo de regressão caso k=2
causas de graus de
soma
variação liberades quadrados
Regressão
1
SSReg
Resíduo
n-2
SSErro
Total
n -1
SSTotal
quadrados
médios
MSSReg=SSReg
SSErro/(n - 2)=s2e
F-estatística
SSReg
s2e
nível
descritivo
p
ANOVA, e qualidade de ajuste (goodness of fit) R2
Tambem podemos medir o lucro relativo que se ganha ao introduzir o modelo,
usando a estatística que chama se coeficiente de determinação (coefficient of determination)
R 
2
SSR eg
SSTotal
F estatistica de análise de variância pode ser representada em modo alternativo
F
MSSR eg
MSSErro

SSR eg /(k  1)
SSErro /(n  k )

( SSR eg / SSTotal ) /(k  1)
( SSErro / SSTotal ) /(n  k )
R 2 /(k  1)
F
 Fk 1,n k
2
(1  R ) /(n  k )
em caso k = 2
R2
F
 F1,n2
2
(1  R ) /(n  2)
ANOVA, e qualidade de ajuste (goodness of fit) R2
saida do programa R
www.r-project.org
Call:
lm(formula = x$FOOD ~ x$DPI)
Residuals:
Min
1Q
Median 3Q
Max
-8.2976 -1.3975 0.3045 0.9550 10.1591
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 53.043771 3.481715 15.23 1.65e-13 ***
x$DPI
0.097104 0.004381 22.16 < 2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.061 on 23 degrees of freedom
Multiple R-squared: 0.9553, Adjusted R-squared: 0.9533
F-statistic: 491.2 on 1 and 23 DF, p-value: < 2.2e-16
F=23*R2/(1-R2)=23*0.9553/(1-0.9553)=491.5414
R-squared: 0.9552744
F=23*R2/(1-R2)=23*0.9552744/(1-0.9552744)=491.2469
Teste de hipóteses
Qual hipótese testa
F-estatística (ANOVA)?
t-estatística?
H0 :   0
H0 :   0
A:   0
A:   0
testes tem que ser equivalentes
F  t2
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 53.043771 3.481715 15.23 1.65e-13 ***
x$DPI
0.097104 0.004381 22.16 < 2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.061 on 23 degrees of freedom
Multiple R-squared: 0.9553, Adjusted R-squared: 0.9533
F-statistic: 491.2 on 1 and 23 DF, p-value: < 2.2e-16
22.162=491.1
Modelos não lineares que podem ser estimados atraves de regressão linear
Transformação básica:
y    f (x)  
z  f (x)
consumo anual de bananas (y)
salario anual (x) foram oservadas 10 familias
y = 5.09 + 0.73 x
(s.e.) (1.23) (0.20)
R2 = 0.64
coeficiente estao significantes
construimos gráfico:
y    z  
Modelos não lineares que podem ser estimados atraves de regressão linear
z=1/x
y = 5.09 + 0.73 x
(s.e.) (1.23) (0.20)
R2 = 0.64
y = 12.08 - 10.08 z
(s.e.) (0.04) (0.12)
R2 = 0.9989
Modelos não lineares que podem ser estimados atraves de regressão linear
Transformação logaritmica.
y   x 
ln y  ln    ln x  ln
y  ln y
x´ ln x
y´  ´  x´
  ln  N (0,  2 )
se a elasticidade de y ao respeito de x é constante, entao usaremos a função
potência.
Elasticidade de y ao respeito da variável x é, pela definição,
incremento proporcional de y pelo dado incremento proporcional de x
 ( y / x)
dy / dx x  1
dy / y


Elast . 


y/x
dx / x
y/x
y/x
Modelos não lineares que podem ser estimados atraves de regressão linear
Transformação logaritmica.
para o periodo 1959-1983 in EU a curva de Engel foi aplicada para gastos em
alimentos (y) em relação ao salario (x). A regressão realizada é
ln y = 1.20 + 0.55 ln x
transformando pela função potência temos
y = e1.20 x0.55 = 3.32 x0.55
esse resultado sugere que elasticidade de demanda de alimentos em relacão
ao salario é 0.55, o que significa que aumento em 1% de salario leva ao aumento
de demanda de alimentos em 0.55%.
Fator multiplicativo 3.32 não tem a interpretação direta. Esse valor ajuda prever
o valor de y quando valor do x é dado
Modelos não lineares que podem ser estimados atraves de regressão linear
Trend exponencial.
y   e x
y   er t
ln y  ln  rt  ln
y´ ´ rt  
Incremento absoluto em y pela unidade de tempo é dada por
dy
  r e r t  ry
dt
Incremento proporcional em y pela unidade de tempo é dada por
dy / dt ry

r
y
y
Incremento proporcional em y pela unidade de tempo (taxa) é constante
Modelos não lineares que podem ser estimados atraves de regressão linear
Trend exponencial.
para o periodo 1959-1983 in EU a curva de trendo exponencial foi aplicada para
gastos em alimentos (y). A regressão realizada é
ln y = 4.58 + 0.02 T
transformando pela função potência temos
y = e4.58 e0.02 T = 97.5 e0.02 T
esse resultado sugere que os gastos em alimentos cresce com a taxa de 2% ao ano
desta vez constante pode ter interpretação: ela mostra quanto foi gasto em alimentos
em ano calendario 1958 (o que corresponde T = 0) que deu $97.5 bilhões.
Referencias:
C.Dougherty’s course internet access:
http://econ.lse.ac.uk/courses/ec220/G/ieppt/series2/
Download

Aula 9 - IME-USP