Aula 9. Regressão Linear Simples. 2 Qualidade de modelo 𝑅 1. C.Dougherty “Introduction to Econometrics” 2. Capítulo 16. Bussab&Morettin “Estatística Básica” 7ª Edição amostra x x1 x2 , , , n yn y1 y2 população Modelo – relação entre variável x e y y = F(x) ? termo de perturbação – parte aleatória do modelo y x Modelo: F(x) é simples linear parte não aleatória termo de perturbação – omissão de variável explicative – agregação de variáveis – espicificação incorreta do modelo – espicificação incorreta de dependência funcional – erros de medição Estimação de parâmetros. Método de mínimos quadrados y xn x1 x2 , , , yn y1 y2 y1 observações objeto de estudo, por exemplo x é renda familiar y é gasto em alimentos y2 y ? x2 x1 x ? y x mas parâmetros são desconhecidos x Estimação de parâmetros. Método de mínimos quadrados verdadeiro estimação como? y x ˆ a bx y y ˆ a bx y yi ei yi yˆi yi (a bxi ) yˆi desvio (erro) ideia – minimirar soma total dos erros realizamos – minimizar soma total de quadrados dos erros n xi n 2 ˆ e ( y y ) i i x 2 i i 1 n i 1 ( yi (a bxi ))2 SS(a, b) min i 1 Estimação de parâmetros. Método de mínimos quadrados SS(a, b) min achar a e b tais que SS(a, b) possue o valor minimo possível (a, b) arg min SS (a, b) ( a ,b ) SS(a, b) 0 a SS(a, b) 0 b n SS(a, b) ( yi (a bxi ))2 n 2 ( yi (a bxi )) 0 i 1 n 2 xi ( yi (a bxi )) 0 i 1 n n yi na b xi i 1 i 1 n n n xi yi a xi b xi2 i 1 i 1 i 1 i 1 n ( yi (a bxi )) 0 i 1 n xi ( yi (a bxi )) 0 i 1 y a bx n b x y i 1 n i i nx y 2 2 x n x i i 1 Estimação de parâmetros. Método de mínimos quadrados y a bx n b x y i 1 n i x i 1 2 i i nx y nx 2 1 n Cov ( x, y ) xi yi x y xy x y n i 1 1 n 2 n 1 2 2 2 2 Var ( x) xi nx x x s n i 1 n a y bx Cov( x, y ) b Var ( x ) Estimação de parâmetros. Método de mínimos quadrados Media de x e a média de y estão na reta de regressão: y yˆ a bx a bx ( y bx ) bx y y x x Interpretação de equação de regressão verdadeiro y x estimação ˆ a bx y FOOD = 53.044 + 0.097 DPI FOODnew = 53.044 + 0.097 (DPI+1) = FOOD + 0.097 literalmente, o coeficiente de Inclinação significa que se x aumenta em uma unidade então y aumenta em 0.097 As duas variável são em $billion, por isso se a renda aumenta em 1$billion então gasto em alimentos aumenta em média em 97$milhões. Em outras palavras, para cada aumento da renda em 1$ o gasto em alimentos aumenta em 9.7 cents. Constante? Literalmente, ela mostra o valor do y quando x = 0. As vezes isso pode levar a alguma interpretação adequada, mas não nesse caso. Modelo estatístico y x parte aleatória do modelo Gauss-Markov conditions 1. 𝐸[𝜀𝑖 ] = 0 para todos os 𝑖 = 1, … , 𝑛 2. 𝐷[𝜀𝑖 ] = 𝜎2 para todos os 𝑖 = 1, … , 𝑛 (homoscedasticidade) 3. 𝜀𝑖 são independentes 𝑐𝑜𝑣(𝜀𝑖 , 𝜀𝑗) = 0 para todos os 𝑖 ≠ 𝑗 4. 𝜀𝑖 não depende do 𝑥𝑖 são independentes – termo de perturbação não depende de variáveis explicativas OBS: em curso vamos considerar 𝑥 como constante 5. 𝜀𝑖 tem distribuição normal 1. 𝜀𝑖 são i.i.d. 𝜀𝑖 ≈ 𝑁(0, 𝜎2) 2. 𝜀 e 𝑥 são independentes Propriedades estatísticas de coeficientes 𝑎 e 𝑏 são não viesados: Cov( x, ) Cov( x, x) Cov( x, ) Cov( x, y ) Cov( x, x ) b Var ( x) Var ( x) Var ( x) Cov( x, ) 0 Cov( x, x) Cov( x, x) Var( x) Var ( x) Cov( x, ) Var ( x) Cov( x, ) Var ( x) Cov( x, ) Cov( x, ) E[Cov( x, )] E[b] E E Var ( x) Var ( x) Var( x) 1 n 1 n E[Cov( x, )] E xi i nx xi E[ i ] nx E[ ] 0 n i 1 n i 1 EX.DOMÉSTICO: provar que a não viesado Propriedades estatísticas de coeficientes 2 x2 D[ a ] 1 n Var ( x) D[b] 2 nVar( x) como estimar a variância de termo de perturbação? e (e1 , e2 ,, en ) ei yi yˆi yi (a bxi ) um candidato para estimar e é 1 n 1 n 2 2 Var (e) (ei e ) ei n i 1 n i 1 1 n 1 n e ei ( yi a bxi ) y a bx y ( y bx ) bx 0 n i 1 n i 1 n2 2 sub-estima a variação verdareira n n 2 se Var (e) não viesado n2 Mas Var(e) é viesado: E[Var (e)] s.e.(a) s2 n x2 1 Var ( x ) s.e.(b) s2 nVar( x) Propriedades estatísticas de coeficientes 2 x2 D[ a ] 1 n Var ( x) s.e.(a) s2 n x2 1 Var ( x ) D[b] s.e.(b) menor σ2 → menor variação de b maior Var(x) → menor variação de b 2 nVar( x) s2 nVar( x) Propriedades estatísticas de coeficientes a tn2 s.e.(a ) b tn2 s.e.(b) Teste de hipótese FOOD = 53.044 + 0.097 DPI (s.e.) (3.48) (0.0043) 𝑎 e 𝑏 são estatisticamente significados? H0 : 0 A : 0 estatística do teste é 0.097 b b 22.6 t 0.0043 s.e.(a ) s.e.(b) graus de liberdade 𝑛 – 2 = 25 – 2 = 23 valor critico de 5% bilateral é 2.069 Teste de hipótese saida do programa R www.r-project.org Call: lm(formula = x$FOOD ~ x$DPI) Residuals: Min 1Q Median 3Q Max -8.2976 -1.3975 0.3045 0.9550 10.1591 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 53.043771 3.481715 15.23 1.65e-13 *** x$DPI 0.097104 0.004381 22.16 < 2e-16 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 4.061 on 23 degrees of freedom Multiple R-squared: 0.9553, Adjusted R-squared: 0.9533 F-statistic: 491.2 on 1 and 23 DF, p-value: < 2.2e-16 Teste de hipótese depende da taxa percentual Supomos que taxa percentual da inflação de preços p de accordo com o modelo linear: da inflação salarial w w p Nos podemos supor tambem que na realidade a taxa pecentual da inflação de preços é igual à taxa percentual da inflação salarial. H0 : 1 A : 1 Em estudo longo de 20 anos (20 observações) o modelo de regressão obtida é 1.21 0.82w p ( s.e.) (0.05) (0.10) estatística do teste correspondente nesse caso é b 0.82 1.00 t 1.8 s.e.(a) 0.10 graus de liberade n – 2 = 20 – 2 = 18 e o valor crítico é 2.101 população x x1 x2 , , , n y1 y 2 yn ESTIMAÇÂODE MODELO yˆ a bx MODELO y x qualidade de modelo é a significância de coeficientes a e b qualidade de modelo “inteiro” em “total” ? podemos analizar variação de dados – se o modelo explica bem a variação total de dados ANOVA e qualidade de ajuste (goodness of fit) R2 ANOVA, e qualidade de ajuste (goodness of fit) R2 variação total: n SSTotal ( yi y ) 2 SSTotal i 1 SSR eg variação de dados ajustados: n SSR eg ( yˆ i y ) 2 i 1 variação “não explicada”, erro: n n i 1 i 1 SSErro ei2 ( yi yˆ i ) 2 n ? SSErro n SSTotal ( yi y ) ( yi yˆ i yˆ i y ) 2 2 i 1 n i 1 ( yi yˆ i ) 2 ( yˆ i y ) 2 2( yi yˆ i )( yˆ i y ) i 1 n n n ( yi yˆ i ) ( yˆ i y ) 2 ( yi yˆ i )( yˆ i y ) 2 i 1 2 i 1 i 1 n SSErro SSReg 2 ( yi yˆ i )( yˆ i y ) i 1 ANOVA, e qualidade de ajuste (goodness of fit) R2 1 n ( yi yˆ i )( yˆ i y ) Cov(e, yˆ ) n i 1 n (y i i 1 n n n i 1 i 1 i 1 yˆ i )( yˆ i y ) ei ( yˆ i y ) ei yˆ i y ei n n n n n i 1 i 1 i 1 i 1 i 1 ei yˆ i ei (a bxi ) ei a b ei xi b ei xi n e x i 1 i i n n n n i 1 i 1 n i 1 i 1 ( yi a bxi ) xi yi xi a xi b xi2 n n yi xi ( y bx ) xi b x i 1 n i 1 n i 1 n 2 i n yi xi y x n bx n b xi2 2 i 1 i 1 yi xi y xn b xi2 x 2 n nCov( y, x) bnVar( x) i 1 i 1 Cov( y, x) Var( x) 0 nCov( y, x) bVar( x) n Cov( y, x) Var( x) n (y i 1 i yˆ i )( yˆ i y ) 0 ou Cov(e, yˆ ) 0 ANOVA, e qualidade de ajuste (goodness of fit) R2 n número de observações Tabela ANOVA para modelo de regressão k numero de parâmtros causas de graus de soma variação liberades quadrados quadrados médios F-estatística nível descritivo MSSReg MSSErro p Regressão k -1 SSReg MSSReg=SSReg/(k-1) Resíduo n-k SSErro MSSErro=SSErro/(n - k) Total n -1 SSTotal MSSR eg MSSErro Fk 1,n k Tabela ANOVA para modelo de regressão caso k=2 causas de graus de soma variação liberades quadrados Regressão 1 SSReg Resíduo n-2 SSErro Total n -1 SSTotal quadrados médios MSSReg=SSReg SSErro/(n - 2)=s2e F-estatística SSReg s2e nível descritivo p ANOVA, e qualidade de ajuste (goodness of fit) R2 Tambem podemos medir o lucro relativo que se ganha ao introduzir o modelo, usando a estatística que chama se coeficiente de determinação (coefficient of determination) R 2 SSR eg SSTotal F estatistica de análise de variância pode ser representada em modo alternativo F MSSR eg MSSErro SSR eg /(k 1) SSErro /(n k ) ( SSR eg / SSTotal ) /(k 1) ( SSErro / SSTotal ) /(n k ) R 2 /(k 1) F Fk 1,n k 2 (1 R ) /(n k ) em caso k = 2 R2 F F1,n2 2 (1 R ) /(n 2) ANOVA, e qualidade de ajuste (goodness of fit) R2 saida do programa R www.r-project.org Call: lm(formula = x$FOOD ~ x$DPI) Residuals: Min 1Q Median 3Q Max -8.2976 -1.3975 0.3045 0.9550 10.1591 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 53.043771 3.481715 15.23 1.65e-13 *** x$DPI 0.097104 0.004381 22.16 < 2e-16 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 4.061 on 23 degrees of freedom Multiple R-squared: 0.9553, Adjusted R-squared: 0.9533 F-statistic: 491.2 on 1 and 23 DF, p-value: < 2.2e-16 F=23*R2/(1-R2)=23*0.9553/(1-0.9553)=491.5414 R-squared: 0.9552744 F=23*R2/(1-R2)=23*0.9552744/(1-0.9552744)=491.2469 Teste de hipóteses Qual hipótese testa F-estatística (ANOVA)? t-estatística? H0 : 0 H0 : 0 A: 0 A: 0 testes tem que ser equivalentes F t2 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 53.043771 3.481715 15.23 1.65e-13 *** x$DPI 0.097104 0.004381 22.16 < 2e-16 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 4.061 on 23 degrees of freedom Multiple R-squared: 0.9553, Adjusted R-squared: 0.9533 F-statistic: 491.2 on 1 and 23 DF, p-value: < 2.2e-16 22.162=491.1 Modelos não lineares que podem ser estimados atraves de regressão linear Transformação básica: y f (x) z f (x) consumo anual de bananas (y) salario anual (x) foram oservadas 10 familias y = 5.09 + 0.73 x (s.e.) (1.23) (0.20) R2 = 0.64 coeficiente estao significantes construimos gráfico: y z Modelos não lineares que podem ser estimados atraves de regressão linear z=1/x y = 5.09 + 0.73 x (s.e.) (1.23) (0.20) R2 = 0.64 y = 12.08 - 10.08 z (s.e.) (0.04) (0.12) R2 = 0.9989 Modelos não lineares que podem ser estimados atraves de regressão linear Transformação logaritmica. y x ln y ln ln x ln y ln y x´ ln x y´ ´ x´ ln N (0, 2 ) se a elasticidade de y ao respeito de x é constante, entao usaremos a função potência. Elasticidade de y ao respeito da variável x é, pela definição, incremento proporcional de y pelo dado incremento proporcional de x ( y / x) dy / dx x 1 dy / y Elast . y/x dx / x y/x y/x Modelos não lineares que podem ser estimados atraves de regressão linear Transformação logaritmica. para o periodo 1959-1983 in EU a curva de Engel foi aplicada para gastos em alimentos (y) em relação ao salario (x). A regressão realizada é ln y = 1.20 + 0.55 ln x transformando pela função potência temos y = e1.20 x0.55 = 3.32 x0.55 esse resultado sugere que elasticidade de demanda de alimentos em relacão ao salario é 0.55, o que significa que aumento em 1% de salario leva ao aumento de demanda de alimentos em 0.55%. Fator multiplicativo 3.32 não tem a interpretação direta. Esse valor ajuda prever o valor de y quando valor do x é dado Modelos não lineares que podem ser estimados atraves de regressão linear Trend exponencial. y e x y er t ln y ln rt ln y´ ´ rt Incremento absoluto em y pela unidade de tempo é dada por dy r e r t ry dt Incremento proporcional em y pela unidade de tempo é dada por dy / dt ry r y y Incremento proporcional em y pela unidade de tempo (taxa) é constante Modelos não lineares que podem ser estimados atraves de regressão linear Trend exponencial. para o periodo 1959-1983 in EU a curva de trendo exponencial foi aplicada para gastos em alimentos (y). A regressão realizada é ln y = 4.58 + 0.02 T transformando pela função potência temos y = e4.58 e0.02 T = 97.5 e0.02 T esse resultado sugere que os gastos em alimentos cresce com a taxa de 2% ao ano desta vez constante pode ter interpretação: ela mostra quanto foi gasto em alimentos em ano calendario 1958 (o que corresponde T = 0) que deu $97.5 bilhões. Referencias: C.Dougherty’s course internet access: http://econ.lse.ac.uk/courses/ec220/G/ieppt/series2/