Econometria Aula 2 – 20/9/2013 1. 2. 3. 4. Exemplo da técnica MQO Hipóteses do Modelo de RLM Ajuste do Modelo Modelo Restrito Econometria 1. Exemplo da técnica MQO MQO Danielle Carusi Machado - UFF Econometria 2/2009 MQO Danielle Carusi Machado - UFF Econometria 2/2009 Resíduos Danielle Carusi Machado - UFF Econometria 2/2009 Resíduos MQO Danielle Carusi Machado - UFF Econometria 2/2009 MQO M = I- X(X’X)-1X’ Danielle Carusi Machado - UFF Econometria 2/2009 MQO Danielle Carusi Machado - UFF Econometria 2/2009 Econometria 1. Exemplo da técnica MQO Modelo de Regressão Linear Múltipla O Modelo Utilizado para estudar a relação entre uma variável dependente e uma ou mais variáveis independentes. Forma genérica do modelo de regressão linear: y = f(x1,x2,…,xK,1,2,…K) + ε = x11 + x22 + … + xKK + ε f(x1,x2,…,xK,1,2,…K) é a equação de regressão populacional de y em x1,x2,…,xK . Y é o regressando x1,x2,…,xK regressores ou controles ε é o distúrbio aleatório Danielle Carusi Machado - UFF Econometria 2/2009 Exemplo Função de consumo keynesiana Não existe uma relação determinística entre consumo e renda. C = f(X, ε) Onde ε é o elemento estocástico Como incorporar este elemento estocástico ao modelo? De forma aditiva: C = α + βX + ε Contrapartida empírica do modelo teórico de Keynes. Danielle Carusi Machado - UFF Econometria 2/2009 Exemplo Danielle Carusi Machado - UFF Econometria 2/2009 Exemplo A reta do gráfico anterior é distorcida pelo racionamento do período de guerra. Especificação mais apropriada: acomodar a natureza estocástica do dado e as circunstâncias especiais dos anos 1942-1945. Dummy que identifica este período C X wdanoguerra Danielle Carusi Machado - UFF Econometria 2/2009 Estimando o modelo de consumo Variável dependente Consumo Renda (1) (2) mqo1 mqo2 0.685** 0.858*** (0.249) (0.0853) Dummy anos de Guerra -50.69*** (5.932) Constant Observations R-squared 51.90 14.50 (80.84) (27.30) 11 11 0.457 0.946 Standard errors in parentheses *** p<0.01, ** p<0.05, * p<0.1 Danielle Carusi Machado - UFF Econometria 2/2009 Hipóteses do modelo A.1. Linearidade significa ser linear nos parâmetros. A.2. Identificação: Só existe um único conjunto de parâmetros que produz E[y|x]. A.3. Média condicional zero A.4. Forma da matriz de variância covariância A.5. Geração dos dados A.6. Hipóteses sobre a distribuição de probabilidade. Danielle Carusi Machado - UFF Econometria 2/2009 Linearidade do Modelo f(x1,x2,…,xK,1,2,…K) = x11 + x22 + … + xKK Notação: x11 + x22 + … + xKK = x. E[y|x] = 1*1 + 2*x2 + … + K*xK. (1*1 = intercepto). Danielle Carusi Machado - UFF Econometria 2/2009 Linearidade Modelo Modelo Modelo Modelo Modelo linear simples, E[y|x]=x’β Quadrático: E[y|x]= α + β1x + β2x2 Loglinear, E[lny|lnx]= α + Σk lnxkβk Semilog, E[y|x]= α + Σk lnxkβk Translog: E[lny|lnx]= α + Σk lnxkβk + (1/2) Σk Σl δkl lnxk lnxl Todos modelos são lineares e existe um infinito número de variações de modelos lineares. Danielle Carusi Machado - UFF Econometria 2/2009 Linearidade Linearidade significa ser linear nos parâmetros, não nas variáveis E[y|x] = 1 f1(…) + 2 f2(…) + … + K fK(…). fk() pode ser qq função dos dados. Exemplos: Logs Variáveis Dummy Funções quadráticas, interações, etc. Danielle Carusi Machado - UFF Econometria 2/2009 Unicidade da média condicional A relação da média condicional pode ser válida para qualquer conjunto de n observações, i = 1,…,n. Se n K E[y1|x] = x1 E[y2|x] = x2 … E[yn|x] = xn Para todas n observações temos que : E[y|X] = X = E. Danielle Carusi Machado - UFF Econometria 2/2009 Unicidade de E[y|X] Suponha que exista um que produz o mesmo valor esperado, E[y|X] = X = E. Se = - . Temos que: X = X - X = E - E = 0. Isto é possível? X é uma matriz nK. O que significa X = 0? Por hipótese, isto não é possível. Hipótese de ‘posto cheio’ – hipótese de ‘identificação’. Podemos ‘estimar’ com n K . Danielle Carusi Machado - UFF Econometria 2/2009 Dependência Linear Exemplo: x = [i , renda não trabalho, renda do trabalho, renda total] Não existe dependência linear: Nenhuma variável pode ser escrita como uma função linear de outras variáveis do modelo. Condição de identificação. A teoria não necessariamente elimina a possibilidade de dependência linear, contudo, é importante para fazer a estimação possível. y = 1 + 2N + 3S + 4T + , onde T = N+S. y = 1 + (2+a)N + (3+a)S + (4-a)T + para qualquer a, = 1 + 2N + 3S + 4T + . O que está sendo estimado…? Não eliminamos a possibilidade de dependência não linear. Ex: x e x2. Danielle Carusi Machado - UFF Econometria 2/2009 Média condicional zero O y observado é igual a E[y|x] + variável aleatória. y = E[y|x] + (distúrbio) Existe alguma informação sobre em x? Ou seja, algum movimento em x dá informação sobre ? Caso sim, não especificamos corretamente a média condicional, a função ‘E[y|x]’ não é a média condicional (não é a regressão populacional) Existe informação sobre em outras variáveis. Se E[|x] 0 segue que Cov[,x] 0. Violação da hipótese de ‘independência’ Danielle Carusi Machado - UFF Econometria 2/2009 Média condicional zero E[|todos dados em X] = 0 E[|X] = 0 é mais forte que E[i | xi] = 0 O segundo diz que o conhecimento de xi não dá nenhuma informação sobre a média de i. O primeiro diz que nenhum xj dá informação sobre o valor esperado de I. “nenhuma informação” é similar a nenhuma correlação. Danielle Carusi Machado - UFF Econometria 2/2009 Homocedasticidade e não Autocorrelação Var[|X] = 2I. Var[] = 2I? Prova: Var[] = E[Var[|X]] + Var[E[|X]]. Danielle Carusi Machado - UFF Econometria 2/2009 Distribuição Normal de ε Usada para facilitar as derivações de estatísticas de testes em amostras finitas. Derivação das distribuições exatas das estatísticas t, F. Danielle Carusi Machado - UFF Econometria 2/2009 O Modelo Linear y = X+ε, N observações, K colunas em X, incluindo a coluna de um. Hipóteses sobre X Hipóteses sobre ε|X E[ε|X]=0, E[ε]=0 and Cov[ε,x]=0 Regressão? Se E[y|X] = X Aproximação: projeção linear. Danielle Carusi Machado - UFF Econometria 2/2009 Danielle Carusi Machado - UFF Econometria 2/2009 Ajuste da Regressão “Variação:” No contexto do “modelo” , significa a variação de uma variável como resultado do movimento de outra variável n Variação total = yM0y = 2 (y y) i i=1 M0 = I – i(i’i)-1i’ = transforma uma matriz em desvios com relação a média. Danielle Carusi Machado - UFF Econometria 2/2009 Decomposição da Variação de y Decomposição: y = Xb + e M0y = M0Xb + M0e = M0Xb + e. (Desvios com relação à média. M0e = e ) yM0y = b(X’ M0)(M0X)b + ee = bXM0Xb + ee. (e’ M0X = e’X = 0.) Uma das colunas de X é i. Soma quadrado total = Soma quadrado da regressão (SSR)+Soma quadrado dos resíduos (SSE) Danielle Carusi Machado - UFF Econometria 2/2009 Medida de ajuste R2 = bXM0Xb/yM0y e'e Regression Variation = 1 N 2 Total Variation i1 (y i y) R2 é limitado a zero e um sss: (a) Existe um termo constante em X e (b) O método utilizado é o MQO. Danielle Carusi Machado - UFF Econometria 2/2009 Adicionando variáveis R2 nunca é reduzido quando uma variável z é adicionada na regressão: Danielle Carusi Machado - UFF Econometria 2/2009 Adicionando variáveis ao modelo Modelo 1: Mínimos Quadrados (OLS), usando as observações 1-3010 (n = 2220) Observações omissas ou incompletas foram ignoradas: 790 Variável dependente: wage const educ age fatheduc motheduc Coeficiente Erro Padrão -598,93 53,2452 19,3177 2,27429 28,835 1,65546 5,96486 1,84208 5,68477 2,19016 Média var. dependente Soma resíd. quadrados R-quadrado F(4, 2215) Log da verossimilhança Critério de Schwarz 589,8140 1,26e+08 0,191659 131,2951 -15301,33 30641,19 razão-t -11,2485 8,4940 17,4181 3,2381 2,5956 p-valor <0,00001 <0,00001 <0,00001 0,00122 0,00950 D.P. var. dependente E.P. da regressão R-quadrado ajustado P-valor(F) Critério de Akaike Critério Hannan-Quinn Danielle Carusi Machado - UFF Econometria 2/2009 *** *** *** *** *** 265,1151 238,5742 0,190199 9,8e-101 30612,66 30623,08 Adicionando variáveis ao modelo Modelo 2: Mínimos Quadrados (OLS), usando as observações 1-3010 (n = 2220) Observações omissas ou incompletas foram ignoradas: 790 Variável dependente: wage const educ age fatheduc motheduc black Coeficiente Erro Padrão -523,135 54,2643 18,9735 2,2567 28,0532 1,64716 3,97919 1,85614 4,25957 2,18512 -89,2008 14,6514 Média var. dependente Soma resíd. quadrados R-quadrado F(5, 2214) Log da verossimilhança Critério de Schwarz 589,8140 1,24e+08 0,204969 114,1597 -15282,90 30612,04 razão-t -9,6405 8,4076 17,0312 2,1438 1,9494 -6,0882 p-valor <0,00001 <0,00001 <0,00001 0,03216 0,05138 <0,00001 D.P. var. dependente E.P. da regressão R-quadrado ajustado P-valor(F) Critério de Akaike Critério Hannan-Quinn Danielle Carusi Machado - UFF Econometria 2/2009 *** *** *** ** * *** 265,1151 236,6553 0,203174 1,4e-107 30577,80 30590,31 R2 ajustado 2 R = 1 - [(n-1)/(n-K)](1 - R2) R 2 inclui uma penalidade para variáveis que não acrescentam muito ao ajuste do modelo. Pode cair quando uma variável é incluída no modelo. Danielle Carusi Machado - UFF Econometria 2/2009 R2 ajustado O que está sendo ajustado? Penalidade por estar inserindo mais variáveis explicativas. R 2 = 1 - [ee/(n – K)]/[yM0y/(n-1)] R 2 = 1 – [(n-1)/(n-K)(1 – R2)] Danielle Carusi Machado - UFF Econometria 2/2009 Transformações lineares dos dados Como uma transformação linear pode afetar os resultados derivados do MQO? Com base em X, b = (XX)-1X’y. Os coeficientes de y regredido em Z são c = P -1 b “Valor predito” é Zc = XPP-1b = Xb. O mesmo!! Resíduos: y - Zc = y - Xb . Os mesmos!! Soma quadrado dos resíduos – idêntica y-Xb = e = y-Zc. R2 será igual pois R2 = 1 - ee/y’M0y (!!). Danielle Carusi Machado - UFF Econometria 2/2009 Transformação Linear Xb é a projeção de y no espaço coluna de X. Zc é a projeção de y no espaço coluna de Z. Mas, como as colunas de Z são simplesmente combinações linearers das de X, o espaço coluna de Z deve ser idêntico ao de X. Consequentemente, a projeção de y em Z será igual a em X. Quais implicações práticas deste resultado? Transformação não afeta o ajuste do modelo. Transformação afeta as “estimativas.” Se b é uma estimativa de , c não pode ser a estimativa de - será a estimativa de P-1. Danielle Carusi Machado - UFF Econometria 2/2009