Econometria Modelos discretos Modelos não lineares Em muitas aplicações que nos interessam, as variáveis econômicas são discretas e tomam um pequeno conjunto de valores. Decisões A , B ou C Queremos saber se o agente vai ou não participar do mercado de trabalho , se irá ou não comprar um determinado bem, etc. Modelos de resposta binária Temos uma variável dependente y que pode tomar os valores 0 ou 1. A probabilidade condicional será escrita da seguinte forma: Partindo da teoria econômica poderíamos usar um modelo de variáveis latentes: Modelos para variáveis binárias Probit e logit: distribuições simétricas em torno de zero. Modelo Clog-log: distribuição do y é assimétrica, há uma grande proporção de zero ou um no banco de dados. Modelo de probabilidade linear Assumimos que F é uma função linear: Interpretação do coeficiente: A variação na probabilidade de y ser igual a 1 dado um aumento de 1 unidade em x1. Ha três possíveis problemas com este método: i) Heterocedasticidade ii) Valores preditos fora do intervalo [0,1] iii) Aumento de xk sempre gera variacões constantes em y, pode prever muito mal nos valores extremos Modelos de resposta binária não lineares Estimação por máxima verossimilhança. Não há solução explícita. Temos que estimar usando um procedimento numérico interativo (Probit, Logit, clog-log). Em outros modelos, às vezes precisamos de algoritmos de maximização mais complicados. Modelos de resposta binária A função densidade de uma variável aleatória yi que toma valores (0,1) pode ser escrita como uma binomial: O log da densidade e da verossimilhança são: Comandos no stata logit depvar [indepvars] [if] [in] [weight] [, options] probit depvar [indepvars] [if] [in] [weight] [, options] cloglog depvar [indepvars] [if] [in] [weight] [, options] Logit Odds Ratio: razão de chances 1 p exp(x ) p ln ' O efeito exp(βj) mede o efeito multiplicativo da mudança em uma unidade do regressor xj na razão de chances. Exemplo HRS – Health and Retirement Study (2002): beneficiários do Medicare. Análise da contratação de serviço privado de saúde (ins) Variáveis explicativas: Hstatusg – dummy sobre avaliação do estado de saúde. Adl – número de limitações das atividades diárias Chronic – número de doenças crônicas Age, gender, race, ethnicity, marital status, educ, retirement status, hhincome, linc, sretire (cônjuge é aposentada) Banco: mus14data.dta Exemplo logit ins retire $xlist Iteration Iteration Iteration Iteration Iteration 0: 1: 2: 3: 4: log log log log log likelihood likelihood likelihood likelihood likelihood = = = = = -2139.7712 -1996.7434 -1994.8864 -1994.8784 -1994.8784 Logistic regression Number of obs LR chi2(7) Prob > chi2 Pseudo R2 Log likelihood = -1994.8784 ins Coef. retire age hstatusg hhincome educyear married hisp _cons .1969297 -.0145955 .3122654 .0023036 .1142626 .578636 -.8103059 -1.715578 Std. Err. .0842067 .0112871 .0916739 .000762 .0142012 .0933198 .1957522 .7486219 z 2.34 -1.29 3.41 3.02 8.05 6.20 -4.14 -2.29 P>|z| 0.019 0.196 0.001 0.003 0.000 0.000 0.000 0.022 = = = = 3206 289.79 0.0000 0.0677 [95% Conf. Interval] .0318875 -.0367178 .1325878 .00081 .0864288 .3957327 -1.193973 -3.18285 .3619718 .0075267 .491943 .0037972 .1420963 .7615394 -.4266387 -.2483064 Comparações Modelos probit e logit Testes . logit ins retire $xlist $intlist Iteration Iteration Iteration Iteration Iteration 0: 1: 2: 3: 4: log log log log log likelihood likelihood likelihood likelihood likelihood = = = = = -2139.7712 -1993.0223 -1991.1037 -1991.0956 -1991.0956 Logistic regression Number of obs LR chi2(11) Prob > chi2 Pseudo R2 Log likelihood = -1991.0956 ins Coef. retire age hstatusg hhincome educyear married hisp age2 agefem agechr agewhi _cons .153885 .3297615 .3422945 .0021678 .1146695 .5378607 -.8002047 -.0025892 -.0022518 .0006382 .0008281 -13.15728 Std. Err. .0861348 .199131 .0998432 .0007605 .0143478 .0978903 .1964854 .0014767 .0012584 .0004505 .0016095 6.700774 z 1.79 1.66 3.43 2.85 7.99 5.49 -4.07 -1.75 -1.79 1.42 0.51 -1.96 P>|z| 0.074 0.098 0.001 0.004 0.000 0.000 0.000 0.080 0.074 0.157 0.607 0.050 = = = = 3206 297.35 0.0000 0.0695 [95% Conf. Interval] -.0149361 -.060528 .1466055 .0006773 .0865484 .3459992 -1.185309 -.0054834 -.0047182 -.0002448 -.0023265 -26.29056 .3227062 .720051 .5379835 .0036582 .1427907 .7297223 -.4151004 .0003051 .0002147 .0015212 .0039827 -.0240061 Teste Wald test $intlist ( ( ( ( 1) 2) 3) 4) [ins]age2 = 0 [ins]agefem = 0 [ins]agechr = 0 [ins]agewhi = 0 chi2( 4) = 7.45 Prob > chi2 = 0.1141 Logistic model for ins True Classified + Total D ~D Total 345 896 308 1657 653 2553 1241 1965 3206 Classified + if predicted Pr(D) >= .5 True D defined as ins != 0 Sensitivity Specificity Positive predictive value Negative predictive value Pr( +| D) Pr( -|~D) Pr( D| +) Pr(~D| -) 27.80% 84.33% 52.83% 64.90% False False False False Pr( +|~D) Pr( -| D) Pr(~D| +) Pr( D| -) 15.67% 72.20% 47.17% 35.10% + + - rate rate rate rate for for for for true ~D true D classified + classified - Correctly classified 62.45%