Regressão com uma variável dependente Binária Capítulo 9 – Stock e Watson. Econometria. 1 Modelo de Variáveis discretas P(y = 1|x) = G(b0 + xb) y* = b0 + xb + u, y = max(0,y*) 2 Variáveis dependentes Binárias Modelo de probabilidade linear era escrito da seguinte forma: P(y = 1|x) = b0 + xb 3 Modelo de Probabilidade Linear Variável dependente é binária ao invés de contínua. Como a variável dependente é binária, a função de regressão é a probabilidade da variável dependente ser igual a 1, dado X. Coeficiente: mede a variação na probabilidade de que y=1. 4 Variáveis dependentes Binárias Problema: valores preditos não estão no limite 0 e 1 Uma alternativa é modelar a probabilidade como uma função, G(b0 + xb), onde 0<G(z)<1 5 Modelo Probit Uma escolha para G(z) é a função de distribuição acumulada de uma normal padrão (cdf) G(z) = F(z) ≡ ∫f(v)dv, onde f(z) é a normal padrão, f(z) = (2p)-1/2exp(-z2/2) Este caso refere-se ao modelo probit Como é um modelo não linear, não pode ser estimado pelos métodos usuais Estimação de Máxima Verossimilhança 6 Modelo Logit Outra escolha para G(z) é uma função logística, função de distribuição padrão de uma variável aleatória logística G(z) = exp(z)/[1 + exp(z)] = L(z) Este caso é referido como modelo logit ou regressão logística. Ambas funções crescem com z, e rapidamente em torno de 0 7 Probits e Logits Probit e logit são não lineares – EMV Não há razão para preferir um ou outro modelo Tradicionalmente, as pessoas usam mais o logit, principalmente porque a função logística é mais facilmente computada Atualmente, probit também é facilmente computado com os pacotes econométricos. 8 Interpretação do logit e do probit (em particular vs MPL) Em geral estamos preocupados com o efeito de x em P(y = 1|x), ∂p/ ∂x Para o caso linear, isto é facilmente computável pelo coeficiente de x Para os modelos probit e logit não lineares, isto é mais complicado: ∂p/ ∂xj = g(b0 +xb)bj, onde g(z) é dG/dz 9 Interpretação Claramente, não podemos comparar os coeficientes entre os três modelos. Podemos comparar o sinal e a significância (estatística t padrão) dos coeficientes Para comparar a magnitude dos efeitos, teremos que calcular as derivadas, na média. 10 Teste da razão de verossimilhança Enquanto no MPL usamos a F ou LM para testar restrições de exclusão, agora usamos um novo tipo de teste. EMV produz o log da verossimilhança L Da mesma forma que o teste F, estimamos o modelo restrito e irrestrito, e construímos a seguinte estatística: LR = 2(Lir – Lr) ~ c2q 11 Ajuste Não podemos usar R2 para julgar o ajuste Uma possibilidade é o pseudo R2 baseado no log da verossimilhança e definido como 1 – Lur/Lr Também podemos olhar para a % predita de forma correta 12 Outros exemplos de variáveis dependentes limitadas 13 Modelos de regressão censurada ou truncada A variável dependente é censurada acima ou abaixo de determinado limite. Exemplo: dados de compra de automóveis. Despesas positivas para compras positivas, despesas nulas para quem não comprou. Há dados de compradores e vendedores. 14 Modelos de seleção amostral Quando não existem dados para um determinada parte da população importante de ser analisada. Informações indisponíveis acima ou abaixo de um determinado limite. Problema da amostra. 15 Dados de contagem A variável dependente é um número de contagem. Exemplo: número de refeições em um restaurante. Regressão de Poisson e binomial negativo. 16 Probit ordenado Categorias qualitativas mutuamente exclusivas possuem uma ordem natural. Exemplo: obtenção de diploma. 17 Alguns exemplos Artigo: Corbi e Menezes-Filho (2006). Os determinantes empíricos da felicidade no Brasil. REP, vol. 26, n. 4, outdez. Investigar os determinantes empíricos da felicidade no Brasil através de uma base de dados ainda pouco utilizada no país, o World Values Survey (Pesquisa Mundial de Valores). Analisar a associação de algumas variáveis sócioeconômicas, tais como renda, desemprego, educação, sexo, estado civil e idade, com a felicidade dos indivíduos. A renda e o desemprego serão examinados de forma a compreendermos de que maneira eles podem influir no nível de felicidade dos indivíduos. Medida de Felicidade O modelo de probit ordenado é um modelo multinomial, e sua variável dependente assume valores que estabelecem um certo ordenamento dos dados, não de forma linear, mas sim de forma a ranquear os possíveis resultados. A variável latente F associa números às respostas individuais, da seguinte forma: 1 para “infeliz”, 2 para não “muito feliz”, 3 para “feliz” e 4 para “muito feliz”. Multinomial: exemplo A variável dependente assume múltiplos valores qualitativos que não são ordenados. Exemplo: meio de transporte escolhido por uma pessoa. Probit multinomial ou logit multinomial. Banco de dados Várias marcas de um produto estão no mercado. Iremos explicar as escolhas dos consumidores por estas marcas considerando as seguintes variáveis explicativas: sexo (female) e idade (age). Por exemplo, há um estudo que afirma que as mulheres escolhem mais cameras digitas Kodak e que homens preferem Canon. describe Contains data from mlogit.dta obs: 735 brand choices vars: 3 19 Jan 2006 09:43 size: 5,145 (99.4% of memory free) (_dta has notes) -----------------------------------------------------------------------------storage display value variable name type format label variable label -----------------------------------------------------------------------------brand byte %9.0g female byte %8.0g age byte %9.0g -----------------------------------------------------------------------------Sorted by: age mlogit brand female age, base(1) Iteration 0: log likelihood = Iteration 1: log likelihood = Iteration 2: log likelihood = Iteration 3: log likelihood = Iteration 4: log likelihood = Multinomial logistic regression -795.89581 -709.10396 -703.08391 -702.97081 -702.9707 Number of obs = 735 LR chi2(4) = 185.85 Prob > chi2 = 0.0000 Log likelihood = -702.9707 Pseudo R2 = 0.1168 -----------------------------------------------------------------------------brand | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------2 | female | .5238143 .1942466 2.70 0.007 .143098 .9045307 age | .3682065 .0550031 6.69 0.000 .2604024 .4760106 _cons | -11.77466 1.77461 -6.64 0.000 -15.25283 -8.296483 -------------+---------------------------------------------------------------3 | female | .4659414 .2260895 2.06 0.039 .022814 .9090688 age | .6859082 .0626265 10.95 0.000 .5631626 .8086539 _cons | -22.7214 2.058027 -11.04 0.000 -26.75505 -18.68774 -----------------------------------------------------------------------------(brand==1 is the base outcome) git brand female age, base(1) Alguns resultados Para a mudança de uma unidade da variável idade, o log da razão entre as duas probabilidades, P(brand=2)/P(brand=1), irá aumentar em 0.368 e o log da razão das duas probabilidades P(brand=3)/P(brand=1) irá aumentar em 0.686. Podemos dizer que, em geral, as pessoas mais velhas irão preferir brand 2 ou 3. A razão entre a probabilidade de escolher uma categoria e a probabilidade de escolher a categoria de referência é denominada de risco relativo (odds). Os resultados podem ser interpretados em termos de risco relativo. Podemos dizer que para mudança de uma unidade da idade, esperamos que o risco relativo de escolher brand 2 ao invés de brand 1 aumente de exp(.3682) = 1.45. O risco relativo é maior para pessoas mais velhas. Para a variável female, a razão do risco relativo de escolher brand 2 ao invés de 1 para mulheres e homens é exp(.5238) = 1.69. 0 .2 .4 .6 .8 1 line p1 age if female ==0 || line p1 age if female==1, legend(order(1 "male" 2 "female")) 25 30 35 age male female 40