Regressão com uma variável
dependente Binária
Capítulo 9 – Stock e Watson.
Econometria.
1
Modelo de Variáveis discretas
P(y = 1|x) = G(b0 + xb)
y* = b0 + xb + u, y = max(0,y*)
2
Variáveis dependentes Binárias
Modelo de probabilidade linear era escrito
da seguinte forma: P(y = 1|x) = b0 + xb
3
Modelo de Probabilidade Linear
Variável dependente é binária ao invés de
contínua.
Como a variável dependente é binária, a
função de regressão é a probabilidade da
variável dependente ser igual a 1, dado X.
Coeficiente: mede a variação na
probabilidade de que y=1.
4
Variáveis dependentes Binárias
Problema: valores preditos não estão no
limite 0 e 1
Uma alternativa é modelar a probabilidade
como uma função, G(b0 + xb), onde
0<G(z)<1
5
Modelo Probit
Uma escolha para G(z) é a função de
distribuição acumulada de uma normal
padrão (cdf)
G(z) = F(z) ≡ ∫f(v)dv, onde f(z) é a normal
padrão, f(z) = (2p)-1/2exp(-z2/2)
Este caso refere-se ao modelo probit
Como é um modelo não linear, não pode
ser estimado pelos métodos usuais
Estimação de Máxima Verossimilhança
6
Modelo Logit
Outra escolha para G(z) é uma função
logística, função de distribuição padrão de
uma variável aleatória logística
G(z) = exp(z)/[1 + exp(z)] = L(z)
Este caso é referido como modelo logit ou
regressão logística.
Ambas funções crescem com z, e
rapidamente em torno de 0
7
Probits e Logits
Probit e logit são não lineares – EMV
Não há razão para preferir um ou outro
modelo
Tradicionalmente, as pessoas usam mais o
logit, principalmente porque a função
logística é mais facilmente computada
Atualmente, probit também é facilmente
computado com os pacotes econométricos.
8
Interpretação do logit e do probit
(em particular vs MPL)
Em geral estamos preocupados com o
efeito de x em P(y = 1|x), ∂p/ ∂x
Para o caso linear, isto é facilmente
computável pelo coeficiente de x
Para os modelos probit e logit não lineares,
isto é mais complicado:
∂p/ ∂xj = g(b0 +xb)bj, onde g(z) é dG/dz
9
Interpretação
Claramente, não podemos comparar os
coeficientes entre os três modelos.
Podemos comparar o sinal e a significância
(estatística t padrão) dos coeficientes
Para comparar a magnitude dos efeitos,
teremos que calcular as derivadas, na
média.
10
Teste da razão de verossimilhança
Enquanto no MPL usamos a F ou LM para
testar restrições de exclusão, agora usamos
um novo tipo de teste.
EMV produz o log da verossimilhança L
Da mesma forma que o teste F, estimamos
o modelo restrito e irrestrito, e construímos
a seguinte estatística:
LR = 2(Lir – Lr) ~ c2q
11
Ajuste
Não podemos usar R2 para julgar o ajuste
Uma possibilidade é o pseudo R2 baseado
no log da verossimilhança e definido como
1 – Lur/Lr
Também podemos olhar para a % predita
de forma correta
12
Outros exemplos de variáveis
dependentes limitadas
13
Modelos de regressão censurada
ou truncada
A variável dependente é censurada acima
ou abaixo de determinado limite.
Exemplo: dados de compra de automóveis.
Despesas positivas para compras positivas,
despesas nulas para quem não comprou.
Há dados de compradores e vendedores.
14
Modelos de seleção amostral
Quando não existem dados para um
determinada parte da população importante
de ser analisada.
Informações indisponíveis acima ou abaixo
de um determinado limite.
Problema da amostra.
15
Dados de contagem
A variável dependente é um número de
contagem.
Exemplo: número de refeições em um
restaurante.
Regressão de Poisson e binomial negativo.
16
Probit ordenado
Categorias qualitativas mutuamente
exclusivas possuem uma ordem natural.
Exemplo: obtenção de diploma.
17
Alguns exemplos
Artigo: Corbi e Menezes-Filho (2006). Os determinantes
empíricos da felicidade no Brasil. REP, vol. 26, n. 4, outdez.
Investigar os determinantes empíricos da felicidade no
Brasil através de uma base de dados ainda pouco utilizada
no país, o World Values Survey (Pesquisa Mundial de
Valores).
Analisar a associação de algumas variáveis
sócioeconômicas, tais como renda, desemprego, educação,
sexo, estado civil e idade, com a felicidade dos indivíduos.
A renda e o desemprego serão examinados de forma a
compreendermos de que maneira eles podem influir no
nível de felicidade dos indivíduos.
Medida de Felicidade
O modelo de probit ordenado é um modelo
multinomial, e sua variável dependente assume
valores que estabelecem um certo ordenamento
dos dados, não de forma linear, mas sim de
forma a ranquear os possíveis resultados.
A variável latente F associa números às
respostas individuais, da seguinte forma: 1
para “infeliz”, 2 para não “muito feliz”, 3 para
“feliz” e 4 para “muito feliz”.
Multinomial: exemplo
A variável dependente assume múltiplos
valores qualitativos que não são ordenados.
Exemplo: meio de transporte escolhido por
uma pessoa.
Probit multinomial ou logit multinomial.
Banco de dados
Várias marcas de um produto estão no
mercado.
Iremos explicar as escolhas dos consumidores
por estas marcas considerando as seguintes
variáveis explicativas: sexo (female) e idade
(age).
Por exemplo, há um estudo que afirma que as
mulheres escolhem mais cameras digitas
Kodak e que homens preferem Canon.
describe
Contains data from mlogit.dta
obs:
735
brand choices
vars:
3
19 Jan 2006 09:43
size:
5,145 (99.4% of memory free)
(_dta has notes)
-----------------------------------------------------------------------------storage display
value
variable name
type
format
label
variable label
-----------------------------------------------------------------------------brand
byte
%9.0g
female
byte
%8.0g
age
byte
%9.0g
-----------------------------------------------------------------------------Sorted by: age
mlogit brand female age, base(1)
Iteration 0:
log likelihood =
Iteration 1:
log likelihood =
Iteration 2:
log likelihood =
Iteration 3:
log likelihood =
Iteration 4:
log likelihood =
Multinomial logistic regression
-795.89581
-709.10396
-703.08391
-702.97081
-702.9707
Number of obs
=
735
LR chi2(4)
=
185.85
Prob > chi2
=
0.0000
Log likelihood = -702.9707
Pseudo R2
=
0.1168
-----------------------------------------------------------------------------brand |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------2
|
female |
.5238143
.1942466
2.70
0.007
.143098
.9045307
age |
.3682065
.0550031
6.69
0.000
.2604024
.4760106
_cons | -11.77466
1.77461
-6.64
0.000
-15.25283
-8.296483
-------------+---------------------------------------------------------------3
|
female |
.4659414
.2260895
2.06
0.039
.022814
.9090688
age |
.6859082
.0626265
10.95
0.000
.5631626
.8086539
_cons |
-22.7214
2.058027
-11.04
0.000
-26.75505
-18.68774
-----------------------------------------------------------------------------(brand==1 is the base outcome)
git brand female age, base(1)
Alguns resultados
Para a mudança de uma unidade da variável
idade, o log da razão entre as duas
probabilidades, P(brand=2)/P(brand=1), irá
aumentar em 0.368 e o log da razão das
duas probabilidades P(brand=3)/P(brand=1)
irá aumentar em 0.686.
Podemos dizer que, em geral, as pessoas
mais velhas irão preferir brand 2 ou 3.
A razão entre a probabilidade de escolher uma categoria
e a probabilidade de escolher a categoria de referência é
denominada de risco relativo (odds).
Os resultados podem ser interpretados em termos de
risco relativo.
Podemos dizer que para mudança de uma unidade da
idade, esperamos que o risco relativo de escolher brand
2 ao invés de brand 1 aumente de exp(.3682) = 1.45. O
risco relativo é maior para pessoas mais velhas.
Para a variável female, a razão do risco relativo de
escolher brand 2 ao invés de 1 para mulheres e homens é
exp(.5238) = 1.69.
0
.2
.4
.6
.8
1
line p1 age if female ==0 || line p1 age if female==1, legend(order(1 "male" 2
"female"))
25
30
35
age
male
female
40