CAP 5 BAUM – Specifying the
functional form (especificando a
forma funcional)
Henrique Dantas Neder – prof.
Instituto de Economia da
Universidade Federal de Uberlândia
Erro de especificação
• A consistência do estimador da regressão
linear requer que a função de regressão da
amostra corresponda a função de regressão
subjacente ou o verdadeiro modelo de
regressão para a variável de resposta
(dependente) y:
yi  xi   ui
Erro de especificação (cont.)
• A teoria econômica freqüentemente fornece um
guia na especificação do modelo, mas pode ser
que ela não indique explicitamente como uma
variável específica entre no modelo ou
identifique a forma funcional.
• O modelo deve ser estimado em níveis para as
variáveis; ou em uma estrutura logaritmica; como
um polinomio em um ou mais dos regressores?
• Em geral a teoria se cala frente a estes pontos
especificos e temos que utilizar estratégias
empiricas.
Omissão de variáveis relevantes do
modelo (subespecificação)
• Suponha que o verdadeiro modelo
(população) é:
y  x11  x2 1  u
• com k1 e k2 regressores em dois subconjuntos,
mas regredimos y somente sobre as variáveis
x1 :
y  x11  u
Omissão de variáveis (cont.)
• A solução de mínimos quadrados ordinários é:
ˆβ = (X' X )-1 X' y = (X' X )-1 X' (β X + β X + u)
1
1 1
1
1 1
1 1 1
2 2
= β1 + (X X1 ) X X2β 2 + (X X1 ) X u
• A menos que X X2  0 ou β2  0 , a estimativa
de βˆ 1 é viesada, desde que:
'
1
-1
'
1
'
1
'
1
E[βˆ 1 | X] = β1 + P1.2β 2
onde
P1.2  (X X1 ) X X2
'
1
-1
'
1
-1
'
1
Omissão de variáveis (cont.)
•
•
P1.2 é uma matriz k1xk2 refletindo a regressão
de cada coluna de X 2 nas colunas de X1 .
Se k1=k2 e a variável única em X 2 é
correlacionada com a variável única em X1 ,
podemos prever a direção do viés. Mas se
tivermos múltiplas variáveis em cada conjunto
não podemos prever a natureza do viés dos
coeficientes.
Omissão de variáveis (cont.)
* OMISSAO DE VARIAVEIS RELEVANTES NO MODELO
matrix drop _all
* Vamos considerar o arquivo gpa2 do Wooldridge como dados de uma população
use "f:\Minhas Webs\DADOS\DADOS WOOLDRIDGE\gpa2.dta", clear
*Vamos verificar o tamanho N da população e calcular os valores dos parâmetros
Count
regress colgpa hsperc sat hsize
matrix bpop = e(b)
matrix list bpop
matrix betapop = e(b)
matrix betapop = betapop'
matrix list betapop
matrix beta1pop = J(2,1,0)
matrix beta1pop[2,1] = betapop[1,1]
matrix beta1pop[1,1] = betapop[4,1]
Omissão de variáveis (cont.)
matrix beta2pop[1,1] = betapop[2,1]
matrix beta2pop[2,1] = betapop[3,1]
predict residuo, residuals
* vamos selecionar uma amostra aleatória de tamanho n = 50
sample 50, count
regress colgpa hsperc sat hsize
regress colgpa hsperc
* vamos gerar o valor da estimativa viesada do parâmetro beta1
matrix b = e(b)
matrix list b
gen const = 1
mkmat residuo, matrix(u)
mkmat const hsperc, matrix(X1)
mkmat sat hsize, matrix(X2)
mkmat colgpa, matrix(Y)
Omissão de variáveis (cont.)
* Vamos calcular a estimativa do parâmetro beta1 nesta ultima regressão
* (com omissão da variável sat) utilizando álgebra linear e empregando
* a expressão da pagina 116 do Baum
matrix betahat1 = inv(X1'*X1)*X1'*Y
matrix list betahat1
matrix P1 = inv(X1'*X1)*X1'
matrix P2 = inv(X1'*X1)*X1'*X2
matrix betahat2 = beta1pop + P2*beta2pop + P1*u
matrix list betahat1
matrix list betahat2
Omissão de variáveis (cont.)
• Wooldridge (2006) apresenta na pg 90 um
quadro resumo para modelos de 2 variáveis:
β2>0
β2<0
Corr(x1,x2 > 0) Corr(x1,x2)<0
Viés positivo Viés negativo
Viés negativo Viés positivo
• Se a correlação entre X1 e X2 é nula na
população, as estimativas de regressão são
consistentes mas provavelmente serão viesadas
em amostras finitas.
Omissão de variáveis (cont.)
• Mais a frente será abordado um dos métodos
para corrigir o viés devido a omissão de
variáveis: em Baum, pg 216 é mostrado como
o método das variáveis instrumentais pode
solucionar o problema.
• Considere a relação entre a variável SAT
(escores de testes de aptidão de estudantes),
expend (gastos por aluno) e poverty (a
proporção de pobres em cada distrito):
Omissão de variáveis (cont.)
sat  1  2expend + 3 poverty  ui
• Não podemos estimar esta equação porque não
temos acesso a dados distritais sobre pobreza.
• Entretanto, este fator tem uma importante
função no resultado educacional, sendo uma
proxy da qualidade do ambiente familiar do
estudante.
• Se temos uma proxy para pobreza, podemos
incluí-la no modelo, como por exemplo, a renda
mediana do distrito.
Omissão de variáveis (cont.)
• O sucesso desta estratégia dependerá da força
da correlação entre esta proxy e a pobreza
que é uma variável não observável.
• Se não temos uma proxy disponível, podemos
estimar a equação ignorando a pobreza:
log(sati )  1  2expendi  vi
• O termo (processo) de perturbação aleatória vi
nesta equação é composto por (3povertyi  ui )
Omissão de variáveis (cont.)
• Se expend e poverty são correlacionadas – e
provavelmente são – a regressão gerará
estimativas viesadas e inconsistentes de 1 e 2
porque a hipótese de média condicional nula é
violada.
• Para derivar estimativas consistentes na equação
temos que encontrar uma variável instrumental,
ou seja, uma variável que seja não correlacionada
com os fatores não observáveis que afetam a
variável dependente (inclusive a variável poverty)
e altamente correlacionada com expend.
Omissão de variáveis (cont.)
• Um possível instrumento para poverty seria a
relação estudante-professor no distrito
(stratio) já que ela deve ser negativamente
correlacionada com expend.
• O método IV aqui poderia consistir em estimar
um modelo em dois estágios:
log( sati )  1   2expendhat i  vi
expend i  3   4 stratioi   i
Omissão de variáveis (cont.)
• Primeiramente estimamos o valor da variável
expend através da segunda equação do
sistema anterior.
• Em seguida utilizamos o valor desta estimativa
como um dos regressores na primeira
equação (expendhat).
Gráficos de adição de variáveis
• Tomando cada regressor por vez, o gráfico de adição de
variáveis (“added-variable plot”) é baseado em duas
séries de resíduos:
• A série c1 contem os resíduos da regressão de y contra
todas as variáveis x exceto a variável xk que está sendo
“testada”.
• A série c2 representa a informaçao (resíduo) de y que
nao pode ser explicada por todos os outros regressores
(exceto xk).
• O gráfico de adiçao de variáveis para xk é o diagrama
de dispersao de c2 (no eixo dos y) versus c1 (no eixo dos
x).
Gráficos de adição de variáveis
• Dois casos opostos são de interesse:
• 1) Se a maioria dos pontos estao em torno de
uma linha horizontal na ordenada zero, a variável
xk é irrelevante.
• 2) Se a maioria dos pontos estao em volta de uma
linha vertical com abscissa zero o gráfico está
indicando quase perfeita multicolinearidade.
• Se a inclinaçao de uma eventual relaçao linear
entre c1 e c2 é significativa, xk tem uma
importante contribuição no modelo além dos
outros regressores.
Gráficos de adição de variáveis
• Temos diversos “outliers” (observaçoes que estão
fora da linha), particularmante evidentes para os
gráficos lnox e ldist. Baixos valores de E[lnox|X] e
E[ldist|X] sao associados com preços mais
elevados do que aqueles preditos pelo modelo.
• As estatisticas t testam a hipotese de que a linha
de mínimos quadrados tem uma inclinaçao
significativa (≠ 0). Estes testes sao identicos ao da
regressao original.
Incluindo variáveis irrelevantes no
modelo (sobreespecificaçao)
• Incluir variáveis irrelevantes no modelo na viola a
hipótese de média condicional nula (pois seus
coeficientes na população – parâmetros são
nulos).
• Suponha que o verdadeiro modelo é:
y  x11  u
Mas incluímos erroneamente diversas variáveis x2
no nosso modelo de regressão.
Incluindo variáveis irrelevantes no
modelo (sobre-especificação)
• Incluir variáveis irrelevantes no modelo não afeta
o não viés das variáveis relevantes incluídas no
modelo. Wooldridge(2006) lembra que E[ ˆ j ]   j
para qualquer valor de  j , incluindo  j  0 .
Então concluímos que
E[ ˆ0 ]  0 , E[ ˆ1 ]  1 , E[ ˆ2 ]   2  0
para qualquer valor de 0e1 .
• No entanto, isto terá indesejáveis efeitos na
variância dos estimadores, como será visto mais
tarde.
Incluindo variáveis irrelevantes no
modelo (sobre-especificação)
• Baum (pg 121) analisando estimadores os efeitos da sobreespecificação nas propriedades dos OLS da regressão
afirma que:
1) Incluir variáveis irrelevantes mantém as propriedades de
não viés e consistência dos estimadores de  0 , 1e  u2 .
2) No entanto os estimadores terão variância mais elevada
(menos precisos) do que se o modelo fosse corretamente
especificado.
3) Claramente, sobre-especificar custa mais do que subespecificar o modelo e o modelo sobre-especificado gera
estimativas não viesadas e consistentes para todos os seus
parâmetros, inclusive os dos regressores irrelevantes, que
tendem a zero.
A assimetria do erro de especificação
• Os custos do dois tipos de erro de
especificação são assimétricos.
• Disto se conclui que uma estratégia melhor é
iniciar com uma especificação geral (mesmo
que sobre-especificada) e impor ao modelo
restrições apropriadas.
• Muitas investigações empíricas contem muita
busca por especificação (nesta estratégia do
geral para o particular).
A assimetria do erro de especificação
• Limites da inferência estatística: podemos
rodar 20 regressões a partir de 20 amostras
aleatórias simples selecionadas de uma
mesma população onde determinado
regressor não existe no modelo verdadeiro,
mas ao nível de significância de 5 % podemos
esperar que uma destas 20 regressões
amostrais mostre erroneamente uma relação
entre a variável dependente e este regressor
sobre-especificado .
Sub-especificação da forma funcional
• O modelo pode não refletir a relação algébrica
correta entre a variável dependente e os
regressores. Por exemplo, o verdadeiro
modelo da população tem uma forma
funcional quadrática e o estimamos na
amostra como uma relação linear, omitindo o
termo do regressor elevado ao quadrado:
yi  0  1 x1i   x  ui
2
2 1i
Sub-especificação da forma funcional
• Em um sentido este problema é mais simples
de lidar do que o problema de omissão de
variáveis: na sub-especificação da forma
funcional temos todas as variáveis
consideradas e temos somente que escolher a
forma apropriada em que elas entram na
equação de regressão.
O teste RESET de Ramsey
• O teste RESET (regression specification error test)
executa uma regressão aumentada que inclui os
regressores originais, potencias dos valores
preditos da regressão original e potencias dos
regressores originais.
• H0: os coeficientes dos regressores adicionais = 0
• O teste é simplesmente um teste Wald.
• Ele baseia-se na idéia de que polinômios em
yˆ e x j podem aproximar uma variedade de
relações funcionais entre y e os regressores x.
Gráfico para verificação da especificação
comando rvpplot ou menu Statistics => Linear models and related => Regression
Diagnostics => Residual-versus-predictor plot
O gráfico mostra que a hipótese de homocedasticidade é violada
Erro de especificação – termos de
interação
• Podemos considerar que no verdadeiro
modelo da populaçãoy / x j é uma função
de xl , de forma que o modelo deve ser
especificado como:
y  1   2 x2  ...   j x j  l xl   p ( x j .xl )  ...  u
y / x j   j   p xl
O efeito de xj depende de xl
Erro de especificação – termos de
interação
• Neste ultimo modelo estamos incluindo uma
variável – taxachl – que é a interação entre
lproptax – o logaritmo da média dos impostos de
propriedades da comunidade e stratio – a relação
estudante-professor no nosso modelo de
determinação de preços de casas.
• Como o coeficiente do termo de interação é
negativo, interpreta-se que a derivada parcial
negativa de lprice com relação a lproptax (stratio)
torna-se menos negativa (aproxima-se de zero)
para maiores níveis de stratio (lproptax).
Download

capitulo 5—baum - Henrique Dantas Neder