Aula 2
13 de setembro de 2013
Dados em painel
Dados e econometria
• A econometria evoluiu como uma disciplina separada da estatística
matemática, porque enfoca problemas inerentes à coleta e à análise
de dados econômicos não-experimentais.
• Dados não-experimentais: não são acumulados por meio de
experimentos controlados de indivíduos, firmas ou segmentos da
economia.
– também chamados de dados observacionais para enfatizar o fato de que o
pesquisador é um coletor passivo de dados.
• Dados experimentais: são frequentemente coletados em
ambientes de laboratório nas ciências naturais, mas são muito
mais difíceis de serem obtidos nas ciências sociais.
• O método de análise da regressão múltipla é utilizado por
econometristas e estatísticos matemáticos, mas o foco e
interpretação pode diferir significantemente.
Modelo econômico
• O modelo econômico é a formulação teórica de uma relação entre
variáveis econômicas.
• A quantidade de tempo gasto na atividade criminosa é uma função de
vários fatores (Gary Becker 1968):
y=f(x1, x2, x3, x4, x5, x6, x7),
y= horas gastas em atividades criminosas.
x1= “salário” por hora ocupada em atividade criminosa.
x2= salário-hora em emprego legal.
x3= renda de outras atividades que não o crime ou um emprego legal.
x4= probabilidade de ser capturado.
x5= probabilidade de ser condenado se capturado.
x6= sentença esperada se condenado.
x7= idade.
Modelo econométrico
•
•
•
•
•
•
Após elaborar o modelo econômico, é especificado um modelo econométrico, que será
aplicado a dados existentes.
A forma da função f(.)deveria ser especificada antes de realizar uma análise
econométrica.
Se uma variável não pode ser obtida, é possível utilizar uma variável que se aproxima
desta que se quer medir (proxy).
Outros fatores são considerados no termo de erro u (ou termo de disturbância):Erro
amostral é a diferença entre o resultado amostral e o verdadeiro resultado da
população (devidos ao acaso).
Erro não-amostral ocorre quando os dados amostrais são coletados, registrados ou
analisados incorretamente.
Modelo econométrico de Becker (1968):
crime = β0 + β1salário + β2outrenda + β3freqpris + β4freqcond + β5sentmed + β6idade + u
Na prática
• Na maioria dos casos, a análise econométrica começa pela
especificação de um modelo econométrico, sem consideração de
detalhes da criação do modelo econômico.
• É comum começar com um modelo econométrico e usar o
raciocínio econômico e conhecimentos científicos como guias para
escolher as variáveis.
• Após a especificação do modelo econométrico, várias hipóteses
podem ser formuladas em termos das direções e influências dos
parâmetros desconhecidos (independentes) sobre a variável de
interesse (dependente).
• Após os dados terem sido coletados, os métodos econométricos
são usados para estimar os parâmetros do modelo econométrico e
para testar as hipóteses de interesse.
ESTRUTURA DO DADOS ECONÔMICOS
•
•
•
•
Dados de corte transversal.
Dados de séries de tempo.
Cortes transversais agrupados.
Dados de painel ou longitudinais
Dados de corte transversal
•
Um conjunto de dados de corte transversal consiste em uma amostra de uma
unidade de análise, tomada em um determinado ponto no tempo.
•
Dados em um determinado ponto do tempo são importantes para testar hipóteses
e avaliar políticas.
•
A ordenação das observações nos dados de corte transversal não importa para a
análise econométrica.
•
Os dados podem apresentar problemas, em casos que a amostragem aleatória não
é a técnica apropriada:
– seleção amostral
– indivíduos não revelam informações acuradas.
•
Observações não são extrações independentes: unidades próximas possuem
características semelhantes.
Exemplo
• Conjunto de dados de corte transversal para o
ano de 2011 de trabalhadores do SE (Pnad):
V0101
uf
V0102
V0103
V0301
V0302
V3031
V3032
V3033
2011
11
11000015
1
1
2
25
12
1961
2011
11
11000015
2
1
4
16
10
1959
2011
11
11000015
2
2
2
23
2
1989
2011
11
11000015
4
1
4
28
5
1981
2011
11
11000015
4
2
4
22
11
1999
2011
11
11000015
5
2
2
29
5
1960
2011
11
11000015
5
6
4
15
11
1943
2011
11
11000015
6
3
4
29
11
1961
Dados de séries de tempo
• Observações sobre uma ou mais variáveis ao longo do tempo.
• Como eventos passados podem influenciar eventos futuros, o
tempo é uma dimensão importante em um conjunto de dados de
séries de tempo.
• A ordenação cronológica das observações transmite informações
importantes.
• A análise desses dados pode ser dificultada, porque observações
econômicas não são independentes ao longo do tempo (variáveis
possuem tendências temporais).
• As frequências mais comuns são: diária, semanal, mensal, trimestral
e anual.
• Atenção aos dados que possuem algum tipo padrão sazonal.
Exemplo
Ano
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2001
2002
2003
2004
2005
2006
2007
2008
2009
Indigência - Brasil, exceto região Norte Rural
Indicadores de Renda
No. Indigentes
Proporção
Razão do Hiato Hiato Quadrático
24.118.265
0,17384
0,41663
0,04494
23.295.587
22.861.630
0,16638
0,16104
0,46771
0,46917
0,05326
0,05164
15.354.868
15.148.274
14.267.794
13.897.795
13.614.127
0,10401
0,10148
0,09383
0,09059
0,08739
0,49482
0,52747
0,54096
0,52305
0,53800
0,03824
0,04152
0,03988
0,03719
0,03712
15.797.467
14.579.401
16.941.855
13.927.738
11.995.054
10.135.618
10.504.728
9.264.466
9.438.922
0,09563
0,08689
0,09969
0,08001
0,06761
0,05642
0,05794
0,05119
0,05173
0,56322
0,54350
0,53288
0,54957
0,56633
0,58093
0,60561
0,58259
0,58493
0,04495
0,03700
0,04104
0,03437
0,03059
0,02619
0,02852
0,02372
0,02424
Cortes transversais agrupados
• Alguns conjuntos de dados têm características de corte transversal
e de séries de tempo.
• Um mesmo conjunto de variáveis é coletado em diferentes
períodos do tempo, em distintas amostras aleatórias de uma
mesma população (Censo Demográfico, Pesquisa Nacional por
Amostra de Domicílios –PNAD).
• Agrupar cortes transversais de diferentes anos é eficaz para analisar
os efeitos de uma política pública.
• O ideal é coletar dados de anos anteriores e posteriores a uma
importante mudança de política governamental.
• Além de aumentar o tamanho da amostra, a análise de corte
transversal agrupada é importante para estimar como uma relação
fundamental mudou ao longo do tempo.
Exemplo
• Conjunto de dados sobre os preços da
moradia em 1993 e 1995 nos Estados Unidos
Dados em painel
• Um conjunto de dados de painel (ou dados longitudinais) consiste em uma
série de tempo para cada membro do corte transversal do conjunto de
dados.
• Uma medida no decorrer do tempo (T1, T2, T3…) ocorre para cada pessoa
(ou instituições, ou países...)
• Podem ser coletados para indivíduos, domicílios, instituições ou unidades
geográficas.
• São distintos dos dados de corte transversal agrupados, porque as mesmas
unidades são acompanhadas ao longo de um determinado período.
• Assim como no corte transversal puro, a ordenação dos dados de painel
não é importante.
• Ter múltiplas observações sobre as mesmas unidades permite controlar por
características não observáveis.
• Esses dados permitem estudar defasagens de resultados (impacto de
políticas pode ser sentido após algum tempo).
• Esses dados são mais difíceis e caros de se obter.
Exemplo
• Cada tempo é considerado uma onda (“wave”).
micro
ano
tempo
Porto Velho
2009
Porto Velho
2009
Porto Velho
2009
Porto Velho
1999
Porto Velho
1999
Porto Velho
2009
Porto Velho
1999
Porto Velho
1999
Porto Velho
2009
Porto Velho
1999
Guajará-Mirim
1999
Guajará-Mirim
1999
Guajará-Mirim
1999
Guajará-Mirim
1999
Guajará-Mirim
1999
Guajará-Mirim
2009
Guajará-Mirim
2009
Guajará-Mirim
2009
Guajará-Mirim
2009
Guajará-Mirim
2009
1
1
1
0
0
1
0
0
1
0
0
0
0
0
0
1
1
1
1
1
setor
tot
ind
cc
com
serv
com
ind
cc
serv
tot
serv
ind
com
tot
cc
ind
tot
com
serv
cc
sal
3.62
3.97
3.15
2.56
7.01
1.91
5.39
4.85
4.1
6.4
2.57
1.84
1.86
2.27
2.09
1.58
1.98
1.66
2.23
1.28
Dados de painel
–Informação sobre múltiplas causas:
Um componente interseccional ou transversal (“cross-sectional”).
–Informação sobre casos no decorrer do tempo:
Um componente longitudinal ou de série temporal.
Banco de dados de painel é descrito em termos de:
N: número de casos individuais.
T: número de ondas.
• Se N é grande em relação a T, o banco é dominante transversalmente (“crosssectionally dominant”).
• Se T é grande em relação a N, o banco é dominante em séries de tempo (“timeseries dominant”):
•
“Time-series Cross-section” (“TSCS data”): pequeno número de unidades
(usualmente 10-30) e moderado T.
Alguns pontos sobre painel
•
Painel significa duas coisas:
Painel é um tempo amplo para todos dados com séries temporais e
componentes interseccionais.
Painel se refere especificamente a bancos com N grande e T pequeno
(dominante transversalmente):
•Ex.: uma pesquisa com 1000 pessoas em 3 pontos no tempo.
• Balanceado X Não Balanceado:
–Dados de painel são chamados de balanceados se informação de cada
pessoa é disponível para todos T’s.
–Se há dados “missing” para alguns casos em certos pontos no tempo, os
dados são não balanceados: (comum para muitos bancos de países ou
instituições).
Benefícios do dado em painel
• Agregação (“pooling”) de casos ou tempo promove
informação mais rica:
–Quanto mais observações, melhor.
•Dados de painel são longitudinais:
–Casos individuais são seguidos no decorrer do tempo.
–Permite o estudo de processos dinâmicos.
–Promove oportunidades para melhor entender relações
causais.
•Modelos de painel permitem o controle de heterogeneidade
individual.
Problemas
• Viola pressuposto de independência de MQO:
–Aglomeração (“clustering”) por casos.
–Aglomeração por tempo.
–Outras fontes? Ex.: correlação espacial.
•Para N pequeno e T grande (TSCS): “Poolability”
–É apropriado combinar casos muito diferentes?
•Correlação serial:
–Casos adjacentes temporalmente podem ter erro correlacionado.
•Não-estacionário para dados com T grande.
•Outros problemas: heterogeneidade.
Download

Aula 2