Departamento de Economia
DATA ZOOM: PORTAL DE FERRAMENTAS DE ACESSO A
MICRODADOS
Aluno: Clinton Justino Mallet
Orientador: Gustavo Gonzaga
Introdução
O acesso aos microdados das pesquisas domiciliares brasileiras pode ser feito
atualmente de forma muito simples através do site do IBGE, uma das maiores fontes de dados
do país. Na verdade, tem sido notável o esforço do IBGE na disseminação dos microdados de
suas pesquisas nos últimos anos. No entanto, a forma como os dados estão disponíveis
demanda muito tempo e trabalho dos pesquisadores para deixar as bases prontas para análise.
Desta forma, são raros os pesquisadores que dispõem dos meios para operacionalizar sua
utilização. Assim, participei da criação do portal Data Zoom que disponibiliza gratuitamente
ferramentas que facilitam o acesso de pesquisadores do Brasil e do exterior aos microdados
das pesquisas domiciliares do IBGE.
Objetivos
O objetivo do projeto era não somente disponibilizar o acesso ao microdados de forma
clara, mas também fazer com que o pesquisador não gastasse mais tanto tempo nesses
estágios iniciais de pesquisa. Disponibilizamos programas de acesso aos Censos (1970-2010),
PNADs (desde 1981), PMEs (desde 1991), POFs (desde 1995) e ECINFs (1997 e 2003). O
portal fornece pacotes escritos em STATA que permitem a leitura dos dados originais e várias
opções para gerar as bases de dados desejadas. A ideia é possibilitar um maior conhecimento
da realidade socioeconômica do país, o que é fundamental para aperfeiçoar o desenho e a
execução de políticas públicas.
Metodologia
Ao criarmos o Data Zoom, fizemos alguns tutoriais para que o usuário pudesse entender
a interface gráfica do programa e assim obter as bases desejadas. Descrevo abaixo alguns
passos que ajudam a usar o portal:
(i)
Para
instalar
o
programa,
digite
"net
from
http://www.econ.puc-
rio.br/datazoom/portugues" na janela de comando do STATA, clique no nome
Departamento de Economia
da pesquisa domiciliar de interesse e siga as instruções. Recomenda-se
fortemente a utilização dos pacotes por meio da interface gráfica. Todos os
pacotes possuem arquivos de ajuda com explicações sobre os programas a eles
vinculados e exemplos de utilização.
(ii)
Os pacotes contêm dicionários para leitura dos dados originais e geração das
bases de dados em formato STATA (.dta). Além de auxiliarem na extração dos
dados, os programas realizam operações muito úteis para os pesquisadores,
como compatibilizar dados ao longo dos anos, deflacionar valores monetários e
gerar bases de dados em painel.
(iii)
Na aba “Pesquisas Domiciliares”, são fornecidas informações específicas sobre
cada uma das pesquisas. Em “Tutoriais, há vídeos que ilustram como usar o
Data Zoom. Os programas foram desenvolvidos para a versão STATA 12 para
Windows. Usuários de STATA para Mac podem notar algumas diferenças no
aspecto visual da interface gráfica, mas que não prejudicam o seu
funcionamento.
As pesquisas domiciliares
1. Censo Demográfico
O Censo Demográfico é uma pesquisa realizada pelo IBGE uma vez a cada dez
anos, na qual todos os domicílios do território brasileiro são visitados. O Censo
fornece uma contagem da população e recolhe informações básicas dos moradores,
como idade e gênero.
Por ocasião do Censo, o IBGE realiza uma entrevista mais detalhada com uma
grande amostra aleatória dos domicílios, na qual investiga características sócio
demográficas dos moradores (como escolaridade e rendimentos), características físicas
do local de residência (material das paredes, existência de água encanada, etc.) e posse
de bens (como geladeira e automóvel).
O Data Zoom permite a leitura dos microdados por meio do programa STATA
para os Censos de 1970, 1980, 1991, 2000 e 2010, gerando bases de dados no formato
do programa (formato “dta”). Todas as variáveis originais seguem os nomes sugeridos
pelo IBGE em seu dicionário. Para utilizar o pacote, o usuário deve obter os
Departamento de Economia
microdados referentes aos anos de interesse, os quais não são fornecidos pelo Data
Zoom.
2. Pesquisa Nacional por Amostra de Domicílios
A PNAD, Pesquisa Nacional por Amostra de Domicílios, é uma pesquisa
realizada anualmente pelo IBGE desde 1981. Essa pesquisa investiga diversas
características da população brasileira, tais como educação, trabalho, rendimento,
composição domiciliar e fecundidade. Em quase todos os anos, ocorre também a
investigação de um tema suplementar - educação, saúde, qualificação profissional e
segurança alimentar, entre outros.
As informações coletadas pela PNAD podem ser acessadas pelo público por
meio dos microdados. Até 1990, havia um único arquivo por ano, contendo os
microdados referentes a domicílios e pessoas. A partir de 1992, as informações de
domicílios e pessoas foram separadas em dois arquivos distintos.
Diversas alterações metodológicas foram realizadas pelo IBGE ao longo dos
anos. Desta forma, a mesma informação pode não estar disponível em todos os anos
e/ou pode não ter sido recolhida da mesma forma. Especificamente, houve uma grande
reformulação da PNAD em 1992, na qual se destacam a alteração do conceito de
trabalho e a adoção de um novo formato do questionário, inclusive com alterações de
nomes de variáveis.
O Data Zoom disponibiliza duas opções para compatibilizar as variáveis ao
longo do tempo. A primeira opção busca adaptar as décadas de 1990 e 2000 aos anos
1980. Entre outras implicações, diversas variáveis existentes a partir de 1992 são
excluídas no processo (todas as variáveis relacionadas a trabalho infantil, por
exemplo), pois não existiam antes desse ano. Neste caso, as variáveis da base de dados
compatibilizada para os anos 1980 não possuem os nomes sugeridos pelo dicionário
original, sendo um novo dicionário disponibilizado para download.
A segunda opção de compatibilização procura padronizar as variáveis somente
entre 1992 e 2012. Como houve poucas alterações no período, foram mantidas com o
nome original todas as variáveis que não sofreram grandes modificações. Outro
dicionário, indicando as variáveis existentes nesta base compatibilizada para os anos
1990, é disponibilizado para download. O documento "Compatibilização das PNADs"
explica todos os procedimentos adotados nas duas opções de compatibilização do
programa.
Departamento de Economia
3. Pesquisa Mensal de Emprego
A PME, Pesquisa Mensal de Emprego, é uma pesquisa amostral realizada
mensalmente pelo IBGE desde 1980, em seis regiões metropolitanas do Brasil: Belo
Horizonte, Porto Alegre, Recife, Rio de Janeiro, Salvador e São Paulo. Essa pesquisa
investiga características de trabalho e rendimento da população, sendo a fonte de
dados para a construção do principal indicador de desemprego do país até
recentemente. É também a única pesquisa do IBGE com dados em painel, ou seja, que
entrevista o mesmo domicílio seguidas vezes.
Há duas versões da PME, tradicionalmente chamadas de PME-Antiga e PMENova. Em 2002, houve uma grande reformulação da pesquisa, dando origem à PMENova. Essa reformulação ampliou significativamente o questionário, alterando
principalmente o conceito de trabalho e o esquema de rotação da amostra. Até o fim
de 2002, ambas as metodologias foram levadas a campo pelo IBGE. Em dezembro de
2002, a PME-Antiga foi descontinuada e substituída definitivamente pela PME-Nova.
As informações coletadas pela PME podem ser acessadas pelo público por
meio dos microdados. Os arquivos de microdados da PME-Antiga são organizados por
mês, região metropolitana e tipo de registro (domicílios e pessoas). A PME-Nova
possui um único arquivo por mês, contendo os microdados para os indivíduos de todas
as regiões metropolitanas (não há, portanto, arquivo de domicílios).
4. Pesquisa de Orçamentos Familiares
A POF - Pesquisa de Orçamentos Familiares - é uma pesquisa amostral
realizada pelo IBGE com o objetivo de investigar o padrão de consumo e gastos da
população brasileira, na qual os domicílios são acompanhados por doze meses. A
pesquisa é realizada a cada seis-sete anos desde 1995 (sua primeira versão foi lançada
em 1988) e abrange todo o território nacional. O principal uso dos dados da POF é a
construção das cestas de consumo dos índices de preços ao consumidor do IBGE IPCA e INPC.
A POF contém informações sobre as pessoas (idade, nível de instrução e
rendimentos), os domicílios (existência de esgoto sanitário, paredes, veículos) e
registros diferentes para cada tipo de gasto realizado. Cada tipo depende da
periodicidade da realização do gasto e a quem o gasto é atribuído, se ao domicílio ou
Departamento de Economia
ao indivíduo. Tanto a periodicidade quanto a atribuição são definidas pelo IBGE antes
da entrevista. O gasto com alimentos, por exemplo, é coletado por meio de uma
caderneta preenchida diariamente pelo domicílio durante sete dias. Por sua vez, o
gasto com serviço de cabeleireiro é registrado individualmente para um período de 90
dias.
O Data Zoom oferece pacotes separados para as POFs de 1995-96, 2002-03 e
2008-09. Cada pacote contém três ferramentas. A primeira faz a leitura dos
microdados para cada tipo de registro por meio do programa STATA, gerando bases
de dados no formato do programa (formato “dta”) sem qualquer manipulação dos
dados. A segunda ferramenta gera uma base de dados “padrão”, contendo os gastos
anualizados por domicílio (ou unidade de consumo ou indivíduo) para todos os itens
investigados, onde os itens foram agregados de acordo com o documento “Tradutores”
do IBGE. Para as duas versões mais recentes, além do valor total dos gastos, duas
variáveis são geradas: uma indicando o valor desse gasto realizado por meio de crédito
e outra medindo o valor da aquisição realizada por meios não monetários (como
doações). Finalmente, a terceira ferramenta permite que o usuário crie sua própria
cesta de consumo. Neste caso, é possível obter o valor do gasto anualizado em itens
um pouco mais desagregados do que os existentes na base padrão.
5. A Economia Informal Urbana
A ECINF, Economia Informal Urbana, é uma pesquisa amostral realizada pelo
IBGE em 1997 e 2003 em todo o país, com o objetivo de investigar o setor informal,
considerando trabalhadores por conta própria e empregadores com até cinco
empregados. O principal interesse da pesquisa são as características da unidade
produtiva, tais como o local de funcionamento (loja, em veículo automotor, etc.), o
tipo de clientela, se fez investimento no último ano, o tempo de duração do negócio,
etc.
As informações coletadas pelas ECINFs podem ser acessadas pelo público por
meio dos microdados. Devido à grande variedade de vários temas investigados, há
diversos arquivos de microdados para cada ano da pesquisa. Para utilizar o pacote, o
usuário deve possuir os microdados referentes aos anos de interesse, os quais não são
fornecidos pelo Data Zoom. Não há arquivos das ECINFs disponíveis gratuitamente
para download.
Departamento de Economia
Figura 1: Caixa de diálogo. Para acessá-la, digite "db datazoom_censo" na janela de comando
do STATA.
Departamento de Economia
Figura 2: O Data Zoom fornece também um arquivo help para auxiliar o usuário, que pode
acessá-lo via caixa de diálogo ou digitando “help datazoom_censo” na janela de comando do
STATA.
Conclusões
Nos últimos meses, minha participação no projeto foi focada em terminar arquivos que
estão disponíveis no Data Zoom para os usuários como os dicionários que servem para
compatibilizar os anos, formatação de tabelas e mudar a extensão de arquivos.
Concomitantemente, trabalhei nos dados da PME que são utilizados para acompanhar o ritmo
do mercado de trabalho.
De modo geral, o desenvolvimento do programa como já fora dito é facilitar o acesso de
pesquisadores aos microdados brasileiros, uma vez que gera base de dados em painel de
pesquisas domiciliares do IBGE. Além do mais, o pesquisador agora ganha mais tempo, visto
que executar este processo por meios próprios demanda uma quantidade grande de horas de
trabalho.
Referências
1 – Data Zoom. Disponível em: < http://www.econ.puc-rio.br/datazoom/portugues >.
Download

Clinton Justino Mallet - PUC-Rio