Departamento de Economia DATA ZOOM: PORTAL DE FERRAMENTAS DE ACESSO A MICRODADOS Aluno: Clinton Justino Mallet Orientador: Gustavo Gonzaga Introdução O acesso aos microdados das pesquisas domiciliares brasileiras pode ser feito atualmente de forma muito simples através do site do IBGE, uma das maiores fontes de dados do país. Na verdade, tem sido notável o esforço do IBGE na disseminação dos microdados de suas pesquisas nos últimos anos. No entanto, a forma como os dados estão disponíveis demanda muito tempo e trabalho dos pesquisadores para deixar as bases prontas para análise. Desta forma, são raros os pesquisadores que dispõem dos meios para operacionalizar sua utilização. Assim, participei da criação do portal Data Zoom que disponibiliza gratuitamente ferramentas que facilitam o acesso de pesquisadores do Brasil e do exterior aos microdados das pesquisas domiciliares do IBGE. Objetivos O objetivo do projeto era não somente disponibilizar o acesso ao microdados de forma clara, mas também fazer com que o pesquisador não gastasse mais tanto tempo nesses estágios iniciais de pesquisa. Disponibilizamos programas de acesso aos Censos (1970-2010), PNADs (desde 1981), PMEs (desde 1991), POFs (desde 1995) e ECINFs (1997 e 2003). O portal fornece pacotes escritos em STATA que permitem a leitura dos dados originais e várias opções para gerar as bases de dados desejadas. A ideia é possibilitar um maior conhecimento da realidade socioeconômica do país, o que é fundamental para aperfeiçoar o desenho e a execução de políticas públicas. Metodologia Ao criarmos o Data Zoom, fizemos alguns tutoriais para que o usuário pudesse entender a interface gráfica do programa e assim obter as bases desejadas. Descrevo abaixo alguns passos que ajudam a usar o portal: (i) Para instalar o programa, digite "net from http://www.econ.puc- rio.br/datazoom/portugues" na janela de comando do STATA, clique no nome Departamento de Economia da pesquisa domiciliar de interesse e siga as instruções. Recomenda-se fortemente a utilização dos pacotes por meio da interface gráfica. Todos os pacotes possuem arquivos de ajuda com explicações sobre os programas a eles vinculados e exemplos de utilização. (ii) Os pacotes contêm dicionários para leitura dos dados originais e geração das bases de dados em formato STATA (.dta). Além de auxiliarem na extração dos dados, os programas realizam operações muito úteis para os pesquisadores, como compatibilizar dados ao longo dos anos, deflacionar valores monetários e gerar bases de dados em painel. (iii) Na aba “Pesquisas Domiciliares”, são fornecidas informações específicas sobre cada uma das pesquisas. Em “Tutoriais, há vídeos que ilustram como usar o Data Zoom. Os programas foram desenvolvidos para a versão STATA 12 para Windows. Usuários de STATA para Mac podem notar algumas diferenças no aspecto visual da interface gráfica, mas que não prejudicam o seu funcionamento. As pesquisas domiciliares 1. Censo Demográfico O Censo Demográfico é uma pesquisa realizada pelo IBGE uma vez a cada dez anos, na qual todos os domicílios do território brasileiro são visitados. O Censo fornece uma contagem da população e recolhe informações básicas dos moradores, como idade e gênero. Por ocasião do Censo, o IBGE realiza uma entrevista mais detalhada com uma grande amostra aleatória dos domicílios, na qual investiga características sócio demográficas dos moradores (como escolaridade e rendimentos), características físicas do local de residência (material das paredes, existência de água encanada, etc.) e posse de bens (como geladeira e automóvel). O Data Zoom permite a leitura dos microdados por meio do programa STATA para os Censos de 1970, 1980, 1991, 2000 e 2010, gerando bases de dados no formato do programa (formato “dta”). Todas as variáveis originais seguem os nomes sugeridos pelo IBGE em seu dicionário. Para utilizar o pacote, o usuário deve obter os Departamento de Economia microdados referentes aos anos de interesse, os quais não são fornecidos pelo Data Zoom. 2. Pesquisa Nacional por Amostra de Domicílios A PNAD, Pesquisa Nacional por Amostra de Domicílios, é uma pesquisa realizada anualmente pelo IBGE desde 1981. Essa pesquisa investiga diversas características da população brasileira, tais como educação, trabalho, rendimento, composição domiciliar e fecundidade. Em quase todos os anos, ocorre também a investigação de um tema suplementar - educação, saúde, qualificação profissional e segurança alimentar, entre outros. As informações coletadas pela PNAD podem ser acessadas pelo público por meio dos microdados. Até 1990, havia um único arquivo por ano, contendo os microdados referentes a domicílios e pessoas. A partir de 1992, as informações de domicílios e pessoas foram separadas em dois arquivos distintos. Diversas alterações metodológicas foram realizadas pelo IBGE ao longo dos anos. Desta forma, a mesma informação pode não estar disponível em todos os anos e/ou pode não ter sido recolhida da mesma forma. Especificamente, houve uma grande reformulação da PNAD em 1992, na qual se destacam a alteração do conceito de trabalho e a adoção de um novo formato do questionário, inclusive com alterações de nomes de variáveis. O Data Zoom disponibiliza duas opções para compatibilizar as variáveis ao longo do tempo. A primeira opção busca adaptar as décadas de 1990 e 2000 aos anos 1980. Entre outras implicações, diversas variáveis existentes a partir de 1992 são excluídas no processo (todas as variáveis relacionadas a trabalho infantil, por exemplo), pois não existiam antes desse ano. Neste caso, as variáveis da base de dados compatibilizada para os anos 1980 não possuem os nomes sugeridos pelo dicionário original, sendo um novo dicionário disponibilizado para download. A segunda opção de compatibilização procura padronizar as variáveis somente entre 1992 e 2012. Como houve poucas alterações no período, foram mantidas com o nome original todas as variáveis que não sofreram grandes modificações. Outro dicionário, indicando as variáveis existentes nesta base compatibilizada para os anos 1990, é disponibilizado para download. O documento "Compatibilização das PNADs" explica todos os procedimentos adotados nas duas opções de compatibilização do programa. Departamento de Economia 3. Pesquisa Mensal de Emprego A PME, Pesquisa Mensal de Emprego, é uma pesquisa amostral realizada mensalmente pelo IBGE desde 1980, em seis regiões metropolitanas do Brasil: Belo Horizonte, Porto Alegre, Recife, Rio de Janeiro, Salvador e São Paulo. Essa pesquisa investiga características de trabalho e rendimento da população, sendo a fonte de dados para a construção do principal indicador de desemprego do país até recentemente. É também a única pesquisa do IBGE com dados em painel, ou seja, que entrevista o mesmo domicílio seguidas vezes. Há duas versões da PME, tradicionalmente chamadas de PME-Antiga e PMENova. Em 2002, houve uma grande reformulação da pesquisa, dando origem à PMENova. Essa reformulação ampliou significativamente o questionário, alterando principalmente o conceito de trabalho e o esquema de rotação da amostra. Até o fim de 2002, ambas as metodologias foram levadas a campo pelo IBGE. Em dezembro de 2002, a PME-Antiga foi descontinuada e substituída definitivamente pela PME-Nova. As informações coletadas pela PME podem ser acessadas pelo público por meio dos microdados. Os arquivos de microdados da PME-Antiga são organizados por mês, região metropolitana e tipo de registro (domicílios e pessoas). A PME-Nova possui um único arquivo por mês, contendo os microdados para os indivíduos de todas as regiões metropolitanas (não há, portanto, arquivo de domicílios). 4. Pesquisa de Orçamentos Familiares A POF - Pesquisa de Orçamentos Familiares - é uma pesquisa amostral realizada pelo IBGE com o objetivo de investigar o padrão de consumo e gastos da população brasileira, na qual os domicílios são acompanhados por doze meses. A pesquisa é realizada a cada seis-sete anos desde 1995 (sua primeira versão foi lançada em 1988) e abrange todo o território nacional. O principal uso dos dados da POF é a construção das cestas de consumo dos índices de preços ao consumidor do IBGE IPCA e INPC. A POF contém informações sobre as pessoas (idade, nível de instrução e rendimentos), os domicílios (existência de esgoto sanitário, paredes, veículos) e registros diferentes para cada tipo de gasto realizado. Cada tipo depende da periodicidade da realização do gasto e a quem o gasto é atribuído, se ao domicílio ou Departamento de Economia ao indivíduo. Tanto a periodicidade quanto a atribuição são definidas pelo IBGE antes da entrevista. O gasto com alimentos, por exemplo, é coletado por meio de uma caderneta preenchida diariamente pelo domicílio durante sete dias. Por sua vez, o gasto com serviço de cabeleireiro é registrado individualmente para um período de 90 dias. O Data Zoom oferece pacotes separados para as POFs de 1995-96, 2002-03 e 2008-09. Cada pacote contém três ferramentas. A primeira faz a leitura dos microdados para cada tipo de registro por meio do programa STATA, gerando bases de dados no formato do programa (formato “dta”) sem qualquer manipulação dos dados. A segunda ferramenta gera uma base de dados “padrão”, contendo os gastos anualizados por domicílio (ou unidade de consumo ou indivíduo) para todos os itens investigados, onde os itens foram agregados de acordo com o documento “Tradutores” do IBGE. Para as duas versões mais recentes, além do valor total dos gastos, duas variáveis são geradas: uma indicando o valor desse gasto realizado por meio de crédito e outra medindo o valor da aquisição realizada por meios não monetários (como doações). Finalmente, a terceira ferramenta permite que o usuário crie sua própria cesta de consumo. Neste caso, é possível obter o valor do gasto anualizado em itens um pouco mais desagregados do que os existentes na base padrão. 5. A Economia Informal Urbana A ECINF, Economia Informal Urbana, é uma pesquisa amostral realizada pelo IBGE em 1997 e 2003 em todo o país, com o objetivo de investigar o setor informal, considerando trabalhadores por conta própria e empregadores com até cinco empregados. O principal interesse da pesquisa são as características da unidade produtiva, tais como o local de funcionamento (loja, em veículo automotor, etc.), o tipo de clientela, se fez investimento no último ano, o tempo de duração do negócio, etc. As informações coletadas pelas ECINFs podem ser acessadas pelo público por meio dos microdados. Devido à grande variedade de vários temas investigados, há diversos arquivos de microdados para cada ano da pesquisa. Para utilizar o pacote, o usuário deve possuir os microdados referentes aos anos de interesse, os quais não são fornecidos pelo Data Zoom. Não há arquivos das ECINFs disponíveis gratuitamente para download. Departamento de Economia Figura 1: Caixa de diálogo. Para acessá-la, digite "db datazoom_censo" na janela de comando do STATA. Departamento de Economia Figura 2: O Data Zoom fornece também um arquivo help para auxiliar o usuário, que pode acessá-lo via caixa de diálogo ou digitando “help datazoom_censo” na janela de comando do STATA. Conclusões Nos últimos meses, minha participação no projeto foi focada em terminar arquivos que estão disponíveis no Data Zoom para os usuários como os dicionários que servem para compatibilizar os anos, formatação de tabelas e mudar a extensão de arquivos. Concomitantemente, trabalhei nos dados da PME que são utilizados para acompanhar o ritmo do mercado de trabalho. De modo geral, o desenvolvimento do programa como já fora dito é facilitar o acesso de pesquisadores aos microdados brasileiros, uma vez que gera base de dados em painel de pesquisas domiciliares do IBGE. Além do mais, o pesquisador agora ganha mais tempo, visto que executar este processo por meios próprios demanda uma quantidade grande de horas de trabalho. Referências 1 – Data Zoom. Disponível em: < http://www.econ.puc-rio.br/datazoom/portugues >.