DPE – DIRETORIA DE PESQUISAS COREN – COORDENAÇÃO DE TRABALHO E RENDIMENTO GEPME – GERÊNCIA DE PESQUISA MENSAL Imputação de Valores Faltantes Referentes às Variáveis de Rendimento do Trabalho Pesquisa Mensal de Emprego METODOLOGIA 02/04/2007 Rendimentos do Trabalho na PME habitual Rendimento no trabalho principal efetivo habitual Rendimento no(s) outro(s) trabalho(s) efetivo Metodologia de Imputação de Rendimentos Adotou-se a metodologia que combina Árvores de Regressão com seleção probabilística de doadores em cada estrato construído através da árvore (Breiman et al, 1984) . Árvore de Regressão O que é? É um método de estratificação que utiliza os valores respondidos de uma ou mais variáveis, para classificar registros em grupos homogêneos, a partir de um conjunto de variáveis explicativas. Em geral, chamamos estes grupos de nós ou estratos. Cada estrato é subdividido em outros dois estratos e assim por diante, criando-se a árvore. Árvore de Regressão Como escolher a partição? • Escolher a variável a ser particionada; • Escolher a partição desta variável que faça dos dois estratos resultantes, os mais homogêneos possíveis, quanto a variável dependente. Árvore de Regressão - Esse processo de partição se repete até a chegada do nó terminal, definido por um critério de parada; - Os estratos finais formarão as classes de imputação; - No caso da PME, os registros são os indivíduos que são agrupados em estratos homogêneos, em relação ao rendimento. Definições para a construção da árvore na PME • Utilização da função RPART do software R; • Uma árvore por mês para cada região metropolitana investigada pela PME (Recife, Salvador, Belo Horizonte, Rio de Janeiro, São Paulo e Porto Alegre); • Critério de parada: mínimo de 1% do total de registros no nó terminal; • Variável dependente: rendimento habitual no trabalho principal; Definições para a construção da árvore na PME • Variáveis explicativas para o rendimento habitual no trabalho principal: Sexo; Condição do Morador no Domicílio; Idade; Anos de Estudo; Posição na ocupação no Trabalho Principal; Tamanho do Empreendimento do Trabalho Principal; Horas Habitualmente Trabalhadas na Semana no Trabalho Principal. Figura: Exemplo de Árvore construída para a Região Metropolitana de São Paulo em dezembro de 2005. Nó Raiz Mulheres, que não são empregadoras e com menos de 11 anos de estudo Anos_estudo < 14,5 Pos_ocup = 1,2,3,4,5 Condição = 2 Tam = 1 Anos_est < 12,5 Anos_est < 10,5 Sexo = 2 Nó terminal Empregadores com menos de 15 anos de estudo em empreendimentos com mais de 6 funcionários Figura: Posições de entrada das variáveis explicativas na construção da árvore (Região metropolitana de São Paulo - março de 2002 a dezembro de 2006). Anos de Estudo Posição na Ocupação Condição no Domicílio Horas Trabalhadas Tamanho do Empreendimento Sexo Idade 0% 10% 1ª 20% 2ª 30% 3ª 40% 4ª 50% 5ª ou mais 60% 70% Não entra 80% 90% 100% Procedimento de Imputação • Procedimento diferenciado para o tipo de não-resposta de rendimento: Não resposta total de rendimento: rendimento habitual e rendimento efetivo ignorados (tanto para o rendimento no trabalho principal quanto para o rendimento do(s) outro(s) trabalho(s)); Não resposta parcial de rendimento: um dos rendimentos respondidos e o outro ignorado; Procedimento de Imputação • Para a não resposta total dos rendimentos utiliza-se a árvore construída da seguinte forma: - Procedimento hot-deck com seleção aleatória dentro de classes, ou seja, em cada nó seleciona-se aleatoriamente, com probabilidade proporcional ao peso de cada indivíduo, um doador para os rendimentos ignorados. - Os doadores são aqueles que possuem rendimentos habituais e efetivos respondidos, excluindo em cada nó aqueles que apresentam valores extremos : Procedimento de Imputação LI = Q1 - 2,0(Q3-Q1) e LS = Q3 + 2,0(Q3-Q1), - Para uma pessoa com 2 rendimentos ignorados, seleciona-se um doador que irá ceder seus 2 rendimentos a este receptor. - Para uma pessoa que tenha o vetor de 4 rendimentos ignorados, seleciona-se um doador para ceder os 4 rendimentos. - Caso não haja doadores a seleção é feita no nó raiz, com doadores com a mesma posição na ocupação. Se ainda não houver, a seleção é feita no nó raiz, sem restrições. Procedimento de Imputação • Para a não resposta parcial dos rendimentos optou-se por aproveitar a informação do outro rendimento respondido: - Cerca de 90% dos indivíduos declaram rendimento habitual e efetivo com valores iguais; - Se respondeu efetivo e não respondeu habitual - imputa o rendimento habitual pelo efetivo respondido; - Se respondeu habitual e não respondeu efetivo - imputa o rendimento efetivo pelo habitual respondido; - Procedimento utilizado tanto para os rendimentos no trabalho principal quanto no rendimento do(s) outro(s) trabalho(s). Procedimento de Imputação • Exceções para a não resposta parcial: Meses de janeiro: influência do 13º salário no rendimento efetivo Rendimento habitual Rendimento efetivo Razão Rendimento efetivo Rendimento habitual x Razão É uma razão (efetivo/habitual) média calculada dentro de cada nó para três grupos distintos: - Trabalhadores domésticos - Militares ou funcionários públicos e empregados com carteira - Empregados sem carteira, conta própria e empregadores. Procedimento de Imputação • Exceções para a não resposta parcial: Rendimento efetivo igual a zero e rendimento habitual ignorado: - Utiliza-se as classes de imputação obtidas pela árvore e seleciona-se um doador para o rendimento habitual Procedimento de Imputação • Avaliação: - Após o procedimento de imputação, em cada nó terminal da árvore efetua-se o teste de Kolmogorov-Smirnov; - Avalia se duas distribuições foram extraídas de uma mesma população; - Efetuado com os rendimentos antes e após da imputação; - Para os meses de março de 2002 até dezembro de 2006, não foram encontrados p-valores abaixo do nível de significância (5%). Referências BREIMAN, L., FRIEDMAN, J.H., OLSHEN R.H. and STONE, C.J. Classification and Regression Trees, 1984, Monterrey:Wadsworth and Brooks/Cole. PESSOA, D.G.C. e SANTOS, A.R. Imputação de renda dos responsáveis por domicílios - conjunto universo do Censo Demográfico 2000, 2003, Relatório Técnico, DEMET/DPE/IBGE. PESSOA,D.G.C., MOREIRA, G.G. e SANTOS, A.R. Imputação de rendimentos no questionário da amostra do Censo Demográfico 2000, 2003, Relatório Técnico, DEMET/DPE/IBGE.