DPE – DIRETORIA DE PESQUISAS
COREN – COORDENAÇÃO DE TRABALHO E RENDIMENTO
GEPME – GERÊNCIA DE PESQUISA MENSAL
Imputação de Valores Faltantes
Referentes às Variáveis de
Rendimento do Trabalho
Pesquisa Mensal de Emprego
METODOLOGIA
02/04/2007
Rendimentos do Trabalho na PME
habitual
Rendimento no trabalho principal
efetivo
habitual
Rendimento no(s) outro(s) trabalho(s)
efetivo
Metodologia de Imputação de Rendimentos
Adotou-se a metodologia que combina Árvores de Regressão
com seleção probabilística de doadores em cada estrato
construído através da árvore (Breiman et al, 1984) .
Árvore de Regressão
O que é?
É um método de estratificação que utiliza os valores
respondidos de uma ou mais variáveis, para classificar registros
em grupos homogêneos, a partir de um conjunto de variáveis
explicativas.
Em geral, chamamos estes grupos de nós ou estratos. Cada
estrato é subdividido em outros dois estratos e assim por
diante, criando-se a árvore.
Árvore de Regressão
Como escolher a partição?
• Escolher a variável a ser particionada;
• Escolher a partição desta variável que faça dos dois
estratos resultantes, os mais homogêneos possíveis, quanto
a variável dependente.
Árvore de Regressão
- Esse processo de partição se repete até a chegada do nó
terminal, definido por um critério de parada;
- Os estratos finais formarão as classes de imputação;
- No caso da PME, os registros são os indivíduos que são
agrupados em estratos homogêneos, em relação ao
rendimento.
Definições para a construção da árvore na PME
• Utilização da função RPART do software R;
• Uma árvore por mês para cada região metropolitana investigada pela
PME (Recife, Salvador, Belo Horizonte, Rio de Janeiro, São Paulo e
Porto Alegre);
• Critério de parada: mínimo de 1% do total de registros no nó terminal;
• Variável dependente: rendimento habitual no trabalho principal;
Definições para a construção da árvore na PME
• Variáveis explicativas para o rendimento habitual no trabalho
principal:
 Sexo;
 Condição do Morador no Domicílio;
 Idade;
 Anos de Estudo;
 Posição na ocupação no Trabalho Principal;
 Tamanho do Empreendimento do Trabalho Principal;
 Horas Habitualmente Trabalhadas na Semana no Trabalho
Principal.
Figura: Exemplo de Árvore construída para a Região Metropolitana de
São Paulo em dezembro de 2005.
Nó Raiz
Mulheres, que não
são empregadoras
e com menos de 11
anos de estudo
Anos_estudo < 14,5
Pos_ocup = 1,2,3,4,5
Condição = 2
Tam = 1
Anos_est < 12,5
Anos_est < 10,5
Sexo = 2
Nó terminal
Empregadores com menos de 15
anos de estudo em
empreendimentos com mais de 6
funcionários
Figura: Posições de entrada das variáveis explicativas na
construção da árvore
(Região metropolitana de São Paulo - março de 2002 a dezembro de 2006).
Anos de
Estudo
Posição na
Ocupação
Condição no
Domicílio
Horas
Trabalhadas
Tamanho do
Empreendimento
Sexo
Idade
0%
10%
1ª
20%
2ª
30%
3ª
40%
4ª
50%
5ª ou mais
60%
70%
Não entra
80%
90%
100%
Procedimento de Imputação
• Procedimento diferenciado para o tipo de não-resposta de rendimento:
 Não resposta total de rendimento: rendimento habitual e
rendimento efetivo ignorados (tanto para o rendimento no trabalho
principal quanto para o rendimento do(s) outro(s) trabalho(s));
 Não resposta parcial de rendimento: um dos rendimentos
respondidos e o outro ignorado;
Procedimento de Imputação
• Para a não resposta total dos rendimentos utiliza-se a árvore
construída da seguinte forma:
- Procedimento hot-deck com seleção aleatória dentro de classes, ou
seja, em cada nó seleciona-se aleatoriamente, com probabilidade
proporcional ao peso de cada indivíduo, um doador para os rendimentos
ignorados.
- Os doadores são aqueles que possuem rendimentos habituais e
efetivos respondidos, excluindo em cada nó aqueles que apresentam
valores extremos :
Procedimento de Imputação
LI = Q1 - 2,0(Q3-Q1)
e
LS = Q3 + 2,0(Q3-Q1),
- Para uma pessoa com 2 rendimentos ignorados, seleciona-se um
doador que irá ceder seus 2 rendimentos a este receptor.
- Para uma pessoa que tenha o vetor de 4 rendimentos ignorados,
seleciona-se um doador para ceder os 4 rendimentos.
- Caso não haja doadores a seleção é feita no nó raiz, com doadores
com a mesma posição na ocupação. Se ainda não houver, a seleção é
feita no nó raiz, sem restrições.
Procedimento de Imputação
• Para a não resposta parcial dos rendimentos optou-se por aproveitar a
informação do outro rendimento respondido:
- Cerca de 90% dos indivíduos declaram rendimento habitual e efetivo
com valores iguais;
- Se respondeu efetivo e não respondeu habitual - imputa o rendimento
habitual pelo efetivo respondido;
- Se respondeu habitual e não respondeu efetivo - imputa o rendimento
efetivo pelo habitual respondido;
- Procedimento utilizado tanto para os rendimentos no trabalho principal
quanto no rendimento do(s) outro(s) trabalho(s).
Procedimento de Imputação
• Exceções para a não resposta parcial:
 Meses de janeiro: influência do 13º salário no rendimento efetivo
Rendimento habitual 
Rendimento efetivo
Razão
Rendimento efetivo  Rendimento habitual x Razão
É uma razão (efetivo/habitual) média calculada dentro de cada nó para
três grupos distintos:
- Trabalhadores domésticos
- Militares ou funcionários públicos e empregados com carteira
- Empregados sem carteira, conta própria e empregadores.
Procedimento de Imputação
• Exceções para a não resposta parcial:
 Rendimento efetivo igual a zero e rendimento habitual ignorado:
- Utiliza-se as classes de imputação obtidas pela árvore e
seleciona-se um doador para o rendimento habitual
Procedimento de Imputação
• Avaliação:
- Após o procedimento de imputação, em cada nó terminal da
árvore efetua-se o teste de Kolmogorov-Smirnov;
- Avalia se duas distribuições foram extraídas de uma mesma
população;
- Efetuado com os rendimentos antes e após da imputação;
- Para os meses de março de 2002 até dezembro de 2006, não
foram encontrados p-valores abaixo do nível de significância (5%).
Referências
BREIMAN, L., FRIEDMAN, J.H., OLSHEN R.H. and STONE, C.J. Classification and
Regression Trees, 1984, Monterrey:Wadsworth and Brooks/Cole.
PESSOA, D.G.C. e SANTOS, A.R. Imputação de renda dos responsáveis por
domicílios - conjunto universo do Censo Demográfico 2000, 2003, Relatório Técnico,
DEMET/DPE/IBGE.
PESSOA,D.G.C., MOREIRA, G.G. e SANTOS, A.R. Imputação de rendimentos no
questionário da amostra do Censo Demográfico 2000, 2003, Relatório Técnico,
DEMET/DPE/IBGE.