Aula 7 - Método não-experimental –Pareamento
Material Elaborado por Betânia Peixoto
Modificado por Guilherme Irffi e Francis Petterini
Método não-experimental -Pareamento
Metodologia que utiliza critérios estatísticos para a seleção do grupo controle
mais similar ao grupo tratado.
Problema da Avaliação
Relembrando:
Impacto = ATT = E[Yp, T=1] - E[Ysp, T=1]
Não observamos Ysp quando T=1.
Se E[Ysp, T=1] ≠ E[Yc, T=0]
Erro: ε= E[Ysp, T=1] - E[Yc, T=0]
(1)
O ATT é dado por:
ATT = E[Yp, T=1] - E[Yc, T=0] + ε (2)
Viés ou erro
Substituindo (1) em (2)
ATT = E[Yp, T=1] - E[Yc, T=0] + {E[Ysp, T=1] - E[Yc, T=0] }
O Erro ou Viés
O Viés é causado pelas características diferentes entre tratado e
controle que levam à que o indicador de impacto seja diferente
entre os grupos.
O Viés poderia ser decomposto em 3 componentes ou causas:
 1) primeiro é a falta de suporte comum. (pareamento)
 2) viés proveniente dos observáveis. (regressão
linear/pareamento)
 3) viés de seleção, ou viés proveniente dos não observáveis
Implicações para a estratégia de estimação do efeito do
tratamento médio

Passos a seguir:
1.
2.
3.
Estratificar os dados dentro de cada célula definida para cada
valor de X
Dentro de cada célula (i.e. condicionado em X) calcular a
diferença na variável de resultado médio entre o grupo de
tratamento e o de controle;
A média destas diferenças quanto à distribuição de X, na
população de unidades tratadas.
Características desejáveis dos métodos de matching



As observações utilizadas para estimar o efeito causal são
selecionadas sem referência ao resultado, como em um
experimento controlado.
Domina outros métodos baseados na seleção nos observáveis
(como OLS) em virtude de uma comparação mais convincente
entre tratados e controles
Existem algumas evidências de que tais métodos contribuem
para reduzir o viés (Dehejia & Wahba, 1999; Dehejia, 2005;
Smith & Todd, 2005)
Problemas comuns com o método de pareamento
Este método requer resolver dois tipos de problemas:
O problema da dimensão:
1.
•
•
2.
Com K variáveis binárias, o número de células é 2k e cresce exponencialmente com K
Ainda mais se K tomar mais de dois valores e então é muito fácil enfrentar:
Falta de suporte comum: isto ocorre quando não é possível encontrar uma
unidade no grupo de controle que tenha os mesmos valores de X para uma
unidade do grupo de tratados.
Implicações para a estratégia de estimação do efeito do
tratamento médio

Passos a seguir:
1.
Estimação do “escore de propensão”
2.
Identificação do suporte comum
3.
Estimação do efeito médio de tratamento dado o “escore de
propensão”
Métodos de Escore de Propensão



Rosenbaum e Rubin (1983): interesse em métodos que evitam o
ajuste direto por todas as covariadas.
Alternativa: foco - ajuste para diferenças no escore de propensão.
Varias formas de implementação:
 Ponderar as observações em termos do escore de propensão
(e indiretamente em termos das covariadas) para criar
balanceamento entre unidades tratadas e de controle na
amostra ponderada. Hirano, Imbens e Ridder - mostram
como tais estimadores atingem limites de eficiência semiparametrica
Métodos de Escore de Propensão

Varias formas de implementação:
 Dividir a amostra em subamostras com aproximadamente o
mesmo valor do escore de propensão - técnica conhecida
como "blocking"
 Utilizar o escore de propensão diretamente com um regressor
numa abordagem de regressão ou match no escore de
propensão.
“escore de propensão”

O “escore de propensão” transforma o problema multidimensional em um
problema unidimensional

Definição: escore de propensão (Rosembaum e Rubin, 1983): O “escore de
propensão” é a probabilidade condicional de receber o tratamento dadas as
variáveis observadas X antes do tratamento:
p(X) =Pr{D = 1|X} = E{D|X}
Propriedades do “escore de propensão

Lema 1 Equilibrar as variáveis pré-tratamento, X, dado o
escore de propensão (Rosenbaum and Rubin, 1983)
Se p(X) é o “escore de propensão”
X  D | p(X)
ou
F(X|D=1,P(X))=F(X|D=0,P(X))

Lema 2 Não tendencioso, dado o “escore de propensão”
(Rosenbaum e Rubin, 1983)
Supondo que existe independência condicional:
Y (1), Y (0)  D | X
Então a atribuição do tratamento é não tendenciosa dado o “escore de
propensão”
Y (1), Y (0)  D | p(X)
Efeito do tratamento médio usando “escore de propensão”

Usando o “escore de propensão” podemos emparelhar casos e
controles com base neste, em vez do vetor multidimensional X
E{Yi(0)|Di = 0, p(Xi)} = E{Yi(0)|Di = 1, p(Xi)} = E{Yi(0)|p(Xi)}
E{Yi(1)|Di = 0, p(Xi)} = E{Yi(1)|Di = 1, p(Xi)} = E{Yi(1)|p(Xi)}

Usando estas expressões,
definida por p(X):
podemos definir para cada célula
p(x)  E{i|p(Xi)}
 E{Yi(1)|p(Xi)} - E{Yi(0)|p(Xi)}
= E{Yi|Di = 1, p(Xi)} - E{Yi|Di = 0, p(Xi)}.
13
Métodos de Pareamento
Exemplos:


Pareamento Estratificado (Stratification Matching);
Pareamento por Vizinho mais Próximo (Nearest Neighbor
Matching);
Pareamento Estratificado

O que faz: Consiste em dividir o escopo da variação do escore de
propensão em intervalos, tais que dentro de cada intervalo as
unidades tratadas e controles tenham na média o mesmo escore de
propensão.

O principal problema: descarta blocos que só possuem unidades
tratadas ou só unidades não tratadas, ou seja, blocos em que não é
possível fazer o pareamento. Perde-se muitas unidades da amostra
de tratado e não tratado.
Pareamento por Vizinho mais Próximo


O que faz: Para cada unidade tratada é procurada uma unidade
não tratada com o escore de propensão mais próximo - o
pareamento é realizado de forma a minimizar a diferença absoluta
entre o escore de propensão da unidade tratada e não tratada.
Formalmente, considere que pt e pnt denotam o escore de
propensão das unidades tratadas e não tratadas, respectivamente. O
conjunto de unidades não tratadas pareadas com as unidades
tratadas é dado por:
C (T )  min pT  pNT
Pareamento por Vizinho mais Próximo

Vantagem: para cada unidade tratada sempre é encontrado um
par, não tratado, evitando a exclusão de observações tratadas.

Principal Problema: pode gerar pareamento de indivíduos com
escore de propensão muito diferentes, pois o vizinho mais próximo
pode não ser tão próximo.

Os métodos de Pareamento por Raio e de Pareamento de Kernel
oferecem uma solução a este problema.
Limitações

Quando fazemos PSM criamos um grupo observado suposto
análogo ao do experimento aleatório, onde todos têm a mesma
probabilidade de receber o tratamento. A diferença é que no PSM
a probabilidade é uniformemente distribuída entre os tratados e os
não tratados, condicional as variáveis usadas para o pareamento
(Z).

No experimento aleatório os tratados e os não tratados são
idênticos em termos de distribuição de todos os atributos,
observados e não observados.
Limitações
O impacto estimado obtido por PSM deve sempre depender das
variáveis usadas para o pareamento.

Se a escolha de Z não inclui importantes determinantes do recebimento do
tratamento, a presença destas características não observáveis fará com que
PSM não seja capaz de reproduzir os resultados de um experimento aleatório.

Se as variáveis determinantes do recebimento do tratamento são bem
selecionadas o PSM consegue eliminar o viés proveniente dos observáveis.
Intuição dos métodos de pareamento

Se a aleatorização não é viável e a seleção é feita baseada num
conjunto de variáveis observáveis X, então é necessário recorrer
aos métodos de pareamento.

A intuição indica que o grupo de comparação deve ser o mais
similar possível ao grupo de tratamento em termos dos
elementos observáveis antes que o tratamento se desenvolva
(assumindo que não há diferenças nos não observáveis).

Os métodos de pareamento são técnicas para construir grupos
de comparação em base aos observáveis.
No
mínimo, os métodos de matching fornecem uma maneira
convincente de selecionar as observações nas quais outros métodos
podem ser aplicados em seguida.
X possui apenas variáveis categóricas (ou você categoriza)
Suponha que na base de dados as covaridadas sejam:
gênero; idade; e, anos de estudo;
 Defina uma dummies: Homem=1; Jovem=1 se
idade<18 anos; e, Escolaridade=1 se anos de
estudo>10.
 Dessa forma você possui Z = 2^3 = 8 “tipos” de
pessoas com o mesmo X .
 Para cada “tipo”, uma parte recebeu o tratamento...
Indicado com T=1.

A base de dados ficará, por exemplo, assim...
Tipo = Z
homem
1
2
3
4
5
6
7
8
jovem
0
1
0
1
0
1
0
1
Número de obs.
escolaridade T=0
T=1
Total
0
0
19
48
0
0
34
35
1
0
17
15
1
0
48
15
0
1
31
27
0
1
41
31
1
1
16
28
1
1
37
32
67
69
32
63
58
72
44
69
Lembre que...
O escore de propensão é dado por:
P(Z) = Prob(Ti=1| Z) 0 < P(Z) < 1
Onde Z é o vetor de variáveis de controle... Mas agora, usando apenas
variáveis categóricas, pode ser interpretado como um “tipo” de pessoa.
Ou seja, na prática, essa lógica está se forçando o encontro de duas
unidades, uma tratada e uma não tratada, com o mesmo escore de
propensão.
Então, salvo situações onde X é estritamente categórica, a ilustração aqui
serve essencialmente a título didático! Pois existe um “erro” associado
a arbitragem por parte do pesquisador na categorização de variáveis
contínuas.
Número de obs.
Tipo = Z homem
1
2
3
4
5
6
7
8
jovem
0
1
0
1
0
1
0
1
escolaridade T=0
0
0
1
1
0
0
1
1
0
0
0
0
1
1
1
1
T=1
Total
P(T=1|Z)
19
48
67 0.207792
34
35
69 0.151515
17
15
32 0.064935
48
15
63 0.064935
31
27
58 0.116883
41
31
72 0.134199
16
28
44 0.121212
37
32
69 0.138528
231
1.000000
Note que...
O escore de propensão é dado por:
P(Z) = Prob(Ti=1| Z) 0 < P(Z) < 1
Note que o fato de 0 < P(Z) < 1 para todo Z=1,2,...,7,8 implica que
observamos “tratados” e “controles” em todos os tipos. Logo temos
suporte comum!
Mais ainda, Prob(Ti=1| Z) ~ Prob(Ti=0| Z) também temos um
“balanceamento” entre tratados e controles para cada tipo.
Existindo suporte comum, quanto mais balanceado for o pareamento,
melhor ele será!
Número de obs.
tipo
homem
jovem
escolaridade T=0
T=1
Total
P(T=1|Z)
P(T=0|Z)
1
0
0
0
19
48
67 0.207792 0.078189
2
1
0
0
34
35
69 0.151515 0.139918
3
0
1
0
17
15
32 0.064935 0.069959
4
1
1
0
48
15
63 0.064935 0.197531
5
0
0
1
31
27
58 0.116883 0.127572
6
1
0
1
41
31
72 0.134199 0.168724
7
0
1
1
16
28
44 0.121212 0.065844
8
1
1
1
37
32
69 0.138528 0.152263
231
1.000000
1.00000
O ATT é dado por:
ATT = E[Yp, T=1] - E[Yc, T=0] + ε
Se o pareamento for bom, podemos considerar ε=0.
Por enquanto deixe de lado o conceito de “bom
pareamento”, e vamos calcular o ATT!
ATT = ∑z Pr(Z) . (E[Yp, T=1 | Z] - E[Yc, T=0 | Z])
ATT = ∑z Pr(Z) . (E[Yp, T=1 | Z] - E[Yc, T=0 | Z])
tipo
Número de obs.
a
b
T=0
T=1
Total P(T=1|Z) P(T=0|Z) P(Z)
E(Y|Z,T=1) E(Y|Z,T=0) a-b | Z
ATT|Z
1
19
48
67
0.208
0.078
0.141 1.02379 0.33899 0.68479 0.096796
2
34
35
69
0.152
0.140
0.146 1.70503
0.87110 0.83393 0.121395
3
17
15
32
0.065
0.070
0.068 0.36692 0.30045 0.06647 0.004487
4
48
15
63
0.065
0.198
0.133 0.17361 0.06901 0.10461 0.013903
5
31
27
58
0.117
0.128
0.122 1.24802 0.26854 0.97947 0.119851
6
41
31
72
0.134
0.169
0.152 0.13004 0.93553 -0.80550 -0.12235
7
16
28
44
0.121
0.066
0.093 0.99734 0.74243 0.25492 0.023663
8
37
32
69
0.139
0.152
0.146 1.61884 0.57581 1.04303 0.151834
231
1.000
1.000
1.000
ATT =
0.4095
E o conceito de “bom pareamento”?
Se você tiver informação suficiente, uma forma de dizer que
existe “bom pareamento” é fazer um teste de diferença de
médias para todo tipo Z entre:
P(T=1|Z)
P(T=0|Z)
Se todos os testes não rejeitarem a hipótese nula P(T=1|Z)=
P(T=0|Z), então é possível aceitar que houve um “bom
pareamento”.
Algo
útil: Lógica Booleana
O elemento-chave da lógica Boolena é a conversão de sequencias
binárias em números inteiros. Por exemplo, o tipo Z=4 é “homem,
jovem de escolaridade baixa”, representado numa sequencia
{1,1,0}. Para fazer Pareamento no Excel, é muito útil conhecer a
lógica de conversão de Boole.
Note que…
Z = 4 = 1+(2^0) . 1 + (2^1) . 1 + (2^2) . 0
Algo
útil: Lógica Booleana
Para todo tipo Z representado pela sequencia {D1, D2, D3}
temos…
Z = 1+(2^0) . D1 + (2^1) . D2 + (2^2) . D3
De forma geral, para todo tipo Z representado pela sequencia {D1, D2, D3, …,
DK} temos…
Z = 1+(2^0) . D1 + (2^1) . D2 + (2^2) . D3 + … + (2^(K-1)) . DK
Em síntese
O PSM tende a resolver o viés gerado pela ausência de suporte
comum e o viés proveniente dos observáveis que podem estar
presentes na estimação por Regressão, vista na aula passada.
Entretanto o viés proveniente das características não observáveis
ainda estará presente na estimação.
Comentários Finais

Aula de hoje: aprendemos a selecionar o grupo controle pela
técnica de pareamento por escore de propensão para realizar a
avaliação de impacto quando a seleção de tratados e não-tratados
não foi aleatória.

Na próxima aula: aprenderemos um método para realizar a
avaliação de impacto quando tivermos as informações dos
tratados e controles em pelo menos dois momentos no tempo:
antes e depois do programa.
Download

1 - Avaliação Econômica de Projetos Sociais