Aula 8 – Diferenças em Diferenças Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini Diferenças em Diferenças “ Procedimentos estatísticos para Avaliação de Impacto do programa quando temos disponíveis as informações de ANTES e de DEPOIS do tratamento”. Plano de Aula Conceito de avaliação de impacto pelo método de diferenças em diferenças Implicação sobre o viés de seleção Combinação do método de diferenças em diferenças com o pareamento por escore de propensão. Diferenças em Diferenças - DD Quando: a separação entre os grupos de tratamento e controle não foi aleatória e quando temos grupos de tratamento e controle diferentes em relação a características que não são observáveis. O estimador de DD é uma popular abordagem de avaliação utilizada quando existe amostra para mais de um período no tempo. . O que é requerido Esta metodologia compara os grupos de tratamento e de controle em termos de mudanças no produto relativo à pré-intervenção. Para isto, requer dados amostrais para os tratados e não tratados em pelo menos dois períodos no tempo, antes e depois da intervenção. Intuitivamente Por meio do método DD, comparamos amostras de tratados e não tratados antes e depois da intervenção. Calculamos a diferença na média dos produtos antes e depois da intervenção para cada grupo, tratado e não tratado. A diferença entre estas duas diferenças é o impacto estimado. Relembrando: Problema da Avaliação Impacto = ATT = E[Yp, P=1] - E[Ysp, P=1] Não observamos Ysp quando P=1. Se E[Ysp, P=1] ≠ E[Yc, P=0] Erro: ε= E[Ysp, P=1] - E[Yc, P=0] (1) O ATT é dado por: ATT = E[Yp, P=1] - E[Yc, P=0] + ε (2) Viés ou erro Substituindo (1) em (2) ATT = E[Yp, P=1] - E[Yc, P=0] + {E[Ysp, P=1] - E[Yc, P=0] } Relembrando: O Erro ou Viés O Viés é causado pelas características diferentes entre tratado e controle que levam à que o indicador de impacto seja diferente entre os grupos. O Viés poderia ser decomposto em 3 componentes ou causas: 1) primeiro é a falta de suporte comum. (pareamento) 2) viés proveniente dos observáveis. (regressão linear/pareamento) 3) viés de seleção, ou viés proveniente dos não observáveis (Diferenças em Diferenças) Formalmente: Diferenças em Diferenças Yit denota o produto mensurado para a i-ésima unidade observada nas duas datas, t = 0,1. Por definição no período 0 ninguém é tratado Ti0=0 ATT = E(YPi1 - YPi0 |Ti1 = 1) – E(Yspi1 - Yspi0 |Ti1 = 0) Implicação Supondo que a diferença não observada entre a média do produto dos tratados e não tratados não varia com o tempo - o viés de seleção não varia com o tempo... ...Quando se faz a diferença da diferença do indicador de impacto, o viés de seleção, caso presente, se anula, fazendo com que o estimador DD seja não viesado. Neste caso, mudanças no produto dos não tratados revelam mudanças no produto do contra-factual. Então, E(Yspi1 - Yspi0 |Ti1 = 1) = E(Yci1 - Yci0 |Ti1 = 0) Violação da pressuposição Caso a pressuposição de que a diferença não observada entre a média do produto dos tratados e não tratados não varia com o tempo seja violada, podemos esperar que o estimador DD seja viesado. Diferenças e Diferenças em Diferenças e Diferenças em Diferenças com Pareamento Na metodologia Diferenças em Diferenças, aplicamos o método utilizando toda a amostra. No método Diferenças em Diferenças com Pareamento, aplicamos o DD na sub-amostra selecionada pelo PSM. Neste caso, o viés é bastante reduzido, pois o PSM ajuda a minimizar o viés proveniente dos observáveis e de ausência de suporte comum, enquanto que o DD ajuda a reduzir o viés de seleção. Preparação do Banco de Dados (1) Precisamos ter num único banco de dados todas as informações de antes e de depois, de todos os indivíduos. Para separarmos as informações de antes e depois, criamos uma variável que será igual a ‘1’ se os dados forem de depois e será igual a ‘0’ se os dados forem de antes do programa. Preparação do Banco de Dados (2) Criamos também uma outra variável = “programa” vezes “depois” chamamos esta variável de interação entre duas variáveis: ela só será igual a ‘1’ quando o indivíduo participa do programa e os dados são de depois do tratamento. A estimativa do coeficiente associado a essa variável será a diferença das diferenças e terá o mesmo valor calculado na diferença das médias. Utilizando a regressão linear Renda = + 1 ‘programa’ + 2 ‘depois’ + 3 ‘programa*depois’ + erro 3 = a diferença das diferenças, ou seja, é o coeficiente que mede o impacto do programa. 1 captura se os grupos são diferentes, independentemente do programa. 2 captura se o indicador muda no tempo, independentemente do programa. Porque 3 é o estimador de diferenças em diferenças? Médias por grupo Tratamento Antes Depois Variação TA TD TD - TA Controle CA CD CD - CA Variação das variações (TD – TA) – (CD – CA) Rendaest = + 1 x ‘programa’ + 2 x ‘depois’ + 3 x ‘programa*depois’ TA = + 1 x ‘1’ + 2 x ‘0’ + 3 x 0 TA = + 1 TD = + 1 x ‘1’ + 2 x ‘1’ + 3 x 1 TD = + 1 + 2 + 3 TD – TA = 2 + 3 Rendaest = + 1 x ‘programa’ + 2 x ‘depois’ + 3 x ‘programa*depois’ CA = + 1 x ‘0’ + 2 x ‘0’ + 3 x 0 CA = CD = + 1 x ‘0’ + 2 x ‘1’ + 3 x 0 CD = + 2 CD – CA = 2 Rendaest = + 1 x ‘programa’ + 2 x ‘depois’ + 3 x ‘programa*depois’ (TD – TA) = 2 + 3 (CD – CA) = 2 (TD – TA) – (CD – CA) = dif em dif = (2 + 3 - 2 ) = 3 Graficamente- Diferença em Diferença Média estimada do efeito no grupo de intervenção Resultado Grupo de intervenção Grupo de Controle Tempo Intervenção Exemplo 1 Suponha um programa para melhoria de renda com seleção não aleatória. O indicador de impacto é renda e esta informação foi coletada antes e depois do programa. Identifi particip renda antes cador ou do renda depois Identifi particip renda antes cador ou do renda depois treinam ento treinam ento 1 1 60 200 11 0 500 500 2 1 80 150 12 0 300 400 3 1 50 90 13 0 400 400 4 1 60 100 14 0 50 60 5 1 50 90 15 0 20 30 6 1 40 70 16 0 30 40 7 1 50 80 17 0 150 170 8 1 50 90 18 0 100 120 9 1 70 110 19 0 90 120 10 1 50 90 20 0 40 50 RESUMO DOS RESULTADOS Estatística de regressão R múltiplo 0,404745531 R-Quadrado 0,163818945 R-quadrado ajustado 0,09413719 Erro padrão 124,4878397 Observações 40 ANOVA gl Regressão Resíduo Total Interseção programa depois programa*depois SQ 3 36 39 MQ F 109300 36433,33333 2,350958953 F de significação 0,08857 557900 15497,22222 667200 Coeficiente s Erro padrão 168 39,367 -112 55,673 21 55,673 30 78,733 Stat t 4,268 -2,012 0,377 0,381 valor-P 0,000 0,052 0,708 0,705 IC - 95% 88,161 247,839 -224,909 0,909 -91,909 133,909 -129,678 189,678 Resumo das metodologias de avaliação de impacto Seleção aleatória – teste de diferença de médias. Pode ser realizado por meio de regressão com a variável programa como única independente Resumo das metodologias de avaliação de impacto Seleção não aleatória: - Regressão Simples – 1 momento no tempo; considera as possíveis variáveis observáveis diferentes entre tratado e controle. Atua no viés proveniente dos observáveis - PSM – 1 momento no tempo; seleciona o grupo controle. Atua sobre o viés de suporte comum e viés proveniente dos observáveis. - DD – 2 momentos no tempo; considera antes e depois. Atua sobre o viés de seleção ( não observáveis) - DD com pareamento- 2 momentos no tempo. O pareamento ocorre utilizando dados apenas de antes do programa. Atua sobre os três componentes do viés. Comentários Finais Aula de hoje: como fazer a avaliação quando temos disponíveis os dados de ‘antes’ e de ‘depois’ do tratamento. É o ideal, visto que este instrumental permite controlar as características iniciais dos grupos. Próxima aula: primeiros passos da avaliação de retorno econômico.