Aula 6 - Método não-experimental ou de seleção não-aleatória Material Elaborado por Betânia Peixoto Método não-experimental ou de seleção nãoaleatória Uma das metodologia para realizar a avaliação de impacto quando a seleção entre tratados e controle é não-aleatória. Plano de Aula Um pouco de econometria. Regressão Linear: intuição e procedimentos. Relação entre outras variáveis que afetam o indicador de interesse e que são diferentes entre os grupos. Viés de variável omitida. Discussão do problema existente para a avaliação quando a seleção entre tratados e não-tratados não foi aleatória. Método não-experimental ou de seleção não-aleatória Nos projetos sociais, em geral, a seleção dos participantes do programa não é feita de forma aleatória: ou porque dentro dos elegíveis, selecionamos, por exemplo, os mais vulneráveis. Quando a seleção não é aleatória não temos mais um grupo de controle automático. ou porque todas as pessoas elegíveis para participar do programa efetivamente participam do programa, Regressão Idéia: esse instrumental permite verificar a relação entre as características que afetam o indicador de impacto, inclusive o programa, independente uma das outras. A regressão linear permite ver a relação entre múltiplas variáveis com o indicador de impacto. Objetivo O objetivo da análise de regressão é encontrar uma função linear que permita: Descrever e compreender a relação entre uma variável dependente e uma ou mais variáveis independentes. Modelo de Regressão Linear Simples- Exemplo 1 Suponha que o objetivo é verificar a relação entre o número de efetivo policial alocado nos municípios e o número de homicídios nestes município, para realizar projeções de alocação policial. A tabela seguinte registra uma amostra representativa extraída dos registros dos municípios, com número de efetivo policial e número de crime. Analisar a possibilidade de definir um modelo que represente a relação entre as duas variáveis ou amostras. EFETIVO CRIME 30 430 21 335 35 520 42 490 37 470 20 210 8 195 17 270 35 400 25 480 Solução Para analisar a relação entre as duas variáveis no Exemplo 1, foi construído o gráfico de dispersão dos crimes em função do efetivo policial. Nesse gráfico pode-se ver que os municípios com mais policiais têm mais crimes. 600 500 Crime 400 300 200 100 0 0 5 10 15 20 25 Efetivo 30 35 40 45 O gráfico de dispersão mostra que os crimes e o efetivo estão correlacionados de forma positiva. A linha tracejada foi ajustada tentando equilibrar os pontos acima da reta com os pontos abaixo dela. Essa reta é uma das muitas possíveis retas que poderiam ser ajustadas. 600 500 400 Crime 300 200 100 0 0 5 10 15 20 25 Efetivo 30 35 40 45 Modelo do Ajuste de uma Reta O ajuste de uma reta é um modelo de regressão linear que relaciona a variável dependente y e a variável independente x por meio da equação de uma reta do tipo: y a bx É importante observar que, da mesma forma como a média resume uma variável aleatória, a reta de regressão resume a relação linear entre duas variáveis aleatórias e, conseqüentemente, da forma como a média varia entre amostras do mesmo tamanho extraídas da mesma população, as retas também variarão entre amostras da mesma população. Observação A linearedade contida na função da regressão linear é referente apenas aos parâmetros, não nas variáveis. Assim o método permite construir funções lineares nos parâmetros, mas que expressão relação não linear entre as variáveis y e x. Exemplo: Relação quadrática entre y e x y a bx cx 2 Voltando ao Exemplo 1 O objetivo do Exemplo 1 é ajustar uma reta a partir dos valores das amostras retiradas da população, considerando que a alocação de efetivo é a variável independente x, e os crimes, a variável dependente y. Uma primeira forma de fazer isso é ajustar manualmente essa reta tentando equilibrar os pontos acima e abaixo dessa reta, como foi feito no gráfico do Exemplo 1. Como esse procedimento permite o ajuste de diversas retas, é necessário estabelecer um objetivo de eficiência de ajuste possível de medir, como é mostrado a seguir. Critério de ajuste 1: Uma primeira forma é ajustar uma reta horizontal de valor igual à média dos valores da variável dependente y, que é uma reta de regressão com b=0. Esse critério não necessita de regressão. Critério de ajuste 2: Outra forma é ajustar uma reta que divida os pontos observados de forma que a soma dos desvios seja nula. Entretanto, como há muitas retas que cumprem com essa condição, esse critério não poderá ser utilizado. Critério de ajuste da regressão Outra forma é ajustar uma reta de forma que minimize a soma dos quadrados dos desvios, (lembre a definição de variância). O objetivo da regressão é encontrar os coeficientes a e b da reta de regressão que minimizam a soma dos quadrados dos desvios dos valores da amostra y com relação aos correspondentes valores da reta de regressão. y a bx Lembrando que: Interpretando: O coeficiente “b” é a declividade da reta e define o aumento ou diminuição da variável y por unidade de variação da variável x. A constante “a” é o valor de y quando x=0 y a bx Estimação yˆ i a bx No modelo estimado para o ajuste da reta se verifica que: Para um único valor de xi pode haver um ou mais valores de yi. Por exemplo, no gráfico de dispersão do exemplo 1 para x=35 há dois valores das variáveis dependentes y=400 e y=520. Mas há apenas um único yˆ estimado para cada valor de xi. Para cada valor de xi há uma diferença entre o valor observado yi e o valor estimado yˆ . Essa diferença é denominada desvio (di). Y=117,07+9,73X Variável Omitida Será que não existe mais dada que afeta o crime além do efetivo policial? Quando omitimos variáveis que deveriam estar presentes em uma equação de regressão o efeito omitido estará contido no termo do erro, fazendo com que a reta não seja bem ajustada. Regressão Linear Múltipla O modelo de regressão linear que foi apresentado é o mais simples deles e nem sempre atende à modelagem mais complexa, como a de avaliação de impacto. Por exemplo, como vimos no Exemplo 1, o número de crimes não dependem somente do efetivo, pois há uma parte da variação dos crimes que não é explicada pelo efetivo policial. O desenvolvimento da equação de regressão linear múltipla é similar ao da equação de regressão linear simples incluindo a dependência de duas ou mais variáveis independentes. A ferramenta de análise Regressão realizam análises de regressão múltipla. Regressão Linear Multipla Dispondo de um grupo de amostras do mesmo tamanho, sendo uma variável dependente y e n variáveis independentes xi, o objetivo é determinar os coeficientes da equação da reta: yˆ a b1 x1 b2 x2 bn xn cujos coeficientes minimizam a soma dos quadrados dos desvios da variável com relação a y. Exemplo 2 Neste exemplo, queremos relacionar a quantidade de crime y com o número de efetivo x1 e o tamanho da população (x2 em milhares). Para encontrar essa relação linear foi extraída a amostra de valores de municípios. yˆ 818 ,145 7,046 x1 0 , 44 x 2 Observações Importantíssimas Os coeficientes estimados medem a relação da variável x com y livre do efeito das demais variáveis incluídas no modelo. Como a distância de yi a Yˆ , (ou desvio) não é zero para todas as observações, existe um erro de estimação quando falamos em regressão linear. Problema da avaliação Relembrando: Impacto = ATT = E[Yp, P=1] - E[Ysp, P=1] Não observamos Ysp quando P=1. Se E[Ysp, P=1] ≠ E[Yc, P=0] Erro: ε= E[Ysp, P=1] - E[Yc, P=0] (1) O ATT é dado por: ATT = E[Yp, P=1] - E[Yc, P=0] + ε (2) Viés ou erro Substituindo (1) em (2) ATT = E[Yp, P=1] - E[Yc, P=0] + {E[Ysp, P=1] - E[Yc, P=0] } O Erro ou Viés O Erro é causado pelas características diferentes entre tratado e controle que levam à que o indicador de impacto seja diferente entre os grupos. Como fazer então... ...quando temos um grupo de controle com características diferentes do grupo de tratamento, características essas que afetam o indicador de interesse? Aplicamos a regressão para controlarmos o impacto do programa do efeito das variáveis que tornam os grupos tratado e controle diferentes. Regressão Aplicada à Avaliação de Impacto Procedimentos: 1) Quais são as características que tornam os grupos diferentes e que afetam o indicador de impacto individual? Em um programa para melhorar o desempenho escolar das crianças poderia ser: educação dos pais, renda familiar, região onde moram, saneamento básico, se participam de outro programa social, ... Procedimentos n ‘Estimar a regressão em que o indicador de impacto é a variável dependente. As variáveis independentes são uma dummy para a participação do programa e as demais variáveis que tornam os grupos diferentes e que afetam o indicador de impacto. Ou seja, queremos olhar o efeito da participação no programa (dummy de participação) livre do efeito das demais características que tornam os grupos diferentes e afetam esse indicador. Modelo de Regressão Linear Para isso vamos escrever a seguinte equação: Indicador de impacto = + *programa + *x2 + *x3 +*x4+...+ Programa = 1 se o indivíduo participa do programa. Programa = 0 se o indivíduo não participa do programa. Interpretação identifica o indicador de impacto de quem recebe zero em todas as variáveis. , , ,... indicam a relação/associação de cada variável com o indicador de impacto, livre do efeito das demais variáveis incluídas no modelo. é o erro que existe por não conseguirmos determinar perfeitamente o indicador de impacto Impacto “” mede o impacto de participar do programa sobre o indicador de impacto, livre do efeito das outras variáveis incluídas. Mas não esqueçam, temos que fazer o teste t de hipótese para ver se o resultado se mantém na população. H0: = 0 H1: ≠ 0 Ou seja: A regressão linear nos dará uma medida de (e dos demais coeficientes), bem como o teste t e o p-valor dos coeficientes. Vários programas estatísticos podem ser usados para ‘estimar’ essa equação... Limitações do método em avaliação Se tratado e controle forem muito diferentes teremos viés no impacto estimado decorrentes de: Variáveis Omitidas (observáveis e não observáveis) Ausência de suporte comum Na prática 1) Obter observações de Y para participantes e para não participantes [Y é o indicador para o qual queremos avaliar se houve impacto]. 2) Criar a variável programa (1 para quem participou e zero para quem não participou). 3) Obter observações das variáveis que afetam o indicador de interesse e que são diferentes entre os participantes e os não participantes. 4) Estimar a equação: Y = + *programa + *X1 + *X2 + ; Y = indicador de resultado de interesse. programa = variável de interesse (igual a 1 caso o indivíduo tenha participado do programa). X1, X2 = variáveis que são correlacionadas com o Y e que são diferentes entre os grupos de tratamento e de controle. Comentários Finais Aula de hoje: aprendemos a realizar a avaliação de impacto quando a seleção de tratados e não-tratados não foi aleatória. Na próxima aula: aprenderemos um método para aperfeiçoar a seleção dos controles de forma que a aplicação do método aprendido hoje será mais confiável.