F U N D A Ç Ã O J O Ã O P I N H E I R O DICIONÁRIO DE DEFINIÇÕES DO CURSO DE AVALIAÇÃO DE POLÍTICA PÚBLICA. [email protected] Victor Maia Professor de Avaliação Social de Políticas da Fundação João Pinheiro Amostragem Aleatória Simples: Procedimento de amostragem probabilístico onde todas as observações possuem mesma probabilidade de sorteio. Muito utilizada quando não há nenhuma informação a priori para as características da população ou quando se quer comparar médias entre dois grupos sem que haja nenhum viés de seleção. Avaliação de Impacto: Refere-se a um trabalho, relatório, parecer, ou texto científico que procura responder se determinada ação pública (que pode ser um programa, uma lei, a realização de um projeto ou a transferência de recursos) obteve efeito alcançando os resultados almejados. Diz-se que ocorreu impacto quando é possível responder estatisticamente e estabelecer causalidade sobre ação e efeito. Além da Avaliação de Impacto, há vários outros tipos de Avaliações possíveis: Avaliação de Marco Lógico; Avaliação de Processos; de Implementação; Viabilidade econômica e financeira; e avaliação econométrica. Avaliação do Processo: Segundo o dicionário da profa. Christel Vermeersch: “Avaliação do Processo é uma avaliação que tenta fazer um nexo de qualidade ou o sucesso dos processos de um programa: por exemplo, a adequação dos processos administrativos, a aceitabilidade dos benefícios do programa, a clareza da divulgação das informações, a dinâmica interna das organizações de execução, os seus instrumentos de política, seus mecanismos de prestação de serviços, suas práticas de gestão, e as ligações entre estes”. Avaliação Ex-Ante: Avaliação Ex-Ante trata-se de uma avaliação realizada em um período anterior a ocorrência da ação. Como ocorre antes da implementação, geralmente se baseia em dados secundários e análises empíricas e econométricas. Sendo também muito comum o uso de simulações (p.e.: o que aconteceria se aumentassemos a renda do grupo mais pobre em 10%?). As avaliações ex-ante são muito úteis para se prever acontecimentos anteriores à ação política do governo ou programa. Auxiliam também na interpretação dos resultados de avaliações expost. Avaliação Ex-Post: Avaliação Ex-Post é uma avaliação que ocorre depois da implementação do ação/programa. Possui a vantagem de tratar especificamente com dados diretos e indiretos do programa combinados, e ser melhor vinculada aos resultados. Uma desvantagem das avaliações ex-post ocorre quando suas conclusões não podem mais influir para melhorias da ação/programa. No entanto, para ações que têm continuidade uma ação ex-post de um período pode servir como avaliação ex-ante para o período seguinte, aperfeiçoando a análise. ATE – Average Treatment Effect: Na linguagem dos Modelos de Diferenças em Diferenças (Diff-Diff ou Efeito Fixo), o Efeito médio nos Tratados é obtido pela diferença entre o grupo dos tratados (D=1, que recebem benefício da ação/programa) em relação ao grupo de controle (D=0). Constituise na diferença de média entre os dois grupos na variável de interesse YD em função das variáveis sobre a qual se possui informação (x, que podem ser os insumos) ATE = E[Y1(x) – Y0(x)] = E[Y1(x)] – E[Y0(x)] = Y1 Y0 ATT – Average Treatment on the Treated: Como nunca é possível observar a mesma pessoa em dois estados do tempo, a maioria das estimações de interesse para avaliação de programas sociais se encontra no Efeito Médio do Tratamento nos Tratados. O contra-factual é realizado estimando como seria o efeito/impacto do programa caso o grupo de pessoas tratadas não recebesse o benefício: Só que esse Cara não existe! ATT = E[Y1(x) – Y0(x)|D=1] = E[Y1(x)|D=1] – E[Y0(x)|D=1] = [ATE|D=1] = Y | D 1 Y | D 1 1 0 Ao utilizar um grupo de controle “comparável” em que Y | D (técnicas de pareamento) podem permitir que: ATT = E[Y1(x)|D=1] – E[Y0(x)|D=0] ATC – Average Treatment on the Control: Efeito médio no Controle, semelhante ao Efeito Médio nos Tratados (ATT - Average Treatment on the Treatment), porém, realizado para o controle. O contrafactual é realizado peeguntando como seria o tratamento caso os não tratados recebessem o benefício: ATC = E[Y1(x) – Y0(x)|D=0] Essa observação Não existe! = E[Y1(x)|D=0] – E[Y0(x)|D=0] = [ATE|D=0] = Y | D 0 Y | D 0 1 0 Igualmente ao caso do ATT, com Y | D, resultados de Y ortogonais à participação. Podemos utilizar o tratamento, temos que: ATC = E[Y1(x)|D=1] – E[Y0(x)|D=0] Cadeia de Resultados Relação entre os insumos, atividades, produtos e resultados objetivados pelo programa. Estabelecendo a relação causal para se alcançar os resultados. Causalidade Causalidade é o estabelecimento de um princípio de relação causa e efeito. A causalidade é longamente estudada na filosofia. Mas suas definições envolvem relações de implicação entre duas afirmações: A →B CCT - Conditional Cash Transfer: Conditional Cash Transfer: Transferências de Renda Condicionada. Programas de assistência social que transferem renda condicionando o recebimento ao cumprimento de algumas condicionalidades. Exemplo: Bolsa Família. Cluster (Conglomerado) Segundo dicionário da Profa. Christel Vermeersch: “Um claster é um grupo de unidades que são semelhantes, de uma forma ou de outra. Por exemplo, em uma amostra de crianças em idade escolar, as crianças que frequentam a mesma escola, os mesmos professores, e vivem no mesmo bairro. Contra-factual O contra-factual é uma situação que ocorreria caso a política implementada não existisse. Podemos pensar como o resultado de E[Y0(x)|D=1] do ATT. Em palavras, qual seria o resultado de não ter participado do programa (Y0) caso o grupo tivesse de fato participado (D=1). Controle: O grupo de controle deve possuir as mesmas características do grupo que está submetido ao tratamento. Dessa maneira estaria se comparando entre iguais. Em uma amostra aleatória anterior o programa sem viés de seleção é possível obtermos: ATE = E[Y1(x) – Y0(x)] Coorte: Indivíduos submetidos a um mesmo evento temporal distintivo fazem parte de uma mesma coorte. Por exemplo, pessoas nascidas entre 90 e 91. Turma de economia de 2005, ou então pessoas que receberam o domicílio do bolsa-família em 2006. O evento distintivo ocorre uma vez no tempo mas “marca” e acompanha a coorte para os períodos futuros. Desenho Lógico: Desenho lógico consiste de uma etapa que explicita as relações causais de um programa, da política ou intervenção. Muito comum nessa fase o uso de fluxograma da relação de insumos, atividades, produtos, resultados e impactos. Mas o desenho não deve ser restringir a isso, deve construir também a relação entre variáveis, contextualizar, procurar definir o público-alvo. Enfim, um mapeamento da cadeia lógica de resultados, assim como o mapeamento das alternativas disponíveis aos formuladores de políticas. Diferenças em Diferenças Dif-Dif: O método de regressão temporal que compara tratamento e controle antes da implementação do programa (primeira diferença) e depois (segunda diferença). As diferenças são comparadas entre si (diferença das diferenças) para ver se são estatisticamente significantes. Por exemplo, um programa com a segunda diferença positiva e estatisticamente significativa pode estimar um impacto. Em econometria equivalem-se aos métodos de painel com efeito fixo. Em geral pode se controlar os efeitos pelas características X e o método pode ser usado mesmo quanto a seleção entre tratados e não tratados não é completamente aleatória (no entanto deve preservar a ortogonalidade Y | D): YC = β0 + β1X + β2Ti + δDi + εi Para o grupo controle D=0 e no tempo T=0, temos: YˆC ˆ 0 ˆ1,C X C Para o tratamento (D=1), no tempo T = 0, temos: YˆT ˆ 0 ˆ1,C X T ˆ Se β1 é o mesmo para os grupos: primeira diferença: YˆT YˆC ˆ YˆT YˆC ˆ da segunda diferença: ˆ ˆ ˆ YT YC 2 ,T 2 ,C Se não há efeito do programa no tempo Com efeito do programa no tempo Efeito Hawthorne O efeito “Hawthorne” ocorre quando o fato de se observar as unidades de análise, acompanhá-las em um survey ou entrevistá-las faz com que se comportem de maneira diferente. Efeito John Henry Do dicionário da profa. Christel Vermeersch: “O efeito John Henry” acontece quando o grupo de comparação trabalha mais para compensar o fato de não ter recebido o tratamento. Quando se compara o grupo de tratamento com o grupo “mais trabalhador”, a estimativa de impacto do programa será viesada: iremos estimar um menor impacto do programa [ou mesmo nenhum impacto ou negativo] do que o verdadeiro impacto que seria encontrado caso o grupo de comparação não fizesse esforço adicional. Endogeneidade: Situações em que a direção de determinação das variáveis é bidirecional: Y↔X Y é determinado por X, mas Y também determina Y. O problema da Endogeneidade é também chamado de causalidade reversa e leva a um viés na estimativa dos parâmetros. Exemplos conhecidos de Endogeneidade aparecem em regressões de Escolaridade e Renda. “É a escolaridade que propicia maior renda futura, ou é a maior renda familiar que permite mais estudo?” Outro exemplo: “O número de filhos diminui a renda familiar percapita, ou é o fato de ter renda baixa que leva as famílias optarem por um grande número de filhos?” Erro de Focalização: Erro de focalização também chamado de “insuficiência” em um caso ou “vazamento” em outro. O erro de focalização ocorre quando o programa falha em alcançar beneficiários do público-alvo. O erro de focalização pode ocorrer por dois motivos:1) beneficiários elegíveis que não receberam (insuficiência); 2) beneficiários não-elegíveis que receberam o benefício (vazamento). Representados no quadro: Receberam benefício Sim Não Elegíveis Não-elegíveis insuficiência vazamento Experimento Aleatório: Um experimento aleatório é conduzido de forma que por amostragem simples ou probabilística se separe os grupos de tratamento e controle. A vantagem nesse tipo de analise é tentar se expurgar o viés de seleção. Para que se alcance esse feito a população amostrada para os dois grupos deve possui as mesmas características observáveis básicas. Focalização: A Focalização é a propriedade de um programa atingir 100% do seu público-alvo sem que ocorra erro de vazamentos. O programa atinge todo seu público-alvo e somente ele recebe o benefício. Linha de Base (Baseline): Pesquisa linha de base, do inglês: baseline, é uma pesquisa de referência para o programa a ser avaliado. De preferência deve ser realizada antes do lançamento do projeto para se conhecer as diferenças prévias entre os grupos de tratados e controles. Marco Lógico: Bamberguer et. al. (2006) definem: “Marco Lógico é a teoria ou modelo que mostra como se espera que o programa leve aos resultados observados ou desejados. A teoria de um programa identifica recursos, atividades e resultados e especifica uma cadeia-causal de hipóteses ligando os recursos de um programa às atividades, produtos intermediários e objetivos finais”. Matching (Pareamento): O método de pareamento busca encontrar os grupos de tratamento e controle dentro de um survey mais amplo. Uma das técnicas de matching mais empregadas é o propensity score matching em que o grupo de controle é comparado ao grupo de tratamento com base no pareamento de uma série de características observáveis, usando-se o escore de propensão, que é uma pontuação que diz, com determinadas características observáveis, qual é a chance do indivíduo também participar do tratamento. Métodos Qualitativos: A análise Qualitativa leva em conta o tratamento de informações estruturadas qualitativamente com o uso de conhecimento baseado em relatos, observações, contexto sociológico, percepções e interações entre os agentes. A análise qualitativa pode ter também dados quantitativos, se avaliação também os trabalha, chama-se de uma metodologia mista. Painel com Efeito-Fixo: Dados em painel são dados cross-section (bancos com várias variáveis e indivíduos em um corte temporal) empilhados ano a ano. O painel com efeito fixo é adotado quando se quer eliminar os efeitos aleatórios das características individuais ou de um grupo: Yi = β0,i + β1Xi + β2T + δDi +εi O β0,i é o parâmetro de intercepto que permite que variação para cada grupo (ou indivíduo i). Como esse efeito é invariável no tempo, β0,i se anula no tempo, mantendo a característica no tempo. Outros efeitos individuais podem ser pensados, tais como um intercepto individual para as características Xi e/ou para características do tempo. Mas deve se levar em conta que isso reduz graus de liberdade do modelo, se o banco possui muitas variáveis isso não será problema. Propensity Score Matching: Ver “Pareamento”. O propensity Score é uma das formas de pareamento desenvolvida por Rosenbaum e Rubin (1983). O propensity score envolve fazer o pareamento dos grupos com base em uma única variável (Ps) que reúne as características observáveis Xi: Ps = Prob(D=1|Xi) Estima-se um Logit ou Probit: Di = β0 + β∙Xi + εi O propensity score é a probabilidade de 0 a 1 de do indivíduo ‘i’ perterncer aos tratados, dado que conhecemos as variáveis observáveis Xi. Mais detalhes Becker e Ichino (2002). Público Alvo: O Público-Alvo se constitui das pessoas elegíveis ao benefício dentro dos requisitos legais ou conceituais do programa. Tais requisitos devem estar definidos de acordo com a avaliação das causas para as quais uma política social pretenda atuar. O público-alvo estará tanto melhor definido quanto maior for o conhecimento sobre o problema, sua mensuração é importante para delimitá-lo e defini-lo, essa definição deve também levar em conta os procedimentos da política. Métodos Quantitativos: Os métodos Quantitativos são métodos que remetem à quantidade e envolvem a mensuração de variáveis e indicadores por meio de procedimentos estatísticos. Nessas técnicas é preciso procurar o efeito do programa em algumas variáveis determinadas. Métodos Mistos: Avaliações que usam com eficácia ambas metodologias: a qualitativa e a quantitativa. Os componentes da avaliação se integram e perfazem uma avaliação do programa que pode ser mais completa, abordando-o em diversos aspectos. Monitoramento: Do dicionário da profa. Christel Vermeersch: “Monitoramento é um processo contínuo de recolhimento e análise de informações para verificar quão bem um projeto, programa ou política, está sendo realizado. Baseia-se principalmente em dados administrativos para monitorar o desempenho contra os resultados esperados, fazer comparações entre programas e analisar as tendências ao longo do tempo. Normalmente o monitoramento acompanha insumos, atividades e produtos, embora ocasionalmente também inclua resultados. O monitoramento é utilizado para informar o dia-a-dia da gestão e tomada de decisões”. Poder Estatístico: Do dicionário da profa. Christel Vermeersch: “O poder de um teste estatístico é a probabilidade de que o teste irá rejeitar a hipótese nula quando a hipótese alternativa é verdadeira (isto é, que não vai cometer um erro tipo II [do teste de hipóteses]). À medida que aumenta o poder, as chances de ocorrer o erro do tipo II diminuem. A probabilidade de um erro do tipo II é definida como a falsa taxa negativa (β). Portanto o poder é igual a 1-β”. Regressão em Descontinuidade: Regressão geralmente da política específico empregado de políticas há como tratados. em Descontinuidade é adotada quando há um corte identificada por um ponto no tempo. Geralmente para analisar antes e depois universalizantes na quais não separar tratados e não- Y Yi = β0 + β1Xi + β2T + β3Zi + єi Zi = 1 para T ≥t0 Zi = 0 para T <t0 t0 data da política tempo Tratamento O grupo de tratamento são pessoas submetidas ao programa. Deve-se compará-los ao grupo de controle que possua as mesmas características observáveis. Teste de Causalidade: O Teste de causalidade, pretende estudar se existe relação causal entre X → Y, ou se ocorre o contrário, Y→ X, ou mesmo uma co-integração ou simultaneidade, X ↔ Y. Um dos testes de causalidade mais conhecido é o teste de Granger, que parte da premissa de que o futuro não pode predeterminar o presente ou o passado. A partir do teste de Granger outros foram realizados, um bastante difundido é o teste de causalidade de Sims. Teste de Médias (controle e Tratamento): O teste de médias trata da comparação do resultado entre os grupos de tratamento e controle. Consiste em obter a diferença da média de Y para os dois grupos e estudar se essa diferença é estatisticamente diferente de zero e quais os procedimentos adequados para isso. Caso a diferença seja diferente de zero diz-se que houve impacto, do contrário nada se pode afirmar entre o resultado de quem recebeu o programa (tratados) e de quem não o recebeu (Para mais detalhes ver ATE). Universalização: Universalização é o oposto de uma política focalizada. Uma política universal é aquela que tem toda a população de uma região ou país como seu público-alvo. Políticas universais costumam a ter elevados custos operacionais e por vezes não conseguem um valor per capita que beneficie a maioria dos cidadão. Por conta disso existe um trade-off entre fazer uma política universal onde cada beneficiário recebe um pequeno valor, ou políticas focalizadas onde o valor do benefício pode ser mais alto, porém não é toda população que o recebe. Exemplo de políticas que são universais no Brasil são o Sistema Único de Saúde, SUS e a Educação Pública. Variáveis Dummy e Variáveis Categóricas: Variáveis Dummy são variáveis identificadores que assumem valores de 0 ou 1. São usadas em diversos contextos, um deles pode ser a identificação de tratamento e controle: Di=1 para tratados e Di=0 para o controle. Há também vários outros usos para variáveis dummy. Variáveis categóricas são variáveis que assumem valores discretos e finitos. Por exemplo, para descrever ocupações, ou faixa de renda, poderia se usar Xi = 1, 2, 3, 4, ...,N. As variáveis categóricas requerem as vezes tratamento e interpretação a parte nas regressões. Validade Externa: A Validade externa envolve uma lógica indutiva e estatística que seja verdadeira e pode ser generalizado para outros grupos de análise semelhantes. Um programa que apresenta impactos positivos para um determinado subconjunto representativo da população (do grupo universo), aceitando a validade externa, será igualmente efetivo quando aplicado ao conjuntouniverso. Validade Interna: A validade interna diz respeito a um conceito de lógica e envolve perscrutar sua lógica causal de um programa. Isso quer dizer que se pode se desenvolver o programa por argumentos de dedução e há ligação causal entre seus “insumos” & “atividades” com os “produtos” & “resultados”. Segundo Vermeersch “a validade interna significa que a avaliação do impacto usa um grupo de comparação válido”. Variáveis Instrumentais: As Variáveis Instrumentais são variáveis correlacionadas com a participação no programa, ou seja, determinante para uma pessoa entrar ou não no grupo dos tratados, mas não deve influir diretamente na variável resposta e nem ter nenhuma correlação com as características Xi dos indivíduos. As variáveis instrumentais são usadas quando não há maneira de sem elas distinguir tratados e controles. Tratados YT Controle YC VI Vazamento: Vazamento é um erro de focalização que ocorre quando beneficiários não-elegíveis recebem o benefício. O programa “vazou” para quem não teria direito ao benefício. (ver também “Erro de Focalização”). Viés de Seleção: De acordo com o dicionário da profa. Christel Vermeersch, “Viés de seleção ocorre quando as razões pelas quais um indivíduo participa de um programa são correlacionadas com os resultados. Este viés ocorre geralmente quando o grupo de comparação é inelegível ou se auto-seleciona para fora do tratamento”.