Avaliação em um Mundo Real Desenhando Avaliações sob restrições orçamentárias, de tempo, de informação e políticas III Seminário da Rede Brasileira de Monitoramento e Avaliação Brasília, DF, Brasil 01 de junho de 2011 Workshop Coordenado por Jim Rugh A apresentação é um resumo do capítulo do livro que está disponível em : www.RealWorldEvaluation.org Apresentação traduzida para o Português por Marcia Joppert 1 Objetivos do Workshop 1. Apresentar os sete passos do enfoque da Avaliação em um Mundo Real para responder a assuntos comuns e restrições enfrentadas por avaliadores, tais como: quando o avaliador é convocado no momento de finalização do projeto e não existe linha de base nem grupo de comparação; ou quando a avaliação tem que ser realizada com um orçamento ou prazo insuficiente; e quando existem pressões políticas e expectativas a respeito de como a avaliação deveria ser conduzida ou quais deveriam ser as conclusões. 2 Objetivos do Workshop 2. 3. 4. 5. Definir avaliação de impacto; Identificar e analisar várias opções de desenho que poderiam ser usadas em um contexto particular de avaliação; Maneiras de reconstruir a linha de base quando a avaliação tem início quando o projeto já está muito avançado ou finalizado; como minimizar as ameaças à validade ou adequação usando uma apropriada combinação de enfoques qualitativos e quantitativos (métodos mistos) em relação a um contexto específico de Avaliações em um Mundo Real. 3 Objetivos do Workshop Nota: Este workshop tem como foco a avaliação de impactos em projetos. Naturalmente, há muitas outras propostas, escopos e tipos de avaliação. Alguns desses métodos podem ser aplicáveis a eles, mas nossos exemplos se basearão em avaliações de impacto de projetos, principalmente no contexto de países em desenvolvimento. 4 Agenda de Trabalho 1.Introdução [10 minutos] 2. Resumo da abordagem Avaliação em um Mundo Real (AMR) [30 minutos] 3. Apresentação de participantes em pequenos grupos e intercâmbio de experiências relacionadas com a AMR. [30 minutos] 4. AMR (passos 1, 2 e 3): Definindo o escopo da avaliação e as estratégias para resolver as restrições orçamentárias e de tempo [75 minutos] --- intervalo curto [15 minutos]--5. AMR (passo 4): Enfrentando restrições de informação [30 minutos] 6. Pequenos grupos lêem seus estudos de caso e iniciam a discussão [30 minutos] --- almoço [60 minutos] --7. Métodos qualitativos, quantitativos e mistos [20 minutos] 8. Os grupos completam a preparação dos estudos de caso. Exercícios sobreTermos de Referência (TORs) [30 minutos] 9. Negociação de Termos de Referência entre grupos [60 minutos] 10. Resultados do exercício [15 minutos] 11. Conclusão das discussões. Avaliação do workshop [30 minutos] Avaliação em um Mundo Real Desenhando Avaliações sob restrições orçamentárias, de tempo, de informação e políticas Resumo do enfoque AMR 6 Cenários de Avaliação em um Mundo Real Cenário 1: avaliadores não participam até quase o final do projeto Por razões políticas, técnicas ou orçamentárias: • Não houve plano de avaliação que abrangesse o ciclo de vida do projeto no início • Não houve pesquisa de linha de base • Os executores não coletaram informação adequada sobre os participantes nem no início nem durante a implementação do projeto • É difícil conseguir informações de grupos de controle comparáveis 7 Cenários da Avaliação em um Mundo Real Cenário 2: A equipe de avaliação é convocada no início do projeto Mas, por razões orçamentárias, políticas ou metodológicas: A linha de base foi uma avaliação de necessidades, não é comparável em uma eventual avaliação Não foi possível coletar dados de linha de base de um grupo de comparação 8 Checando a realidade – Desafios da Avaliação do Mundo Real • • • • • • Em geral, os formuladores de projetos não pensam de forma avaliativa e a avaliação acaba sendo desenhada ao final do projeto Não houve linha de base; ao menos não com dados comparáveis em uma eventual avaliação Não houve e nem pode haver grupos de comparação/controle. Tempo e recursos limitados para avaliação Os clientes têm suas próprias expectativas sobre o que eles querem que os resultados digam Muitos atores não entendem avaliação; não confiam no processo ou o vêm como uma ameaça (não gostam de ser julgados) 9 Avaliação em um Mundo Real Metas de Controle de Qualidade Conseguir o máximo rigor possível na avaliação dentro das limitações do contexto Identificar e controlar as debilidades metodológicas no desenho de uma avaliação Negociar com os clientes as vantagens e desvantagens entre o rigor desejado e os recursos disponíveis A apresentação de resultados deve reconhecer as debilidades metodológicas e como podem causar generalizações a outras populações/comunidades 10 A necessidade da abordagem Avaliação em um Mundo Real Como resultado destas restrições , muitos dos principios básicos para um rigoroso desenho de avaliação de impacto são frequentemente sacrificados, como por exemplo: pré-teste comparável, desenho pós-teste, grupo de controle, desenvolvimento e teste de instrumentos adequados, seleção de amostra aleatória, controle dos viéses dos investigadores, minuciosa documentação da metodologia de avaliação, etc. 11 A abordagem Avaliação em um Mundo Real um enfoque integrado para assegurar padrões aceitáveis de rigor metodológico enquanto se trabalha sob restrições políticas, orçamentárias, de tempo e de informação . Ver o livro RealWorld Evaluation ou, ao menos, o capítulo resumo para mais detalhes 12 A abordagem “Avaliação em um Mundo Real”(AMR) Desenvolvida para ajudar avaliadores e clientes • Gerentes de Projetos, agências de financiamento e consultores externos Um trabalho ainda em construção (aprendizado contínuo a partir de workshops como este) Inicialmente desenhada para países em desenvolvimento, mas igualmente aplicável a países desenvolvidos 13 Desafios particulares da avaliação em países em desenvolvimento Falta de acesso ou inexistência de dados secundários Escassos recursos locais para avaliação Orçamentos limitados para avaliação Restrições institucionais e políticas Falta de uma cultura em avaliação (ainda quando as associações de avaliação tentam dar resposta a esta questão) Muitas avaliações desenhadas por e em função dos interesses das agências financeiras e raras vezes em função das prioridades dos atores locais ou nacionais 14 Expectativas para avaliações “rigorosas” Apesar desses desafios, existe uma crescente demanda por avaliações metodologicamente “sérias”, capazes de captar os impactos, a sustentabilidade e a replicabilidade dos projetos e programas de desenvolvimento. (Falaremos disto mais tarde…!) 15 A maioria das ferramentas da AMR não são novas, mas promovem um enfoque integrado A maioria das ferramentas para coleta e análise de dados da abordagem AMR são familiares para avaliadores experientes. O que se enfatiza é um enfoque integrado, o qual combina uma ampla gama de ferramentas para obter a melhor qualidade na avaliação sob as restrições e condicionantes do mundo real. 16 O que há de especial na abordagem AMR? Existe uma série de passos definidos, cada um com uma lista de verificação das restrições e a maneira de enfrentá-las. Esses passos estão resumidos no próximo slide e depois em um fluxograma mais detalhado.… 17 Os passos do Enfoque AMR passo 1: Planejar e definir o escopo da avaliação passo 2: Abordar as restrições orçamentárias passo 3: Abordar as restrições de tempo passo 4: Abordar as restrições de Informação passo 5: Abordar as restrições políticas passo 6: Avaliar e abordar as fortalezas e debilidades do desenho da avaliação passo 7: Ajudar os clientes a usar a avaliação 18 A abordagem Avaliação em um Mundo Real passo 1: Planejando e definindo o escopo da avaliação A. Definir as necessidades de informação do cliente e comprender o contexto político B. Definir o modelo teórico do programa C. Identificar as restrições de tempo , orçamento, informação e políticas a seren endereçadas pela AMR D. Selecionar o desenho que melhor atenda as necessidades do cliente dentro das restrições da AMR passo 2 Abordar restrições orçamentárias A. Modificar o desenho da avaliação B. Racionalizar necessidades de informação C. Pesquisar informações secundárias confiáveis D. Revisar o desenho amostral E. Definir métodos econômicos de coleta de dados passo 3 Abordar restrições de tempo Todo o passo 2 + : F. Realizar Estudos preparatórios G. Contratar mais recursos humanos H. Revisar formatos de registro do projeto para incluir dados críticos para a avaliação de impacto. I. Tecnologia moderna para coleta e análise de dados passo 6 Avaliar e abordar as fortalezas e debilidades do desenho de avaliação Uma lista de verificação integrada para desenhos multi-métodos A. Objetividade/confirmabilidade B. Replicabilidade/dependência C. Validade interna/credibilidade/autenticidade D. Validade externa/transferência/adaptabilidade passo 4 Abordar restrições de informação A. Reconstruir linha de base B. Recriar os grupos de controle/comparação C. Trabalhar con grupos de controle não equivalentes D. Coletar informação em temas sensibles ou de grupos difíceis de acessar E. Uso de métodos múltiplos passo 5 Abordar influências políticas A. Acomodar as pressões das agências de financiamento ou dos clientes sobre o desenho da avaliação B. Endereçar as preferências metodológicas dos atores sociais C. Reconhecer a influência dos paradigmas de investigação profissional . passo 7 Ajudar os clientes a usar a avaliação A. Utilização B. Aplicação C. Orientação D. Ação 19 Discussão em grupos 20 1. Apresentação de cada participante 2. Que restrições destes tipos vocês enfrentaram em suas práticas avaliativas? 3. Como lidaram com elas? 21 Avaliação em um Mundo Real Desenhando avaliações sob restrições orçamentárias, de tempo, de informação e políticas passo 1 Planejando e definindo o escopo da avaliação 22 Passo1: Planejando e definindo o escopo da avaliação Comprender as necessidades de informação dos clientes Definir o modelo teórico do programa Identificação preliminar de restrições a serem endereçadas pela Avaliação em um Mundo Real 23 A. Comprendendo as necessidades de informação do cliente Perguntas típicas que os clientes desejam responder: O projeto está alcançando seus objetivos? Está tendo o impacto desejado? Todos os setores da população-alvo estão sendo beneficiados? Os resultados serão sustentáveis? Que fatores contextuais determinam o grau de êxito ou fracasso? 24 A. Comprendendo as necessidades de informação do cliente Uma completa compreensão das necessidades de informação do cliente frequentemente reduz os tipos de informação coletada, o nível de detalhe e o rigor necessário. No entanto, esta completa compreensão também pode incrementar a quantidade de informações requeridas! 25 B. Definindo o modelo teórico do Programa Todos os programas baseiam-se em um conjunto de pressupostos (hipóteses) acerca de como as intervenções deveriam contribuir para o alcance dos resultados desejados. Às vezes isso está claramente explicitado nos documentos de projeto. Às vezes está apenas implícito e o avaliador tem que ajudar os diferentes atores a articularem as hipóteses através de um modelo lógico. 26 B. Definindo o modelo teórico do Programa Definir e testar os pressupostos críticos são elementos essenciais (mas frequentemente ignorados) do modelo da teoria de programas. O slide a seguir mostra um exemplo de um modelo para avaliar os impactos do microcrédito no empoderamento social e econômico de mulheres 27 Hipóteses críticas da cadeia lógica em um programa de micro-crédito com inclusão de gênero Sustentabilidade • Mudanças estruturais contribuirão com impactos de longo prazo. Impactos de médio e longo prazo • Incremento do empoderamento econômico e social das mulheres. • Melhora do bem-estar econômico e social das mulheres e suas famílias. Resultados a curto prazo • Se as mulheres obtêm empréstimos, elas iniciarão atividades geradoras de renda. • As mulheres serão capazes de controlar o uso dos empréstimos e pagá-los. Produtos • Se há oferta de crédito, as mulheres estarão dispostas e aptas a obter empréstimos e assistência técnica. 28 Consequências Consequências Consequências PROBLEMA CAUSA PRIMARIA 1 CAUSA PRIMARIA 2 Causa Secundaria 2.1 Causa Secundaria 2.2 Causa Terciaria 2.1.1 Causa Terciaria 2.2.2. CAUSA PRIMARIA 3 Causa Secundaria 2.3 Causa Terciaria 2.2.3. Consequências Consequências Consequências IMPACTO DESEJADO RESULTADO 1 PRODUTO 2.1 RESULTADO 2 RESULTADO 3 PRODUTO 2.2 PRODUTO 2.3 Intervenção Intervenção Intervenção 2.2.1 2.2.2 2.2.3 Redução da Pobreza MULHERES EMPODERADAS Mulheres em funções de liderança Melhores políticas educacionais Pais estimulados a mandar suas filhas para a escola Mulheres jovens educadas Aumento da participação das mulheres Construção de escolas Oportunidades Econômicas para mulheres Melhora nos currículos Contratação e remuneração justa de professores Para ter sinergia e gerar impactos tudo isso precisa envolver O mesmo público alvo. Objetivo do Programa: mulheres jovens instruídas Promoção do Objetivo do projeto : Políticas educacionais melhoradas PRESSUPOSTO (que outros farão isto) Objetivos constructivos do projeto Mais salas de aula construídas Objetivos de formação de educadores: Melhorar a qualidadr do currículo NOSSO projeto PARCEIROS farão isto Objetivos de Programa em nivel de impacto O Que é preciso para medir indicadores em cada nível? Impacto: Pesquisa junto à população (avaliação da linha de base e da linha final) Resultados: Mudanças de comportamento dos participantes (Pode ser checado anualmente) Produto: Medido e reportado pela equipe do projeto (anualmente) Actividades: Durante (monitoramento da intervenção ) Insumos: Durante (acompanhamento dos recursos empregados) Nós precisamos reconhecer qual processo avaliativo é mais apropriado em diferentes níveis • Impacto • Resultados • Produtos • Atividades • Insumos AVALIAÇÃO de IMPACTO AVALIAÇÃO do Projeto MONITORAMENTO do DESEMPENHO Uma forma de Modelo Teórico (lógico) de um Programa Contexto Econômico no qual opera o projeto Desenho Insumos Contexto institucional e operacional Contexto Político no qual opera o projeto Proceso de Implementação Produtos Resultados Impactos Sustentabilidade Características sócio-econômicas e culturais das populações afetadas Nota: os quadros laranja estão incluidos nos modelos teóricos convencionais de programas. Os quadros azuis agregados permitem uma análise mais completa 35 36 Expandindo a cadeia de resultados para um programa com multifinanciadores e multi-componentes Impactos Resultados Intermediários Produtos Insumos Renda familiar rural aumentada Produção aumentada Crédito para pequenos produtores Financiador 1 Participação política aumentada Acesso a emprego não agrícola Estradas em zonas rurais Governo Desempenho educacional melhorado Aumento do nº de matrículas na escola Escolas Saúde melhorada Aumento do uso de serviços de saúde Serviços de Saúde outros financiadores Atribuir efeitos é muito difícil! Considere a possibilidade de identificar as contribuições plausíveis de cada intervenção. Lógica de uma Intervenção Educacional Grupo de produtos Impactos específicos Resultados Melhor alocação de recursos educacionais Gestão institucional Aumento asequibilidad Educativa Qualidade da Educação Crescimento Económico Incremento de habilidades e aprendizado ODM 2 Acesso equitativo a educação Maior participação da Sociedade Servicios Educacionais ODM 3 Emprego ótimo Redução da Pobreza ODM 1 Desenvolvimento Social ODM 2 Saúde Impactos Globais Planejamento familiar e seguros de saúde melhorados Materiais educativos e Currículo Emprego e capacitação educadores Impactos Intermediários Melhores oportunidades de Renda Fonte: OECE/DAC Network on Development Evaluation Então, o que deveríamos incluir em uma “avaliação de impacto rigorosa”? 1. Relação causa-efeito direta entre um produto (ou um limitado número de produtos) e um resultado que pode ser medido ao final do projeto ? Atribuição muito clara. … Ou … 2. Mudanças em indicadores representativos da qualidade de vida da população, ex: os ODMs (Objetivos de Desenvolvimento do Milenio)? Mais significativos, mas muito mais difícil de analisar a atribução . 39 Então, o que deveríamos incluir em uma “avaliação de impacto rigorosa”? OECD-DAC (2002: 24) define impactos como “os efeitos de longo prazo, positivos e negativos, primários e secundários, produzidos por uma intervenção de desenvolvimento, direta ou indiretamente, esperados ou não. Tais efeitos podem ser econômicos, socio-culturais, institucionais, ambientais ou de outros tipos”. Isto menciona ou implica em atribuição direta?, ou ressalta a necessidade de estabelecer grupos de controle (contrafactuais) ou Ensaios Aleatórios de Controle (RCTs)? 40 Chegando a um acordo sobre que níveis do modelo lógico incluir na avaliação Este pode ser um tema delicado: em geral, não agrada a equipe de projeto ter responsabilidade além de produtos, enquanto que os financiadores (e o púbico-alvo) podem insistir em avaliar resultados de mais alto nível. Se a correlação entre efeitos intermediários e impactos foi adequadamente estabelecida em estudos e avaliações prévios, então aferir indicadores intermediários pode ser suficiente, uma vez que os contextos podem mostrar-se suficientemente similares para que tais correlações causaefeito sejam consideradas testadas 41 Definição de Avaliação de Programas Avaliação de Programa é a coleta sistemática de informação acerca das atividades, características e resultados de um programa para realizar julgamentos, melhorar ou desenvolver a sua efetividade, subsidiar futuras tomadas de decisões e aumentar a compreensão sobre a intervenção . -- Michael Quinn Patton, Utilization-Focused Evaluation, 4th edition, 2008, page 39 42 Alguns Propósitos da Avaliação de Programas Formativa: aprendizagem e melhoria, inclui a identificação antecipada de possíveis problemas Geradora de Conhecimento: identifica as relações de causaefeito e princípios gerais acerca da efetividade. Prestadora de Contas: demonstra que os recursos foram usados eficientemente para obter os resultados esperados Juízos Somativos: determina o valor e o futuro do programa Avaliação do Desempenho: adaptação em condições complexas, emergentes e dinâmicas -- Michael Quinn Patton, Utilization-Focused Evaluation, 4th edition, pages 139-140 43 Determinando um desenho de avaliação apropriado e viável Com base no principal propósito de conduzir uma avaliação, na compreensão das necessidades de informação do cliente, no nível de rigor requerido e no que é viável dadas as restrições, o avaliador e o cliente têm que determinar que desenho de avaliação é adequado e possível sob as circunstâncias. 44 Algumas considerações para o desenho de uma avaliação 1: Quando se realizam os eventos de avaliação? (linha de base, avaliação intermediária, avaliação final) 2. Análise de diferentes desenhos de avaliação (experimentais, quasi-experimentais, outros) 3: Nível de rigor desejado 4: Métodos qualitativos e quantitativos 5: um desenho de avaliação basado no “ciclo de vida” do projeto. 45 Uma Introdução a vários desenhos de avaliação iIustrando a necessidade de desenhos de avaliação quasiexperimentais e de séries de tempo ou longitudinais Participantes do projeto Grupo de comparação linha de base Escala do principal indicador de impacto Avaliação Final do projeto avaliação pós projeto 46 OK, vamos dar uma paradinha para identificar cada um dos principais tipos de desenho de avaliação (investigação ) … … um de cada vez, começando pelo desenho mais rigoroso. 47 Antes de tudo: a legenda dos símbolos tradicionais: X = Intervenção (tratamento), ou seja: o que faz o projeto numa comunidade? O = Evento de Observação (ex: linha de base, avaliação intermediária, avaliação final do projeto) P (linha superior): Participantes do Projeto C (linha inferior): Grupo de Comparação (ou de controle) Nota: os 7 desenhos de AMR se encontram na página 41 do documento resumo do livro Avaliação em um Mundo Real 48 Desenho # 1: Quasi-experimental Longitudinal P1 X C1 P2 X C2 P3 P4 C3 C4 Participantes do Projeto Grupo de comparação Linha Interme- Avaliação Final de base diário Do Projeto avaliação posterior de Projeto 49 Desenho # 2: Quasi-experimental (pre+pós, com comparação ) P1 X P2 C1 C2 Participantes do Projeto Grupo de Comparação Linha de base Avaliação Final Do Projeto 50 Desenho #2+: Teste de Controle Aleatório P1 X P2 C1 Participantes de Projeto C2 Seleção aleatória, seja para o grupo de participantes do projeto ou para o grupo de controle Grupo de Controle linha de base Avaliação Final do Projeto 51 Desenho #3: Longitudinal Truncado X P1 C1 X P2 C2 Participantes de Projeto Grupo de Comparação Intermediária Avaliação Final do Projeto 52 Desenho #4: Pre+pós do Projeto; comparação só posterior P1 X P2 C Participantes do Projeto Grupo de Comparação Linha de base Avaliação Final do Projeto 53 Desenho #5: apenas pós-teste do Projeto e comparação X P C Participantes do Projeto Grupo de Comparação Avaliação Final do Projeto 54 Desenho # 6: Pre+posterior do Projeto; sem comparação P1 X P2 Participantes do projeto linha de base Avaliação Final do Projeto 55 Desenho #7: Pós-teste apenas de Participantes do Projeto X P Participantes do projeto Avaliação Final do Projeto 56 D e s e n h o T1 (linha de base) T2 X T3 T4 (intervenção (Linha Final) (posterior) X P3 C3 P4 C4 X P2 C2 X P2 C2 X X P2 C2 X X P1 C1 X X P2 X X P1 X (intervenção ) cont.) 1 P1 C1 X 2 P1 C1 X 3 4 X P1 5 6 7 P1 (momento intermediário) P2 C2 P1 C1 57 Atribução e contrafactuais Como saber se as mudanças observadas no público-alvo do Projeto • renda, saúde, atitudes, assistência escolar, etc. devem-se à implementação do projeto • crédito, abastecimento de água, vale-transporte, construção de escolas, etc. ou a outros fatores não relacionados? • Mudanças na economia, mudanças demográficas, outros programas de desenvolvimento, etc. 58 O contrafactual Que mudanças teriam ocorrido na condição da população alvo se não houvesse a intervenção através deste Projeto ? 59 Onde está o contrafactual? Depois de viver por 3 anos em novas casas (obtidas a partir do Projeto), um estudo descobriu que a renda dos beneficiários cresceu 50 % Isto mostra que as casas são uma maneira efetiva para elevar a renda? 60 Grupo de projeto . Melhora em 50% I n c Renda o m e Comparando o Projeto com dois possíveis grupos de comparação Cenário 2. 50% de melhorana renda do grupo de comparação. Não há evidência de impacto do Projeto 750 500 Cenário1. Renda do grupo de comparação não melhora. Potencial evidência de impacto do Projeto 250 2004 2009 Grupo de Controle e Grupo de Comparação Grupo de controle = seleção aleatória de beneficiados pelo Projeto e grupos sem ‘tratamento’ (não beneficiários) Grupo de Comparação = procedimento separado de amostragem para grupos e sem tratamento, grupos que são praticamente idênticos salvo pelo tratamento (intervenção) 62 Alguns avanços recentes em avaliação de impacto em projetos de desenvolvimento 2003 2006 J-PAL conhecida como uma rede de investigadores associados unidos pelo uso de metodologías de testes aleatórios 2008 2010 2009 63 Então, Jim está dizendo que os testes de controle aleatórios (RCTs) são o “Estado da Arte” e deveriam ser usados na maioria das avaliações de impacto de programas? Sim ou não? Por que sim e por que não? Se sim, em que circunstâncias deveriam ser usados? Se não, em que circunstâncias não seriam apropriados? 64 Políticas baseadas em evidência para intervenções simples (ou aspectos simples) : quando RCTs podem ser apropriadas Perguntas necessárias para política baseada em evidência O que funciona? Como é a intervenção? Discreta, intervenção padronizada Como funciona a intervenção ? Bastante parecida em todos os lugares Procedimientos necessários para obter evidência Absorção Transferência de conhecimento Adaptado de Patricia Rogers, RMIT University 65 Quando uma avaliação rigorosa dos indicadores de impacto não seria necessária? Programas complicados e complexos onde haja intervenções múltiplas por múltiplos atores Projetos implementados em contextos dinâmicos (ex. conflitos, desastres naturais) Projetos sob múltiplos modelos lógicos, ou quando não haja relação clara de causa-efecto entre produtos ou não estejam claros os enunciados de visão (geralmente o caso de projetos de desenvolvimento internacionais no Mundo Real) 66 Quando uma avaliação rigorosa dos indicadores de impacto não seria necessária? Uma avaliação com esta abordagem deve ser realizada se foi definida adequadamente uma relação de causa-efeito entre os resultados intermediários e os efeitos finais ou de impacto através de estudos prévios. Então, analisar os resultados intermediários pode ser suficiente sempre e quando o contexto (condições externas e internas) evidencia ser suficientemente similar ao momento que se definiu a relação causa-efeito. 67 Exemplos de relações diretas de causa-efeito geralmente aceitas • Vacinação de crianças: um conjunto padrão de vacinas prescritas para certa idade são capazes de reduzir enfermidades infantis (os meios de verificação implicam observar as características de saúde das crianças, não só a quantidade total de vacinas distribuídas no hospital) • outros exemplos…? 68 Lentes diferentes necessárias para diferentes situações no Mundo Real Simples Complicado Complexo Seguir uma recieta Enviar um foguete à lua Criar uma criança As receitas são testadas para assegurar fácil replicação Enviar um foguete à lua melhora a certeza de que o próximo também será exitoso Criar uma criança dá experiência mas não garante o éxito com o próximo As melhores receitas oferecem bons resultados todas as vezes Existe um alto grau de certeza nos resultados A incerteza dos resultados se mantém Fonte: Westley et ao (2006) e Stacey (2007), citado por Patton 2008; también presentado por Patricia Rodgers em la conferencia de Impacto do Cairo (2009). 69 “É muito melhor ter uma resposta aproximada à pergunta correta, que é geralmente vaga, que a resposta correta à pergunta errada, que sempre pode ser formulada com precisão”. J. W. Tukey (1962, page 13), "The future of data analysis". Annals of Mathematical Statistics 33(1), pp. 1-67. Citado por Patricia Rogers, RMIT University 70 Podem haver problemas de validação com RTCs Validação interna Temas de Qualidade – Medição débil, aderência débil à amostra aleatória, base estatística inadequada, efeitos diferenciais ignorados, comparação inadequada, busca de significado estatístico, perda de informação, implementação de baixa qualidade não identificada outros – erro na amostragem aleatória, contaminação de outras fontes, necessidade de um pacote causal completo. Validação externa Efetividade na prática do mundo real, capacidade de transferência para novas situações Patricia Rogers, RMIT University 71 O uso limitado de sólidos desenhos de avaliação No Mundo Real (ao menos em programas internacionais de desenvolvimento) estimamos que: • Menos de 5% - 10% das avaliações • de impacto de projetos usam sólidos desenhos experimentais ou até desenhos quasiexperimentais Muito menos do que 5% usam Teste de Controle Randomizado (desenho experimental “puro”) 72 Considere o Mundo Real dos programas a serem avaliados como um quebracabeças gigante Desenhos de pesquisa experimental (avaliações) e, muito menos os RCTs, só são apropriados para poucas peças deste quebracabeças gigante. É por isso que bons avaliadores (e aqueles que comissionam avaliações) precisam de uma caixa de ferramentas mais diversificada , que possam ser customizadas ao desenhar avaliações que respondem a diferentes propósitos e circunstâncias 73 Há outros métodos para analisar os contrafactuais Dados secundários confiáveis que mostrem tendências relevantes na população Dados longitudinais de monitoramento (se incluem população não atendida) Métodos qualitativos para obter perspectivas de informantes chave, participantes, vizinhos, etc. Falaremos mais sobre isso depois… 74 Ainda parte do passo 1: Outras perguntas para responder quando vocês tiverem que adaptar Termos de Referência (TdR) de uma avaliação 1. 2. 3. 4. : Quem solicitou a avaliação? (Quem são as partes interessadas)? Quais são as perguntas chave que devem ser respondidas? Trata-se de uma avaliação formativa ou somativa (qual o propósito)? Haverá uma fase seguinte ou outros projetos desenhados com base nos achados desta avaliação? 75 Outras perguntas para responder quando se adaptam os Termos de Referência de uma avaliação: 5. 6. 7. 8. 9. Que decisões serão tomadas em resposta aos achados desta avaliação? Qual é o nível apropriado de rigor? Qual é o alcance/escala da avaliação (o que será avaliado)? Quanto tempo será necessário e de quanto tempo se dispõe? Que recursos financeiros serão necessários e qual a disponibilidade? 76 Outras perguntas para responder enquanto se adaptam os Termos de Referência de uma avaliação: 10. 11. 12. 13. 14. 15. A avaliação deveria apoiar-se principalmente em métodos qualitativos ou quantitativos? Deveriam ser usados métodos participativos? Poderia ou teria que ser feita uma pesquisa nos domicílios? Quem deveria ser entrevistado? Quem deveria ser envolvido no planejamento/implementação da avaliação? Quais são os meios mais adequados para comunicar os achados a diferentes partes interessadas? 77 desenho da avaliação (investigação)? Perguntas chaves? O que avaliar? Qualitativo? Recursos disponíveis? Tempo disponível? Habilidades disponíveis? Participativa? Quantitativo? Alcance? Nível de rigor apropriado? Extractiva? Avaliação para quem? Isto ajuda ou confunde mais? Quem disse que as avaliações (como a vida) seriam fáceis?!! 78 Antes de voltar aos passos da Avaliação em um Mundo Real, pensemos em níveis de rigor, e como seria um Plano de Avaliação de um projeto em todo seu ciclo de vida 79 Níveis diferentes de rigor Depende da fonte de evidência; do nivel de confiança; do uso da informação Objetivo, alta precisão – requerendo mais prazo e recursos ($) Nivel 5: um projeto de investigação muito detalhado realiza-se para analisar em profundidade a situação P= +/- 1% Livro publicado! Nivel 4: uma boa amostra representativa da população alvo e métodos de coleta de dados criteriosos são usados para coleta de informação; P= +/- 5% os tomadores de decisão lêm o informe completo Nivel 3: Se faz uma pesquisa rápida com base em uma amostra conveniente de participantes; P= +/- 10% os tomadores de decisão lêm o sumário de 10 páginas Nivel 2: Pergunta-se a uma boa combinação de pessoas suas perspectivas sobre o projeto ; P= +/- 25% os tomadores de decisão lêm ao menos o sumário executivo de um relatório Nivel 1: Pergunta-se a algumas pessoas suas perspectivas sobre o projeto ; P= +/- 40% as decisões são tomadas em poucos minutos Nivel 0: as impressões dos tomadores de decisão se apóiam em opiniões superficiais coletadas em encontros breves (fofocas de corredores), intuição ; Nivel de confiança +/- 50%; as decisões são tomadas em poucos segundos Rápida e barata – mas subjetiva, inconsistente CONDUZIR uma AVALIAÇÃO É COMO INSTALAR uma TUBULAÇÃO A QUALIDADE da INFORMAÇÃO GERADA POR uma AVALIAÇÃO DEPENDE do NIVEL DE RIGOR DE TODOS os COMPONENTES QUANTIDADE DE “FLUXO” (QUALIDAD) DE INFORMAÇÃO ESTÁ LIMITADA ao MENOR COMPONENTE da PESQUISA “TUBULAÇÃO” Determinando os níveis apropriados de precisão para os eventos num Plano de Avaliação do ciclo de vida de um projeto Rigor alto Mesmo nível de rigor 4 Avaliação final Estudo de Linha de Base Avaliação Intermediária 3 Análise de necessidades Estuio Especial Auto avaliação anual 2 Rigor baixo tempo de vida do projeto Agora, onde estamos? Sim! Estamos prontos para os passos 2 e 3 da abordagem Avaliação em um Mundo Real. Vamos continuar … 84 Avaliação em um Mundo Real Desenhando avaliações sob restrições Políticas, orçamentárias, de prazo e de Informação Passos 2 + 3 RESPONDENDO A LIMITES DE orçamento e prazo 85 Passo 2: Respondendo a problemas orçamentários A. B. C. D. E. Esclarecer as necessidades de informação do cliente Simplificar o desenho de avaliação Buscar informação secundária confiável Revisar o tamanho da amostra Reduzir custos de coleta e análise de informações 86 Racionalizar necessidades de informação Usar informações do passo 1 para identificar as necessidades de informação do cliente Simplificar o desenho da avaliação (mas preparar-se para compensar ‘pedaços perdidos’) Revisar todos os instrumentos de coleta de informação e cortar qualquer pergunta não relacionada diretamente com os objetivos da avaliação . 87 Buscar fontes de informação secundária confiáveis Estudos de planejamento, registros administrativos do Projeto, Ministérios, outras ONGs, universidades e institutos de pesquisa, meios de comunicação de massa. 88 … Buscar fontes de informação secundária confiáveis Analisar a relevância e a confiabilidade das fontes para a avaliação com respeito a: Cobertura da população alvo Periodo de tempo Relevância da informação coletada Confiabilidade e complementariedade da informação Potenciais viéses 89 Algumas formas de economizar tempo e dinheiro Dependendo do propósito e do nivel de rigor requerido, algumas das opções poderiam incluir: • Reduzir o número de unidades estudadas • • (comunidades, famílias, escolas) Reduzir o número de estudos de caso ou a duração e complexidad dos casos Reduzir a duração e frequência das observações 90 Buscando formas de reduzir o tamanho da amostra Aceitar um nivel mas baixo de precisão reduz significativamente o número de entrevistas: Testar uma mudança de 5% nas proporções requer uma amostra mínima de 1086 Testar uma mudança de 10% nas proporções requer uma amostra mínima 270 91 Reduzindo custos na coleta e análise de dados Usar questionários auto-aplicáveis Reduzir o tamanho e a complexidade do instrumento Usar observação direta Obter estimativas de grupos focais e reuniões comunitárias Informantes chave Métodos de avaliação participativos Multi-métodos e triangulação 92 Passo 3: Respondendo a restrições de prazo Adicionalmente ao Passo 2 (problemas orçamentários) Pode-se usar os seguintes métodos: Reduzir pressões de tempo com consultorias externas • Estudos preparatórios realizados por comissões • Vídeo conferências Contratar mais consultores/investigadores Incorporar indicadores de impacto nos sistemas de monitoramento do projeto e documentos (impactos parciais) Tecnologia para processamento de dados 93 Endereçando problemas de prazo Negociar com os clientes e discutir questões como: 1. Quais são as informações essenciais e o que pode ser retiradas ou reduzidas? 2. Qual a precisão ou nível de detalhe para ter a informação essencial? Ex: É necessário ter estimativas separadas para cada região geográfica ou sub-grupo ou uma média populacional é aceitável? 3. É necessário analisar todos os componentes e serviços do Projeto o só os mais importantes? 4. É possível conseguir recursos adicionais (dinheiro, equipe, acesso a computadores, veículos, etc.) para agilizar os processos de coleta e análise de dados? 94 Avaliação em um Mundo Real Desenhando avaliações sob restrições políticas, orçamentárias, de prazo e Informações Passo 4 Respondendo a restrições de informação Maneiras de reconstruir as condições da linha de base A. B. C. D. Dados secundários Informes do Projeto Memórias/atas/notas Informantes-chave 97 Maneiras de reconstruir as condições da linha de base E. DPR (Diagnóstico Participativo Rápido) e AAP (Ação e Aprendizagens Participativos) e outras técnicas participativas como cronogramas e eventos críticos para ajudar a estabelecer a cronologia de mudanças importantes na comunidade 98 Analisando a utilidade de potenciais dados secundários Período de referência Cobertura da população Inclusão de indicadores requeridos Complementariedade Precisão Libre de viéses 99 Exemplos de dados secundários usados para reconstruir linhas de base Censos Outras pesquisas realizadas por organizaciones governamentais Estudos específicos realizados por ONGs e doadores Pesquisas Acadêmicas Meios de comunicação (jornais, rádio, TV) Informações de monitoramento produzidas pela agência implementadora 100 Usando registros internos do projeto Tipo de informação Estudos de viabilidade e planejamento Formulários de aplicação e registro Relatórios de Supervisão Dados do Sistema de Informações Gerenciais (SIG) Registros de reuniões Atas das reuniões realizadas entre a agência implementadora e a comunidade Informes de avanços Informes de construção , capacitação , implementação e outros incluindo custos. 101 Avaliando a confiabilidade dos registros existentes do projeto Quem coletou as informações e com que propósito? As informações foram coletadas apenas como registro ou para influenciar os tomadores de decisões ou outros grupos? As informações de monitoramento referem-se apenas às atividades do Projeto ou também a mudanças nos resultados? As informações foram geradas exclusivamente para uso interno? Ou para uso de um grupo restrito? Ou para uso público? 102 Usando registros para reconstruir a linha de base Registros de assistência escolar e tempo /custo de viagens Enfermidade/uso dos serviços de saúde Renda e gastos Conhecimento e habilidades comunitárias/individuais Coesão/conflito social Uso/qualidade/custo da água Períodos de stress Padrões de viagens 103 Onde acessar a memória do Projeto é o melhor Áreas onde a maior parte das investigações tenha sido feita com base nas memórias • Pesquisas de rendimentos e gastos • Dados demográficos e sobre fertilidade Tipos de perguntas: • Sim/Não; fatos • Escalas • Facilmente relacionados a eventos maiores 104 Limites da memória Geralmente não são confiáveis para dados quantitativos precisos Viés de seleção de amostras Distorção deliberada ou não intencional Poucos estudos empíricos (exceto em relação ao gasto) que ajudem a ajustar estimativas 105 Fontes de viéses na memória Quem provê as informacões? Sub-estimativa de gastos pequenos e de rotina “Telescópio” da memória em relação aos maiores gastos Distorção para alinhar-se com condutas adequadas: • • • Intencional ou inconsciente Romantização do passado Exageros (exemplo “Não tinhamos nada antes desse Projeto!”) Fatores contextuais: • • Os intervalos de tempo usados nas perguntas As expectativas dos respondentes acerca do que o entrevistador quer saber Implicações para o protocolo de entrevista 106 Melhorando a validade da memória Conduzir estudos curtos para comparar a memória com pesquisas ou outros achados Assegurar-se que todos os grupos relevantes sejam entrevistados Triangulação Vincular memória a importantes eventos de referência • Eleições • Secas/inundacões/tsunami/guerra/realocaçao • Construção de estradas, escolas, etc. 107 Informantes-chave Não apenas funcionários e pessoas de alto cargo Todos podem ser informantes-chave em situações próprias: • Mães solteiras • Trabalhadores de fábricas • Usuários de transporte público • Prostitutas • Meninos de rua 108 Guias para análise de informantes-chave A triangulação ajuda muito a validar e entender Incluir informantes com diferentes experiências e perspectivas Entender como cada informante se enquadra no contexto Empregar múltiplas rodadas se necessário Manejar os assuntos éticos cuidadosamente 109 DPR e técnicas de participação relacionadas As técnicas DPR (Diagnóstico Participativo Rápido) e AAP (Ação e Aprendizagens Participativos) ajudam a coletar dados em grupos e comunidades (mais do que em nível) Ambas ajudam a identificar consenso ou perspectivas diferentes Risco de viés: • • Se só participam certos setores da comunidade Se certas pessoas dominam a discussão 110 Sumário dos temas na reconstrução da linha de base Variações na confiabilidade da memória Distorção da memória Os dados secundários não são fáceis de usar Dados secundários incompletos ou não confiáveis Informantes-chave podem distorcer o passado 111 2. Maneiras de reconstruir grupos de comparação Associação de comunidades para julgamento Quando se introduzem os serviços de um projeto em fases, os beneficiários que entram nas últimas fases podem ser usados como grupos de comparação “tubulações Controles internos quando diferentes sujeitos recebem diferentes combinações combinaciones e níveis de serviço 112 Uso de notas para fortalecer grupos de comparação Associando notas ou scores Estudos rápidos de avaliação podem comparar características de projetos e grupos de comparação usando: • • • • • Observação Informantes chave Grupos focais Dados secundários Fotos aéreas e dados georreferenciados 113 Aspectos a considerar na reconstrução de grupos de comparação Áreas do projeto frequentemente selecionadas intencionalmente e difíceis de associar Diferenças entre grupos de projeto e grupos de comparação – dificuldade de avaliar se os resultados se deveram às intervenções do projeto ou às diferenças iniciais Ausência de boas informações para selecionar grupos de comparação Contaminação (as boas ideias tendem a espalhar-se!) Os métodos econométricos não podem ajustar integralmente as diferenças iniciais entre os grupos [nãoobserváveis] 114 Já chega das minhas apresentações: é hora de vocês (Gente do Mundo Real) envolverem-se. Tempo para trabalhos em grupos. Leiam os seus estudos de caso e comecem suas discussões. Trabalho em grupo: estudos de caso 1. 2. 3. Alguns de vocês estão prestando consultoria em avaliação. Outros são os clientes que comissionam (recebem e aprovam) a avaliação. Decidam o que seu grupo proporá para responder aos desafíos e restrições. Preparem-se para negociar os TdR com o outro grupo (mais tarde). Avaliação em um Mundo Real Desenhando avaliações sob restrições Políticas, orçamentárias, de tempo e de informação avaliações con métodos mistos NÃO deveria haver uma disputa entre QUALITATIVO (só textos) Quantoide! OU QUANTITATIVO (só números) Qualoide! “Seus números são “Sua história impressionantes, humana parece mas deixa eu te bonita, mas deixa eu contar uma história te mostrar algumas humana estatísticas” interessante” 121 O que é preciso é combinar adequadamente AMBOS métodos QUALITATIVOS E QUANTITATIVOS 122 Métodos de coleta de dados quantitativos Pesquisas estruturadas (domicílios, fazendas, uso de transporte, etc.) Observação estruturada Métodos antropométricos Testes de aptidão e comportamento Indicadores que possam ser quantificados 123 Métodos de coleta de dados qualitativos Características A perspectiva do investigador é uma parte integral do que é registrado sobre o mundo social Não é possível um distanciamento científico Significados dados a situações fenômenos sociais devem ser entendidos Programas não podem ser estudados independentemente do seu contexto É difícil definir uma clara relação entre causa e efeito A transformação debe ser estudada de forma holística 124 Usando métodos qualitativos para melhorar o desenho e os resultados da avaliação Usar a memória para reconstruir a situação pré-teste Entrevistar informantes-chave para identificar outras mudanças na comunidade ou em relações de gênero Conduzir entrevistas ou grupos focais com mulheres e homens para • • Evaliar o efeito dos empréstimos nas relações de gênero dentro das casas, tais como mudanças no controle dos recursos e na tomada de decisões Identificar outros resultados importantes ou consequências não esperadas: • Aumento na carga de trabalho das mulheres, • Aumento da incidência da violência doméstica de gênero 125 Disenhos de avaliação com métodos mistos Combinam as fortalezas de ambas abordagens quantitatIVO e qualitatIVO Uma abordagem ( QUANTI ou QUALI) é frequentemente dominante e a outra a complementa Ambas as abordagens podem coexistir de igual maneira mas torna a avaliação difícil de desenhar e manejar Podem ser usadas de maneira sequenciada ou simultânea 126 Determinando a precisão e combinação apropriada de múltiplos métodos Medidas nutricionais Medidas nutricionais Pesquisas Unidades familiares Grupos Focais Pesquisas Grupos Focais Unidades familiares Entrevistas a Informantes chave Grupo grande Baixo nível de rigor, qualidad questionável, barato e rápido Participativo --- qualitativo Extrativo --- quantitativo Alto nivel de rigor, de qualidad, mais tempo & gasto Abordagens participativas deveriam ser usadas tanto quanto possível Mas, ainda assim, com rigor apropriado: quantas (e quais) perspectivas das pessoas contribuíram para a história? 128 Perguntas? 129 Tempo para as equipes de consultores reunirem-se com clientes para negociar os TdRs para a avaliação do projeto de habitação. 130 Conclusão: Os avaliadores devem estar preparados para: 1. Entrar num periodo tardio do ciclo do projeto ; 2. Trabalhar sob restrições de tempo e orçamentárias; 3. Não ter acesso a dados comparativos de linha de base; 4. Trabalhar sem grupos de comparação viáveis; 5. Trabalhar com investigadores de avaliação pouco qualificados; 6. Reconciliar diferentes paradigmas de avaliação e necessidades de informação de diferentes tipos de atores 131 Principais mensagens do Workshop 1. 2. 3. 4. 5. Os avaliadores devem estar preparados para os desafios da avaliação em um Mundo Real. Há uma experiência considerável com a qual aprender. Um conjunto de técnicas práticas de avaliação está disponível em www.RealWorldEvaluation.org Nunca usem os limites de tempo e orçamento como desculpa para metodologías de avaliação superficiais. Uma lista de verificação de “ameaças de validação” ajuda a ser honesto na identificação de debilidades potenciais em seu desenho de avaliação e análise. 132 133 133