Avaliação em um Mundo Real Desenhando Avaliações sob restrições orçamentárias, de tempo, de informação e políticas III Seminário da Rede Brasileira de Monitoramento e Avaliação Brasília, DF, Brasil 01 de junho de 2011 Workshop Coordenado por Jim Rugh A apresentação é um resumo do capítulo do livro que está disponível em : www.RealWorldEvaluation.org Apresentação traduzida para o Português por Marcia Joppert 1 Alguns avanços recentes em avaliação de impacto em projetos de desenvolvimento 2003 2006 J-PAL conhecida como uma rede de investigadores associados unidos pelo uso de metodologías de testes aleatórios 2008 2010 2 Então, Jim está dizendo que os testes de controle aleatórios (RCTs) são o “Estado da Arte” e deveriam ser usadas na maioria das avaliações de impacto de programas? Sim ou não? Por que sim e por que não? Se sim, em que cirunstâncias deveriam ser usadas? Se não, em que cirunstâncias não seriam apropriadas? 3 Políticas baseadas em evidência para intervenções simples (ou aspectos simples) : quando RCTs podem ser apropriadas Perguntas necessárias para política baseada em evidência O que funciona? Como é a intervenção? Discreta, intervenção padronizada Ccomo funciona a intervenção ? Bastante parecida em todos os lugares Procedimientos necessários para obter evidência Absorção Transferência de conhecimento Adaptado de Patricia Rogers, RMIT University 4 Quando uma avaliação rigorosa dos indicadores de altos níveis de impacto não seria necessária? Programas complicados e complexos onde haja intervenções múltiplas por múltiplos atores Projetos implementados em contextos dinâmicos (ex. conflitos, desastres naturais) Projetos sob múltiplos modelos lógicos, ou quando não haja relação clara de causa-efecto entre produtos ou não estejam claros os enunciados de visão (geralmente o caso de projetos de desenvolvimento internacionais no MundO Real) 5 Quando uma avaliação rigorosa dos indicadores de altos níveis de impacto não seria necessária? Uma avaliação com esta abordagem deve ser realizada se foi definida adequadamente uma relação caus-efeito entre os resultados intermediários e os efeitos finais ou de impacto através de estudos previos. Então, analisando os resultados em nivel dos alcances intermediários pode ser suficiente sempre e quando o contexto (condições externas e internas) evidencia ser suficientemente similar ao momento que se definiu a relação causa efeito. 6 Exemplos de relações causa-efeito geralmente aceitas • Vacinação de crianças com um conjunto padrão de vacinas prescritas para certa idade como capazes de reduzir alguma enfermidade infantil (os meios de verificação implicam observar as características de saúde das crianças, não só a quantidade total de vacinas distribuídas no hospital) • outros exemplos…? 7 Lentes diferentes necessárias para diferentes situações no Mundo Real Simples Complicado Complexo Seguir uma receta Enviar um foguete à lua Criar uma criança As receitas são testadas para assegurar fácil replicação Enviar um foguete à lua melhora a certeza de que o próximo também será exitoso Criar uma criança dá experiência mas não garante o éxito com o próximo As melhores receitas oferecem bons resultados todas as vezes Existe um alto grau de certeza nos resultados A incerteza dos resultados se mantém Fonte: Westley et ao (2006) e Stacey (2007), citado por Patton 2008; también presentado por Patricia Rodgers em la conferencia de Impacto do Cairo (2009). 8 “É muito melhor ter uma resposta aproximada à pergunta correta, que é geralmente vaga, que a resposta correta à pergunta errada, a qual sempre pode ser formulada com precisão. J. W. Tukey (1962, page 13), "The future of data analysis". Annals of Mathematical Statistics 33(1), pp. 1-67. Citado por Patricia Rogers, RMIT University 9 Podem haver problemas de validação com RTCs Validação interna Temas de Qualidade – Medição débil, aderência débil à amostra aleatória, base estatística inadequada, efetos diferenciales ignorados, comparação inadequada, busca de significado estatístico, perda de informação, implementação de baixa qualidade não identificada outros – error na amostragem aleatória, contaminação de outras fontes, necessidade de um paquete causal completo. Validação externa Efetividade na prática do mundo real, capacidade de transferência para novas situações Patricia Rogers, RMIT University 10 O uso limitado de sólidos desenhos de avaliação No Mundo Real (ao menos em programas internacionais de desenvolvimento) estimamos que: • Menos de 5% - 10% das avaliações • de impacto de projetos usam sólidos desenhos experimentais ou até desenhos quaisexperimentais Muito menos do que 5% usam Teste de Controle Randomizado (desenho experimental “puro”) 11 Considere o Mundo Real dos programas a ser avaliados como um quebra-cabeças gigante Os desenhos de investigação to tipo experimental (avaliação) e, mucho menos os RCTs, ssolo paró são apropriados para poucas peças deste quebra-cabeças gigante. É por isso que bons avaliadores (e aqueles que comissionam avaliações) precisam de uma caixa de ferramentas mais diversificada , que possam ser customizadas ao desenhar avaliações que repondem a diferentes propósitos e circunstancias 12 Há outros métodos para analisar os contrafactuais Dados secundarios confiáveis que mostrem tendências relevantes na população Dados longitudinais de monitoramento (se incluem população não coberta) Métodos qualitativos para obter perspectivas de informantes chave, participantes, vizinhos, etc. Falaremos mais sobre isso depois… 13 Ainda parte do passo 1: Outras perguntas para responder quando vocês adaptam Termos de Referência (TdR) de uma avaliação : 1. 2. 3. 4. Quem solicitou a avaliação? (Quem são as partes interessadas)? Quais são as perguntas chave que devem ser respondidas? Trata-se de uma avaliação formativa ou somativa (qual o propósito)? Haverá uma fase seguinte ou outros projetos desenhados com base nos achados desta avaliação? 14 Outras perguntas para responder enquanto se adaptam os Termos de Referência de uma avaliação: 5. 6. 7. 8. 9. Que decisões serão tomadas em resposta aos achados desta avaliação? Qual é o nível apropriado de rigor? Qual é o alcance/escala da avaliação (o que será avaliado)? Quanto tempo será necessário e de quanto tempo se dispõe? Que recursos financeiros serão necessários e qual a disponibilidade? 15 Outras perguntas para responder enquanto se adaptam os Termos de Referência de uma avaliação: 10. 11. 12. 13. 14. 15. A avaliação deveria apoiar-se principalmente em métodos qualitativos ou quantitativos? Deveriam ser usados métodos participativos? Poderia ou teria que ser feita uma pesquisa nos domicípios? Quem deveria ser entrevistado? Quem deveria ser envolvido no planejamento/implementação da avaliação? Quais são os meios mais adequados para comunicar os achados a diferentes partes interessadas? 16 desenho da avaliação (investigação)? Perguntas chaves? O que avaliar? Qualitativo? Recursos disponíveis? Tempo disponível? Habilidades disponíveis? Participativa? Quantitativo? Alcance? Nível de rigor apropriado? Extractiva? Avaliação para quem? Isto ajuda ou confunde mais? Quem disse que as avaliações (como a vida) seriam fáceis?!! 17 Antes de voltar aos passos da Avaliação em um Mundo Real, pensemos em níveis de rigor, e como seria um Plano de Avaliação de um projeto em todo seu ciclo de vida 18 Níveis diferentes de rigor Depende da fonte de evidência; do nivel de confiança; do uso da informação Objetivo, alta precisão – requerendo mais prazo e recursos ($) Nivel 5: um projeto de investigação muito detalhado realiza-se para analisar em profundidade a situação P= +/- 1% Livro publicado! Nivel 4: uma boa amostra representativa da população alvo e métodos de coleta de dados criteriosos são usados para coleta de informação; P= +/- 5% os tomadores de decisão lêm o informe completo Nivel 3: Se faz uma pesquisa rápida com base em uma amostra conveniente de participantes; P= +/- 10% os tomadores de decisão lêm o sumário de 10 páginas Nivel 2: Pergunta-se a uma boa combinação de pessoas suas perspectivas sobre o projeto ; P= +/- 25% os tomadores de decisão lêm ao menos o sumario executivo de um relatório Nivel 1: Pergunta-se a algumas pessoas suas perspectivas sobre o projeto ; P= +/- 40% as decisões são tomadas em poucos minutos Nivel 0: as impressões dos tomadores de decisão se apóiam em opiniões superficiais coletadas em encontros breves (fofocas de corredores), intuição ; Nivel de confianza +/- 50%; as decisões são tomadas em poucos segundos Rápida e barata – mas subjetiva, inconsistente CONDUZIR uma AVALIAÇÃO É COMO INSTALAR uma TUBULAÇÃO A QUALIDADE da INFORMAÇÃO GERADA POR uma AVALIAÇÃO DEPENDE do NIVEL DE RIGOR DE TODOS os COMPONENTES QUANTIDADE DE “FLUXO” (QUALIDAD) DE INFORMAÇÃO ESTÁ LIMITADA ao MENOR COMPONENTE da PESQUISA “TUBULAÇÃO” Determinando os níveis apropriados de precisão para os eventos num Plano de Avaliação do ciclo de vida de um projeto Rigor alto Mesmo nível de rigor 4 Avaliação final Estudo de Linha de Base Avaliação Intermediária 3 Análise de necessidades Estuio Especial Auto avaliação anual 2 Rigor baixo tempo de vida do projeto Agora, onde estamos? Oh, sim! Estamos prontos para os passos 2 e 3 da abordagem Avaliação em um Mundo Real. Vamos continuar … 23 Avaliação em um Mundo Real Desenhando avaliações sob restrições Políticas, orçamentárias, de prazo e de Informação Passos 2 + 3 RESPONDENDO A LIMITES DE orçamento e prazo 24 Passo 2: Respondendo a problemas orçamentários A. B. C. D. E. Esclarecer as necessidades de informação do cliente Simplificar o desenho de avaliação Buscar informação secundária confiável Revisar o tamanho da amostra Reduzir custos de coleta e análise de informações 25 Racionalizar necessidades de informação Usar informações do passo 1 para identificar as necessidades de informação do cliente Simplificar o desenho da avaliação (mas preparar-se para compensar ‘pedaços perdidos’) Revisar todos os instrumentos de coleta de informação e cortar qualquer pergunta não relacionada diretamente com os objetivos da avaliação . 26 Buscar fontes de informação secundária confiáveis Estudos de planejamento, registros administrativos do Projeto, Ministérios, outras ONGs, universidades e institutos de pesquisa, meios de comunicação de massa. 27 … Buscar fontes de informação secundária confiáveis Analisar a relevância e a confiabilidade das fontes para a avaliação com respeito a: Cobertura da população alvo Periodo de tempo Relevância da informação coletada Confiabilidade e complementariedade da informação Potenciais viéses 28 Algumas formas de economizar tempo e dinheiro Dependendo do propósito e do nivel de rigor requerido, algumas das opções poderiam incluir: • Reduzir o número de unidades estudadas • • (comunidades, famílias, escolas) Reduzir o número de estudos de caso ou a duração e complexidad dos casos Reduzir a duração e frequência das observações 29 Buscando formas de reduzir o tamanho da amostra Aceitar um nivel mas baixo de precisão reduz significativamente o número de entrevistas: Testar uma mudança de 5% nas proporções requer uma amostra mínima de 1086 Testar uma mudança de 10% nas proporções requer uma amostra mínima 270 30 Reduzindo custos na coleta e análise de dados Usar questionários auto-aplicáveis Reduzir o tamanho e a complexidade do instrumento Usar observação direta Obter estimativas de grupos focais e reuniões comunitárias Informantes chave Métodos de avaliação participativos Multi-métodos e triangulação 31 Passo 3: Respondendo a restrições de prazo Adicionalmente ao Passo 2 (problemas orçamentários) Pode-se usar os seguintes métodos: Reduzir pressões de tempo com consultorias externas • Estudos preparatórios de comissões • Vídeo conferências Contratar mais consultores/investigadores Incorporar indicadores de resultados nos sistemas de monitoramento do projeto e documentos Tecnología para processamento de dados 32 Endereçando problemas de prazo Negociar com os clientes e discutir questões como: 1. Quais são as informações essenciais e o que pode ser retirado ou reduzido? 2. Que precisão e nível de detalhe se requer para ter la informação essencial? Ex: É necessário ter estimativas separadas para cada região geográfica ouu sub-grupo o uma média populacional é aceitável? 3. É necessário analisar todos os componentes e serviços do Projeto o só os mais importantes? 4. É possível conseguir recursos adicionais (dinheiro, equipe, acesso a computadores, veículos, etc.) para agilizar os processos de coleta e análisis de datos? 33 Avaliação em um Mundo Real Desenhando avaliações sob restrições políticas, orçamentárias, de prazo e Informações Passo 4 Respondendo a restrições de informação Maneiras de reconstruir as condições da linha de base A. B. C. D. Dados secundários Informes do Projeto Memorias/atas/notas Informantes-chave 36 Maneiras de reconstruir as condições da linha de base E. DPR (Diagnóstico Participativo Rápido) e AAP (Ação e Aprendizagens Participativos) e outras técnicas participativas como cronogramas e eventos críticos para ajudar a estabelecer la cronologia de mudanças importantes na comunidade 37 Analisando a utilidade de potenciais dados secundários Período de referência Cobertura da população Inclusão de indicadores requeridos Complementariedade Precisão Libre de viéses 38 Exemplos de dados secundários usados para reconstruir linhas de base Censos Outras pesquisas realizadas por organizaciones governamentais Estudos específicos realizados por ONGs e doadores Pesquisas Acadêmicas Meios de comunicação (jornais, rádio, TV) Informações de monitoramento produzidas pela agência implementadora 39 Usando registros internos do projeto Tipo de informação Estudos de viabilidade e planejamento Formulários de aplicação e registro Relatórios de Supervisão Dados do Sistema de Informações Gerenciais (SIG) Registros de reuniões Atas das reuniões realizadas entre a agência implementadora e a comunidade Informes de avanços Informes de construção , capacitação , implementação e outros incluindo custos. 40 Avaliando a confiabilidade dos registros existentes do projeto Quem coletou as informações e com que propósito? As informações foram coletadas apenas como registro ou para influenciar os tomadores de decisões ou outros grupos? As informações de monitoramento referem-se apenas às atividades do Projeto ou também a mudanças nos resultados? As informações foram geradas exclusivamente para uso interno? Ou para uso de um grupo restrito? Ou para uso público? 41 Usando registros para reconstruir a linha de base Registros de assistência escolar e tempo /custo de viagens Enfermidade/uso dos serviços de saúde Renda e gastos Conhecimento e habilidades comunitárias/individuais Coesão/conflito social Uso/qualidade/custo da água Períodos de stress Padrões de viagens 42 Onde acessar a memória do Projeto é o melhor Áreas onde a maior parte das investigações tenha sido feita com base nas memórias • Pesquisas de rendimentos e gastos • Dados demográficos e sobre fertilidade Tipos de perguntas: • Si/No; fatos • Escalas • Facilmente relacionados a eventos maiores 43 Limites da memória Geralmente não são confiáveis para dados quantitativos precisos Viés de seleção de amostras Distorção deliberada ou não intencional Poucos estudos empíricos (exceto em relação ao gasto) que ajudem a ajustar estimativas 44 Fontes de viéses na memória Quem provê as informacões? Sub-estimativa de gastos pequenos e de rotina “Telescópio” da memória em relação aos maiores gastos Distorção para alinhar-se com condutas adequadas: • • • Intencional ou inconsciente Romantização do passado Exageros (exemplo “Não tinhamos nada antes desse Projeto!”) Fatores contextuais: • • Os intervalos de tempo usados nas perguntas As expectativas dos respondentes acerca do que o entrevistador quer saber Implicações para o protocolo de entrevista 45 Melhorando la validade da memória Conduzir estudos curtos para comparar a memória com pesquisas ou outros achados Assegurar-se que todos os grupos relevantes sejam entrevistados Triangulação Vincular memória a importantes eventos de referência • Eleições • Secas/inundacões/tsunami/guerra/realocaçao • Construção de estradas, escolas, etc. 46 Informantes-chave Não apenas funcionários e pessoas de alto cargo Todos podem ser informantes-chave em situações próprias: • Mães solteiras • Trabalhadores de fábricas • Usuários de transporte público • Prostitutas • Meninos de rua 47 Guias para análise de informantes-chave A triangulação ajuda muito a validar e entender Incluir informantes com diferentes experiências e perspectivas Entender como cada informante se enquadra na fotografia Empregar múltiplas rodadas se necessário Manejar os assuntos éticos cuidadosamente 48 DPR e técnicas de participação relacionadas As técnicas DPR (Diagnóstico Participativo Rápido) e AAP (Ação e Aprendizagens Participativos) ajudam a coletar dados em grupos e comunidades (mais do que em nível) Ambas ajudam a identificar consenso ou perspectivas diferentes Risco de viés: • • Se só participam certos setores da comunidade Se certas pessoas dominam a discussão 49 Sumário dos temas na reconstrução da linha de base Variações na confiabilidade da memória Distorção da memória Os dados secundários não são fáceis de usar Dados secundários incompletos ou não confiáveis Informantes-chave podem distorcer o passado 50 2. Maneiras de reconstruir grupos de comparação Associação de comunidades para julgamento Quando se introduzem os serviços de um projeto em fases, os beneficiários que entram nas últimas fases podem ser usados como grupos de comparação “tubulações Controles internos quando diferentes sujeitos recebem diferentes combinações combinaciones e níveis de serviço 51 Uso de notas para fortalecer grupos de comparação Associando notas ou scores Estudos rápidos de avaliação podem comparar características de projetos e grupos de comparação usando: • • • • • Observação Informantes chave Grupos focais Dados secundários Fotos aéreas e dados georreferenciados 52 Aspectos a considerar na reconstrução de grupos de comparação Áreas do projeto frequentemente selecionadas intencionalmente e difíceis de associar Diferenças entre grupos de projeto e grupos de comparação – dificuldade de avaliar se os resultados se deveram às intervenções do projeto ou às diferenças iniciais Ausência de boas informações para seleccionar grupos de comparação Contaminação (as boas ideias tendem a espalhar-se!) Os métodos econométricos não podem ajustar integralmente as diferenças iniciais entre os 53 grupos [no-observáveis] Já chega das minhas apresentações: é hora de vocês (Gente do Mundo Real) envolverse. Tempo para trabalhos em grupos. Leiam os seus estudos de caso e comecem suas discussões. Trabalho em grupo: estudos de caso 1. 2. 3. Alguns de vocês estão prestando consultoria em avaliação. Outros são os clientes que comissionam (recebem e aprovam) a avaliação. Decidam o que seu grupo proporá para responder aos desafíos e restrições. Preparem-se para negociar os TdR com o outro grupo (mais tarde). Avaliação em um Mundo Real Desenhando avaliações sob restrições Políticas, orçamentárias, de tempo e de informação avaliações con métodos mistos NÃO deveria haver uma disputa entre QUALITATIVO (só textos) Quantoide! OU QUANTITATIVO( ó números) Qualoide! “Seus números são “Sua história impressionantes, humana parece mas deixa eu te bonita, mas deixa eu contar uma história te mostrar algumas humana estatísticas” interessante” 59 O que é preciso é combinar adequadamente AMBOS métodos QUALITATIVOS E QUANTITATIVOS 60 Métodos de coleta de dados quantitativos Pesquisas estruturadas (domicílios, fazendas, uso de transporte, etc.) Observação estruturada Métodos antropométricos Testes de aptidão e comportamento Indicadores que possam ser quantificados 61 Métodos de coleta de dados qualitativos Características A perspectiva do investigador é uma parte integral do que é registrado sobre o mundo social Não é possível um distanciamento científico Significados dados a situações fenômenos sociais devem ser entendidos Programas não podem ser estudados independentemente do seu contexto É difícil definir uma clara relação entre causa e efeito A transformação debe ser estudada de forma holística 62 Usando métodos qualitativos para melhorar o desenho e os resultados da avaliação Usar a memória para reconstruir a situação pré-teste Entrevistar informantes-chave para identificar outras mudanças na comunidade ou em relações de gênero Conduzir entrevistas ou grupos focais com mulheres e homens para • • Evaliar o efeito dos empréstimos nas relações de gênero dentro das casas, tais como mudanças no controle dos recursos e na tomada de decisões Identificar outros resultados importantes ou consequências não esperadas: • Aumento na carga de trabalho das mulheres, • Aumento da incidência da violência doméstica de gênero 63 Disenhos de avaliação com métodos mistos Combinam as fortalezas de ambas abordagens quantitatIVO e qualitatIVO Uma abordagem ( QUANTI ou QUALI) é frequentemente dominante e a outra a complementa Ambas as abordagens podem coexistir de igual maneira mas torna a avaliação difícil de desenhar e manejar Podem ser usadas de maneira sequenciada ou simultânea 64 Determinando a precisão e combinação apropriada de múltiplos métodos Medidas nutricionais Medidas nutricionais Pesquisas Unidades familiares Grupos Focais Pesquisas Grupos Focais Unidades familiares Entrevistas a Informantes chave Grupo grande Baixo nível de rigor, qualidad questionável, barato e rápido Participativo --- qualitativo Extrativo --- quantitativo Alto nivel de rigor, de qualidad, mais tempo & gasto Abordagens participativas deveriam ser usadas tanto quanto possível Mas, ainda assim, com rigor apropriado: quantas (e quais) perspectivas das pessoas contribuíram para a história? 66 Perguntas? 67 Tempo para as equipes de consultores reunirem-se com clientes para negociar os TdRs para la avaliação do projeto de habitação. 68 Conclusão: Os avaliadores devem estar preparados para: 1. Entrar num periodo tardio do ciclo do projeto ; 2. Trabalhar sob restrições de tempo e orçamentárias; 3. Não ter acesso a dados comparativos de linha de base; 4. Trabalhar sem grupos de comparação viáveis; 5. Trabalhar com investigadores de avaliação pouco qualificados; 6. Reconciliar diferentes paradigmas de avaliação e necessidades de informação de diferentes tipos de atores 69 Principais mensagens do Workshop 1. 2. 3. 4. 5. Os avaliadores devem estar preparados para os desafios da avaliação em um Mundo Real. Há uma experiência considerável com a qual aprender. Um conjunto de técnicas práticas de avaliação está disponível em www.RealWorldEvaluation.org Nunca usem os limites de tempo e orçamento como desculpa para metodologías de avaliação superficiais. Uma lista de verificação de “ameaças de validação” ajuda a ser honesto na identificação de debilidades potenciais em seu desenho de avaliação e análise. 70 OBRIGADO! 71 71