Avaliação em um Mundo Real
Desenhando Avaliações sob restrições
orçamentárias, de tempo, de informação e políticas
III Seminário da Rede Brasileira de
Monitoramento e Avaliação
Brasília, DF, Brasil
01 de junho de 2011
Workshop Coordenado por
Jim Rugh
A apresentação é um resumo do capítulo do livro que
está disponível em :
www.RealWorldEvaluation.org
Apresentação traduzida para o Português por Marcia Joppert
1
Objetivos do Workshop
1. Apresentar os sete passos do enfoque da Avaliação
em um Mundo Real para responder a assuntos
comuns e restrições enfrentadas por avaliadores,
tais como: quando o avaliador é convocado no
momento de finalização do projeto e não existe
linha de base nem grupo de comparação; ou
quando a avaliação tem que ser realizada com um
orçamento ou prazo insuficiente; e quando
existem pressões políticas e expectativas a
respeito de como a avaliação deveria ser conduzida
ou quais deveriam ser as conclusões.
2
Objetivos do Workshop
2.
3.
4.
5.
Definir avaliação de impacto;
Identificar e analisar várias opções de desenho que
poderiam ser usadas em um contexto particular de
avaliação;
Maneiras de reconstruir a linha de base quando a
avaliação tem início quando o projeto já está muito
avançado ou finalizado;
como minimizar as ameaças à validade ou adequação
usando uma apropriada combinação de enfoques
qualitativos e quantitativos (métodos mistos) em relação
a um contexto específico de Avaliações em um Mundo
Real.
3
Objetivos do Workshop
Nota: Este workshop tem como foco a
avaliação de impactos em projetos.
Naturalmente, há muitas outras propostas,
escopos e tipos de avaliação. Alguns desses
métodos podem ser aplicáveis a eles, mas
nossos exemplos se basearão em
avaliações de impacto de projetos,
principalmente no contexto de países em
desenvolvimento.
4
Agenda de Trabalho
1.Introdução [10 minutos]
2. Resumo da abordagem Avaliação em um Mundo Real (AMR) [30 minutos]
3. Apresentação de participantes em pequenos grupos e intercâmbio de
experiências relacionadas com a AMR. [30 minutos]
4. AMR (passos 1, 2 e 3): Definindo o escopo da avaliação e as estratégias
para resolver as restrições orçamentárias e de tempo [75 minutos]
--- intervalo curto [15 minutos]--5. AMR (passo 4): Enfrentando restrições de informação [30 minutos]
6. Pequenos grupos lêem seus estudos de caso e iniciam a discussão [30
minutos]
--- almoço [60 minutos] --7. Métodos qualitativos, quantitativos e mistos [20 minutos]
8. Os grupos completam a preparação dos estudos de caso. Exercícios
sobreTermos de Referência (TORs) [30 minutos]
9. Negociação de Termos de Referência entre grupos [60 minutos]
10. Resultados do exercício [15 minutos]
11. Conclusão das discussões. Avaliação do workshop [30 minutos]
Avaliação em um Mundo
Real
Desenhando Avaliações sob restrições
orçamentárias, de tempo, de informação e
políticas
Resumo do enfoque AMR
6
Cenários de Avaliação em um
Mundo Real
Cenário 1: avaliadores não participam até quase o
final do projeto
Por razões políticas, técnicas ou orçamentárias:
• Não houve plano de avaliação que
abrangesse o ciclo de vida do projeto no início
• Não houve pesquisa de linha de base
• Os executores não coletaram informação
adequada sobre os participantes nem no início
nem durante a implementação do projeto
• É difícil conseguir informações de grupos de
controle comparáveis
7
Cenários da Avaliação em um
Mundo Real
Cenário 2: A equipe de avaliação é convocada
no início do projeto
Mas, por razões orçamentárias, políticas ou
metodológicas:
 A linha de base foi uma avaliação de
necessidades, não é comparável em uma
eventual avaliação
 Não foi possível coletar dados de linha de
base de um grupo de comparação
8
Checando a realidade – Desafios
da Avaliação do Mundo Real
•
•
•
•
•
•
Em geral, os formuladores de projetos não pensam de
forma avaliativa e a avaliação acaba sendo desenhada ao
final do projeto
Não houve linha de base; ao menos não com dados
comparáveis em uma eventual avaliação
Não houve e nem pode haver grupos de
comparação/controle.
Tempo e recursos limitados para avaliação
Os clientes têm suas próprias expectativas sobre o que
eles querem que os resultados digam
Muitos atores não entendem avaliação; não confiam no
processo ou o vêm como uma ameaça (não gostam de
ser julgados)
9
Avaliação em um Mundo Real
Metas de Controle de Qualidade




Conseguir o máximo rigor possível na avaliação
dentro das limitações do contexto
Identificar e controlar as debilidades metodológicas
no desenho de uma avaliação
Negociar com os clientes as vantagens e
desvantagens entre o rigor desejado e os recursos
disponíveis
A apresentação de resultados deve reconhecer as
debilidades metodológicas e como podem causar
generalizações a outras populações/comunidades
10
A necessidade da abordagem
Avaliação em um Mundo Real

Como resultado destas restrições , muitos dos
principios básicos para um rigoroso desenho
de avaliação de impacto são frequentemente
sacrificados, como por exemplo: pré-teste
comparável, desenho pós-teste, grupo de
controle, desenvolvimento e teste de
instrumentos adequados, seleção de amostra
aleatória, controle dos viéses dos
investigadores, minuciosa documentação da
metodologia de avaliação, etc.
11
A abordagem Avaliação em um
Mundo Real
um enfoque integrado para
assegurar padrões aceitáveis de
rigor metodológico enquanto se
trabalha sob restrições
políticas, orçamentárias, de
tempo e de informação .
Ver o livro RealWorld Evaluation
ou, ao menos, o capítulo resumo para mais detalhes
12
A abordagem “Avaliação em um
Mundo Real”(AMR)

Desenvolvida para ajudar avaliadores e
clientes
• Gerentes de Projetos, agências de
financiamento e consultores externos


Um trabalho ainda em construção
(aprendizado contínuo a partir de workshops
como este)
Inicialmente desenhada para países em
desenvolvimento, mas igualmente aplicável a
países desenvolvidos
13
Desafios particulares da avaliação em
países em desenvolvimento






Falta de acesso ou inexistência de dados secundários
Escassos recursos locais para avaliação
Orçamentos limitados para avaliação
Restrições institucionais e políticas
Falta de uma cultura em avaliação (ainda quando as
associações de avaliação tentam dar resposta a esta
questão)
Muitas avaliações desenhadas por e em função dos
interesses das agências financeiras e raras vezes em
função das prioridades dos atores locais ou nacionais
14
Expectativas para avaliações
“rigorosas”
Apesar desses desafios, existe uma
crescente demanda por avaliações
metodologicamente “sérias”, capazes de
captar os impactos, a sustentabilidade e
a replicabilidade dos projetos e
programas de desenvolvimento.
(Falaremos disto mais tarde…!)
15
A maioria das ferramentas da AMR não são
novas, mas promovem um enfoque integrado


A maioria das ferramentas para coleta e
análise de dados da abordagem AMR são
familiares para avaliadores experientes.
O que se enfatiza é um enfoque integrado, o
qual combina uma ampla gama de ferramentas
para obter a melhor qualidade na avaliação
sob as restrições e condicionantes do mundo
real.
16
O que há de especial na abordagem
AMR?


Existe uma série de passos definidos, cada
um com uma lista de verificação das
restrições e a maneira de enfrentá-las.
Esses passos estão resumidos no próximo
slide e depois em um fluxograma mais
detalhado.…
17
Os passos do Enfoque AMR
passo 1: Planejar e definir o escopo da avaliação
passo 2: Abordar as restrições orçamentárias
passo 3: Abordar as restrições de tempo
passo 4: Abordar as restrições de Informação
passo 5: Abordar as restrições políticas
passo 6: Avaliar e abordar as fortalezas e
debilidades do desenho da avaliação
passo 7: Ajudar os clientes a usar a avaliação
18
A abordagem Avaliação em um Mundo Real
passo 1: Planejando e definindo o escopo da avaliação
A. Definir as necessidades de informação do cliente e comprender o contexto político
B. Definir o modelo teórico do programa
C. Identificar as restrições de tempo , orçamento, informação e políticas a seren endereçadas pela AMR
D. Selecionar o desenho que melhor atenda as necessidades do cliente dentro das restrições da AMR
passo 2
Abordar restrições
orçamentárias
A. Modificar o desenho da
avaliação
B. Racionalizar necessidades
de informação
C. Pesquisar informações
secundárias confiáveis
D. Revisar o desenho amostral
E. Definir métodos
econômicos de coleta de
dados
passo 3
Abordar restrições de tempo
Todo o passo 2 + :
F. Realizar Estudos preparatórios
G. Contratar mais recursos
humanos
H. Revisar formatos de registro do
projeto para incluir dados críticos
para a avaliação de impacto.
I. Tecnologia moderna para coleta
e análise de dados
passo 6
Avaliar e abordar as fortalezas e debilidades do desenho de
avaliação
Uma lista de verificação integrada para desenhos multi-métodos
A. Objetividade/confirmabilidade
B. Replicabilidade/dependência
C. Validade interna/credibilidade/autenticidade
D. Validade externa/transferência/adaptabilidade
passo 4
Abordar restrições de
informação
A. Reconstruir linha de base
B. Recriar os grupos de
controle/comparação
C. Trabalhar con grupos de
controle não equivalentes
D. Coletar informação em
temas sensibles ou de grupos
difíceis de acessar
E. Uso de métodos múltiplos
passo 5
Abordar influências
políticas
A. Acomodar as pressões das
agências de financiamento ou
dos clientes sobre o desenho
da avaliação
B. Endereçar as preferências
metodológicas dos atores
sociais
C. Reconhecer a influência
dos paradigmas de
investigação profissional .
passo 7
Ajudar os clientes a usar a avaliação
A. Utilização
B. Aplicação
C. Orientação
D. Ação
19
Discussão em grupos
20
1. Apresentação de cada
participante
2. Que restrições destes
tipos vocês enfrentaram
em suas práticas
avaliativas?
3. Como lidaram com elas?
21
Avaliação em um Mundo
Real
Desenhando avaliações sob restrições
orçamentárias, de tempo, de informação e
políticas
passo 1
Planejando e definindo o
escopo da avaliação
22
Passo1: Planejando e definindo o
escopo da avaliação



Comprender as necessidades de
informação dos clientes
Definir o modelo teórico do programa
Identificação preliminar de restrições a
serem endereçadas pela Avaliação em
um Mundo Real
23
A. Comprendendo as necessidades
de informação do cliente
Perguntas típicas que os clientes desejam
responder:





O projeto está alcançando seus objetivos?
Está tendo o impacto desejado?
Todos os setores da população-alvo estão
sendo beneficiados?
Os resultados serão sustentáveis?
Que fatores contextuais determinam o grau
de êxito ou fracasso?
24
A. Comprendendo as necessidades
de informação do cliente
Uma completa compreensão das
necessidades de informação do cliente
frequentemente reduz os tipos de informação
coletada, o nível de detalhe e o rigor
necessário.
No entanto, esta completa compreensão
também pode incrementar a quantidade de
informações requeridas!
25
B. Definindo o modelo teórico
do Programa


Todos os programas baseiam-se em um
conjunto de pressupostos (hipóteses) acerca
de como as intervenções deveriam contribuir
para o alcance dos resultados desejados.
Às vezes isso está claramente explicitado
nos documentos de projeto.
Às vezes está apenas implícito e o avaliador
tem que ajudar os diferentes atores a
articularem as hipóteses através de um
modelo lógico.
26
B. Definindo o modelo teórico do
Programa

Definir e testar os pressupostos críticos são
elementos essenciais (mas frequentemente
ignorados) do modelo da teoria de programas.

O slide a seguir mostra um exemplo de um
modelo para avaliar os impactos do microcrédito no empoderamento social e econômico
de mulheres
27
Hipóteses críticas da cadeia lógica em um
programa de micro-crédito com inclusão
de gênero




Sustentabilidade
• Mudanças estruturais contribuirão com impactos de longo prazo.
Impactos de médio e longo prazo
• Incremento do empoderamento econômico e social das mulheres.
• Melhora do bem-estar econômico e social das mulheres e suas
famílias.
Resultados a curto prazo
• Se as mulheres obtêm empréstimos, elas iniciarão atividades
geradoras de renda.
• As mulheres serão capazes de controlar o uso dos empréstimos e
pagá-los.
Produtos
• Se há oferta de crédito, as mulheres estarão dispostas e aptas a
obter empréstimos e assistência técnica.
28
Consequências
Consequências
Consequências
PROBLEMA
CAUSA
PRIMARIA 1
CAUSA
PRIMARIA 2
Causa Secundaria
2.1
Causa Secundaria
2.2
Causa Terciaria
2.1.1
Causa Terciaria
2.2.2.
CAUSA
PRIMARIA 3
Causa Secundaria
2.3
Causa Terciaria
2.2.3.
Consequências
Consequências
Consequências
IMPACTO DESEJADO
RESULTADO
1
PRODUTO 2.1
RESULTADO
2
RESULTADO
3
PRODUTO 2.2
PRODUTO 2.3
Intervenção
Intervenção
Intervenção
2.2.1
2.2.2
2.2.3
Redução da Pobreza
MULHERES EMPODERADAS
Mulheres em
funções de
liderança
Melhores
políticas
educacionais
Pais
estimulados
a mandar
suas filhas
para a
escola
Mulheres jovens
educadas
Aumento da
participação das
mulheres
Construção
de escolas
Oportunidades
Econômicas
para mulheres
Melhora nos
currículos
Contratação e
remuneração
justa de
professores
Para ter sinergia e gerar impactos tudo isso precisa envolver
O mesmo público alvo.
Objetivo do Programa:
mulheres jovens instruídas
Promoção do
Objetivo do
projeto :
Políticas
educacionais
melhoradas
PRESSUPOSTO
(que outros farão isto)
Objetivos
constructivos
do projeto Mais
salas de aula
construídas
Objetivos de
formação de
educadores:
Melhorar a
qualidadr do
currículo
NOSSO
projeto
PARCEIROS farão isto
Objetivos de Programa em nivel de impacto
O Que é preciso para medir
indicadores em cada nível?
Impacto: Pesquisa junto à população
(avaliação da linha de base e da linha final)
Resultados: Mudanças de comportamento dos participantes
(Pode ser checado anualmente)
Produto: Medido e reportado pela equipe do projeto
(anualmente)
Actividades: Durante (monitoramento da intervenção )
Insumos: Durante (acompanhamento dos recursos empregados)
Nós precisamos reconhecer qual processo
avaliativo é mais apropriado em diferentes
níveis
• Impacto
• Resultados
• Produtos
• Atividades
• Insumos
AVALIAÇÃO de IMPACTO
AVALIAÇÃO do Projeto
MONITORAMENTO do
DESEMPENHO
Uma forma de Modelo Teórico (lógico) de um Programa
Contexto
Econômico no qual
opera o projeto
Desenho
Insumos
Contexto
institucional e
operacional
Contexto Político
no qual opera o
projeto
Proceso
de
Implementação
Produtos
Resultados
Impactos
Sustentabilidade
Características sócio-econômicas e culturais das
populações afetadas
Nota: os quadros laranja estão incluidos nos modelos teóricos convencionais de
programas. Os quadros azuis agregados permitem uma análise mais completa
35
36
Expandindo a cadeia de resultados para um programa com multifinanciadores e multi-componentes
Impactos
Resultados
Intermediários
Produtos
Insumos
Renda familiar
rural
aumentada
Produção
aumentada
Crédito para
pequenos
produtores
Financiador 1
Participação
política
aumentada
Acesso a
emprego não
agrícola
Estradas em
zonas rurais
Governo
Desempenho
educacional
melhorado
Aumento do nº
de matrículas na
escola
Escolas
Saúde
melhorada
Aumento do uso
de serviços de
saúde
Serviços de
Saúde
outros financiadores
Atribuir efeitos é muito difícil! Considere a possibilidade de identificar as contribuições
plausíveis de cada intervenção.
Lógica de uma Intervenção Educacional
Grupo de
produtos
Impactos
específicos
Resultados
Melhor alocação
de recursos
educacionais
Gestão
institucional
Aumento
asequibilidad
Educativa
Qualidade da
Educação
Crescimento
Económico
Incremento de
habilidades e
aprendizado
ODM 2
Acesso
equitativo a
educação
Maior
participação da
Sociedade
Servicios
Educacionais
ODM 3
Emprego ótimo
Redução da
Pobreza
ODM 1
Desenvolvimento
Social
ODM 2
Saúde
Impactos
Globais
Planejamento familiar
e seguros de saúde
melhorados
Materiais
educativos e
Currículo
Emprego e
capacitação
educadores
Impactos
Intermediários
Melhores
oportunidades
de Renda
Fonte: OECE/DAC Network on Development Evaluation
Então, o que deveríamos incluir em uma
“avaliação de impacto rigorosa”?
1.
Relação causa-efeito direta entre um produto (ou um
limitado número de produtos) e um resultado que pode ser
medido ao final do projeto ?  Atribuição muito clara.
… Ou …
2.
Mudanças em indicadores representativos da qualidade
de vida da população, ex: os ODMs (Objetivos de
Desenvolvimento do Milenio)?  Mais significativos, mas
muito mais difícil de analisar a atribução .
39
Então, o que deveríamos incluir em uma
“avaliação de impacto rigorosa”?
OECD-DAC (2002: 24) define impactos como “os efeitos
de longo prazo, positivos e negativos, primários e
secundários, produzidos por uma intervenção de
desenvolvimento, direta ou indiretamente, esperados ou
não. Tais efeitos podem ser econômicos, socio-culturais,
institucionais, ambientais ou de outros tipos”.
Isto menciona ou implica em atribuição direta?, ou
ressalta a necessidade de estabelecer grupos de controle
(contrafactuais) ou Ensaios Aleatórios de Controle
(RCTs)?
40
Chegando a um acordo sobre que níveis do
modelo lógico incluir na avaliação

Este pode ser um tema delicado: em geral, não agrada a
equipe de projeto ter responsabilidade além de produtos,
enquanto que os financiadores (e o púbico-alvo) podem
insistir em avaliar resultados de mais alto nível.

Se a correlação entre efeitos intermediários e impactos foi
adequadamente estabelecida em estudos e avaliações
prévios, então aferir indicadores intermediários pode ser
suficiente, uma vez que os contextos podem mostrar-se
suficientemente similares para que tais correlações causaefeito sejam consideradas testadas
41
Definição de Avaliação de Programas
Avaliação de Programa é a coleta sistemática de
informação acerca das atividades, características e
resultados de um programa para realizar julgamentos,
melhorar ou desenvolver a sua efetividade, subsidiar
futuras tomadas de decisões e aumentar a compreensão
sobre a intervenção .
-- Michael Quinn Patton, Utilization-Focused Evaluation, 4th edition, 2008, page 39
42
Alguns Propósitos da Avaliação de Programas

Formativa: aprendizagem e melhoria, inclui a identificação
antecipada de possíveis problemas

Geradora de Conhecimento: identifica as relações de causaefeito e princípios gerais acerca da efetividade.

Prestadora de Contas: demonstra que os recursos foram
usados eficientemente para obter os resultados esperados

Juízos Somativos: determina o valor e o futuro do programa

Avaliação do Desempenho: adaptação em condições
complexas, emergentes e dinâmicas
-- Michael Quinn Patton, Utilization-Focused Evaluation, 4th edition, pages 139-140
43
Determinando um desenho de
avaliação apropriado e viável

Com base no principal propósito de
conduzir uma avaliação, na
compreensão das necessidades de
informação do cliente, no nível de rigor
requerido e no que é viável dadas as
restrições, o avaliador e o cliente têm
que determinar que desenho de
avaliação é adequado e possível sob as
circunstâncias.
44
Algumas considerações para o
desenho de uma avaliação
1: Quando se realizam os eventos de
avaliação? (linha de base, avaliação
intermediária, avaliação final)
2. Análise de diferentes desenhos de avaliação
(experimentais, quasi-experimentais, outros)
3: Nível de rigor desejado
4: Métodos qualitativos e quantitativos
5: um desenho de avaliação basado no “ciclo
de vida” do projeto.
45
Uma Introdução a vários desenhos de avaliação
iIustrando a necessidade de desenhos de avaliação quasiexperimentais e de séries de tempo ou longitudinais
Participantes do projeto
Grupo de
comparação
linha de base
Escala do principal indicador de impacto
Avaliação Final
do projeto
avaliação
pós projeto
46
OK, vamos dar uma paradinha
para identificar cada um dos
principais tipos de desenho
de avaliação (investigação )
…
… um de cada vez, começando
pelo desenho mais rigoroso.
47
Antes de tudo: a legenda dos símbolos
tradicionais:




X = Intervenção (tratamento), ou seja: o que
faz o projeto numa comunidade?
O = Evento de Observação (ex: linha de
base, avaliação intermediária, avaliação final
do projeto)
P (linha superior): Participantes do Projeto
C (linha inferior): Grupo de Comparação (ou
de controle)
Nota: os 7 desenhos de AMR se encontram na página 41 do documento
resumo do livro Avaliação em um Mundo Real
48
Desenho # 1: Quasi-experimental Longitudinal
P1
X
C1
P2
X
C2
P3
P4
C3
C4
Participantes do
Projeto
Grupo de comparação
Linha
Interme-
Avaliação Final
de base
diário
Do Projeto
avaliação
posterior de
Projeto
49
Desenho # 2: Quasi-experimental (pre+pós, com comparação )
P1
X
P2
C1
C2
Participantes do
Projeto
Grupo de Comparação
Linha de
base
Avaliação Final
Do Projeto
50
Desenho #2+: Teste de Controle Aleatório
P1
X
P2
C1
Participantes de
Projeto
C2
Seleção aleatória, seja
para o grupo de
participantes do
projeto ou para o
grupo de controle
Grupo de Controle
linha de base
Avaliação Final
do Projeto
51
Desenho #3: Longitudinal Truncado
X
P1
C1
X
P2
C2
Participantes de
Projeto
Grupo de
Comparação
Intermediária
Avaliação Final
do Projeto
52
Desenho #4: Pre+pós do Projeto; comparação só posterior
P1
X
P2
C
Participantes do
Projeto
Grupo de
Comparação
Linha de
base
Avaliação Final
do Projeto
53
Desenho #5: apenas pós-teste do Projeto e comparação
X
P
C
Participantes do
Projeto
Grupo de
Comparação
Avaliação Final
do Projeto
54
Desenho # 6: Pre+posterior do Projeto; sem comparação
P1
X
P2
Participantes do
projeto
linha de base
Avaliação Final do
Projeto
55
Desenho #7: Pós-teste apenas de Participantes do Projeto
X
P
Participantes do
projeto
Avaliação Final do
Projeto
56
D
e
s
e
n
h
o
T1
(linha de
base)
T2
X
T3
T4
(intervenção
(Linha Final)
(posterior)
X
P3
C3
P4
C4
X
P2
C2
X
P2
C2
X
X
P2
C2
X
X
P1
C1
X
X
P2
X
X
P1
X
(intervenção )
cont.)
1
P1
C1
X
2
P1
C1
X
3
4
X
P1
5
6
7
P1
(momento
intermediário)
P2
C2
P1
C1
57
Atribução e contrafactuais
Como saber se as mudanças
observadas no público-alvo do Projeto
•
renda, saúde, atitudes, assistência escolar, etc.
devem-se à implementação do projeto
•
crédito, abastecimento de água, vale-transporte,
construção de escolas, etc.
ou a outros fatores não relacionados?
•
Mudanças na economia, mudanças demográficas,
outros programas de desenvolvimento, etc.
58
O contrafactual

Que mudanças teriam ocorrido na
condição da população alvo se
não houvesse a intervenção
através deste Projeto ?
59
Onde está o contrafactual?
Depois de viver por 3 anos em
novas casas (obtidas a partir do
Projeto), um estudo descobriu
que a renda dos beneficiários
cresceu 50 %
Isto mostra que as casas são
uma maneira efetiva para elevar
a renda?
60
Grupo de projeto . Melhora em
50%
I n c
Renda
o m e
Comparando o Projeto com dois
possíveis grupos de comparação
Cenário 2. 50% de melhorana
renda do grupo de comparação.
Não há evidência de impacto
do Projeto
750
500
Cenário1. Renda do grupo de
comparação não melhora.
Potencial evidência de
impacto do Projeto
250
2004
2009
Grupo de Controle e Grupo de Comparação


Grupo de controle = seleção aleatória de
beneficiados pelo Projeto e grupos sem
‘tratamento’ (não beneficiários)
Grupo de Comparação = procedimento separado
de amostragem para grupos e sem tratamento,
grupos que são praticamente idênticos salvo pelo
tratamento (intervenção)
62
Alguns avanços recentes em avaliação de
impacto em projetos de desenvolvimento
2003
2006
J-PAL conhecida como uma rede de
investigadores associados unidos pelo uso de
metodologías de testes aleatórios
2008
2010
2009
63
Então, Jim está dizendo que os testes de controle aleatórios
(RCTs) são o “Estado da Arte” e deveriam ser usados na maioria
das avaliações de impacto de programas?
Sim ou não?
Por que sim e por que não?
Se sim, em que circunstâncias
deveriam ser usados?
Se não, em que circunstâncias não
seriam apropriados?
64
Políticas baseadas em evidência para
intervenções simples (ou aspectos simples) :
quando RCTs podem ser apropriadas
Perguntas necessárias para política
baseada em evidência 
O que funciona?
Como é a intervenção? 
Discreta, intervenção padronizada
Como funciona a intervenção ? 
Bastante parecida em todos os lugares
Procedimientos necessários para
obter evidência
Absorção 
Transferência de conhecimento
Adaptado de Patricia Rogers, RMIT University
65
Quando uma avaliação rigorosa dos
indicadores de impacto não seria
necessária?



Programas complicados e complexos onde haja
intervenções múltiplas por múltiplos atores
Projetos implementados em contextos dinâmicos (ex.
conflitos, desastres naturais)
Projetos sob múltiplos modelos lógicos, ou quando não
haja relação clara de causa-efecto entre produtos ou não
estejam claros os enunciados de visão (geralmente o caso
de projetos de desenvolvimento internacionais no Mundo
Real)
66
Quando uma avaliação rigorosa dos
indicadores de impacto não seria
necessária?

Uma avaliação com esta abordagem deve ser
realizada se foi definida adequadamente uma
relação de causa-efeito entre os resultados
intermediários e os efeitos finais ou de impacto
através de estudos prévios. Então, analisar os
resultados intermediários pode ser suficiente
sempre e quando o contexto (condições externas
e internas) evidencia ser suficientemente similar
ao momento que se definiu a relação causa-efeito.
67
Exemplos de relações diretas de
causa-efeito geralmente aceitas
• Vacinação de crianças: um conjunto
padrão de vacinas prescritas para certa idade
são capazes de reduzir enfermidades infantis
(os meios de verificação implicam observar as
características de saúde das crianças, não só a
quantidade total de vacinas distribuídas no hospital)
•
outros exemplos…?
68
Lentes diferentes necessárias para
diferentes situações no Mundo Real
Simples
Complicado
Complexo
Seguir uma recieta
Enviar um foguete à
lua
Criar uma criança
As receitas são
testadas para
assegurar fácil
replicação
Enviar um foguete à
lua melhora a certeza
de que o próximo
também será exitoso
Criar uma criança dá
experiência mas não
garante o éxito com o
próximo
As melhores receitas
oferecem bons
resultados todas as
vezes
Existe um alto grau de
certeza nos resultados
A incerteza dos
resultados se mantém
Fonte: Westley et ao (2006) e Stacey (2007), citado por Patton 2008;
también presentado por Patricia Rodgers em la conferencia de Impacto do Cairo (2009).
69
“É muito melhor ter uma resposta
aproximada à pergunta correta, que é
geralmente vaga, que a resposta correta
à pergunta errada, que sempre pode ser
formulada com precisão”.
J. W. Tukey (1962, page 13), "The future of data analysis".
Annals of Mathematical Statistics 33(1), pp. 1-67.
Citado por Patricia Rogers, RMIT University
70
Podem haver problemas de
validação com RTCs


Validação interna
Temas de Qualidade – Medição débil, aderência débil à amostra
aleatória, base estatística inadequada, efeitos diferenciais
ignorados, comparação inadequada, busca de significado
estatístico, perda de informação, implementação de baixa
qualidade não identificada
outros – erro na amostragem aleatória, contaminação de outras
fontes, necessidade de um pacote causal completo.
Validação externa
Efetividade na prática do mundo real, capacidade de
transferência para novas situações
Patricia Rogers, RMIT University
71
O uso limitado de sólidos
desenhos de avaliação

No Mundo Real (ao menos em programas
internacionais de desenvolvimento)
estimamos que:
• Menos de 5% - 10% das avaliações
•
de
impacto de projetos usam sólidos desenhos
experimentais ou até desenhos quasiexperimentais
Muito menos do que 5% usam Teste de
Controle Randomizado (desenho
experimental “puro”)
72
Considere o Mundo Real dos programas a
serem avaliados como um quebracabeças gigante
Desenhos de pesquisa experimental
(avaliações) e, muito menos os RCTs, só são
apropriados para poucas peças deste quebracabeças gigante.
É por isso que bons avaliadores (e aqueles que
comissionam avaliações) precisam de uma caixa
de ferramentas mais diversificada , que possam
ser customizadas ao desenhar avaliações que
respondem a diferentes propósitos e
circunstâncias
73
Há outros métodos para
analisar os contrafactuais




Dados secundários confiáveis que mostrem
tendências relevantes na população
Dados longitudinais de monitoramento (se
incluem população não atendida)
Métodos qualitativos para obter perspectivas de
informantes chave, participantes, vizinhos, etc.
Falaremos mais sobre isso depois…
74
Ainda parte do passo 1: Outras perguntas para
responder quando vocês tiverem que adaptar
Termos de Referência (TdR) de uma avaliação
1.
2.
3.
4.
:
Quem solicitou a avaliação? (Quem são as
partes interessadas)?
Quais são as perguntas chave que devem ser
respondidas?
Trata-se de uma avaliação formativa ou
somativa (qual o propósito)?
Haverá uma fase seguinte ou outros projetos
desenhados com base nos achados desta
avaliação?
75
Outras perguntas para responder quando
se adaptam os Termos de Referência de
uma avaliação:
5.
6.
7.
8.
9.
Que decisões serão tomadas em resposta
aos achados desta avaliação?
Qual é o nível apropriado de rigor?
Qual é o alcance/escala da avaliação (o que
será avaliado)?
Quanto tempo será necessário e de quanto
tempo se dispõe?
Que recursos financeiros serão necessários e
qual a disponibilidade?
76
Outras perguntas para responder
enquanto se adaptam os Termos de
Referência de uma avaliação:
10.
11.
12.
13.
14.
15.
A avaliação deveria apoiar-se principalmente em
métodos qualitativos ou quantitativos?
Deveriam ser usados métodos participativos?
Poderia ou teria que ser feita uma pesquisa nos
domicílios?
Quem deveria ser entrevistado?
Quem deveria ser envolvido no
planejamento/implementação da avaliação?
Quais são os meios mais adequados para
comunicar os achados a diferentes partes
interessadas?
77
desenho da avaliação
(investigação)?
Perguntas chaves?
O que avaliar?
Qualitativo?
Recursos disponíveis?
Tempo disponível?
Habilidades
disponíveis?
Participativa?
Quantitativo?
Alcance?
Nível de rigor apropriado?
Extractiva?
Avaliação para quem?
Isto ajuda ou confunde mais?
Quem disse que as avaliações (como a vida) seriam fáceis?!!
78
Antes de voltar aos passos
da Avaliação em um Mundo
Real, pensemos em níveis
de rigor, e como seria um
Plano de Avaliação de um
projeto em todo seu ciclo de
vida
79
Níveis diferentes de rigor
Depende da fonte de evidência; do nivel de confiança; do uso da informação
Objetivo, alta precisão – requerendo mais prazo e recursos ($)
Nivel 5: um projeto de investigação muito detalhado realiza-se para
analisar em profundidade a situação P= +/- 1% Livro publicado!
Nivel 4: uma boa amostra representativa da população alvo e métodos
de coleta de dados criteriosos são usados para coleta de informação; P=
+/- 5% os tomadores de decisão lêm o informe completo
Nivel 3: Se faz uma pesquisa rápida com base em uma amostra
conveniente de participantes; P= +/- 10% os tomadores de decisão lêm o sumário
de 10 páginas
Nivel 2: Pergunta-se a uma boa combinação de pessoas suas
perspectivas sobre o projeto ; P= +/- 25% os tomadores de decisão lêm ao menos
o sumário executivo de um relatório
Nivel 1: Pergunta-se a algumas pessoas suas perspectivas sobre o
projeto ; P= +/- 40% as decisões são tomadas em poucos minutos
Nivel 0: as impressões dos tomadores de decisão se apóiam em opiniões
superficiais coletadas em encontros breves (fofocas de corredores),
intuição ; Nivel de confiança +/- 50%; as decisões são tomadas em poucos segundos
Rápida e barata – mas subjetiva, inconsistente
CONDUZIR uma AVALIAÇÃO É COMO
INSTALAR uma TUBULAÇÃO
A QUALIDADE da INFORMAÇÃO GERADA POR uma AVALIAÇÃO DEPENDE do
NIVEL DE RIGOR DE TODOS os COMPONENTES
QUANTIDADE DE “FLUXO” (QUALIDAD) DE INFORMAÇÃO ESTÁ LIMITADA ao
MENOR COMPONENTE da PESQUISA “TUBULAÇÃO”
Determinando os níveis apropriados de precisão para os
eventos num Plano de Avaliação do ciclo de vida de um projeto
Rigor alto
Mesmo nível de rigor
4
Avaliação
final
Estudo de
Linha de Base
Avaliação
Intermediária
3
Análise
de
necessidades
Estuio
Especial
Auto
avaliação
anual
2
Rigor baixo
tempo de vida do projeto
Agora, onde estamos?
Sim! Estamos prontos para os passos
2 e 3 da abordagem Avaliação em
um Mundo Real.
Vamos continuar …
84
Avaliação em um Mundo Real
Desenhando avaliações sob restrições
Políticas, orçamentárias, de prazo e de Informação
Passos 2 + 3
RESPONDENDO A LIMITES DE
orçamento e prazo
85
Passo 2: Respondendo a problemas
orçamentários
A.
B.
C.
D.
E.
Esclarecer as necessidades de
informação do cliente
Simplificar o desenho de avaliação
Buscar informação secundária
confiável
Revisar o tamanho da amostra
Reduzir custos de coleta e análise de
informações
86
Racionalizar necessidades de
informação



Usar informações do passo 1 para identificar
as necessidades de informação do cliente
Simplificar o desenho da avaliação (mas
preparar-se para compensar ‘pedaços
perdidos’)
Revisar todos os instrumentos de coleta de
informação e cortar qualquer pergunta não
relacionada diretamente com os objetivos da
avaliação .
87
Buscar fontes de informação
secundária confiáveis

Estudos de planejamento, registros
administrativos do Projeto, Ministérios,
outras ONGs, universidades e institutos
de pesquisa, meios de comunicação de
massa.
88
… Buscar fontes de informação
secundária confiáveis





Analisar a relevância e a confiabilidade das
fontes para a avaliação com respeito a:
Cobertura da população alvo
Periodo de tempo
Relevância da informação coletada
Confiabilidade e complementariedade da
informação
Potenciais viéses
89
Algumas formas de economizar
tempo e dinheiro

Dependendo do propósito e do nivel de
rigor requerido, algumas das opções
poderiam incluir:
• Reduzir o número de unidades estudadas
•
•
(comunidades, famílias, escolas)
Reduzir o número de estudos de caso ou a
duração e complexidad dos casos
Reduzir a duração e frequência das
observações
90
Buscando formas de reduzir o
tamanho da amostra


Aceitar um nivel mas baixo de precisão
reduz significativamente o número de
entrevistas:
Testar uma mudança de 5% nas
proporções requer uma amostra mínima
de 1086
Testar uma mudança de 10% nas
proporções requer uma amostra mínima
270
91
Reduzindo custos na coleta e
análise de dados







Usar questionários auto-aplicáveis
Reduzir o tamanho e a complexidade do
instrumento
Usar observação direta
Obter estimativas de grupos focais e
reuniões comunitárias
Informantes chave
Métodos de avaliação participativos
Multi-métodos e triangulação
92
Passo 3: Respondendo a
restrições de prazo
Adicionalmente ao Passo 2 (problemas orçamentários)
Pode-se usar os seguintes métodos:
 Reduzir pressões de tempo com consultorias
externas
• Estudos preparatórios realizados por comissões
• Vídeo conferências
 Contratar mais consultores/investigadores
 Incorporar indicadores de impacto nos sistemas de
monitoramento do projeto e documentos (impactos
parciais)
 Tecnologia para processamento de dados
93
Endereçando problemas de prazo
Negociar com os clientes e discutir questões como:
1.
Quais são as informações essenciais e o que pode ser
retiradas ou reduzidas?
2.
Qual a precisão ou nível de detalhe para ter a informação
essencial? Ex: É necessário ter estimativas separadas
para cada região geográfica ou sub-grupo ou uma média
populacional é aceitável?
3.
É necessário analisar todos os componentes e serviços
do Projeto o só os mais importantes?
4.
É possível conseguir recursos adicionais (dinheiro,
equipe, acesso a computadores, veículos, etc.) para
agilizar os processos de coleta e análise de dados?
94
Avaliação em um Mundo
Real
Desenhando avaliações sob restrições
políticas, orçamentárias, de prazo e
Informações
Passo 4
Respondendo a
restrições de
informação
Maneiras de reconstruir as
condições da linha de base
A.
B.
C.
D.
Dados secundários
Informes do Projeto
Memórias/atas/notas
Informantes-chave
97
Maneiras de reconstruir as
condições da linha de base
E.
DPR (Diagnóstico Participativo
Rápido) e AAP (Ação e
Aprendizagens Participativos) e
outras técnicas participativas como
cronogramas e eventos críticos para
ajudar a estabelecer a cronologia de
mudanças importantes na comunidade
98
Analisando a utilidade de
potenciais dados secundários






Período de referência
Cobertura da população
Inclusão de indicadores requeridos
Complementariedade
Precisão
Libre de viéses
99
Exemplos de dados secundários
usados para reconstruir linhas de
base






Censos
Outras pesquisas realizadas por
organizaciones governamentais
Estudos específicos realizados por ONGs e
doadores
Pesquisas Acadêmicas
Meios de comunicação (jornais, rádio, TV)
Informações de monitoramento produzidas
pela agência implementadora
100
Usando registros internos do projeto
Tipo de informação
 Estudos de viabilidade e planejamento
 Formulários de aplicação e registro
 Relatórios de Supervisão
 Dados do Sistema de Informações Gerenciais (SIG)
 Registros de reuniões
 Atas das reuniões realizadas entre a agência
implementadora e a comunidade
 Informes de avanços
 Informes de construção , capacitação , implementação e
outros incluindo custos.
101
Avaliando a confiabilidade dos
registros existentes do projeto




Quem coletou as informações e com que
propósito?
As informações foram coletadas apenas como
registro ou para influenciar os tomadores de
decisões ou outros grupos?
As informações de monitoramento referem-se
apenas às atividades do Projeto ou também a
mudanças nos resultados?
As informações foram geradas exclusivamente
para uso interno? Ou para uso de um grupo
restrito? Ou para uso público?
102
Usando registros para reconstruir
a linha de base








Registros de assistência escolar e tempo /custo
de viagens
Enfermidade/uso dos serviços de saúde
Renda e gastos
Conhecimento e habilidades
comunitárias/individuais
Coesão/conflito social
Uso/qualidade/custo da água
Períodos de stress
Padrões de viagens
103
Onde acessar a memória do
Projeto é o melhor

Áreas onde a maior parte das
investigações tenha sido feita com base
nas memórias
• Pesquisas de rendimentos e gastos
• Dados demográficos e sobre fertilidade

Tipos de perguntas:
• Sim/Não; fatos
• Escalas
• Facilmente relacionados a eventos maiores
104
Limites da memória




Geralmente não são confiáveis para
dados quantitativos precisos
Viés de seleção de amostras
Distorção deliberada ou não intencional
Poucos estudos empíricos (exceto em
relação ao gasto) que ajudem a ajustar
estimativas
105
Fontes de viéses na memória






Quem provê as informacões?
Sub-estimativa de gastos pequenos e de rotina
“Telescópio” da memória em relação aos maiores gastos
Distorção para alinhar-se com condutas adequadas:
•
•
•
Intencional ou inconsciente
Romantização do passado
Exageros (exemplo “Não tinhamos nada antes desse
Projeto!”)
Fatores contextuais:
•
•
Os intervalos de tempo usados nas perguntas
As expectativas dos respondentes acerca do que o
entrevistador quer saber
Implicações para o protocolo de entrevista
106
Melhorando a validade da memória




Conduzir estudos curtos para comparar a
memória com pesquisas ou outros achados
Assegurar-se que todos os grupos
relevantes sejam entrevistados
Triangulação
Vincular memória a importantes eventos de
referência
• Eleições
• Secas/inundacões/tsunami/guerra/realocaçao
• Construção de estradas, escolas, etc.
107
Informantes-chave


Não apenas funcionários e pessoas de
alto cargo
Todos podem ser informantes-chave em
situações próprias:
• Mães solteiras
• Trabalhadores de fábricas
• Usuários de transporte público
• Prostitutas
• Meninos de rua
108
Guias para análise de
informantes-chave





A triangulação ajuda muito a validar e
entender
Incluir informantes com diferentes
experiências e perspectivas
Entender como cada informante se enquadra
no contexto
Empregar múltiplas rodadas se necessário
Manejar os assuntos éticos cuidadosamente
109
DPR e técnicas de participação
relacionadas



As técnicas DPR (Diagnóstico Participativo
Rápido) e AAP (Ação e Aprendizagens
Participativos) ajudam a coletar dados em
grupos e comunidades (mais do que em
nível)
Ambas ajudam a identificar consenso ou
perspectivas diferentes
Risco de viés:
•
•
Se só participam certos setores da comunidade
Se certas pessoas dominam a discussão
110
Sumário dos temas na reconstrução
da linha de base





Variações na confiabilidade da memória
Distorção da memória
Os dados secundários não são fáceis de
usar
Dados secundários incompletos ou não
confiáveis
Informantes-chave podem distorcer o
passado
111
2. Maneiras de reconstruir
grupos de comparação



Associação de comunidades para
julgamento
Quando se introduzem os serviços de um
projeto em fases, os beneficiários que
entram nas últimas fases podem ser
usados como grupos de comparação
“tubulações
Controles internos quando diferentes
sujeitos recebem diferentes combinações
combinaciones e níveis de serviço
112
Uso de notas para fortalecer
grupos de comparação


Associando notas ou scores
Estudos rápidos de avaliação podem
comparar características de projetos e
grupos de comparação usando:
•
•
•
•
•
Observação
Informantes chave
Grupos focais
Dados secundários
Fotos aéreas e dados georreferenciados
113
Aspectos a considerar na
reconstrução de grupos de
comparação





Áreas do projeto frequentemente selecionadas
intencionalmente e difíceis de associar
Diferenças entre grupos de projeto e grupos de comparação
– dificuldade de avaliar se os resultados se deveram às
intervenções do projeto ou às diferenças iniciais
Ausência de boas informações para selecionar grupos de
comparação
Contaminação (as boas ideias tendem a espalhar-se!)
Os métodos econométricos não podem ajustar
integralmente as diferenças iniciais entre os grupos [nãoobserváveis]
114
Já chega das minhas
apresentações: é hora
de vocês (Gente do
Mundo Real)
envolverem-se.
Tempo para trabalhos
em grupos. Leiam os
seus estudos de caso e
comecem suas
discussões.
Trabalho em grupo: estudos
de caso
1.
2.
3.
Alguns de vocês estão prestando
consultoria em avaliação. Outros são
os clientes que comissionam (recebem
e aprovam) a avaliação.
Decidam o que seu grupo proporá para
responder aos desafíos e restrições.
Preparem-se para negociar os TdR
com o outro grupo (mais tarde).
Avaliação em um Mundo Real
Desenhando avaliações sob restrições
Políticas, orçamentárias, de tempo e de
informação
avaliações con
métodos mistos
NÃO deveria haver uma disputa entre
QUALITATIVO
(só textos)
Quantoide!
OU
QUANTITATIVO
(só números)
Qualoide!
“Seus números são
“Sua história
impressionantes,
humana parece
mas deixa eu te
bonita, mas deixa eu
contar uma história
te mostrar algumas
humana
estatísticas”
interessante”
121
O que é preciso é combinar adequadamente
AMBOS métodos QUALITATIVOS
E QUANTITATIVOS
122
Métodos de coleta de dados
quantitativos





Pesquisas estruturadas (domicílios,
fazendas, uso de transporte, etc.)
Observação estruturada
Métodos antropométricos
Testes de aptidão e comportamento
Indicadores que possam ser
quantificados
123
Métodos de coleta de dados qualitativos
Características






A perspectiva do investigador é uma parte integral
do que é registrado sobre o mundo social
Não é possível um distanciamento científico
Significados dados a situações fenômenos sociais
devem ser entendidos
Programas não podem ser estudados
independentemente do seu contexto
É difícil definir uma clara relação entre causa e
efeito
A transformação debe ser estudada de forma
holística
124
Usando métodos qualitativos para melhorar
o desenho e os resultados da avaliação
 Usar a memória para reconstruir a situação pré-teste
 Entrevistar informantes-chave para identificar outras
mudanças na comunidade ou em relações de gênero
 Conduzir entrevistas ou grupos focais com mulheres e
homens para
•
•
Evaliar o efeito dos empréstimos nas relações de gênero dentro
das casas, tais como mudanças no controle dos recursos e na
tomada de decisões
Identificar outros resultados importantes ou consequências
não esperadas:
• Aumento na carga de trabalho das mulheres,
• Aumento da incidência da violência doméstica de gênero
125
Disenhos de avaliação com métodos
mistos

Combinam as fortalezas de ambas abordagens
quantitatIVO e qualitatIVO

Uma abordagem ( QUANTI ou QUALI) é
frequentemente dominante e a outra a complementa

Ambas as abordagens podem coexistir de igual
maneira mas torna a avaliação difícil de desenhar e
manejar

Podem ser usadas de maneira sequenciada ou
simultânea
126
Determinando a precisão e combinação apropriada de múltiplos
métodos
Medidas
nutricionais
Medidas
nutricionais
Pesquisas
Unidades
familiares
Grupos
Focais
Pesquisas
Grupos
Focais
Unidades
familiares
Entrevistas a
Informantes
chave
Grupo
grande
Baixo nível de rigor, qualidad questionável, barato e
rápido
Participativo --- qualitativo
Extrativo --- quantitativo
Alto nivel de rigor, de qualidad, mais tempo & gasto
Abordagens participativas deveriam
ser usadas tanto quanto possível
Mas, ainda assim, com rigor apropriado: quantas
(e quais) perspectivas das pessoas contribuíram
para a história?
128
Perguntas?
129
Tempo para as equipes de
consultores reunirem-se
com clientes para negociar
os TdRs para a avaliação
do projeto de habitação.
130
Conclusão:
Os avaliadores devem estar preparados para:
1.
Entrar num periodo tardio do ciclo do projeto ;
2.
Trabalhar sob restrições de tempo e
orçamentárias;
3.
Não ter acesso a dados comparativos de linha de
base;
4.
Trabalhar sem grupos de comparação viáveis;
5.
Trabalhar com investigadores de avaliação pouco
qualificados;
6.
Reconciliar diferentes paradigmas de avaliação e
necessidades de informação de diferentes tipos de
atores
131
Principais mensagens do
Workshop
1.
2.
3.
4.
5.
Os avaliadores devem estar preparados para os
desafios da avaliação em um Mundo Real.
Há uma experiência considerável com a qual aprender.
Um conjunto de técnicas práticas de avaliação está
disponível em www.RealWorldEvaluation.org
Nunca usem os limites de tempo e orçamento como
desculpa para metodologías de avaliação superficiais.
Uma lista de verificação de “ameaças de validação”
ajuda a ser honesto na identificação de debilidades
potenciais em seu desenho de avaliação e análise.
132
133
133
Download

Avaliar