Avaliação em um Mundo Real
Desenhando Avaliações sob restrições
orçamentárias, de tempo, de informação e políticas
III Seminário da Rede Brasileira de
Monitoramento e Avaliação
Brasília, DF, Brasil
01 de junho de 2011
Workshop Coordenado por
Jim Rugh
A apresentação é um resumo do capítulo do livro que
está disponível em :
www.RealWorldEvaluation.org
Apresentação traduzida para o Português por Marcia Joppert
1
Alguns avanços recentes em avaliação de
impacto em projetos de desenvolvimento
2003
2006
J-PAL conhecida como uma rede de
investigadores associados unidos pelo uso de
metodologías de testes aleatórios
2008
2010
2
Então, Jim está dizendo que os testes de controle aleatórios
(RCTs) são o “Estado da Arte” e deveriam ser usadas na maioria
das avaliações de impacto de programas?
Sim ou não?
Por que sim e por que não?
Se sim, em que cirunstâncias
deveriam ser usadas?
Se não, em que cirunstâncias não
seriam apropriadas?
3
Políticas baseadas em evidência para intervenções
simples (ou aspectos simples) : quando RCTs podem
ser apropriadas
Perguntas necessárias para política
baseada em evidência 
O que funciona?
Como é a intervenção? 
Discreta, intervenção padronizada
Ccomo funciona a intervenção ? 
Bastante parecida em todos os lugares
Procedimientos necessários para
obter evidência
Absorção 
Transferência de conhecimento
Adaptado de Patricia Rogers, RMIT University
4
Quando uma avaliação rigorosa dos
indicadores de altos níveis de impacto não
seria necessária?



Programas complicados e complexos onde haja
intervenções múltiplas por múltiplos atores
Projetos implementados em contextos dinâmicos (ex.
conflitos, desastres naturais)
Projetos sob múltiplos modelos lógicos, ou quando não
haja relação clara de causa-efecto entre produtos ou não
estejam claros os enunciados de visão (geralmente o caso
de projetos de desenvolvimento internacionais no MundO
Real)
5
Quando uma avaliação rigorosa dos
indicadores de altos níveis de impacto não
seria necessária?

Uma avaliação com esta abordagem deve ser realizada se
foi definida adequadamente uma relação caus-efeito entre
os resultados intermediários e os efeitos finais ou de
impacto através de estudos previos. Então, analisando os
resultados em nivel dos alcances intermediários pode ser
suficiente sempre e quando o contexto (condições externas
e internas) evidencia ser suficientemente similar ao
momento que se definiu a relação causa efeito.
6
Exemplos de relações causa-efeito
geralmente aceitas
• Vacinação de crianças com um conjunto
padrão de vacinas prescritas para certa idade
como capazes de reduzir alguma enfermidade
infantil (os meios de verificação implicam observar as
características de saúde das crianças, não só a
quantidade total de vacinas distribuídas no hospital)
•
outros exemplos…?
7
Lentes diferentes necessárias para
diferentes situações no Mundo Real
Simples
Complicado
Complexo
Seguir uma receta
Enviar um foguete à
lua
Criar uma criança
As receitas são
testadas para
assegurar fácil
replicação
Enviar um foguete à
lua melhora a certeza
de que o próximo
também será exitoso
Criar uma criança dá
experiência mas não
garante o éxito com o
próximo
As melhores receitas
oferecem bons
resultados todas as
vezes
Existe um alto grau de
certeza nos resultados
A incerteza dos
resultados se mantém
Fonte: Westley et ao (2006) e Stacey (2007), citado por Patton 2008;
también presentado por Patricia Rodgers em la conferencia de Impacto do Cairo (2009).
8
“É muito melhor ter uma resposta
aproximada à pergunta correta, que é
geralmente vaga, que a resposta correta
à pergunta errada, a qual sempre pode
ser formulada com precisão.
J. W. Tukey (1962, page 13), "The future of data analysis".
Annals of Mathematical Statistics 33(1), pp. 1-67.
Citado por Patricia Rogers, RMIT University
9
Podem haver problemas de
validação com RTCs


Validação interna
Temas de Qualidade – Medição débil, aderência débil à amostra
aleatória, base estatística inadequada, efetos diferenciales
ignorados, comparação inadequada, busca de significado
estatístico, perda de informação, implementação de baixa
qualidade não identificada
outros – error na amostragem aleatória, contaminação de
outras fontes, necessidade de um paquete causal completo.
Validação externa
Efetividade na prática do mundo real, capacidade de
transferência para novas situações
Patricia Rogers, RMIT University
10
O uso limitado de sólidos
desenhos de avaliação

No Mundo Real (ao menos em programas
internacionais de desenvolvimento)
estimamos que:
• Menos de 5% - 10% das avaliações
•
de
impacto de projetos usam sólidos desenhos
experimentais ou até desenhos quaisexperimentais
Muito menos do que 5% usam Teste de
Controle Randomizado (desenho
experimental “puro”)
11
Considere o Mundo Real dos programas a
ser avaliados como um quebra-cabeças
gigante
Os desenhos de investigação to tipo experimental
(avaliação) e, mucho menos os RCTs, ssolo paró são
apropriados para poucas peças deste quebra-cabeças
gigante.
É por isso que bons avaliadores (e aqueles que comissionam
avaliações) precisam de uma caixa de ferramentas mais
diversificada , que possam ser customizadas ao desenhar
avaliações que repondem a diferentes propósitos e
circunstancias
12
Há outros métodos para
analisar os contrafactuais




Dados secundarios confiáveis que mostrem
tendências relevantes na população
Dados longitudinais de monitoramento (se
incluem população não coberta)
Métodos qualitativos para obter perspectivas de
informantes chave, participantes, vizinhos, etc.
Falaremos mais sobre isso depois…
13
Ainda parte do passo 1: Outras perguntas para
responder quando vocês adaptam Termos de
Referência (TdR) de uma avaliação :
1.
2.
3.
4.
Quem solicitou a avaliação? (Quem são as
partes interessadas)?
Quais são as perguntas chave que devem ser
respondidas?
Trata-se de uma avaliação formativa ou
somativa (qual o propósito)?
Haverá uma fase seguinte ou outros projetos
desenhados com base nos achados desta
avaliação?
14
Outras perguntas para responder
enquanto se adaptam os Termos de
Referência de uma avaliação:
5.
6.
7.
8.
9.
Que decisões serão tomadas em resposta
aos achados desta avaliação?
Qual é o nível apropriado de rigor?
Qual é o alcance/escala da avaliação (o que
será avaliado)?
Quanto tempo será necessário e de quanto
tempo se dispõe?
Que recursos financeiros serão necessários e
qual a disponibilidade?
15
Outras perguntas para responder
enquanto se adaptam os Termos de
Referência de uma avaliação:
10.
11.
12.
13.
14.
15.
A avaliação deveria apoiar-se principalmente em
métodos qualitativos ou quantitativos?
Deveriam ser usados métodos participativos?
Poderia ou teria que ser feita uma pesquisa nos
domicípios?
Quem deveria ser entrevistado?
Quem deveria ser envolvido no
planejamento/implementação da avaliação?
Quais são os meios mais adequados para
comunicar os achados a diferentes partes
interessadas?
16
desenho da avaliação
(investigação)?
Perguntas chaves?
O que avaliar?
Qualitativo?
Recursos disponíveis?
Tempo disponível?
Habilidades
disponíveis?
Participativa?
Quantitativo?
Alcance?
Nível de rigor apropriado?
Extractiva?
Avaliação para quem?
Isto ajuda ou confunde mais?
Quem disse que as avaliações (como a vida) seriam fáceis?!!
17
Antes de voltar aos passos
da Avaliação em um Mundo
Real, pensemos em níveis
de rigor, e como seria um
Plano de Avaliação de um
projeto em todo seu ciclo de
vida
18
Níveis diferentes de rigor
Depende da fonte de evidência; do nivel de confiança; do uso da informação
Objetivo, alta precisão – requerendo mais prazo e recursos ($)
Nivel 5: um projeto de investigação muito detalhado realiza-se para
analisar em profundidade a situação P= +/- 1% Livro publicado!
Nivel 4: uma boa amostra representativa da população alvo e métodos
de coleta de dados criteriosos são usados para coleta de informação; P=
+/- 5% os tomadores de decisão lêm o informe completo
Nivel 3: Se faz uma pesquisa rápida com base em uma amostra
conveniente de participantes; P= +/- 10% os tomadores de decisão lêm o sumário
de 10 páginas
Nivel 2: Pergunta-se a uma boa combinação de pessoas suas
perspectivas sobre o projeto ; P= +/- 25% os tomadores de decisão lêm ao menos
o sumario executivo de um relatório
Nivel 1: Pergunta-se a algumas pessoas suas perspectivas sobre o
projeto ; P= +/- 40% as decisões são tomadas em poucos minutos
Nivel 0: as impressões dos tomadores de decisão se apóiam em opiniões
superficiais coletadas em encontros breves (fofocas de corredores),
intuição ; Nivel de confianza +/- 50%; as decisões são tomadas em poucos segundos
Rápida e barata – mas subjetiva, inconsistente
CONDUZIR uma AVALIAÇÃO É COMO
INSTALAR uma TUBULAÇÃO
A QUALIDADE da INFORMAÇÃO GERADA POR uma AVALIAÇÃO DEPENDE do
NIVEL DE RIGOR DE TODOS os COMPONENTES
QUANTIDADE DE “FLUXO” (QUALIDAD) DE INFORMAÇÃO ESTÁ LIMITADA ao
MENOR COMPONENTE da PESQUISA “TUBULAÇÃO”
Determinando os níveis apropriados de precisão para os
eventos num Plano de Avaliação do ciclo de vida de um projeto
Rigor alto
Mesmo nível de rigor
4
Avaliação
final
Estudo de
Linha de Base
Avaliação
Intermediária
3
Análise
de
necessidades
Estuio
Especial
Auto
avaliação
anual
2
Rigor baixo
tempo de vida do projeto
Agora, onde estamos?
Oh, sim! Estamos prontos para os
passos 2 e 3 da abordagem
Avaliação em um Mundo Real.
Vamos continuar …
23
Avaliação em um Mundo Real
Desenhando avaliações sob restrições
Políticas, orçamentárias, de prazo e de Informação
Passos 2 + 3
RESPONDENDO A LIMITES DE
orçamento e prazo
24
Passo 2: Respondendo a problemas
orçamentários
A.
B.
C.
D.
E.
Esclarecer as necessidades de
informação do cliente
Simplificar o desenho de avaliação
Buscar informação secundária
confiável
Revisar o tamanho da amostra
Reduzir custos de coleta e análise de
informações
25
Racionalizar necessidades de
informação



Usar informações do passo 1 para
identificar as necessidades de informação
do cliente
Simplificar o desenho da avaliação (mas
preparar-se para compensar ‘pedaços
perdidos’)
Revisar todos os instrumentos de coleta de
informação e cortar qualquer pergunta não
relacionada diretamente com os objetivos
da avaliação .
26
Buscar fontes de informação
secundária confiáveis

Estudos de planejamento, registros
administrativos do Projeto, Ministérios,
outras ONGs, universidades e institutos
de pesquisa, meios de comunicação de
massa.
27
… Buscar fontes de informação
secundária confiáveis





Analisar a relevância e a confiabilidade das
fontes para a avaliação com respeito a:
Cobertura da população alvo
Periodo de tempo
Relevância da informação coletada
Confiabilidade e complementariedade da
informação
Potenciais viéses
28
Algumas formas de economizar
tempo e dinheiro

Dependendo do propósito e do nivel de
rigor requerido, algumas das opções
poderiam incluir:
• Reduzir o número de unidades estudadas
•
•
(comunidades, famílias, escolas)
Reduzir o número de estudos de caso ou a
duração e complexidad dos casos
Reduzir a duração e frequência das
observações
29
Buscando formas de reduzir o
tamanho da amostra


Aceitar um nivel mas baixo de precisão
reduz significativamente o número de
entrevistas:
Testar uma mudança de 5% nas
proporções requer uma amostra mínima
de 1086
Testar uma mudança de 10% nas
proporções requer uma amostra mínima
270
30
Reduzindo custos na coleta e
análise de dados







Usar questionários auto-aplicáveis
Reduzir o tamanho e a complexidade do
instrumento
Usar observação direta
Obter estimativas de grupos focais e
reuniões comunitárias
Informantes chave
Métodos de avaliação participativos
Multi-métodos e triangulação
31
Passo 3: Respondendo a
restrições de prazo
Adicionalmente ao Passo 2 (problemas orçamentários)
Pode-se usar os seguintes métodos:
 Reduzir pressões de tempo com consultorias
externas
• Estudos preparatórios de comissões
• Vídeo conferências
 Contratar mais consultores/investigadores
 Incorporar indicadores de resultados nos sistemas
de monitoramento do projeto e documentos
 Tecnología para processamento de dados
32
Endereçando problemas de
prazo
Negociar com os clientes e discutir questões como:
1.
Quais são as informações essenciais e o que pode ser
retirado ou reduzido?
2.
Que precisão e nível de detalhe se requer para ter la
informação essencial? Ex: É necessário ter estimativas
separadas para cada região geográfica ouu sub-grupo o
uma média populacional é aceitável?
3.
É necessário analisar todos os componentes e serviços
do Projeto o só os mais importantes?
4.
É possível conseguir recursos adicionais (dinheiro,
equipe, acesso a computadores, veículos, etc.) para
agilizar os processos de coleta e análisis de datos?
33
Avaliação em um Mundo
Real
Desenhando avaliações sob restrições
políticas, orçamentárias, de prazo e
Informações
Passo 4
Respondendo a
restrições de
informação
Maneiras de reconstruir as
condições da linha de base
A.
B.
C.
D.
Dados secundários
Informes do Projeto
Memorias/atas/notas
Informantes-chave
36
Maneiras de reconstruir as
condições da linha de base
E.
DPR (Diagnóstico Participativo
Rápido) e AAP (Ação e
Aprendizagens Participativos) e
outras técnicas participativas como
cronogramas e eventos críticos para
ajudar a estabelecer la cronologia de
mudanças importantes na comunidade
37
Analisando a utilidade de
potenciais dados secundários






Período de referência
Cobertura da população
Inclusão de indicadores requeridos
Complementariedade
Precisão
Libre de viéses
38
Exemplos de dados secundários
usados para reconstruir linhas de
base






Censos
Outras pesquisas realizadas por
organizaciones governamentais
Estudos específicos realizados por ONGs e
doadores
Pesquisas Acadêmicas
Meios de comunicação (jornais, rádio, TV)
Informações de monitoramento produzidas
pela agência implementadora
39
Usando registros internos do projeto
Tipo de informação
 Estudos de viabilidade e planejamento
 Formulários de aplicação e registro
 Relatórios de Supervisão
 Dados do Sistema de Informações Gerenciais (SIG)
 Registros de reuniões
 Atas das reuniões realizadas entre a agência
implementadora e a comunidade
 Informes de avanços
 Informes de construção , capacitação , implementação e
outros incluindo custos.
40
Avaliando a confiabilidade dos
registros existentes do projeto




Quem coletou as informações e com que
propósito?
As informações foram coletadas apenas como
registro ou para influenciar os tomadores de
decisões ou outros grupos?
As informações de monitoramento referem-se
apenas às atividades do Projeto ou também a
mudanças nos resultados?
As informações foram geradas exclusivamente
para uso interno? Ou para uso de um grupo
restrito? Ou para uso público?
41
Usando registros para reconstruir
a linha de base








Registros de assistência escolar e tempo /custo
de viagens
Enfermidade/uso dos serviços de saúde
Renda e gastos
Conhecimento e habilidades
comunitárias/individuais
Coesão/conflito social
Uso/qualidade/custo da água
Períodos de stress
Padrões de viagens
42
Onde acessar a memória do
Projeto é o melhor

Áreas onde a maior parte das
investigações tenha sido feita com base
nas memórias
• Pesquisas de rendimentos e gastos
• Dados demográficos e sobre fertilidade

Tipos de perguntas:
• Si/No; fatos
• Escalas
• Facilmente relacionados a eventos maiores
43
Limites da memória




Geralmente não são confiáveis para
dados quantitativos precisos
Viés de seleção de amostras
Distorção deliberada ou não intencional
Poucos estudos empíricos (exceto em
relação ao gasto) que ajudem a ajustar
estimativas
44
Fontes de viéses na memória






Quem provê as informacões?
Sub-estimativa de gastos pequenos e de rotina
“Telescópio” da memória em relação aos maiores gastos
Distorção para alinhar-se com condutas adequadas:
•
•
•
Intencional ou inconsciente
Romantização do passado
Exageros (exemplo “Não tinhamos nada antes desse
Projeto!”)
Fatores contextuais:
•
•
Os intervalos de tempo usados nas perguntas
As expectativas dos respondentes acerca do que o
entrevistador quer saber
Implicações para o protocolo de entrevista
45
Melhorando la validade da memória




Conduzir estudos curtos para comparar a
memória com pesquisas ou outros achados
Assegurar-se que todos os grupos
relevantes sejam entrevistados
Triangulação
Vincular memória a importantes eventos de
referência
• Eleições
• Secas/inundacões/tsunami/guerra/realocaçao
• Construção de estradas, escolas, etc.
46
Informantes-chave


Não apenas funcionários e pessoas de
alto cargo
Todos podem ser informantes-chave em
situações próprias:
• Mães solteiras
• Trabalhadores de fábricas
• Usuários de transporte público
• Prostitutas
• Meninos de rua
47
Guias para análise de
informantes-chave





A triangulação ajuda muito a validar e
entender
Incluir informantes com diferentes
experiências e perspectivas
Entender como cada informante se enquadra
na fotografia
Empregar múltiplas rodadas se necessário
Manejar os assuntos éticos cuidadosamente
48
DPR e técnicas de participação
relacionadas



As técnicas DPR (Diagnóstico Participativo
Rápido) e AAP (Ação e Aprendizagens
Participativos) ajudam a coletar dados em
grupos e comunidades (mais do que em
nível)
Ambas ajudam a identificar consenso ou
perspectivas diferentes
Risco de viés:
•
•
Se só participam certos setores da comunidade
Se certas pessoas dominam a discussão
49
Sumário dos temas na reconstrução
da linha de base





Variações na confiabilidade da memória
Distorção da memória
Os dados secundários não são fáceis de
usar
Dados secundários incompletos ou não
confiáveis
Informantes-chave podem distorcer o
passado
50
2. Maneiras de reconstruir
grupos de comparação



Associação de comunidades para
julgamento
Quando se introduzem os serviços de um
projeto em fases, os beneficiários que
entram nas últimas fases podem ser
usados como grupos de comparação
“tubulações
Controles internos quando diferentes
sujeitos recebem diferentes combinações
combinaciones e níveis de serviço
51
Uso de notas para fortalecer
grupos de comparação


Associando notas ou scores
Estudos rápidos de avaliação podem
comparar características de projetos e
grupos de comparação usando:
•
•
•
•
•
Observação
Informantes chave
Grupos focais
Dados secundários
Fotos aéreas e dados georreferenciados
52
Aspectos a considerar na
reconstrução de grupos de
comparação





Áreas do projeto frequentemente selecionadas
intencionalmente e difíceis de associar
Diferenças entre grupos de projeto e grupos de
comparação – dificuldade de avaliar se os
resultados se deveram às intervenções do
projeto ou às diferenças iniciais
Ausência de boas informações para seleccionar
grupos de comparação
Contaminação (as boas ideias tendem a
espalhar-se!)
Os métodos econométricos não podem ajustar
integralmente as diferenças iniciais entre os
53
grupos [no-observáveis]
Já chega das minhas
apresentações: é hora
de vocês (Gente do
Mundo Real) envolverse.
Tempo para trabalhos
em grupos. Leiam os
seus estudos de caso
e comecem suas
discussões.
Trabalho em grupo: estudos
de caso
1.
2.
3.
Alguns de vocês estão prestando
consultoria em avaliação. Outros são
os clientes que comissionam (recebem
e aprovam) a avaliação.
Decidam o que seu grupo proporá para
responder aos desafíos e restrições.
Preparem-se para negociar os TdR
com o outro grupo (mais tarde).
Avaliação em um Mundo Real
Desenhando avaliações sob restrições
Políticas, orçamentárias, de tempo e de
informação
avaliações con
métodos mistos
NÃO deveria haver uma disputa entre
QUALITATIVO
(só textos)
Quantoide!
OU
QUANTITATIVO(
ó números)
Qualoide!
“Seus números são
“Sua história
impressionantes,
humana parece
mas deixa eu te
bonita, mas deixa eu
contar uma história
te mostrar algumas
humana
estatísticas”
interessante”
59
O que é preciso é combinar adequadamente
AMBOS métodos QUALITATIVOS
E QUANTITATIVOS
60
Métodos de coleta de dados
quantitativos





Pesquisas estruturadas (domicílios,
fazendas, uso de transporte, etc.)
Observação estruturada
Métodos antropométricos
Testes de aptidão e comportamento
Indicadores que possam ser
quantificados
61
Métodos de coleta de dados qualitativos
Características






A perspectiva do investigador é uma parte integral
do que é registrado sobre o mundo social
Não é possível um distanciamento científico
Significados dados a situações fenômenos sociais
devem ser entendidos
Programas não podem ser estudados
independentemente do seu contexto
É difícil definir uma clara relação entre causa e
efeito
A transformação debe ser estudada de forma
holística
62
Usando métodos qualitativos para melhorar
o desenho e os resultados da avaliação
 Usar a memória para reconstruir a situação pré-teste
 Entrevistar informantes-chave para identificar outras
mudanças na comunidade ou em relações de gênero
 Conduzir entrevistas ou grupos focais com mulheres e
homens para
•
•
Evaliar o efeito dos empréstimos nas relações de gênero dentro
das casas, tais como mudanças no controle dos recursos e na
tomada de decisões
Identificar outros resultados importantes ou consequências
não esperadas:
• Aumento na carga de trabalho das mulheres,
• Aumento da incidência da violência doméstica de gênero
63
Disenhos de avaliação com métodos
mistos

Combinam as fortalezas de ambas abordagens
quantitatIVO e qualitatIVO

Uma abordagem ( QUANTI ou QUALI) é
frequentemente dominante e a outra a complementa

Ambas as abordagens podem coexistir de igual
maneira mas torna a avaliação difícil de desenhar e
manejar

Podem ser usadas de maneira sequenciada ou
simultânea
64
Determinando a precisão e combinação apropriada de múltiplos
métodos
Medidas
nutricionais
Medidas
nutricionais
Pesquisas
Unidades
familiares
Grupos
Focais
Pesquisas
Grupos
Focais
Unidades
familiares
Entrevistas a
Informantes
chave
Grupo
grande
Baixo nível de rigor, qualidad questionável, barato e
rápido
Participativo --- qualitativo
Extrativo --- quantitativo
Alto nivel de rigor, de qualidad, mais tempo & gasto
Abordagens participativas deveriam
ser usadas tanto quanto possível
Mas, ainda assim, com rigor apropriado: quantas
(e quais) perspectivas das pessoas contribuíram
para a história?
66
Perguntas?
67
Tempo para as equipes de
consultores reunirem-se
com clientes para negociar
os TdRs para la avaliação
do projeto de habitação.
68
Conclusão:
Os avaliadores devem estar preparados para:
1.
Entrar num periodo tardio do ciclo do projeto ;
2.
Trabalhar sob restrições de tempo e
orçamentárias;
3.
Não ter acesso a dados comparativos de linha de
base;
4.
Trabalhar sem grupos de comparação viáveis;
5.
Trabalhar com investigadores de avaliação pouco
qualificados;
6.
Reconciliar diferentes paradigmas de avaliação e
necessidades de informação de diferentes tipos de
atores
69
Principais mensagens do
Workshop
1.
2.
3.
4.
5.
Os avaliadores devem estar preparados para os
desafios da avaliação em um Mundo Real.
Há uma experiência considerável com a qual aprender.
Um conjunto de técnicas práticas de avaliação está
disponível em www.RealWorldEvaluation.org
Nunca usem os limites de tempo e orçamento como
desculpa para metodologías de avaliação superficiais.
Uma lista de verificação de “ameaças de validação”
ajuda a ser honesto na identificação de debilidades
potenciais em seu desenho de avaliação e análise.
70
OBRIGADO!
71
71