Vincenzo di Maro
Amostragem para
Avaliações do Impacto de
Programas
Global Workshop on
Development Impact Evaluation
in Finance and Private Sector
Rio de Janeiro, June 6-10, 2011
1
Introdução
 Como é que desenhamos uma amostra para detectar
de uma forma credível um efeito significativo?
 Em que populações ou grupos estamos interessados e
aonde é que conseguimos encontrá-los?
 Quantas pessoas/empresas/unidades devem ser
entrevistadas/analisadas dessa população?
 De que forma é que o tamanho da amostra afecta o
orçamento da avaliação?
2
Sumário
1.
Base da amostragem


2.
Tamanho da amostra




3.
Que populações ou grupos estamos interessados
Como é que conseguimos encontrá-los?
Porque é tão importante: confiança nos resultados
Determinantes do tamanho apropriado da amostra
Outras questões
Exemplos
Orçamentos
3
Base de amostragem

Em quem é que estamos interessados?
a)
b)
c)
d)

É preciso ter em consideração a validade externa



Todas as PMEs?
Todas as PMEs formais?
Todas as PMEs formais num sector específico?
Todas as PMEs formais num sector específico numa região em
particular?
Consegue-se com os resultados da população (c) retirar ilações para
programas de apoio a empresas informais noutro sector?
Consegue-se com os resultados da população (d) retirar ilações para
as políticas públicas do país?
Mas é preciso ter em conta a viabilidade e o que queremos saber

Pode não ser possível ou desejável fazer um piloto muito genérico
de um programa ou de uma política
4
Base de amostragem:
Encontrar as unidades em que
estamos interessados

Depende do tamanho e do tipo de experiência
 Sorteio entre os aplicantes
 Exemplo: Programa de Serviços de Apoio ao Desenvolvimento de Negócio
entre empresas informais de uma área específica
 Podemos utilizar unidades de tratamento e comparação da pool de aplicantes
 Se não é possivel (50,000 recebem o tratamento), é necessário uma amostra
para medir o impacto
 Alteração de política
 Exemplo: Alteração em distritos seleccionados aleatoriamente das regras de
registro das empresas
 Para medir o impacto nos lucros, não se pode criar uma amostra de todos os
negócios informais nos distritos de tratamento e de comparação
 É necessário uma amostra de empresas dentro dos distritos

Informação necessária antes da amostragem
 Listagem completa de todas as unidades de observação disponíveis para
amostragem em cada área ou grupo
 Pode ser complicado para unidades como seja o caso de empresas informais,
mas existem técnicas para resolver este problema
5
Sumário
1.
Base da amostragem


2.
Tamanho da amostra




3.
Que populações ou grupos estamos interessados?
Como é que conseguimos encontrá-los?
Porque é tão importante: confiança nos resultados
Determinantes do tamanho apropriado da amostra
Outras questões
Exemplos
Orçamentos
6
Tamanho da amostra e
confiança

Comece com uma questão mais simples que o
impacto do programa

Digamos que queremos saber a média dos lucros
anuais de uma PME em Rio
 Opção 1: Saímos à rua e procuramos 5 empresários, aos
quais calculamos a média das suas respostas.
 Option 2: Obtemos 1000 empresários e calculamos a
média das suas respostas.
 Que média estará mais perto da verdadeira média?
7
Tamanho da amostra e
confiança:
5 empresas
1,000 empresas
Lucros
No de empresas
$0 - $1,000
1
$ 1,001 -$5,000
2
$5,001-10,000
1
$10,001, - $15,000
0
$15,001 +
1
Lucros
No de empresas
$0 - $1,000
70
$ 1,001 -$5,000
150
$5,001-10,000
650
$10,001, - $15,000
125
$15,001 +
5
8
Tamanho da amostra e
confiança

Da mesma forma, quando calculamos o impacto do programa
 Necessitamos de muitas observações para dizermos com confiança se
o resultado médio do grupo de tratamento é superior/inferior ao do
grupo de comparação

O que significa com confiança?
 Minimizar o erro estatístico

Tipos de erros
 Erro tipo 1: Dizemos que há um impacto do programa quando na
realidade não existe
 Erro tipo 1 : Existe um impacto do programa mas não conseguimos
detectá-lo
9
Tamanho da amostra e
confiança

Erro tipo 1: Detectar um impacto do programa quando não existe
 Erro pode ser minimizado depois da recolha de dados, durante a fase de
análise estatística
 Necessário ajustar os níveis de significado das estimativas de impacto (ex.
Intervalos de confiança de 99% ou 95%)

Erro tipo 2: não se consegue detectar que de facto há um impacto do
programa
 Na gíria: teste estatístico tem um poder baixo
 Erro tem de ser minimizado antes da recolha de dados
 Melhor forma de garantir isso: Assegurar que se tem uma amostra
suficientemente grande

O objetivo da avaliação do impacto do programa é aprender alguma
coisa
 Ex-ante: não sabemos qual a dimensão do impacto do programa
 Ex-post com poder baixo: Este programa pode ter aumentado os lucros das
empresas em 50%, mas não conseguimos distinguir com confiança a diferença
entre um aumento de 50% de um aumento de zero
10
Calcular o tamanho da
amostra

Na realidade, há uma formula. Mas não fique
assustado.
2
2
 4 ( z / 2 z  )
N 
2
D



1   ( H  1)

Principais aspectos a ter em conta:
1.
2.
3.
4.
Tamanho suficiente para detectar o efeito
Probabilidade de erros tipo 1 e tipo 2
Variância dos resultado(s)
Unidades (empresas, bancos) por área tratada
11
Calcular o tamanho da
amostra

Tamanho suficiente para detectar o efeito
 O efeito mínimo que queremos distinguir de zero
 Aumento de 30% nas vendas, uma queda em 25% nos subornos
 Amostras maiores mais fácil detectar efeitos menores
 Trabalham as mulheres e os homens o mesmo número de horas?
 Hipótese: Em média, as mulheres trabalham 40 horas por semana,
enquanto que os homens trabalham 44 horas por semana
 Se estes dados são resultado de uma amostra de 10 mulheres e 10
homens
 É díficil dizer que são diferentes
 Sería mais fácil dizer que são diferentes se as mulheres trabalhassem 30 horas por
semana e os homens 80 horas por semana
 Mas se os dados resultam de uma amostra de 500 mulheres e 500 homens
 Mais provável que sejam de facto diferentes
12
Calcular o tamanho da
amostra

Como é que escolhemos o tamanho do efeito
detectável?
 O efeito mínimo que implicaría uma resposta política
 O efeito mínimo que permitiria dizer que o programa
não foi um falhanço
 Este programa aumentou as vendas em 40% e este efeito é
significativo do ponto de vista estatístico
 Óptimo - Vamos pensar como é que conseguimos expandi-lo
 Este programa aumentou as vendas em 10% e este efeito é
significativo do ponto de vista estatístico
 Óptimo….oops..espera aí: gastamos este dinheiro todo e apenas
aumentou as vendas 10%?
13
Calcular o tamanho da
amostra

Erro tipo 1 e erro tipo 2
 Tipo 1
 Nível de significado das estimativas é normalmente
estabelecido a 1% ou 5%
 1% ou 5% é a probabilidade de não existir impacto no cenário
em que acreditamos que encontrámos um efeito
 Tipo 2
 Poder normalmente colocado a 80% ou 90%
 20% ou 10% é a probabilidade que haja um efeito que não
conseguimos detectar
 Amostras maiores  maior poder
14
Calcular o tamanho da
amostra

Variância dos resultado(s)
 Menor variância  mais fácil detectar a diferença  pode-se
ter uma amostra menor
15
Calcular o tamanho da
amostra


Variância de resultados
Como é que sabemos a variância dos resultados antes
de decidirmos o tamanho da amostra e recolhermos
os dados?
 O ideal é dados prévios, mas normalmente ….são não-
existentes
 Pode-se usar dados prévios de uma população semelhante
 Exemplo: inquéritos a empresas, inquéritos ao mercado
laboral

Torna isto um pouco um trabalho de adivinhação, não
exactamente uma ciência
16
Outras questões
1.
2.
3.
4.
Braços de tratamento múltiplos
Resultados desagregados por grupos
Adesão
Qualidade dos dados
17
Outras questões

Braços de tratamento múltiplos
 Compara-se cada tratamento separadamente com o grupo de
comparação
 Comparar grupos de tratamento implica amostras muito
grandes
 Especialmente se os tratamentos forem parecidos, as diferenças entre
os grupos de tratamento serão provavelmente menores
 De facto, é como corrigir um tamanho do efeito detectável muito
pequeno

Resultados desagregados por grupos
 São os efeitos diferentes para homens e mulheres? E para
diferentes sectores?
 Se o sexos/sectores são esperados reagir de uma forma
semelhante, então estimar as diferenças no impacto do
tratamento também requer amostras muito grandes
18
Quem é mais alto? Detectar
diferenças menores é mais difícil
19
Outras questões

Resultados desagregados por grupos
 Para garantir equilíbrio entre os grupos de tratamento
e de comparação, é aconselhavel estratificar a
amostra antes de alocar o grupo de tratamento

Estratos
 Sub-populações
 Estratos habituais: localização, sexo, sector, valores
iniciais do resultado de interesse
 Alocação ao grupo de tratamento(ou amostragem) é
efectuada dentro destes grupos
20
Porque é que necessitamos
de estratos?



Exemplo de estratos com base na região
=T
=C
Porque é que necessitamos
de estratos?


Qual é o impacto numa região em particular?
Por vezes é dificil de dizer com confiança
Porque é que necessitamos
de estratos?

Randomização do tratamento dentro das
unidades geográficas
 Dentro de cada tratamento, ½ sera tratada, ½ será do
grupo de comparação.

Lógica semelhante para sexos, sector, tamanho
da empresa, etc
Outras questões

Adesão
 Adesão baixa aumenta o tamanho do efeito
detectável
 Só se consegue detectar um efeito se for realmente grande
 Na prática diminui o tamanho da amostra
 Exemplo: Oferecer subsídios a PMEs na forma de
serviços de apoio ao desenvolvimento do negócio
 Oferta a 5,000 empresas
 Apenas 50 participam
 Provavelmente só se consegue dizer com confiança que há
um efeito nas vendas se elas se tornarem parte das empresas
do Fortune 500
24
Outras questões

Qualidade dos dados
 Dados de pouca qualidade aumentam na prática o
tamanho da amostra necessário
 Observações em falta
 Aumento do ruído
 Pode ser mitigado em parte com um coordenador
no terreno a monitorizar a recolha de dados
25
Exemplo do Gana

Cálculos podem ser efectuados em vários pacotes estatísticos – e.g.
STATA, OD

Experiência no Gana para aumentar os lucros de micro-empresas

Lucros base
 50 cedi por mês.
 Dados dos lucros com ruído, o que leva a que o coeficiente de
variação maior >1 seja habitual.

Exemplo do código em STATA para detectar um aumento de 10%
dos lucros:
 sampsi 50 55, p(0.8) pre(1) post(1) r1(0.5) sd1(50) sd2(50)
 Ter dados antes e depois da intervenção diminui o tamanho da
amostra necessário (pre e post)
26
Exemplo do Gana

Resultados
 Aumento de 10% (de 50 para 55): 1,178 empresas em cada
grupo
 Aumento de 20% (de 50 para 60): 295 empresas em cada grupo
 Aumento de 50% (de 50 para 75): 48 firms in each group (Mas
este efeito não é realista)

E se a adesão for apenas de 50%
 Oferecemos formação que aumenta os lucros em 20%, mas
apenas metade das empresas o cumprem.
 Média para o grupo de tratamento = 0.5*50 + 0.5*60 = 55
 Equivalente a detectar um aumento de 10% com uma adesão
de 100%  necessário 1,178 em cada grupo em vez de 295 em
cada grupo
27
Sumário
1.
Base da amostragem


2.
Tamanho da amostra




3.
Que populações ou grupos estamos interessados
Como é que conseguimos encontrá-los?
Porque é tão importante: confiança nos resultados
Determinantes do tamanho apropriado da amostra
Outras questões
Exemplos
Orçamentos
28
Orçamentos

O que é necessário?
 Recolha de dados
 Empresa de inquéritos
 Entrada dos dados
 Coordenador no terreno para garantir que o
tratamento está de acordo com o protocolo de
randomização e para monitorizar a recolha de dados
 Análise de dados
29
Orçamentos

Quanto é que tudo custa?
 Varia muito. Normalmente depende do
 Tamanho da amostra
 Facilidade de encontrar inquiridos
 Dispersão geográfica dos inquiridos
 Questões de segurança
 Empresas formais vs informais
 Nível de formação do entrevistador
 Et cetera….
 Dados para um inquérito a empresas:$40-350/empresa
 Dados para um inquérito a lares: $40+/lar
 Coordenador no terreno: $10,000-$40,000/ano
 Depende se se consegue um coordenador local
 Dados administrativos: Normalmente grátis
 Por vezes tem resultados limitados, pode não ter informação sobre o
sector informal
30
Orçamentos
 O dinheiro pode comprar o poder!
Budget
$10,000 $25,000
$37,000
$49,000
Firms
8
7
8
7
Clusters
55
147
205
294
Total obs
440
1029
1640
2058
.3
.64
.8
.9
Power
31
Em resumo

O tamanho da amostra da avaliação do impacto do
programa vai determinar quanto é que se pode
aprender da experiência

Algum bom senso e adivinhação nos cálculos mas é
importante despender tempo nestes cálculos
 Se a amostra é muito pequena: perda de tempo e dinheiro
porque não seremos capazes de detectar com confiança
um impacto não-nulo
 Se é posto pouco esforço na amostragem e na recolha de
dados: Ver acima.

Questões?
32
Download

Calcular o tamanho da amostra