Aula 6 - Método não-experimental ou de
seleção não-aleatória
Material Elaborado por Betânia Peixoto
Método não-experimental ou de seleção nãoaleatória
Uma das metodologia para realizar a avaliação de impacto quando a
seleção entre tratados e controle é não-aleatória.
Plano de Aula





Um pouco de econometria.
Regressão Linear: intuição e procedimentos.
Relação entre outras variáveis que afetam o indicador de
interesse e que são diferentes entre os grupos.
Viés de variável omitida.
Discussão do problema existente para a avaliação quando a
seleção entre tratados e não-tratados não foi aleatória.
Método não-experimental ou de seleção não-aleatória
 Nos projetos sociais, em geral, a seleção dos participantes do
programa não é feita de forma aleatória:
 ou porque dentro dos elegíveis, selecionamos, por exemplo, os
mais vulneráveis.
 Quando a seleção não é aleatória não temos mais um grupo de
controle automático.
 ou porque todas as pessoas elegíveis para participar do
programa efetivamente participam do programa,
Regressão

Idéia: esse instrumental permite verificar a relação entre as
características que afetam o indicador de impacto, inclusive o
programa, independente uma das outras.

A regressão linear permite ver a relação entre múltiplas variáveis
com o indicador de impacto.
Objetivo
O objetivo da análise de regressão é encontrar uma função linear
que permita:
Descrever e compreender a relação entre uma variável
dependente e uma ou mais variáveis independentes.
Modelo de Regressão Linear Simples- Exemplo 1



Suponha que o objetivo é verificar a relação entre o número de
efetivo policial alocado nos municípios e o número de homicídios
nestes município, para realizar projeções de alocação policial.
A tabela seguinte registra uma amostra representativa extraída
dos registros dos municípios, com número de efetivo policial e
número de crime.
Analisar a possibilidade de definir um modelo que represente a
relação entre as duas variáveis ou amostras.
EFETIVO
CRIME
30
430
21
335
35
520
42
490
37
470
20
210
8
195
17
270
35
400
25
480
Solução
 Para analisar a relação entre as duas variáveis no Exemplo 1, foi
construído o gráfico de dispersão dos crimes em função do
efetivo policial. Nesse gráfico pode-se ver que os municípios com
mais policiais têm mais crimes.
600
500
Crime
400
300
200
100
0
0
5
10
15
20
25
Efetivo
30
35
40
45
O gráfico de dispersão mostra que os crimes e o efetivo estão
correlacionados de forma positiva.
 A linha tracejada foi ajustada tentando equilibrar os pontos
acima da reta com os pontos abaixo dela.
 Essa reta é uma das muitas possíveis retas que poderiam ser
ajustadas.
600
500
400
Crime

300
200
100
0
0
5
10
15
20
25
Efetivo
30
35
40
45
Modelo do Ajuste de uma Reta
O ajuste de uma reta é um modelo de regressão linear que relaciona
a variável dependente y e a variável independente x por meio da
equação de uma reta do tipo:
y  a  bx

É importante observar que, da mesma forma como a média
resume uma variável aleatória, a reta de regressão resume a
relação
linear
entre
duas
variáveis
aleatórias
e,
conseqüentemente, da forma como a média varia entre amostras
do mesmo tamanho extraídas da mesma população, as retas
também variarão entre amostras da mesma população.
Observação
A linearedade contida na função da regressão linear é referente
apenas aos parâmetros, não nas variáveis. Assim o método permite
construir funções lineares nos parâmetros, mas que expressão
relação não linear entre as variáveis y e x.
Exemplo: Relação quadrática entre y e x
y  a  bx  cx
2
Voltando ao Exemplo 1



O objetivo do Exemplo 1 é ajustar uma reta a partir dos valores
das amostras retiradas da população, considerando que a alocação
de efetivo é a variável independente x, e os crimes, a variável
dependente y.
Uma primeira forma de fazer isso é ajustar manualmente essa reta
tentando equilibrar os pontos acima e abaixo dessa reta, como foi
feito no gráfico do Exemplo 1.
Como esse procedimento permite o ajuste de diversas retas, é
necessário estabelecer um objetivo de eficiência de ajuste possível
de medir, como é mostrado a seguir.
Critério de ajuste 1:

Uma primeira forma é ajustar uma reta horizontal de valor igual à
média dos valores da variável dependente y, que é uma reta de
regressão com b=0.

Esse critério não necessita de regressão.
Critério de ajuste 2:

Outra forma é ajustar uma reta que divida os pontos observados de
forma que a soma dos desvios seja nula.
 Entretanto, como há muitas retas que cumprem com essa
condição, esse critério não poderá ser utilizado.
Critério de ajuste da regressão

Outra forma é ajustar uma reta de forma que minimize a soma dos
quadrados dos desvios, (lembre a definição de variância).

O objetivo da regressão é encontrar os coeficientes a e b da reta de
regressão que minimizam a soma dos quadrados dos desvios dos
valores da amostra y com relação aos correspondentes valores da
reta de regressão.
y  a  bx
Lembrando que:

Interpretando:


O coeficiente “b” é a declividade da reta e define o aumento ou
diminuição da variável y por unidade de variação da variável x.
A constante “a” é o valor de y quando x=0
y  a  bx
Estimação
yˆ i  a  bx
No modelo estimado para o ajuste da reta se verifica que:
 Para um único valor de xi pode haver um ou mais valores de yi.
Por exemplo, no gráfico de dispersão do exemplo 1 para x=35 há
dois valores das variáveis dependentes y=400 e y=520.

Mas há apenas um único yˆ estimado para cada valor de xi.

Para cada valor de xi há uma diferença entre o valor observado yi
e o valor estimado yˆ . Essa diferença é denominada desvio (di).

Y=117,07+9,73X
Variável Omitida

Será que não existe mais dada que afeta o crime além do efetivo
policial?
Quando omitimos variáveis que deveriam estar presentes em uma
equação de regressão o efeito omitido estará contido no termo
do erro, fazendo com que a reta não seja bem ajustada.
Regressão Linear Múltipla

O modelo de regressão linear que foi apresentado é o mais
simples deles e nem sempre atende à modelagem mais complexa,
como a de avaliação de impacto.

Por exemplo, como vimos no Exemplo 1, o número de crimes
não dependem somente do efetivo, pois há uma parte da
variação dos crimes que não é explicada pelo efetivo policial.

O desenvolvimento da equação de regressão linear múltipla é
similar ao da equação de regressão linear simples incluindo a
dependência de duas ou mais variáveis independentes. A
ferramenta de análise Regressão realizam análises de regressão
múltipla.
Regressão Linear Multipla
Dispondo de um grupo de amostras do mesmo tamanho, sendo
uma variável dependente y e n variáveis independentes xi, o
objetivo é determinar os coeficientes da equação da reta:
yˆ  a  b1 x1  b2 x2    bn xn
cujos coeficientes minimizam a soma dos quadrados dos desvios
da variável com relação a y.
Exemplo 2

Neste exemplo, queremos
relacionar a quantidade de
crime y com o número de
efetivo x1 e o tamanho da
população (x2 em milhares).

Para encontrar essa relação
linear foi extraída a amostra
de valores de municípios.
yˆ  818 ,145  7,046 x1  0 , 44 x 2
Observações Importantíssimas


Os coeficientes estimados medem a relação da variável x com y
livre do efeito das demais variáveis incluídas no modelo.
Como a distância de yi a Yˆ , (ou desvio) não é zero para todas as
observações, existe um erro de estimação quando falamos em
regressão linear.
Problema da avaliação
Relembrando:
Impacto = ATT = E[Yp, P=1] - E[Ysp, P=1]
Não observamos Ysp quando P=1.
Se E[Ysp, P=1] ≠ E[Yc, P=0]
Erro: ε= E[Ysp, P=1] - E[Yc, P=0]
(1)
O ATT é dado por:
ATT = E[Yp, P=1] - E[Yc, P=0] + ε (2)
Viés ou erro
Substituindo (1) em (2)
ATT = E[Yp, P=1] - E[Yc, P=0] + {E[Ysp, P=1] - E[Yc, P=0] }
O Erro ou Viés

O Erro é causado pelas características diferentes entre tratado e
controle que levam à que o indicador de impacto seja diferente
entre os grupos.
Como fazer então...
...quando temos um grupo de controle com características
diferentes do grupo de tratamento, características essas que
afetam o indicador de interesse?
Aplicamos a regressão para controlarmos o impacto do programa
do efeito das variáveis que tornam os grupos tratado e controle
diferentes.
Regressão Aplicada à Avaliação de Impacto
Procedimentos:
1) Quais são as características que tornam os grupos diferentes e
que afetam o indicador de impacto individual?
Em um programa para melhorar o desempenho escolar das crianças poderia
ser: educação dos pais, renda familiar, região onde moram, saneamento
básico, se participam de outro programa social, ...
Procedimentos
n
‘Estimar a regressão em que o indicador de impacto é a variável
dependente. As variáveis independentes são uma dummy para a
participação do programa e as demais variáveis que tornam os
grupos diferentes e que afetam o indicador de impacto.
Ou seja, queremos olhar o efeito da participação no programa
(dummy de participação) livre do efeito das demais
características que tornam os grupos diferentes e afetam esse
indicador.
Modelo de Regressão Linear
Para isso vamos escrever a seguinte equação:
Indicador de impacto =  + *programa + *x2 + *x3 +*x4+...+


Programa = 1 se o indivíduo participa do programa.
Programa = 0 se o indivíduo não participa do programa.
Interpretação
  identifica o indicador de impacto de quem recebe zero em todas
as variáveis.
, , ,...  indicam a relação/associação de cada variável com o
indicador de impacto, livre do efeito das demais variáveis incluídas
no modelo.
  é o erro que existe por não conseguirmos determinar
perfeitamente o indicador de impacto
Impacto
 “” mede o impacto de participar do programa sobre o
indicador de impacto, livre do efeito das outras variáveis
incluídas.
Mas não esqueçam, temos que fazer o teste t de hipótese para ver
se o resultado se mantém na população.
H0:  = 0
H1:  ≠ 0
Ou seja:


A regressão linear nos dará uma medida de  (e dos demais
coeficientes), bem como o teste t e o p-valor dos coeficientes.
Vários programas estatísticos podem ser usados para ‘estimar’
essa equação...
Limitações do método em avaliação
Se tratado e controle forem muito diferentes teremos viés no
impacto estimado decorrentes de:


Variáveis Omitidas (observáveis e não observáveis)
Ausência de suporte comum
Na prática
1) Obter observações de Y para participantes e para não
participantes [Y é o indicador para o qual queremos avaliar se
houve impacto].
2) Criar a variável programa (1 para quem participou e zero para
quem não participou).
3) Obter observações das variáveis que afetam o indicador de
interesse e que são diferentes entre os participantes e os não
participantes.
4) Estimar a equação:
Y =  + *programa + *X1 + *X2 + ;
 Y = indicador de resultado de interesse.
 programa = variável de interesse (igual a 1 caso o indivíduo
tenha participado do programa).
 X1, X2 = variáveis que são correlacionadas com o Y e que são
diferentes entre os grupos de tratamento e de controle.
Comentários Finais

Aula de hoje: aprendemos a realizar a avaliação de impacto
quando a seleção de tratados e não-tratados não foi aleatória.

Na próxima aula: aprenderemos um método para aperfeiçoar a
seleção dos controles de forma que a aplicação do método
aprendido hoje será mais confiável.