Amostragem em Pesquisas Sócio-Econômicas
Henrique Dantas Neder
Prof. Universidade Federal de Uberlândia
• Introdução
•Termos e Definições de Amostragem
• Métodos de Seleção de Amostras
•Amostragem aleatória ou probabilística
•Amostragem por quotas
•Amostragem Sistemática
AMOSTRAGEM SISTEMÁTICA
1a. Calcula-se o tamanho do intervalo sistemático. Este é
igual a:
onde Int uma função que aplicada ao argumento produz o
maior inteiro menor do que este argumento. Por exemplo,
se N = 1000 e n = 90
.
2a. Escolhe-se um número aleatório entre 1 e I, no caso do
exemplo entre 1 e 11. Digamos que seja escolhido o
número 9.
3a. Os elementos escolhidos na população para entrar na
amostra são:
primeiro número aleatório = A; A + I; A +2I; A + 3I; ....
No caso do exemplo:
O que dá a seguinte seqüência: 9o.; 20o. ; 31o. ;42o.;.....
A escolha do número aleatório pode ser feita empregandose uma tabela de números aleatórios. Mas um
procedimento mais fácil é utilizar no Excel a função
ALEATORIOENTRE (escreva em qualquer célula da
planilha a fórmula =ALEATORIOENTRE(1,11). Quando
apertar a tecla entre o programa retorna um número
aleatório dentro do intervalo fechado [1,11]
Desenhos de Amostras
1. Amostragem Aleatória Simples
Se tivermos, por exemplo, uma população de tamanho
N = 100 e selecionarmos n = 10, teremos
17310309456440 amostras distintas de 10 elementos em
uma população de tamanho 100
Utilizar a função ALEATORIOENTRE do Excel para
selecionar a amostra, desde que todos os elementos da
população estejam rotulados com números na
seqüência 1 a N. Se tivermos n = 10 e N = 100 devemos
ativar 10 vezes a função =ALEATORIOENTRE(1,100).
2. Amostragem com probabilidade desigual
Empresa
Número de
empregados
Número de empregados
acumulado
Intervalo
1
100
100
1-100
2
200
300
101-300
3
50
350
301-350
4
500
850
351-850
...
...
...
...
999
100
130680
...
1000
70
130750
130681-130750
3.
Amostra Aleatória Estratificada
Subdivide-se a população em K estratos e seleciona-se
aleatoriamente alguns elementos amostrais de cada estrato
populacional
4.
Amostragem por Conglomerados
Subdivide-se a população em conglomerados e seleciona-se
aleatoriamente um conjunto de conglomerados. O
conglomerado é chamado de unidade de amostragem
primária (UPA). Dentro de cada UPA (conglomerado)
selecionada todos os indivíduos são incluídos na amostra.
Exemplo: as escolas da rede municipal de ensino são os
conglomerados e os alunos são as unidades de amostragem
secundária (USA).
5. Amostragem por Conglomerados em Múltiplos
Estágios
Seleciona-se aleatoriamente os conglomerados (UPAs) e
dentro de cada UPA selecionado seleciona-se aleatoriamente
as USAs.Os UPAs podem ser selecionados com
probabilidade proporcional ao tamanho (PPT)
Exemplo: Na PNAD (Pesquisa Nacional por Amostra
Domiciliar) são selecionados primeiramente os municípios
(UPAs) com Probabilidade proporcional ao tamanho (número
de domicílios). Posteriormente, em cada município
selecionado, seleciona-se os Setores censitários (USAs) e
finalmente, dentro de cada USA selecionada, são escolhidos
aleatoriamete os domicílios.
Quadro 1 – Simulação de uma amostragem com reposição
de uma população hipotética de 5 elementos
(400;400)
X 11  400
(400;600)
X 12  500
(400;800)
X
13
 600
(400;1000)
(400;1200)
X 14  700
X 15  800
(600;400)
(600;600)
(600;800)
(600;1000)
(600;1200)
X 21  500
X 22  600
X 23  700
X 24  800
X 25  900
(800;400)
(800;600)
(800;800)
(800;1000)
(800;1200)
X 31  600
X 32  700
X 33  800 X 34  900
X 35  1000
(1000;400)
(1000;600)
(1000;800)
(1000;1000)
(1000;1200)
X 41  700
X 42  800
X 43  900
X 44  1000 X 45  1100
(1200;400)
(1200;600)
(1200;800)
(1200;1000)
X 51  800
X 52  900
X 53  1000 X 54  1100 X 55  1200
(1200;1200)
Quadro 4 – Principais Estimadores utilizados em amostragem
Parâmetro
Média
populacional
Total
populacional
Proporção
populacional
Representação do
parâmetro
N
 Xi

i 1
Estimador
Média
amostral
N
N
T   Xi
i 1
N
p   Xi
i 1
Total amostral
expandido
Proporção
amostral
onde Xi  0,1
Total de
indivíduos na
população com
determinada
característica
N
   Xi
i 1
onde Xi  0,1
Total amostral
expandido
Representação
do estimador
N
 Xi
X  i 1
n
N n
Tˆ   X i
n i 1
n
 Xi
pˆ  i 1
n
N n
ˆ   X i
n i 1
Variância do
estimador
 X2
 T2ˆ
n
N 2 X2

n
 2pˆ 
 2ˆ

 X2
p(1  p)
n
N2

p (1  p )
n
Tabela 4 – Tamanho amostral para uma Amostra Aleatória
Simples (AAS) com objetivo de estimar para um dado
desvio-padrão da população e (população infinita)
 X  30

erro (d)
z
0,99
0,95
0,8
0,99
0,95
0,8
0,99
0,95
0,8
0,99
0,95
0,8
2,576
1,96
1,282
2,576
1,96
1,282
2,576
1,96
1,282
2,576
1,96
1,282
 X  50
n
1
1
1
5
5
5
10
10
10
30
30
30
erro (d)
5971
3457
1478
239
138
59
60
35
15
7
4
2
n
1
1
1
5
5
5
10
10
10
30
30
30
16587
9604
4106
663
384
164
166
96
41
18
11
5
Tabela 5 – Tamanho amostral para uma Amostra Aleatória
Simples com objetivo de estimar uma proporção
populacional p para diversos valores de , p e erro
(população infinita)

Erro (%) z
0,99
1
0,95
1
0,8
1
0,99
5
0,95
5
0,8
5
0,99
10
0,95
10
0,8
10
p
2,5758
1,96
1,2815
2,5758
1,96
1,2815
2,5758
1,96
1,2815
n
0,1
0,1
0,1
0,1
0,1
0,1
0,1
0,1
0,1
p
5971
3457
1478
238
138
59
59
34
14
n
0,3
0,3
0,3
0,3
0,3
0,3
0,3
0,3
0,3
p
13933
8067
3448
557
322
137
139
80
34
n
0,5
0,5
0,5
0,5
0,5
0,5
0,5
0,5
0,5
16587
9603
4105
663
384
164
165
96
41
BOOTSTRAPPING
Em muitas situações de análise de dados de amostras, não é
possível fazer estimativas porque as fórmulas das variâncias dos
estimadores
simplesmente
não
existem
ou
porque
analiticamente podem ser obtidas através de métodos muito
exaustivos. Nestes casos uma solução prática para obtermos
intervalos de confiança é o uso da técnica estatística conhecida
na literatura como bootstrapping. Nesta técnica obtém-se a partir
de uma única amostra um número grande de replicações que
são amostras de mesmo tamanho com reposição selecionadas
da amostra original.
A lógica por trás do bootstrapping é a seguinte: “em alguns
casos a distribuição amostral pode ser derivada
analiticamente. Por exemplo, se a população é distribuída
normalmente e desejamos estimar médias, a distribuição
amostral para a média é uma “t” de Student com n-1 graus
de liberdade. Em outros casos, derivar a distribuição
amostral é muito difícil, como no caso de médias estimadas
de populações não normais (e com tamanhos de amostras
pequenos, sem possibilidade de aplicação do Teorema do
Limite Central)” (Stata Reference Manual, 2001).
Se conhecermos a distribuição da população, podemos
obter a distribuição amostral por simulação: podemos
selecionar aleatoriamente amostras de tamanho n, de cada
uma calcular o valor da estatística e desta forma construir
uma distribuição para esta estatística. A técnica do
bootstrapping faz precisamente isto, mas ela usa a
distribuição observada na amostra no lugar da distribuição
verdadeira da população. Portanto, esta técnica se baseia
na hipótese de que a distribuição observada é uma boa
estimativa da distribuição da população subjacente.
Para exemplificar suponhamos que desejamos
estimar um intervalo de confiança para a mediana da
variável mpg através de uma amostra de 74 observações.
No Stata podemos utilizar o seguinte comando:
bs "summarize mpg,detail" "r(p50)", reps(100)
bs "reg mpg weight foreign" "_b[weight] _b[foreign]", reps(100)
ALGUNS EXEMPLOS DE APLICAÇÕES DE AMOSTRAGEM
Nesta parte da apresentação serão mostrados alguns estudos de
casos correspondendo a algumas experiências relacionadas a
amostragem em pesquisas sócio-econômicas.
Um primeiro estudo de caso refere-se a uma pesquisa das
condições sociais das famílias de baixa renda de Uberlândia
Tabela A. 10 – distribuição da amostra por bairros e
pesos (fatores) de expansão da amostra
COD
BAIRRO
No. Pessoas
na amostra
No. de
domicílios
na
população
No. de
pessoas na
população
Peso do
domicílio
Peso da
pessoa
567
2092
9237
31323
21,647
19,728
No. de
famílias na
amostra
1
SANTA MONICA
5
SEGISMUNDO
PEREIRA
51
204
4725
16024
21,647
19,728
………………………
……………….
…
…
…
…
…
…
155
599
4030
13664
25,997
22,812
16
73
615
2013
38,449
27,581
0
0
38,449
27,581
….
208
MORUMBI
216
SHOPPING PARK I
217
SHOPPING PARK II
222
PARQUE
RESIDENC. DO
CAMARU
3
13
0
0
225
PRIMAVERA
PARQUE
1
8
0
0
236
FUNDINHO
1
2
1172
3973
1171,631
1986,435
174
ESPERANÇA
5
28
394
1336
78,839
47,724
5458
20267
148617
503903
TOTAL
2
 Ni 
var(ˆ)   var( wi yi )     var( yi )
i 1
i 1  ni 
L
L
2
2
 Ni  yi
 Ni 
yi
y
    ni (1  )     ( yi  )
ni
ni i 1  ni 
ni
i 1  ni 
L
L
2
i
Download

- Henrique Dantas Neder