 Amostragem
por conglomerados em
múltiplos estágios
Questões
sobre tamanhos de amostras
Sorteio das unidades de amostragem
Efeito do delineamento na precisão das
estimativas
Conglomerados: unidades de amostragem que contém
vários elementos
 Múltiplos estágios

sorteio de unidades dentro de unidades sorteadas anteriormente
 conglomerados sorteados no 1º. Estágio  UPA: áreas
geográficas pequenas, que cobrem toda a população


Em inquéritos
Amostras do país ou de regiões do país ou de estados
UPA  município
 Amostras em municípios
UPA  setor censitário

 AAS
f = n/N = m/M
 Amostragem
em dois estágios
f = f1* f2
 Amostragem
em três estágios
f = f1* f2 * f3
QUESTÕES SOBRE O TAMANHO DA
DOIS

AMOSTRA
ESTÁGIOS DE SELEÇÃO
Cálculo de n – número de pessoas - considerando
o parâmetro a ser estimado

Definição dos domínios – n para cada domínio

Cálculo de m – número de domicílios

Cálculo do número de setores censitários e de
domicílios por setor
OBJETIVO  ESTIMAR PREVALÊNCIAS

Parâmetro  proporção
N
P

Y
i 1
i
N
Estimador na AAS
n
p
y
i 1
n
i
TAMANHO DE AMOSTRA PARA PROPORÇÕES
AMOSTRAGEM ALEATÓRIA SIMPLES
n
P (1  P)
 d 


 1,96 
2
VARIÂNCIA
POR ELEMENTO
P
1-P
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
0,90
0,80
0,70
0,60
0,50
0,40
0,30
0,20
0,10
 P(1-P)
variância
por
elemento
0,09
0,16
0,21
0,24
0,25
0,24
0,21
0,16
0,09
ERRO

DE AMOSTRAGEM
Semi-amplitude do intervalo de confiança
IC95% :  p  d ; p  d 
IC95% :  p 1,96DP( p) ; p  1,96DP( p)
d

Consequência de que
𝑃 𝑝 − 𝑃 < 1,96 𝐷𝑃(𝑝) = 0,95

1,96  indica nível de confiança de 95%
d
EXEMPLOS

Para estimar a proporção de idosos com HA no município X

ISA-Capital 2008  52%

d=5%  IC:[47%;57%]

n=384

Para estimar a proporção de idosos com depressão no município X

ISA-Capital 2008  25%

d=5%  IC:[20%;30%]

n=288

Para estimar a proporção de idosos com rinite no município X

ISA-Capital 2008  12%

d=5%  IC:[7%;17%] ????

n=100
PASSAGEM
AAS  AMOSTRA COMPLEXA
nc  n  deff
EFEITO DO DELINEAMENTO

VARIÂNCIAS

Amostragem aleatória simples
n
y


i 1
yi
n
(𝑦𝑖 − 𝑦)2
𝑣𝑎𝑟 𝑦 =
𝑛(𝑛 − 1)
Amostragem por conglomerados de tamanhos
desiguais
n
r
y
i 1
x
i
1
𝑣𝑎𝑟 𝑟 = 2 𝑣𝑎𝑟 𝑦 + 𝑣𝑎𝑟 𝑥 − 2𝑟 ∙ 𝑐𝑜𝑣(𝑦, 𝑥)
𝑥
PREVALÊNCIA DE HIPERTENSÃO EM IDOSOS
ISACAMP-2008
. mean ha if dominio==3
---------------------------------------------------------------------|
Mean
Std. Err.
[95% Conf. Interval]
-----------+---------------------------------------------------------ha | .5385122 .0127951
.5134143
.56361
----------------------------------------------------------------------svy : mean ha if dominio==3
---------------------------------------------------------------------|
Linearized
|
Mean
Std. Err.
[95% Conf. Interval]
------------+-------------------------------------------------------ha | .5321661 .0170251
.4979529 .5663794
---------------------------------------------------------------------. estat effects
-------------------------------------------------------|
Linearized
|
Mean
Std. Err.
DEFF
-----------+-------------------------------------------ha | .5321661 .0170251
1.76732
---------------------------------------------------------𝑑𝑒𝑓𝑓 =
0,0170251
0,0127951
2
= 1,77
NO PLANEJAMENTO

DE INQUÉRITOS
deff=2
Dependerá
 da homogeneidade intraclasse
 da distribuição da amostra pelas unidades
primárias de amostragem
DOMÍNIOS

Cálculo de n deve ser feito para cada domínio.

Domínio – parte da população para a qual estimativas
separadas são planejadas (Kish pág.75)

Podem ser definidos por critérios:
1) geográficos
2) demográficos
TAMANHO DE AMOSTRA EM DOMÍNIOS
Região
distribuição pop
am.proporcional
am.tam.iguais
Norte
20%
1000
500
Sul
15%
750
500
Leste
25%
1250
500
Oeste
30%
1500
500
Centro
10%
500
500
Total
100%
5000
2500
Tamanho mínimo de amostra  n=500
 Amostra proporcional



tam.total =n/(menor prop)=500/0,10=5000
Amostras de tamanhos iguais

tam.total=5*n=2500
INQUÉRITOS
TAMANHO DA AMOSTRA
DE PESSOAS
DA AMOSTRA DE DOMICÍLIOS
 TAMANHO
Transformação de n  m
n
m

N M
n
m
N /M
m  número de pessoas a serem sorteadas
dividido pela média de pessoas por
domicílio na faixa etária de interesse
NÃO RESPOSTA
 Acréscimo
pela taxa de não resposta
(máxima a ser tolerada)
ninicial
n
1  TNR
Diminui o erro de amostragem das
estimativas, mas não o vício causado pela
não resposta
EXEMPLO

DEFININDO
NÚMERO DE SETORES CENSITÁRIOS E
DE DOMICÍLIOS POR SETOR
Para um dado m  busca-se menor deff
O efeito do delineamento depende:


da estratégia elaborada para o processo de sorteio número de setores e domicílios por setor
da composição interna dos conglomerados homogeneidade intra conglomerados
deff  1   (b  1)
CORRELAÇÃO INTRACLASSE
Variáveis demográficas
Pesquisa
Idosos – MSP
Variável
Sexo
Idade
Variáveis “socio-econômicas”
Pesquisa
Idosos
Local
MSP
Estimativa
0,000
0,008
Variável
Sabe ler e escrever
Foi a escola
Inquérito de Saúde Áreas ESP Anos estudo chefe
Equipamentos domicílio
Suicídio
Campinas Renda
PNAD
GSP
Renda familiar per capita
Chefes com ensino superior
PNAD
Alagoas
Anos de estudo
Estimativa
0,143
0,156
0,172
0,282
0,170
0,354
0,296
0,379
Variáveis “de saúde”
Pesquisa
Idosos
Local
MSP
Inquérito de Saúde
Áreas ESP
Suicídio
Campinas
PNAD-98
RMSP
PNAD
Alagoas
Variável
Hábito de fumar
Hipertensão
Auto avaliação saúde
Morbidade (15 dias)
Uso medicamentos (3 dias)
Consulta odontológica (12 m.)
Serviço de saúde utilizado
Crônicas (  20 anos)
Câncer
Hipertensão
Problemas de coluna
Enxaqueca
Osteoporose
Ideação
Planejamento
Tentativa
Portador de dificuldades
Uso de óculos / lente
Crônicas (  15 anos)
Hipertensão
Problemas de coluna
Estimativa
0,003
0,016
0,034
0,040
0,050
0,053
0,091
0,007
0,010
0,020
0,024
0,025
0,010
0,011
0,022
0,013
0,100
0,036
0,011
0,046
DETERMINAÇÃO DE b

0,025
0,05
0,10
0,15
0,20
b
5
1,1
1,2
1,4
1,6
1,8
10
1,23
1,45
1,9
2,35
2,8
15
1,35
1,7
2,4
3,1
3,8
20
1,48
1,95
1,9
2,85
3,8
TAMANHO ÓTIMO DE B
bótimo 
Ca
1 

c

Ca  custo associado ao conglomerado
c  custo por elemento
 Considerando
a razão de custos adotada pelo
SEADE (na PCV)  20

0,05
0,10
0,15
0,20
bótimo
deff
19
13
11
9
2,0
2,2
2,5
2,6
NÚMERO DE SETORES CENSITÁRIOS
a=n/b
escolher a>=30
Metodologia de eleição da maior parte dos inquéritos
 Medidas de tamanho determinam probabilidade de seleção
 probabilidades diferentes para as UPAs
 Probabilidades de seleção das UPAS combinadas com
frações de amostragem adequadas nos estágios seguintes
 equiprobabilidade


Principal atrativo  amostras de tamanhos
aproximadamente iguais nas UPAs
Mi
f1  a 
M
M i é o tamanho do setor i
M é o número total de domicílios
ID_
350950205000001
350950205000002
350950205000003
350950205000004
350950205000005
350950205000006
350950205000007
350950205000008
350950205000009
350950205000010
350950205000011
350950205000012
350950205000013
350950205000014
350950205000015
350950205000016
350950205000017
V01
SITUAÇÃO
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
V02
TIPO
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
V05
DOMPP
160
259
230
256
152
168
195
197
249
163
152
112
140
237
226
255
236
1º. passo – soma acumulada
 considerando
o setor censitário como UPA
 a cada setor é atribuído um intervalo de números
 tamanho do intervalo = número de domicílios de cada
setor
ID_
350950205000001
350950205000002
350950205000003
350950205000004
350950205000005
350950205000006
350950205000007
350950205000008
350950205000009
350950205000010
350950205000011
350950205000012
350950205000013
350950205000014
350950205000015
350950205000016
350950205000017
350950205000018
350950205000019
350950205000020
350950205000021
350950205000022
350950205000023
DomPP
160
259
230
256
152
168
195
197
249
163
152
112
140
237
226
255
236
159
117
192
203
192
168
Acumulado
160
419
649
905
1057
1225
1420
1617
1866
2029
2181
2293
2433
2670
2896
3151
3387
3546
3663
3855
4058
4250
4418
Intervalo Imaginário
1 a 160
161 a 419
420 a 649
650 a 905
906 a 1057
1058 a 1225
1226 a 1420
1420 a 1617
1618 a 1866
1867 a 2029
2030 a 2181
2182 a 2293
2294 a 2433
2434 a 2670
2671 a 2896
2897 a 3151
3152 a 3387
3388 a 3546
3547 a 3663
3664 a 3855
3856 a 4058
4059 a 4250
4251 a 4418
2º. Passo – Calcula-se o intervalo de amostragem
(total de domicílios / número de setores da amostra)
 3º. Passo – Sorteia-se um número aleatório dentro do 1º.
intervalo (início casual)
 4º. Passo – Acumula-se o intervalo de amostragem
sucessivamente

 Os
setores da amostra serão os que tiverem nos seus
“intervalos de números” os números sorteados
Total de domicílios: 276080
 Total de setores da amostra: 70

Intervalo de amostragem: 276080/70=3944
 Início casual entre 1 e 3944: 232
 Setor 02 é o primeiro setor sorteado (seu intervalo é 161 a 419)


Outros números sorteados: 232 + 3944 = 4176 (setor 22)
4176 + 3944 = 8120 (setor 44)
8120 + 3944 = 12064 (setor 68)
...
𝑏
𝑓2 =
𝑀𝑖

Se Mi é também o número de domicílios encontrado em
campo (número atual de domicílios)

Ex: Mi=360 e b=120  f2=1/3
Será incluído na amostra 1 domicílio cada 30
 Calcula-se
o intervalo de amostragem  domicílios do
setor / b
sendo b o número de domicílios a ser sorteado no setor
 Sorteia-se um início aleatório no 1o. intervalo (início
casual)
 Soma-se o intervalo de amostragem sucessivamente
 Os números assim identificados correspondem aos
domicílios sorteados
𝑓 = 𝑓1 ∗ 𝑓2
𝑀𝑖 𝑏
𝑎𝑏 𝑚
𝑓=𝑎
∗
=
=
𝑀 𝑀𝑖 𝑀 𝑀

Seleção de domicílios com fração fixa (b/Mi)
𝑏
𝑏𝑖 = ∗ 𝑀𝑖′
𝑀𝑖
𝑏𝑖 é o número de domicílios sorteado no setor
𝑀𝑖 é o número de domicílios do censo (utilizado no sorteio
do 1º. estágio)
𝑀𝑖′ é o número de domicílios existentes no momento da
pesquisa (atual)
𝑀𝑖′
𝑏𝑀
𝑏𝑖
𝑖
𝑓2 = ′ =
𝑀𝑖
𝑀𝑖′
Vantagem
 Fração de amostragem global é a mesma para todas as
UPAs – amostra equiprobabilística
𝑀𝑖′
𝑀𝑖 𝑏 𝑀𝑖 𝑎𝑏
𝑓=𝑎 ∗ ′ =
𝑀 𝑀𝑖
𝑀
Desvantagens
 Sem controle do tamanho final da amostra
 Número de domicílios nas UPAs podem variar muito
1ª OPÇÃO
43
1
𝑓2 =
=
258 6

No exemplo:

Mas tamanho atual é 278
278
43(
) 43 × 1,077 46,3 1
258
𝑓2 =
=
=
=
278
278
278 6

Serão sorteados 46 domicílios que corresponde a 1/6
dos domicílios atualmente existentes.

Fixar b (o número de domicílios é o mesmo em todos os
setores)
𝑏
𝑓2 =
𝑀𝑖′
𝑀𝑖 𝑏
𝑓=𝑎
∗
𝑀 𝑀𝑖′

Frações de amostragem distintas nos setores  ponderação
2ª OPÇÃO
43
1
𝑓2 =
=
258 6

No exemplo:

Mas tamanho atual é 278
43
1
𝑓2 =
=
278 6,5

Serão sorteados 43 domicílios mas a fração de
amostragem nesse setor foi de 6,5

Inverso da fração de amostragem

Se amostra equiprobabilística  𝑤 = 1/𝑓
Se há diferenças entre probabilidades utilizadas no sorteio,
𝑤𝑖 = 1/𝑓𝑖
para cada elemento i 

PESO DO DELINEAMENTO


Peso resultante da utilização de diferentes
probabilidades de seleção  inverso da fração de
amostragem
Causas
1) tamanhos atuais das UPAs diferentes dos tamanhos
utilizados em seu sorteio e sorteio de um número
constante de domicílios nos setores
2) sorteio de números de elementos nos estratos ou
domínios não proporcionais ao tamanho dos
estratos/domínios
AJUSTE



DE NÃO RESPOSTA
Variável utilizada no ajuste – variável para a qual há
informação também para os não respondentes. Usual
– geográficas.
Suposição – em cada categoria da variável de ajuste
os respondentes são amostras das pessoas
sorteadas – as perdas são ao acaso
Dentro das categorias – amostra de respondentes é
inflada para atingir número sorteado
AJUSTE DE PÓS ESTRATIFICAÇÃO
A
distribuição da amostra segundo
variáveis sóciodemográficas é igualada à
distribuição da população
 Utilização
de dados da população externos, portanto, à pesquisa.
Download

Conglomerado