Amostragem por conglomerados em múltiplos estágios Questões sobre tamanhos de amostras Sorteio das unidades de amostragem Efeito do delineamento na precisão das estimativas Conglomerados: unidades de amostragem que contém vários elementos Múltiplos estágios sorteio de unidades dentro de unidades sorteadas anteriormente conglomerados sorteados no 1º. Estágio UPA: áreas geográficas pequenas, que cobrem toda a população Em inquéritos Amostras do país ou de regiões do país ou de estados UPA município Amostras em municípios UPA setor censitário AAS f = n/N = m/M Amostragem em dois estágios f = f1* f2 Amostragem em três estágios f = f1* f2 * f3 QUESTÕES SOBRE O TAMANHO DA DOIS AMOSTRA ESTÁGIOS DE SELEÇÃO Cálculo de n – número de pessoas - considerando o parâmetro a ser estimado Definição dos domínios – n para cada domínio Cálculo de m – número de domicílios Cálculo do número de setores censitários e de domicílios por setor OBJETIVO ESTIMAR PREVALÊNCIAS Parâmetro proporção N P Y i 1 i N Estimador na AAS n p y i 1 n i TAMANHO DE AMOSTRA PARA PROPORÇÕES AMOSTRAGEM ALEATÓRIA SIMPLES n P (1 P) d 1,96 2 VARIÂNCIA POR ELEMENTO P 1-P 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,90 0,80 0,70 0,60 0,50 0,40 0,30 0,20 0,10 P(1-P) variância por elemento 0,09 0,16 0,21 0,24 0,25 0,24 0,21 0,16 0,09 ERRO DE AMOSTRAGEM Semi-amplitude do intervalo de confiança IC95% : p d ; p d IC95% : p 1,96DP( p) ; p 1,96DP( p) d Consequência de que 𝑃 𝑝 − 𝑃 < 1,96 𝐷𝑃(𝑝) = 0,95 1,96 indica nível de confiança de 95% d EXEMPLOS Para estimar a proporção de idosos com HA no município X ISA-Capital 2008 52% d=5% IC:[47%;57%] n=384 Para estimar a proporção de idosos com depressão no município X ISA-Capital 2008 25% d=5% IC:[20%;30%] n=288 Para estimar a proporção de idosos com rinite no município X ISA-Capital 2008 12% d=5% IC:[7%;17%] ???? n=100 PASSAGEM AAS AMOSTRA COMPLEXA nc n deff EFEITO DO DELINEAMENTO VARIÂNCIAS Amostragem aleatória simples n y i 1 yi n (𝑦𝑖 − 𝑦)2 𝑣𝑎𝑟 𝑦 = 𝑛(𝑛 − 1) Amostragem por conglomerados de tamanhos desiguais n r y i 1 x i 1 𝑣𝑎𝑟 𝑟 = 2 𝑣𝑎𝑟 𝑦 + 𝑣𝑎𝑟 𝑥 − 2𝑟 ∙ 𝑐𝑜𝑣(𝑦, 𝑥) 𝑥 PREVALÊNCIA DE HIPERTENSÃO EM IDOSOS ISACAMP-2008 . mean ha if dominio==3 ---------------------------------------------------------------------| Mean Std. Err. [95% Conf. Interval] -----------+---------------------------------------------------------ha | .5385122 .0127951 .5134143 .56361 ----------------------------------------------------------------------svy : mean ha if dominio==3 ---------------------------------------------------------------------| Linearized | Mean Std. Err. [95% Conf. Interval] ------------+-------------------------------------------------------ha | .5321661 .0170251 .4979529 .5663794 ---------------------------------------------------------------------. estat effects -------------------------------------------------------| Linearized | Mean Std. Err. DEFF -----------+-------------------------------------------ha | .5321661 .0170251 1.76732 ---------------------------------------------------------𝑑𝑒𝑓𝑓 = 0,0170251 0,0127951 2 = 1,77 NO PLANEJAMENTO DE INQUÉRITOS deff=2 Dependerá da homogeneidade intraclasse da distribuição da amostra pelas unidades primárias de amostragem DOMÍNIOS Cálculo de n deve ser feito para cada domínio. Domínio – parte da população para a qual estimativas separadas são planejadas (Kish pág.75) Podem ser definidos por critérios: 1) geográficos 2) demográficos TAMANHO DE AMOSTRA EM DOMÍNIOS Região distribuição pop am.proporcional am.tam.iguais Norte 20% 1000 500 Sul 15% 750 500 Leste 25% 1250 500 Oeste 30% 1500 500 Centro 10% 500 500 Total 100% 5000 2500 Tamanho mínimo de amostra n=500 Amostra proporcional tam.total =n/(menor prop)=500/0,10=5000 Amostras de tamanhos iguais tam.total=5*n=2500 INQUÉRITOS TAMANHO DA AMOSTRA DE PESSOAS DA AMOSTRA DE DOMICÍLIOS TAMANHO Transformação de n m n m N M n m N /M m número de pessoas a serem sorteadas dividido pela média de pessoas por domicílio na faixa etária de interesse NÃO RESPOSTA Acréscimo pela taxa de não resposta (máxima a ser tolerada) ninicial n 1 TNR Diminui o erro de amostragem das estimativas, mas não o vício causado pela não resposta EXEMPLO DEFININDO NÚMERO DE SETORES CENSITÁRIOS E DE DOMICÍLIOS POR SETOR Para um dado m busca-se menor deff O efeito do delineamento depende: da estratégia elaborada para o processo de sorteio número de setores e domicílios por setor da composição interna dos conglomerados homogeneidade intra conglomerados deff 1 (b 1) CORRELAÇÃO INTRACLASSE Variáveis demográficas Pesquisa Idosos – MSP Variável Sexo Idade Variáveis “socio-econômicas” Pesquisa Idosos Local MSP Estimativa 0,000 0,008 Variável Sabe ler e escrever Foi a escola Inquérito de Saúde Áreas ESP Anos estudo chefe Equipamentos domicílio Suicídio Campinas Renda PNAD GSP Renda familiar per capita Chefes com ensino superior PNAD Alagoas Anos de estudo Estimativa 0,143 0,156 0,172 0,282 0,170 0,354 0,296 0,379 Variáveis “de saúde” Pesquisa Idosos Local MSP Inquérito de Saúde Áreas ESP Suicídio Campinas PNAD-98 RMSP PNAD Alagoas Variável Hábito de fumar Hipertensão Auto avaliação saúde Morbidade (15 dias) Uso medicamentos (3 dias) Consulta odontológica (12 m.) Serviço de saúde utilizado Crônicas ( 20 anos) Câncer Hipertensão Problemas de coluna Enxaqueca Osteoporose Ideação Planejamento Tentativa Portador de dificuldades Uso de óculos / lente Crônicas ( 15 anos) Hipertensão Problemas de coluna Estimativa 0,003 0,016 0,034 0,040 0,050 0,053 0,091 0,007 0,010 0,020 0,024 0,025 0,010 0,011 0,022 0,013 0,100 0,036 0,011 0,046 DETERMINAÇÃO DE b 0,025 0,05 0,10 0,15 0,20 b 5 1,1 1,2 1,4 1,6 1,8 10 1,23 1,45 1,9 2,35 2,8 15 1,35 1,7 2,4 3,1 3,8 20 1,48 1,95 1,9 2,85 3,8 TAMANHO ÓTIMO DE B bótimo Ca 1 c Ca custo associado ao conglomerado c custo por elemento Considerando a razão de custos adotada pelo SEADE (na PCV) 20 0,05 0,10 0,15 0,20 bótimo deff 19 13 11 9 2,0 2,2 2,5 2,6 NÚMERO DE SETORES CENSITÁRIOS a=n/b escolher a>=30 Metodologia de eleição da maior parte dos inquéritos Medidas de tamanho determinam probabilidade de seleção probabilidades diferentes para as UPAs Probabilidades de seleção das UPAS combinadas com frações de amostragem adequadas nos estágios seguintes equiprobabilidade Principal atrativo amostras de tamanhos aproximadamente iguais nas UPAs Mi f1 a M M i é o tamanho do setor i M é o número total de domicílios ID_ 350950205000001 350950205000002 350950205000003 350950205000004 350950205000005 350950205000006 350950205000007 350950205000008 350950205000009 350950205000010 350950205000011 350950205000012 350950205000013 350950205000014 350950205000015 350950205000016 350950205000017 V01 SITUAÇÃO 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 V02 TIPO 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 V05 DOMPP 160 259 230 256 152 168 195 197 249 163 152 112 140 237 226 255 236 1º. passo – soma acumulada considerando o setor censitário como UPA a cada setor é atribuído um intervalo de números tamanho do intervalo = número de domicílios de cada setor ID_ 350950205000001 350950205000002 350950205000003 350950205000004 350950205000005 350950205000006 350950205000007 350950205000008 350950205000009 350950205000010 350950205000011 350950205000012 350950205000013 350950205000014 350950205000015 350950205000016 350950205000017 350950205000018 350950205000019 350950205000020 350950205000021 350950205000022 350950205000023 DomPP 160 259 230 256 152 168 195 197 249 163 152 112 140 237 226 255 236 159 117 192 203 192 168 Acumulado 160 419 649 905 1057 1225 1420 1617 1866 2029 2181 2293 2433 2670 2896 3151 3387 3546 3663 3855 4058 4250 4418 Intervalo Imaginário 1 a 160 161 a 419 420 a 649 650 a 905 906 a 1057 1058 a 1225 1226 a 1420 1420 a 1617 1618 a 1866 1867 a 2029 2030 a 2181 2182 a 2293 2294 a 2433 2434 a 2670 2671 a 2896 2897 a 3151 3152 a 3387 3388 a 3546 3547 a 3663 3664 a 3855 3856 a 4058 4059 a 4250 4251 a 4418 2º. Passo – Calcula-se o intervalo de amostragem (total de domicílios / número de setores da amostra) 3º. Passo – Sorteia-se um número aleatório dentro do 1º. intervalo (início casual) 4º. Passo – Acumula-se o intervalo de amostragem sucessivamente Os setores da amostra serão os que tiverem nos seus “intervalos de números” os números sorteados Total de domicílios: 276080 Total de setores da amostra: 70 Intervalo de amostragem: 276080/70=3944 Início casual entre 1 e 3944: 232 Setor 02 é o primeiro setor sorteado (seu intervalo é 161 a 419) Outros números sorteados: 232 + 3944 = 4176 (setor 22) 4176 + 3944 = 8120 (setor 44) 8120 + 3944 = 12064 (setor 68) ... 𝑏 𝑓2 = 𝑀𝑖 Se Mi é também o número de domicílios encontrado em campo (número atual de domicílios) Ex: Mi=360 e b=120 f2=1/3 Será incluído na amostra 1 domicílio cada 30 Calcula-se o intervalo de amostragem domicílios do setor / b sendo b o número de domicílios a ser sorteado no setor Sorteia-se um início aleatório no 1o. intervalo (início casual) Soma-se o intervalo de amostragem sucessivamente Os números assim identificados correspondem aos domicílios sorteados 𝑓 = 𝑓1 ∗ 𝑓2 𝑀𝑖 𝑏 𝑎𝑏 𝑚 𝑓=𝑎 ∗ = = 𝑀 𝑀𝑖 𝑀 𝑀 Seleção de domicílios com fração fixa (b/Mi) 𝑏 𝑏𝑖 = ∗ 𝑀𝑖′ 𝑀𝑖 𝑏𝑖 é o número de domicílios sorteado no setor 𝑀𝑖 é o número de domicílios do censo (utilizado no sorteio do 1º. estágio) 𝑀𝑖′ é o número de domicílios existentes no momento da pesquisa (atual) 𝑀𝑖′ 𝑏𝑀 𝑏𝑖 𝑖 𝑓2 = ′ = 𝑀𝑖 𝑀𝑖′ Vantagem Fração de amostragem global é a mesma para todas as UPAs – amostra equiprobabilística 𝑀𝑖′ 𝑀𝑖 𝑏 𝑀𝑖 𝑎𝑏 𝑓=𝑎 ∗ ′ = 𝑀 𝑀𝑖 𝑀 Desvantagens Sem controle do tamanho final da amostra Número de domicílios nas UPAs podem variar muito 1ª OPÇÃO 43 1 𝑓2 = = 258 6 No exemplo: Mas tamanho atual é 278 278 43( ) 43 × 1,077 46,3 1 258 𝑓2 = = = = 278 278 278 6 Serão sorteados 46 domicílios que corresponde a 1/6 dos domicílios atualmente existentes. Fixar b (o número de domicílios é o mesmo em todos os setores) 𝑏 𝑓2 = 𝑀𝑖′ 𝑀𝑖 𝑏 𝑓=𝑎 ∗ 𝑀 𝑀𝑖′ Frações de amostragem distintas nos setores ponderação 2ª OPÇÃO 43 1 𝑓2 = = 258 6 No exemplo: Mas tamanho atual é 278 43 1 𝑓2 = = 278 6,5 Serão sorteados 43 domicílios mas a fração de amostragem nesse setor foi de 6,5 Inverso da fração de amostragem Se amostra equiprobabilística 𝑤 = 1/𝑓 Se há diferenças entre probabilidades utilizadas no sorteio, 𝑤𝑖 = 1/𝑓𝑖 para cada elemento i PESO DO DELINEAMENTO Peso resultante da utilização de diferentes probabilidades de seleção inverso da fração de amostragem Causas 1) tamanhos atuais das UPAs diferentes dos tamanhos utilizados em seu sorteio e sorteio de um número constante de domicílios nos setores 2) sorteio de números de elementos nos estratos ou domínios não proporcionais ao tamanho dos estratos/domínios AJUSTE DE NÃO RESPOSTA Variável utilizada no ajuste – variável para a qual há informação também para os não respondentes. Usual – geográficas. Suposição – em cada categoria da variável de ajuste os respondentes são amostras das pessoas sorteadas – as perdas são ao acaso Dentro das categorias – amostra de respondentes é inflada para atingir número sorteado AJUSTE DE PÓS ESTRATIFICAÇÃO A distribuição da amostra segundo variáveis sóciodemográficas é igualada à distribuição da população Utilização de dados da população externos, portanto, à pesquisa.