Amostragem em Pesquisas Sócio-Econômicas Henrique Dantas Neder Prof. Universidade Federal de Uberlândia • Introdução •Termos e Definições de Amostragem • Métodos de Seleção de Amostras •Amostragem aleatória ou probabilística •Amostragem por quotas •Amostragem Sistemática AMOSTRAGEM SISTEMÁTICA 1a. Calcula-se o tamanho do intervalo sistemático. Este é igual a: onde Int uma função que aplicada ao argumento produz o maior inteiro menor do que este argumento. Por exemplo, se N = 1000 e n = 90 . 2a. Escolhe-se um número aleatório entre 1 e I, no caso do exemplo entre 1 e 11. Digamos que seja escolhido o número 9. 3a. Os elementos escolhidos na população para entrar na amostra são: primeiro número aleatório = A; A + I; A +2I; A + 3I; .... No caso do exemplo: O que dá a seguinte seqüência: 9o.; 20o. ; 31o. ;42o.;..... A escolha do número aleatório pode ser feita empregandose uma tabela de números aleatórios. Mas um procedimento mais fácil é utilizar no Excel a função ALEATORIOENTRE (escreva em qualquer célula da planilha a fórmula =ALEATORIOENTRE(1,11). Quando apertar a tecla entre o programa retorna um número aleatório dentro do intervalo fechado [1,11] Desenhos de Amostras 1. Amostragem Aleatória Simples Se tivermos, por exemplo, uma população de tamanho N = 100 e selecionarmos n = 10, teremos 17310309456440 amostras distintas de 10 elementos em uma população de tamanho 100 Utilizar a função ALEATORIOENTRE do Excel para selecionar a amostra, desde que todos os elementos da população estejam rotulados com números na seqüência 1 a N. Se tivermos n = 10 e N = 100 devemos ativar 10 vezes a função =ALEATORIOENTRE(1,100). 2. Amostragem com probabilidade desigual Empresa Número de empregados Número de empregados acumulado Intervalo 1 100 100 1-100 2 200 300 101-300 3 50 350 301-350 4 500 850 351-850 ... ... ... ... 999 100 130680 ... 1000 70 130750 130681-130750 3. Amostra Aleatória Estratificada Subdivide-se a população em K estratos e seleciona-se aleatoriamente alguns elementos amostrais de cada estrato populacional 4. Amostragem por Conglomerados Subdivide-se a população em conglomerados e seleciona-se aleatoriamente um conjunto de conglomerados. O conglomerado é chamado de unidade de amostragem primária (UPA). Dentro de cada UPA (conglomerado) selecionada todos os indivíduos são incluídos na amostra. Exemplo: as escolas da rede municipal de ensino são os conglomerados e os alunos são as unidades de amostragem secundária (USA). 5. Amostragem por Conglomerados em Múltiplos Estágios Seleciona-se aleatoriamente os conglomerados (UPAs) e dentro de cada UPA selecionado seleciona-se aleatoriamente as USAs.Os UPAs podem ser selecionados com probabilidade proporcional ao tamanho (PPT) Exemplo: Na PNAD (Pesquisa Nacional por Amostra Domiciliar) são selecionados primeiramente os municípios (UPAs) com Probabilidade proporcional ao tamanho (número de domicílios). Posteriormente, em cada município selecionado, seleciona-se os Setores censitários (USAs) e finalmente, dentro de cada USA selecionada, são escolhidos aleatoriamete os domicílios. Quadro 1 – Simulação de uma amostragem com reposição de uma população hipotética de 5 elementos (400;400) X 11 400 (400;600) X 12 500 (400;800) X 13 600 (400;1000) (400;1200) X 14 700 X 15 800 (600;400) (600;600) (600;800) (600;1000) (600;1200) X 21 500 X 22 600 X 23 700 X 24 800 X 25 900 (800;400) (800;600) (800;800) (800;1000) (800;1200) X 31 600 X 32 700 X 33 800 X 34 900 X 35 1000 (1000;400) (1000;600) (1000;800) (1000;1000) (1000;1200) X 41 700 X 42 800 X 43 900 X 44 1000 X 45 1100 (1200;400) (1200;600) (1200;800) (1200;1000) X 51 800 X 52 900 X 53 1000 X 54 1100 X 55 1200 (1200;1200) Quadro 4 – Principais Estimadores utilizados em amostragem Parâmetro Média populacional Total populacional Proporção populacional Representação do parâmetro N Xi i 1 Estimador Média amostral N N T Xi i 1 N p Xi i 1 Total amostral expandido Proporção amostral onde Xi 0,1 Total de indivíduos na população com determinada característica N Xi i 1 onde Xi 0,1 Total amostral expandido Representação do estimador N Xi X i 1 n N n Tˆ X i n i 1 n Xi pˆ i 1 n N n ˆ X i n i 1 Variância do estimador X2 T2ˆ n N 2 X2 n 2pˆ 2ˆ X2 p(1 p) n N2 p (1 p ) n Tabela 4 – Tamanho amostral para uma Amostra Aleatória Simples (AAS) com objetivo de estimar para um dado desvio-padrão da população e (população infinita) X 30 erro (d) z 0,99 0,95 0,8 0,99 0,95 0,8 0,99 0,95 0,8 0,99 0,95 0,8 2,576 1,96 1,282 2,576 1,96 1,282 2,576 1,96 1,282 2,576 1,96 1,282 X 50 n 1 1 1 5 5 5 10 10 10 30 30 30 erro (d) 5971 3457 1478 239 138 59 60 35 15 7 4 2 n 1 1 1 5 5 5 10 10 10 30 30 30 16587 9604 4106 663 384 164 166 96 41 18 11 5 Tabela 5 – Tamanho amostral para uma Amostra Aleatória Simples com objetivo de estimar uma proporção populacional p para diversos valores de , p e erro (população infinita) Erro (%) z 0,99 1 0,95 1 0,8 1 0,99 5 0,95 5 0,8 5 0,99 10 0,95 10 0,8 10 p 2,5758 1,96 1,2815 2,5758 1,96 1,2815 2,5758 1,96 1,2815 n 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 p 5971 3457 1478 238 138 59 59 34 14 n 0,3 0,3 0,3 0,3 0,3 0,3 0,3 0,3 0,3 p 13933 8067 3448 557 322 137 139 80 34 n 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 16587 9603 4105 663 384 164 165 96 41 BOOTSTRAPPING Em muitas situações de análise de dados de amostras, não é possível fazer estimativas porque as fórmulas das variâncias dos estimadores simplesmente não existem ou porque analiticamente podem ser obtidas através de métodos muito exaustivos. Nestes casos uma solução prática para obtermos intervalos de confiança é o uso da técnica estatística conhecida na literatura como bootstrapping. Nesta técnica obtém-se a partir de uma única amostra um número grande de replicações que são amostras de mesmo tamanho com reposição selecionadas da amostra original. A lógica por trás do bootstrapping é a seguinte: “em alguns casos a distribuição amostral pode ser derivada analiticamente. Por exemplo, se a população é distribuída normalmente e desejamos estimar médias, a distribuição amostral para a média é uma “t” de Student com n-1 graus de liberdade. Em outros casos, derivar a distribuição amostral é muito difícil, como no caso de médias estimadas de populações não normais (e com tamanhos de amostras pequenos, sem possibilidade de aplicação do Teorema do Limite Central)” (Stata Reference Manual, 2001). Se conhecermos a distribuição da população, podemos obter a distribuição amostral por simulação: podemos selecionar aleatoriamente amostras de tamanho n, de cada uma calcular o valor da estatística e desta forma construir uma distribuição para esta estatística. A técnica do bootstrapping faz precisamente isto, mas ela usa a distribuição observada na amostra no lugar da distribuição verdadeira da população. Portanto, esta técnica se baseia na hipótese de que a distribuição observada é uma boa estimativa da distribuição da população subjacente. Para exemplificar suponhamos que desejamos estimar um intervalo de confiança para a mediana da variável mpg através de uma amostra de 74 observações. No Stata podemos utilizar o seguinte comando: bs "summarize mpg,detail" "r(p50)", reps(100) bs "reg mpg weight foreign" "_b[weight] _b[foreign]", reps(100) ALGUNS EXEMPLOS DE APLICAÇÕES DE AMOSTRAGEM Nesta parte da apresentação serão mostrados alguns estudos de casos correspondendo a algumas experiências relacionadas a amostragem em pesquisas sócio-econômicas. Um primeiro estudo de caso refere-se a uma pesquisa das condições sociais das famílias de baixa renda de Uberlândia Tabela A. 10 – distribuição da amostra por bairros e pesos (fatores) de expansão da amostra COD BAIRRO No. Pessoas na amostra No. de domicílios na população No. de pessoas na população Peso do domicílio Peso da pessoa 567 2092 9237 31323 21,647 19,728 No. de famílias na amostra 1 SANTA MONICA 5 SEGISMUNDO PEREIRA 51 204 4725 16024 21,647 19,728 ……………………… ………………. … … … … … … 155 599 4030 13664 25,997 22,812 16 73 615 2013 38,449 27,581 0 0 38,449 27,581 …. 208 MORUMBI 216 SHOPPING PARK I 217 SHOPPING PARK II 222 PARQUE RESIDENC. DO CAMARU 3 13 0 0 225 PRIMAVERA PARQUE 1 8 0 0 236 FUNDINHO 1 2 1172 3973 1171,631 1986,435 174 ESPERANÇA 5 28 394 1336 78,839 47,724 5458 20267 148617 503903 TOTAL 2 Ni var(ˆ) var( wi yi ) var( yi ) i 1 i 1 ni L L 2 2 Ni yi Ni yi y ni (1 ) ( yi ) ni ni i 1 ni ni i 1 ni L L 2 i