1 Amostragem: A teoria dos livros x A prática no mercado Raphael Nishimura IME-USP 9 de outubro de 2008 2 A teoria dos livros x A prática no mercado • A teoria dos livros: ▫ Livros: Bolfarine e Bussab (2005), Cochran (1977), Kish (1965), Hansen, Hurwitz and Madow (1953), Särndal, Swensson and Wretman (1992), entre outros; ▫ Artigos científicos; ▫ Universidade/Ambiente acadêmico. • A prática no mercado: ▫ Institutos/Empresas de pesquisa (survey) comerciais/privadas ▫ NÃO incluímos institutos governamentais, como IBGE ou SEADE. 3 A teoria dos livros x A prática no mercado • A teoria dos livros: ▫ Amostragem probabilística • A prática no mercado: ▫ Amostragem não-probabilística Amostragem por cotas (2) 4 A teoria dos livros … • Amostragem probabilística • Särndal, Swensson and Wretman (1992): ▫ Pode-se definir um conjunto de amostras S = {s1, s2, …, sM}, que são possíveis de serem obtidas com o procedimento amostral; ▫ Uma probabilidade de seleção conhecida p(s) é associada para cada possível amostra s; ▫ O procedimento atribui a cada elemento da população uma probabilidade diferente de zero de ser selecionada; ▫ Uma amostra é selecionada através de um mecanismo aleatório em que cada possível amostra s recebe exatamente uma probabilidade p(s) de ser selecionada. 5 A prática no mercado … • Amostragem por cotas • Sudman (1966): ▫ A amostra é dividida em grupos (estratos) segundo variáveis que sejam relacionadas com: a(s) variável(is) de interesse do estudo; a disponilidade para entrevista/não-resposta ▫ Um número de entrevistas é estabelecido para cada um dos grupos (cotas), normalmente baseado em dados da população ▫ A seleção dos elementos da população na amostra dentro de cada cota é deixada para o entrevistador 6 Inferência para população • Inferência baseada no desenho/planejamento (designbased inference) • Inferência baseada em modelos (model-based inference) • Medidas de variabilidade amostral • Amostragem probabilística: ▫ Inferência baseada no desenho ou em modelos ▫ Mensurabilidade (Kish, 1965) • Amostragem por cotas: ▫ Inferência baseada em modelos ▫ Uso de modelos para cálculo de variabilidade amostral 7 O que é feito no mercado? • Cálculo da variabilidade amostral assumindo (ingenuamente) uma amostra aleatória simples • Equivalente ao uso implícito do seguinte modelo ▫ Y1, Y2, …, Yn são variáveis aleatórias independentes e tais que E Yi , i 1,, n Var (Yi ) 2 , i 1,, n • Modelo pode ser inadequado • Não reflete características usuais de amostras complexas, como estratificação e uso de conglomerados 8 Alternativas • Särndal, Swensson and Wretman (1992): ▫ Amostra por cotas com H cotas; ▫ Y1, …, Ynh são variáveis aleatórias independentes tais que: E Yih h Var (Yih ) h2 em que i = 1, …, nh; h = 1, …, H ▫ Não considera o efeito do uso de conglomerados ▫ Não corrige possíveis vieses de seleção 9 Considerações ▫ Falta de conhecimento estatístico dos clientes e da população em geral ▫ Tornar claro para o cliente as suposições necessárias ▫ Maior aproximação entre o meio acadêmico e o mercado ▫ Necessidade de (mais) estudos dos métodos utilizados no mercado atualmente (amostras por cotas), principalmente no contexto brasileiro, como o feito por Sudman (1966) ▫ Busca de outras novas alternativas 10 Curiosidades de Amostragem 11 Tamanho não é documento! • The Literary Digest • Começou a fazer pesquisas eleitorais em 1916 e “previu” corretamente os resultados até … • Eleições presidenciais americanas de 1936: Roosevelt x Landon • Amostra com 2.3 milhões de respondentes! • Resultado da pesquisa: 57% Landon x 43% Roosevelt • Resultado da eleição: 37% Landon x 61% Roosevelt • George Gallup com uma amostra muito menor “previu” a vitória de Roosevelt e ganhou reconhecimento nacional • A revista foi descreditada e saiu de publicação 12 As eleições presidenciais americanas de 1948 • Truman x Dewey • George Gallup’s American Institute of Public Opinion e demais institutos de pesquisa comercias/privados americanos • Uso de amostras por cotas • TODAS as pesquisas apontavam a vitória de Dewey 13 E o resultado foi … 14 As eleições presidenciais americanas de 1948 • Resultado da eleição: Truman 50% x Dewey 45% • Social Science Research Council (SSRC) conduziu uma investigação das possíveis causas dos erros (Mosteller et al, 1949): ▫ Amostragem por cotas ▫ Comportamento dos indecisos e mudanças de voto no final da campanha • Amostragem por cotas foi descreditada e passou-se a utilizar amostras probabilísticas (George Gallup) 15 Considerações finais “Samples are not given. They must be selected, assigned or captured.” Leslie Kish (Frankel and King, 1996) “All models are wrong, some models are useful.” George E. P. Box 16 Dúvidas, críticas ou sugestões? Obrigado! 17 Bibliografia • Bolfarine H. e Bussab W. O.(2005). Elementos de Amostragem. Ed. Blücher, São Paulo. • Cochran, W. (1977). Sampling Techniques. 3ª ed. Wiley, New York. • Kish, L. (1965). Survey Sampling. Wiley, New York. • Hansen, M. H., Hurwitz, W. N. and Madow W. G. (1953). Sample Survey Methods and Theory, Vols. I e II. Wiley, New York. • Särndal, C.-E., Swensson, B. and Wretman, J. (1992). Model Assisted Survey Sampling. Springer-Verlag, New York. 18 Bibliografia (cont.) • Sudman, S. (1966). Probability sampling with quotas. Journal of the American Statistical Association, 61, No. 315, pp. 749-771. • Frankel, M. and King, B. (1996). A conversation with Leslie Kish. Statistical Science, 11, No. 1, pp. 65-87. • Mosteller, F., Hyman, H., McCarthy, P. J., Marks, E. S., Truman, D. B., Doob, L. W., MacRae, D., Stephan, F. F., Stouffer, S. A., Wilks, S. S. (1949). The Pre-Election Polls of 1948: Report to the Committee on Analysis of PreElection Polls and Forecasts. Social Science Research Council, New York.