1
Amostragem:
A teoria dos livros x A prática no mercado
Raphael Nishimura
IME-USP
9 de outubro de 2008
2
A teoria dos livros x A prática no mercado
• A teoria dos livros:
▫ Livros: Bolfarine e Bussab (2005), Cochran (1977), Kish
(1965), Hansen, Hurwitz and Madow (1953), Särndal,
Swensson and Wretman (1992), entre outros;
▫ Artigos científicos;
▫ Universidade/Ambiente acadêmico.
• A prática no mercado:
▫ Institutos/Empresas de pesquisa (survey)
comerciais/privadas
▫ NÃO incluímos institutos governamentais, como IBGE ou
SEADE.
3
A teoria dos livros x A prática no mercado
• A teoria dos livros:
▫ Amostragem probabilística
• A prática no mercado:
▫ Amostragem não-probabilística
 Amostragem por cotas
(2)
4
A teoria dos livros …
• Amostragem probabilística
• Särndal, Swensson and Wretman (1992):
▫ Pode-se definir um conjunto de amostras S = {s1, s2, …, sM},
que são possíveis de serem obtidas com o procedimento
amostral;
▫ Uma probabilidade de seleção conhecida p(s) é associada
para cada possível amostra s;
▫ O procedimento atribui a cada elemento da população uma
probabilidade diferente de zero de ser selecionada;
▫ Uma amostra é selecionada através de um mecanismo
aleatório em que cada possível amostra s recebe
exatamente uma probabilidade p(s) de ser selecionada.
5
A prática no mercado …
• Amostragem por cotas
• Sudman (1966):
▫ A amostra é dividida em grupos (estratos) segundo variáveis
que sejam relacionadas com:
 a(s) variável(is) de interesse do estudo;
 a disponilidade para entrevista/não-resposta
▫ Um número de entrevistas é estabelecido para cada um dos
grupos (cotas), normalmente baseado em dados da
população
▫ A seleção dos elementos da população na amostra dentro de
cada cota é deixada para o entrevistador
6
Inferência para população
• Inferência baseada no desenho/planejamento (designbased inference)
• Inferência baseada em modelos (model-based inference)
• Medidas de variabilidade amostral
• Amostragem probabilística:
▫ Inferência baseada no desenho ou em modelos
▫ Mensurabilidade (Kish, 1965)
• Amostragem por cotas:
▫ Inferência baseada em modelos
▫ Uso de modelos para cálculo de variabilidade amostral
7
O que é feito no mercado?
• Cálculo da variabilidade amostral assumindo
(ingenuamente) uma amostra aleatória simples
• Equivalente ao uso implícito do seguinte modelo
▫ Y1, Y2, …, Yn são variáveis aleatórias independentes e tais
que
E Yi    , i  1,, n
Var (Yi )   2 , i  1,, n
• Modelo pode ser inadequado
• Não reflete características usuais de amostras complexas,
como estratificação e uso de conglomerados
8
Alternativas
• Särndal, Swensson and Wretman (1992):
▫ Amostra por cotas com H cotas;
▫ Y1, …, Ynh são variáveis aleatórias independentes tais que:
E Yih    h
Var (Yih )   h2
em que i = 1, …, nh; h = 1, …, H
▫ Não considera o efeito do uso de conglomerados
▫ Não corrige possíveis vieses de seleção
9
Considerações
▫ Falta de conhecimento estatístico dos clientes e da
população em geral
▫ Tornar claro para o cliente as suposições necessárias
▫ Maior aproximação entre o meio acadêmico e o
mercado
▫ Necessidade de (mais) estudos dos métodos utilizados
no mercado atualmente (amostras por cotas),
principalmente no contexto brasileiro, como o feito por
Sudman (1966)
▫ Busca de outras novas alternativas
10
Curiosidades de Amostragem
11
Tamanho não é documento!
• The Literary Digest
• Começou a fazer pesquisas eleitorais em 1916 e “previu”
corretamente os resultados até …
• Eleições presidenciais americanas de 1936: Roosevelt x
Landon
• Amostra com 2.3 milhões de respondentes!
• Resultado da pesquisa: 57% Landon x 43% Roosevelt
• Resultado da eleição: 37% Landon x 61% Roosevelt
• George Gallup com uma amostra muito menor “previu” a
vitória de Roosevelt e ganhou reconhecimento nacional
• A revista foi descreditada e saiu de publicação
12
As eleições presidenciais americanas de 1948
• Truman x Dewey
• George Gallup’s American Institute of Public Opinion e
demais institutos de pesquisa comercias/privados
americanos
• Uso de amostras por cotas
• TODAS as pesquisas apontavam a vitória de Dewey
13
E o resultado foi …
14
As eleições presidenciais americanas de 1948
• Resultado da eleição: Truman 50% x Dewey 45%
• Social Science Research Council (SSRC) conduziu uma
investigação das possíveis causas dos erros (Mosteller et
al, 1949):
▫ Amostragem por cotas
▫ Comportamento dos indecisos e mudanças de voto no final
da campanha
• Amostragem por cotas foi descreditada e passou-se a
utilizar amostras probabilísticas (George Gallup)
15
Considerações finais
“Samples are not given.
They must be selected,
assigned or captured.”
Leslie Kish
(Frankel and King, 1996)
“All models are wrong,
some models are useful.”
George E. P. Box
16
Dúvidas, críticas ou sugestões?
Obrigado!
17
Bibliografia
• Bolfarine H. e Bussab W. O.(2005). Elementos de
Amostragem. Ed. Blücher, São Paulo.
• Cochran, W. (1977). Sampling Techniques. 3ª ed. Wiley,
New York.
• Kish, L. (1965). Survey Sampling. Wiley, New York.
• Hansen, M. H., Hurwitz, W. N. and Madow W. G. (1953).
Sample Survey Methods and Theory, Vols. I e II. Wiley,
New York.
• Särndal, C.-E., Swensson, B. and Wretman, J. (1992).
Model Assisted Survey Sampling. Springer-Verlag, New
York.
18
Bibliografia (cont.)
• Sudman, S. (1966). Probability sampling with quotas.
Journal of the American Statistical Association, 61, No.
315, pp. 749-771.
• Frankel, M. and King, B. (1996). A conversation with
Leslie Kish. Statistical Science, 11, No. 1, pp. 65-87.
• Mosteller, F., Hyman, H., McCarthy, P. J., Marks, E. S.,
Truman, D. B., Doob, L. W., MacRae, D., Stephan, F. F.,
Stouffer, S. A., Wilks, S. S. (1949). The Pre-Election Polls
of 1948: Report to the Committee on Analysis of PreElection Polls and Forecasts. Social Science Research
Council, New York.