Distribuições amostrais
Henrique Dantas Neder
I
Uma importante questão da estatística refere-se a forma como
os dados são selecionados de uma população. De um ponto
de vista mais geral e teórico assumiremos que os dados são
frequentemente selecionados usando um método de
amostragem denominado amostragem aleatória simples.
Este método de seleção considera que todos os elementos da
população têm a mesma probabilidade de serem selecionados.
Para simplificar suponhamos que a amostragem seja realizada
com reposição. Desta forma podemos selecionar um elemento
Xk da população na primeira extração dos n elementos da
amostra e isto não impede que o mesmo elemento seja
selecionado nas n − 1 extrações posteriores. Desta forma
qualquer elemento da população pode ser selecionado uma ou
mais vezes na amostra de n elementos.
I
Se a amostragem for realizada com reposição podemos dizer
que existe independência estatística entre a n extrações, ou
seja, o fato de ter sido selecionado o elemento Xk na
p − ésima extração não influencia a probabilidade de extrair o
elemento Xl na r-ésima extração, r > p. Na realidade temos
um número imenso de amostras distintas de tamanho n que
podemos extrair de uma população de tamanho N. É mais
fácil contabilizar este número quando realizamos uma
amostragem sem reposição: o número de amostras distintas
de tamanho n que podem ser selecionadas
de uma população
!
N
N!
de tamanho N é igual a
= n!(N−n)!
. Para termos uma
n
ideia do quanto este número pode ser grande, uma seleção de
uma amostra aleatória sem reposição de tamanho n = 30
selecionada de! uma população de tamanho N = 100 pode
100
100!
gerar
= 30!(100−30)!
= 2, 937 × 1025 amostras
30
distintas.
I
Não precisamos ir tão longe: uma amostra aleatória sem
reposição de tamanho n = 10 selecionada de uma população
de tamanho
N = 30 pode gerar
!
30
30!
= 10!(30−10)!
= 30045015 amostras distintas. Para
10
exemplificar, fizemos este último cálculo através do comando
Stata:
disp
exp(lnfactorial(30))/(exp(lnfactorial(10))*exp(lnfactorial(30-10)))
I Vamos supor que tenhamos uma população de tamanho
relativamente grande (N) e que tenha um parâmetro fixo, por
exemplo, a média populacional que designaremos por µX .
Vamos selecionar aleatoriamente todas as amostras de mesmo
tamanho n desta população e para cada uma destas amostras
calcular a média da amostra X . Depois de selecionar todas as
amostras iremos construir um histograma para a variável X .
I Exemplificaremos esta operação através da seguinte rotina
Stata:
* ROTINA PARA A CONSTRUÇÃO DA DISTRIBUIÇÃO
AMOSTRAL DAS MÉDIAS AMOSTRAIS
* GERA UMA POPULAÇÃO COM 10000 OBSERVAÇÕES E
COM VARIÁVEL x
* TENDO DISTRIBUIÇÃO NORMAL COM MÉDIA 70 E DESVIO
PADRÃO 30
cd "D:\ecn26\"
clear
set obs 10000
gen X = rnormal(70, 30)
save pop, replace
* DEFINE ROTINA DE AMOSTRAGEM
capture program drop amostra
program define amostra
use pop, clear
sample 100, count
summ X
end
* SIMULA A ROTINA DE AMOSTRAGEM
simulate xmed = r(mean), reps(1000) nodots: amostra
histogram xmed
erase "D:\ecn26\pop.dta"
A execução desta rotina gera o seguinte gráfico que corresponde a
distribuição amostral das médias amostrais:
.15
.1
Density
.05
0
60
65
70
75
80
85
r(mean)
I
A distribuição amostral das médias amostrais é o histograma
de todas as médias amostrais calculadas apartir de cada uma
das 1000 amostras de tamanho n = 100 selecionada da
população de tamanho N = 10000. Repare que inicialmente
criamos uma população com uma variável aleatória normal
com média 70 e desvio padrão 30 (dez mil observações).
Observe também que a média das médias amostrais (a parte
central da distribuição) está próxima da média populacional
70. Podemos expressar esta propriedade como
E (X ) = E (X ) = µX : a esperança matemática da média
amostral é igual a média da população.
I
Aproveitamos para enunciar o Teorema do Limite Central.
Seja X uma variável aleatória contínua com função densidade
qualquer, não necessariamente normal e que tenha valores
para todos os elementos de uma população finita ou infinita.
Seja
P X uma variável aleatória que represente a média
n
Xi
( i=1
) dos elementos de todas as amostras de tamanho n
n
selecionadas da população e S seja uma amostra aleatória que
P
represente a soma ( ni=1 Xi ) dos elementos destas amostras.
As distribuições amostrais de X e de S serão assintoticamente
normais,ou seja, estas distribuições tenderão a ser normais
quando n → ∞. Na prática (em termos aproximativos) estas
distribuições já serão suficientemente próximas da distribuição
normal quando n ≥ 30.
I
Este teorema tem diversas implicações e facilita bastante as
coisas porque através dele poderemos nos convencer que para
amostras grandes a distribuição da média e da soma dos
elementos da amostra serão normais mesmo que X não seja
normal na população.
I
X terá distribuição normal com média µX = µX e variância
σ2
σX2 = nX . A média das médias amostrais será igual a média
da população e a variância das médias amostrais será igual a
variância da população dividida por n.
I
Vamos dar um pequeno exemplo para mostrar estas duas
últimas propriedades. Suponhamos uma população pequena
de apenas N = 5 elementos. Os elementos desta população
serão: X1 = 1, X2 = 3, X3 = 5, X4 = 7Pe X5 = 9. A média
Xi
1+3+5+7+9
= 5.
µX desta população
5
Pserá igua a µX = N =
(Xi −µX )2
=
N
(1−5)2 +(3−5)2 +(5−5)2 +(7−5)2 +(9−5)2
5
A variância σX2 =
I
=
16+4+0+4+16
5
= 8.
A média das médias amostrais e a variância das médias
amosrtais serão iguais a:
PN 0
µX̄ =
σ 2¯ =
σX2
n
i=1
N0
X̄i
=
8
2
= 5 = µX
=4
Se a amostragem for realizada sem reposição, para o cálculo
da variância de X temos que utilizar uma correção através de
um fator de correção de população finita que é dado por:
N-n
FCPF = N−1
I Por exemplo, no exemplo anterior, para calcular a variância de
X fazemos:
σ2
8
5−2
2
σX = nX × N−n
N−1 = 2 × 5−1 = 3
Exemplos
1. Certas válvulas fabricadas por uma companhia têm uma vida
média de 800 horas e desvio padrão de 60 horas. Determinar a
probabilidade de uma amostra aleatória de 16 válvulas, retiradas
do grupo, ter a vida média: (a) entre 790 e 810 horas; (b) inferior
a 785 horas. Para realizar esses cálculos, o que é necessário supor?
Explique a razão de sua afirmativa.
Solução:
10
< z < 810−800
) = P(− 15
<
a) P(790 < X < 810) = P( 790−800
60
√60
√
I
16
16
10
10
z < 10
15 ) = φ(− 15 ) − φ( 15 ) = 0, 4950
No Stata este último cálculo pode ser realizado por: disp
normal(10/15) - normal(-10/15)
b) P(X < 785) = P(z <
785−800
√60
16
15
) = P(z < − 15
4 ) = φ(− 4 ) =
φ(−3, 75) = 0, 00008842
Para realizar estes cálculos é necessário supor que X tem
distribuição normal, pois do contrário teríamos que ter uma
amostra grande para que vigorasse o Teorema do Limite Central.
2. Os pesos de fardos recebidos por um depósito têm média de 150
kg e um desvio padrão de 25 kg. Qual é a probabilidade de 25
fardos, recebidos ao acaso e carregados em um elevador, não
exceder o limite específico desse último que é de 4100 kg? Neste
caso, para a solução do problema, é necessário especificar a forma
da distribuição estatística (função densidade de probabilidade) dos
pesos dos fardos na população?
Solução:
P
S = 60
i=1 Xi Portanto
S ∼ N(µS = 25 × 150 = 3750, σS2 = 25 × 252 = 15625)
√
) = P(z < 2, 8) = 0, 99744487
P(S < 4100) = P(z < 4100−3750
15625
Neste caso, como n < 30, temos que especificar que a distribuição
de X é normal, pois do contrário (como não podemos aplicar o
Teorema do Limite Central) não poderíamos utilizar a distribuição
normal padrão.
3. As idades dos aviões comerciais dos EUA têm uma média de
13,0 anos e um desvio-padrão de 7,9 anos (com base em dados do
Departamento de Aviação Civil dos EUA). Se a Administração
Federal da Aviação seleciona aleatoriamente 35 aviões comerciais
para um teste especial de resistência, determine a probabilidade de
a idade média desse grupo de aviões ser superior a 15,0 anos.
Solução:
P(X > 15) = P(z > 15−13
7,9 ) = P(z > 1.4977417) =
√
35
1 − φ(1.4977417) = .06710019
Este último resultado pode ser obtido através do comando Stata
disp 1-normal(1.4977417)
4. 0 gerador de números aleatórios de um computador típico
produz números com uma distribuição uniforme entre 0 e 1, com
média de 0,500 e desvio-padrão de 0,289. Gerados 45 números
aleatórios, determine a probabilidade de sua média ser inferior a
0,565.
Solução:
P(X < 0, 565) = P(z < 0,585−0,500
) = P(z < 1, 9730012) =
0,289
√
45
0, 97575228
Comando Stata: disp normal((0.585-0.500)/(0.289/sqrt(45)))
5. As durações da gravidez têm distribuição normal com média de
268 dias e desvio-padrão de 15 dias. a. Selecionada aleatoriamente
uma mulher grávida, determine a probabilidade de a duração de
sua gravidez ser inferior a 260 dias. b. Se 25 mulheres escolhidas
aleatoriamente são submetidas a uma dieta especial a partir do dia
em que engravidam, determine a probabilidade de os prazos de
duração de sua gravidez terem média inferior a 260 dias
(admitindo que a dieta não produza efeito). c. Se as 25 mulheres
têm realmente média inferior a 260 dias, há razão de preocupação
para os supervisores médicos?
Solução:
= P(z < −0, 53333333) =
a. P(X < 260) = P(z < 260−268
15
0, 29690143
b.
P(X < 260 = P(z < 260−268
) = P(−2, 6666667) = 0, 00383038
√15
25
c. Uma distribuição normal com média µX = 268 e desvio padrão
σX = 15 tem uma probabilidade de gerar uma média amostral X
(com n = 25) menor que 260 dias que é muito pequena
(0, 00383038). Então há razões para suspeitar que esta amostra
seja proveniente de uma distribuição normal com média µX < 268.
6. A Chemco Company fabrica pneus de automóveis cuja vida útil
(em distância percorrida) tem distribuição normal com média
35.600 milhas e desvio-padrão de 4275 milhas.
a. Escolhido aleatoriamente um pneu, qual a probabilidade de
durar 30.000 milhas? b. Escolhidos aleatoriamente 40 pneus. qual
a probabilidade de suas vidas úteis terem média superior a 35.000
milhas? c. Se o fabricante deseja garantir os pneus de modo que
3% deles precisem ser substituídos antes do número de milhas, por
quantas milhas os pneus devem ser garantidos?
Solução:
X ∼ N(µX = 35600, σX = 4275)
a. P(X > 30000) = P(z > 30000−35600
) = P(z > −1, 3099415) =
4275
φ(−1, 3099415) = 0, 09510781
√ )
b.X ∼ N(µX = 35600, σX = 4275
40
P(X > 35000) = P(z >
35000−35600
4275
√
40
1 − 0, 18736267 = .81263733
) = P(z > −0, 88765689) =
X −35600
c. P(X < Xg ) = 0, 03 Portanto P(z < g 4275 ) = 0, 03
φ(z 0 ) = 0, 03 Portanto: z 0 = φ−1 (0, 03)
No Stata executamos o comando:
disp invnormal(0.03) e o resultado que retorna é -1.8807936
No Excel colocamos em qualquer célula a função
= INV .NORMP(0.03)
X −35600
Portanto g 4275 = −1.8807936 ∴
Xg = −1.8807936 × 4275 + 35600 = 27559.607
7. Sendo a variável amostrada uma Normal de media µ = 3 e
variância 25, obtenha o valor de P(|X − µ| ≤ 2) nos casos de
tamanho da amostra igual a 2, 20 e 60. Comente os resultados
obtidos.
Solução:
Para n = 2 se X ≥ µ então
2−3
√ ) = P(z ≤
P(|X − µ| ≤ 2) = P(X − µ ≤ 2) = P(z ≤ 5/
2
−.28284271) = φ(−.28284271) = .38864871
Se X > µ então
P(|X − µ| ≤ 2) = P(µ − X ≤ 2) = P(X − µ ≥ −2) = P(z ≥
−2−3
√ ) = P(z ≥ −1.4142136) = 1 − φ(−1.4142136) = .9213504
5/ 2
O mesmo procedimento pode ser adotado para n = 20 e n = 60
8. Se X é a média de uma amostra extraída de uma distribuição
normal com µX = 10, σX2 = 25 e n = 9, então P(X > 15) é:
(a) 0,001350 (c) 0,98778 (b) 0,998650 (d) 0,15866
Solução:
√ ) = P(z > 3) = 1 − φ(3) = .0013499.
P(X > 15) = P(z > 15−10
5/ 9
Portanto resposta (a).
Outros Exercícios gerais
1) Seja X uma variável aleatória com distribuição Normal de valor
médio 10 e variância 4, representando o comprimento de barras de
ferro. Suponha que uma barra é considerada não defeituosa se {8
≤ X ≤ 12} e defeituosa em caso contrário. a) Qual a
probabilidade de que uma barra, escolhida ao acaso, do fabrico
diário, seja não defeituosa? b) Qual a probabilidade de que em dez
barras escolhidas aleatoriamente do fabrico diário, pelo menos duas
sejam defeituosas?
Solução:
12−10
a) P(8 ≤ X ≤ 12) = P( 8−10
2 <z <
2 ) = P(−1 < z < 1) =
φ(1) − φ(−1) = .84134475 − .15865525 = .68268949
b)P(defeituosa) = 1 − .68268949 = .31731051
Y ∼ binomial(n = 10, p = .31731051)
P(Y ≥ 2) =!1 − P(Y < 2) = 1 − {P(Y = 0) + P(Y = 1)} !
=
10
10
1−{
× .317310510 × (1 − .31731051)10−0 +
×
0
1
.317310511 × (1 − .31731051)10−1 }
= .87579964
Este último de cálculo foi feito através do comando Stata:
disp 1 - (exp(lnfactorial(10))/(exp(lnfactorial(100))*exp(lnfactorial(0)))*.31731051^(0)*(1-.31731051)^(100)+exp(lnfactorial(10))/(exp(lnfactorial(101))*exp(lnfactorial(1)))*.31731051^(1)*(1-.31731051)^(10-1))
2) Joga-se uma moeda 1000 vezes ao ar. Determine a
probabilidade de o número de caras não diferir de 500 por mais de
50.
Solução:
Podemos considerar o número de caras como uma variável aleatória
binomial com parâmetros n = 1000 e p = 0,5. Mas também
podemos tratar este experimento como uma seleção aleatória de
uma amostra de tamanho n = 1000 a partir de uma população
infinita com distribuição Bernoulli (com parâmetro p = 0, 5).
Desta forma podemos aplicar o Teorema do Limite central para a
variável aleatória S = soma do número de caras na amostra de
tamanho n = 1000. S terá distribuição aproximadamente normal
com média µS = n × p = 1000 × 0, 5 = 500 e variância
σS2 = n × p × (1 − p) = 1000 × 0, 5 × (1 − 0, 5) = 250
√
√
< S < 550−500
)=
Portanto P(450 < S < 550) = P( 450−500
250
250
√
√
φ( 550−500
) − φ( 450−500
) = .9984346
250
250
Comando Stata: disp normal((550-500)/sqrt(250)) normal((450-500)/sqrt(250))
Outra solução parta este problema é a de não utilizar o Teorema
do Limite Central e basear-se diretamente na distribuição binomial.
Esta é a solução exata do problema e a aplicação anterior é uma
aproximação, bastante razoável pois n = 1000 é muito grande e a
distrbuição de S é bastante próxima da normal. Para resolver pela
binomial teríamos que calcular:
X ∼ b(n = 1000, p = 0, 5) e
!
1000
i
1000−i
P(450 ≤ X ≤ 550) = i=450
× 0, 5 × (1 − 0, 5)
i
Não é possível realizar este cálculo tanto no Stata como no Excel,
porque ambos não conseguem calcular fatorial de 1000.
Se n for igual a 100 e tivéssemos que calcular P(45 < S < 55)
usando o Teorema do Limite Central teríamos:
55−50
45−50
< S < √100×0.5×0.5
)=
P(45 < S < 55) = P( √100×0.5×0.5
P550
√
√
) − φ( 45−50
) = .68268949
φ( 55−50
25
25
Resolvendo pela binomial (cálculo !mais exato) teremos:
P
100
i
P(45 ≤ X ≤ 55) = 55
× 0, 5 × (1 − 0, 5)100−i
i=45
i
Usando a seguinte rotina Stata:
* ROTINA PARA CALCULO DE UM SOMATORIO DE
PROBABILIDADES BINOMIAIS
local soma = 0
forvalues i=45(1)55 {
scalar binomial =
exp(lnfactorial(100))/(exp(lnfactorial(‘i’))*exp(lnfactorial(100-‘i’)))
scalar probbin = binomial*0.5^‘i’*(1-0.5)^(100-‘i’)
local soma = ‘soma’ + probbin
}
disp "valor do somatorio = ",‘soma’
Esta rotina retorna o valor .72874698 um pouco superior ao valor
obtido através da aplicação do Teorema do Limite Central
3) The amount of money spent on food per week by an American
family is known to have mean $92 and standard deviation $9.
Suppose a random sample of 81 family is taken, and their sample
mean food expenditure is calculated. a) Completely describe the
sampling distribution of the sample mean. b) Is it possible that the
sample mean exceeds $100? (Motivate your answer.) c) Is it
possible that the sample mean equals the population mean $92?
(Motivate your answer).
Solução:
4) A publisher has discovered that the number of words contained
in a new manuscript are normally distributed, with a mean of
20,000 words in excess of that specified in the author’s contract,
and a standard deviation of 10,000 words. If the publisher wants to
be almost certain (say with probability 0.95) that the manuscript
will have less than 100,000 words, what number μ of words should
the publisher specifies in the contract?
Solução:
5) Suppose a public opinion poll is split 65% against and 35% for
increasing taxes to help balance the federal budget. If a random
sample of 500 people are interviewed, what is the probability that
the sample proportion favoring a tax increase is more than 30%?
Solução:
6) A recent nationwide survey conducted by the American Cancer
Society found that the percentage of women who smoke has
increased to 30%. That seems a little low for your state, so you
sample 500 women from your state and find that 180 of them
smoke. a) Suppose the claim of the American Cancer Society is
true. What is the probability that the sample proportion exceeds
0.36 ? b) Based on your sample results, what can you conclude
about the American Cancer Society’s claim that p = 0.3?
Solução:
7) For each of the following sentences, choose whether it is true or
false:
1. (T or F) The spread of the distribution of the sample mean is
considerably less than the spread of the population.
2. ( T or F ) The value of the sample mean is always the
population mean μ, in any sample.
3. ( T or F ) The sampling distribution of the sample mean is
exactly normal, regardless of the sample size, when sampling from
a normal population.
4. ( T or F ) The sampling distribution of the sample mean is
exactly normal, when the sample size is large.
5. ( T or F ) The sampling distribution of the sample mean is
approximately normal, when the sample size is large.
6. ( T or F ) We can compute the exact standard error of the
sample mean only when the standard deviation of the population is
known.
7. ( T or F ) We can compute the exact standard error of the
sample mean only when the sample size is large.
8. ( T or F ) When the sample size is small, we cannot compute
the exact standard error of the sample mean, even if the standard
deviation of the population is known.
9. ( T or F ) The Central limit theorem states, among other
things, that the value of the sample mean X is equal to the
population mean μ.
10. ( T or F ) The Central limit theorem states, among other
things, that the value of the sample mean X is equal to the
population mean μ when the sample size is large.
11. ( T or F ) The Central limit theorem states, among other
things, that the expected value of the sample mean X is equal to
the population mean μ when the sample size is large.
12. ( T or F ) The effect of increasing the sample size is to reduce
the standard deviation of the sample mean.
13. ( T or F ) The difference between the sample mean x and the
estimate X of the population mean μ is that x is a value and X is
a random variable.
14. ( T or F ) The sampling distribution of the sample mean X is
the distribution obtained from repeatedly extracting samples of size
n from a population.
15. ( T or F ) The expected value of the sample mean changes in
different samples.
Download

- Henrique Dantas Neder