Distribuições amostrais Henrique Dantas Neder I Uma importante questão da estatística refere-se a forma como os dados são selecionados de uma população. De um ponto de vista mais geral e teórico assumiremos que os dados são frequentemente selecionados usando um método de amostragem denominado amostragem aleatória simples. Este método de seleção considera que todos os elementos da população têm a mesma probabilidade de serem selecionados. Para simplificar suponhamos que a amostragem seja realizada com reposição. Desta forma podemos selecionar um elemento Xk da população na primeira extração dos n elementos da amostra e isto não impede que o mesmo elemento seja selecionado nas n − 1 extrações posteriores. Desta forma qualquer elemento da população pode ser selecionado uma ou mais vezes na amostra de n elementos. I Se a amostragem for realizada com reposição podemos dizer que existe independência estatística entre a n extrações, ou seja, o fato de ter sido selecionado o elemento Xk na p − ésima extração não influencia a probabilidade de extrair o elemento Xl na r-ésima extração, r > p. Na realidade temos um número imenso de amostras distintas de tamanho n que podemos extrair de uma população de tamanho N. É mais fácil contabilizar este número quando realizamos uma amostragem sem reposição: o número de amostras distintas de tamanho n que podem ser selecionadas de uma população ! N N! de tamanho N é igual a = n!(N−n)! . Para termos uma n ideia do quanto este número pode ser grande, uma seleção de uma amostra aleatória sem reposição de tamanho n = 30 selecionada de! uma população de tamanho N = 100 pode 100 100! gerar = 30!(100−30)! = 2, 937 × 1025 amostras 30 distintas. I Não precisamos ir tão longe: uma amostra aleatória sem reposição de tamanho n = 10 selecionada de uma população de tamanho N = 30 pode gerar ! 30 30! = 10!(30−10)! = 30045015 amostras distintas. Para 10 exemplificar, fizemos este último cálculo através do comando Stata: disp exp(lnfactorial(30))/(exp(lnfactorial(10))*exp(lnfactorial(30-10))) I Vamos supor que tenhamos uma população de tamanho relativamente grande (N) e que tenha um parâmetro fixo, por exemplo, a média populacional que designaremos por µX . Vamos selecionar aleatoriamente todas as amostras de mesmo tamanho n desta população e para cada uma destas amostras calcular a média da amostra X . Depois de selecionar todas as amostras iremos construir um histograma para a variável X . I Exemplificaremos esta operação através da seguinte rotina Stata: * ROTINA PARA A CONSTRUÇÃO DA DISTRIBUIÇÃO AMOSTRAL DAS MÉDIAS AMOSTRAIS * GERA UMA POPULAÇÃO COM 10000 OBSERVAÇÕES E COM VARIÁVEL x * TENDO DISTRIBUIÇÃO NORMAL COM MÉDIA 70 E DESVIO PADRÃO 30 cd "D:\ecn26\" clear set obs 10000 gen X = rnormal(70, 30) save pop, replace * DEFINE ROTINA DE AMOSTRAGEM capture program drop amostra program define amostra use pop, clear sample 100, count summ X end * SIMULA A ROTINA DE AMOSTRAGEM simulate xmed = r(mean), reps(1000) nodots: amostra histogram xmed erase "D:\ecn26\pop.dta" A execução desta rotina gera o seguinte gráfico que corresponde a distribuição amostral das médias amostrais: .15 .1 Density .05 0 60 65 70 75 80 85 r(mean) I A distribuição amostral das médias amostrais é o histograma de todas as médias amostrais calculadas apartir de cada uma das 1000 amostras de tamanho n = 100 selecionada da população de tamanho N = 10000. Repare que inicialmente criamos uma população com uma variável aleatória normal com média 70 e desvio padrão 30 (dez mil observações). Observe também que a média das médias amostrais (a parte central da distribuição) está próxima da média populacional 70. Podemos expressar esta propriedade como E (X ) = E (X ) = µX : a esperança matemática da média amostral é igual a média da população. I Aproveitamos para enunciar o Teorema do Limite Central. Seja X uma variável aleatória contínua com função densidade qualquer, não necessariamente normal e que tenha valores para todos os elementos de uma população finita ou infinita. Seja P X uma variável aleatória que represente a média n Xi ( i=1 ) dos elementos de todas as amostras de tamanho n n selecionadas da população e S seja uma amostra aleatória que P represente a soma ( ni=1 Xi ) dos elementos destas amostras. As distribuições amostrais de X e de S serão assintoticamente normais,ou seja, estas distribuições tenderão a ser normais quando n → ∞. Na prática (em termos aproximativos) estas distribuições já serão suficientemente próximas da distribuição normal quando n ≥ 30. I Este teorema tem diversas implicações e facilita bastante as coisas porque através dele poderemos nos convencer que para amostras grandes a distribuição da média e da soma dos elementos da amostra serão normais mesmo que X não seja normal na população. I X terá distribuição normal com média µX = µX e variância σ2 σX2 = nX . A média das médias amostrais será igual a média da população e a variância das médias amostrais será igual a variância da população dividida por n. I Vamos dar um pequeno exemplo para mostrar estas duas últimas propriedades. Suponhamos uma população pequena de apenas N = 5 elementos. Os elementos desta população serão: X1 = 1, X2 = 3, X3 = 5, X4 = 7Pe X5 = 9. A média Xi 1+3+5+7+9 = 5. µX desta população 5 Pserá igua a µX = N = (Xi −µX )2 = N (1−5)2 +(3−5)2 +(5−5)2 +(7−5)2 +(9−5)2 5 A variância σX2 = I = 16+4+0+4+16 5 = 8. A média das médias amostrais e a variância das médias amosrtais serão iguais a: PN 0 µX̄ = σ 2¯ = σX2 n i=1 N0 X̄i = 8 2 = 5 = µX =4 Se a amostragem for realizada sem reposição, para o cálculo da variância de X temos que utilizar uma correção através de um fator de correção de população finita que é dado por: N-n FCPF = N−1 I Por exemplo, no exemplo anterior, para calcular a variância de X fazemos: σ2 8 5−2 2 σX = nX × N−n N−1 = 2 × 5−1 = 3 Exemplos 1. Certas válvulas fabricadas por uma companhia têm uma vida média de 800 horas e desvio padrão de 60 horas. Determinar a probabilidade de uma amostra aleatória de 16 válvulas, retiradas do grupo, ter a vida média: (a) entre 790 e 810 horas; (b) inferior a 785 horas. Para realizar esses cálculos, o que é necessário supor? Explique a razão de sua afirmativa. Solução: 10 < z < 810−800 ) = P(− 15 < a) P(790 < X < 810) = P( 790−800 60 √60 √ I 16 16 10 10 z < 10 15 ) = φ(− 15 ) − φ( 15 ) = 0, 4950 No Stata este último cálculo pode ser realizado por: disp normal(10/15) - normal(-10/15) b) P(X < 785) = P(z < 785−800 √60 16 15 ) = P(z < − 15 4 ) = φ(− 4 ) = φ(−3, 75) = 0, 00008842 Para realizar estes cálculos é necessário supor que X tem distribuição normal, pois do contrário teríamos que ter uma amostra grande para que vigorasse o Teorema do Limite Central. 2. Os pesos de fardos recebidos por um depósito têm média de 150 kg e um desvio padrão de 25 kg. Qual é a probabilidade de 25 fardos, recebidos ao acaso e carregados em um elevador, não exceder o limite específico desse último que é de 4100 kg? Neste caso, para a solução do problema, é necessário especificar a forma da distribuição estatística (função densidade de probabilidade) dos pesos dos fardos na população? Solução: P S = 60 i=1 Xi Portanto S ∼ N(µS = 25 × 150 = 3750, σS2 = 25 × 252 = 15625) √ ) = P(z < 2, 8) = 0, 99744487 P(S < 4100) = P(z < 4100−3750 15625 Neste caso, como n < 30, temos que especificar que a distribuição de X é normal, pois do contrário (como não podemos aplicar o Teorema do Limite Central) não poderíamos utilizar a distribuição normal padrão. 3. As idades dos aviões comerciais dos EUA têm uma média de 13,0 anos e um desvio-padrão de 7,9 anos (com base em dados do Departamento de Aviação Civil dos EUA). Se a Administração Federal da Aviação seleciona aleatoriamente 35 aviões comerciais para um teste especial de resistência, determine a probabilidade de a idade média desse grupo de aviões ser superior a 15,0 anos. Solução: P(X > 15) = P(z > 15−13 7,9 ) = P(z > 1.4977417) = √ 35 1 − φ(1.4977417) = .06710019 Este último resultado pode ser obtido através do comando Stata disp 1-normal(1.4977417) 4. 0 gerador de números aleatórios de um computador típico produz números com uma distribuição uniforme entre 0 e 1, com média de 0,500 e desvio-padrão de 0,289. Gerados 45 números aleatórios, determine a probabilidade de sua média ser inferior a 0,565. Solução: P(X < 0, 565) = P(z < 0,585−0,500 ) = P(z < 1, 9730012) = 0,289 √ 45 0, 97575228 Comando Stata: disp normal((0.585-0.500)/(0.289/sqrt(45))) 5. As durações da gravidez têm distribuição normal com média de 268 dias e desvio-padrão de 15 dias. a. Selecionada aleatoriamente uma mulher grávida, determine a probabilidade de a duração de sua gravidez ser inferior a 260 dias. b. Se 25 mulheres escolhidas aleatoriamente são submetidas a uma dieta especial a partir do dia em que engravidam, determine a probabilidade de os prazos de duração de sua gravidez terem média inferior a 260 dias (admitindo que a dieta não produza efeito). c. Se as 25 mulheres têm realmente média inferior a 260 dias, há razão de preocupação para os supervisores médicos? Solução: = P(z < −0, 53333333) = a. P(X < 260) = P(z < 260−268 15 0, 29690143 b. P(X < 260 = P(z < 260−268 ) = P(−2, 6666667) = 0, 00383038 √15 25 c. Uma distribuição normal com média µX = 268 e desvio padrão σX = 15 tem uma probabilidade de gerar uma média amostral X (com n = 25) menor que 260 dias que é muito pequena (0, 00383038). Então há razões para suspeitar que esta amostra seja proveniente de uma distribuição normal com média µX < 268. 6. A Chemco Company fabrica pneus de automóveis cuja vida útil (em distância percorrida) tem distribuição normal com média 35.600 milhas e desvio-padrão de 4275 milhas. a. Escolhido aleatoriamente um pneu, qual a probabilidade de durar 30.000 milhas? b. Escolhidos aleatoriamente 40 pneus. qual a probabilidade de suas vidas úteis terem média superior a 35.000 milhas? c. Se o fabricante deseja garantir os pneus de modo que 3% deles precisem ser substituídos antes do número de milhas, por quantas milhas os pneus devem ser garantidos? Solução: X ∼ N(µX = 35600, σX = 4275) a. P(X > 30000) = P(z > 30000−35600 ) = P(z > −1, 3099415) = 4275 φ(−1, 3099415) = 0, 09510781 √ ) b.X ∼ N(µX = 35600, σX = 4275 40 P(X > 35000) = P(z > 35000−35600 4275 √ 40 1 − 0, 18736267 = .81263733 ) = P(z > −0, 88765689) = X −35600 c. P(X < Xg ) = 0, 03 Portanto P(z < g 4275 ) = 0, 03 φ(z 0 ) = 0, 03 Portanto: z 0 = φ−1 (0, 03) No Stata executamos o comando: disp invnormal(0.03) e o resultado que retorna é -1.8807936 No Excel colocamos em qualquer célula a função = INV .NORMP(0.03) X −35600 Portanto g 4275 = −1.8807936 ∴ Xg = −1.8807936 × 4275 + 35600 = 27559.607 7. Sendo a variável amostrada uma Normal de media µ = 3 e variância 25, obtenha o valor de P(|X − µ| ≤ 2) nos casos de tamanho da amostra igual a 2, 20 e 60. Comente os resultados obtidos. Solução: Para n = 2 se X ≥ µ então 2−3 √ ) = P(z ≤ P(|X − µ| ≤ 2) = P(X − µ ≤ 2) = P(z ≤ 5/ 2 −.28284271) = φ(−.28284271) = .38864871 Se X > µ então P(|X − µ| ≤ 2) = P(µ − X ≤ 2) = P(X − µ ≥ −2) = P(z ≥ −2−3 √ ) = P(z ≥ −1.4142136) = 1 − φ(−1.4142136) = .9213504 5/ 2 O mesmo procedimento pode ser adotado para n = 20 e n = 60 8. Se X é a média de uma amostra extraída de uma distribuição normal com µX = 10, σX2 = 25 e n = 9, então P(X > 15) é: (a) 0,001350 (c) 0,98778 (b) 0,998650 (d) 0,15866 Solução: √ ) = P(z > 3) = 1 − φ(3) = .0013499. P(X > 15) = P(z > 15−10 5/ 9 Portanto resposta (a). Outros Exercícios gerais 1) Seja X uma variável aleatória com distribuição Normal de valor médio 10 e variância 4, representando o comprimento de barras de ferro. Suponha que uma barra é considerada não defeituosa se {8 ≤ X ≤ 12} e defeituosa em caso contrário. a) Qual a probabilidade de que uma barra, escolhida ao acaso, do fabrico diário, seja não defeituosa? b) Qual a probabilidade de que em dez barras escolhidas aleatoriamente do fabrico diário, pelo menos duas sejam defeituosas? Solução: 12−10 a) P(8 ≤ X ≤ 12) = P( 8−10 2 <z < 2 ) = P(−1 < z < 1) = φ(1) − φ(−1) = .84134475 − .15865525 = .68268949 b)P(defeituosa) = 1 − .68268949 = .31731051 Y ∼ binomial(n = 10, p = .31731051) P(Y ≥ 2) =!1 − P(Y < 2) = 1 − {P(Y = 0) + P(Y = 1)} ! = 10 10 1−{ × .317310510 × (1 − .31731051)10−0 + × 0 1 .317310511 × (1 − .31731051)10−1 } = .87579964 Este último de cálculo foi feito através do comando Stata: disp 1 - (exp(lnfactorial(10))/(exp(lnfactorial(100))*exp(lnfactorial(0)))*.31731051^(0)*(1-.31731051)^(100)+exp(lnfactorial(10))/(exp(lnfactorial(101))*exp(lnfactorial(1)))*.31731051^(1)*(1-.31731051)^(10-1)) 2) Joga-se uma moeda 1000 vezes ao ar. Determine a probabilidade de o número de caras não diferir de 500 por mais de 50. Solução: Podemos considerar o número de caras como uma variável aleatória binomial com parâmetros n = 1000 e p = 0,5. Mas também podemos tratar este experimento como uma seleção aleatória de uma amostra de tamanho n = 1000 a partir de uma população infinita com distribuição Bernoulli (com parâmetro p = 0, 5). Desta forma podemos aplicar o Teorema do Limite central para a variável aleatória S = soma do número de caras na amostra de tamanho n = 1000. S terá distribuição aproximadamente normal com média µS = n × p = 1000 × 0, 5 = 500 e variância σS2 = n × p × (1 − p) = 1000 × 0, 5 × (1 − 0, 5) = 250 √ √ < S < 550−500 )= Portanto P(450 < S < 550) = P( 450−500 250 250 √ √ φ( 550−500 ) − φ( 450−500 ) = .9984346 250 250 Comando Stata: disp normal((550-500)/sqrt(250)) normal((450-500)/sqrt(250)) Outra solução parta este problema é a de não utilizar o Teorema do Limite Central e basear-se diretamente na distribuição binomial. Esta é a solução exata do problema e a aplicação anterior é uma aproximação, bastante razoável pois n = 1000 é muito grande e a distrbuição de S é bastante próxima da normal. Para resolver pela binomial teríamos que calcular: X ∼ b(n = 1000, p = 0, 5) e ! 1000 i 1000−i P(450 ≤ X ≤ 550) = i=450 × 0, 5 × (1 − 0, 5) i Não é possível realizar este cálculo tanto no Stata como no Excel, porque ambos não conseguem calcular fatorial de 1000. Se n for igual a 100 e tivéssemos que calcular P(45 < S < 55) usando o Teorema do Limite Central teríamos: 55−50 45−50 < S < √100×0.5×0.5 )= P(45 < S < 55) = P( √100×0.5×0.5 P550 √ √ ) − φ( 45−50 ) = .68268949 φ( 55−50 25 25 Resolvendo pela binomial (cálculo !mais exato) teremos: P 100 i P(45 ≤ X ≤ 55) = 55 × 0, 5 × (1 − 0, 5)100−i i=45 i Usando a seguinte rotina Stata: * ROTINA PARA CALCULO DE UM SOMATORIO DE PROBABILIDADES BINOMIAIS local soma = 0 forvalues i=45(1)55 { scalar binomial = exp(lnfactorial(100))/(exp(lnfactorial(‘i’))*exp(lnfactorial(100-‘i’))) scalar probbin = binomial*0.5^‘i’*(1-0.5)^(100-‘i’) local soma = ‘soma’ + probbin } disp "valor do somatorio = ",‘soma’ Esta rotina retorna o valor .72874698 um pouco superior ao valor obtido através da aplicação do Teorema do Limite Central 3) The amount of money spent on food per week by an American family is known to have mean $92 and standard deviation $9. Suppose a random sample of 81 family is taken, and their sample mean food expenditure is calculated. a) Completely describe the sampling distribution of the sample mean. b) Is it possible that the sample mean exceeds $100? (Motivate your answer.) c) Is it possible that the sample mean equals the population mean $92? (Motivate your answer). Solução: 4) A publisher has discovered that the number of words contained in a new manuscript are normally distributed, with a mean of 20,000 words in excess of that specified in the author’s contract, and a standard deviation of 10,000 words. If the publisher wants to be almost certain (say with probability 0.95) that the manuscript will have less than 100,000 words, what number μ of words should the publisher specifies in the contract? Solução: 5) Suppose a public opinion poll is split 65% against and 35% for increasing taxes to help balance the federal budget. If a random sample of 500 people are interviewed, what is the probability that the sample proportion favoring a tax increase is more than 30%? Solução: 6) A recent nationwide survey conducted by the American Cancer Society found that the percentage of women who smoke has increased to 30%. That seems a little low for your state, so you sample 500 women from your state and find that 180 of them smoke. a) Suppose the claim of the American Cancer Society is true. What is the probability that the sample proportion exceeds 0.36 ? b) Based on your sample results, what can you conclude about the American Cancer Society’s claim that p = 0.3? Solução: 7) For each of the following sentences, choose whether it is true or false: 1. (T or F) The spread of the distribution of the sample mean is considerably less than the spread of the population. 2. ( T or F ) The value of the sample mean is always the population mean μ, in any sample. 3. ( T or F ) The sampling distribution of the sample mean is exactly normal, regardless of the sample size, when sampling from a normal population. 4. ( T or F ) The sampling distribution of the sample mean is exactly normal, when the sample size is large. 5. ( T or F ) The sampling distribution of the sample mean is approximately normal, when the sample size is large. 6. ( T or F ) We can compute the exact standard error of the sample mean only when the standard deviation of the population is known. 7. ( T or F ) We can compute the exact standard error of the sample mean only when the sample size is large. 8. ( T or F ) When the sample size is small, we cannot compute the exact standard error of the sample mean, even if the standard deviation of the population is known. 9. ( T or F ) The Central limit theorem states, among other things, that the value of the sample mean X is equal to the population mean μ. 10. ( T or F ) The Central limit theorem states, among other things, that the value of the sample mean X is equal to the population mean μ when the sample size is large. 11. ( T or F ) The Central limit theorem states, among other things, that the expected value of the sample mean X is equal to the population mean μ when the sample size is large. 12. ( T or F ) The effect of increasing the sample size is to reduce the standard deviation of the sample mean. 13. ( T or F ) The difference between the sample mean x and the estimate X of the population mean μ is that x is a value and X is a random variable. 14. ( T or F ) The sampling distribution of the sample mean X is the distribution obtained from repeatedly extracting samples of size n from a population. 15. ( T or F ) The expected value of the sample mean changes in different samples.