Estatística II - Administração Prof. Dr. Marcelo Tavares Distribuições de amostragem 1 Na inferência estatística vamos apresentar os argumentos estatísticos para fazer afirmações sobre as características de uma população, com base em informações dadas por amostras. Ex: -Cozinheira verificando se o prato que ela está preparando tem ou não a quantidade de sal adequada; - Um cliente, após experimentar uma uva num supermercado, decide se vai comprar ou não as uvas. 2 Estatística Estatística Descritiva X Estatística Inferencial 100 90 80 20 15 70 10 60 5 50 + + 0 classe 1 S Classes 10 - 20 20 - 30 30 - 40 40 - 50 50 - 60 60 - 70 70 - 80 80 - 90 90 - 100 100 - 110 110 - 120 120 - 130 F.A. 2 4 6 12 10 25 12 19 7 5 3 1 106 F.R. 0,02 0,04 0,06 0,11 0,09 0,24 0,11 0,18 0,07 0,05 0,03 0,01 classe 2 • média • moda • mediana • desvio médio • desvio padrão • assimetria • curtose • coeficiente de variação 3 1 Estatística Estatística Descritiva X Estatística Inferencial intervalos de confiança testes de hipóteses 0,35 0,30 0,25 f ( x;α , β , λ ) 0,20 0 15 0,15 0,10 0,05 0,00 αˆ βˆ λˆ S 4 5 POPULAÇÃO: é o conjunto de todos os elementos ou resultados sob investigação. AMOSTRA: é qualquer subconjunto da população (representatividade). Ex1: Pesquisa para estudar os salários dos 500 funcionários da Companhia MB. Seleciona-se uma amostra de 36 indivíduos e anota-se os seus salários. Va = ? População = ? Amostra = ? 6 2 Ex2. Queremos estudar a proporção de indivíduos na cidade A que são favoráveis a certo projeto governamental. Uma amostra de 200 pessoas é sorteada, e a opinião de cada uma é registrada como sendo a favor ou contra o projeto. E 3. O interesse Ex i t é investigar i ti a duração d ã de d vida id de d um novo tipo ti d de lâmpada, pois acreditamos que ela tenha uma duração maior do que as fabricadas atualmente. 100 lâmpadas do novo tio são deixadas acesas até queimarem. A duração em horas de cada lâmpada é registrada. 7 Para determinar teoricamente o comportamento de algumas medidas devemos antes responder a 4 perguntas: a) Qual a população a ser amostrada? b) Como obter os dados (a amostra)? c) Que informações pertinentes (estatísticas) serão retiradas estatística(s) quando da amostra? d) Como se comporta(m) a(s) o mesmo procedimento de escolher a amostra é usado numa população conhecida? 8 Como Selecionar uma Amostra 9 Levantamentos amostrais 9 Planejamento de Experimentos 9 Levantamentos Observacionais 9 3 - Parâmetro: medida utilizada para característica populacional. Ex: μ, σ - Estimador: é uma variável aleatória que é função dos dados amostrais. Ex: x = 170 cm é um estimador de μ - Estimativa: é o valor numérico assumido pelo estimador, quando são substituídos os dados amostrais. Ex: - Inferência estatística: objetivo de inferir propriedades de um agregado maior (a população) a partir de um conjunto menor (a amostra). descrever uma 10 Distribuições amostrais População Amostras θˆ1 θ Distribuição Amostral θˆ2 θˆ3 ... ... θˆn 11 Resumindo o processo: a) População com um parâmetro θ . b) Retira-se k amostras por um processo aleatório qualquer c) Calcula-se o valor θ$ i para cada amostra (1 = 1, 2, . . . , k) d) Com os valores de θ i das k amostras constrói-se a distribuição amostral de θ. $ 12 4 Amostragem Aleatória Simples Numa urna tem-se 5 tiras de papel, numeradas 1, 3, 5, 5, 7. Uma tira é sorteada e recolocada na urna, então, uma segunda tira é sorteada. Sejam X1 e X2 o primeiro e o segundo números sorteados. 13 Exemplo das Tiras na Urna Amostra aleatória Simples Pop{1, 3, 5, 5, 7} n = 2 X2 X1 1 3 5 1 1/25 1/25 2/25 1/25 7 1/5 P(X1=x) 3 1/25 1/25 2/25 1/25 1/5 5 2/25 2/25 4/25 2/25 2/5 7 1/25 1/25 2/25 1/25 1/5 P(X2=x) 1/5 1/5 2/5 1/5 1 14 Distribuição amostral da média x P( X = x ) 1 2 3 4 5 6 7 Total 1/25 2/25 5/25 6/25 6/25 4/25 1/25 1,00 Distribuição amostral da variância s P(S = 2 2 s 0 2 ) 2 8 7/25 10/25 6/25 18 Total 2/25 1,00 15 5 1/2 Distribuição de X 2/5 3/10 1/5 1/10 0 1 3 5 7 3/10 Distribuição da média de X 1/5 1/10 0 1 2 3 4 5 6 7 16 Distribuição amostral de X População R$8 R$9 R$10 $ 17 μ = 9 salários σ2 = 2 salário 2 3 P(X=x) Pop. 0.44 0.33 0.22 0.11 0.00 8 9 10 salários 18 6 Amostragem com reposição n=2 μ X = 9 salários = μ 1 3 σ X2 = salário 2 = σ2 n Médias. 0.44 0.33 0.22 0.11 0.00 8 8.5 9 9.5 10 salários 19 Amostragem com reposição n=3 μ X = 9 salários = μ σ X2 = σ2 2 salário 2 = 9 n fa Médias 8 7 6 5 4 3 2 1 0 8.00 8.33 8.67 9.00 9.33 9.67 10.00 Salários 20 A distribuição de X Variáveis normais ( ) ⎛ σ2⎞ ⎟ X ~ N μ , σ 2 → X ~ N ⎜⎜ μ , ⎟ n ⎝ ⎠ 21 7 Variáveis não normais TCL Se X é uma variável qualquer com média μ e variância σ2, : z= X −μ σ →∞ ⎯n⎯ ⎯→ N ( 0,1) n 22 23 Teorema do Limite Central A distribuição das médias amostrais, obtidas de amostras de tamanho n, selecionadas ao acaso de uma população de tamanho N, com média μ e variância σ2 será aproximadamente normal com média σ2 e variância σ = n 2 x ou σ 2x = σ2 N − n ⋅ n N −1 μx = μ se a amostragem for realizada com reposição, se a amostragem for realizada sem reposição em uma população finita ( n N > 0,05), independentemente da distribuição da variável em questão. 24 8 Teorema Central do Limite Se for tirada varias amostras de tamanho n de uma população com qualquer tipo de distribuição, com média = μ e desvio padrão = σ A média das amostras terá uma distribuição amostral aproximadamente normal Desvio padrão: Média: x 25 Exemplo Seja X: N (80, 26). Dessa população retiramos uma amostra de n=25. Calcular a) P ( X > 83) b) P ( X ≤ 82) 26 Exemplo Seja X: N (100, 85). Retiramos uma amostra de n=20. Determinar P (95 < X < 105) 27 9 Distribuição Amostral de t (Student) 2 Sabe-se que x ~ N ⎛⎜ μ ; σ ⎞⎟, e sua distribuição padronizada é ⎝ n ⎠ dada por: z= x−μ σ n Em muitas situações não se conhece σ2 ou σ, mas sim sua estimativa s2 ou s Precisamos substituir σ por seu estimador s estatística t tí ti x−μ , t= s n a qual segue uma distribuição t de Student com (n-1) graus de liberdade. Esta estatística é utilizada quando se tem amostras pequenas (n ≤ 30), pois o valor de s2 torna-se muito variável, ou seja, flutua muito de amostra para amostra Nestas situações a distribuição deixa de ser normal padronizada. 28 Características da distribuição t a) É simétrica em relação a média (semelhante a distribuição de z) b) Tem forma campanular. Valores de t dependem da flutuação das estatísticas média e desvio padrão amostrais e z depende somente das mudanças da média das amostras c) Quando n tende para infinito, a distribuição t tende para a distribuição normal. Na prática, a aproximação é considerada boa quando n >30. d) Possui n-1 graus de liberdade. 29 Condições para utilizar a distribuição de t de Student a) O tamanho da amostra é pequeno (n ≤ 30) tg b) σ é desconhecido -∞ 0 +∞ c) A população tem distribuição essencialmente normal 30 10 Distribuição t de student Se X i ~ N ( μ ,σ 2 ) X ~−? μ X −μ Z =σ n σ ~ N (0,1) n tn −1 ~ X −μ s n 31 Tabela 2. Limites unilaterais da di stribuição t de Student ao nível α de probabilid ade. α GL 0.250 0.200 0.150 0.100 0.050 0.025 0.010 0.005 0.001 1 2 3 4 1.000 0.816 0.765 0.741 1.376 1.061 0.978 0.941 1.963 1.386 1.250 1.190 3.078 1.886 1.638 1.533 6.314 2.920 2.353 2.132 12.706 4.303 3.182 2.776 31.821 6.965 4.541 3.747 63.656 9.925 5.841 4.604 318.289 22.328 10.214 7.173 5 6 7 0.727 0.718 0.711 0.920 0.906 0.896 1.156 1.134 1.119 1.476 1.440 1.415 2.015 1.943 1.895 2.571 2.447 2.365 3.365 3.143 2.998 4.032 3.707 3.499 5.894 5.208 4.785 8 9 0.706 0.703 0.889 0.883 1.108 1.100 1.397 1.383 1.860 1.833 2.306 2.262 2.896 2.821 3.355 3.250 4.501 4.297 10 11 12 13 0.700 0.697 0.695 0.694 0.879 0.876 0.873 0.870 1.093 1.088 1.083 1.079 1.372 1.363 1.356 1.350 1.812 1.796 1.782 1.771 2.228 2.201 2.179 2.160 2.764 2.718 2.681 2.650 3.169 3.106 3.055 3.012 4.144 4.025 3.930 3.852 14 15 16 17 18 0.692 0.691 0.690 0.689 0.688 0.868 0.866 0.865 0.863 0.862 1.076 1.074 1.071 1.069 1.067 1.345 1.341 1.337 1.333 1.330 1.761 1.753 1.746 1.740 1.734 2.145 2.131 2.120 2.110 2.101 2.624 2.602 2.583 2.567 2.552 2.977 2.947 2.921 2.898 2.878 3.787 3.733 3.686 3.646 3.610 19 20 21 22 23 0.688 0.687 0.686 0.686 0.685 0.861 0.860 0.859 0.858 0.858 1.066 1.064 1.063 1.061 1.060 1.328 1.325 1.323 1.321 1.319 1.729 1.725 1.721 1.717 1.714 2.093 2.086 2.080 2.074 2.069 2.539 2.528 2.518 2.508 2.500 2.861 2.845 2.831 2.819 2.807 3.579 3.552 3.527 3.505 3.485 24 25 26 27 28 0.685 0.684 0.684 0.684 0.683 0.857 0.856 0.856 0.855 0.855 1.059 1.058 1.058 1.057 1.056 1.318 1.316 1.315 1.314 1.313 1.711 1.708 1.706 1.703 1.701 2.064 2.060 2.056 2.052 2.048 2.492 2.485 2.479 2.473 2.467 2.797 2.787 2.779 2.771 2.763 3.467 3.450 3.435 3.421 3.408 29 30 40 0.683 0.683 0.681 0.854 0.854 0.851 1.055 1.055 1.050 1.311 1.310 1.303 1.699 1.697 1.684 2.045 2.042 2.021 2.462 2.457 2.423 2.756 2.750 2.704 3.396 3.385 3.307 Obter os seguintes valores da distribuição t de Student: a) t / P (-t < t < t ) = 0,95 com 10 g.l. b) t / P (-t < t < t ) = 0,90 com 20 g.l. c) t / P (t > t ) = 0,05 com 25 g.l. d) t / P (t < t ) = 0,10 com 10 g.l. e) P (-1,753 < t < 1,753 ) com 15 g.l. 33 11 Distribuição de s2 - Distribuição de χ2 (Qui - Quadrado) É uma distribuição amostral de variâncias Retira-se uma amostra de n elementos de uma população normal com média μ e variância σ2, teremos a distribuição de uma n s2 = ∑ (x i − x) 2 , segue uma distribuição de χ2 i =1 n−1 com n-1 graus liberdade , e que: A variável χ2 = tem distribuição χ2 ( n − 1) s 2 σ2 com n-1 graus de liberdade. 34 9 Os valores de χ2 não podem ser negativos 9 Não é simétrica em χ2 = 0 9 quanto maior o tamanho de n, a distribuição tende a normal. 9 Como a curva não é simétrica, então olha-se na tabela dois valores de χ2, quando queremos saber se um valor está entre 2 limites. 35 36 12 Obter os seguintes valores da distribuição de χ2 : a) χ2 / P (χ2 > χ2 ) = 0,025 com 17 g.l. b) χ2 / P (χ2 < χ2 ) = 0,025 com 17 g.l. c) χ12, χ22 / P (χ12 < χ2 < χ22) = 0,90 com 10 g.l. d) χ12, χ22 / P (χ12 < χ2 < χ22) = 0,95 com 15 g.l. e) P (10,8508 < χ2 < 31,4104) com 20 g.l. 37 Distribuição F (de Snedecor) +∞ 0 F g1 , g 2 0 +∞ F 38 Distribuição F ( n1 − 1) s12 σ 12 ~χ?n −1 2 1 s12 σ 22 = σ 12 s22 ( n 2 − 1) s 22 σ 22 ~ χ? n −1 2 2 s12σ 22 ~ Fn1 −1,n2 −1 s22σ 12 Quando a área a direita (alfa) é muito grande? 39 13 40 41 Obter os seguintes valores da distribuição F de Snedecor: a) F / P(F > F ) = 0,10 com v1 = 8 e v2 = 20 g.l. b) F / P(F < F ) = 0,90 com v1 = 8 e v2 = 20 g.l. c) F1,F2 / P(F1 < F < F2 ) = 0,95 com v1 = 10 e v2 = 20 g.l. d) F / P(F < F) = 0,01 com v1 = 10 e v2 = 8 g.l. 42 14