Probabilidade e Estatı́stica - EST0003 Intervalos Estatı́sticos para uma única Amostra Fernando Deeke Sasse 14 de maio de 2010 Introdução Quão boa é uma dada estimação de um parâmetro? Suponha que estimamos a viscosidade média de um produto quı́mico como sendo µ̂ = x = 1000. Por causa da variabilidade amostral praticamente nunca ocorre que µ = x. A estimação pontual não diz nada sobre quão próximo µ̂ está de µ. A média está entre 900 e 1100 ou entre 990 e 1010? Respostas a estas questões afetam nossas decisões sobre o processo. Intervalo de Confiança Intervalo de confiança: intervalo estimado para um parâmetro de uma população. Não podemos estar certos de que o intervalo contém o valor verdadeiro (desconhecido) do parâmetro populacional, pois somente usamos uma amostra da população total para computar a estimação pontual e o intervalo. O intervalo de confiança é contruı́do de modo a termos alta confiança de que o intervalo contém o verdadeiro valor desconhecido do parâmetro da população. Intervalo de Tolerância I Suponhamos que que temos dados sobre uma quantidade fı́sica associada a um sistema, sendo estes valores normalmente distribuı́dos. Queremos determinar os números que limitam 95% dos valores desse parâmetro. Para uma população normal sabemos que 95% da distribuição está no intervalo (µ − 1.96σ, µ + 1.96σ) No entanto, este não é um intervalo totalmente satisfatório, pois os parâmetros µ e σ são desconhecidos. Intervalo de Tolerância II Estimadores pontuais x e s podem ser usados, mas devemos ainda levar em conta possı́veis erros nestas estimações. Formamos então o intervalo de tolerância para a distribuição: (x − ks, x + ks) , onde k é uma constante apropriada (maior que 1.96) Não há certeza absoluta de que de que o intervalo acima limite realmente 95% da distribuição, mas o intervalo é construı́do de modo que temos alta confiança de que isso aconteça. Intervalos: Resumo Um intervalo de confiança limita os parâmetros de uma população ou distribuição. Um intervalo de tolerância limita uma proporção selecionada de uma uma distribuição. Intervalo de Confiança na Média de uma Distribuição Normal, Variância Conhecida I Suponhamos uma amostra aleatória X1 , X2 , . . . , Xn de uma distribuição normal com média desconhecida µ e variância conhecida σ 2 . A variável aleatória associada à média amostral X é normalmente distribuı́da, com média mu e variância σ 2 /n. Padronizando X temos Z= X −µ √ σ/ n Intervalo de Confiança na Média de uma Distribuição Normal, Variância Conhecida II Uma estimação do intervalo de confiança (IC) para µ é um intervalo da forma l ≤ µ ≤ u, onde os pontos extremos l e u são computados a partir dos dados amostrais. Como diferentes amostras resultam em diferentes valores para l e u, estes valores extremos são valores de variáveis aleatórias L e U, respectivamente. Intervalo de Confiança na Média de uma Distribuição Normal, Variância Conhecida III Normalmente determinamos os valores de L e U a partir da seguinte expressão probabilı́stica: P(L ≤ µ ≤ U) = 1 − α , onde 1 ≤ α ≤ 1 é dado. Temos uma probabilidade 1 − α (coeficiente de confiança) de selecionar uma amostra para a qual o IC conterá o valor verdadeiro de µ. Intervalo de Confiança na Média de uma Distribuição Normal, Variância Conhecida IV Selecionamos a amostra, de modo que X1 = x1 , X2 = x2 , . . . , Xn = xn , e computamos l e u (limites de confiança superior e inferior), para o dado α. O intervalo de confiança resultante para µ é l ≤ µ ≤ u. Intervalo de Confiança na Média de uma Distribuição Normal, Variância Conhecida IV Como X −µ √ σ/ n é uma variável aleatória normal padrão temos (usando a simetria da distribuição): X −µ √ ≤ zα/2 = 1 − α P = −zα/2 ≤ σ/ n Z= ou P= σ σ X − zα/2 √ ≤ µ ≤ X + zα/2 √ n n =1−α Intervalo de Confiança na Média de uma Distribuição Normal, Variância Conhecida V Definição: Se x é a média amostral de uma amostra aleatória de tamanho n de uma população normal com variância conhecida σ 2 , um intervalo de confiança de 100(1 − α)% sobre µ é dado por σ σ x − zα/2 √ ≤ µ ≤ x + zα/2 √ n n onde zα/2 é o ponto correspondente a 100α% na distribuição normal padrão. Intervalo de Confiança na Média de uma Distribuição Normal, Variância Conhecida VI Exemplo 1. Medidas de energia de impacto (J): 64.1, 64.7, 64.5, 64.6, 64.5, 64.3, 64.6, 64.8, 64.2, 64.3. Suponhamos que a energia de impacto é normalmente distribuı́da com σ = 1J. Queremos encontrar um IC de 95% para a média µ. Intervalo de Confiança na Média de uma Distribuição Normal, Variância Conhecida VII > restart; > with(Statistics); > L := [64.1, 64.7, 64.5, 64.6, 64.5, 64.3, 64.6, 64.8, 64.2, 64.3]; > alpha := 0.5e-1; > Z := RandomVariable(Normal(0, 1)); > za := -Quantile(Z, (1/2)*alpha) za := 1.959963985 > xc := Mean(L) xc := 64.46000000 Intervalo de Confiança na Média de uma Distribuição Normal, Variância Conhecida VIII > sigma:=1: > n:=nops(L) n := 10 > l := evalf(xc-za*sigma/sqrt(n)); u := evalf(xc+za*sigma/sqrt(n); l := 63.84020497 u := 65.07979503 Portanto, 63.84 ≤ µ ≤ 65.08 . Interpretação do Intervalo de Confiança I No problema anterior obtivemos a resposta: O intervalo de confiança de 95% é 63.84 ≤ µ ≤ 65.08 Interpretação incorreta: µ está neste intervalo com probabilidade 95%. O intervalo de confiança é um intervalo aleatório, pois L e U são variáveis aleatórias. De fato, P(L ≤ µ ≤ U) = 1 − α , Interpretação do Intervalo de Confiança II Interpretação correta: Se um número infinito de amostras aleatórias forem coletadas e um intervalo de confiança de 100(1 − α)% for computado para cada amostra, então 100(1 − α)% destes intervalos conterão o verdadeiro valor de µ. µ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Interval number MONTGOMERY: Applied Statistics, 3e Interpretação do Intervalo de Confiança III Na prática obtemos somente uma amostra e calculamos um intervalo de confiança. Como este intervalo conterá ou não o valor verdadeiro de mu, é razoável atribuir uma probabilidade a este evento especı́fico. O intervalo observado [l, u] contém o verdadeiro de µ com confiança 100(1 − α)%. Interpretação em termos de frequência: não sabemos o se esta afirmação é verdadeira para esta amostra especı́fica, mas o método utilizado para obter o intervalo [l, u] resulta em afirmações corretas 100(1 − α)% das vezes. Nı́vel de Confiança e Precisão de Estimação O que aconteceria se escolhessemos, no problema anterior, um nı́vel de confiança de 99% em vez de 95%? Em geral, dados o tamanho da amostra n e o desvio padrão σ, quanto maior o nı́vel de confiança, maior o intervalo de confiança. O comprimento de um intervalo de confiança é uma medida da precisão da estimação. A precisão é inversamente relacionada com o nı́vel de confiança. Devemos obter um IC que é pequeno o suficiente para que decisões possam ser tomadas, que possui também uma confiança adequada. Escolha do Tamanho da Amostra I O modo de obter um IC com um nı́vel de confiança adequado é escolher n adequadamente. Precisão (ou comprimento) do intervalo de confiança: σ 2zα/2 √ n Ao usarmos x para estimar µ, temos que o erro E = |x − µ| deve satisfazer a σ |x − µ| ≤ 2zα/2 √ n com uma confiança de 100(1 − α)%. Escolha do Tamanho da Amostra II E = error = x – µ l = x – zα /2 σ / n x µ u = x + zα /2 σ / n MONTGOMERY: Applied Statistics, 3e Fig. 8.2 W-138 Escolha do Tamanho da Amostra III Se x é usado para estimar µ, podemos estar 100(1 − α)% confiantes de que o erro |x − µ| não excederá um erro E quando o tamanho da amostra for z σ 2 α/2 n= E Notemos que 2E será o tamanho do intervalo de confiança resultante. Escolha do Tamanho da Amostra: Exemplo Exemplo 2. Consideremos novamente os dados do Exemplo 1: medidas de energia de impacto (J): 64.1, 64.7, 64.5, 64.6, 64.5, 64.3, 64.6, 64.8, 64.2, 64.3. Queremos agora determinar quantos elementos devem haver na amostra para assegurar um intervalo de confiança de 95% sobre a média de no máximo 0.8J. Temos então E = 0.8 , σ = 1 , α = 0.05 , zα/2 = z0.0025 = 1.96 . z σ 2 (1.96) 1 2 α/2 n= = = 24.01 E 0.4 Ou seja, necessitamos de uma amostra de tamanho ao menos n = 25 elementos. Limites de Confiança Unilaterais Intervalo de confiança superiormente limitado para µ: zα σ µ≤u=x+ √ n Intervalo de confiança superiormente limitado para µ: zα σ x− √ =l ≤µ n Exemplo A vida em horas de uma lâmpada tem distribuição normal com σ = 25h. A partir de uma amostra de 20 lâmpadas é obtida uma vida média de 1054h. (a) Construa um intervalo de confiança bilateral de 95% sobre a vida média. (b) Construa um intervalo de confiança limitado inferiormente de 95% sobre a vida média. (c) Qual o tamanho da amostra a ser usada se quisermos um intervalo de confiança de 95% sobre a média, com largura de 5.5h? (d) Suponha que queremos estar 95% confiantes de que o erro na estimação da vida média é menos de 4.5h. Qual deve ser o tamanho da amostra? Intervalo de Confiança na Média para Grandes Amostras I Se o tamanho da amostra é grande, o teorema do limite central garante que X tem aproximadamente uma distribuição normal com média mu e variância σ 2 /n. Portanto, Z= X −µ √ σ/ n tem distribuição aproximadamente normal padrão. Quando σ é desconhecido ele pode ser aproximado pelo desvio-padrão amostral s (sempre que n for grande). Intervalo de Confiança na Média para Grandes Amostras II Consequentemente, Z= X −µ √ S/ n tem aproximadamente uma distribuição normal padrão e, para um nı́vel de confiança de 1 − α, s s x − zα/2 √ ≤ µ ≤ x + zα/2 √ n n Intervalo de Confiança na Média para Grandes Amostras III - Exemplo Exemplo 3. Uma amostra de peixes selecionados a partir de 53 lagos do estado da Flórida. A concentração de mercúrio medida nas amostras em ppm é : 1.230 1.330 0.040 0.044 1.200 0.270 0.490 0.190 0.830 0.810 0.710 0.500 0.490 1.160 0.050 0.150 0.190 0.770 1.080 0.980 0.630 0.560 0.410 0.730 0.590 0.340 0.340 0.840 0.500 0.340 0.280 0.340 0.750 0.870 0.560 0.170 0.180 0.190 0.040 0.490 1.100 0.160 0.100 0.210 0.860 0.520 0.650 0.270 0.940 0.400 0.430 0.250 0.270. Intervalo de Confiança na Média para Grandes Amostras: Solução com Maple I > with(Statistics); > L:=[1.230, 1.330, 0.040, 0.044, 1.200, 0.270, 0.490, 0.190, 0.830, 0.810, 0.710, .500, 0.490, 1.160, 0.050, 0.150, 0.190, 0.770, 1.080, 0.980, 0.630, 0.560, 0.410, 0.730, 0.590, 0.340, 0.340, 0.840, 0.500, 0.340, 0.280, 0.340, 0.750, 0.870, 0.560, 0.170, 0.180, 0.190, 0.040, 0.490, 1.100, 0.160, 0.100, 0.210, 0.860, 0.520, 0.650, 0.270, 0.940, 0.400, 0.430, 0.250, 0.270]: > mu:=Mean(L); µ := 0.5249811321 > s:=StandardDeviation(L); s := 0.3486253494 Notamos que a dispersão é grande. Intervalo de Confiança na Média para Grandes Amostras: Solução com Maple II Notemos que a distribuição não é normal: > NormalPlot(L); Intervalo de Confiança na Média para Grandes Amostras: Solução com Maple III > Histogram(L, frequencyscale = absolute, bincount = 14) Intervalo de Confiança na Média para Grandes Amostras: Solução com Maple III Apesar da distribuição não ser normal, como n > 40, o teorema do limite central implica que a média X tem distribuição aproximadamente normal com média µ e variância σ 2 . Portanto, o intervalo de confiança de 95% sobre mu é dado por s s l = x − z0.025 √ ≤ µ ≤ x + z0.025 √ = u n n Intervalo de Confiança na Média para Grandes Amostras: Solução com Maple IV Calculemos estas quantidades no Maple: > alpha := 0.5e-1; > Z := RandomVariable(Normal(0, 1)); > za := -Quantile(Z, (1/2)*alpha); α := 0.05 za := 1.959963985 > l:=xc-za*s/sqrt(n); u := evalf(xc+za*s/sqrt(n)) l := 0.4311236026 u := .6188386616 Portanto, 0.4311 ≤ µ ≤ 0.6189 . IC sobre a Média de uma Distribuição Normal: Variância Desconhecida Quando n ≥ 40, independente de σ 2 ser conhecido ou não, o teorema do limite central garante que X tem distribuição normal. Suponhamos que n é pequeno e a população tem distribuição aproximadamente normal. Suponhamos que X é a média amostral e S 2 é a variância amostral. A variável aleatória padrão T = X −µ √ , S/ N quando n é pequeno, tem distribuição - t. Distribuição t Seja X1 , X2 , . . . , XN uma amostra aleatória de uma distribuição normal com média desconhecida µ e variância desconhecida σ 2 . Então a variável aletória T = X −µ √ , S/ N tem uma distribuição t com n − 1 graus de liberdade: Γ k+1 1 2 f (x) = i(k+1)/2 , k h 2 πkΓ 2 x +1 k onde k é o número de graus de liberdade, Gráficos no Maple > restart; > with(Statistics); > with(plots); > T := RandomVariable(StudentT(10)); > Z := RandomVariable(Normal(0, 1)); > p1:=DensityPlot(T, range = -2.5 .. 2.5, thickness = 3, color=red): > p2:=DensityPlot(Z, range = -2.5 .. 2.5, thickness = 3): > display([p1, p2]); Distribuição t Intervalo de Confiança sobre a Média com Distribuição t Seja tα/2,n−1 o ponto correspondente à porcentagem 100α/2 da distribuição t com n − 1 graus de liberdade. Podemos então escrever P(tα/2,n−1 ≤ T ≤ tα/2,n−1 ) = 1 − α ou X −µ √ ≤ tα/2,n−1 = 1 − α . P tα/2,n−1 ≤ S/ N Isolando µ obtemos tα/2,n−1 S tα/2,n−1 S √ √ ≤µ≤X+ P X− = 1 − α. n n Intervalo de Confiança sobre a Média com Distribuição t Se x e s são a média e o desvio padrão de uma amostra aleatória de uma distribuição normal com variância desconhecida, então um intervalo de confiança de 100(1 − α)% sobre µ é dado por tα/2,n−1 s tα/2,n−1 s P x− √ ≤µ≤x+ √ = 1−α, n n onde tα/2,n−1 o ponto correspondente à porcentagem 100α/2 da distribuição t com n − 1 graus de liberdade. Distribuição t: Exemplo Um artigo no Journal of Composite Materials, (December 1989, Vol 23, p. 1200) descreve o efeito de delaminação na frequência natural de barras feitas a partir de laminados compostos. 5 barras delaminadas são sujeitas a cargas, e as frequências resultantes são as seguintes (Hz): 230.66, 233.05, 232.58, 229.48, 232.58. Determine um intervalo de confiança de 90% sobre a média. Há evidências que suportem a suposição de normalidade da população? Distribuição t: Exemplo Verifiquemos a hipótese de normalidade da distribuição fazendo um plot normal: > > > > restart; with(Statistics); L := [230.66, 233.05, 232.58, 229.48, 232.58]; NormalPlot(L); Distribuição t: Exemplo Como o número de amostras é pequeno, devemos calcular o IC utilizando a distribuição t: > > > > > > > n := 5; mu := Mean(L); s := StandardDeviation(L); k := n-1; alpha := 0.10 T := RandomVariable(StudentT(k)); tc := Quantile(T, 1-alpha/2); tc := 2.131822837 xc := evalf(tc*s/sqrt(n)) Os extremos inferior e superior do IC de 90% na média são então dados por l := mu-xc; u := mu+xc 230.2103006 233.1296994 Intervalo de Confiança na Variância e no Desvio Padrão de uma População Normal Seja X1 , X2 , . . . , Xn uma amostra aleatória de uma distribuição normal com média µ e variância σ 2 . Seja S 2 a variância amostral. Então a variável aleatória (n − 1)S 2 X2 = σ2 tem uma distribuição χ2 com n − 1 graus de liberdade. Distribuição χ2 A função densidade de probabilidade de uma variável aleatória χ2 é dada por f (x) = 1 x k/2−1 e −x/2 , k/2 2 Γ(k/2) x >0 onde k é o número de graus de liberdade. Além disso, E (χ2 ) = k , V (χ2 ) = 2k . Distribuição χ2 : Índice de Confiança 2 P X > χ2α,k Z ∞ = f (u) du = α χ2α,k f (x) α 0 ! 2α, k x x Distribuição χ2 : Exemplo P X 2 > χ20.05,10 = P X 2 > 18.31 = 0.05 P X 2 > χ20.95,10 = P X 2 > 3.94 = 0.95 f (x) 0.05 0.05 0 2 ! 0.95, 10 ! 20.05, 10 = 3.94 = 18.31 Distribuição χ2 : Construção do IC para σ 2 Como (n − 1)S 2 σ2 é uma variável aleatória com distribuição χ2 com n − 1 graus de liberdade, podemos escrever 2 2 2 P χ1−α/2,n−1 ≤ X ≤ χα/2,n−1 = 1 − α X2 = ou 2 (n − 1)S P χ21−α/2,n−1 ≤ ≤ χ2α/2,n−1 = 1 − α . 2 σ Distribuição χ2 : Construção do IC para σ 2 Portanto, 2 P 2 (n − 1)s (n − 1)s 2 ≤ σ ≤ χ2α/2,n−1 χ21−α/2,n−1 ! = 1−α. Distribuição χ2 : Construção do IC para σ 2 Se s 2 é a variância amostral de uma amostra aleatória de n observações de uma distribuição com variância desconhecida σ 2 , então um intervalo de confiança de 100(1 − α)% sobre σ 2 é dado por (n − 1)s 2 (n − 1)s 2 2 ≤σ ≤ 2 , χ2α/2,n−1 χ1−α/2,n−1 onde χ2α/2,n−1 e χ21−α/2,n−1 são os pontos de porcentagem 100α/2 superior e inferior da distribuição χ2 de n − 1 graus de liberdade, respectivamente. Distribuição χ2 : Construção do IC para σ O IC de 100(1 − α)% sobre o desvio padrão σ é dado por s s 2 (n − 1)s (n − 1)s 2 ≤ σ ≤ , χ2α/2,n−1 χ21−α/2,n−1 Distribuição χ2 : Limites de Confiança Inferior e Superior Os limites de confiança de 100(1 − α)% inferior e superior sobre σ 2 são dados por (n − 1)s 2 ≤ σ2 2 χα,n−1 e σ2 ≤ respectivamente. (n − 1)s 2 , χ21−α,n−1 Distribuição χ2 no Maple > with(Statistics); > with(plots); > X := k->RandomVariable(ChiSquare(k)); > p1 := DensityPlot(X(10), range = 0 .. 30, thickness = 3, color = blue); > p2 := DensityPlot(X(5), range = 0 .. 30, thickness = 3, color = red); > p3 := DensityPlot(X(2), range = 0 .. 30, thickness = 3, color = black); > display([p1, p2, p3]); O O O O p1 d DensityPlot X 10 , range = 0 .. 30, thickness = 3, color = blue : p2 d DensityPlot X 5 , range = 0 .. 30, thickness = 3, color = red : 2 p3 d DensityPlot X 2 , range = 0 .. 30, thickness = 3, color = black : display p1, p2, p3 Distribuição χ no Maple 0.5 0.4 0.3 0.2 0.1 0 O 0 10 20 30 Distribuição χ2 : Exemplo Uma máquina enche recipientes plásticos com detergente. Uma amostra aleatória de 20 garrafas resulta numa variância amostral de s 2 = 0.4590 ml de volume preenchido. Se a variância é muito grande, uma proporção inaceitável de garrafas ficará cheia demais ou de menos. Suponhamos que o volume de preenchimento tem distribuição aproximadamente normal. Determine um intervalo de confiança superior de 95% sobre σ 2 . Distribuição χ2 : Exemplo Devemos calcular, com n − 1 = 19, α = 0.95, s 2 = 0.4590, (n − 1)s 2 2 σ ≤ 2 , χ1−α,n−1 Distribuição χ2 : Exemplo > > > > > > > > restart; with(Statistics); with(plots); X := RandomVariable(ChiSquare(k)); n := 20; k := n-1; s := (0.459)^(1/2): chi2 := Quantile(X, 0.05) χ2 := 10.11701489 > u := (n-1)*s^2/chi2; u := 0.8620131623 Portanto, σ 2 ≤ 0.86ml 2 , σ ≤ 0.93ml .