Probabilidade e Estatı́stica - EST0003
Intervalos Estatı́sticos para uma única Amostra
Fernando Deeke Sasse
14 de maio de 2010
Introdução
Quão boa é uma dada estimação de um parâmetro?
Suponha que estimamos a viscosidade média de um
produto quı́mico como sendo µ̂ = x = 1000.
Por causa da variabilidade amostral praticamente
nunca ocorre que µ = x.
A estimação pontual não diz nada sobre quão
próximo µ̂ está de µ.
A média está entre 900 e 1100 ou entre 990 e 1010?
Respostas a estas questões afetam nossas decisões
sobre o processo.
Intervalo de Confiança
Intervalo de confiança: intervalo estimado para um
parâmetro de uma população.
Não podemos estar certos de que o intervalo
contém o valor verdadeiro (desconhecido) do
parâmetro populacional, pois somente usamos uma
amostra da população total para computar a
estimação pontual e o intervalo.
O intervalo de confiança é contruı́do de modo a
termos alta confiança de que o intervalo contém o
verdadeiro valor desconhecido do parâmetro da
população.
Intervalo de Tolerância I
Suponhamos que que temos dados sobre uma
quantidade fı́sica associada a um sistema, sendo
estes valores normalmente distribuı́dos.
Queremos determinar os números que limitam 95%
dos valores desse parâmetro.
Para uma população normal sabemos que 95% da
distribuição está no intervalo
(µ − 1.96σ, µ + 1.96σ)
No entanto, este não é um intervalo totalmente
satisfatório, pois os parâmetros µ e σ são
desconhecidos.
Intervalo de Tolerância II
Estimadores pontuais x e s podem ser usados, mas
devemos ainda levar em conta possı́veis erros nestas
estimações.
Formamos então o intervalo de tolerância para a
distribuição:
(x − ks, x + ks) ,
onde k é uma constante apropriada (maior que 1.96)
Não há certeza absoluta de que de que o intervalo
acima limite realmente 95% da distribuição, mas o
intervalo é construı́do de modo que temos alta
confiança de que isso aconteça.
Intervalos: Resumo
Um intervalo de confiança limita os parâmetros de
uma população ou distribuição.
Um intervalo de tolerância limita uma proporção
selecionada de uma uma distribuição.
Intervalo de Confiança na Média de uma Distribuição
Normal, Variância Conhecida I
Suponhamos uma amostra aleatória
X1 , X2 , . . . , Xn
de uma distribuição normal com média desconhecida µ e variância
conhecida σ 2 .
A variável aleatória associada à média amostral X é normalmente
distribuı́da, com média mu e variância σ 2 /n.
Padronizando X temos
Z=
X −µ
√
σ/ n
Intervalo de Confiança na Média de uma Distribuição
Normal, Variância Conhecida II
Uma estimação do intervalo de confiança (IC) para
µ é um intervalo da forma
l ≤ µ ≤ u,
onde os pontos extremos l e u são computados a
partir dos dados amostrais.
Como diferentes amostras resultam em diferentes
valores para l e u, estes valores extremos são valores
de variáveis aleatórias L e U, respectivamente.
Intervalo de Confiança na Média de uma Distribuição
Normal, Variância Conhecida III
Normalmente determinamos os valores de L e U a
partir da seguinte expressão probabilı́stica:
P(L ≤ µ ≤ U) = 1 − α ,
onde 1 ≤ α ≤ 1 é dado.
Temos uma probabilidade 1 − α (coeficiente de
confiança) de selecionar uma amostra para a qual o
IC conterá o valor verdadeiro de µ.
Intervalo de Confiança na Média de uma Distribuição
Normal, Variância Conhecida IV
Selecionamos a amostra, de modo que
X1 = x1 , X2 = x2 , . . . , Xn = xn , e computamos l e
u (limites de confiança superior e inferior), para o
dado α.
O intervalo de confiança resultante para µ é
l ≤ µ ≤ u.
Intervalo de Confiança na Média de uma Distribuição
Normal, Variância Conhecida IV
Como
X −µ
√
σ/ n
é uma variável aleatória normal padrão temos
(usando a simetria da distribuição):
X −µ
√ ≤ zα/2 = 1 − α
P = −zα/2 ≤
σ/ n
Z=
ou
P=
σ
σ
X − zα/2 √ ≤ µ ≤ X + zα/2 √
n
n
=1−α
Intervalo de Confiança na Média de uma Distribuição
Normal, Variância Conhecida V
Definição: Se x é a média amostral de uma
amostra aleatória de tamanho n de uma população
normal com variância conhecida σ 2 , um intervalo de
confiança de 100(1 − α)% sobre µ é dado por
σ
σ
x − zα/2 √ ≤ µ ≤ x + zα/2 √
n
n
onde zα/2 é o ponto correspondente a 100α% na
distribuição normal padrão.
Intervalo de Confiança na Média de uma Distribuição
Normal, Variância Conhecida VI
Exemplo 1. Medidas de energia de impacto (J):
64.1, 64.7, 64.5, 64.6, 64.5, 64.3, 64.6, 64.8, 64.2,
64.3. Suponhamos que a energia de impacto é
normalmente distribuı́da com σ = 1J. Queremos
encontrar um IC de 95% para a média µ.
Intervalo de Confiança na Média de uma Distribuição
Normal, Variância Conhecida VII
> restart;
> with(Statistics);
> L := [64.1, 64.7, 64.5, 64.6, 64.5, 64.3,
64.6, 64.8, 64.2, 64.3];
> alpha := 0.5e-1;
> Z := RandomVariable(Normal(0, 1));
> za := -Quantile(Z, (1/2)*alpha)
za := 1.959963985
> xc := Mean(L)
xc := 64.46000000
Intervalo de Confiança na Média de uma Distribuição
Normal, Variância Conhecida VIII
> sigma:=1:
> n:=nops(L)
n := 10
> l := evalf(xc-za*sigma/sqrt(n));
u := evalf(xc+za*sigma/sqrt(n);
l := 63.84020497
u := 65.07979503
Portanto,
63.84 ≤ µ ≤ 65.08 .
Interpretação do Intervalo de Confiança I
No problema anterior obtivemos a resposta:
O intervalo de confiança de 95% é
63.84 ≤ µ ≤ 65.08
Interpretação incorreta: µ está neste intervalo
com probabilidade 95%.
O intervalo de confiança é um intervalo aleatório,
pois L e U são variáveis aleatórias. De fato,
P(L ≤ µ ≤ U) = 1 − α ,
Interpretação do Intervalo de Confiança II
Interpretação correta: Se um número infinito de
amostras aleatórias forem coletadas e um intervalo
de confiança de 100(1 − α)% for computado para
cada amostra, então 100(1 − α)% destes intervalos
conterão o verdadeiro valor de µ.
µ
1
2
3
4
5
6 7 8 9 10 11 12 13 14 15 16
Interval number
MONTGOMERY: Applied Statistics, 3e
Interpretação do Intervalo de Confiança III
Na prática obtemos somente uma amostra e
calculamos um intervalo de confiança.
Como este intervalo conterá ou não o valor
verdadeiro de mu, é razoável atribuir uma
probabilidade a este evento especı́fico.
O intervalo observado [l, u] contém o verdadeiro de
µ com confiança 100(1 − α)%.
Interpretação em termos de frequência: não
sabemos o se esta afirmação é verdadeira para esta
amostra especı́fica, mas o método utilizado para
obter o intervalo [l, u] resulta em afirmações
corretas 100(1 − α)% das vezes.
Nı́vel de Confiança e Precisão de Estimação
O que aconteceria se escolhessemos, no problema
anterior, um nı́vel de confiança de 99% em vez de
95%?
Em geral, dados o tamanho da amostra n e o desvio
padrão σ, quanto maior o nı́vel de confiança, maior
o intervalo de confiança.
O comprimento de um intervalo de confiança é uma
medida da precisão da estimação.
A precisão é inversamente relacionada com o nı́vel
de confiança.
Devemos obter um IC que é pequeno o suficiente
para que decisões possam ser tomadas, que possui
também uma confiança adequada.
Escolha do Tamanho da Amostra I
O modo de obter um IC com um nı́vel de confiança
adequado é escolher n adequadamente.
Precisão (ou comprimento) do intervalo de
confiança:
σ
2zα/2 √
n
Ao usarmos x para estimar µ, temos que o erro
E = |x − µ| deve satisfazer a
σ
|x − µ| ≤ 2zα/2 √
n
com uma confiança de 100(1 − α)%.
Escolha do Tamanho da Amostra II
E = error = x – µ
l = x – zα /2 σ / n
x
µ
u = x + zα /2 σ / n
MONTGOMERY: Applied Statistics, 3e
Fig. 8.2
W-138
Escolha do Tamanho da Amostra III
Se x é usado para estimar µ, podemos estar
100(1 − α)% confiantes de que o erro |x − µ| não
excederá um erro E quando o tamanho da amostra
for
z σ 2
α/2
n=
E
Notemos que 2E será o tamanho do intervalo de
confiança resultante.
Escolha do Tamanho da Amostra: Exemplo
Exemplo 2. Consideremos novamente os dados do
Exemplo 1: medidas de energia de impacto (J):
64.1, 64.7, 64.5, 64.6, 64.5, 64.3, 64.6, 64.8, 64.2,
64.3. Queremos agora determinar quantos
elementos devem haver na amostra para assegurar
um intervalo de confiança de 95% sobre a média de
no máximo 0.8J. Temos então
E = 0.8 , σ = 1 , α = 0.05 , zα/2 = z0.0025 = 1.96 .
z σ 2 (1.96) 1 2
α/2
n=
=
= 24.01
E
0.4
Ou seja, necessitamos de uma amostra de tamanho
ao menos n = 25 elementos.
Limites de Confiança Unilaterais
Intervalo de confiança superiormente limitado
para µ:
zα σ
µ≤u=x+ √
n
Intervalo de confiança superiormente limitado
para µ:
zα σ
x− √ =l ≤µ
n
Exemplo
A vida em horas de uma lâmpada tem distribuição normal com
σ = 25h. A partir de uma amostra de 20 lâmpadas é obtida uma
vida média de 1054h.
(a) Construa um intervalo de confiança bilateral de 95% sobre a
vida média.
(b) Construa um intervalo de confiança limitado inferiormente de
95% sobre a vida média.
(c) Qual o tamanho da amostra a ser usada se quisermos um
intervalo de confiança de 95% sobre a média, com largura de 5.5h?
(d) Suponha que queremos estar 95% confiantes de que o erro na
estimação da vida média é menos de 4.5h. Qual deve ser o
tamanho da amostra?
Intervalo de Confiança na Média para Grandes Amostras I
Se o tamanho da amostra é grande, o teorema do
limite central garante que X tem aproximadamente
uma distribuição normal com média mu e variância
σ 2 /n. Portanto,
Z=
X −µ
√
σ/ n
tem distribuição aproximadamente normal padrão.
Quando σ é desconhecido ele pode ser aproximado
pelo desvio-padrão amostral s (sempre que n for
grande).
Intervalo de Confiança na Média para Grandes Amostras II
Consequentemente,
Z=
X −µ
√
S/ n
tem aproximadamente uma distribuição normal
padrão e, para um nı́vel de confiança de 1 − α,
s
s
x − zα/2 √ ≤ µ ≤ x + zα/2 √
n
n
Intervalo de Confiança na Média para Grandes Amostras III
- Exemplo
Exemplo 3. Uma amostra de peixes selecionados a
partir de 53 lagos do estado da Flórida. A
concentração de mercúrio medida nas amostras em
ppm é : 1.230 1.330 0.040 0.044 1.200 0.270 0.490
0.190 0.830 0.810 0.710 0.500 0.490 1.160 0.050
0.150 0.190 0.770 1.080 0.980 0.630 0.560 0.410
0.730 0.590 0.340 0.340 0.840 0.500 0.340 0.280
0.340 0.750 0.870 0.560 0.170 0.180 0.190 0.040
0.490 1.100 0.160 0.100 0.210 0.860 0.520 0.650
0.270 0.940 0.400 0.430 0.250 0.270.
Intervalo de Confiança na Média para Grandes Amostras:
Solução com Maple I
> with(Statistics);
> L:=[1.230, 1.330, 0.040, 0.044, 1.200, 0.270, 0.490,
0.190, 0.830, 0.810, 0.710, .500, 0.490, 1.160, 0.050,
0.150, 0.190, 0.770, 1.080, 0.980, 0.630, 0.560, 0.410,
0.730, 0.590, 0.340, 0.340, 0.840, 0.500, 0.340, 0.280,
0.340, 0.750, 0.870, 0.560, 0.170, 0.180, 0.190, 0.040,
0.490, 1.100, 0.160, 0.100, 0.210, 0.860, 0.520, 0.650,
0.270, 0.940, 0.400, 0.430, 0.250, 0.270]:
> mu:=Mean(L);
µ := 0.5249811321
> s:=StandardDeviation(L);
s := 0.3486253494
Notamos que a dispersão é grande.
Intervalo de Confiança na Média para Grandes Amostras:
Solução com Maple II
Notemos que a distribuição não é normal:
> NormalPlot(L);
Intervalo de Confiança na Média para Grandes Amostras:
Solução com Maple III
> Histogram(L, frequencyscale = absolute, bincount = 14)
Intervalo de Confiança na Média para Grandes Amostras:
Solução com Maple III
Apesar da distribuição não ser normal, como
n > 40, o teorema do limite central implica que a
média X tem distribuição aproximadamente normal
com média µ e variância σ 2 .
Portanto, o intervalo de confiança de 95% sobre mu
é dado por
s
s
l = x − z0.025 √ ≤ µ ≤ x + z0.025 √ = u
n
n
Intervalo de Confiança na Média para Grandes Amostras:
Solução com Maple IV
Calculemos estas quantidades no Maple:
> alpha := 0.5e-1;
> Z := RandomVariable(Normal(0, 1));
> za := -Quantile(Z, (1/2)*alpha);
α := 0.05
za := 1.959963985
> l:=xc-za*s/sqrt(n); u := evalf(xc+za*s/sqrt(n))
l
:= 0.4311236026
u := .6188386616
Portanto,
0.4311 ≤ µ ≤ 0.6189 .
IC sobre a Média de uma Distribuição Normal: Variância
Desconhecida
Quando n ≥ 40, independente de σ 2 ser conhecido ou não, o
teorema do limite central garante que X tem distribuição normal.
Suponhamos que n é pequeno e a população tem distribuição
aproximadamente normal.
Suponhamos que X é a média amostral e S 2 é a variância amostral.
A variável aleatória padrão
T =
X −µ
√ ,
S/ N
quando n é pequeno, tem distribuição - t.
Distribuição t
Seja X1 , X2 , . . . , XN uma amostra aleatória de uma distribuição
normal com média desconhecida µ e variância desconhecida σ 2 .
Então a variável aletória
T =
X −µ
√ ,
S/ N
tem uma distribuição t com n − 1 graus de liberdade:
Γ k+1
1
2
f (x) =
i(k+1)/2 ,
k h 2 πkΓ 2
x
+1
k
onde k é o número de graus de liberdade,
Gráficos no Maple
> restart;
> with(Statistics);
> with(plots);
> T := RandomVariable(StudentT(10));
> Z := RandomVariable(Normal(0, 1));
> p1:=DensityPlot(T, range = -2.5 .. 2.5, thickness = 3,
color=red):
> p2:=DensityPlot(Z, range = -2.5 .. 2.5, thickness = 3):
> display([p1, p2]);
Distribuição t
Intervalo de Confiança sobre a Média com Distribuição t
Seja tα/2,n−1 o ponto correspondente à porcentagem 100α/2 da
distribuição t com n − 1 graus de liberdade. Podemos então
escrever
P(tα/2,n−1 ≤ T ≤ tα/2,n−1 ) = 1 − α
ou
X −µ
√ ≤ tα/2,n−1 = 1 − α .
P tα/2,n−1 ≤
S/ N
Isolando µ obtemos
tα/2,n−1 S
tα/2,n−1 S
√
√
≤µ≤X+
P X−
= 1 − α.
n
n
Intervalo de Confiança sobre a Média com Distribuição t
Se x e s são a média e o desvio padrão de uma
amostra aleatória de uma distribuição normal com
variância desconhecida, então um intervalo de
confiança de 100(1 − α)% sobre µ é dado por
tα/2,n−1 s
tα/2,n−1 s
P x− √
≤µ≤x+ √
= 1−α,
n
n
onde tα/2,n−1 o ponto correspondente à
porcentagem 100α/2 da distribuição t com n − 1
graus de liberdade.
Distribuição t: Exemplo
Um artigo no Journal of Composite Materials, (December 1989,
Vol 23, p. 1200) descreve o efeito de delaminação na frequência
natural de barras feitas a partir de laminados compostos. 5 barras
delaminadas são sujeitas a cargas, e as frequências resultantes são
as seguintes (Hz): 230.66, 233.05, 232.58, 229.48, 232.58.
Determine um intervalo de confiança de 90% sobre a média. Há
evidências que suportem a suposição de normalidade da população?
Distribuição t: Exemplo
Verifiquemos a hipótese de normalidade da distribuição fazendo um
plot normal:
>
>
>
>
restart;
with(Statistics);
L := [230.66, 233.05, 232.58, 229.48, 232.58];
NormalPlot(L);
Distribuição t: Exemplo
Como o número de amostras é pequeno, devemos calcular o IC
utilizando a distribuição t:
>
>
>
>
>
>
>
n := 5;
mu := Mean(L);
s := StandardDeviation(L);
k := n-1;
alpha := 0.10
T := RandomVariable(StudentT(k));
tc := Quantile(T, 1-alpha/2);
tc := 2.131822837
xc := evalf(tc*s/sqrt(n))
Os extremos inferior e superior do IC de 90% na média são então
dados por
l := mu-xc; u := mu+xc
230.2103006
233.1296994
Intervalo de Confiança na Variância e no Desvio Padrão de
uma População Normal
Seja X1 , X2 , . . . , Xn uma amostra aleatória de uma
distribuição normal com média µ e variância σ 2 .
Seja S 2 a variância amostral. Então a variável
aleatória
(n − 1)S 2
X2 =
σ2
tem uma distribuição χ2 com n − 1 graus de
liberdade.
Distribuição χ2
A função densidade de probabilidade de uma
variável aleatória χ2 é dada por
f (x) =
1
x k/2−1 e −x/2 ,
k/2
2 Γ(k/2)
x >0
onde k é o número de graus de liberdade. Além
disso,
E (χ2 ) = k ,
V (χ2 ) = 2k .
Distribuição χ2 : Índice de Confiança
2
P X >
χ2α,k
Z
∞
=
f (u) du = α
χ2α,k
f (x)
α
0
! 2α, k
x
x
Distribuição χ2 : Exemplo
P X 2 > χ20.05,10 = P X 2 > 18.31 = 0.05
P X 2 > χ20.95,10 = P X 2 > 3.94 = 0.95
f (x)
0.05
0.05
0
2
! 0.95,
10
! 20.05, 10
= 3.94
= 18.31
Distribuição χ2 : Construção do IC para σ 2
Como
(n − 1)S 2
σ2
é uma variável aleatória com distribuição χ2 com
n − 1 graus de liberdade, podemos escrever
2
2
2
P χ1−α/2,n−1 ≤ X ≤ χα/2,n−1 = 1 − α
X2 =
ou
2
(n
−
1)S
P χ21−α/2,n−1 ≤
≤ χ2α/2,n−1 = 1 − α .
2
σ
Distribuição χ2 : Construção do IC para σ 2
Portanto,
2
P
2
(n − 1)s
(n − 1)s
2
≤
σ
≤
χ2α/2,n−1
χ21−α/2,n−1
!
= 1−α.
Distribuição χ2 : Construção do IC para σ 2
Se s 2 é a variância amostral de uma amostra
aleatória de n observações de uma distribuição com
variância desconhecida σ 2 , então um intervalo de
confiança de 100(1 − α)% sobre σ 2 é dado por
(n − 1)s 2
(n − 1)s 2
2
≤σ ≤ 2
,
χ2α/2,n−1
χ1−α/2,n−1
onde χ2α/2,n−1 e χ21−α/2,n−1 são os pontos de
porcentagem 100α/2 superior e inferior da
distribuição χ2 de n − 1 graus de liberdade,
respectivamente.
Distribuição χ2 : Construção do IC para σ
O IC de 100(1 − α)% sobre o desvio padrão σ é
dado por
s
s
2
(n − 1)s
(n − 1)s 2
≤
σ
≤
,
χ2α/2,n−1
χ21−α/2,n−1
Distribuição χ2 : Limites de Confiança Inferior e Superior
Os limites de confiança de 100(1 − α)% inferior e
superior sobre σ 2 são dados por
(n − 1)s 2
≤ σ2
2
χα,n−1
e
σ2 ≤
respectivamente.
(n − 1)s 2
,
χ21−α,n−1
Distribuição χ2 no Maple
> with(Statistics);
> with(plots);
> X := k->RandomVariable(ChiSquare(k));
> p1 := DensityPlot(X(10), range = 0 .. 30,
thickness = 3, color = blue);
> p2 := DensityPlot(X(5), range = 0 .. 30,
thickness = 3, color = red);
> p3 := DensityPlot(X(2), range = 0 .. 30,
thickness = 3, color = black);
> display([p1, p2, p3]);
O
O
O
O
p1 d DensityPlot X 10 , range = 0 .. 30, thickness = 3, color = blue :
p2 d DensityPlot
X 5 , range = 0 .. 30, thickness = 3, color = red :
2
p3 d DensityPlot X 2 , range = 0 .. 30, thickness = 3, color = black :
display p1, p2, p3
Distribuição χ no Maple
0.5
0.4
0.3
0.2
0.1
0
O
0
10
20
30
Distribuição χ2 : Exemplo
Uma máquina enche recipientes plásticos com
detergente. Uma amostra aleatória de 20 garrafas
resulta numa variância amostral de s 2 = 0.4590 ml
de volume preenchido. Se a variância é muito
grande, uma proporção inaceitável de garrafas ficará
cheia demais ou de menos. Suponhamos que o
volume de preenchimento tem distribuição
aproximadamente normal. Determine um intervalo
de confiança superior de 95% sobre σ 2 .
Distribuição χ2 : Exemplo
Devemos calcular, com n − 1 = 19, α = 0.95,
s 2 = 0.4590,
(n − 1)s 2
2
σ ≤ 2
,
χ1−α,n−1
Distribuição χ2 : Exemplo
>
>
>
>
>
>
>
>
restart;
with(Statistics);
with(plots);
X := RandomVariable(ChiSquare(k));
n := 20;
k := n-1;
s := (0.459)^(1/2):
chi2 := Quantile(X, 0.05)
χ2 := 10.11701489
> u := (n-1)*s^2/chi2;
u := 0.8620131623
Portanto,
σ 2 ≤ 0.86ml 2 ,
σ ≤ 0.93ml .
Download

EST0003 Intervalos Estatísticos para uma única Amostra