Introdução Numa grande variedade de problemas de inferência não estamos interessados em estimar um parâmetro, mas em estabelecer um limite inferior ou superior ou ambos, para o parâmetro que toma valores em IR; ou seja, construir um intervalo de confiança que contenha com elevada probabilidade o parâmetro desconhecido. 1 Introdução Sabemos que se Z _ N(0, 1), então P(−1.96 < Z < 1.96) = 0.95 , sendo 1.96 o quantil de probabilidade 0.975 da normal padrão, ou seja, z0.975 = 1.96. Exemplo (6.1) Se (X1 , . . . , Xn ) é uma a.a. de uma população Normal com valor médio µ desconhecido e variância σ 2 conhecida, sabemos do X −µ √ _ N(0, 1), pelo que Teorema 5.2 que Z = σ/ n X −µ √ < 1.96 = 0.95 . P −1.96 < σ/ n 2 Introdução Exemplo (6.1) Isolando na dupla desigualdade anterior o valor de µ vem σ σ √ √ = 0.95 , P X − 1.96 < µ < X + 1.96 n n ou seja, σ σ P µ ∈ X − 1.96 √ , X + 1.96 √ = 0.95. n n 3 Introdução Assim sendo, σ σ X − 1.96 √ , X + 1.96 √ n n é um intervalo de confiança a 95% para o valor médio populacional µ. Nota É possı́vel relacionar a probabilidade do parâmetro µ não pertencer ao intervalo, neste caso α = 0.05, com o coeficiente de confiança do intervalo 0.95 = 1 − 0.05 e a probabilidade 0.975, pois 0.975 = 1 − 0.05 . 2 4 Introdução Mais geralmente, σ σ = 1 − α, P µ ∈ X − z1−α/2 √ , X + z1−α/2 √ n n onde z1−α/2 é o quantil de probabilidade 1 − α/2 da distribuição Normal padrão. Consequentemente, podemos considerar σ σ X − z1−α/2 √ , X + z1−α/2 √ n n um estimador intervalar de µ a que chamamos intervalo de confiança aleatório com coeficiente de confiança 1 − α. 5 Introdução Nota Quando substituimos o estimador X pela sua estimativa x, obtemos um intervalo de confiança (determinista) com coeficiente de confiança 1 − α σ σ x − z1−α/2 √ , x + z1−α/2 √ . n n 6 Intervalos de Confiança Estimador Intervalar Se X = (X1 . . . , Xn ) é uma a.a. de uma população cuja distribuição depende do parâmetro θ, e se L(X) e U(X) são estatı́sticas tais que P {L(X) < θ < U(X)} = 1 − α , diz-se que ]L(X), U(X)[ é um estimador intervalar de θ, e chama-se probabilidade de cobertura à probabilidade de o intervalo aleatório cobrir o verdadeiro valor do parâmetro. 7 Intervalos de Confiança Nota Está implı́cito ao conceito de intervalo de confiança que qualquer um dos seus pontos pode ser usado como valor do parâmetro desconhecido. 8 Intervalos de Confiança I Se P {θ > L(X)} = 1 − α , então ]L(X), +∞[ é um limite inferior de confiança aleatório com coeficiente de confiança 1 − α; I Se P {θ < U(X)} = 1 − α , então ] − ∞, U(X)[ é um limite superior de confiança aleatório com coeficiente de confiança 1 − α. 9 Intervalos de Confiança Um método bastante popular e elegante de construção de intervalos de confiança (I.C.) baseia-se em variáveis fulcrais ou pivot. Por exemplo, se (X1 , . . . , Xn ) é uma a.a. de uma população Normal com valor médio µ desconhecido e desvio padrão σ conhecido, então a variável X −µ √ _ N(0, 1) σ/ n é uma variável fulcral porque a sua distribuição não depende de µ. 10 Intervalos de Confiança para os Parâmetros de uma População Normal Admitamos que (X1 , . . . , Xn ) é uma a.a. de uma população Normal com valor médio µ e variância σ 2 . Intervalo de Confiança para µ com σ conhecido O I.C. a (1 − α) × 100% para µ é σ σ X − z1−α/2 √ , X + z1−α/2 √ n n onde z1−α/2 denota o quantil de probabilidade 1 − distribuição Normal padrão. α 2 da 11 Intervalos de Confiança para os Parâmetros de uma População Normal Exemplo (6.2) Suponha que a resistência de uma componente electrónica (em ohm, Ω) é uma v.a. X _ N(µ, σ), onde µ é desconhecido e σ = 4. Para obter-se informação sobre o valor esperado da resistência da componente, µ, recolheu-se uma amostra de dimensão n = 4 e obtido o seguinte conjunto de observações: x = (5.0, 8.5, 12.0, 15.0). Obtenha um I.C. a 95% para µ. 12 Intervalos de Confiança para os Parâmetros de uma População Normal Sendo σ conhecido, o I.C. a 95% (α = 0.05) para µ é dado por σ σ . X − z0.975 √ , X + z0.975 √ n n Como x = 10.125 Ω vem 4 4 10.125 − 1.96 × √ , 10.125 + 1.96 × √ =]6.205, 14.045[. 4 4 13 Intervalos de Confiança para os Parâmetros de uma População Normal No exemplo anterior podı́amos querer, por exemplo, estimar µ com um erro inferior a 2 Ω. Por outras palavras, queremos determinar a dimensão da amostra a recolher de tal modo que a amplitude do I.C. a 95% seja inferior a 2 Ω. 14 Intervalos de Confiança para os Parâmetros de uma População Normal Qual deve ser a dimensão da amostra? σ σ σ A = X + z1−α/2 √ − X − z1−α/2 √ = 2z1−α/2 √ , n n n pelo que 2 σ2 4z1−α/2 σ . 2z1−α/2 √ < ε ⇒ n > ε2 n 15 Intervalos de Confiança para os Parâmetros de uma População Normal Sendo no nosso exemplo ε = 2 e α = 0.05, vem n> 4 × 1.962 × 42 ' 61.47 22 pelo que devemos considerar n = 62. Nota No caso de se desconhecer σ uma estimativa prévia pode ser usada, desde que se suspeite que a dimensão da amostra será “grande”(n > 30). 16 Intervalos de Confiança para os Parâmetros de uma População Normal Na construção de um I.C. para µ com σ desconhecido usa-se a variável fulcral X −µ √ _ tn−1 . S/ n Intervalo de Confiança para µ com σ desconhecido O I.C. a (1 − α) × 100% de µ é S S √ √ X − tn−1;1−α/2 , , X + tn−1;1−α/2 n n onde tn−1;1−α/2 denota o quantil 1 − α/2 da distribuição t de Student com n − 1 graus de liberdade. 17 Intervalos de Confiança para os Parâmetros de uma População Normal Exemplo (6.3) Suponha que no exemplo 6.2 o desvio padrão é desconhecido. Obtenha um I.C. a 95% para o valor esperado da resistência da componente. Neste caso precisamos de s = 4.33 e t3;0.975 = 3.182, pelo que 4.33 4.33 =]3.236, 17.014[. 10.125 − 3.182 × √ , 10.125 + 3.182 × √ 4 4 18 Intervalos de Confiança para os Parâmetros de uma População Normal Nota Repare-se que quando σ é desconhecido a amplitude do I.C. é maior do que quando é conhecido. No caso de estarmos interessados em construir um I.C. para a variância, σ 2 , de uma população Normal, com µ desconhecido, a variável fulcral a considerar é 2 n X Xi − X (n − 1)S 2 = _ χ2n−1 . σ σ2 i=1 19 Intervalos de Confiança para os Parâmetros de uma População Normal Intervalo de Confiança para σ 2 com µ desconhecido O I.C. a (1 − α) × 100% de σ 2 é (n − 1)S 2 (n − 1)S 2 , . χ2n−1;1−α/2 χ2n−1;α/2 onde χ2n−1;β representa o quantil de probabilidade β da distribuição de qui-quadrado com n − 1 graus de liberdade. 20 Intervalos de Confiança para os Parâmetros de uma População Normal Exemplo (6.4) Considerando novamente o exemplo 6.2, com µ e σ 2 ambos desconhecidos, o I.C. a 90% para σ 2 é " # 3 × 4.332 3 × 4.332 3 × 4.332 3 × 4.332 , = =]7.197, 159.792[. , 7.815 0.352 χ23;0.95 χ23;0.05 21 Intervalos de Confiança para os Parâmetros de uma População Normal Intervalo de Confiança para σ com µ desconhecido O I.C. a (1 − α) × 100% de σ é #s " s (n − 1)S 2 (n − 1)S 2 , . χ2n−1;1−α/2 χ2n−1;α/2 Exemplo (6.5) Do exemplo 6.4 segue-se que o I.C. a 90% para σ é √ √ ] 7.197, 159.792[=]2.683, 12.641[. 22 Intervalos de Confiança para os Parâmetros de uma População Não Normal O TLC pode ser usado na construção de intervalos de confiança assintóticos de parâmetros de populações não Normais. Exercı́cio (Intervalo de Confiança para uma Proporção) Seja (X1 , . . . , Xn ) uma a.a. de uma população X _ Bernoulli(p), com p desconhecido. Obtenha um I.C. aproximado a (1 − α) × 100% para p. 23 Comparação dos Parâmetros de Duas Populações Normais Suponhamos agora que (X1 , . . . , Xm ) e (Y1 , . . . , Yn ) são a.a. de populações Normais com valor médio e desvio padrão µX e σX , e µY e σY , respectivamente. Denotaremos m Xm = 1 X Xi m m e SX2 = i=1 i=1 n 1X Yn = Yj n j=1 1 X (Xi − X m )2 m−1 n e SY2 1 X = (Yj − Y n )2 . n−1 j=1 24 Intervalo de Confiança para a Diferença entre Valores Médios com base em Amostras Independentes 1o Caso: As variâncias populacionais σX2 e σY2 são conhecidas. A variável fulcral a usar para construir um I.C. para µX − µY é (X m − Y n ) − (µX − µY ) q 2 _ N(0, 1) . σ2 σ X Y m + n Intervalo de Confiança para µX − µY O I.C. a (1 − α) × 100% de µX − µY é s s 2 2 2 2 σX σ σX σ X m − Y n − z1−α/2 + Y , X m − Y n + z1−α/2 + Y . m n m n 25 Intervalo de Confiança para a Diferença entre Valores Médios com base em Amostras Independentes 2o Caso: As variâncias populacionais σX2 e σY2 são desconhecidas mas iguais. A variável fulcral a considerar agora é (X m − Y n ) − (µX − µY ) q _ tm+n−2 , SP m1 + n1 onde SP2 = (m − 1)SX2 + (n − 1)SY2 . m+n−2 26 Intervalo de Confiança para a Diferença entre Valores Médios com base em Amostras Independentes Intervalo de Confiança para µX − µY O I.C. a (1 − α) × 100% de µX − µY é # X m − Y n − tm+n−2;1−α/2 SP r 1 1 + , X m − Y n + tm+n−2;1−α/2 SP m n r 27 " 1 1 . + m n Intervalo de Confiança para a Diferença entre Valores Médios com base em Amostras Independentes Exemplo (6.6) As classificações obtidas num teste de Probabilidades e Estatı́stica (escala 0 a 20) pelos alunos dos cursos A e B são as que se seguem: Curso A Curso B n 25 22 x 10.2 13.8 s2 3.4 2.2 Pode afirmar-se que a classificação média do curso A é significativamente inferior à do curso B? 28 Intervalo de Confiança para a Diferença entre Valores Médios com base em Amostras Independentes I Admitiremos que as classificações no teste seguem uma distribuição Normal em ambos os cursos, com variâncias populacionais desconhecidas mas iguais; I Para um nı́vel de significância α = 0.05, temos t45;0.975 = 2.014, I e sP2 = (25 − 1) × 3.4 + (22 − 1) × 2.2 = 2.84 . 25 + 22 − 2 29 Intervalo de Confiança para a Diferença entre Valores Médios com base em Amostras Independentes Assim, o I.C. a 95% para a diferença das classificações médias, µA − µB , é r √ 1 1 + =] − 4.59, −2.61[. 10.2 − 13.8 ± 2.014 × 2.84 × 25 22 Como o I.C. apenas contém números negativos, há razões para suspeitarmos que µA − µB < 0, ou seja, que a classificação média no teste do curso A é inferior à do curso B. 30 Intervalo de Confiança para a Diferença entre Valores Médios com base em Amostras Independentes Nota Nem sempre faz sentido admitirmos que as variâncias populacionais desconhecidas são iguais. Porém, no caso de m, n > 30 podemos invocar o TLC, e o facto de as variâncias empı́ricas “convergirem em probabilidade”para as respectivas variâncias populacionais, e propor como I.C. aproximado s s SX2 SX2 SY2 SY2 X m − Y n − z1−α/2 . + , X m − Y n + z1−α/2 + m n m n 31 Intervalo de Confiança para o Quociente entre Variâncias Populacionais com base em Amostras Independentes Se o objectivo for construir um I.C. para 2 σX 2 σY com base em amostras (X1 , . . . , Xm ) e (Y1 , . . . , Yn ) independentes de duas populacões Normais com valores médios desconhecidos, a variável fulcral a considerar é σX2 SY2 . _ Fn−1,m−1 . σY2 SX2 32 Intervalo de Confiança para o Quociente entre Variâncias Populacionais com base em Amostras Independentes Intervalo de Confiança para σX2 /σY2 O I.C. a (1 − α) × 100% de # σX2 σY2 é S2 S2 Fn−1,m−1;α/2 × X2 , Fn−1,m−1;1−α/2 × X2 SY SY " onde Fν1 ,ν2 ;β denota o quantil de probabilidade β da F de Snedecor com ν1 e ν2 graus de liberdade. 33 Intervalo de Confiança para o Quociente entre Variâncias Populacionais com base em Amostras Independentes Exemplo (6.7) Será razoável supor no exemplo 6.6 que as variâncias populacionais são iguais para α = 0.05? 34 Intervalo de Confiança para o Quociente entre Variâncias Populacionais com base em Amostras Independentes Como F21,24;0.025 = 0.42 e F21,24;0.975 = 2.31 (*) vem 3.4 3.4 =]0.649, 3.570[, , 2.31 × 0.42 × 2.2 2.3 pelo que sendo o 1 um possı́vel valor para σX2 /σY2 , podemos admitir com um risco de 5% que σX2 = σY2 . (*) Na tabela de quantis fornecida o quantil mais próximo que temos é o F20,24;0.975 = 2.33, que pode ser usado como aproximação de F21,24;0.975 . 35