Estimação pontual Estimação por intervalos Métodos Numéricos e Estatı́sticos Parte II-Métodos Estatı́sticos Estimação pontual e intervalar Luı́sa Morgado Lic. Eng. Biomédica e Bioengenharia-2009/2010 Luı́sa Morgado Estimação Estimação pontual Estimação por intervalos A Teoria das Probabilidades consiste no estudo dos modelos matemáticos capazes de descrever o comportamento de fenómenos aleatórios, modelos esses que se dizem probabilı́sticos. Foi sobre o estudo de tais modelos que nos debruçamos nos capı́tulos anteriores. Daqui em diante falaremos sobre Estatı́stica, que consiste num conjunto de técnicas quantitativas para recolher, apresentar e interpretar dados relativos a fenómenos aleatórios. Luı́sa Morgado Estimação Estimação pontual Estimação por intervalos Amostra e dado estatı́stico Dada a impossibilidade de observar toda uma população, é necessário recolher um subconjunto que se pretende representativo da população. A esse subconjunto dá-se o nome de amostra. A cada resultado observado, relativo à v.a. (ou caracterı́stica) de interesse (i.e., uma caracterı́stica crucial para o conhecimento do fenómeno aleatório em estudo) dá-se o nome de dado estatı́stico. Luı́sa Morgado Estimação Estimação pontual Estimação por intervalos Amostragem Trata-se de uma vasto conjunto de procedimentos estatı́sticos que encontra motivação na necessidade de obtenção de amostras representativas de uma população. Na população as medidas de localização e de dispersão são fixas e invariantes; são caracterı́sticas da população e designam-se por parâmetros. Na amostra, estas medidas são estimativas dos parâmetros da população e designam-se por estatı́sticas. Luı́sa Morgado Estimação Estimação pontual Estimação por intervalos Exemplos de alguns tipos de amostragem Aleatória sistemática: Uma amostra aleatória sistemática é constituı́da pelos elementos da população seleccionados de k em k elementos. Aleatória simples: Significa que todos os elementos da população têm a mesma probabilidade de serem escolhidos e de virem a fazer parte da amostra de dimensão previamente fixada. Estratificada: Inicialmente a população é dividida em estratos e depois selecciona-se uma amostra em cada estrato. Luı́sa Morgado Estimação Estimação pontual Estimação por intervalos Com a recolha da amostra obtém-se um conjunto de dados cuja leitura nada parece contribuir para a compreensão do fenómeno aleatório em estudo. A estatı́stica Descritiva resolve parcialmente este problema, resumindo e/ou organizando a informação contida nos dados . A inferência estatı́stica compreende um vasto conjunto de métodos que usando a informação contida na amostra, responde a questões especı́ficas da população, tais como Indicar valores ou intervalos de valores razoáveis para parâmetros desconhecidos da população; Averiguar a razoabilidade de conjecturas sobre parâmetros desconhecidos ou famı́lias de distribuições (testes de hipóteses) e/ou a razoabilidade de modelos de regressão que expliquem a relação entre duas variáveis (regressão simples). Luı́sa Morgado Estimação Estimação pontual Estimação por intervalos Amostra Sejam X uma v.a. de interesse; X1 , X2 , . . . , Xn v.a independentes e identicamente distribuı́das (i.i.d.) a X , i.e., Xi ∼i.i.d X , i = 1, 2, . . . , n. Então o vector aleatório X = (X1 , X2 , . . . , Xn ) diz-se uma amostra aleatória (a.a.) de dimensão n proveniente da população X . À observação particular da a.a. X = (X1 , X2 , . . . , Xn ) dá-se o nome de amostra e representa-se por x = (x1 , x2 , . . . , xn ). Luı́sa Morgado Estimação Estimação pontual Estimação por intervalos Porque a a.a. é constituı́da por n v.a. i.i.d. a X , a caracterização probabilı́stica da a.a. é dada por 1 Caso discreto P(X = x) = P(X1 = x1 , X2 = x2 , . . . , Xn = xn ) = P(X1 = x1 ) × . . . × P(Xn = xn ) n n Y Y = P(Xi = xi ) = P(X = xi ) i=1 2 i=1 Caso contı́nuo fX (x) = fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ) = fX1 (x1 ) × . . . × fXn (xn ) n n Y Y = fXi (xi ) = fX (xi ) i=1 Luı́sa Morgado i=1 Estimação Estimação pontual Estimação por intervalos Estatı́stica Seja X = (X1 , X2 , . . . , Xn ) a.a.de dimensão n proveniente da população X . T diz-se uma estatı́stica se se tratar de uma função exclusiva da a.a. i.e., T = T (X ). Note que T não depende de nenhum parâmetro desconhecido. Exemplo Estatı́stica Mı́nimo da a.a. Máximo da a.a. Amplitude da a.a. Média da a.a. Var. corrigida da a.a. Var. não corrigida da a.a. X(1) = mini=1,...,n Xi X(n) = maxi=1,...,n Xi R = X(n) − X(1) Pn X = n1 i=1 Xi 2 1 Pn (X − X )2 S = n−1 i=1 i 2 2 1 Pn 1 = n−1 i=1 Xi − n−1 X P n 2 S 02 = n1 (X − X ) i Pn i=1 2 1 2 = n1 i=1 Xi − n X Luı́sa Morgado Valor observado da estatı́stica x(1) = mini=1,...,n xi x(n) = mini=1,...,n xi r = x(n) − x(1) Pn x = n1 xi i=1 P 2 n 2 1 s = n−1 i=1 (xi − x) 2 2 1 Pn 1 = n−1 i=1 xi − n−1 x Pn 2 s 02 = n1 (x − x) i Pn i=1 2 1 2 = n1 i=1 xi − n x Estimação Estimação pontual Estimação por intervalos O objectivo principal da Estatı́stica é inferir sobre caracterı́sticas da v.a. de interesse com base na amostra recolhida. Considera-se, geralmente, que a distribuição de X é parcial ou totalmente desconhecida Parcialmente desconhecida, se conhecermos o tipo distribucional de X (p.e., Poisson) a menos de um ou mais parâmetros Totalmente desconhecida, se o tipo distribucional de X for especificado de modo muito vago (p.e., distribuição discreta). Luı́sa Morgado Estimação Estimação pontual Estimação por intervalos Parâmetro desconhecido e espaço paramétrico Um parâmetro desconhecido será daqui em diante representado por θ. O espaço paramétrico corresponde ao conjunto de todos os valores possı́veis para o parâmetro θ e representa-se por Θ. Tendo como objectivo adiantar valores razoáveis para os parâmetros desconhecidos na distribuição da variável de interesse, iremos recorrer a estatı́sticas com caracterı́sticas especiais, a que chamaremos estimadores. Luı́sa Morgado Estimação Estimação pontual Estimação por intervalos Estimador A estatı́stica T = T (X ) diz-se um estimador do parâmetro desconhecido θ se T = T (X ) apenas toma valores no espaço paramétrico Θ. Estimativa Ao valor observado do estimador de θ, t = T (x) dá-se o nome de estimativa de θ. Note que o estimador é uma v.a. e como tal tem uma distribuição de probabilidade. Luı́sa Morgado Estimação Estimação pontual Estimação por intervalos Um estimador conduzirá a estimativas mais rigorosas se usufruir de algumas propriedades. Vejamos quais. Estimador centrado O estimador do parâmetro desconhecido θ diz-se centrado se E [T (X )] = θ. Estimador enviesado O estimador do parâmetro desconhecido θ diz-se enviesado se ∃θ ∈ Θ : E [T (X )] 6= θ. Luı́sa Morgado Estimação Estimação pontual Estimação por intervalos Enviesamento de um estimador O estimador do parâmetro desconhecido θ possui enviesamento dado por biasθ [T (X )] 6= E [T (X )] − θ. Notas: Um estimador centrado possui enviesamento nulo; Regra geral há mais do que um estimador para um mesmo parâmetro desconhecido. Quanto menor for o enviesamento de um estimador mais rigorosas serão as estimativas por ele fornecidas. Luı́sa Morgado Estimação Estimação pontual Estimação por intervalos Suponhamos que X é uma v.a. de interesse com distribuição arbitrária, valor esperado µ e variância σ 2 . P A média da a.a. X = n1 ni=1 Xi é um estimador centrado de µ pois ! n n 1X 1X Xi = E (Xi ) E (X ) = E n i=1 n i=1 = n n 1X 1X 1 E (X ) = µ = nµ = µ n i=1 n i=1 n A variância corrigida é um estimador centrado de σ 2 uma vez que " # " n ! # n X 1 X 1 E (S 2 ) = E (Xi − X )2 = E Xi2 − n(aX )2 n − 1 i=1 n−1 i=1 " n # X 1 = E (Xi2 ) − nE [(X )2 ] n − 1 i=1 ( n ) X 1 2 2 = [V (Xi ) + E (Xi )] − n[V (X ) + E (X )] n − 1 i=1 " n 2 # X 1 σ 1 (σ 2 + µ2 ) − n = + µ2 = (nσ 2 + nµ2 − σ 2 − nµ2 ) n − 1 i=1 n n−1 = 1 (n − 1)σ 2 = σ 2 . n−1 Luı́sa Morgado Estimação Estimação pontual Estimação por intervalos Não basta que um estimador seja centrado para garantir estimativas mais rigorosas. Estas serão tanto mais rigorosas quanto menos o estimador se dispersar em torno do verdadeiro valor do parâmetro desconhecido. Erro quadrático médio O erro quadrático médio do estimador T = T (X ), do parâmetro desconhecido θ é dado por EQMθ [T (X )] = E [T (X ) − θ]2 = V [T (X )] + {E [T (X )] − θ}2 = V [T (X )] + {biasθ [T (X )]}2 O EQM quantifica a dispersão esperada do estimador em torno do parâmetro desconhecido; Um estimador será tanto melhor quanto menor for o seu EQM. Luı́sa Morgado Estimação Estimação pontual Estimação por intervalos Eficiência relativa de estimadores Sendo T1 (X ) e T2 (X ) dois estimadores de um mesmo parâmetro desconhecido θ, define-se eficiência de T1 em relação a T2 por eθ [T1 (X ), T2 (X )] = EQMθ [T2 (X )] . EQMθ [T1 (X )] Assim, se eθ [T1 (X ), T2 (X )] > 1 ⇔ EQMθ [T2 (X )] > EQMθ [T1 (X )], e portanto o estimador T1 (X ) é mais eficiente que o estimador T2 (X ). Luı́sa Morgado Estimação Estimação pontual Estimação por intervalos Método da máxima verosimilhança Este método permite obter o valor mais razoável de um parâmetro desconhecido, de entre todos os valores possı́veis para esse mesmo parâmetro, tendo em conta a amostra recolhida. Função de verosimilhança A função de verosimilhança L(θ|x) : Θ → R define-se do seguinte modo: Caso discreto L(θ|x) = P(X = x|θ) = n Y P(X = xi |θ), θ∈Θ i=1 Caso contı́nuo L(θ|x) = fX (x|θ) = n Y fX (xi |θ), θ∈Θ i=1 onde P(·|θ) e fX (·|θ) são a f.p e a f.d.p (resp.) da v.a. de interesse X , tendo em conta que θ é o verdadeiro valor do parâmetro. Luı́sa Morgado Estimação Estimação pontual Estimação por intervalos Estimativa de máxima verosimilhança Obtida a a amostra x = (x1 , . . . , xn ), a estimativa de máxima verosimilhança (EMV) do parâmetro desconhecido corresponde ao ponto de máximo da função de verosimilhança ou, equivalentemente, ao ponto de máximo do logaritmo da função de verosimilhança. Esta estimativa representa-se por θ̂ e é então dada por L(θ̂|x) = max L(θ|x) θ∈Θ ou equivalentemente ln L(θ̂|x) = max ln L(θ|x) θ∈Θ Luı́sa Morgado Estimação Estimação pontual Estimação por intervalos Exemplo Um inquérito realizado a um grupo de 1000 indivı́duos com queixas de insónia revelou que 448 respondem ter dormido bem após a toma de um certo soporı́fero. Deduza a EMV da probabilidade (p) de uma pessoa escolhida ao acaso ter dormido bem tendo tomado o soporı́fero. V.a. de interesse: X =resposta ao inquérito Distribuição: X ∼Bernoulli(p) Parâmetro desconhecido: p = P(X = 1), 0 ≤ p ≤ 1 F.p.: P(X = x) = p x (1 − p)1−x , x = 0, 1 Amostra: x = (x1 , . . . , xn ) amostra de dimensão n = 1000, proveniente da população onde xi = resposta de i-ésima pessoa. 448 x̄ = 1000 = 0.448 = 44.8% de respostas afirmativas. Luı́sa Morgado Estimação Estimação pontual Estimação por intervalos Exemplo (cont.) Função de Qnverosimilhança: Qn L(p|x) = i=1 P(X = xi ) = i=1 p xi (1 − p)1−xi = Pn Pn p i=1 xi (1 − p)n− i=1 xi Função de log-verosimilhança: Pn Pn ln L(p|x) = ln p i=1 xi (1 − p)n− i=1 xi = P P ln(p) ni=1 xi + ln(1 − p) (n − ni=1 xi ) Maximização: A EMV de p, p̂, obtém-se resolvendo ( d ln L(p|x) |p=p̂ = 0 (ponto de estacionaridade) dp p̂ : d 2 ln L(p|x) |p=p̂ < 0 (ponto de máximo) dp 2 Luı́sa Morgado Estimação Estimação pontual Estimação por intervalos Exemplo (cont.) p̂ : Pn P P n− ni=1 xi (n− ni=1 xi )] i=1 xi − |p=p̂ = 0 |p=p̂ = 0 p 1−p dp P Pn P P ⇔ n− ni=1 xi d 2 [ln(p) ni=1 xi +ln(1−p)(n− ni=1 xi )] i=1 xi |p=p̂ < − p 2 − (1−p)2 |p=p̂ < 0 dp 2 Pn Pn ( P P x x n− i=1 i i=1 i (1 P − p̂) ni=1 xiP− p̂ n − ni=1 xi = − =0 1−p̂ n n Pnp̂ Pn ⇔ ⇔ x x n− i i=1 i − i=1 − (1−p̂) <0 − i=1 xi − n− i=1 xi < 0 2 p̂ 2 p̂ 2 (1−p̂)2 d [ln(p) Pn i=1 xi +ln(1−p) ⇔ Luı́sa Morgado Estimação 0 0 P p̂ = n1 ni=1 xi proposição verdadeira Estimação pontual Estimação por intervalos Exemplo (cont.) Estimador de P MV de p: EMV (p) = n1 ni=1 Xi = X (média da amostra). Concretização: p̂ = = = n 1X xi n i=1 no de respostas afirmativas no de pessoas inquiridas 0.448 Luı́sa Morgado Estimação Estimação pontual Estimação por intervalos Exemplo Os tempos observado (em anos) até à 1a colisão de detritos espaciais com diâmetro inferior a 1mm em 4 satélites em MEO foram de 1.2, 1.5, 1.8 e 1.4. Admitindo que tal tempo tem distribuição pertencente ao modelo exponencial de parâmetro λ, vamos determinar o estimador e a estimativa de MV de λ. V.a. de interesse: X =tempo (em anos) até à 1a colisão de detritos espaciais Distribuição: X ∼exponencial(λ) Parâmetro desconhecido: λ, λ > 0 F.d.p.: λe −λx , x ≥ 0 fX (x) = 0, c.c. Amostra: x = (x1 , . . . , xn ) amostra de dimensão n = 4, proveniente da população onde xi = resposta de i-ésima pessoa. x̄ = 1.2+1.5+1.8+1.4 = 1.475 4 Luı́sa Morgado Estimação Estimação pontual Estimação por intervalos Exemplo (cont.) Função de Pn Q Qnverosimilhança: L(λ|x) = i=1 fX (xi ) = ni=1 λe −λxi = λn e −λ i=1 xi Função de log-verosimilhança: Pn P ln L(λ|x) = ln λn e −λ i=1 xi = n ln(λ) − λ ni=1 xi Maximização: A EMV de λ, λ̂, obtém-se resolvendo ( d ln L(λ|x) |λ=λ̂ = 0 (ponto de estacionaridade) dλ λ̂ : d 2 ln L(λ|x) |λ=λ̂ < 0 (ponto de máximo) dλ2 Luı́sa Morgado Estimação Estimação pontual Estimação por intervalos Exemplo (cont.) P − ni=1 xi |λ=λ̂ = 0 λ̂ : − n2 |λ=λ̂ < 0 ( λ P n − ni=1 xi = 0 λ̂ ⇔ − λ̂n2 < 0 ( λ̂ = Pnn xi i=1 ⇔ proposição verdadeira n λ Luı́sa Morgado Estimação Estimação pontual Estimação por intervalos Exemplo (cont.) Estimador de MV de p: EMV (λ) = Pn n X = (X )−1 (média da amostra). i=1 i Concretização: λ̂ = n Pn = (x̄)−1 = 1.475−1 = 0.678 i=1 xi inverso da média da amostra Nota: Repare que não se trata de um estimador centrado de λ. Luı́sa Morgado Estimação Estimação pontual Estimação por intervalos Distribuições amostrais A caracterização probabilı́stica de estatı́sticas, de estimadores ou de suas funções é crucial não só para avaliar as propriedades dos estimadores (como p.e., enviesamento, EQM, eficiência), mas também como veremos a seguir, para obter estimativas intervalares dos parâmetros desconhecidos (aos quais chamaremos intervalos de confiança). É então fundamental conhecer a distribuição de uma estatı́stica, de um estimador ou de sua função, à qual chamamos distribuição amostral (ou distribuição por amostragem). Exemplo Sendo X = (X1 , . . . , Xn ) uma a.a. de dimensão n proveniente da população X com f.d. FX (x), então facilmente se mostra que Estatı́stica X(1) = mini=1,...,n Xi X(n) = maxi=1,...,n Xi Distribuição amostral FX(1) (x) = 1 − [1 − FX (x)]n FX(n) (x) = [FX (x)]n Luı́sa Morgado Estimação Estimação pontual Estimação por intervalos A média é, em geral, o estimador de MV (ou de alguma forma está com ele relacionada) do valor esperado de uma v.a. de interesse, pelo que é fundamental conhecer a sua distribuição. Seja X = (X1 , . . . , Xn ) uma a.a. de dimensão n proveniente da população X . Então População Distribuição amostral da média X ∼normal(µ, σ 2 ) X com distribuição arbitrária (não normal) E (X ) = µ, V (X ) = σ 2 , n grande X ∼normal(µ, X −µ σ √ n σ2 ) n ∼normal(0, 1) O 1o dos dois resultados é exacto e deve-se ao facto de a combinação linear de normais ainda possuir distribuição normal. O 2o resultado é aproximado e é conhecido como o Teorema do Limite Central e só deve ser aplicado quando a v.a. não tem distribuição normal e a dimensão da amostra é suficientemente grande. Luı́sa Morgado Estimação Estimação pontual Estimação por intervalos Exemplo Assuma que a pressão sistólica de uma população saudável segue uma distribuição normal de média 120mmHg e desvio padrão 10mmHg . Num grupo de 25 pessoas, a média da pressão sistólica foi de 124mmHg . Qual a probabilidade de se encontrar uma média superior a esta numa amostra de 25 indivı́duos? Ou, dito de outro modo, qual a proporção de amostras de 25 indivı́duos escolhidas ao acaso nessa população que têm uma média superior a 124mmHg ? De acordo com o 1o dos resultados anteriores, a distribuição amostral da média segue = 4, i.e., uma distribuição normal de parâmetros µ = 120 e σ 2 = 100 25 X ∼normal(120, 4). A probabilidade pedida é então dada por P(X > 124) = 1 − P(X ≤ 124) = 1 − FX (124) = 0.023 no scilab: cdfnor(”PQ”, 124, 120, 2) = 0.977 com consulta das tabelas −120 ∼normal(0, 1) Sendo Z = X √ 10 25 −120 P(X ≤ 124) = P( X √ ≤ 10 25 124−120 10 √ 25 Luı́sa Morgado ) = P(Z ≤ 2) = Φ(2). Estimação Estimação pontual Estimação por intervalos Intervalos de confiança Para além de uma estimativa pontual para um parâmetro desconhecido é importante obter um intervalo que nos dê uma ideia da confiança que se pode depositar na estimativa pontual. Essa estimativa intervalar é designada por intervalo de confiança (IC). A um intervalo de confiança está associado um grau de confiança, usualmente representado por (1 − α) × 100%, cujos valores mais usuais são 90%, 95% e 99% (ou, α = 0.1, 0.05, 0.01, respectivamente). Antes de mais é necessário descever a situação com que lidamos, em particular a v.a. X de interesse e a respectiva distribuição o parâmetro desconhecido para o qual se pretende obter um IC outro eventual parâmetro (conhecido ou não) da distribuição de X . Luı́sa Morgado Estimação Estimação pontual Estimação por intervalos IC para a média, variância conhecida IC para o valor esperado de uma população normal com variância conhecida Sendo Z = X −µ σ √ n , pretendemos determinar aα e bα tal que P(aα ≤ Z ≤ bα ) = 1 − α ou ainda, recorrendo às tabelas ou ao scilab, determinar aα e bα tal que P(Z < aα ) = α aα = Φ−1 α = −Φ−1 1 − α 2 2 2 ⇔ α α −1 P(Z > bα ) = 2 bα = Φ 1− 2 Assim P(aα ≤ Z ≤ bα ) = 1 − α ⇔ P(aα ≤ X −µ σ √ n σ X − b α × √ ≤ µ ≤ X − aα × n α σ α ⇔ P X − Φ−1 1 − × √ ≤ µ ≤ X + Φ−1 1 − × 2 n 2 ⇔P ≤ bα ) = 1 − α σ =1−α √ n σ =1−α √ n σ σ α α IC(1−α)×100% (µ) = x − Φ−1 1 − × √ , x + Φ−1 1 − ×√ 2 n 2 n Luı́sa Morgado Estimação Estimação pontual Estimação por intervalos IC para a média, variância conhecida IC para o valor esperado de uma população arbitrária com variância conhecida Sendo Z = X −µ σ √ n ∼normal(0, 1) (Teorema do limite central), pretendemos determinar aα e bα tal que P(aα ≤ Z ≤ bα ) ' 1 − α ou ainda, recorrendo às tabelas ou ao scilab, determinar aα e bα tal que P(Z < aα ) = α = −Φ−1 1 − α aα = Φ−1 α 2 2 2 ⇐ P(Z > bα ) = α bα = Φ−1 1 − α 2 2 Assim P(aα ≤ Z ≤ bα ) = 1 − α ⇔ P(aα ≤ X −µ σ √ n σ X − b α × √ ≤ µ ≤ X − aα × n α σ α −1 ⇔P X −Φ 1− × √ ≤ µ ≤ X + Φ−1 1 − × 2 n 2 ⇔P ≤ bα ) ' 1 − α σ '1−α √ n σ '1−α √ n α σ α σ IC(1−α)×100% (µ) = x − Φ−1 1 − × √ , x + Φ−1 1 − ×√ 2 n 2 n Luı́sa Morgado Estimação Estimação pontual Estimação por intervalos Exemplo O QI numa população segue uma distribuição normal de variância 152 . Com base numa amostra de dimensão 25, com média amostral de 100, vejamos como contruir o IC a 95% para a média na população. Ora α σ α σ −1 −1 IC(1−α)×100% (µ) = x − Φ 1− × √ ,x + Φ 1− ×√ 2 2 n n onde, neste caso α = 0.05. 0.05 No scilab, o comando cdfnor(”X ”, 0, 1, 1 − 0.05 2 , 2 ) devolve-nos o 0.05 −1 valor de Φ 1 − 2 = 1.96, logo 15 15 IC95% (µ) = 100 − 1.96 × √ , 100 + 1.96 × √ = [94.1, 105.6] 25 25 Luı́sa Morgado Estimação Estimação pontual Estimação por intervalos Quando não conhecemos o valor de σ 2 na população, então a v.a. deixa de ser útil. Neste caso, σ2 será estimado por Z = X −µ S √ n S2 X −µ σ √ n ∼normal(0, 1) e usa-se a v.a. ∼ tn−1 e lê-se Z possui distribuição de t-student com (n − 1) graus de liberdade. A distribuição de t-student é semelhante à distribuição normal reduzida. É simétrica em relação à média, (0), mas com um desvio padrão dependente de um parâmetro denominado graus de liberdade; Existe uma distribuição de t-student diferente para cada no de graus de liberdade; Geralmente, os graus de liberdade correspondem à diferenç a entre a dimensão amostral e o no de parâmetros a estimar. Luı́sa Morgado Estimação Estimação pontual Estimação por intervalos IC para a média, variância desconhecida IC para o valor esperado de uma população normal com variância desconhecida Sendo Z = X −µ S √ ∼ t(n−1) , pretendemos determinar aα e bα tal que n P(aα ≤ Z ≤ bα ) ' 1 − α ou ainda, recorrendo às tabelas ou ao scilab, determinar aα e bα tal que ( α aα = Ft−1 = −Ft−1 1− α P(Z < aα ) = α 2 2 (n−1) (n−1) 2 ⇐ P(Z > bα ) = α bα = Ft−1 1− α 2 (n−1) 2 P(aα ≤ Z ≤ bα ) = 1 − α ⇔ P(aα ≤ X − Ft−1 (n−1) S √ n S X − bα × √ ≤ µ ≤ X − aα × n α S α 1− 1− × √ ≤ µ ≤ X + Ft−1 × (n−1) 2 n 2 ⇔P ⇔P X −µ ≤ bα ) ' 1 − α S '1−α √ n S '1−α √ n α s α s IC(1−α)×100% (µ) = x − Ft−1 1− × √ , x + Ft−1 1− ×√ (n−1) (n−1) 2 n 2 n Luı́sa Morgado Estimação Estimação pontual Estimação por intervalos Exemplo A duração em horas de uma pilha de certa máquina possui distribuição que se admite normal com valor esperado e variância desconhecidas. Recolheu-se uma amostra de 10, tendo-se obtido o seguinte conjunto de dados: x = (251, 238, 236, 229, 252, 253, 245, 242, 235, 230). Determinemos um intervalo de confiança a 99% para µ. ∼ t(n−1) , o IC pedido é dado por Considerando a v.a. Z = X√−µ S n α s α s −1 IC(1−α)×100% (µ) = x − Ft−1 1 − × , x + F 1 − × √ √ t (n−1) (n−1) 2 n 2 n onde α = 0.01, n = 10, x = 241.1, s 2 = 79.66 e Ft−1 1− (n−1) No scilab, o comando cdft(”T ”, 9, 1 − = Ft−1 1 − 0.01 = 3.2498, logo 2 (9) 0.01 0.01 , 2 ) 2 " IC99% (µ) r = 241.1 − 3.2498 × = [231.927, 250.273] Luı́sa Morgado α 2 = Ft−1 1− (9 0.01 2 devolve-nos o valor de 79.66 , 241.1 + 3.2498 × 10 Estimação r 79.66 10 # . Estimação pontual Estimação por intervalos IC para a média, variância desconhecida IC para o valor esperado de uma população arbitrária com variância desconhecida Usa-se a v.a. Z = X√−µ ∼normal(0, 1) (Teorema do limite central). Pretendemos S n determinar aα e bα tal que P(aα ≤ Z ≤ bα ) ' 1 − α Recorrendo às tabelas ou ao scilab, determinar aα e bα tal que = −Φ−1 1 − P(Z < aα ) = α aα = Φ−1 α 2 2 ⇐ α P(Z > bα ) = 2 bα = Φ−1 1 − α 2 P(aα ≤ Z ≤ bα ) = 1 − α ⇔ P(aα ≤ X −µ S √ n S X − b α × √ ≤ µ ≤ X − aα × n α S α −1 ⇔P X −Φ 1− × √ ≤ µ ≤ X + Φ−1 1 − × 2 n 2 ⇔P α 2 ≤ bα ) ' 1 − α S '1−α √ n S '1−α √ n α s α s IC(1−α)×100% (µ) = x − Φ−1 1 − × √ , x + Φ−1 1 − ×√ 2 n 2 n Luı́sa Morgado Estimação Estimação pontual Estimação por intervalos IC para a variância de uma população normal IC para a variância de uma população normal com valor esperado desconhecido Usa-se a v.a. Z = (n−1)S 2 σ2 √ n ∼ χ2(n−1) e lê-se Z possui distribuição do qui-quadrado com (n − 1) graus de liberdade. Como esta distribuição não é simétrica em relação à origem e tem com suporte R+ temos que determinar aα e bα tal que P(aα ≤ Z ≤ bα ) ' 1 − α −1 α 2 a α = Fχ 2 (n−1) ⇐ −1 b = F 1 − α α 2 χ2 P(Z < aα ) = α 2 P(Z > bα ) = α 2 (n−1) (n − 1)S 2 P(aα ≤ Z ≤ bα ) = 1 − α ⇔ P aα ≤ ≤ b '1−α α σ2 √ n (n − 1)S 2 (n − 1)S 2 ≤ σ2 ≤ ' 1 − α ⇔P −1 α α F −1 1− 2 F 2 2 χ2 χ (n−1) (n−1) (n − 1)S 2 (n − 1)S 2 2 , IC(1−α)×100% (σ ) = −1 α α F −1 1 − F 2 2 χ2 χ2 (n−1) Luı́sa Morgado Estimação (n−1) Estimação pontual Estimação por intervalos IC para a variância de uma população normal IC para a variância de uma população normal com valor esperado conhecido Procede-se como no caso anterior mas a distribuição de Z passa a ter (n) graus de liberdade. Nota: No scilab, o comando cdfchi(”X ”, n, Luı́sa Morgado α ,1 2 − α ) 2 Estimação devolve o valor de F −1 2 χ(n) α 2 Estimação pontual Estimação por intervalos IC para uma proporção Consideremos a população X ∼Bernoulli(p), onde a probabilidade de sucesso, p, é desconhecida. Consideramos que a dimensão da amostra, n, é suficientemente grande (n > 30). Considera-se a v.a., com distribuição aproximada: Z = r X −p ∼normal(0, 1). X (1−X ) n Determinamos aα e bα por aα = −Φ−1 1 − α 2 bα = Φ−1 1 − α 2 X −p P(aα ≤ Z ≤ bα ) ' 1 − α ⇔ P aα ≤ q X (1−X ) n α ⇔ P X − Φ−1 1 − × 2 s X (1 − X ) α ≤ p ≤ X + Φ−1 1 − × n 2 s ≤ bα ' 1 − α X (1 − X ) '1−α n O seguinte aproximadamente igual a (1 −α) × 100%: IC possui grau de confiança q x(1−x) q x(1−x) α −1 IC (p) = x − Φ 1− 2 × , x + Φ−1 1 − α × n 2 n Luı́sa Morgado Estimação