Introdução à Bioestatı́stica Inferência e Intervalo de Confiança Enrico A. Colosimo/UFMG http://www.est.ufmg.br/˜enricoc/ Depto. Estatı́stica - ICEx - UFMG 1/18 Tabela Normal Padrão 2/18 Inferência Estatı́stica 1 Observe que supomos conhecidos: probabilidade de nascer um menino (0.5); média e desvio-padrão do teor de gordura; média e desvio-padrão da pressão diastólica, etc. 2 No mundo real, usualmente, estas quantidades não são conhecidas. 3 Na verdade, o nosso objetivo, é exatamente buscar informações sobre estas quantidades a partir de uma amostra da população. Lembre: (primeiras aulas) 4 comparar cirurgia e fisioterapia para pacientes com incontinência urinária. prevalência de depressão em idosos (Profa. Marisa). preferência do eleitorado por um candidato X, etc. 3/18 Inferência Estatı́stica 1 Utilizar Método Estatı́stico + Amostra para responder à pergunta de interesse. 2 Inferência Estatı́stica consiste, essencialmente, em: Estimativa pontual e intervalar (intervalo de confiança). Teste de hipóteses. Previsão. 4/18 Resultado Fundamental 1: Distribuição de X̄ Suponha uma amostra aleatória de tamanho n retirada de uma população normal com média µ e varância σ 2 . Então √ X̄ ∼ N(µ, σ/ n) ou X̄ − µ √ ∼ Z σ/ n . 5/18 Resultado Fundamental 2: Teorema Central do Limite Suponha uma amostra aleatória de tamanho n retirada de uma população qualquer com média µ e varância σ 2 . Representando tal amostra por n variáveis aleatórias independentes (X1 , ..., Xn ) e, denotando sua média por X̄ , temos que: X̄ − µ √ →Z σ/ n quando n → ∞ e com Z ∼ N(0, 1). 6/18 Teorema Central do Limite Em palavras, o teorema garante que para n grande a distribuição da média amostral, devidamente padronizada, se comporta segundo um modelo Normal com média 0 e variância 1. Pelo teorema temos que quanto maior o tamanho da amostra, melhor é a aproximação. Estudos envolvendo simulações, mostram que, em muitos casos, valores de n ao redor de 30 fornecem aproximações bastante boas para as aplicações práticas. 7/18 Simulação media media Binomial (n=10) Binomial (n=30) Binomial (n=100) Binomial (n=500) Binomial (n=1000) 5.0 5.2 5.4 5.6 5.8 0.46 5.0 5.5 0.50 0.52 0.54 0.47 0.49 0.51 0.53 7.7 7.8 7.9 8.0 8.1 8.2 8.3 8.4 150 Frequency 0 50 40 0 20 Frequency 20 10 Frequency 0 4.5 0.48 4.8 4.9 5.0 5.1 5.2 7.85 7.95 8.05 8.15 media media media Exponencial (n=10) Exponencial (n=30) Exponencial (n=100) Exponencial (n=500) Exponencial (n=1000) 0.8 1.0 media 1.2 1.4 0.8 1.0 1.2 media 1.4 0.8 0.9 1.0 media 1.1 1.2 1.3 80 0 40 Frequency 60 0 20 10 0 5 Frequency Frequency 15 8 6 4 Frequency 0 2 2.0 1.0 0.6 120 media 3.0 media 0.0 0.4 0.56 30 8 6 4 Frequency 0 2 2.0 1.0 4.8 0.52 150 Frequency media 4.6 0.48 0 media 60 0.35 0.40 0.45 0.50 0.55 0.60 0.65 3.0 0.44 50 60 40 Frequency 0 20 15 10 0 5 Frequency 12 Frequency 0 2 4 6 8 2.0 1.0 Frequency 0.0 Uniforme (n=1000) media 0.0 Frequency Uniforme (n=500) 0.30 0.35 0.40 0.45 0.50 0.55 0.60 4.4 Frequency Uniforme (n=100) 80 Uniforme (n=30) 3.0 Uniforme (n=10) 0.85 0.95 media 1.05 1.15 0.95 1.00 1.05 1.10 media Figura: Efeito do tamanho da amostra sobre a distribuição de X̄ 8/18 Exemplo Suponha que para crianças nascidas com peso abaixo de 750g, o nı́vel de bilirrubina sérico tem distribuição Normal com média 8, 5mg/dl e desvio padrão 3, 5mg/dl. Calcule a probabilidade que a média amostra X̄ , para uma amostra de 16 crianças: 9/18 Seja menor que 8 mg/dl Temos que: X̄ ∼ N(8, 5; 3, 5/4) 8 − 8, 5 = −0, 5 3, 5/4 = 0, 875 −0, 5 / 0, 875 = −0, 5714 Então, Pr (X̄ < 8) = Pr (Z < −0, 5714) = Pr (Z > 0, 57) = 0, 5 − 0, 2157 = 0, 28 10/18 Seja maior que 8,2 mg/dl Temos que: 8, 2 − 8, 5 = −0, 3 3, 5/4 = 0, 875 −0, 3 / 0, 875 = −0, 3428 Então, Pr (X̄ > 8, 2) = Pr (Z > −0, 3428) = P(0 < Z < 0, 34) + 0, 5 = 0, 6330 E se a distribuição de bilirrubina não tivesse distribuição normal? 11/18 Intervalo de Confiança para a Média µ Em uma certa população sabemos que a pressão diastólica de seus habitantes tem uma distribuição normal com média desconhecida µ e desvio-padrão σ = 10, 2 mmHg. Forneça uma estimativa pontual e intervalar (95% de confiança) para µ baseado em uma amostra de tamanho 100 em que foi obtido x̄ = 82, 4 mmHg. Estimativa pontual: 82, 4 mmHg Estimativa intervalar: [x̄ − 1, 96 ∗ σ/10 ; x̄ + 1, 96 ∗ σ/10] [82, 4 − 1, 96 ∗ 1, 02 ; 82, 4 + 1, 96 ∗ 1, 02] [80, 4 ; 84, 4] mmHg 12/18 Intervalo de Confiança para a Média µ 1 Como estimar µ se a distribuição não for Normal? Resposta: n = 100 deve ser suficientemente grande para X̄ ter uma distribuição aproximadamente normal pelo Teorema Central do Limite. Desta forma, os resultados anteriores continuam válidos. 2 Como estimar µ se o desvio-padrão σ for desconhecido e n não for suficientemente grande para usarmos o TCL? 13/18 Resultado Fundamental 3: Distribuição T- Student Estimamos a média amostral x̄ e o desvio-padrão amostral s; E substituı́mos σ por s e a distribuição normal pela distruibuição t-Student com n − 1 graus de liberdade. Ou seja, t= x̄ − µ √ ∼ tn−1 s/ n 14/18 0.4 Distribuição Normal versus t 0.2 0.1 0.0 Densidade 0.3 Normal (0,1) t2 t5 t20 −4 −2 0 2 4 x 15/18 Tabela T- Student 16/18 Intervalo de Confiança para a Média µ com σ desconhecido. O crescimento de bebês durante o primeiro mês de vida pode ser modelado pela distribuição Normal. Uma amostra de 10 recém nascidos na região foram sorteados e sua altura acompanhada, fornecendo as seguintes medidas de crescimento em centı́metros: 5,03 ; 5,02 ; 4,95 ; 4,96 ; 5,01 ; 4,97 ; 4,9 ; 4,91 ; 4,9 ; 4,93 (x̄ = 4, 96; s = 0, 049) Forneça uma estimativa pontual e intervalar (95% de confiança) para µ 17/18 Intervalo de Confiança para a Média µ com σ desconhecido. Estimativa pontual: 4, 96 cm Estimativa intervalar: √ [x̄ − t9;0,975 ∗ s/ 10 ; x̄ + t9;0,975 ∗ s/sqrt10] [4, 96 − 2, 26 ∗ 0, 049/3, 16 ; 4, 96 + 2, 26 ∗ 0, 049/3, 16] [4, 96 − 2, 26 ∗ 0, 015 ; 4, 96 + 2, 26 ∗ 0, 015] [4, 96 − 0, 035 ; 4, 96 + 0, 035] [4, 92 ; 4, 99] cm 18/18