Intervalo de Confiança e cálculo de tamanho de amostra Henrique Dantas Neder Intervalo de confiança para a média da população µX I Até o momento discutimos as propriedades da distrbuição normal e vimos que dentro de certa condição (amostras grandes) podemos generalizar o seu uso para calcular probabilidades referentes a valores da média da amostra X e a P soma da dos valores amostrais S = ni=1 Xi . Verificamos que para qualquer tamanho de amostra (mesmo para amostras pequenas) a distribuição amostral das médias amostrais terá média igual a média da população (E (X ) = E (X ) ou dito de outra forma µX = µX ) e que a variância das médias amostrais será igual a variância de X dividido por n (σX2 = I σX2 n ). Verificamos também que a média de S será igual a média da população multiplicada pelo tamanho da população (µS = µ × N) e a variância de S = n × σX2 . Estas propriedades são válidas para qualquer tamanho da amostra. Somente é necessário ter tamanho grande de amostra para a distribuição de X e de S serem normais. Intervalo de confiança para a média da população µX I Quando selecionamos aleatoriamente (amostra aleatoria simples) uma amostra de tamanho n > 30 de uma população qualquer a probabilidade do valor da média da amostra X ser menor do que um determinado valor X̄k : X̄k − µX P(X < X̄k ) = P(z < ) σX I Por exemplo, se n = 40, µX = 50 e σX = 20, a probabilidade de X̄ ser menor do que X k = 55 é: 55 − 50 √ ) = .31622768 P(X < 55) = P(z < 20/ 40 I Podemos também afirmar que: P(−1.96 < z < 1.96) = 0.95 Esta expressão é equivalente a: P(−1.96 < X −µ < 1.96) = 0.95 σX Intervalo de confiança para a média da população µX I Manimulando algebricamente a desigualdade temos: P(−1.96 × σX < X − µ < 1.96 × σX ) = 0.95 P(−X − 1.96 × σX < −µ < −X + 1.96 × σX ) = 0.95 P(X + 1.96 × σX > µ > X − 1.96 × σX ) = 0.95 I Reordenando os termos da desigualdade temos: P(X − 1.96 × σX < µ < X + 1.96 × σX ) = 0.95 Intervalo de confiança para a média da população µX I Esta última expressão indica que podemos construir um intervalo de confiança de 95% de probabilidade para o valor do parâmetro µX conhecendo-se o valor de X . Por exemplo, de acordo com o exemplo anterior, suponhamos que não conhecemos µX e que X = 40 ,σX = 20 e n = 40: P(40 − 1.96 × σX < µ < 40 − 1.96 × σX ) = 0.95 20 20 P(40 − 1.96 × √ < µ < 40 − 1.96 × √ ) = 0.95 40 40 P(33.801936 < µ < 46.198064) = 0.95 I Então podemos afirmar que existe uma probabilidade de 95% de que o valor do parâmetro µX esteja contido no intervalo indicado nesta última expressão. Observe que não termos certeza absoluta (probabilidade de 100%) de que este valor esteja contido nos limites do intervalo. Intervalo de confiança para a média da população µX I I I Mas é um grande avanço a uma simples estimativa de ponto (simplesmnete afirmarmos que a média amostral X = 40). Com isto podemos determinar uma região na qual existe uma determinada probabilidade de conter o verdadeiro valor do parâmetro desconhecido. É importante observar que jamais conheceremos o verdadeiro valor do parâmetro µX . Isto aconteceria apenas se conhecessessemos toda a população. Mas já é uma grande vantagem podermos construir este intervalo. Neste caso estamos realizando uma operação de inferência. Inferência significa desenvolver qualquer afirmativa a respeito do valor de um parâmetro a partir de resultados amostrais. Não conhecemos a população completa, conhecemos apenas os valores de uma única amostra selecionada desta população, mas a partir desta informação podemos estabelecer algumas afirmativas a respeito de um determinado parâmetro (no caso deste exemplo de intervalo estamos tratando do parâmetro µX que é a média desconhecida da população. Intervalo de confiança para a média da população µX I Chamamos 1 − α de nível de confiança do intervalo. Se 1 − α = 0.95, então α = 0.05. No caso do exemplo anterior (X = 40 ,σX = 20 e n = 40), podemos calcular um intervalo de confiança de 80% de probabilidade (1 − α = 0.80) para o parâmetro µX como: I Se 1 − α = 0.80 então α = 0.20 e 1 − α/2 = 1 − 0.2/2 = 0.9. Portanto: z1−α/2 = z0.9 = φ−1 (0.9) = 1.2815516 I Desta forma, um intervalo de confiança de 80% para a média populacional será: P(40 − 1.2815516 × σX2 < µ < 40 − 1.2815516 × σX2 ) = 0.80 P(40 − 1.2815516 × √2040 < µ < 40 − 1.2815516 × √2040 ) = 0.80 P(35.947378 < µ < 44.052622) = 0.80 Intervalo de confiança para a média da população µX I Observe que, em relação ao intervalo de 95% de probabilidade, este intervalo ficou com uma amplitude menor. A amplitude do intervalo de confiança dependerá do valor da expressão: σX (2) z1−α/2 × n I Desta forma a amplitude aumenta quando σX aumenta. Isto ocorre quando temos uma população com maior variância.Então, para populações de maiores variâncias teremos (mantido o mesmo tamanho n de amostra e o mesmo nível de confiança 1 − α) maiores amplitudes de intervalos de confiança. I A amplitude do intervalo de confiança também pode aumentar (de acordo com a expressão anterior) com a redução do tamanho da amostra n. Intervalo de confiança para a média da população µX I Uma terceira forma de aumentar a amplitude do intervalo de confiança (para mesmo tamanho de amostra e mesma variância da população) é aumentar z1−α/2 . Para fazermos isto temos que aumentar o nível de confiança 1 − α do intervalo. I Aumentar o tamanho (amplitude) do intervalo de confiança significa reduzir a precisão da estimativa por intervalo. Para aumentar a precisão da estimativa temos que reduzir o tamanho (amplitude) do intervalo. I Só podemos fazer isto através de três maneiras: 1) reduzir o grau de confiança 1 − α do intervalo; 2) aumentar o tamanho 2 n da amostra e 3) reduzir a variância σX da população. Como a variância da população geralmente é um dado do problema, temos apenas as duas primeiras opções. Intervalo de confiança para a média da população µX I A esta altura já deu para perceber que existe uma espécie de “trade-off” entre precisão do intervalo e nível de confiança do intervalo. Se não podemos auterar o tamanho n da amostra, quando aumentamos a precisão do intervalo somos obrigados a reduzir o seu grau de confiança e quando diminuimos a precisão automaticamente aumentamos o seu grau de confiança. Intervalo de confiança para a média da população µX I Na verdade só existe uma maneira de aumentarmos simultaneamente a precisão e confiança do intervalo: aumentarmos o tamanho da amostra. Todo este raciocínio pode ser obtido da análise da expressão (2) anterior. I O intervalo de confiança pode ser interpretado de duas formas: 1) Um intervalo de confiança de 1 − α de probabilidade significa que existe esta probabilidade de que o verdadeiro valor desconhecido do parâmetro µ esteja contido entre os limites inferior e superior do intervalo. 2) Se selecionassemos 100 amostras de mesmo tamanho n a partir de uma população com parâmetro (média populacional) µ e fossem construidos 100 intervalos de confiança a partir de cada X usando a expressão (1) anterior, 100 × (1 − α) destes intervalo conteriam o valor de µ desconhecido. Intervalo de confiança para a média da população µX I Vamos verificar esta última interpretação fazendo a simulação no computador de 100 intervalos de 95% de confiança construidos a partir de 100 amostras de tamanho n = 50 e selecionadas a partir de uma população com média µ = 40. A partir da construção destes 100 intervalos de confiança iremos contar quantos contem µ. * ROTINA PARA CONSTRUÇÃO DE 100 INTERVALOS DE CONFIANÇA clear set seed 9999 * GERA 10 MIL OBSERVAÇÕES VAZIAS set obs 10000 * GERA VALORES ALEATORIOS DE UMA POPULAÇÃO NORMAL * COM MÉDIA MU = 40 E DESVIO PADRÃO SIGMA = 20 gen x = rnormal(40, 20) * SALVA ESTES DADOS COMO UMA POPULAÇAO DE DADOS save "D:\ECN26\pop.dta", replace * CRIA UMA VARIAVEL ESCALAR COM O VALOR DA MÉDIA DA POPULAÇÃO scalar mu = 40 * CRIA UMA MACRO LOCAL PARA CONTAR (INICIALIZA COM ZERO) local contador = 0 * INICIA “LOOP” COM 1000 LAÇOS PARA SELECIONAR 1000 * AMOSTRAS DA MESMA POPULAÇÃO E CALCULAR A MÉDIA * AMOSTRAL E OS LIMITES DOS INTERVALOS forvalues i=1(1)1000 { * ABRE A POPULAÇÃO CRIADA ANTERIORMENTE use "D:\ECN26\pop.dta", clear * SELECIONA UMA AMOSTRA ALEATORIA DE TAMANHO n = 50 sample 50, count * CALCULA A MÉDIA DA AMOSTRA (VALOR ARMAZENADO EM r(mean) summa x * CALCULA LIMITES DO INTERVALO DE CONFIANÇA scalar li = r(mean) - invnormal(.975)*20/sqrt(50) scalar ls = r(mean) + invnormal(.975)*20/sqrt(50) * TESTA SE MU CAI DENTRO DOS LIMITES if mu > li & mu < ls { local contador = ‘contador’ + 1 } } * APRESENTA O VALOR DO CONTADOR APÓS AS 1000 REALIZAÇÕES disp "contador = ", ‘contador’ * APAGA O ARQUIVO DE DADOS DA POPULAÇÃO erase "D:\ECN26\pop.dta" Intervalo de confiança para a média da população µX I O resultado apresentado a partir da execução desta rotina é que sendo selecionadas 1000 amostras da mesma população, construindo-se 1000 intervalos de confiança, 950 destes intervalos contem o valor do parâmetro µ = 40. I Neste caso conhecemos o valor de µ para podermos realizar a simulação. Na prática não conhecemos µmas podemos construir um intervalo em torno de X e fazermos uma afirmação (com base neste intervalo) a respeito da probabilidade de µ estar contido neste único intervalo. Intervalo de confiança para amostras pequenas Quando temos uma amostra pequena (n < 30) e desconhecemos o valor r de σ não podemos usar o valor do desvio padrão amostral Pn (Xi −X )2 i=1 ) no lugar de σ e não podemos usar a (s = n−1 distribuiçao normal padrão. Se a distribuição de X for normal temos que usar a distribuição t de Student de acordo com a seguinte expressão: P(X − t1−α/2 × sX < µ < X + t 1−α/2 × sX ) = 1 − α (3) O valor da variável aleatória t de Student irá depender do número de graus de liberdade e do nível de confiança 1 − α. O número de graus de liberdade é igual a n − 1, porque perdemos um grau de liberdade ao estimarmos a média amostral X . Vamos desenvolver uma pequena rotina do Stata para calcular alguns valores de t para algusn pares de valores de 1 − α e do número de graus de liberdade df : Distribuição t de Student * ROTINA STATA PARA CONSTRUIR PEQUENA TABELA PARA A DISTRIBUIÇÃO t de STUDENT * clear matrix C = J(27,7,0) forvalues i=2(1)27 { matrix C[‘i’,1] = ‘i’ + 3 } local j = 1 foreach k in .10 .05 .025 .01 .005 .001 { local j = ‘j’ + 1 matrix C[1,‘j’] = ‘k’ } forvalues i = 2(1)27 { local j = 1 foreach k in .10 .05 .025 .01 .005 .001 { local j = ‘j’ + 1 matrix C[‘i’,‘j’] = invttail(‘i’ + 3,‘k’) } } matrix list C svmat C, names(C) format C2-C5 %5.4f xmlsave "D:\ECN26\APOSTILA DE ESTATISTICA\TABELA DISTRIBUIÇÃO t de STUDENT.xml", doctype(excel) replace Distribuição t de Student Esta rotina gera a seguinte tabela: 1 − α/2 0.1 0.05 0.025 0.01 0.005 0.001 5 1.4759 2.0150 2.5706 3.3649 4.0321 5.8934 6 1.4398 1.9432 2.4469 3.1427 3.7074 5.2076 7 1.4149 1.8946 2.3646 2.9980 3.4995 4.7853 8 1.3968 1.8595 2.3060 2.8965 3.3554 4.5008 9 1.3830 1.8331 2.2622 2.8214 3.2498 4.2968 10 1.3722 1.8125 2.2281 2.7638 3.1693 4.1437 11 1.3634 1.7959 2.2010 2.7181 3.1058 4.0247 12 1.3562 1.7823 2.1788 2.6810 3.0545 3.9296 13 1.3502 1.7709 2.1604 2.6503 3.0123 3.8520 14 1.3450 1.7613 2.1448 2.6245 2.9768 3.7874 15 1.3406 1.7531 2.1314 2.6025 2.9467 3.7328 16 1.3368 1.7459 2.1199 2.5835 2.9208 3.6862 graus de liberdade Distribuição t de Student 1 − α/2 0.1 0.05 0.025 0.01 0.005 0.001 17 1.3334 1.7396 2.1098 2.5669 2.8982 3.6458 18 1.3304 1.7341 2.1009 2.5524 2.8784 3.6105 19 1.3277 1.7291 2.0930 2.5395 2.8609 3.5794 20 1.3253 1.7247 2.0860 2.5280 2.8453 3.5518 21 1.3232 1.7207 2.0796 2.5176 2.8314 3.5272 22 1.3212 1.7171 2.0739 2.5083 2.8188 3.5050 23 1.3195 1.7139 2.0687 2.4999 2.8073 3.4850 24 1.3178 1.7109 2.0639 2.4922 2.7969 3.4668 25 1.3163 1.7081 2.0595 2.4851 2.7874 3.4502 26 1.3150 1.7056 2.0555 2.4786 2.7787 3.4350 27 1.3137 1.7033 2.0518 2.4727 2.7707 3.4210 28 1.3125 1.7011 2.0484 2.4671 2.7633 3.4082 29 1.3114 1.6991 2.0452 2.4620 2.7564 3.3962 30 1.3104 1.6973 2.0423 2.4573 2.7500 3.3852 graus de liberdade Intervalo de confiança para a proporção populacional I Da mesma forma que construimos um intervalo de confiança para a média µX da população, também podemos construir um intervalo de confiança para a proporção populacional p I Suponhamos que em uma população eleitores, uma proporção p de eleitores tenha intenção de votar em determinado candidato. I Iremos definir uma variável aleatória de Bernoulli X de forma que: Xi = 1 se a i-ésima pessoa tenha a intenção de votar no candidato Xi = 0 se a i-ésima pessoa não tenha a intenção de votar no candidato Intervalo de confiança para a proporção populacional I Se selecionarmos aleatoriamente (amostra aleatória simples com reposição) uma amostra de tamanho n de eleitores, o número total de eleitores dentro da amostra que tem a P intenção de votar no candidato ( ni=1 Xi ) segue uma distribuição binomial com parâmetros n e p. I A proporção amostral de eleitores p̂ = ni=1 Xi /n que pode ser interpretada como sendo uma média amostral de uma variável aleatória Bernoulli. I Pelo Teorema do Limite Central p̂ terá distribuição normal quando n → ∞. P Intervalo de confiança para a proporção populacional I A questão é saber qual é a média (esperança matemática) de p̂, ou seja, E (p̂) e qual é a variãncia de p̂, ou seja, var (p̂) = σp̂2 . I Podemos demonstrar que E (p̂) é p, ou seja, p̂ é um estimador não viesado para p. I Isto significa que se slecionarmos todas as amostras de mesmo tamanho n e calcularmos para cada uma delas uma proporção amostral p̂, a média de todas estas proporções amostrais será igual ao valor do parâmetro p. Intervalo de confiança para a proporção populacional I Para demonstrar isto basta pensar p̂ como sendo uma média de uma variável aleatória Bernoulli calculada para os n elementos de uma amostra. Como a média amostral é um estimador não viesado para a média populacional mostramos que E (p̂) = p. I A variância de p̂ é dada por P var (p̂) = var ( n1 ni=1 Xi ) = n12 × np(1 − p) = somatório é uma variável aleatória binomial. I p(1−p) n já que o Podemos então dizer que para n → ∞, p̂ segue aproximadamente uma distribuição normal com média E (p̂) = p e variância var (p̂) = p(1−p) n Intervalo de confiança para a proporção populacional I Para construirmos um intervalo de confiança para a proporção populacional (e seguindo as mesmas operações que usamos no caso da média da população µX podemos utilizar a expressão: s P(p̂ −z1−α/2 × p(1 − p) < p < p̂ +z1−α/2 × n s p(1 − p) ) = 1−α n (4) I Observe que na expressão (3) caimos em um círculo vicioso; para construirmos um intervalo de confiança para p precisamos do valor de p. I Na prática, temos apenas o valor de p̂ e substituimos este valor na expressão (3) conduzindo a: s P(p̂ −z1−α/2 × p̂(1 − p̂) < p < p̂ +z1−α/2 × n s p̂(1 − p̂) ) = 1−α n (5) Intervalo de confiança para a proporção populacional Um exemplo: suponhamos que uma amostra de tamanho n = 50 de eleitores tenha 30 eleitores a favor de um determinado candidato. O intervalo de confiança de 95 % de probabilidade para a proporção populacional p será: r r 30 (1− 30 ) 30 (1− 30 ) 50 50 50 50 < p < 30 ) = 0, 95 P( 30 50 − 1, 96 × 50 50 + 1, 96 × 50 P(0, 4642 < p < 0, 7358) = 0, 95 Se quisermos calcular um intervalo de confiança de 80 % de probabilidade: q q −1 P( 30 50 − φ (.90) × 30 30 50 (1− 50 ) 50 <p< P(0, 51121 < p < .68878) = 0, 80 30 50 + φ−1 (.90) × 30 30 50 (1− 50 ) 50 ) = 0, 80 Intervalo de confiança para a proporção populacional I Duas questões sobre este último intervalo: 1) Porque usamos φ−1 (.90)? Como o intervalo é de 80% deverá deixar 10% em cada cauda. Então o limite superior terá que deixar uma área a esquerda de 90% e o limite inferior deixará uma área a esquerda de 10%. 2) Repare que o intervalo (quando passamos de 90% para 80%) contrai-se. O que já havíamos dito: mantido o mesmo tamanho da amostra, quando diminuimos o nível de confiança a precisão do intervalo aumenta (porque a amplitude do intervalo reduz). Determinação do tamanho da amostra I Até o momento mostramos como calcular os limites de um intervalo quando conhecemos X ou p̂ e o tamanho da amostra n. I Mas se quisermos resolver o problema inverso: temos o tamanho do intervalo e desejamos conhecer o tamanho da amostra n. Este deve ser o tamanho da amostra necessário para construir um intervalo de confiança com determinado nível de confiança e determinado erro de amostragem. I Para o caso da estimação do parâmetro µ, a metade do tamanho do intervalo, que chamamos erro de amostragem, é igual a: √ (6) e = z1−α/2 × σX = z1−α/2 × σX / n Determinação do tamanho da amostra I Fazendo uma manipulação algébrica da expressão (5) temos: n= z1−α/2 × σX e 2 I Por exemplo, desejamos estimarmos µX , com um erro de amostragem e = 10, com σX = 20 e nível de confiança 1 − α = 0, 95. I Para 1 − α = 0, 95 então, 1 − α/2 = 0, 975 e φ−1 (0, 975) = 1.959964 I n= 1−α/2 ×σX z e 2 = 1.959964×20 10 2 = 15.36 (7) Determinação do tamanho da amostra I Então concluimos que para estimar a média populacional µX e com um erro de amostragem e = 10 , com σX = 20 e nível de confiança 1 − α = 0, 95, precisamos de uma amostra de tamanho n = 16. I Para uma amostra com as mesmas características e nível de confiança 1 − α = 0, 99, precisamos de n = 27 (faça as contas). I Podemos observar que para determinar o tamanho da amostra para estimar µX sempre precisamos do valor de σX . Na prática, este valor é desconhecido. I Precisamos primeiro r realizar uma amostra piloto para estimar Pn (Xi −X )2 i=1 (que é um estimador não σX através de sX = n−1 viesado para σX , ou seja E (sX ) = σX . Determinação do tamanho da amostra (amostragem pelas proporções) I Para o caso da determinação do tamanho da amostra quando o objetivo é estimar p, o erro de amostragem é dado por: s e = z1−α/2 × σp̂ = z1−α/2 × I (8) Manipulando os termos da expressão (7), temos: n= I p(1 − p) n 2 z1−α/2 × p(1 − p) e2 (9) Se o objetivo da amostragem é o de justamente estimar p, substituimos na expressão (8), o valor de p que torna máximo o valor de n (ou seja, trabalhamos a favor da segurança). Neste caso p = 0, 5. Determinação do tamanho da amostra (amostragem pelas proporções) I Até o momento estamos considerando que a nossa amostra é realizada com reposição e neste caso não precisamos fazer correção de população finita no caso em que Nn > 0, 05. I Quando a amostragem é feita com reposição, uma expressão mais exata para o erro de amostragem é: s e = z1−α/2 × σp̂ = z1−α/2 × I p(1 − p) N − n × n N −1 Exercício: determinar uam expressão para n a partir da expressão (9). (10) Intervalo de Confiança - exercícios 1) Numa fábrica de computadores a administração pretende-se uma estimativa para o tempo médio de vida de um determinado tipo de disco rígido. Para tal, foi seleccionada uma amostra constituída por 15 computadores. Com base nesta amostra obteve-se um tempo médio de vida igual a 27 350 horas. Supondo que o tempo de vida segue uma distribuição normal com σv igual a 3000 horas, construa um intervalo de confiança a 99% para o tempo médio de vida dos discos rígidos. Solução: √ √ ) = 0.99 < µX < 27350 + z1−.99/2 × 3000 P(27350 − z1−.99/2 × 3000 15 15 P(27340.292 < µX < 27359.708) = 0.99 Exercícios 2) Com o objectivo de prever a produção de trigo duma certa região dividiu-se a mesma em pequenos talhões, procedendo-se em seguida ao registo, ao acaso, da produção de alguns desses talhões. Admita que a quantidade de trigo produzida por talhão tem distribuição normal com desvio padrão igual a 60 Kg. a) Determine o número mínimo de talhões que o experimentador deverá analisar se desejar garantir, com uma confiança de pelo menos 95%, que a média da amostra difira no máximo 30 Kg do verdadeiro valor da produção média por talhão. b) Qual o número mínimo de talhões que será necessário analisar se o nível de confiança exigido for de 99%? c) Acha que a hipótese de normalidade é essencial na resolução das alíneas a) e b)? Justifique a resposta. Exercícios Solução: a) n= z 1−α/2 ×σX e z 2 = 2 1−α/2 ×σX φ−1 (1−.05/2)×60 2 30 −1 = 2 1.959964×60 30 2 = 15, 36 2 = φ (1−.01/2)×60 = 2.5758293×60 b) n = = e 30 30 26, 53 c) A hipótese de normalidade é essencial pois do contrário X não teria distribuição normal para os tamanhos de amostra. Exercícios 3) Um fabricante produz peças que obedecem a uma norma que especifica que o seu diâmetro deve ser igual a 100 mm. Admita que os diâmetros das peças produzidas são N(μ, σv) e que uma amostra aleatória de 20 peças conduziu aos resultados seguintes: P20 Pn 2 i=1 xi = 1999, 60 e i=1 (xi − x ) = 111, 91 a) Construa um I. C. a 95% para o diâmetro médio das peças. b) Construa um I. C. a 95% para a variância do diâmetro das peças. Exercícios Solução: Quando o tamanho da amostra é pequeno e não se conhece o valor de σ não é apropriado r usar no lugar de σ o valor Pn (Xi −X )2 i=1 ) pois isto produz do desvio-padrão da amostra (s = n−1 resultados incorretos. Ao invés disso, utiliza-se a distribuição t de Student. Para isto é necessário que a distribuição de X seja normal. A regra geral é que quando temos uma amostra grande (n ≥ 30) utiliza-se a distribuição normal padrão e quando temos uma amostra pequena (n < 30), utiliza-se a distribuição t de Student, desde que a distribuição de X seja normal. Utilizaremos a expressão: P(X − t1−α/2 × sX < µ < X + t 1−α/2 × sX ) = 1 − α q q 111.91 1999.6 111.91 P( 1999.6 20 −t1−α/2 × 20−1 < µ < 20 +t 1−α/2 × 20−1 ) = 0.95 O valor de t1−α/2 para um intervalo de 95% de probabilidade é o valor que deixa uma cauda a direita de 0.025 e com 19 graus de liberdade este valorqé t = 2.0930. Portanto: q 111.91 1999.6 111.91 P( 1999.6 −2.0930× < µ < +2.0930× 20 20−1 20 20−1 ) = 0.95 P(94.900431 < µ < 105.05957) = 0.95 Exercícios 4) Num determinado período pré eleitoral foi realizada uma sondagem com o objectivo de analisar a popularidade de dois candidatos A e B num determinado distrito. Para tal, foram inquiridas 780 pessoas residentes nesse distrito manifestando-se 55% dos inquiridos a favor do candidato A. a) Construa um intervalo de confiança a 90%, 95% e 99% para a percentagem de pessoas do distrito que são a favor do candidato A. Comente as diferenças obtidas para os três intervalos. b) Suponha que a percentagem obtida resultou de uma amostra de 1020 pessoas. Determine um intervalo de confiança a 95% para a percentagem de pessoas a favor do candidato A. Comente o resultado obtido. Solução: a) q q p̂×(1−p̂) < p < p̂ + z1−α/2 n q 0.55×(1−0.55) P(0.55 − z1−0.10/2 × <p< 780 q 0.55×(1−0.55) 0.55 + z1−0.10/2 × ) = 0.90 P(p̂ − z1−α/2 × × p̂×(1−p̂) ) n = 1−α Exercícios P(0.5207 < p < .5793) = 0.90 Da mesma forma: q P(0.55 − z1−0.05/2 × 0.55×(1−0.55) <p< 780 q ) = 0.95 0.55 + z1−0.05/2 × 0.55×(1−0.55) 780 z1−0.05/2 = z0.975 = φ−1 (0.975) = 1.9599 P(0.55 − 1.9599 × q q 0.55×(1−0.55) <p< 780 0.55×(1−0.55) ) = 0.95 780 0.55 + 1.9599 × P(0.5151 < p < 0.5849) = 0.95 Da mesma forma: q <p< P(0.55 − z1−0.01/2 × 0.55×(1−0.55) 780 q 0.55 + z1−0.01/2 × 0.55×(1−0.55) ) = 0.99 780 −1 z1−0.01/2 = z0.995 = φ (0.995) = 2.5758 P(0.55 − 2.5758 × q q 0.55×(1−0.55) <p< 780 0.55×(1−0.55) ) = 0.99 780 0.55 + 2.5758 × P(0.5041 < p < .5959) = 0.99 Exercícios q 0.55×(1−0.55) <p 1020 0.55×(1−0.55) ) = 0.95 1020 −1 φ (0.975) = 1.9599 b) P(0.55 − z1−0.05/2 × < q 0.55 + z1−0.05/2 × z1−0.05/2 = z0.975 = P(0.55 − 1.9599 × q q 0.55×(1−0.55) <p< 1020 0.55×(1−0.55) ) = 0.95 1020 0.55 + 1.9599 × P(0.5195 < p < .5805) = 0.95 O resultado mostra que quando aumentamos o tamanho da amostra, mantendo o mesmo nível de confiança (95%), o tamanho (amplitude) do intervalo diminui (aumenta a precisão da estimativa). Exercícios 5) Admita que a direcção de determinada Universidade se dispõe a oferecer aos seus 3800 alunos a possibilidade de estes frequentarem aulas ao Sábado de manhã se a procura para este horário for suficientemente alta. a) Determine a dimensão apropriada da amostra de alunos a inquirir para que a amplitude do intervalo de confiança a 95% para a proporção de alunos com interesse por aquele horário não exceda 0.1? b) Suponha que após realizada a amostragem com o tamanho indicado pelo dimensionamento, o valor da proporção amostral é de 50%. Determine um intervalo de confiança para a proporção populacional de 95% de probabilidade. Solução: O erro de amostragem paar uma estimativa de proporção populacional p (quando consideramos que a amostragem é realizada sem reposição) é dado pela seguinte expressão: q e = z1−α/2 × σp̂ × q N−n N−1 = z1−α/2 × p×(1−p) n × q N−n N−1 Exercícios Elevando ambos os termos desta expressão, temos: 2 e 2 = z1−α/2 × p×(1−p) × N−n n N−1 2 e 2 × n × (N − 1) = z1−α/2 × p × (1 − p) × (N − n) 2 2 2 e ×n ×(N −1)+z1−α/2 ×p ×(1−p)×n = z1−α/2 ×p ×(1−p)×N 2 2 2 n(e × (N − 1) + z1−α/2 × p × (1 − p)) = z1−α/2 × p × (1 − p) × N n= 2 z1−α/2 ×p×(1−p)×N 2 e 2 ×(N−1)+z1−α/2 ×p×(1−p) Esta é a expressão para determinar o tamanho de uma amostra para estimarmos a proporção populacional e quando a amostragem é sem reposição. Neste caso temos que considerar o fator de correção da população finita nos cálculos. Exercícios Substituindo os valores do enunciado na expressão anterior: 1.95992 ×0.5×(1−0.5)×3800 n = 0.12 ×(3800−1)+1.9599 2 ×0.5×(1−0.5) = 93.68 ' 94 b) q 0.50×(1−0.50) 94 q 0.50×(1−0.50) × 94 P(0.50 − 1.9599 × × q q 3800−94 3800−1 < p< 3800−94 0.50 + 1.9599 × 3800−1 ) = 0.95 P(0.4001 < p < 0.5998) = 0.95 Reparem que o erro de amostragem do intervalo é praticamente igual a 0.10. Seria isto uma coincidência? Exercícios 6) Num estudo de mercado quantas pessoas devem ser inquiridas para, com 95% de confiança, se cometer um erro de estimativa da verdadeira proporção de potenciais clientes de um novo produto inferior a 3%? E para se cometer um erro de estimativa inferior a 1%? Exercícios 7) Considere uma amostra aleatória obtida no mercado de trabalho de uma grande cidade, constituída por 2000 indivíduos. Das entrevistas efectuadas constatou-se que 165 pessoas responderam não ter emprego. a) Construa um intervalo de confiança a 95% para a proporção média de indivíduos desempregados na referida cidade. b) Caso pretenda reduzir para metade a amplitude do intervalo relativo à alínea anterior, mantendo o mesmo grau de confiança, qual a dimensão da amostra adequada? Justifique a resposta.