CAPÍTULO 5 - Intervalo de confiança 5.1 Introdução 5.2 Margem de erro (ME) 5.3 Exemplo com a distribuição normal padronizada Z usando os dados de reclamações no capítulo 2, tabela 2.2 e figuras 2.2 e 2.3. 5.4 Tamanho da amostra para variáveis mensuráveis 5.5 Exemplo com distribuição t de Gosset usando os dados de reclamações no capítulo 2, tabela 2.2 e figura 2.2 5.6 Exemplo do conteúdo das latas de cerveja da introdução do capítulo 5.7 Intervalo de confiança para atributos: a distribuição binomial 5.8 Exemplo eleitoral - intervalo de confiança 5.9 Tamanho da amostra para atributos 5.10 As desvantagens do censo universal e as vantagens de pesquisas amostrais 5.11 Exercícios 5.12 Referências. 1 5.1 Introdução • O conceito de intervalo de confiança é diretamente relacionado com a exatidão da média amostral como representação da média da população μ. • A média amostral é uma estatística, estimada de uma amostra com o número de elementos muito menor que a população e, necessariamente existe certo grau de incerteza. • A média da população é um parâmetro existente, mas por causa de alguma razão, por exemplo, o alto custo de examinar todos os elementos da população, o seu valor não é conhecido. O cálculo do intervalo de confiança é um método para quantificar o nível de incerteza envolvido na amostragem. 2 Exemplo • Na cervejaria, um lote de produção de cerveja em lata tem 100.000 unidades, e o conteúdo nominal da lata é 350 ml. Para verificar se o valor de 350 ml prossegue, uma vez por semana uma amostra de 1000 latas é inspecionada e a média amostral calculada. • Não é para esperar que a média amostral das latas seja exatamente igual ao parâmetro populacional, mas podemos esperar sim um intervalo de confiança ao redor da média amostral que contenha a média da população com certa probabilidade (confiança). • A informação sobre a média das latas e os limites de confiança com a respectiva probabilidade é suficiente para o gerente julgar se o lote está dentro dos conformes ou não. 3 5.2 Margem de erro (ME) ESTATÍSTICA (estimada) MÉDIA AMOSTRAL PARÂMETRO (real, mas desconhecido) MÉDIA POPULACIONAL ≤ MARGEM DE ERRO (ME) O valor da margem de erro pode ser escolhido pelo pesquisador, mas como vai ficar claro embaixo, não sem decisões difíceis sobre gastos em tempo e recursos. A margem de erro depende rigorosamente de dois aspectos, o tamanho da amostra e a confiança que é desejada na busca da representatividade da estatística. 4 Figura 5.1 – Para determinado valor de margem de erro, a relação entre a variabilidade, o tamanho da amostra e o nível de confiança. Nível de confiança Amostras grandes A Amostras pequenas B C Variabilidade 5 A margem de erro é a peça chave no cálculo do intervalo de confiança. No meio do intervalo de confiança fica a média amostral. Limite inferiordo intervalode confiança X ME X Limitesuperiordo intervalode confiança X ME A distância entre a média e o limite do intervalo de confiança é exatamente igual à margem de erro. 6 A expressão Z 2 S n é a margem de erro (ME) para determinado nível de confiança (1 – α). S X LS X ME X Z 2 n S X LI X ME X Z 2 n S S IC( , 1 ) X Z ; X Z 2 2 n n S S P X Z X Z 1 2 2 n n 7 5.3 Exemplo com a distribuição normal padronizada usando os dados de reclamações no capítulo 2, tabela 2.2 e figuras 2.2 e 2.3. IC( ,1 ) X Z S ; X Z S 2 n n IC( ; 0,90) 182,89 28,44; 182,89 28,44 154,45; 211,33 2 Existe uma probabilidade de 90% que a média populacional fica entre 154,45 e 211,33 minutos. 8 Figure 5.3 - Para margem de erro igual a 28,44, a relação entre a variabilidade, o tamanho da amostra e o nível de confiança no exemplo das reclamações. As três linhas representam três tamanhos de amostras diferentes: a linha mais baixa representa uma amostra pequena de 10 elementos enquanto as demais linhas representam amostras de tamanho 30 e 50 elementos respectivamente. A figura 5.3 é uma repetição prática da figura 5.1, uma representação teórica, com dados observados baseada no exemplo das reclamações. Na figura, a margem de erro é fixa em 28,44 minutos. 9 5.4 Tamanho da amostra para variáveis mensuráveis Margem de erro = Z S 2 n S n Z * 2 M arg em de erro Z 2 n MEP 2 2 MEP = Margem de erro padronizada 10 Exemplo No exemplo anterior, foi utilizado um valor de Z 2 = 1,64 denotando um nível de confiança de 90% e exigindo uma amostra de tamanho 30. Se o pesquisador for mudar a confiabilidade desejada do intervalo de confiança para um nível de confiança de 95%, o valor se torna 1,96 e aplicando a formula 2 1,96 n 43 28 , 44 94,99 O tamanho da amostra fica em 43 unidades, confirmando que níveis de confiança mais altos exigem amostras maiores. 11 Tamanho da amostra Figure 5.4 – Tamanho da amostra (n = 1 a 900), margem de erro padronizada (MEP = 0,0 a 0,6) e níveis de confiança (1- α = 90% a 99,73%) 901 801 701 601 501 n 90% n 95% n 99% 401 301 201 101 1 n 99,73% 0 0,1 0,2 0,3 0,4 0,5 0,6 MEP Quando MEP aproxima-se ao valor 1,0 (margem de erro e desvio padrão iguais) o tamanho da amostra é pequena, e quando o desvio padrão aumenta em relação a ME, MEP diminuindo, surge a necessidade de obter amostras cada vez maiores. 12 Tabela 5.1 – O efeito do tamanho da população no cálculo do tamanho da amostra. Z 2 n MEP 2 Nn naj N n 1 n = 20 n = 50 n = 150 N naj naj naj 100 16,8 33,56 ??? 250 18,6 41,81 93,98 500 19,3 45,54 115,56 1.000 19,6 47,66 130,55 3.000 19,9 49,20 142,90 5.000 19,9 49,51 145,66 7.000 19,9 49,65 146,87 9.000 20,0 49,73 147,56 11.000 20,0 49,78 148,00 13.000 20,0 49,81 148,30 15.000 20,0 49,84 148,52 13 5.5 Exemplo com distribuição t de Gosset usando os dados de reclamações no capítulo 2, tabela 2.2 e figura 2.2 IC( ,1 ) X t , n1 S S ; X t ,n1 2 2 n n 94,99 94,99 IC( ; 0,90) 182,89 1,70* ; 182,89 1,70* 153,47; 212,37 30 30 Usando a distribuição t, reconhecendo que a amostra de trinta elementos é pequena e não tão representativa da população obriga um afastamento dos limites de confiança para manter o mesmo nível de confiança de 90%. 14 5.6 Exemplo do conteúdo das latas de cerveja da introdução do capítulo A amostra de latas a ser mensurada tem apenas 1000 unidades, muito menos que o tamanho do lote que é 100.000 unidades. Para responder a essa questão, vamos calcular o intervalo de confiança. Os resultados da amostra são: X 350, 4 ml S 3, 07 n 1000 A média da amostra ficou em 350,4 ml, acima do valor nominal de 350, satisfazendo aparentemente as normas de qualidade da fábrica. Mas o valor da amostra de 350,4 representa o valor do lote? O intervalo de confiança para o nível de confiança de 99% fica em 3,07 3,07 IC(; 0,99) 350, 4 2,576* ; 350, 4 2,576* 350,15; 350,65 1000 1000 O gerente pode ter 99% de confiança de que o valor do lote fica entre 350,15 e 350,65 ml. Todo o intervalo está acima do valor nominal garantindo o conteúdo da lata de cerveja, e a empresa com muita tradição no mercado sente orgulho frente aos clientes. 15 5.7 Intervalos de confiança para atributos: a distribuição binomial • O intervalo de confiança montado na base da distribuição binomial é utilizado no dia a dia das campanhas políticas e publicitárias. • Em épocas eleitorais o eleitor cansa de ver e escutar notícias sobre as últimas pesquisas de opinião sobre qual candidato está na frente da corrida para algum cargo no governo, ás vezes até mesmo meses antes das eleições. • O noticiário divulga percentagens de aceitação e rejeição entre candidatos (44% favorecia um candidato e 56% o outro, por exemplo) em amostras de eleitores de tamanho 1000, 2000 ou 3000, e sempre comenta a margem de erro das pesquisas em torno de 2 ou 3 por cento de cada lado. • As conclusões em termos de percentagens vêm da utilização da distribuição binomial, e o cálculo dos limites de confiança e margens de erro. 16 5.8 Exemplo eleitoral - intervalo de confiança Em pesquisa eleitoral levantada um mês antes das eleições, com amostra de tamanho 1000, candidato BO recebe 51% das intenções de voto. Trabalhando com nível de confiança de 95%, podemos calcular o intervalo de confiança: p 1 p p 1 p IC(p,1 ) p Z ; p Z 2 2 n n 0,51*0, 49 0,51*0, 49 IC(p; 0,95) 0,51 1,96 ; 0,51 1,96 1000 1000 0, 479; 0,541) A margem de erro fica em aproximadamente 3%. A percentagem de preferência eleitoral pelo candidato é 51%, suficiente para ganhar a eleição, mas considerando que a média da população pode ficar entre 48% e 54%, existe um espaço no intervalo menos que 50% abrindo a possibilidade de derrota. Para diminuir a margem de erro há duas alternativas, ou diminuir o nível de confiança ou aumentar o tamanho da amostra. 17 5.9 Tamanho da amostra para atributos Margem de erro (ME) = Z 2 p(1 p) n 2 p (1 p ) n Z 2 ( ME) 2 O pesquisador, no entanto não ficou satisfeito com a margem de erro anterior (0,03) achando a (ME) grande e imprecisa e conseqüentemente argumentou que a eleição tão disputada com resultado tão acirrado merecia maior esforço na coleta da amostragem para que a margem de erro fosse apenas 0,01. Então fazendo as substituições apropriadas, temos: n 1,962 (0,51)(0,49) 9600,16 2 (0,01) 18 Continuação Infelizmente para o pesquisador buscando resultados mais precisos, uma amostra de tamanho quase 10.000 foi considerado grande demais pelo candidato em termos de tempo e recursos exigidos para seu levantamento e, portanto foi definido como adequada uma margem de erro intermediária de 2%. Com isso então novo tamanho de amostra foi calculado em 2400. Assim, as pesquisas prosseguiram. Este tamanho da amostra em 2400 é um número tradicional e universalmente utilizado para pesquisas eleitorais e empresariais. Na prática, a fórmula sofre uma simplificação que facilita o uso para margem de erro de 2% arredondando Zα/2 para 2,00 e p para 0,50 resultando em n = 2,02*(0,25)/0,022 = 1/0,0004 = 2500 A pequena diferença de 2400 para 2500 satisfaz o conservadorismo do estatístico errando para valores maiores e, portanto mais seguros. 19 5.10 As desvantagens do censo universal e as vantagens de pesquisas amostrais Nível de confiança (1-α) 0,8 0,9 0,95 0,954 0,99 0,995 0,9973 Zα/2 1,282 1,645 1,960 2,000 2,576 2,807 3,000 0,005 16424 27055 38415 40000 66349 78794 89999 0,01 4106 6764 9604 10000 16587 19699 22500 0,02 1026 1691 2401 2500 4147 4925 5625 0,03 456 752 1067 1111 1843 2189 2500 0,04 257 423 600 625 1037 1231 1406 0,05 164 271 384 400 663 788 900 Margem de erro 20 É interessante reparar o tamanho amostral para o caso mais exigente na tabela 5.3 com nível de confiança de 99,73% e margem de erro de 0,5% (no canto superior à direita). Com 90.000 elementos na amostra, a confiança nos resultados da pesquisa é quase perfeita. Essa conseqüência levanta uma dúvida sobre a necessidade de elaborar uma enorme estrutura burocrática para o censo brasileiro cada 10 anos. 21