Pontifícia Universidade Católica – PUCRS Faculdade de Matemática – Departamento de Estatística Profa. Rossana Fraga Benites F Distribuição Amostral de Médias e Intervalo de Confiança 1.Média das Médias A média da distribuição amostral de médias é igual a média populacional. E( X ) = µ 2. Erro padrão da média É obtido dividindo-se o desvio padrão da população pela raiz quadrada do tamanho da amostra. Isto é: σx = σ n Como ilustração, suponha que um teste do QI é padronizado de modo a ter uma média populacional µ de 100 e um desvio padrão populacional σ de 15. Se fôssemos considerar um tamanho amostraI de 10, a média amostral estaria sujeita a um erro padrão de σx = σ n = 15 = 4,74 10 Assim, enquanto a população de escores de QI tem um desvio padrão σ = 15, a distribuição amostral da média da amostra para n = 10 tem um erro padrão (desvio padrão teórico) σ x = 4,74. Como já notamos, o pesquisador social que investiga apenas uma ou duas amostras não pode conhecer a média das médias, valor igual à verdadeira média populacional. Ele obtém a média amostral, que difere da verdadeira média populacional como resultado do erro amostral. εx = / x − µ / Tendo discutido a natureza da distribuição amostral de médias, estamos agora preparados para estimar o valor de uma média populacional. Com o auxílio do erro padrão da média, podemos achar o âmbito de valores das médias no qual nossa verdadeira média populacional provavelmente se situa. Podemos também estimar a probabilidade de nossa média populacional situar-se efetivamente dentro daquele intervalo de valores médios. Esse é o conceito de intervalo de confiança. Pontifícia Universidade Católica – PUCRS Faculdade de Matemática – Departamento de Estatística Profa. Rossana Fraga Benites F 3. Intervalo de Confiança para a Média Populacional A fim de explorarmos o processo de determinação de um intervalo de confiança, vamos prosseguir com o caso dos escores de QI. Suponha que o reitor de certa universidade particular queira estimar o QI médio de seus estudantes sem o consumo de tempo e a despesa em que incorreria se fosse testar todos os 1.000 estudantes. Em lugar disso, seleciona aleatoriamente 25 deles e aplica-Ihes o teste. Constata que a média de sua amostra é 105. Como o valor de x provém de uma amostra e não de toda a população de estudantes, o reitor não pode ter a certeza de que x reflita efetivamente a população estudantil. Como já vimos, o erro amostral é resultado inevitável do fato de trabalharmos apenas com uma fração da população. Sabemos que 68,26% de todas as médias das amostras aleatórias na distribuição amostral de médias recai entre ± 1 erro padrão a contar da verdadeira média populacional. Para σ = 15 e n=25, temos, σx = σ n = 15 25 =3 Portanto , tomando 105 como uma estimativa da média para todos os estudantes, podemos estabelecer um intervalo dentro do qual há 68 chances em 100 de conter a média populacional. O intervalo de 68,26% de confiança para a média populacional é x ± 1,00 σ x 105 ± 1,00.3 . =(102;108) O reitor poderia afirmar, com 68% de confiança, que os estudantes de sua universidade estão, em média, acima da norma(norma=100) em QI. O intervalo de 95% de confiança para a média populacional é x ± 1,96 σ x 105 ± 1,96.3 =(99,12;110,88) O intervalo de 99% de confiança para a média populacional é x ± 2,58 σ x 105 ± 2,58.3 =(97,26;112,74) F Pontifícia Universidade Católica – PUCRS Faculdade de Matemática – Departamento de Estatística Profa. Rossana Fraga Benites Um intervalo de confiança ainda mais rigoroso é o intervalo de 99% de confiança. Temos que 99% das médias amostrais se enquadram nesse intervalo. Em termos probabilísticos, 99 em cada 100 médias amostrais se enquadram entre ± 2,58 σ x a contar da média. Reciprocamente, apenas 1 em cada 100 médias fica fora do intervalo. Conseqüentemente, com base na amostra de 25 estudantes, o reitor pode inferir, com 99% de confiança, que o QI médio para toda a universidade está entre 97,26 e 112,74. Note que o intervalo de 99% de confiança consiste em uma faixa mais ampla (97,26 a 112,74) do que o intervalo de 95% de confiança (99,12 a 110,88). O intervalo de 99% abrange uma porção maior da área total sob a curva normal e, portanto, um maior número de médias amostrais. Essa faixa mais ampla de escores médios dá-nos maior confiança de que estimamos com precisão a verdadeira média populacional. Apenas uma média amostral em cada 100 fica fora do intervalo. Por outro lado, aumentando nosso nível de confiança de 95% para 99%, também sacrificamos um grau de precisão ao apontar nossa média populacional. Mantendo constante o tamanho da amostra, o pesquisador deve escolher entre maior precisão ou maior confiança de que está certo. A precisão de uma estimativa é determinada pela margem de erro, obtida multiplicandose o erro padrão pelo escore z que representa determinado nível de confiança. Esse é o alcance da variação esperada da média amostral em relação à média populacional, devido apenas ao erro amostra!. Na Figura 6.7 comparam-se os intervalos de confiança para os níveis de 68%, 95% e 99%. Quanto maior o nível de confiança com que o intervalo inclui a verdadeira média populacional, maior o escore z, maior a margem de erro e mais amplo o intervalo de confiança. ILUSTRAÇÃO PASSO A PASSO INTERVALO DE 95% DE CONFIANÇA UTILIZANDO Z Resumamos, com uma ilustração passo a passo, o processo de determinação de um intervalo de 95% de confiança. Suponha que certo fabricante de automóveis pretenda determinar o percurso (em milhas) realizado por galão de combustível para um de seus novos modelos. Com base em sua experiência de anos com automóveis, o estatístico da empresa constata que nem todos os carros são iguais, devendo-se esperar um desvio padrão de 4 milhas por galão ( σ = 4) em razão de variações em peças e em mão-deobra. A fim de estimar o percurso médio, em milhas por galão, do novo modelo, ele põe à prova uma amostra aleatória de 100 carros recém-saídos da linha de montagem e obtém uma média amostral de 26 milhas por galão. Pontifícia Universidade Católica – PUCRS Faculdade de Matemática – Departamento de Estatística Profa. Rossana Fraga Benites F Seguiremos estes passos para estabelecer um intervalo de confiança para o percurso médio, em milhas por galão, para todos os carros do modelo em estudo. PASSO 1 Obtenha a média para uma amostra aleatória (neste problema, ela é dada). n = 100 X=26 PASSO 2 Calcule o erro padrão da média (sabendo que a = 4): σx = σx = σ n 4 = 0,4 100 PASSO 3 Calcule a margem de erro multiplicando o erro padrão da média por 1,96, o valor z para um intervalo de 95% de confiança. Margem de erro = ± 1,96 σ x = (1,96)(0,4) =0,78 PASSO 4 Some e subtraia a margem de erro à média amostral para achar o intervalo de escores médios, dentro do qual esperamos que se situe a média populacional, com 95% de confiança. Intervalo de 95% de confiança = x ± 1,96 σ x = 26 ± 1,96 0,78 =(25,22;26,78) Assim, o estatístico pode ter 95% de confiança de que a verdadeira média, em milhas por galão ( µ ) para esse novo modelo, esteja entre 25,22 e 26,78. Distribuição t de student Quando não conhecemos o desvio padrão da população ( σ ), temos que estimá-lo usando o desvio padrão da amostra (s), que é a raiz quadrada da variância ( s 2 ), Pontifícia Universidade Católica – PUCRS Faculdade de Matemática – Departamento de Estatística Profa. Rossana Fraga Benites F Onde Variância amostral : ∑ X 2 − n( x 2 ) 2 S = n −1 Desvio padrão amostral: S = S2 O erro padrão da média das amostras muda para σx = s n que segue uma distribuição chamada distribuição t, sendo, por isso, chamada razão t. Existe, efetivamente, toda uma família de distribuições t. Emprega-se um conceito conhecido como graus de liberdade (que vamos encontrar freqüentemente em capítulos posteriores), para determinar qual das distribuições t se aplica a determinada instância. O número de graus de liberdade indica quão próxima a distribuição t está da curva normal aproximada. Ao estimarmos uma média populacional, o número de graus de liberdade é um a menos do que o tamanho da amostra, isto é: gl= n-1 Quanto maior o número de graus de liberdade, maior o tamanho da amostra e mais próxima da distribuição normal está a distribuição t. Isso tem sentido, porque o grau de incerteza que nos leva a usar uma razão t em lugar de um escore z diminui à medida que o tamanho da amostra aumenta. Em outras palavras, a qualidade ou a confiabilidade de nossa estimativa do erro padrão da média aumenta com o tamanho da amostra e, assim, a razão t tende para um escore z. Tenha em mente que a única diferença entre a razão t e o escore z é que a primeira utiliza uma estimativa do erro padrão baseada em dados amostrais. A família de. distribuições t Ao trabalharmos com a distribuição t, utilizamos a Tabela t, e não a Tabela z. Ao contrário da Tabela z, em que tínhamos de procurar valores de z correspondentes a F Pontifícia Universidade Católica – PUCRS Faculdade de Matemática – Departamento de Estatística Profa. Rossana Fraga Benites áreas de 95% e 99% sob a curva, a Tabela t é elaborada para áreas determinadas. Mais precisamente, é adaptada a vários níveis de α (letra grega alfa). O valor alfa representa a área nas caudas da distribuição t. Assim, o valor alfa é igual a um menos o nível de confiança. Isto é: α = 1- nível de confiança Por exemplo, para um nível de 95% de confiança, α = 0,05. Para um nível de 99% de confiança, α = 0,01. Utilizamos a Tabela t com duas informações: (1) o número de graus de liberdade (que, para estimar uma média amostral, é n 1) e (2) o valor alfa, a área nas caudas da distribuição. Por exemplo, se quiséssemos construir um intervalo de 95% de confiança com uma amostra de 20, teríamos 19 graus de liberdade (gl = 20 - 1 = 19), α = 0,05 área compreendida nas duas caudas e, como resultado, um valor t de 2,093 pela Tabela t. O que faremos, entretanto, com amostras maiores, cujo número de graus de liberdade não figura na Tabela t? Por exemplo, um tamanho amostral de 50 dá 49 graus de liberdade. O valor de t para 49 graus de liberdade e α = 0,05 situa-se entre 2,021 (para gl = 40) e 2,000 (para gl = 60). Como esses dois valores de t são muito próximos um do outro, há pouca diferença prática no valor que adotamos. Todavia, para você manter-se do lado da segurança, Assim, para casos em que o erro padrão da média é estimado, podemos construir intervalos de confiança recorrendo a um valor adequado de t da tabela, como se segue: Intervalo de confiança = x ± t n −1gl σ x Onde σx = s n 4. Distribuição Amostra e Intervalo de Confiança para a Proporção Populacional Proporção populacional: π = f N Pontifícia Universidade Católica – PUCRS Faculdade de Matemática – Departamento de Estatística Profa. Rossana Fraga Benites F Proporção Amostral: p = f n Exemplo: Em uma amostra de 312 alunos de segundo grau, 176 declararam seguir seus estudos em uma universidade. p=176/312=0,56 0,56x100= 56% Se em determinada população, retirássemos todas as amostras de tamanho n possíveis e calculássemos a proporção para cada uma dessas amostras, com as respectivas probabilidades de ocorrência de cada uma, teríamos uma distribuição de proporções. O valor esperado é igual a E(p)= π Desvio padrão das proporções para populações infinitas é σp = π .(1 − π ) n Desvio padrão das proporções para populações finitas, se n/N >0,05 é σp = π .(1 − π ) n . N−n N −1 Logo p tem distribuição amostral com média E(p) e desvio padrão σp. Exemplo: Uma amostra de 30 gerentes retirada de uma população de 2500, 18 fizeram o curso de treinamento gerencial. Determine o valor esperado de p e o desvio padrão de p. Pontifícia Universidade Católica – PUCRS Faculdade de Matemática – Departamento de Estatística Profa. Rossana Fraga Benites F E(p)=0,60 que estimará π; O estimador do desvio padrão de p será σ$ p = p.(1 − p) n =0,0894 A distribuição de probabilidade adequada para proporções é distribuiçãoBinomial. Usando o Teorema Central de limite podemos usar aproximação Normal sempre que o tamanho da amostra é grande. O tamanho da amostra será considerado grande sempre que n.p>=5 e n(1-p)>=5. No exemplo dos gerentes, n=30 e p=0,60, então np=18 e n(1-p)=12 Satisfazendo as condições. a a Podemos encontrar as probabilidades das proporções amostrais ocorrerem pois usando a distribuição Normal temos z= p−π σp ≈ N (0;1) (Tabela Normal) O intervalo de confiança para a proporção populacional π será p ± z.σ p