Pontifícia Universidade Católica – PUCRS
Faculdade de Matemática – Departamento de Estatística
Profa. Rossana Fraga Benites
F
Distribuição Amostral de Médias e Intervalo de Confiança
1.Média das Médias
A média da distribuição amostral de médias é igual a média populacional.
E( X ) = µ
2. Erro padrão da média
É obtido dividindo-se o desvio padrão da população pela raiz quadrada do tamanho da
amostra. Isto é:
σx =
σ
n
Como ilustração, suponha que um teste do QI é padronizado de modo a ter uma
média populacional µ de 100 e um desvio padrão populacional σ de 15. Se fôssemos
considerar um tamanho amostraI de 10, a média amostral estaria sujeita a um erro
padrão de
σx =
σ
n
=
15
= 4,74
10
Assim, enquanto a população de escores de QI tem um desvio padrão σ = 15, a
distribuição amostral da média da amostra para n = 10 tem um erro padrão (desvio
padrão teórico)
σ x = 4,74.
Como já notamos, o pesquisador social que investiga apenas uma ou duas
amostras não pode conhecer a média das médias, valor igual à verdadeira média
populacional. Ele obtém a média amostral, que difere da verdadeira média populacional
como resultado do erro amostral.
εx = / x − µ /
Tendo discutido a natureza da distribuição amostral de médias, estamos agora
preparados para estimar o valor de uma média populacional. Com o auxílio do erro
padrão da média, podemos achar o âmbito de valores das médias no qual nossa
verdadeira média populacional provavelmente se situa. Podemos também estimar a
probabilidade de nossa média populacional situar-se efetivamente dentro daquele
intervalo de valores médios. Esse é o conceito de intervalo de confiança.
Pontifícia Universidade Católica – PUCRS
Faculdade de Matemática – Departamento de Estatística
Profa. Rossana Fraga Benites
F
3. Intervalo de Confiança para a Média Populacional
A fim de explorarmos o processo de determinação de um intervalo de confiança,
vamos prosseguir com o caso dos escores de QI. Suponha que o reitor de certa
universidade particular queira estimar o QI médio de seus estudantes sem o consumo
de tempo e a despesa em que incorreria se fosse testar todos os 1.000 estudantes.
Em lugar disso, seleciona aleatoriamente 25 deles e aplica-Ihes o teste. Constata que
a média de sua amostra é 105. Como o valor de x provém de uma amostra e não de
toda a população de estudantes, o reitor não pode ter a certeza de que x reflita
efetivamente a população estudantil. Como já vimos, o erro amostral é resultado
inevitável do fato de trabalharmos apenas com uma fração da população.
Sabemos que 68,26% de todas as médias das amostras aleatórias na distribuição
amostral de médias recai entre ± 1 erro padrão a contar da verdadeira média
populacional. Para σ = 15 e n=25, temos,
σx =
σ
n
=
15
25
=3
Portanto , tomando 105 como uma estimativa da média para todos os estudantes,
podemos estabelecer um intervalo dentro do qual há 68 chances em 100 de conter a
média populacional.
O intervalo de 68,26% de confiança para a média populacional é
x ± 1,00 σ x
105 ± 1,00.3 . =(102;108)
O reitor poderia afirmar, com 68% de confiança, que os estudantes de sua
universidade estão, em média, acima da norma(norma=100) em QI.
O intervalo de 95% de confiança para a média populacional é
x ± 1,96 σ x
105 ± 1,96.3 =(99,12;110,88)
O intervalo de 99% de confiança para a média populacional é
x ± 2,58 σ x
105 ± 2,58.3 =(97,26;112,74)
F
Pontifícia Universidade Católica – PUCRS
Faculdade de Matemática – Departamento de Estatística
Profa. Rossana Fraga Benites
Um intervalo de confiança ainda mais rigoroso é o intervalo de 99% de confiança.
Temos que 99% das médias amostrais se enquadram nesse intervalo. Em termos
probabilísticos, 99 em cada 100 médias amostrais se enquadram entre ± 2,58 σ x a
contar da média. Reciprocamente, apenas 1 em cada 100 médias fica fora do intervalo.
Conseqüentemente, com base na amostra de 25 estudantes, o reitor pode inferir,
com 99% de confiança, que o QI médio para toda a universidade está entre 97,26 e
112,74.
Note que o intervalo de 99% de confiança consiste em uma faixa mais ampla
(97,26 a 112,74) do que o intervalo de 95% de confiança (99,12 a 110,88). O intervalo
de 99% abrange uma porção maior da área total sob a curva normal e, portanto, um
maior número de médias amostrais. Essa faixa mais ampla de escores médios dá-nos
maior confiança de que estimamos com precisão a verdadeira média populacional.
Apenas uma média amostral em cada 100 fica fora do intervalo. Por outro lado,
aumentando nosso nível de confiança de 95% para 99%, também sacrificamos um grau
de precisão ao apontar nossa média populacional. Mantendo constante o tamanho da
amostra, o pesquisador deve escolher entre maior precisão ou maior confiança de que
está certo.
A precisão de uma estimativa é determinada pela margem de erro, obtida
multiplicandose o erro padrão pelo escore z que representa determinado nível de
confiança. Esse é o alcance da variação esperada da média amostral em relação à
média populacional, devido apenas ao erro amostra!.
Na Figura 6.7 comparam-se os intervalos de confiança para os níveis de 68%,
95% e 99%. Quanto maior o nível de confiança com que o intervalo inclui a verdadeira
média populacional, maior o escore z, maior a margem de erro e mais amplo o intervalo
de confiança.
ILUSTRAÇÃO PASSO A PASSO
INTERVALO DE 95% DE CONFIANÇA UTILIZANDO Z
Resumamos, com uma ilustração passo a passo, o processo de determinação de um
intervalo de 95% de confiança. Suponha que certo fabricante de automóveis pretenda
determinar o percurso (em milhas) realizado por galão de combustível para um de seus
novos modelos. Com base em sua experiência de anos com automóveis, o estatístico da
empresa constata que nem todos os carros são iguais, devendo-se esperar um desvio
padrão de 4 milhas por galão ( σ = 4) em razão de variações em peças e em mão-deobra. A fim de estimar o percurso médio, em milhas por galão, do novo modelo, ele põe
à prova uma amostra aleatória de 100 carros recém-saídos da linha de montagem e
obtém uma média amostral de 26 milhas por galão.
Pontifícia Universidade Católica – PUCRS
Faculdade de Matemática – Departamento de Estatística
Profa. Rossana Fraga Benites
F
Seguiremos estes passos para estabelecer um intervalo de confiança para o
percurso médio, em milhas por galão, para todos os carros do modelo em estudo.
PASSO 1 Obtenha a média para uma amostra aleatória (neste problema, ela é dada).
n = 100
X=26
PASSO 2 Calcule o erro padrão da média (sabendo que a = 4):
σx =
σx =
σ
n
4
= 0,4
100
PASSO 3 Calcule a margem de erro multiplicando o erro padrão da média por 1,96, o
valor z para um intervalo de 95% de confiança.
Margem de erro = ± 1,96 σ x
= (1,96)(0,4) =0,78
PASSO 4 Some e subtraia a margem de erro à média amostral para achar o intervalo
de escores médios, dentro do qual esperamos que se situe a média populacional, com
95% de confiança.
Intervalo de 95% de confiança =
x ± 1,96 σ x
= 26 ± 1,96 0,78
=(25,22;26,78)
Assim, o estatístico pode ter 95% de confiança de que a verdadeira média, em
milhas por galão ( µ ) para esse novo modelo, esteja entre 25,22 e 26,78.
Distribuição t de student
Quando não conhecemos o desvio padrão da população ( σ ), temos que estimá-lo
usando o desvio padrão da amostra (s), que é a raiz quadrada da variância ( s 2 ),
Pontifícia Universidade Católica – PUCRS
Faculdade de Matemática – Departamento de Estatística
Profa. Rossana Fraga Benites
F
Onde
Variância amostral :
∑ X 2 − n( x 2 )
2
S =
n −1
Desvio padrão amostral:
S = S2
O erro padrão da média das amostras muda para
σx =
s
n
que segue uma distribuição chamada distribuição t, sendo, por isso, chamada razão t.
Existe, efetivamente, toda uma família de distribuições t. Emprega-se um conceito
conhecido como graus de liberdade (que vamos encontrar freqüentemente em
capítulos posteriores), para determinar qual das distribuições t se aplica a
determinada instância. O número de graus de liberdade indica quão próxima a
distribuição t está da curva normal aproximada. Ao estimarmos uma média
populacional, o número de graus de liberdade é um a menos do que o tamanho da
amostra, isto é:
gl= n-1
Quanto maior o número de graus de liberdade, maior o tamanho da amostra e mais
próxima da distribuição normal está a distribuição t. Isso tem sentido, porque o grau
de incerteza que nos leva a usar uma razão t em lugar de um escore z diminui à medida
que o tamanho da amostra aumenta. Em outras palavras, a qualidade ou a
confiabilidade de nossa estimativa do erro padrão da média aumenta com o tamanho
da amostra e, assim, a razão t tende para um escore z. Tenha em mente que a única
diferença entre a razão t e o escore z é que a primeira utiliza uma estimativa do erro
padrão baseada em dados amostrais.
A família de. distribuições t
Ao trabalharmos com a distribuição t, utilizamos a Tabela t, e não a Tabela z. Ao
contrário da Tabela z, em que tínhamos de procurar valores de z correspondentes a
F
Pontifícia Universidade Católica – PUCRS
Faculdade de Matemática – Departamento de Estatística
Profa. Rossana Fraga Benites
áreas de 95% e 99% sob a curva, a Tabela t é elaborada para áreas determinadas.
Mais precisamente, é adaptada a vários níveis de α (letra grega alfa). O valor alfa
representa a área nas caudas da distribuição t. Assim, o valor alfa é igual a um menos
o nível de confiança. Isto é:
α = 1- nível de confiança
Por exemplo, para um nível de 95% de confiança, α = 0,05. Para um nível de 99%
de confiança, α = 0,01.
Utilizamos a Tabela t com duas informações:
(1) o número de graus de liberdade (que, para estimar uma média amostral, é n 1) e
(2) o valor alfa, a área nas caudas da distribuição. Por exemplo, se quiséssemos
construir um intervalo de 95% de confiança com uma amostra de 20,
teríamos 19 graus de liberdade (gl = 20 - 1 = 19), α = 0,05 área
compreendida nas duas caudas e, como resultado, um valor t de 2,093 pela
Tabela t.
O que faremos, entretanto, com amostras maiores, cujo número de graus de
liberdade não figura na Tabela t? Por exemplo, um tamanho amostral de 50 dá 49
graus de liberdade. O valor de t para 49 graus de liberdade e α = 0,05 situa-se entre
2,021 (para gl = 40) e 2,000 (para gl = 60). Como esses dois valores de t são muito
próximos um do outro, há pouca diferença prática no valor que adotamos. Todavia,
para você manter-se do lado da segurança,
Assim, para casos em que o erro padrão da média é estimado, podemos construir
intervalos de confiança recorrendo a um valor adequado de t da tabela, como se segue:
Intervalo de confiança =
x ± t n −1gl σ x
Onde
σx =
s
n
4. Distribuição Amostra e Intervalo de Confiança para a Proporção Populacional
Proporção populacional: π =
f
N
Pontifícia Universidade Católica – PUCRS
Faculdade de Matemática – Departamento de Estatística
Profa. Rossana Fraga Benites
F
Proporção Amostral: p =
f
n
Exemplo: Em uma amostra de 312 alunos de segundo grau, 176 declararam seguir seus
estudos em uma universidade.
p=176/312=0,56
0,56x100= 56%
Se em determinada população, retirássemos todas as amostras de tamanho n
possíveis e calculássemos a proporção para cada uma dessas amostras, com as
respectivas probabilidades de ocorrência de cada uma, teríamos uma distribuição de
proporções.
O valor esperado é igual a
E(p)=
π
Desvio padrão das proporções para populações infinitas é
σp =
π .(1 − π )
n
Desvio padrão das proporções para populações finitas, se n/N >0,05 é
σp =
π .(1 − π )
n
.
N−n
N −1
Logo p tem distribuição amostral com média E(p) e desvio padrão
σp.
Exemplo: Uma amostra de 30 gerentes retirada de uma população de 2500, 18 fizeram
o curso de treinamento gerencial. Determine o valor esperado de p e o desvio padrão
de p.
Pontifícia Universidade Católica – PUCRS
Faculdade de Matemática – Departamento de Estatística
Profa. Rossana Fraga Benites
F
E(p)=0,60 que estimará
π;
O estimador do desvio padrão de p será
σ$ p =
p.(1 − p)
n
=0,0894
A distribuição de probabilidade adequada para proporções é
distribuiçãoBinomial. Usando o Teorema Central de limite podemos usar
aproximação Normal sempre que o tamanho da amostra é grande.
O tamanho da amostra será considerado grande sempre que
n.p>=5 e n(1-p)>=5.
No exemplo dos gerentes, n=30 e p=0,60, então
np=18 e n(1-p)=12
Satisfazendo as condições.
a
a
Podemos encontrar as probabilidades das proporções amostrais ocorrerem pois
usando a distribuição Normal temos
z=
p−π
σp
≈ N (0;1)
(Tabela Normal)
O intervalo de confiança para a proporção populacional π será
p ± z.σ p
Download

/ / − = x