DATA
Aula
CONTEÚDO PROGRAMÁTICO
10/03
Segunda
1
Níveis de mensuração, variáveis, organização de dados, apresentação tabular
12/03
Quarta
2
Apresentação tabular e gráfica
17/03
Segunda
3
Apresentação gráfica; medidas de tendência central e de posição
19/03
Quarta
4
Medidas de tendência central e de posição; medidas de dispersão ou de variabilidade
24/03
Segunda
5
Medidas de correlação, noções de regressão linear simples, estimando a equação da reta
26/03
Quarta
6
Medidas de associação
31/03
Segunda
7
Consolidação de conteúdo - Exercícios
02/04
Quarta
8
Avaliação 1
14/04
Segunda
9
Noções de probabilidade; noções de amostragem; distribuição binomial
16/04
Quarta
10
Distribuição normal, distribuição amostral da média
23/04
Segunda
11
Teste de hipóteses de parâmetros populacionais – conceitos; teste de hipóteses de uma proporção populacional
28/04
Segunda
12
Teste de hipóteses de associação
30/04
Quarta
13
Avaliação 2
12/05
Segunda
14
Teste de hipóteses de uma média populacional
14/05
Quarta
15
Teste de hipóteses de duas médias com amostras independentes e dependentes
19/05
Segunda
16
Teste de mais de duas médias – ANOVA um fator fixo
21/05
Quarta
17
Estimação de parâmetros por intervalo de confiança: média e proporção
26/05
Segunda
18
Consolidação de conteúdo – Exercícios
28/05
Quarta
19
Avaliação 3
02/06
Segunda
20
Encerramento
Aula 17 - Estimação por Intervalo
1
Estimação por ponto
X é uma característica que na população possui distribuição normal com média
2
(desvio padrão


e variância
).
Seja X1, X2, X3, ...Xn uma amostra aleatória de tamanho n extraída desta população.
Os parâmetros
 2
e
podem ser estimados com base na amostra.
Se o estimador for um único valor, a estimação é chamada de estimação por ponto.
Média aritmética
n
Populacional
Parâmetro

estimador :
X
X
i 1
i
n
Variância
n
Populacional
Parâmetro

2
S (2n ) 
(X
i 1
estimador :
i
 X )2
ou
n
n
S (2n 1) 
(X
i 1
i
 X )2
n 1
Atenção: Antes dos dados serem coletados, os estimadores são variáveis aleatórias.
Aula 17 - Estimação por Intervalo
2
Estimação por intervalo
Intervalo de confiança: É um conjunto de valores calculados com base na amostra. Pressupõe-se que
cubra o parâmetro de interesse com um certo grau (nível) de confiança.
O grau de confiança tem origem na probabilidade associada ao processo de construção do intervalo
antes de se obter o resultado amostral.
O grau de confiança mais comumente utilizado é o de 95%.
Seria impossível construir um intervalo de 100% de confiança a menos que se medisse toda a
população.
Na maioria das aplicações não sabemos se um específico intervalo de confiança cobre o verdadeiro
valor. Só podemos aplicar o conceito freqüentista de probabilidade e dizer que se realizarmos a
amostragem infinitas vezes e construirmos intervalos de confiança de 95%, em 95% das vezes os
intervalos de confiança estarão corretos (cobrirão o parâmetro) e 5% das vezes estarão errados.
Aula 17 - Estimação por Intervalo
3
Exemplos de intervalo de confiança
IMC médio, desvio padrão (dp) e IC de 95% segundo sexo e idade (anos). Duas escolas públicas de
São Paulo, 2004.
Sexo(1)
Idade (anos)(2)
7
Masculino
Feminino
Total
8
9
10
IMC (kg/m ) médio e desvio padrão (dp) (IC 95%)
16,8 (2,5)
17,9 (4,0)
17,3 (3,1)
18,9 (4,0)
(16,2 – 17,4)
(17,0 – 18,9)
(16,5 – 18,1)
(17,9 – 19,8)
16,4 (2,30)
16,9 (2,9)
17,4 (3,3)
18,7 (3,1)
(15,9 – 17,0)
(16,2 – 17,6)
(16,6 – 18,2)
(17,9 – 19,5)
16,6 (2,4)
(16,2 – 17,0)
2
17,4 (3,5)
(16,8 – 18,0)
18,7 (3,2)
(17,9 – 19,5)
18,8 (3,7)
(18,2 – 19,4)
(1) Masculino (n=281), Feminino (n=275);
(2) 7 anos (n=151); 8 anos (n=138); 9 anos (n=126); 10 anos (n=141)
Fonte: Claudia Regina Koga. Dissertação de Mestrado (dados preliminares)
Aula 17 - Estimação por Intervalo
4
IC para a proporção populacional
“Os dados de composição corporal obtidos pela utilização da BIA, classificados em duas
categorias: sem risco de doença cardiovascular e com risco de DCV, resultaram em prevalência de
risco de DCV igual a 42,3% (IC95%: 38,1 - 46,5%).
Representação gráfica
A linha vertical representa o parâmetro populacional. O gráfico foi gerado via programa de
computador. São apresentados 50 intervalos de confiança para amostras de tamanho n=20. As linhas
horizontais representam os intervalos de confiança. Se o intervalo de confiança não contiver o
parâmetro, a linha horizontal não cruzará a linha vertical. A linha vertical é o parâmetro. No exemplo,
3 intervalos não cobrem ("capturam") o parâmetro.
Aula 17 - Estimação por Intervalo
5
Construção do intervalo de confiança para a média populacional
Pressuposição: A amostra deve ser obtida de forma aleatória

É necessário utilizar as propriedades do teorema central do limite
X ~ N (, ) ; X ~ N (  ,
Padronizando-se a média
X
, obtém-se
Z

X 

)
n
~ N (0,1) , que permite calcular
n
P( z 
X 

 z)  1   .
n
P(1,96 
Para   5% ,
X 

 1,96)  0,95
n
P(1,96

 X    1,96
n
P( X  1,96
P( X  1,96

n

n

n
)  0,95
    X  1,96
   X  1,96

n

n
)  0,95
)  0,95
Aula 17 - Estimação por Intervalo
6
Obtém-se um intervalo aleatório centrado na média amostral o qual possui 95% de probabilidade de
conter a verdadeira média populacional.
O parâmetro será estimado por um conjunto de valores provenientes de uma amostra. Quando isto é
feito,
a
média
x  1,96

n
é
estimada
   x  1,96
por

n
um
determinado
valor
ˆ x
X
(
),
e
o
intervalo
deixa de ser uma variável aleatória.
Este intervalo cobre (contém) ou não cobre (não contém) a verdadeira média (parâmetro). Diz-se
então que a confiança que se deposita neste intervalo é de 95% porque antes de coletar a amostra de
tamanho n, existia, associada a ele, uma probabilidade de 95% de que contivesse a média
populacional. Por isso chama-se intervalo de confiança para a média populacional.



(
x

1
,
96
;
x

1
,
96
)
x

1
,
96
IC(95%) :
n
n ou
n
Aula 17 - Estimação por Intervalo
7
Interpretando Intervalos de Confiança
Um intervalo de confiança para um parâmetro é um intervalo de valores no qual pode-se depositar
uma confiança que o intervalo cobre (contém) o valor do parâmetro. Por exemplo, se com base em
uma amostra encontrarmos que o intervalo (3200 ; 3550) é um intervalo de 95% de confiança para a
média (
 ) da população de valores do peso médio ao nascer de recém-nascidos no Município de
São Paulo, então podemos estar 95% confiantes que o conjunto de valores 3220 – 3500 gramas
cobre (contém) o verdadeiro peso médio ao nascer da população.
Pode-se também pensar no intervalo de confiança a partir da seleção de milhares de amostras de
uma população. Para cada amostra calcula-se um intervalo de confiança com grau de confiança
100(1-  )%, para um parâmetro da população. A porcentagem de intervalos que contém o
verdadeiro valor do parâmetro é 100(1-  ).
Na prática, tomamos somente uma amostra e obtemos somente um intervalo. Mas sabemos que
100(1-  )% de todas as amostras tem um intervalo de confiança contendo o verdadeiro valor do
parâmetro, portanto depositamos uma confiança 100(1-  )% que o particular intervalo contém o
verdadeiro valor do parâmetro.
Aula 17 - Estimação por Intervalo
8
Amplitude do intervalo
Para um grau de confiança especificado (por exemplo, 95%), desejamos o intervalo tão pequeno
quanto possível.
Ex: o intervalo de confiança de 95% para o peso médio ao nascer (gramas) de recém-nascidos no
Município de São Paulo de (2500, 4000) traz pouca informação prática porque sabe-se, da
experiência, que a média populacional está neste intervalo. Deseja-se um intervalo com amplitude de
poucas gramas. É o tamanho da amostra que determina a amplitude do intervalo. Quanto maior a
amostra, menor será o intervalo.
Aula 17 - Estimação por Intervalo
9
Fórmulas para intervalos de confiança:
As fórmulas dos intervalos de confiança são derivadas da distribuição amostral da estatística
Intervalo de confiança para a média populacional com variância populacional conhecida
Pressuposição: A amostra deve ser obtida de forma aleatória
Estatística: média populacional - 
IC   x  z / 2.
Intervalo de confiança
desconhecida
para a
média
x
n
; x z / 2.
populacional
com
x
n
variância
populacional
Sx
Sx
IC  : x tn1, 2. ; x tn1, 2.
n
n
que pode ser escrito como
x  t 2,n1
s
n
.
Aula 17 - Estimação por Intervalo
10
Exercício 1
Uma amostra de 25 adolescentes meninos apresenta peso médio de 56 kg e desvio padrão 8 kg.
a) encontre o intervalo de confiança de 95% para o peso médio da população da qual esta
amostra foi sorteada;
b) interprete o intervalo de confiança encontrado
Exercício 2
Tomam-se, os pesos de uma amostra aleatória de 12 corredores do sexo masculino. Os dados
são apresentados abaixo. Estime o peso médio da população, construindo o intervalo de
confiança de 95%. Interprete o intervalo de confiança encontrado.
67,8
61,9
63,0
53,1
62,3
59,7
55,4
58,9
60,9
69,2
63,7
68,3
Exercício 3
Uma máquina enche pacotes de café com variância igual a 100g. Ela estava regulada para encher
pacotes com 500g, em média. Uma amostra de 100 pacotes apresentou média igual a 485g. Construa
um intervalo de confiança de 95% para µ. Diga se a máquina está trabalhando corretamente ou se
precisa ser regulada.
Aula 17 - Estimação por Intervalo
11
Intervalo de confiança aproximado para o número de sucessos populacional
Pressuposições:
1- np e nq5
2- a amostra deve ser obtida de forma aleatória
Estatística: número de sucessos populacional - X
X é uma variável aleatória que segue uma distribuição binomial com parâmetros n e p, ie X~ B(n,p).
Para n grande, X ~N(
  np,  npq ) com intervalo de confiança para X dado por
ICX   npˆ z / 2. npˆ qˆ , com pˆ
e
qˆ
estimados na amostra.
Aula 17 - Estimação por Intervalo
12
Exemplo:
Supor que em uma amostra de 200 casais encontrou-se 10 onde a esposa era mais alta que o marido.
Construir o intervalo de confiança de 95% para o número de esposas que são mais altas que seus
maridos na população.
IC95%, X  : 200x0,05  1,96 200x0,05x0,95;200x0,05  1,96 200x0,05x0,95
resultando em IC(95%, Número de casais na população): (4 ; 16)
Aula 17 - Estimação por Intervalo
13
Intervalo de confiança aproximado para a proporção populacional
Pressuposições:
1- np e nq5
2- a amostra deve ser obtida de forma aleatória
Estatística: proporção de sucessos populacional -
X
N
Seja X uma variável aleatória que segue uma distribuição binomial.
X~ B(n,p).
A proporção de sucessos
Para n grande,
X
p
N
p ~ N (  p,  
Com intervalo de confiança para
Com
pˆ
e
qˆ
, é estimada na amostra por
X
N
pˆ 
X
n
pq
).
n
dado por
IC p   pˆ  z / 2 .
pˆ qˆ
n
.
estimados na amostra.
Para o exemplo anterior; IC95%, p  : 0,05  1,96
0,05x0,95
0,05x0,95
;0,05  1,96
200
200
IC(95%, p): (2,0% ; 8,0%)
Aula 17 - Estimação por Intervalo
14
Resumo: Intervalo de Confiança
Média populacional:

Com variância conhecida
Com variância

2
 2 : x  Z / 2
desconhecida:
2
n
x  t  / 2 ,
s
n
,
  n 1
Número de sucessos populacional: X
Intervalo aproximado:
npˆ  Z  / 2 npˆ qˆ
pˆ
onde
é a proporção de sucessos na amostra.
Proporção populacional (p)
Intervalo aproximado:
pˆ  Z  / 2
onde
pˆ
npˆ , npˆ (1  pˆ )  5
pˆ (1  pˆ )
n
é a proporção de sucessos na amostra.
Aula 17 - Estimação por Intervalo
15
Apresentação gráfica do efeito do tamanho da amostra:
Para amostras menores (n=5), as larguras dos intervalos são maiores a proporção de intervalos que
"capturam" o parâmetro é parecida com a anterior (para n=20). Portanto, o tamanho da amostra não
interfere na proporção de “captura” do parâmetro mas sim na precisão do estimador.
Aula 17 - Estimação por Intervalo
16
Efeito do grau de confiança
Para n=20 e
 =0,25, obtém-se intervalos com os apresentados a seguir

Os intervalos são mais estreitos do que para n=20 e
=0,05. Uma porcentagem bem maior não
contém o parâmetro. Isto é o que 75% de confiança significa. Do total de todas as possíveis
amostras, 75% delas resultará em intervalos de confiança que contêm o verdadeiro valor do
parâmetro.
Aula 17 - Estimação por Intervalo
17
Exemplo
Os dados a seguir são provenientes do grupo Western Collaborative Group Study, criado na Califórnia
em 1960-61. Foram estudados 3154 homens de meia idade para investigar a relação entre padrões de
comportamento e risco de doença coronariana. Os dados apresentados são de 40 homens para os
quais foram medidos os níveis de colesterol (mg por 100ml) e realizada uma categorização segundo
comportamento. O comportamento de tipo A era caracterizado pela urgência, agressividade e
ambição. O de tipo B era relaxado, não competitivo e menos preocupado.
Tipo A: nível de colesterol
233
291
312
254
276
234
Tipo B: nível de colesterol
344
185
263
226
175
242
Medidas(mg/100ml)
Média
Variância (n-1)
Desvio padrão (n-1)
250
181
246
252
246
248
224
153
Tipo A
245,05
1342,37
36,64
197
252
212
183
268
202
188
137
224
218
250
202
239
212
239
325
148
194
169
213
Tipo B
210,3
2336,747
48,33991
Com base nos valores fornecidos,
a) calcule o intervalo de confiança para o nível médio populacional de colesterol para cada um
dos tipos.
b) Interprete os intervalos. Explique o que eles significam
c) Compare os resultados.
IC(95%) para a média populacional com desvio padrão populacional desconhecido: x  t n 1
IC(95%) Tipo A: 245,05  2,09336,64
(227,9  261,2)
20
IC(95%) Tipo B: 210,3  2,09348,34
(187,7  232,9)
Aula 17 - Estimação por Intervalo
20
S
n
18
Exemplo
São apresentados dados sobre o estado nutricional de 1226 crianças brasileiras de 2 anos de idade,
segundo sexo.
Estado nutricional
Masculino
Feminino
total
Desnutridas
29
20
49
Normais
574
603
1177
Total
603
623
1226
Fonte: retirado de material de aula da Profa M. R. Cardoso
Com base nos dados calcule a proporção de crianças desnutridas e respectivos intervalos de confiança
de 90% segundo sexo. Discuta os resultados.
Proporção de crianças desnutridas do sexo masculino: pˆ Masc  29  0,048
603
20
Proporção de crianças desnutridas do sexo feminino: pˆ Fe min 
 0,032
623
IC(95%) aproximado para a proporção populacional: pˆ  1,96 pˆ qˆ
n
IC(90%) Sexo masculino: 0,048 1,645 0,048x0,952
603
IC(90%) Sexo feminino: 0,032  1,645 0,032x0,968
623
(0,034  0,062)
(0,02  0,044)
Aula 17 - Estimação por Intervalo
19
Exercício 1
Em um estudo realizado para estimar a prevalência de pessoas que consomem alimentos integrais
utilizou uma amostra de 20 pessoas, encontrando-se 4 pessoas com a característica de interesse
(consumo de alimentos ricos em fibras). Apresente o intervalo de confiança de 95% para a proporção
populacional de pessoas que consomem alimentos ricos em fibras. Interprete o intervalo de confiança
encontrado.
Exercício 2
Uma amostra aleatória de 60 donas de casa revela que 70% preferem a marca A de lazanha
congelada. Construir um intervalo de confiança de 90% para estimar a proporção populacional que
tem esta mesma preferência.
Aula 17 - Estimação por Intervalo
20
Download

Aula 17