Estatística II – Antonio Roque – Aula 6
Intervalo de Confiança para a Diferença entre Duas Médias Amostrais
Quando se quer estimar a diferença, µ1−µ2, entre as médias de duas
populações 1 e 2, procede-se da seguinte maneira: toma-se uma amostra de
cada população, com tamanhos n1 e n2 respectivamente. Calculam-se as suas
respectivas médias e desvios padrões: x1 , x 2 , s1 e s 2 .
Se soubermos que as distribuições populacionais das variáveis x1 e x2 são
normais e conhecermos os desvios padrões das duas distribuições, σ1 e σ2,
então o intervalo de confiança de 95% para µ1 −µ2 será calculado como (pelos
mesmos motivos usados na dedução do intervalo de confiança para a média):
(x1 − x2 ) − 1,96
σ 12 σ 22
σ2 σ2
+
≤ µ1 − µ 2 ≤ ( x1 − x 2 ) + 1,96 1 + 2
n1
n2
n1
n2
(95%).
Exemplo1: Pesquisadores desejam estimar a diferença entre os níveis de ácido
úrico no soro de pacientes com e sem mongolismo. Tomou-se uma amostra de
12 indivíduos mongolóides e se obteve uma média x1 = 4,5 mg/100 ml.
Tomou-se então outra amostra de 15 indivíduos saudáveis de mesma idade e
sexo que os mongolóides e se obteve uma média x2 = 3,4 mg/100 ml.
Assumindo que as duas populações são normalmente distribuídas com
variâncias iguais a 1 mg/100 ml, calcule um IC95% para µ1−µ2.
Temos
σ x1 − x2 =
que
x1 − x 2 = 4,5 − 3,4 = 1,1 mg/100
ml
e
que
σ 12 σ 22
1
1
+
=
+
= 0,39 mg/100 ml. Logo:
n1 n2
12 15
IC95% = 1,1 ± 1,96 x 0,39 = 1,1 ± 0,8 mg/100 ml (0,3 − 1,9).
1
Estatística II – Antonio Roque – Aula 6
Se as distribuições populacionais não forem normais, mas os tamanhos das
amostras, n1 e n2, forem grandes podemos, pelo Teorema Central do Limite,
continuar a resolver problemas como no exemplo anterior.
Exemplo 2: Deseja-se comparar o status econômico de pacientes de dois
hospitais. A renda familiar anual média de uma amostra de 75 pacientes do
Hospital A é x1 = R$ 68.000,00 e a renda familiar anual média de uma
amostra de 80 pacientes do Hospital B é x2 = R$ 44.500,00. Se os desvios
padrões das duas populações forem iguais, respectivamente, a σ1 = R$
6.000,00 e σ2 = R$ 5.000,00, calcule um intervalo de confiança de 99% para a
diferença entre as médias das duas populações, µ1−µ2.
Temos
σ x1 − x2
que
σ 12 σ 22
=
+
=
n1 n2
x1 − x2 = 68.000 − 44.500 = 23.500
(6000)2 + (5000)2
75
80
e
que
= 890 . Logo:
IC99% = ( x1 − x2 ) ± 2,58σ x − x = 23.500 ± 2,58 x 890 = 23.500 ± 2.296
1
2
(R$ 21.204,00 − R$ 25.796,00).
Quando as variâncias das populações não são conhecidas, as amostras não
forem grandes, mas pudermos assumir que as distribuições populacionais são
normais devemos usar a distribuição t de Student para calcular os intervalos de
confiança para µ1−µ2. Neste caso, há duas situações possíveis:
a) As variâncias populacionais são iguais;
b) As variâncias populacionais são diferentes.
2
Estatística II – Antonio Roque – Aula 6
Caso a: Variâncias populacionais desconhecidos, mas iguais.
Caso a hipótese de igualdade das variâncias seja válida, devemos considerar
que as variâncias obtidas para as amostras retiradas das duas populações são
estimativas da mesma coisa: a variância comum às duas populações, σ2.
Para estimar a variância comum, σ2, toma-se uma média ponderada das
2
2
variâncias s1 e s 2 . Os fatores de ponderação são os graus de liberdade de
cada amostra. Sendo assim, a amostra maior (que, teoricamente, contém mais
informação sobre a população) terá um peso maior na estimativa de σ2. A
variância estimada é dada então por:
s
2
(
n1 − 1)s12 + (n 2 − 1)s 22
=
n1 + n 2 − 2
.
Com esta variância, o erro padrão da distribuição amostral de ( x1 − x2 ) é:
3
Estatística II – Antonio Roque – Aula 6
σ x1 − x2 =
s2 s2
+
,
n1 n2
e, finalmente, a fórmula para o cálculo do intervalo de confiança de α% para
este caso é:
(x1 − x2 ) ± tα %
s2 s2
+
n1 n2 .
Para se obter o valor de tα% a partir da tabela, deve-se usar gl = n1 + n2 − 2.
Exemplo: Uma concessionária de rodovia quer fazer uma comparação entre
duas das suas praças de pedágio com relação ao tempo gasto por veículos
desde a chegada ao guichê até a saída. A população 1 é composta pelos
veículos que passam pela praça de pedágio 1 e a população 2 é composta pelos
veículos que passam pela praça de pedágio 2. Retirou-se uma amostra de 24
veículos da população 1, com tempo médio de permanência no pedágio de 1,8
minutos e desvio padrão de 0,6 minutos. Retirou-se uma amostra de 18
veículos da população 2, com tempo médio de permanência de 1,4 minutos e
desvio padrão de 0,5 minutos. As variâncias das duas populações são
desconhecidas, mas vamos assumir que elas são iguais. Vamos também
assumir que a distribuição dos tempos de permanência nas praças de pedágio é
normal. Calcule o IC95% para µ1−µ2.
Começamos estimando a variância comum às duas populações (por hipótese):
s
2
2
2
(
24 − 1)(0,6 ) + (18 − 1)(0,5)
=
24 + 18 − 2
= 0,31 ⇒ s = 0,56 min.
Agora, calculamos o IC95% da forma usual, usando gl = 24 + 18 − 2 = 40. Pela
tabela, vemos que t95% = 2,0211:
4
Estatística II – Antonio Roque – Aula 6
(1,8 − 1,4) ± 2,0211
0,31 0,31
+
= 0,4 ± 0,45 .
24
18
IC95% = (0 − 0,85).
Caso b: Variâncias populacionais desconhecidos e diferentes.
Neste caso, em que não há base suficiente para se assumir que σ 12 = σ 22 , a
situação fica mais complicada. Mesmo que as distribuições das populações 1 e
2 sejam normais, a teoria indica que não se pode usar a distribuição t de
Student como no caso anterior.
A solução para este problema foi estudada por vários estatísticos ao longo do
Séc. XX: Behrens (1929), Fisher (1939, 1941), Neyman (1941), Scheffé
(1943, 1944), Welch (1937, 1947), Aspin (1949), Trickett et al. (1956) e
Cochran (1964). A solução proposta por Cochran consiste em usar a seguinte
alternativa à distribuição t de Student:
t/α′ % =
w1t1 + w2 t 2
,
w1 + w2
onde w1 = s12 / n1 , w2 = s 22 / n 2 , t1 = tα% para gl = n1 – 1 e t2 = tα% para gl = n2 – 1.
Com esta alternativa, uma aproximação para o intervalo de confiança de α%
para o caso das variâncias populacionais desconhecidas e desiguais é:
(x1 − x 2 ) ± tα′ %
s12 s 22
+
n1 n 2 .
Exemplo: Aplicou-se um teste de conhecimentos gerais a duas populações
diferentes. A população 1 é composta por alunos que acabaram de concluir o
2o grau e a população 2 é composta por pessoas que concluíram o segundo
grau há mais de 10 anos, tendo ou não cursado universidades depois.
5
Estatística II – Antonio Roque – Aula 6
Retiraram-se amostras de tamanhos n1 = 20 e n2 = 22 das duas populações e os
seguintes resultados foram obtidos: x1 = 6,2 e s12 = 0,7; x 2 = 5,8 e s 22 = 5,0 . Não se
tem motivo para assumir que os desvios padrões populacionais são iguais, mas
é razoável supor que as distribuições populacionais são normais. Estime um
intervalo de confiança de 95% para µ1−µ2.
Da tabela da distribuição t de Student, temos:
t1 = t95% (gl = 19) = 2,0930 e t2 = t95% (gl = 21) = 2,0796.
Temos também que:
w1 = 0,7/20 = 0,035 e w2 = 5/22 = 0,227.
Logo:
t′ =
0,035.2,0930 + 0,227.2,0796
= 2,08 .
0,035 + 0,227
Então:
s12 s 22
(x1 − x2 ) ± 2,08 + = 0,4 ± 1,1 ; (0 − 1,5).
n1 n2
6
Estatística II – Antonio Roque – Aula 6
O fluxograma abaixo sintetiza os procedimentos a serem utilizados para se
determinar o intervalo de confiança para a diferença entre duas médias
populacionais (adaptado de Daniel, W.W., Biostatistics: a foundation for
analysis in the health sciences, 5th ed., Wiley, New York, 1991).
7
Download

1e ,, ssxx .