Estatística II – Antonio Roque – Aula 6 Intervalo de Confiança para a Diferença entre Duas Médias Amostrais Quando se quer estimar a diferença, µ1−µ2, entre as médias de duas populações 1 e 2, procede-se da seguinte maneira: toma-se uma amostra de cada população, com tamanhos n1 e n2 respectivamente. Calculam-se as suas respectivas médias e desvios padrões: x1 , x 2 , s1 e s 2 . Se soubermos que as distribuições populacionais das variáveis x1 e x2 são normais e conhecermos os desvios padrões das duas distribuições, σ1 e σ2, então o intervalo de confiança de 95% para µ1 −µ2 será calculado como (pelos mesmos motivos usados na dedução do intervalo de confiança para a média): (x1 − x2 ) − 1,96 σ 12 σ 22 σ2 σ2 + ≤ µ1 − µ 2 ≤ ( x1 − x 2 ) + 1,96 1 + 2 n1 n2 n1 n2 (95%). Exemplo1: Pesquisadores desejam estimar a diferença entre os níveis de ácido úrico no soro de pacientes com e sem mongolismo. Tomou-se uma amostra de 12 indivíduos mongolóides e se obteve uma média x1 = 4,5 mg/100 ml. Tomou-se então outra amostra de 15 indivíduos saudáveis de mesma idade e sexo que os mongolóides e se obteve uma média x2 = 3,4 mg/100 ml. Assumindo que as duas populações são normalmente distribuídas com variâncias iguais a 1 mg/100 ml, calcule um IC95% para µ1−µ2. Temos σ x1 − x2 = que x1 − x 2 = 4,5 − 3,4 = 1,1 mg/100 ml e que σ 12 σ 22 1 1 + = + = 0,39 mg/100 ml. Logo: n1 n2 12 15 IC95% = 1,1 ± 1,96 x 0,39 = 1,1 ± 0,8 mg/100 ml (0,3 − 1,9). 1 Estatística II – Antonio Roque – Aula 6 Se as distribuições populacionais não forem normais, mas os tamanhos das amostras, n1 e n2, forem grandes podemos, pelo Teorema Central do Limite, continuar a resolver problemas como no exemplo anterior. Exemplo 2: Deseja-se comparar o status econômico de pacientes de dois hospitais. A renda familiar anual média de uma amostra de 75 pacientes do Hospital A é x1 = R$ 68.000,00 e a renda familiar anual média de uma amostra de 80 pacientes do Hospital B é x2 = R$ 44.500,00. Se os desvios padrões das duas populações forem iguais, respectivamente, a σ1 = R$ 6.000,00 e σ2 = R$ 5.000,00, calcule um intervalo de confiança de 99% para a diferença entre as médias das duas populações, µ1−µ2. Temos σ x1 − x2 que σ 12 σ 22 = + = n1 n2 x1 − x2 = 68.000 − 44.500 = 23.500 (6000)2 + (5000)2 75 80 e que = 890 . Logo: IC99% = ( x1 − x2 ) ± 2,58σ x − x = 23.500 ± 2,58 x 890 = 23.500 ± 2.296 1 2 (R$ 21.204,00 − R$ 25.796,00). Quando as variâncias das populações não são conhecidas, as amostras não forem grandes, mas pudermos assumir que as distribuições populacionais são normais devemos usar a distribuição t de Student para calcular os intervalos de confiança para µ1−µ2. Neste caso, há duas situações possíveis: a) As variâncias populacionais são iguais; b) As variâncias populacionais são diferentes. 2 Estatística II – Antonio Roque – Aula 6 Caso a: Variâncias populacionais desconhecidos, mas iguais. Caso a hipótese de igualdade das variâncias seja válida, devemos considerar que as variâncias obtidas para as amostras retiradas das duas populações são estimativas da mesma coisa: a variância comum às duas populações, σ2. Para estimar a variância comum, σ2, toma-se uma média ponderada das 2 2 variâncias s1 e s 2 . Os fatores de ponderação são os graus de liberdade de cada amostra. Sendo assim, a amostra maior (que, teoricamente, contém mais informação sobre a população) terá um peso maior na estimativa de σ2. A variância estimada é dada então por: s 2 ( n1 − 1)s12 + (n 2 − 1)s 22 = n1 + n 2 − 2 . Com esta variância, o erro padrão da distribuição amostral de ( x1 − x2 ) é: 3 Estatística II – Antonio Roque – Aula 6 σ x1 − x2 = s2 s2 + , n1 n2 e, finalmente, a fórmula para o cálculo do intervalo de confiança de α% para este caso é: (x1 − x2 ) ± tα % s2 s2 + n1 n2 . Para se obter o valor de tα% a partir da tabela, deve-se usar gl = n1 + n2 − 2. Exemplo: Uma concessionária de rodovia quer fazer uma comparação entre duas das suas praças de pedágio com relação ao tempo gasto por veículos desde a chegada ao guichê até a saída. A população 1 é composta pelos veículos que passam pela praça de pedágio 1 e a população 2 é composta pelos veículos que passam pela praça de pedágio 2. Retirou-se uma amostra de 24 veículos da população 1, com tempo médio de permanência no pedágio de 1,8 minutos e desvio padrão de 0,6 minutos. Retirou-se uma amostra de 18 veículos da população 2, com tempo médio de permanência de 1,4 minutos e desvio padrão de 0,5 minutos. As variâncias das duas populações são desconhecidas, mas vamos assumir que elas são iguais. Vamos também assumir que a distribuição dos tempos de permanência nas praças de pedágio é normal. Calcule o IC95% para µ1−µ2. Começamos estimando a variância comum às duas populações (por hipótese): s 2 2 2 ( 24 − 1)(0,6 ) + (18 − 1)(0,5) = 24 + 18 − 2 = 0,31 ⇒ s = 0,56 min. Agora, calculamos o IC95% da forma usual, usando gl = 24 + 18 − 2 = 40. Pela tabela, vemos que t95% = 2,0211: 4 Estatística II – Antonio Roque – Aula 6 (1,8 − 1,4) ± 2,0211 0,31 0,31 + = 0,4 ± 0,45 . 24 18 IC95% = (0 − 0,85). Caso b: Variâncias populacionais desconhecidos e diferentes. Neste caso, em que não há base suficiente para se assumir que σ 12 = σ 22 , a situação fica mais complicada. Mesmo que as distribuições das populações 1 e 2 sejam normais, a teoria indica que não se pode usar a distribuição t de Student como no caso anterior. A solução para este problema foi estudada por vários estatísticos ao longo do Séc. XX: Behrens (1929), Fisher (1939, 1941), Neyman (1941), Scheffé (1943, 1944), Welch (1937, 1947), Aspin (1949), Trickett et al. (1956) e Cochran (1964). A solução proposta por Cochran consiste em usar a seguinte alternativa à distribuição t de Student: t/α′ % = w1t1 + w2 t 2 , w1 + w2 onde w1 = s12 / n1 , w2 = s 22 / n 2 , t1 = tα% para gl = n1 – 1 e t2 = tα% para gl = n2 – 1. Com esta alternativa, uma aproximação para o intervalo de confiança de α% para o caso das variâncias populacionais desconhecidas e desiguais é: (x1 − x 2 ) ± tα′ % s12 s 22 + n1 n 2 . Exemplo: Aplicou-se um teste de conhecimentos gerais a duas populações diferentes. A população 1 é composta por alunos que acabaram de concluir o 2o grau e a população 2 é composta por pessoas que concluíram o segundo grau há mais de 10 anos, tendo ou não cursado universidades depois. 5 Estatística II – Antonio Roque – Aula 6 Retiraram-se amostras de tamanhos n1 = 20 e n2 = 22 das duas populações e os seguintes resultados foram obtidos: x1 = 6,2 e s12 = 0,7; x 2 = 5,8 e s 22 = 5,0 . Não se tem motivo para assumir que os desvios padrões populacionais são iguais, mas é razoável supor que as distribuições populacionais são normais. Estime um intervalo de confiança de 95% para µ1−µ2. Da tabela da distribuição t de Student, temos: t1 = t95% (gl = 19) = 2,0930 e t2 = t95% (gl = 21) = 2,0796. Temos também que: w1 = 0,7/20 = 0,035 e w2 = 5/22 = 0,227. Logo: t′ = 0,035.2,0930 + 0,227.2,0796 = 2,08 . 0,035 + 0,227 Então: s12 s 22 (x1 − x2 ) ± 2,08 + = 0,4 ± 1,1 ; (0 − 1,5). n1 n2 6 Estatística II – Antonio Roque – Aula 6 O fluxograma abaixo sintetiza os procedimentos a serem utilizados para se determinar o intervalo de confiança para a diferença entre duas médias populacionais (adaptado de Daniel, W.W., Biostatistics: a foundation for analysis in the health sciences, 5th ed., Wiley, New York, 1991). 7