8 Teste de hipóteses com duas amostras Estatística Aplicada Larson Farber Seção 8.1 Testando a diferença entre duas médias (amostras grandes e independentes) Visão geral Para testar o efeito benéfico de um tratamento fitoterápico sobre a memória, você seleciona aleatoriamente duas amostras de pessoas; uma delas receberá o medicamento e a outra tomará um placebo. Um mês depois, os dois grupos são submetidos a um teste de memória e obtêm os resultados a seguir. Amostra 1 Grupo experimental (tratamento) Amostra 2 Grupo de controle (placebo) A estatística teste resultante é 77 – 73 = 4. Essa diferença é significativa ou pode ser atribuída ao acaso (erro amostral)? Amostras independentes Os membros de uma amostra não têm relação com os membros da outra. Uma pessoa que recebeu o tratamento fitoterápico não estava relacionada nem podia ser emparelhada com outra no grupo de controle. x1 x1 x1 x1 x1 x1 x1 Grupo experimental x2 x2 x2 x2 x2 Grupo de controle Amostras dependentes Cada membro de uma amostra pode ser emparelhado a um membro da outra amostra. A nota no teste de memória de cada pessoa da amostra podia ser registrada antes e depois do tratamento. x1 x1 x2 x2 x1 x1 x1 x1 Nota antes Pode-se calcular a diferença x2 x2 x2 x2 Nota depois para cada par. Aplicação Para testar o efeito benéfico de um tratamento fitoterápico sobre a memória, você seleciona aleatoriamente uma amostra de 95 pessoas, as quais receberão o tratamento, e uma amostra de 105 pessoas que tomarão um placebo. Um mês depois, ambos os grupos submetem-se a um teste. A nota média do grupo experimental é de 77, com um desvio padrão de 15. No grupo de controle, a média é 73 e o desvio padrão, 12. Teste a alegação de que o tratamento fitoterápico melhora a memória a = 0,01. 1. Estabeleça as hipóteses nula e alternativa. A hipótese nula H0 em geral contém a condição de igualdade. (Não há diferença entre os parâmetros das duas populações.) A hipótese alternativa Ha é verdadeira quando H0 é falsa. (alegação) 2. Estabeleça o nível de significância. = 0,01. Essa é a probabilidade de H0 ser verdadeira e você a rejeitar. 3. Identifique a distribuição amostral. A distribuição da estatística amostral é normal, já que as duas amostras são grandes. Região de rejeição z 0 z0 4. Determine o valor crítico. 2,33 Valor crítico z0 5. Determine a região de rejeição. 6. Determine a estatística teste. 1,933 Se as duas amostras são grandes, você pode usar s1 e s2 no lugar de e . 3,74 2,07 1,933 7. Tome sua decisão. 0 2,33 z = 2,07 não cai na região de rejeição. Não rejeite a hipótese nula. O valor P é 0,019 > 0,01. Não rejeite H0. 8. Interprete sua decisão. Não há evidência suficiente para aceitar a alegação de que o tratamento fitoterápico aumenta a memória. z Seção 8.2 Testando a diferença entre duas médias (amostras pequenas e independentes) Testando a diferença entre médias (amostras pequenas) Quando você não pode colher amostras de 30 ou mais itens, você pode usar um teste t, se as duas populações forem normalmente distribuídas. A distribuição amostral depende do fato de as variâncias populacionais serem ou não iguais. Se as variâncias das duas populações são iguais, você pode combinar ou ‘agrupar’ informação das duas amostras, a fim de formar uma estimativa agrupada do desvio padrão. O erro padrão é: g.l. = n1 + n2 – 2 Se as variâncias forem diferentes, o erro padrão será: E o g.l. será o menor entre n1 – 1 e n2 – 1. Aplicação Cinco pick-ups pequenas e oito SUVs realizaram testes de colisão a cinco milhas por hora. Para as pick-ups, o conserto do pára-choques custou em média US$ 1.520, com um desvio padrão de US$ 403. No caso dos SUVs, o conserto custou uma média de US$ 937, com um desvio padrão de US$ 382. Sendo = 0,05, teste a alegação de que o conserto de pára-choques das pick-ups custa mais que o dos SUVs. Suponha que as variâncias sejam iguais. n Pick-up 5 1.520 SUV 8 937 s 403 382 1. Estabeleça as hipóteses nula e alternativa. (alegação) 2. Estabeleça o nível de significância. = 0,05. 3. Identifique a distribuição amostral. Como as variâncias são iguais, a distribuição da estatística amostral é uma distribuição t com g.l. = 5 + 8 – 2 = 11. 4. Determine o valor crítico. t t0 0 5. Determine a região de rejeição. 1,796 6. Determine a estatística teste. Se as variâncias forem iguais, determine o valor agrupado. 389,77 389,77(0,570) = 222,203 222,203 2,624 7. Tome sua decisão. t 0 1,796 t = 2,624 cai na região de rejeição. Rejeite a hipótese nula. 8. Interprete sua decisão. Há evidência suficiente para aceitar a alegação de que o conserto de pára-choques das pick-ups custa mais que o dos SUVs. Aplicação Segundo uma imobiliária, não há diferença entre a renda média familiar de dois condomínios. A renda média de 12 famílias do primeiro condomínio é de US$ 48.250, com um desvio padrão de US$ 1.200. No segundo condomínio, 10 famílias têm uma renda média de US$ 50.375, com um desvio padrão de US$ 3.400. Suponha que as rendas sejam normalmente distribuídas e que as variâncias sejam diferentes. Teste a alegação sendo = 0,01. 1. Estabeleça as hipóteses nula e alternativa. Primeiro Segundo (alegação) n 12.000 10.000 48,250 50,375 s 1.200.000 3.400.000 2. Estabeleça o nível de significância. . 0,01 3. Identifique a distribuição amostral. Como as variâncias são diferentes, a distribuição da estatística amostral é uma distribuição t com g.l. = 9. (A menor amostra tem 10 itens, e 10 – 1 = 9.) –t0 t –3,250 0 t0 4. Determine os valores críticos. 5. Determine as regiões de rejeição. 3,250 6. Determine a estatística teste. 1.2002 (48.250 – 50.375) 1129,6017 1,88 3.4002 1.129,6017 7. Tome sua decisão. 0 t –3,250 3,250 t = –1,881 não cai na região de rejeição. Não rejeite a hipótese nula. (O valor P é 0,087 > 0,01.) 8. Interprete sua decisão. Não há evidência suficiente para rejeitar a alegação de que não há diferença entre as rendas familiares médias dos dois condomínios. Seção 8.3 Testando a diferença entre duas médias (amostras dependentes) A diferença entre médias: amostras dependentes Se cada valor de uma amostra puder ser emparelhado com um valor da outra, as amostras serão dependentes. x1 x1 x2 x2 x1 x1 x1 x1 x2 x2 x2 x2 Calcula-se a diferença, d = x1 – x2, para cada par de dados. A distribuição amostral de , a média das diferenças, é uma distribuição t com n – 1 graus de liberdade (n é o número de pares.) Aplicação A tabela abaixo mostra a freqüência cardíaca (em batidas por minuto) de cinco pessoas antes e depois de uma sessão de exercícios físicos. Há evidência suficiente para se concluir que o 0,05 . exercício acelera a freqüência cardíaca? Use Indivíduo 1 2 3 4 5 Antes 65 72 Depois 127 135 d 62 63 85 78 93 140 136 150 55 58 57 A média das diferenças, d, é 59. O desvio padrão de d é 3,39. 3,39 1. Estabeleça as hipóteses alternativa e nula. (alegação) 2. Estabeleça o nível de significância. 0,05 3. Identifique a distribuição amostral. A distribuição da estatística amostral distribuição t com g.l. = 4. é uma (Como há cinco pares de dados, g.l.= 5 – 1 = 4.) 4. Determine o valor crítico. t 0 t0 5. Determine a região de rejeição. 2,132 6. Determine a estatística teste. 3,39 38,92 7. Tome sua decisão. 2,132 0 t0 t t = 38,92 cai na região de rejeição. Rejeite a hipótese nula. O valor P é muito próximo de 0. 8. Interprete sua decisão. Há evidência suficiente para aceitar a alegação de que o exercício acelera a freqüência cardíaca. Usando o Minitab Resultados impressos do Minitab Test of = 0.00 vs > 0.00 Variable N Mean StDev SE Mean T P diff. 5 59.00 3.39 1.52 5 38.90 0.0000 O valor P é 0,0000. Como 0,0000 < 0,05, rejeite a hipótese nula. Seção 8.4 Testando a diferença entre duas proporções A diferença entre proporções Se as amostras independentes colhidas de duas populações forem grandes o bastante,você pode aplicar um teste para verificar se há diferença entre as proporções populacionais p1 e p2. x1 e x2 representam o número de sucessos na primeira e na segunda amostra, respectivamente. n1 e n2 representam o tamanho da primeira e da segunda amostra, respectivamente. Proporção de sucessos em cada amostra. Como se supõe que as proporções sejam iguais, uma estimativa para o valor comum será: e Teste z de duas amostras Se equivalem, cada um, a pelo menos 5, a distribuição amostral para A média é p1 – p2 = 0 e o desvio padrão: A estatística teste padronizada é: é normal. Aplicação Em um levantamento com 3.420 alunos do ensino médio privado, 917 disseram ter fumado nos 30 dias precedentes. Já em um levantamento com 5.131 alunos do ensino médio público, 1.503 disseram ter fumado nos 0,01, pode-se aceitar a 30 dias precedentes. Sendo alegação de que a proporção de alunos de escola privada que disseram ter fumado é inferior à proporção dos alunos do sistema público que disseram ter 0,01. fumado? Use Ensino privado Ensino público n2 = 5.131 n1 = 3.420 x1 = 917 x2 = 1.503 0,268 0,293 1. Estabeleça as hipóteses nula e alternativa. (alegação) 2. Estabeleça o nível de significância. 3. Identifique a distribuição amostral. A distribuição da estatística amostral é normal, já que equivalem, cada um, a pelo menos 5. 2,420 2.420 8,551 8.551 0,283 e 0,717 0,00994 Região de rejeição Valor crítico z0 –2,33 4. Determine um valor crítico. z 0 5. Determine a região de rejeição. 6. Determine a estatística teste. (0,268 – 0,293) 0,00009888 0,25 0,00994 2,514 7. Tome sua decisão. –2,33 0 z = –2,514 cai na região de rejeição. Rejeite a hipótese nula. 8. Interprete sua decisão. Há evidência suficiente para aceitar a alegação de que a proporção de estudantes que fumou nos colégios privados é menor que a observada nos públicos.