Universidade Federal de Alagoas Centro de Tecnologia Estatística Aula 21 Prof. Marllus Gustavo Ferreira Passos das Neves Aula 21 Teste de Hipóteses para duas médias Teste de Hipóteses – 2 amostras Até o momento vimos testes de hipótese para média (com s conhecido ou s desconhecido) e para variância (e desvio padrão) Observe a série de vazões abaixo ... Há algo acontecendo nela? E se calcularmos a média em 2 períodos? Teste de Hipóteses – 2 amostras Inferência Estatística para Duas Populações Com base nos dados das amostras de cada população, pode-se apresentar conclusões com relação a comparação das duas populações, usando para isto o teste de hipótese. N1 N2 Teste de Hipóteses – 2 amostras Nosso objetivo agora é realizar testes de hipóteses a respeito da diferença ou não entre 2 médias e 2 variâncias Ou ainda testar se 2 grupos de dados, emparelhados ou independentes, vêm de populações com médias ou variâncias diferentes Mas o que são grupos independentes ou dependentes (emparelhados)? Teste de Hipóteses – 2 amostras Duas amostras são independentes se os valores amostrais de uma população não estão relacionados ou de alguma forma emparelhados ou combinados com os valores amostrais selecionados de outra população. Se existe alguma relação de modo que cada valor em uma amostra esteja emparelhado com o valor correspondente na outra amostra, as amostras são dependentes ou emparelhadas Inferência sobre 2 médias: amostras independentes Suposições: 1) As 2 amostras são independentes; 2) As amostras são aleatórias; 3) Os 2 tamanhos amostrais são ambos grandes (n1 > 30 e n2 >30) ou ambas as amostras provêm de populações com distribuições normais Estatística de teste X t 1 (A B) Graus de gl 2 2 A B liberdade n1 1 X2 ( 1 2 ) AB 2 onde A 2 s1 n1 e B n2 1 2 s2 n2 Inferência sobre 2 médias: amostras independentes Valores críticos tabela da curva t Hipóteses: H0: 1 = 2 ou 1 - 2 = 0 e H1: 1 ≠ 2 Intervalo de confiança: X onde E t c 1 X 2 E ( 1 2 ) X1 X 2 E AB , A 2 s1 n1 e B 2 s2 n2 Inferência sobre 2 médias: amostras independentes Exemplo: investigar se há evidência estatística para afirmar que o IMC dos alunos e das alunas de cursos diurnos do Ctec (exceção de Eng. do Petróleo) são diferentes Com o que vimos anteriormente (IC para uma amostra), poderíamos já ter noção se há diferença ou não? média Lim Lim Gênero N n %N pop gl tc fator amostral s E Ecorr inf sup Masculino 606 32 5,28 finita 31 2,04 0,974 23,8 3,0 1,08 1,05 22,8 24,9 Feminino 268 20 7,46 finita 19 2,09 0,964 21,0 1,6 0,60 0,58 20,4 21,6 Inferência sobre 2 médias: amostras independentes Exemplo: investigar se há evidência estatística para afirmar que o IMC dos alunos e das alunas de cursos diurnos do Ctec (exceção de Eng. do Petróleo) são diferentes 22,8 24,9 23,8 20,4 21,6 21,0 15,0 30,0 A não superposição de Ics parece indicar que há diferença significativa entre as médias. Entretanto, vamos realizar o teste formal Inferência sobre 2 médias: amostras independentes Exemplo: investigar se há evidência estatística para afirmar que o IMC dos alunos e das alunas de cursos diurnos do Ctec (exceção de Eng. do Petróleo) são diferentes 1) Parâmetro de interesse 1 - 1 2) Hipótese nula H0 1 - 1 = 0 3) Hipótese alternativa H1 1 ≠ 2 4) Nível de significância a = 0,05 5) Estatística de teste t (desconhecemos s1 e s2) 6) Região de rejeição para a estatística 95% 2,5% - tc 2,5% tc Inferência sobre 2 médias: amostras independentes 7) Grandezas amostrais necessárias X1 23,81 X 2 20,98 s1 2,995 s 2 1,629 2 A s1 n1 2 Estatística de teste B t s2 n2 23,81 8,97 32 2,65 20 0,280 0,133 20,98 0 0,280 0,133 4,41 Aplicações 8) Decisão Valor crítico de tc gl (A B) A 2 n1 1 2 B 2 n2 1 (0,280 0,133) (0,280) 32 1 2 2 (0,133) 2 49 20 1 gl = 49, o que significa tc = 2,009 (mais próximo gl = 50) Como t de teste cai na região crítica, a hipótese H0 tem que ser rejeitada, ou seja, há evidência estatística suficiente, ao nível de significância de 5%, para afirmar que os Índices de Massa Corpórea (IMC) para os homens são diferentes dos IMCs das mulheres, para alunos do curso diurno do Ctec, com exceção do curso de Eng. do Petróleo Aplicações Os resultados que vimos já seriam vislumbrados com estatística descritiva? IMC masculino IMC feminino Aplicações E quanto à normalidade das populações? IMC masculino IMC feminino Aplicações Exemplo: estabeleça o IC para a diferença entre as médias do IMC do exemplo anterior Calculando a margem de erro para gl = 49 tc = 2,009 E t c A B 2,009 0,280 0,133 2,009 0,643 1,29 Intervalo de confiança: X 1 X 2 E ( 1 2 ) X1 X 2 E 2,83 1,29 ( 1 2 ) 2,83 1,29 1,54 ( 1 2 ) 4,12 Estamos confiantes 95% de que 1 excede 2 por uma quantidade que está entre 1,54 e 4,12 O valor zero está neste IC? Inferência sobre 2 médias: amostras emparelhadas Exemplos de amostras emparelhadas Ao conduzir um experimento para testar a eficácia de uma dieta de baixa gordura, o peso de cada sujeito é medido uma vez antes da dieta e uma vez após a dieta Para testar a eficácia de uma técnica de tratamento do esgoto com o objetivo de reduzir, por exemplo, a presença de patógenos, mede-se um indicador antes e depois do tratamento, em várias amostras Inferência sobre 2 médias: amostras emparelhadas Suposições: 1) Os dados amostrais consistem em pares combinados; 2) As amostras são aleatórias; 3) O no de pares combinados de dados amostrais é grandes (n > 30) ou os pares de valores têm diferenças que são de uma população com distribuição normal Inferência sobre 2 médias: amostras emparelhadas d diferença individual entre 2 valores em um único par combinado d valor médio das diferenças d para a população de todos os pares combinados d valor médio das diferenças d para os dados amostrais emparelhados (igual à média dos valores x – y) sd desvio padrão das diferenças d para os dados amostrais combinados n no de pares de dados d d Estatística t sd gl = n - 1 de teste n Inferência sobre 2 médias: amostras emparelhadas Hipóteses: H0: d = 0 e H1: 1 ≠ 2 ou H1: d > 0 ou H1: d < 0 Intervalo de confiança: d E d d E onde E tc sd n Aplicações Exemplo: Um artigo no Journal of Strain Analysis (1983, Vol. 18, No 2) compara vários métodos para predizer a resistência de cisalhamento para traves planas metálicas. Dados para 2 desses métodos, os procedimentos de Karlsruhe e Lehigh, quando aplicados a 9 traves específicas, são mostrados na tabela. Desejamos determinar se há qualquer diferença (na média) entre os 2 métodos. Trave Método de Karlsruhe Método de Lehigh Diferença dj S1/1 1,186 1,061 0,119 S2/1 1,151 0,992 0,159 S3/1 1,322 1,063 0,259 S4/1 1,339 1,062 0,277 S5/1 1,200 1,065 0,138 S2/1 1,402 1,178 0,224 S2/2 1,365 1,037 0,328 S2/3 1,537 1,086 0,451 S2/4 1,559 1,052 0,507 Aplicações 1) Parâmetro de interesse D = 1 - 1 2) Hipótese nula H0 D = 0 3) Hipótese alternativa H1 D ≠ 0 4) Nível de significância a = 0,05 5) Estatística de teste t (desconhecemos s1 e s2) 6) Região de rejeição para a estatística 95% 2,5% 2,5% - tc 7) Grandezas amostrais necessárias d 0,2736 sD 0,1356 Estatística de teste t tc d d sd n 0,2736 0,1356 9 6,05 Aplicações 8) Decisão Valor crítico de tc gl = 9 – 1 = 8, duas caudas tc = 2,306 t 6,05 - 2,306 0 2,306 Como t de teste cai na região crítica, a hipótese H0 tem que ser rejeitada, ou seja, há evidência estatística suficiente, ao nível de significância de 5%, para afirmar que os métodos de previsão fornecem resultados diferentes. Especificamente, podemos dizer que o método Karlsruhe produz, em média, previsões maiores para a resistência do que o método de Lehigh Universidade Federal de Alagoas Centro de Tecnologia Estatística Aula 21 Prof. Marllus Gustavo Ferreira Passos das Neves