Universidade Federal de Alagoas Centro de Tecnologia Estatística Aula 23 Prof. Marllus Gustavo Ferreira Passos das Neves Aula 23 Teste de Hipóteses para 3 ou mais médias: ANOVA fator único Inferência sobre 3 ou mais médias Objetivo: dadas 3 ou mais amostras, verificar a hipótese de igualdade de 3 ou mais médias populacionais Suponha que a equipe de engenheiros de uma fábrica de papel desconfia que a porcentagem (concentração) de madeira de lei na fabricação aumenta a resistência à tensão. Eles resolvem fazer experimentos com 4 níveis de concentração: 5%, 10%, 15% e 20%, fabricando 6 corpos de prova para cada nível, totalizando 24 corpos de prova Inferência sobre 3 ou mais médias O quadro abaixo o experimento com os resultados Observações Concentração de madeira de lei 5% 10% 15% 20% 1 7 12 14 19 2 8 17 18 25 3 15 13 19 22 4 11 18 17 23 5 9 19 16 18 6 10 15 18 20 Médias 10,00 15,67 17,00 21,17 Neste tipo de experimento, há um único fator concentração de madeira de Lei. O fator no nosso exemplo possui 4 níveis chamados de tratamentos Cada tratamento teve 6 observações 6 replicatas Inferência sobre 3 ou mais médias A pergunta a ser respondida: o nível do fator ou os diferentes tratamentos fazem melhorar a resistência à tensão do papel? Outro Exemplo: testar a hipótese de que o CRs acumulados médios dos alunos de engenharia são diferentes para 3 diferentes populações: iniciantes, intermediários e concluintes. Os dados estão a seguir amostras de tamanhos iguais a 30 Quem é o fator? Quem são os tratamentos? Inferência sobre 3 ou mais médias População/ estatística Iniciantes Intermediários Concluintes 30 30 30 Média amostral 6,564 6,736 7,105 s 1,739 1,148 1,041 n Hipóteses: H0: m1 = m2 = m3 = ... H1: pelo menos uma é diferente das demais Usaremos a chamada análise de variância (ANOVA) médias muito diferentes ocasionam variância entre elas alta Inferência sobre 3 ou mais médias Ideia geral do teste: como se supõe que as populações têm variâncias iguais, ou seja, s12 = s22 = s32 = ... = s2, estimamos s2 com 2 abordagens diferentes. Com a estatística F descobriremos se estas 2 abordagens possuem estimativas muito direfentes F alto ou parecidas F próximo de 1. O 1º caso será evidência em favor de H1 e o 2º caso em favor de H0 Quais são as 2 abordagens? Variância entre amostras (variância devido ao tratamento) Variância dentro das amostras (variância devido ao erro) Inferência sobre 3 ou mais médias F variância variância entre amostras dentro das amostras Médias muito diferentes ocasionam variância entre elas alta (variância entre amostras) F alto Região de rejeição rejeitamos H0 evidência contra a igualdade de médias Médias parecidas ocasionam variância entre elas baixa (variância entre amostras) F baixo Região de não rejeição não rejeitamos H0 evidência a favor da igualdade de médias População/estatística Iniciantes Intermediários Concluintes 30 30 30 Média amostral 6,564 6,736 7,105 s 1,739 1,148 1,041 n numerador denominador Inferência sobre 3 ou mais médias Suposições: 1) As amostras são independentes umas das outras; 2) As populações têm distribuições que são aproximadamente normais 3) As populações têm a mesma variância (exigência leve tamanhos de amostras iguais podem ter variâncias bem diferentes: a maior ser até 9 vezes a menor os resultados ainda são confiáveis) 4) Amostras aleatórias 5) As amostras são de populações que são categorizadas de uma só maneira Aplicações Exemplo (continuação): testar a hipótese de que o CRs acumulados médios dos alunos de engenharia são diferentes para 3 diferentes populações: iniciantes, intermediários e concluintes. População/estatística Iniciantes Intermediários Concluintes 30 30 30 Média amostral 6,564 6,736 7,105 s 1,739 1,148 1,041 n 2 ns X 30 0,0764 2,292 2 sp (1,739) 2 (1,148) 3 2 (1,041) 2 1,808 numerador denominador Aplicações 2 F ns X s 2 p 2,292 1,808 1,268 Como sempre achar o valor crítico de F da tabela Para a = 0,05 e graus de liberdade: glnumerador = k – 1 = 3 – 1 = 2 gldenominador = k.(n – 1) = 3.(30 – 1) = 87 onde k é o no de amostras e n o tamanho das amostras (por enquanto o mesmo para todas elas) Aplicações A tabela não possui 87, mas sim 60 e 120, cujos valores são 3,1504 e 3,0718. Tomando o valor médio, temos Fc = 3,111 Como F = 1,268 < Fc = 3,111 não há evidência estatística suficiente, ao nível de significância de 5%, para afirmar que as 3 médias sejam diferentes Inferência sobre 3 ou mais médias Esse foi o caso da aplicação da ANOVA de um critério ou ANOVA de fator único, pois usamos uma única característica ou propriedade para categorizar populações. Essa característica é, algumas vezes chamada de tratamento ou fator. Outra observação: os tamanhos das amostras foram iguais, o que facilitou bastante o cálculo e o entendimento A seguir veremos como fica o caso de amostras com tamanhos diferentes ANOVA fator único: amostras de tamanhos diferentes Para o caso de amostras com tamanhos diferentes, também usamos a estatística F como a razão entre duas estimativas diferentes da variância populacional comum s2, mas agora elas envolvem medidas ponderadas 2 n x -x i i Variação entre as médias das amostras (tratamento) k -1 F (n i 1)s i2 Variação dentro das amostras (erro) (n i 1) ANOVA fator único: amostras de tamanhos diferentes Média de todos os valores x amostrais combinados 2 n x -x i i k -1 F (n i 1)s i2 (n i 1) k No de médias populacionais sendo comparadas ni No de valores da i-ésima amostra xi s 2 i Média dos valores da i-ésima amostra Variância dos valores da i-ésima amostra ANOVA fator único: amostras de tamanhos diferentes Suponhamos 3 amostras (tabela abaixo) Amostra 1 Amostra 2 Amostra 3 a1 b1 c1 a2 b2 c2 b3 x n1 = 2 n2 = 3 n3 = 2 x1 x2 x3 2 1 2 2 s3 s x s 2 k = 3 3 médias populacionais sendo comparadas: m1, m2 e m3 médias amostrais variâncias amostrais a 1 a 2 b1 b2 b3 c1 c2 n1 n 2 n 3 =7 média de todos os valores amostrais combinados ANOVA fator único: amostras de tamanhos diferentes Suponhamos 3 amostras (tabela abaixo) Amostra 1 Amostra 2 Amostra 3 a1 b1 c1 a2 b2 c2 x b3 n1 = 2 n2 = 3 n3 = 2 x1 x2 x3 n x i i -x 2 n1 x1 - x 2 x n x 2 2 7 e 2 a 1 a 2 ... c2 c3 2 2 2 s2 s1 -x n x 2 s3 2 3 2 3 -x 2 2 (n i 1)s i (n 1 1)s 1 (n 2 1)s 2 (n 3 1)s 3 (n i 1) (n 1 1) (n 2 1) (n 3 1) 2 n x x i i k -1 F (n i 1)s i2 (n 1) i ANOVA fator único: amostras de tamanhos diferentes Há uma nomenclatura para estes somatórios n x i i -x 2 n1 x1 - x n x 2 2 2 -x n x 2 3 3 -x 2 SQ(tratame nto) ou SQ(entre amostras) ou SQ(entre grupos) ou SQ(fator) 2 2 2 2 (n i 1)s i (n 1 1)s 1 (n 2 1)s 2 (n 3 1)s 3 SQ(erro) ou SQ(dentro das amostras) onde SQ = Soma dos quadrados Dividindo SQ(tratamento) e SQ(erro) por seus respectivos graus de liberdade MQ(tratamento) e MQ(erro) onde MQ = Média quadrática ANOVA fator único: amostras de tamanhos diferentes MQ(tratame nto) MQ(erro) SQ(tratame nto) k 1 SQ(erro) N -k onde N = n1 + n2 + n3 no total de valores em todas as amostras combinadas (n i 1) (n 1 1) (n 2 1) (n 3 1) N - 3 k do nosso exemplo ANOVA fator único: amostras de tamanhos diferentes Então para testarmos a hipótese de diferenças de 3 ou mais médias H0: m1 = m2 = m3 = ... H1: pelo menos uma é diferente das demais Estatística de teste: F F MQ(entre MQ(dentro MQ(tratame nto) MQ(erro) amostras) das amostras) gl = k - 1 gl = N - k ANOVA fator único: amostras de tamanhos diferentes Este tipo de teste costuma ser feito com o auxílio da tabela ANOVA Col 1 Col 2 Col 3 Col 4 Col 5 Fonte de variação Soma dos Quadrados (SQ) Graus de liberdade Média Quadrática (MQ) Estatística de teste F k-1 Num = Col 2/Col 3 N-k Den = Col 2/Col 3 Tratamento n x Erro Total i i -x 2 2 (n i 1)s i N-1 Num / Den Aplicações Um engenheiro ambiental está analisando o efeito da vazão de um efluente contaminado com chumbo na concentração de saída do chumbo em um sistema de tratamento. A tabela abaixo apresenta o resultado dos ensaios realizados com 5 vazões diferentes. a) Há qualquer diferença na concentração de saída do chumbo devido à variação na vazão? Use a = 0,05 Aplicações Uso do Statdisk Aplicações Aplicações Revisitando o teste dos CRs acumulados Universidade Federal de Alagoas Centro de Tecnologia Estatística Aula 23 Prof. Marllus Gustavo Ferreira Passos das Neves