Programa de Pós-Graduação em Engenharia Elétrica Disciplina: Introdução ao Processo Estocástico ANOVA: Análise de Variância APLICAÇÃO. Prof. Hani Camille Yehia Alunos: Augusto Filho Cléia do N. Cavalcante Roteiro • Modelo de ANOVA • Verificação da suposição do Modelo • Simulação • Exemplo Prático • Conclusão • Bibliografia Modelo ANOVA yij i eij i = 1, 2, 3, ...,k j = 1, 2, ..., n Yij ; é valor da variável resposta na j-ésima observação do i-ésimo tratamento. : é a a média geral de todos os tratamentos; i : é o efeito do i-ésimo tratamento; eij: é o erro aleatório. Pressuposições Básicas: As amostra são aleatórias e independentes; As populações têm distribuições normais; As populações têm a mesma variância. Hipóteses e modelo subjacente Sob H0: 1 = 2 =...= k = 0 yij i eij yij eij Hipóteses e modelo subjacente Sob H1: i 0 para algum i yij i eij Tabela de Análise de Variância – (ANOVA) Tabela de Análise de Variância – (ANOVA) Fonte de Variação Soma de Quadrados yi2. y..2 N i 1 ni gl Quadrados Médios k Tratamentos SQTRAT k-1 Erro SQERRO = SQTotal - SQTRAT K(n-1) Total 2 y yij2 .. N i 1 j 1 Kn -1 k SQTotal n QM TRAT SQTRAT k 1 QM ERRO SQERRO k (n 1) F F QMTRAT QM ERRO Simulação Simulações em populações normais: Três populações; Tamanho da amostra: n=30, n=50 e n=1000; Estrutura de Média Critério 1 - Médias diferentes com Variâncias Iguais. Critério 2 – Médias Iguais com Variâncias Iguais; Simulação Simulação Simulação Regra de decisão: Abordagem Clássica Rejeito Ho se: F > F (k – 1; k(n - 1) Não rejeita Ho se: F F (k – 1; k(n - 1) Valor-p Regra de decisão: Abordagem Valor-p = nível de significância (probab. tolerável de se rejeitar Ho quando esta for verdadeira) Usual: = 5% rejeita H0 (prova-se estatisticamente H1) Não rejeita H0 (os dados não mostram evidência para afirmar H 1) Valor-p Valor-p > Verificação da Adequação do Modelo Um resíduo é definido como: eij yij y i Resíduo: A diferença entre uma observação e a média do tratamento correspondente. As suposições associadas ao modelo, é feita através da analise dos resíduos: 1. Os erros tem média zero e a mesma variância 2; 2. Os erros são independentes, ou seja, um valor de um erro não depende de qualquer outro erro; 3. Os erros têm distribuição normal. Logo, os erros são iid N(0, 2). Verificação da Adequação do Modelo • Suposição de Independência Gráfico de Resíduos vs Ordem • Suposição de Igualdade de Variância Gráfico de Resíduos vs Médias dos Tratamentos • Suposição de Normalidade Gráfico de Probabilidade Normal Exemplo: Um fabricante de papel usado para fabricar sacos de papel pardo está interessado em melhorar a resistência do produto à tensão. A engenharia de produto pensa que a resistência à tensão seja uma função da concentração de madeira de lei na polpa e que a faixa pratica de interesse das concentrações de madeira de lei esteja entre 5 e 20%. Um time de engenheiros responsáveis pelo estudo decide investigar quatro níveis de concentração de madeira de lei: 5%, 10%, 15% e 20%. Eles decidem fabricar seis corpos de prova, para cada nível de concentração, usando uma planta piloto. Todos os 24 corpos de prova são testados, em uma ordem aleatória, em um equipamento de teste de laboratório. Os dados desse experimento são: Box-Plot Boxplot of Madeira vs Concentracao 25 Madeira 20 15 10 5 5 10 15 Concentracao 20 Hipóteses: Continuação do teste de hipóteses: Final do teste Análise dos Resíduos Residual Plots for Madeira Normal Probability Plot of the Residuals Standardized Residual 99 Percent 90 50 10 1 Residuals Versus the Fitted Values -2 -1 0 1 Standardized Residual 2 2 1 0 -1 -2 Frequency 4,8 3,6 2,4 1,2 0,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 Standardized Residual 12,5 15,0 17,5 Fitted Value 20,0 Residuals Versus the Order of the Data Standardized Residual Histogram of the Residuals 10,0 2,0 2 1 0 -1 -2 2 4 6 8 10 12 14 16 18 Observation Order 20 22 24 Programa usado no Software R. n<-30 mi1<-19 mi2<-19 mi3<-19 sd<-3 a1<-rnorm(n,mi1,sd) a2<-rnorm(n,mi2,sd) a3<-rnorm(n,mi3,sd) a=c(a1,a2,a3) n=rep(n,3) #tamanho das amostras group=rep(1:3,n) #Cuidado aqui. data = data.frame(a = a, group = factor(group)) fit = lm(a ~ group, data) anova(fit) tmpfn = function(x) c(sum = sum(x), mean = mean(x), var = var(x),n = length(x)) tapply(a, group, tmpfn) tmpfn(a) Conclusão Logo a analise de variância pode ser usada para testar a diferença entre médias de várias populações, mostrando-se que a base usada para os testes estatisticos em analise de variancia é o desenvolvimento de duas estimativas independentes da variancia da população sigma ao quadrado, ao computar a razao destas duas estimativas, desenvolvemos uma regra de rejeijão para determinar se rejeitamos a hipotese nula de que as medias das populações são iguais. Referência: Analysis of Variance Tables Based on Experimental Structure C. J. Brien, Biometrics, Vol. 39, No. 1 (Mar., 1983), pp. 53-59 FISHER, R. A. The logic of inductive inference. J. R. Stat. Soc., v.98, p.34-54, 1935. MONTGOMERY, D.C. 1988. Design and analysis of experiments. 2nd. John Wiley & Sons, New York, USA. SNEDECOR, C.W. and W.G. COCHRAN, 1980. Statistical Methods. 7ed. Iowa State University Press, Amer. Iowa. USA. FISHER, R.A. Statistical Methods for Research Workers. 11ª ed. Oliver & Boyd, Edinburgo. 1950. Gamerman, D. & Migon, H. (1993). Inferência estatística: uma abordagem integrada, Textos de métodos matemáticos, UFRJ. James F. Reed III: Analysis of Variance (ANOVA) Models in Emergency Medicine. The Internet Journal of Emergency and Intensive Care Medicine. 2004. Volume 7 Number 2. http://www.ispub.com/ostia/index.php?xmlFilePath=journals/ijeicm/vol7n2/anova.xml