Estatística ANOVA Análise de Variância (ANOVA) Pontos mais importantes: -metodologia -cálculo de “within sample sum of square”, SSW -cálculo de “between samples sum of square”, SSB -comparação de SSw e SSB -tabela de ANOVA -ANOVA é um modelo aditivo 1 Estatística ANOVA Já tínhamos visto como se construi um teste para a igualdade das médias de duas populações: Hipótese nula: H0 : mX=mY Hipótese alternativa: H1 : mX mY O que acontece, quando temos mais do que duas médias (tratamentos) para comparar? 2 Estatística ANOVA O tempo de coagulação da sangue (segundo) em animais sujeitos à quatro dietas diferentes i/j [X]= A 62 60 63 59 B 63 67 71 64 65 66 C 68 66 71 67 68 68 D 56 62 60 61 63 64 63 59 3 Estatística ANOVA Questão: Os dados observados indicam qualquer evidência que existe uma diferença entre os (valor médio) tratamentos? Hipótese nula: H0 : mA=mB =mC=mD Hipótese alternativa: H1 : mA mB mC mD Conceito: avaliar, se a dispersão do valor médio entre tratamentos estivesse maior do que podia ser esperado (provável) baseado no cálculo de dispersão dos dados dentro dos tratamentos. Metodologia: -cálculo da estimativa da s2, só válida quando H0 é verdadeira -cálculo da estimativa da s2, sempre válida -comparação de estas duas 4 Estatística ANOVA Cálculo de estimativa da s2, sempre válida- “within sample sum of squares” (soma dos quadrados dentro da amostra), SSW A média amostral de tratamento “i” obtenha-se: ni Xi = X j=1 ij i=1, 2, ...,m ni e.g. 4 XA = X 1j j=1 4 = 61 Variância amostral de tratamento i: ni (Xij Xi ) 2 j=1 ni 1 Si = 2 4 (X X ) 2 2 i=1, 2, ...,m e.g SA = 1 j 1 = 3.3 3 j=1 5 Estatística ANOVA 2 S (n i 1) i2 ~ 2n i 1 s como aplicando independência, a distribuição conjunta da soma de estas variâncias amostrais tem: m (n i =1 i 1)Si s2 2 ~m ( n i 1) 2 i =1 E 2 = m 2 (n i 1)Si m m i =1 = (n i 1) = n i m E 2 i =1 s i =1 m 2 ( n 1 ) S i i SS W 2 i =1 = E m E m = s ni m ni m i =1 i =1 6 Estatística ANOVA -Exemplo Xi S2i 61 3.3 A 62 60 63 59 B 63 67 71 64 65 66 66 8 C 68 66 71 67 68 68 68 2.8 D 56 62 60 61 63 64 61 6.8 63 59 SSw =112 SSW=33.3 + 58 + 52.8 + 76.8 = 112 7 Estatística ANOVA Cálculo de estimativa da s2, só válida quando H0 é verdadeira - “between sample sum of squares” (soma dos quadrados entre as amostras), SSB Se H0 for verdadeira, cada Xij tem uma distribuição normal com m e s2. Uma estimativa para o valor médio m pode ser calculada: m X= X11 X12 ... X1n1 X 21 ... X mnm n1 n 2 ... n n = ni X i =1 j=1 m n i =1 ij i Se H0 for verdadeira, Xi também tem uma distr. com valor médio m mas com variância igual à s2/ni. Uma estimativa da variância do valor médio é dada pela: m n i (Xi X) 2 SS B S2 = i =1 = m 1 m 1 8 Estatística ANOVA s2/s2 ~ 2 Considerando o facto que: m 2 n ( X X ) i i i =1 Temos: Por isso (m 1) m 1 s2 m = 2 n ( X X ) i i i =1 s2 ~ 2m1 m 2 n ( X X ) i i SS B SS B 2 i =1 E = E = m 1 E = s s 2 m 1 s2 Nota: pode-se mostrar que quando H0 é falso, SSB/(m-1) sobre estima a variância (s2) 9 Estatística ANOVA -Exemplo Xi S2i 61 3.3 A 62 60 63 59 B 63 67 71 64 65 66 66 8 C 68 66 71 67 68 68 68 2.8 D 56 62 60 61 63 64 61 6.8 63 59 X= 64 SSB= 228 SSB=4(61-64)2 + 6(66-64)2 + 6(68-64)2 + 8(61-64)2 = 228 10 Estatística ANOVA Comparação de SSw e SSB A divisão de duas v.a.s 2k e 2l resulta uma v.a. de distribuição F com k e l graus de liberdade a forma seguinte: 2k k ~ Fk ,l 2 l l Aplicando isto para as duas estimativas da variância temos quando H0 é verdade: m m (n i =1 i 1)Si s 2 2 = SS W ~ 2m 2 s ( n i 1) i =1 n (X i =1 i i s2 X)2 = SS B ~ 2m 1 2 s SS B (m 1) 2 SS B (m 1) s = ~F m m ( m 1), ( n i 1) SS W m i=1 (n i 1) SS W (n i 1) 2 s i =1 i =1 11 Estatística ANOVA Assim, já é relativamente fácil avaliar o teste de hipótese: porque Hipótese nula: H0 : mA=mB =mC=mD Hipótese alternativa: H1 : mA mB mC mD -aceita H0 se SS B (m 1) 2 s F m m ,( m 1), ( n i 1) SS W i =1 (n i 1) 2 s i =1 -rejeita H0 se SS B (m 1) 2 s F m m ,( m 1), ( n i 1) SS W i=1 (n i 1) 2 s i =1 12 Estatística ANOVA Tabela de analise de variância (ANOVA) Para simplificar o cálculo e visualização dos resultados da ANOVA, é costumo apresentar a tabela ANOVA Fonte de variabilidade Entre das amostras Soma quadrada Grau de liberdade F m SS B = n i (Xi X) 2 m-1 i =1 F m m 1, ( n i 1) = i=1 = dentro da amostra m ni SS W = (Xij Xi ) 2 i =1 j=1 i =1 m SS W m (n SS B (m 1) i 1) (n i =1 i 1) 13 Estatística ANOVA -Exemplo Fonte de variabilidade Soma quadrada Grau de liberdade Entre das amostras SSB=228 3 F F3,20= (228/3)/(112/20)=13.6 dentro da amostra SSW=112 20 14 ANOVA Estatística 15 Estatística ANOVA -Output de programa SPSS10.0 ANOVA VAR00001 df Mean Square 76.000 5.600 3 20 23 F 13.571 Sig . .000 72 70 68 66 64 95% CI VAR00001 Between Groups Within Groups Total Sum of Squares 228.000 112.000 340.000 62 60 58 56 N= VAR00002 4 6 6 8 1 2 3 4 16 Estatística ANOVA Caso especial: o número de dados em cada tratamento e igual, n1= n2=...= nm Fonte de variabilidade Entre das amostras Soma quadrada Grau de liberdade F m SS B = n ( Xi X) 2 i =1 m-1 Fm1,m( n 1) = = dentro da amostra m SS B (m 1) SS W m(n 1) n SS W = (Xij Xi ) 2 i =1 j=1 m(n-1) 17 Estatística ANOVA Analogia entre o conceito de analise de variância (ANOVA) e um modelo aditivo Modelo linear: y=X+b Dados experimentais: y = aX b (0,s2 ) = yˆ (0,s2 ) Suponha que a=1, a equação anterior pode ser escrita após de aplicar a uma amostra: ˆ (0,s2 ) Xij = X Xi X Xij Xi = X i valor médio amostral incremento de linha (tratamento) resíduo 18 Estatística ANOVA A equação anterior pode ser apresentada em forma matricial: [X]=[A]+[T]+[R] Exemplo: Xj X Xi-X Xji-Xi i valor médio amostral incremento de coluna (tratamento) resíduo 19 Estatística ANOVA Questão: [T] pode ser considerada 0 ou não? Para dar a resposta, determina-se o “tamanho” da matrizes utilizando a norma. ||v||=a2+b2+c2 e.g. {v}={a b c} SSB Assim: X m ni i =1 j=1 X = n i Xi X Xij Xi 2 ij SSW m i =1 2 m ni 2 i =1 j=1 O teste de ANOVA é a avaliação de SSB em relação de SSW. Se for pequeno, aceita H0, se for grande, rejeita H0. 20