1- Experimentos com Um Único Fator: A Análise de Variância (ANOVA) Fator é uma variável independente em estudo, por exemplo, solventes, aditivos. Estes fatores geralmente envolvem diversos níveis. A ANOVA é utilizada para verificar se existem diferenças significativas entre os níveis dos fatores (tratamentos). Aqui assume-se que o delineamento é completamente casualizado. Estes experimentos só podem ser realizados quando as unidades experimentais são homogêneas. Por exemplo, 12 leitões da mesma raça, mesmo sexo, mesma idade e com pesos iniciais próximos. 1.1 Um exemplo. Uma bioquímica (Tecnologia de Alimentos) está interessada em estudar a extração de pigmentos naturais, com aplicação como corante em alimentos. Numa primeira etapa tem-se a necessidade de escolher o melhor solvente extrator. A escolha do(s) melhor(es) solventes foi realizada através da medida da absorbância de um pigmento natural do fruto de baguaçú. Fator = solventes; a=5 níveis; n=5 repetições. 1 Unidade experimental: 10 gramas de polpa do fruto de baguaçú. Casualização: a partir de 1 kg de polpa, foram sendo retiradas amostras de 10gr, onde foram aplicados os tratamentos, numa ordem aleatória. As observações obtidas de absorbância são mostradas na tabela 1.1 Tabela 1.1 Dados de absorbância de cada um dos solventes Solventes E50 EAW MAW E70 M1M 1 0,5553 0,5436 0,4748 0,6286 0,1651 Observações 2 3 4 0,5623 0,5585 0,5096 0,5660 0,5860 0,5731 0,4321 0,4309 0,5010 0,6143 0,5826 0,6079 0,1840 0,2144 0,2249 5 0,5110 0,5656 0,4094 0,6060 0,1954 Total Média Desvio Variância Padrão 2,6967 0,5393 0,0266 0,0007 2,8343 0,5669 0,0154 0,0002 2,2482 0,4496 0,0372 0,0014 3,0394 0,6078 0,0166 0,0003 0,9838 0,1968 0,0238 0,0006 y 0,478 2 Desenho esquemático para absorbância de cada solvente • • • Existe uma forte suspeita de que o tipo de solvente esteja afetando a absorbância. Distribuições simétricas. Sem presença de valor discrepante. 3 1-2 A Análise de Variância Objetivo: testar se existe diferenças nas médias de absorbância para os a=5 tipos (níveis) de solventes. Tabela 1-2 Dados gerais de um experimento com um único fator Tratamentos Observações Totais Médias (níveis) 1 y11 y12 . . . y1n y1. y1 2 y21 y22 . . . y2n y2. y2 . . . . . . . . . . . . . . . . . . a ya1 ya2 . . . yan ya. ya 4 Modelo estatístico (one-way): yij μ τ i ε ij i=1,2,...,a j=1,2,...,n yij= é a ij-ésima observação; é uma constante para todas as observações (média geral); i é o efeito do i-ésimo tratamento; ij é o erro aleatório(erros de medida, fatores não controláveis, diferenças entre as unidades experimentais, etc.). Pressuposições: 1) os erros aleatórios são independentes; 2) os erros aleatórios são normalmente distribuídos; 3) os erros aleatórios tem média 0 (zero) e variância 2; 4) a variância, 2, deve ser constante para todos os níveis do fator. 5) as observações são adequadamente descritas pelo modelo Ou, então: yij ~ N ( i ; 2 ) e independentes 5 Duas situações: 1) modelo de efeito fixo (níveis selecionados pelo pesquisador); 2) modelo de efeito aleatório (amostra aleatória). Neste caso, vamos estimar e testar hipóteses sobre a variabilidade de i 1-3 Análise de Variância do Modelo de Efeito Fixo Hipóteses: H0: 1= 2=...= a H1: i j para pelo menos um par (i,j) 1-3.1 Decomposição da soma de quadrados total y a n i 1 j1 ij y.. n yi. y.. yij y i. 2 a i 1 2 a n 2 i 1 j1 Corrigida para a média SSTotal = SSTratamentos + SSErro 6 Considere a SQErro yij yi. a n 2 i 1 j 1 a n 2 y y ij i. i 1 j 1 A parte dentro dos colchetes dividida por (n-1) é a variância do tratamento i. A variância combinada dos a tratamentos é: yij yi. a n i 1 j 1 2 an 1 7 Considere a SQTrat a 2 n yi. y.. i1 A parte dentro dos colchetes dividido por a-1 é a variância entre tratamentos. a 2 y i. y.. i 1 a 1 8 Graus de liberdade: SSTotal tem an-1 graus de liberdade; SSTratamentos tem a-1 g.l. e SSerro tem a(n-1) g.l. Quadrados médios: tos QMTrat SQTratamen a 1 Esperanças dos quadrados médios: QMErro SQErro a(n-1) a n τi2 E(QMTratamentos) σ 2 i 1 a 1 E( QMErro ) 2 Teste de hipótese: Fo QMTtratame ntos QMErro 9 1-3.2 Análise Estatística F0 = QMTratamentos / QMErro Critério para rejeição de H0: F0 > F,a-1,N-a . Pode-se usar o valor p (em inglês: pvalue: É a probabilidade de rejeitar a hipótese nula devido a variações aleatórias. Exemplo: para = 5%, assim, se o valor p for menor do que 0,05 rejeitar H0, caso contrário, não rejeitar H0. Fórmulas operacionais para o cálculo das somas de quadrados: a n SST otal y i 1 j1 SST ratamentos 1 2 ij a n y..2 N 2 y i. i 1 y..2 N SSErro SSTotal SSTratamen tos 10 Tabela da análise de variância de um experimento com um fator. Causas de Soma de Graus de Quadrados F0 variação quadrados liberdade médios Entre tratamentos SSTratamentos a-1 QMTratamentos QMTratamentos QMErro Erro (dentro SSErro de trata/os) N-a QMErro Total N-1 SST Valor p N = an 11 Exemplo 1-1. O experimento de absorbância Tabela da análise de variância dos valores de absorbância. Causas de Soma de Graus de Quadrados F0 variação quadrados liberdade médios Entre solventes 0,5413 4 0,1353 Erro 0,0127 20 0,0006 Total 0,5540 24 F.05;4;20=2,87 F,01;4;20=4,43 212,806 (P<0,0001) Coeficiente de variação (CV)= 5,19% CV QMErro Média .100 Rejeita-se H0, e concluímos que as médias de tratamentos diferem entre si; os solventes afetam significativamente as médias de absorbância. 12 1-3.3 Estimação dos parâmetros do modelo Estimativas da média geral e dos efeitos dos tratamentos: μ y.. τˆ i yi. y.. Estimativa pontual de i: dado i= + i, temos: μˆ i μˆ τˆ i yi. Um intervalo de confiança para i é dado por: yi. t α/2,Na QMErro/n 13 Intervalo de confiança para a diferença entre qualquer duas médias i-j: yi. y j. t α/2, Na 2QMErro/n Exemplo 1-3. Dados de absorbância μ ˆ 0,4721 τ ˆ 0,5393 0,4721 0,0672 1 E50 τ ˆ 0,5669 0,4721 0,0948 EAW 2 τ ˆ 0,4496 0,4721 0,0225 MAW 3 τ ˆ 0,6079 0,4721 0,1358 E70 4 τ ˆ 0,1968 0,4721 0,2753 M1M 5 0,6079 2,086 (0,0006) / 5 0,5844 0,6314 4 14 (0,4496 0,6079) 2,086 2(0,0006)/5 0,1915 μ μ 0,1250 3 4 (0,5393 0,5669) 2,086 2(0,0006)/5 0,0609 μ μ 0,0057 1 2 Critério de rejeição de H0: i.-j..= 0. Se o intervalo de confiança contém o valor da hipótese nula não se rejeita a hipótese de nulidade, caso contrário rejeita-se a hipótese. 1-3.4 Dados desbalanceados. O número de observações dentro de cada tratamento é diferente. Nesse caso, as SQTotal e SQTratamentos são dadas por: a ni SQT otal yij2 y..2 /N i 1 j1 yi.2 y..2 SQT ratamentos N i 1 n i a 15 1-4 Diagnóstico do Modelo Verificar se as pressuposições básicas do modelo são válidas. Isso é realizado através de uma análise de resíduos. Define-se o resíduo da ij-ésima observação como: eij yij yˆ ij onde yˆij μˆ τˆi yi. valores preditos pelo modelo. 1-4.1 A suposição de normalidade Vamos usar o gráfico normal de probabilidades: sob normalidade dos erros, estes devem seguir uma reta de 45o. 16 • Alguns valores negativos dos resíduos(mais extremos) deveriam ser maiores; alguns valores positivos dos resíduos deveriam ser menores, com exceção do último valor que deveria ser maior. • Contudo este gráfico não é grosseiramente não normal. • Existe um resíduo que é muito maior que os demais, este valor é denominado outlier. É um problema sério. Deve-se fazer uma investigação sobre esse valor (erro de cálculo, digitação, algum fato experimental). Só eliminar um outlier se tiver uma justificativa não estatística, caso contrário, fazer duas análises: uma com e outra sem o outlier. Usar métodos não paramétricos. Transformação. • Outlier: dij=eij/RQ(QMErro). Se algum resíduo padronizado for maior do que |3| ele é um outlier. Obs. RQ = raíz quadrada. 17 1-4.2 Gráfico de resíduos no tempo Para verificar se existe correlação entre os resíduos. Uma tendência de ter resíduos positivos e negativos indica uma correlação positiva. Isto implica que a suposição de independência dos erros foi violada. Isto é um problema sério, e até difícil de resolver. Se possível evitar este problema. A casualização adequada pode garantir a independência. 18 1-4.3 Gráfico dos resíduos versos valores preditos A distribuição dos pontos é aleatória. Útil para verificar se as variâncias são heterogêneas (forma de megafone). Na presença de heterogeneidade de variâncias é usual aplicar uma transformação nos dados. Pode-se usar os testes não-paramétricos. A heterogeneidade de variância também ocorre nos casos de distribuições assimétricas, pois a variância tende a ser função da média. 19 Algumas transformações para homogeneizar as variâncias são dadas a seguir. As conclusões são realizadas para os dados transformados. Poisson: y*=y ou y*=1+y; dados de contagens, variância é função da média. Log normal: y*=log y; somente valores positivos, variável contínua com assimetria. Binomial: y*=arco seno y. dados na forma de proporções. Teste de Bartlett para igualdade de variâncias H 0 : σ 12 σ 22 ... σ a2 H1 : σ i2 σ 2j q χ 2,3026 c a 2 q (N a)log10Sp (ni 1)log10Si2 O teste estatístico é dado por: Onde: i j 2 0 i1 1 a 1 n 11 N a c 1 i 3(a 1) i1 a Sp2 (ni 1)Si2 i1 Na 20 Si2 é a variância amostral do i-ésimo tratamento. Rejeita-se H0 quando χ 02 χ α;2 a-1 , ondeχ α;2 a-1 é o valorde tabela Exemplo 1-4 Variâncias : s 0,0007092; s 0,0002372; s 0,0013873; 2 2 2 1 2 3 s 0,000278; s 0,0005675 2 2 4 5 S 0,000636 2 p q (20)(-3,1965) - (-12,5969 - 14,4995 - 11,4313 - 14,222 - 12,9841) q 63,9309 65,7344 1,8035 1 5 1 1,10 12 4 20 1,8035 χ 2,3026 3,7752 1,10 χ 9,488 c 1 2 0 2 0,05;4 Conclui-se que as 5 variâncias são iguais. Mesma conclusão com o uso do valor p (= 0,4378). 21 Teste de Levene 1) Calcular os resíduos da análise de variância; 2) Fazer uma análise de variância dos valores absolutos desses resíduos; 3) Se as variâncias são homogêneas, o resultado do teste F será não significativo. Exemplo: dados de absorbância. QMTratamentos QMErro F Valor p 0,000371 0,000128 2,9083 0,0477 Rejeita-se a hipótese de que as variâncias são homogêneas. 22 1-4.4 Escolha da transformação para estabilizar a variância Escolha empírica da transformação Em muitos experimentos onde há repetições, podemos estimar o parâmetro através da equação de regressão: log σyi log θ α log μ yi Como e são desconhecidos, usamos as suas estimativas s e y(barra), esta é a média da amostra. Tabela 1-8 Transformações para estabilizar as variâncias Relação entre i e =1- Transformação y constante 0 1 Sem transformação y 1/2 ½ ½ Raiz quadrada y 1 0 Logarítmica y 3/2 3/2 -1/2 y 2 2 -1 Comentário Poisson Inversa da raiz quadrada(1/y) Inversa(1/y) 23 Exemplo 1-5 (Arquivo: plasma.sas) Um pesquisador está interessado em estudar a influência das idades de crianças doentes no nível de plasma, foram testadas 5 idades distintas, ou sejam, ID1= 0 ano, ID2=1 ano, ID3=2 anos, ID4=3 anos e ID5=4 anos. Os resultados de nível de plasma foram: Idade 0 1 2 3 4 Causas de variação Idades Resíduo Observações 13,44 10,11 9,83 7,94 4,86 12,84 11,38 9,00 6,01 5,10 S.Q. 260,81 55,23 11,91 10,28 8,65 5,14 5,67 G.L. 4 20 20,09 8,96 7,85 6,90 5,75 Q.M. 65,20 2,76 Média 15,60 8,59 8,88 6,77 6,23 F 23,61 14,78 9,86 8,84 6,55 5,52 Desvio padrão 3,27 1,12 0,71 1,05 0,55 Nível descritivo <0,0001 24 O teste F da ANAVA indica que as 5 médias de níveis de plasma diferem significativamente entre si. O gráfico dos resíduos indica heterogeneidade de variâncias. R 4 E S 2 I D U 0 O -2 25 Para estudar a possibilidade de uma transformação nos dados, plotamos log do desvio padrão versus log da média. A equação de uma regressão linear simples para os dados é dada por: logdesvio 1,4247 1,5608* logmedia 26 Como o coeficiente angular é próximo de 1,5 e, de acordo com a tabela, podemos usar a transformação INVERSO DA RAÍZ QUADRADA. Causas de variação Idade Resíduo S.Q. 0,0818 0,0108 G.L Q.M. 4 20 0,0205 0,0006 F Nível descritivo 36,06 <0,0001 27 Normalidade: de acordo com o gráfico abaixo podemos considerar que os dados seguem uma distribuição normal. 28 Transformação: logarítmica (base 10). Causas de variação Idade Resíduo S.Q. 0,5385 0,0743 G.L Q.M. 4 20 0,1346 0,0037 F Nível descritivo 36,23 <0,0001 29 1-4.5 Gráfico dos resíduos versus outras variáveis Se a distribuição dos pontos no gráfico mostrar algum padrão (tendência, isto é, se os pontos não estão distribuídos aleatoriamente no gráfico) a variável afeta a resposta, assim, esta variável deve ser melhor controlada ou incluída na análise. Por exemplo, as análises foram feitas com dois espectrofotômetros. 30 Dois espectrofotômetros 31 1-5 Interpretando os resultados 1-5.1 Comparações entre médias de tratamentos (Fatores qualitativos) Quando o teste F da análise de variância for significativo, indica que existe diferenças entre as médias reais de tratamentos. Entre quais médias ou grupos? 1-5.2 Contrastes Desejamos verificar se a médias dos solventes E50, EAW e E70 não diferem da média dos solventes MAW e MM. Esta hipótese é escrita como: H0 : 2μ1 2μ2 2μ4 3μ3 3μ5 H1 : 2μ1 2μ 2 2μ 4 3μ 3 3μ 5 Temos o contraste: 2y1. 2y2. 2y4. 3y3. 3y5. A soma de quadrados é dada por: Com 1 grau de liberdade (sempre). SQ c ci yi. i 1 a 2 a c i 1 i 0 a n ci2 i 1 32 Se o delineamento é desbalanceado então: a SQ c ci yi. i 1 2 a n i ci2 i 1 TESTE: SQc/QMErro. Vamos obter uma estatística F com 1 e N-a graus de liberdade. 1-5.3 Contrastes Ortogonais Dois contrastes com coeficientes ci e di são ortogonais se: a a i 1 i 1 ci d i 0 ou n i ci d i (desbalanceado) Exemplo: vamos considerar um experimento com 3 tratamentos (a=3), sendo um deles o controle. y1 2y1. y2. y3. y2 y2. y3. ortogonais 33 Os contrastes devem ser escolhidos antes de realizar o experimento. Para a tratamentos podemos ter a-1 contrastes ortogonais; podemos ter vários conjuntos de a-1 contrastes ortogonais. Exemplo: dados de absorbância. Temos 5 médias de tratamentos e, portanto, 4 g.l. 4 contrastes ortogonais. Hipóteses: H 0 : 2μ 1 2μ 2 2μ 4 3μ 3 3μ 5 H 0 : μ 1 μ 2 2μ 4 H0 :μ 1 μ 2 Contrastes C1=2y1.+2y2.-3y3.+2y4.-3y5. C2= y1.+ y2. -2y4. C3= y1.- y2. C4 = y3. -y5. H0 :μ 3 μ 5 C1=1,4889; C2=-0,10956; C3=-0,0275; C4=0,2588 SQC1=0,3695; SQC2=0,0100; SQC3=0,00189; SQC4=0,15987 34 Variações Soma de GL Quadrado F no modelo Quadrados Médio Solventes 0,5413 4 0,1353 212,81 Contrastes C1 (0,3695) 1 581,09 C2 (0,0100) 1 15,73 C3 (0,00189) 1 2,98 C4 (0,15997) 1 251,42 Erro 0,0127 20 0,0006 Total 0,5540 24 P<0,0001 P<0,0001 P<0,0007 P<0,0998 P<0,0001 35 1-5.4 Método de Scheffé para comparação de contrastes 1 - Não sabe a priori quais contrastes comparar 2 - Deseja comparar mais do que a-1 contrastes Considere m contrastes de médias: Γ u c1uμ 1 c2uμ 2 ... cauμ a u 1,2,...,m A estimativa do contraste é dado por: Cu c1u x1 c2u x 2 ... cau x a u 1,2,...,m O erro padrão do contraste é dado por: a SC u QMErro c iu2 /n i i 1 36 Critério do teste: o valor com o qual Cu deve ser comparado é dado por: Sα, u SC u (a 1)Fα; a 1, N a Se |Cu| S,u, então rejeita-se a hipótese de que o contraste u é igual a zero. Exemplo 1-1. Dados de absorbância. Considere os 2 contrastes de interesse Γ 1 2μ 1 2μ 2 3μ 3 2μ 4 3μ 5 Γ 2 μ 1 μ 2 2μ 4 As estimativas desses contrastes são: C 2y 2y 3y 2y 3y 1 1 2 3 4 5 2(0,5393) 2(0,5669) 3(0,4496) 2(0,6079) 3(0,1968) 1,4889 37 C y y 2y 2 1 2 4 0,5393 0,5669 2(0,6079) 0,10956 Erros padrões dos contrastes: S C1 S C2 0,0006(4 4 9 4 9)/5 0,0600 0,0006(1 1 4)/5 0,0268 Os valores críticos ( = 0,01) são dados por: S 0,0600 4(4,43) 0,2526 S 0,0268 4(4,43) 0,1128 0, 01;1 0, 01;2 Como |C1| S0,01;1 conclui-se que o contraste C1 é diferente de zero, isto é, os tratamentos E50, EAW e E70 em média diferem dos tratamentos MAW e M1M. Como |C2| S0,01;2 conclui-se que o contraste C2 é igual a zero, portanto, os tratamentos E50 e EAW, em média, não diferem do tratamento E70. 38 1-5.5 Comparações entre Pares de Médias Hipótese: H 0 : μ i μ j para todosos i, j. Número de comparações: a(a-1)/2. Devem ser realizadas após o teste F da análise de variância rejeitar a hipótese nula Método da Diferença Mínima Significativa (LSD) A estatística a ser utilizada é dada por: t0 yi y j 1 1 QMErro n i nj Para um teste bilateral, o par de médias, i e j, é significativamente diferente se: yi y j t / 2;N a QMErro(1 n i 1 n j ) LSD 39 Critério do teste: se yi y j LSD concluímos que o par de médias i e j, difere significativamente. Exemplo: dados de absorbância. Para =0,05, o valor da LSD é: LSD t 0,025;20 2(QMErro)/n 2,086 2(0,00064) / 5 0,0334 y y 0,5393 0,5669 0,0276 1 2 y y 0,0897 1 3 y y 0,0685 1 4 y y 0,3425 1 5 y y 0,1173 2 3 y y 0,0410 2 4 y y 0,3701 2 5 y y 0,1582 3 4 y y 0,2528 3 5 y y 0,4111 4 * 5 diferença significativa para =5%. 40 Teste de Tukey Duas médias são diferentes significativamente se a diferença das médias amostrais (em valor absoluto) for superior a DMS (Diferença Mínima Significativa): DMS q QMErro 2 1 1 ni n j Onde q é um apropriado nível de confiança superior da amplitude studentizada para k médias (tratamentos) e f graus de liberdade associados a estimativa s2 de 2 (QMErro). Exemplo: dados de absorbância. O valor da Diferença Mínima Significativa é: DMS q 0 , 05 ( 5 ; 20 ) QMErro 1 1 0,00064 2 4,23 0,0479 2 n n 2 5 i j Conclusão: pelo teste de Tukey, ao nível de significância de 5%, as médias dos tratamentos E50 e EAW, assim como as médias dos tratamentos EAW e E70 não apresentam diferenças significantes. As médias dos tratamentos E50 e E70 apresentam diferença significante. 41 E70 = 0,6363 A EAW = 0,5669 A E50 = 0,5393 MAW = 0,4496 M1M = 0,1968 B B C D Médias seguidas de mesma letra, em uma mesma coluna, não apresentam diferenças significantes, ao nível de significância de 5%, pelo teste de Tukey. 42 Teste de Dunnett: comparação com um controle Interesse é comparar cada uma das a-1 médias com a média do tratamento controle, assim temos a-1 comparações. Deseja-se testar a hipótese: H 0 : μ i μ a H1 : μ i μ a para i 1,2,..., a - 1 Onde a é a média do tratamento controle. A hipótese de nulidade é rejeitada, ao nível de significância , se 1 1 yi. ya. d (a 1, f ) QMErro ni na Exemplo: dados de absorbância. Considere o tratamento M1M como sendo o controle. Neste exemplo, a=5, a-1=4 e f=20 e ni=na=5. Para =5%, da tabela (valores críticos do teste de Dunnett) obtemos d0,05(4;20)=2,65. Assim, o valor crítico é dado por: 2,65 2 (0,00064) 0,0424 5 43 y y 0,3425 1 5 y y 0,3701 2 5 y y 0,2528 3 5 y y 0,4111 4 5 Conclusão: todas as médias diferem significativamente da média do tratamento controle. Qual teste usar? O LSD é eficiente para detectar diferenças verdadeiras nas médias se ele for aplicado apenas depois do teste F da ANOVA se significativo a 5%. Idem para o Duncan. Estes métodos não contém o erro tipo I (erro geral ou experimentwise error). Como o Tukey controla este erro ele é o preferido pelos estatísticos. O SNK é mais conservador do que o Duncan. 44 1-5.6 Modelo de Regressão Fator quantitativo: interesse em encontrar uma equação de regressão que leva em conta toda a faixa de valores análise de regressão Exemplo: produção de milho em kg/parcela. Doses de fósforo 0 kg/ha 25 kg/ha 50 kg/ha 75 kg/ha 100 kg/ha Observações 2,38 6,15 9,07 9,55 9,14 6,77 8,78 8,73 8,95 10,17 3,50 8,99 6,92 10,24 9,75 Totais 5,94 9,10 8,48 8,66 9,50 18,59 33,02 33,20 37,40 38,56 Médias Desvio Padrão 4,65 8,26 8,30 9,35 9,64 2,05 1,40 0,95 0,69 0,40 45 • Dia g ra m ad ed isp e rsã op a rao sd a d o sd ep ro d u çã od em lh io 1 1 9 • Produçãoemkg/parcela 7 • 5 Os traços no gráfico representam os valores médios para cada uma das doses. Pelo gráfico de dispersão, verifica-se claramente que a relação não é linear. Podemos ajustar um polinômio de 20 grau para representar este relacionamento, isto é, 3 1 -2 0 0 2 0 4 0 6 0 8 0 1 0 0 1 2 0 y β 0 β 1x β 2 x 2 ε Do se sd efó sfo ro . Onde 0, 1 e 2 são parâmetros desconhecidos e que devem ser estimados e é o erro aleatório. Para o exemplo a equação ajustada é dada por: yˆ 5,0182 0,1087x 0,0006x2 R2=66,9%66,9 % da variabilidade dos dados é explicada pelo modelo quadrático. 46 - Estimar a produção média de milho para doses dentro da região de experimentação; -Otimização. Estimação: X=90 Ŷ=9,58 8,6E(Y)10,5 yˆ 5,0182 0,1087(90) 0,0006(90)2 9,58 Otimização: ' y 0,1087 0,0012x 0 x 90,58 ' x '' y 0,0012( Pontode m áxim o) '' x 47 1-6 Modelo de Efeito Aleatório Se o pesquisador seleciona aleatoriamente a níveis de um fator de uma população de níveis desse fator, então o fator é dito aleatório. A inferência é feita para toda a população de níveis. Exemplo: uma pesquisadora estudou o conteúdo de sódio em cervejas selecionando aleatoriamente 6 marcas de um grande número de marcas dos EUA e do Canadá. Ela, então, escolheu 8 garrafas de cada marca aleatoriamente de supermercados e mediu a quantidade de sódio (em miligramas) de cada garrafa. 48 Marcas 1 2 3 4 5 6 1 24.4 10.2 19.2 17.4 13.4 21.3 2 22.6 12.1 19.4 18.1 15.0 20.2 3 23.8 10.3 19.8 16.7 14.1 20.7 Garrafas 4 5 22.0 24.5 10.2 9.9 19.0 19.6 18.3 17.6 13.1 14.9 20.8 20.1 Y 6 22.3 11.2 18.3 17.5 15.0 18.8 7 25.0 12.0 20.0 18.0 13.4 21.1 8 24.5 9.5 19.4 16.4 14.8 20.3 23,6 10,7 19,3 17,5 14,2 20,4 S 1,16 0,97 0,53 0,67 0,81 0,77 23.8 O modelo estatístico: y ij μ τ i ε ij , para i 1,..., a e j 1,..., n i é o efeito do i-ésimo tratamento e assume-se que seja NID(0,2) ij é o erro aleatório e assume-se que sejam NID(0, 2) i e ij são independentes Testar hipóteses sobre os efeitos dos tratamentos não faz sentido, assim, vamos testar as hipóteses sobre a variância dos tratamentos. H 0 : σ τ2 0 H1 : σ τ2 0 49 Se 2=0, então todos os tratamentos são idênticos; mas se 2>0 a variabilidade entre tratamentos é significativa. Quando temos um modelo de efeitos aleatórios o interesse está em estimarmos os componentes de variâncias: 2 e 2. Prova-se que: E(QMTratamentos) σ 2 nσ τ2 E(QMErro) σ 2 Portanto, QMTratamentos σ 2 nσ τ2 QMErro σ 2 assim, 2 σ QMErro 2 σ τ (QMTratamentos QMErro)/n 50 Exemplo: Dados de sódio. Os resultados da análise de variância são mostrados na tabela abaixo - Arquivo: conteudodesoddiocervejas.sas Variações S.Q. no modelo Marcas 854,529 Erro 30,070 Total 884,599 Conclusão: rejeita-se H0: G.L. 5 42 47 Q.M. 170,906 0,716 F 238,71 Valor p P<0,0001 2 0 Os componentes de variância são estimados por: ˆ 2 0,716 ˆ2 ( 170,906 0,716)/ 8 21,2738 Um uso importante: isolar diferentes fontes de variabilidade que afetam um produto ou um sistema. Identificar fatores com maior variabilidade (Exemplo: Lotes, amostras e réplicas). 51 2- Mais Sobre Experimentos com Um Fator 2-1 Escolha do Tamanho da Amostra 2-1.1 Curvas Características de Operação Curva característica de operação: é um gráfico em que no eixo das ordenadas temos a probabilidade de erro tipo II (aceitar a hipótese de nulidade quando na verdade deveríamos ter rejeitado) e no eixo das abcissas temos a precisão desejada pelo pesquisador. Probabilidade de erro tipo II para o modelo de efeito fixo e igual tamanho de amostra por tratamento. β 1 PRejeitarH 0 | H 0 é falsa β 1 PF0 Fα; a 1; Na | H 0 é falsa As CCO dadas no ábaco V (Apêndice), são usadas para avaliar o valor de . Essas CCO são um gráfico de (ordenadas) versus (abcissas), onde: a 2 n τ 2 i i 1 aσ 2 52 O cálculo de apresenta algumas dificuldades práticas: 1)τ i μ i μ ondeμ 1 a i1μ i a 2) necessita-se de uma estimativa de 2 (experiência, um experimento piloto, bibliografia) Exemplo: dados de absorbância. Suponha que a pesquisadora deseja rejeitar a hipótese nula com pelo menos 90% de probabilidade(1-=90%) se as 5 médias dos trat/os são: μ 1 0,6 μ 2 0,7 μ 3 0,3 μ 4 0,8 μ 5 0,2 Ela deseja usar =0,05, e neste caso a média geral vale 0,52. τ 1 μ 1 μ 0,60 0,52 0,08 2 μ 2 μ 0,70 0,52 0,18 τ 3 μ 3 μ 0,30 0,52 0,22 τ 4 μ 4 μ 0,80 0,52 0,28 τ 5 μ 5 μ 0,20 0,52 0,32 2 i1 i 0,268 a Assim, τ De um ensaio preliminar encontramos 2=0,06. 53 Temos: 2 n 0,268 0,893n 5(0,06) CCO para a-1=5-1=4, N-a=a(n-1) e =0,05 n a(n-1) 2 4 3,37 1,89 15 0,15 5 4,47 2,11 20 0,07 (1-) 0,85 0,93 Assim, a pesquisadora deve utilizar n=5 repetições para realizar o teste com o poder desejado. Alternativa: é selecionar um tamanho de amostra tal que, se a diferença entre qualquer duas médias exceder um valor especificado, a hipótese de nulidade deve ser rejeitada. Seja D este valor (precisão), então: 2 nD 2 2a 2 Exemplo: dados de absorbância: suponha que a pesquisadora deseja rejeitar a hipótese de nulidade com probabilidade igual a 0,90 (Poder do teste (1-)) se a diferença entre qualquer duas médias for igual a 0,30. Considere uma estimativa para 2=0,015, portanto, = 0,1225. 54 2 n ( 0 , 3 ) 2 0,60n 2(5)(0,015) CCO para (a-1)=(5-1)=4 e a(n-1) g.l. e =0,05 n a(n-1) 2 5 3,0 1,73 20 0,15 6 3,6 1,90 25 0,12 7 4,2 2,05 30 0,07 (1-) 0,85 0,88 0,93 Conclui-se que n=7 repetições devem ser usadas para ter a precisão e confiança desejadas. Modelo de efeitos aleatórios: a probabilidade de erro tipo II para esse caso é: β 1 PRejeitarH 0 | H 0 é falsa β 1 P (F0 Fα; a-1; N-a | σ 2 0) As CCO (Ábaco VI, Apêndice) são gráficos onde na ordenada temos a probabilidade de erro tipo II e na a abcissa temos , onde é dado por: λ nσ τ2 1 σ2 55 2 : quanto da variabilidade na população dos tratamentos deseja-se detectar; 2 : pode ser obtido através de algum experimento ou experiência anterior, bibliografia. Exemplo: conteúdo de sódio. O pesquisador deseja rejeitar a hipótese de nulidade com 99% de probabilidade se 2 =10. De um experimento anterior sabe-se que 2 =1,0. 1 n(10) 1 1 n(10) CCO com (a-1)=(6-1)=5 e N-a=42 e =0,01 n a(n-1) (1-) 3 5,6 12 0,027 0,973 4 6,4 18 0,015 0,985 5 7,1 24 0,000 1,000 Método do Intervalo de Confiança Assume-se que o pesquisador deseja expressar os resultados em termos de intervalos de confiança dos efeitos dos tratamentos. Especifica à priori a amplitude dos mesmos. 56 A semi-amplitude do intervalo de confiança (precisão que o pesquisador deseja, isto é, a diferença entre a média obtida no experimento e a média verdadeira) ) é dada por: tα/2; Na 2(QMErro) n Exemplo: dados de absorbância: o pesquisador deseja construir com confiança de 95%, um intervalo com semi-amplitude de 0,15. Considere 2=0,015. Para n=5 repetições, a semi-amplitude do intervalo de confiança é dada por: 2,086 2(0,015) / 5 0,162 O qual apresenta uma precisão menor do que a desejada, portanto, vamos aumentar o tamanho da amostra. Para n=6 repetições, temos: 2,060 2(0,015) / 6 0,15 Para n=6 repetições encontramos a precisão desejada. 57 2-2 Encontrando efeitos de dispersão O interesse é descobrir se os diferentes níveis do fator afetam a variabilidade efeitos de dispersão. Neste caso, a variável resposta a ser utilizada será a variância, desvio padrão ou outra medida de variabilidade. Exemplo. Na fabricação de pão utiliza-se farinha de trigo e de um número menor de outros ingredientes permitidos (fatores em estudo). O objetivo de um programa de qualidade foi a de identificar uma combinação desses ingredientes os quais produzem um alto volume específico de pão e que seja tolerante a flutuações no processo de fabricação. Para esse fim, foi realizado um experimento com 4 formulações (1, 2, 3 e 4), sendo a última uma formulação padrão. Os dados médios de volume específico e desvio padrão estão na tabela a seguir. Formulações Observações 1 1 2 3 4 501,5 447,0 466,5 469,5 2 92,63 15,55 12,02 41,72 3 4 528,0 29,70 412,5 30,41 463,0 63,64 503,5 6,36 392,5 16,26 512,0 2,83 566,5 43,13 439,0 35,36 492,0 56,57 500,0 24,04 405,0 52,33 478,5 31,82 58 O teste F da ANOVA para os valores médios de volume específico de pão não foi significativo(F=0,2667 e valor do nível descritivo igual a 0,8482), indicando que não existe diferenças entre as 4 formulações. Para investigar possíveis efeitos de dispersão, usualmente utiliza-se LN(s),como sendo a variável resposta (a transformação logarítmica estabiliza a variância). Os resultados da ANOVA estão na tabela a seguir. Variações no modelo Formulações Erro S.Q. 7,408 4,789 G.L. 3 12 Q.M. 2,469 0,396 F Nível descritivo 6,24 0,0085 Observa-se que as formulações afetam o desvio padrão do volume específico do pão, isto é, as formulações tem um efeito de dispersão. 59 1 2 3 4 LSD test; variable LNDESPAD (volumpao.sta) Probabilities for Post Hoc Tests MAIN EFFECT: VAR1 {1} {2} {3} {4} 3,871943 2,105592 3,462963 3,582091 {1} ,001857 ,375988 ,526936 {2} ,001857 ,010057 ,006118 {3} ,375988 ,010057 ,793393 {4} ,526936 ,0,006118 ,793393 Dos resultados do teste LSD, conclui-se que a formulação 2 produz menos dispersão do que as demais; As formulações 1, 3 e 4, são estatisticamente equivalentes. 2-3 Ajustando curvas de respostas Quando os níveis do fator são quantitativos, podemos realizar uma regressão polinomial. Duas etapas: 1) desdobramento dos graus de liberdade de tratamentos (a-1),em regressão linear, quadrática, cúbica, 4 grau, e assim por diante. Geralmente ajusta-se uma regressão quadrática. 2) obter a equação de regressão. 60 Exemplo: produção de milho, em kg/unidade experimental. Dose de fósforo 0 25 50 75 100 Efeito: Soma de quadrados: Totais dos trat/os yi. 18,59 33,02 33,20 37,40 38,56 Coeficientes dos contrastes ortogonais (ci) Linear Quadrát. Cúbico 4. grau -2 2 -1 1 -1 -1 2 -4 0 -2 0 6 1 -1 -2 -4 2 2 1 1 a c y i i. i1 2 a ci y i . i1 a 2 n c i i 1 44,32 -22,52 11,21 -25,33 49,11 9,06 3,14 2,29 61 O novo quadro da ANOVA fica: Causas de variação Doses (Linear) (Quadrático) (Cúbico) (4. grau) Erro Total Soma Graus QuadraF Nível de de dos Descritivo Quadrados Liberdade Médios 63,60 4 15,90 10,22 0,0003 49,107 1 49,107 31,56 0,0001 9,06 1 9,06 5,82 0,0291 3,14 1 3,14 2,02 0,1758 2,29 1 2,29 1,47 0,2437 23,34 15 1,56 86,94 19 Observamos que o efeito quadrático foi significativo, o efeito cúbico e 4. grau não foram significativos, portanto, vamos ajustar um polinômio de segunda ordem aos dados, dado por: y 0 1 P1 ( x) 2 P2 ( x) Onde Pu(x) é um polinômio de u-ésima ordem.. Os 3 primeiros polinômios ortogonais são: 62 P0 ( x) 1 ( x x ) x 50 x 50 P1 ( x) 1 1 25 d 25 x x 2 a 2 1 x 50 2 x 50 2 1 P2 ( x) 2 2 2 d 12 25 25 Onde d é a distância entre dois níveis de x, a é o total de níveis, e i são constantes obtidas em tabelas. As estimativas de mínimos quadrados dos parâmetros no modelo polinomial ortogonal são: ˆ i yP ( x) P ( x) i 2 i 0,1,..., a 1 i 63 Y 2,38 6,77 3,50 5,94 6,15 8,78 8,99 9,10 . . . 9,50 160,77 X P0(x) P1(x) P1(x)2 YP1(x) P2(X) P2(X)2 YP2(X) 0 1 -2 4 -4,76 2 4 4,76 0 1 -2 4 -13,54 2 4 13,54 0 1 -2 4 -7,00 2 4 7,00 0 1 -2 4 -11,88 2 4 11,88 25 1 -1 1 -6,15 -1 1 -6,15 25 1 -1 1 -8,78 -1 1 -8,78 25 1 -1 1 -8,99 -1 1 -8,99 25 1 -1 1 -9,10 -1 1 -9,10 . . . . . . . . . . . . . . . . . . . . . . . 100 1 2 4 19,00 2 4 19,00 20 40 44,32 56 -22,46 Para os dados de adubação em milho, as estimativas dos parâmetros do modelo são: 64 160 160 8,039 20 4(5) 44,32 44,32 ˆ 1 1,108 40 4(10) 22,46 22,46 ˆ 2 0,401 56 4(14) ˆ 0 A equação de regressão é dada por: x 50 2 5 2 1 x 50 yˆ 8,039 1,108(1) 0,401(1) 25 25 12 yˆ 5,02036 0,10849x 0,00064x 2 (R2 = 66,9%) 2-4 Métodos não paramétricos na análise de variância 2-4.1 O Teste de Kruskal-Wallis Quando as pressuposições básicas da ANOVA não forem atendidas, por exemplo, a variável em estudo não apresenta distribuição normal (notas em escala), heterogeneidade de variâncias, outliers. É usado para testar a hipótese de que a tratamentos são idênticos contra a hipótese alternativa de que pelo menos dois deles diferem entre si. 65 Pressuposições: 1) as observações são todas independentes. 2) as a populações são aproximadamente da mesma forma e contínuas (pode ser abrandada, desde que consigamos ordenar os dados, exemplo, escala ordinal). Hipóteses: H 0 : 1 2 ... a H a : i j para i j Método: procedemos a classificação conjunta (em ordem crescente) das N observações, dando ordem 1 à menor e ordem N à maior delas, e substituímos às observações pelos seus postos (ranks). No caso de empates (observações com o mesmo valor), designa-se o posto médio para as observações empatadas. Seja Ri a somas dos ranks do i-ésimo tratamento. O teste estatístico é dado por: 1 a R i.2 N(N 1)2 H 2 S i1 n i 4 ni é o número de observações do i-ésimo tratamento e N é o número total de observações. 1 a ni 2 N(N 1)2 S R ij N 1 i1 j1 4 2 66 Sem empates: S2 N(N 1)/12 E o teste estatístico simplifica-se: a R i.2 12 H 3(N 1) N(N 1) i1 n i Critério do teste: para ni5, H tem distribuição aproximada de 2a-1 sob H0.. Assim, se H χ 2 α, a 1 Olhar o valor p rejeita-se H0. Exemplo: dados de absorbância. E50 y1j 0,5553 0,5623 0,5585 0,5096 0,5110 EAW R1j 14 16 15 11 12 68 y2j R2j 0,5436 13 0,5660 17,5 0,5860 21 0,5731 19 0,5660 17,5 88 MAW y3j R3j 0,4748 9 0,4321 8 0,4309 7 0,5010 10 0,4094 6 40 E70 y4j R4j 0,6286 25 0,6143 24 0,5826 20 0,6079 23 0,6060 22 114 M1M y5j R5j 0,1651 1 0,1840 2 0,2144 4 0,2249 5 0,1954 3 15 67 5 5 i1 j1 2 2 R 5524,50 S ij H 1 5524,5 4225,0 54,1458 25 1 1 1 2 2 2 2 2 68 88 40 114 15 4225,0 22,3987 54,1458 5 O valor p para H=22,3987 com 4 g.l. é 0,0002, portanto, rejeita-se H0. * Teste de comparação de médias não paramétrico. 68 2-5 Medidas Repetidas É preciso levar em consideração duas fontes de variabilidade: entre unidades e dentro de unidades (between subjects and within subjects). SUBJECTS=JULGADORES.. Cada degustador usa os a tratamentosdelineamento com medidas repetidas. A tabela geral dos dados para este delineamento é dada como: Tratamentos 1 2 . . a Totais subjects Dados do delineamento com medidas repetidas com 1 fator Subjects (julgadores) Totais 1 2 ... n tratamentos y11 y12 ... y1n y1. y21 y22 ... y2n y2. . . . . . . . . . . ya1 ya2 ... yna yª y.1 y.2 ... y.n y.. y ij μ τ i β j ε ij O modelo estatístico: Onde i é o efeito do i-ésimo tratamento e j é o efeito da j-ésima unidade. Assumese que: tratamentos de efeito fixo e subjects de efeito aleatório (Modelo Misto). β J 0,σ β2 Partição da soma de quadrados total: S.Q. Total = S.Q Entre julgadores + S.Q.Dentro julgadores y a i 1 j1 y .. a y .j y .. y ij y .j 2 n ij n j1 2 a n i 1 j1 2 70 Graus de liberdade: na-1 = (n-1) + n(a-1) S.Q. Dentro de julgadores = S.Q.Tratamentos + S.Q. Erro y a i 1 y .j n y i. y .. y ij y i. y .j y .. 2 n ij j1 a i 1 2 a n i 1 j1 2 Graus de liberdade: n(a-1) = (a-1) + (a-1)(n-1) Hipóteses: H 0 τ 1 τ 2 ... τ a 0 Ha τ i 0 Critério do teste: F0 Rejeita-se H0 se: QMTratamentos QMErro F0 Fα; a 1,(a 1)(n 1) EQMSuj σ 2 aσ β2 n a E(QMTrat) σ τ a 1 i1 E(QMErro) σ 2 2 71 2 j Exemplo: hamburger de pescado, variável sabor. Tratamentos A B C D 1 3,2 4,4 2,0 2,0 Variações SQ No modelo Julgadores 7,829 Tratamentos 1,798 Erro 5,851 Total 15,479 Teste para julgadores: Julgadores 3 4 5 4,0 4,4 3,6 3,4 4,2 2,6 3,8 3,6 4,0 4,2 3,4 2,2 2 3,0 2,8 2,4 2,4 GL 6 3 18 27 QM 1,305 0,599 0,325 6 3,2 2,8 2,6 2,6 7 4,0 4,0 3,8 4,0 F Nível Descritivo 4,01 0,0100 1,84 0,1753 H 0 : σ β2 0 H a : σ β2 0 Portanto, rejeita-se H0, isto é, o comportamento dos julgadores não é o mesmo, não são equivalentes. 72 Intervalos de confiança: 3,03 μ 1 4,23 2,86 μ 2 4,06 2,57 μ 3 3,77 2,37 μ 4 3,57 2-6 Análise de Covariância É utilizada para melhorar a precisão (fazer um ajuste) na comparação entre os tratamentos do experimento. Suponha um experimento que junto com uma variável resposta Y (população de staphilococus), tenha uma variável X (população inicial de staphilococus), e que Y e X estejam relacionadas linearmente. Além disso, suponha que X não pode ser controlada pelo pesquisador, mas pode ser observada junto com Y. A variável X é chamada covariável. A ANCOVA é um ajuste da variável resposta para os efeitos de uma variável perturbadora (nuisance variable). Se este ajuste não for feito, a covariável pode inflacionar o quadrado médio do erro e fazer com que diferenças reais entre os tratamentos sejam difíceis de serem detectadas. A covariável, X, não deve ser afetada pelos tratamentos. Por exemplo, experimento com tratamento de sementes, Y = produção da cultura e X = stand inicial (plantas que germinaram). Observação: A blocagem pode ser usada para eliminar o efeito de variáveis perturbadoras que podem ser controladas pelo pesquisador. 73 Exemplo: dados de população de Staphilococus aureus, em frango, mantidos sob refrigeração doméstica (-18 graus). O objetivo do experimento é comparar meios de cultura, quais sejam: Baird Paker, Baird Paker Modificado, Vermelho Neutro e Vermelho Neutro Modificado com relação à variável sobrevivência de Staphilococus aos 7 dias de armazenamento. Os dados são mostradas na tabela a seguir. Vamos considerar que são os mesmos frangos medidos no tempo 0 e tempo 7 dias. Dados de pop. de Staphilococus para y = pop. aos 7 dias e x = pop. aos 0 dia BP BPM VN VNM y x y x y x y x 3,1710 3,3507 3,0663 3,4423 3,3903 3,7643 3,5623 3,7447 3,1857 3,4860 3,1840 3,6617 4,0037 4,0880 3,8820 4,0880 2,8553 3,0527 2,8300 3,2980 3,8293 4,1053 3,5623 3,8820 3,5063 3,6577 3,6603 3,7873 3,1637 3,4807 3,2253 3,4807 3,7740 4,0143 3,7180 3,8953 3,7917 3,7447 3,1507 3,4523 3,1383 3,7407 3,7263 3,7953 2,7917 3,3903 2,9937 3,5020 19,6307 21,3020 20,1849 21,8799 20,9704 22,5733 20,3763 22,1497 3,27 3,55 3,36 3,65 3,50 3,76 3,40 3,69 74 Médias: Métodos BP BPM VN VNM Média log pop 7 dias 3,27 3,36 3,50 3,40 Médias log pop 0 dias 3,55 3,65 3,76 3,69 Resultados da ANOVA. 75 76 A figura mostra um tendência linear entre y = pop7 e x = pop0, isto é, a população aos 7 dias é afetada pela população inicial (0 dia). 77 2-6.1 Descrição do procedimento Modelo estatístico (1): yij μ τ i β xij x.. ε ij para i=1,2,...,a e j=1,2,...,n. Yij é a j-ésima observação da v. resposta tomada no i-ésimo tratamento; xij é a medida feita na covariável correspondente a yij; x.. é a média dos valores de xij, é a média geral; i é o efeito do i-ésimo trat/o; é o coeficiente angular da regressão linear entre X e Y e ij é o erro aleatório. 78 Suposição: 2 ij ~ NID( 0; ); 0; 1 2 ... a a i 0 i 1 79 Para descrever a análise utiliza-se a notação: S yy y ij y .. a n i 1 S xx j1 x a i 1 n x .. j1 n 2 ij x ..2 x an i 1 j1 a 2 ij y ..2 y an i 1 j1 a 2 n S xy x ij x .. y ij y .. a i 1 n j1 2 ij a n x i 1 ij j1 y ij (x .. )(y.. ) an 1 a 2 y ..2 (y i. y .. ) y i. n i1 an i 1 a 1 a 2 x ..2 2 (x i. x .. ) x i. n i1 an i 1 a (x )(y.. ) 1 a x i. x .. y i. y .. (x i. )(y i. ) .. n i1 an i 1 a Tyy Txx Txy 2 E yy y ij y i. S yy Tyy a n 2 i 1 j1 E xx x ij x i. S xx Txx a n 2 i 1 j1 E xy x ij x i. y ij y i. S xy Txy a n i 1 j1 80 Somas de quadrados: SQTotal S yy SQRegressão E 2 xy E xx SQTratamentos(ajustado) S S SQErro E E yy 2 xy E xx yy 2 xy S E E xx yy 2 xy E xx Graus de liberdade: Regressão: 1 Tratamentos(ajustado): a-1 Erro: a(n-1)-1 Total: na-1 Teste da hipótese: F0 H 0 :τ i 0 SQTrat/os(ajustado)/(a 1) SQErro/an 1 1 ou H 0 1 2 3 4 Rejeita-se H0 se: F0 F ;a1,a ( n1)1 Use o valor p 81 Deve-se ajustar as médias: médias de mínimos quadrados y*i. yi. βˆ xi. x.. βˆ E xy E xx para i 1,2 ,...,a Erro padrão de qualquer média ajustada de tratamento: S x ajustada 1/ 2 H 0 : β 0 vs H a : β 0 Hipótese: E 2 F0 1 xi. x.. 2 QMErro Exx n xy /E xx QMErro Rejeita-se H0 se: F0 F ;1,a ( n1)1 Use o valor p 82 Exemplo: dados de população de Staphilococus. (Arquivo: staplilocousanalisedecovariancia) Não podemos rejeitar a hipótese H0:i=0, isto é, os valores médios dos meios são estatisticamente equivalentes, com valor p de 0,9739. Rejeita-se a hipótese H0:=0, com valor p < 0,0001, isto significa que foi importante remover o efeito da população inicial de Staphilococus. Os valores das médias ajustadas com os seus erros padrões são: 83 A estimativa do coeficiente de regressão é: ˆ 1,2066 β s βˆ 0,1355 Diagnóstico do modelo: os resíduos são dados por: eij yij yˆ ij yˆ ij μˆ τˆ i βˆ (xij x.. ) yi. βˆ (xij xi. ) pois : ˆi y i . y.. ˆ ( xi . x.. ) ˆ y.. Exemplo: e11=3,1710-3,2718-1,2066(3,3507-3,55033) = 0,140074 Os resíduos estão aleatoriamente distribuídos em torno do valor zero. A faixa de distribuição, -0,5 a 0,5, é curta; não tem outliers. Variâncias homogêneas. 84 A suposição de normalidade é satisfeita. 85 Valores aleatoriamente distribuídos em torno de zero. Conclusão: de acordo com os gráficos, os resultados da análise estatística podem ser utilizados, pois eles não revelam qualquer problema quanto as suposições do modelo. 86 2-6.2 Comparações entre Pares de Médias Ajustadas Hipótese: H 0 : μi μ j paratodosos i , j . Número de comparações: a(a-1)/2. Devem ser realizadas após o teste F da análise de variância rejeitar a hipótese nula Método da Diferença Mínima Significativa (LSD) Para um teste bilateral, o par de médias, i e j, é significativamente diferente se: yˆ i yˆ j t QMErro 2 n xi x j E XX LSD Onde t é um valor da distribuição t de Student com N-a-1 graus de liberdade e nível de significância . 87 Comparando a média ajustada de BP com a média ajustada de BPM H 0 : μ BP μ BPM yˆ bp 3,4073 yˆ bpm 3,3835 3,4073 3,3835 0,0238 2 3,55 3,65 LSD 2,093 0,02934 0,1865 1,5976 6 Portanto, as duas médias não apresentam diferença significante ao nível de significância de 5%. 88 Método de Tukey Para um teste bilateral, o par de médias ajustadas, i e j, é significativamente diferente se: T yˆ yˆ q QMErro1 k 1E XX i j XX DMS Onde q é um apropriado nível de confiança superior da amplitude studentizada para k médias (tratamentos) e f graus de liberdade associados a estimativa s2 de 2 (QMErro) da ANCOVA. TXX é a soma de quadrados entre da covariável e EXX é a soma de quadrados dentro da covariável. 89 Comparando a média ajustada de BP com a média ajustada de BPM H 0 : μ BP μ BPM yˆ 3,4073 bp yˆ bpm 3,3835 3,4073 3,3835 0,0238 0,141719 DMS 3,98 0,029341 0,69179 4 11,597534 Portanto, as duas médias não apresentam diferença significante, pelo teste de Tukey, ao nível de significância de 5%. 90