1- Experimentos com Um Fator: A Análise de Variância
Fator é uma variável independente em estudo, por exemplo, solventes, aditivos. Estes
fatores geralmente envolvem diversos níveis. A ANOVA é utilizada para verificar se
existem diferenças significativas entre os níveis dos fatores (tratamentos). Aqui
assume-se que o delineamento é completamente casualizado. Estes experimentos só
podem ser realizados quando as unidades experimentais são homogêneas. Por
exemplo, 12 leitões da mesma raça, mesmo sexo, mesma idade e com pesos iniciais
próximos.
1.1 Um exemplo. Uma bioquímica (Tecnologia de Alimentos) está interessada em
estudar a extração de pigmentos naturais, com aplicação como corante em alimentos.
Numa primeira etapa tem-se a necessidade de escolher o melhor solvente extrator.
A escolha do(s) melhor(es) solventes foi realizada através da medida da absorbância
de um pigmento natural do fruto de baguaçú.
Fator = solventes; a=5 níveis; n=5 repetições.
1
Unidade experimental: 10 gramas de polpa do fruto de baguaçú.
Casualização: a partir de 1 kg de polpa, foram sendo retiradas amostras de 10gr,
onde foram aplicados os tratamentos, numa ordem aleatória.
As observações obtidas de absorbância são mostradas na tabela 1.1
Tabela 1.1 Dados de absorbância de cada um dos solventes
Solventes
E50
EAW
MAW
E70
M1M
1
0,5553
0,5436
0,4748
0,6286
0,1651
Observações
2
3
4
0,5623 0,5585 0,5096
0,5660 0,5860 0,5731
0,4321 0,4309 0,5010
0,6143 0,5826 0,7498
0,1840 0,2144 0,2249
5
0,5110
0,5656
0,4094
0,6060
0,1954
Total Média Desvio
Padrão
2,6967 0,5393 0,0266
2,8343 0,5669 0,0154
2,2482 0,4496 0,0372
3,1813 0,6363 0,0656
0,9838 0,1968 0,0238
2
Desenho esquemático para absorbância de cada solvente
B
o
xP
lo
t
•
0
,8
0
,7
•
•
0
,6
Absorbância
0
,5
Existe uma forte suspeita de
que o tipo de solvente esteja
afetando a absorbância.
Distribuições assimétricas.
Valor discrepante.
0
,4
0
,3
0
,2
0
,1
E
5
0
E
A
W
M
A
W
E
7
0
M
1M
S
o
lve
n
te
s
3
1-2 A Análise de Variância
Objetivo: testar se existe diferenças nas médias de absorbância para os a=5 tipos
(níveis) de solventes.
Tabela 1-2 Dados gerais de um experimento com um único fator
Tratamentos
Observações
Totais Médias
(níveis)
1
y11
y12
.
.
.
y1n
y1.
y1
2
y21
y22
.
.
.
y2n
y2.
y2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
a
ya1
ya2
.
.
.
yan
ya.
ya
4
Modelo estatístico (one-way):
yij  μ τ i ε ij
i=1,2,...,a
j=1,2,...,n
yij= é a ij-ésima observação;
 é uma constante para todas as observações (média geral);
i é o efeito do i-ésimo tratamento;
ij é o erro aleatório(erros de medida, fatores não controláveis,
diferenças entre as unidades experimentais, etc.).
Pressuposições: 1) os erros aleatórios são independentes;
2) os erros aleatórios são normalmente distribuídos;
3) os erros aleatórios tem média 0 (zero) e variância 2;
4) a variância, 2, deve ser constante para todos os níveis do fator.
5) as observações são adequadamente descritas pelo modelo
Ou, então:
yij ~ N (  i ; 2 ) e independentes
5
Duas situações: 1) modelo de efeito fixo (níveis selecionados pelo pesquisador);
2) modelo de efeito aleatório (amostra aleatória). Neste caso, vamos
estimar e testar hipóteses sobre a variabilidade de i
1-3 Análise de Variância do Modelo de Efeito Fixo
Hipóteses: H0: 1= 2=...= a
Ha: i  j para pelo menos um par (i,j)
1-3.1 Decomposição da soma de quadrados total
 y
a
n
i 1 j1
ij  y..  n  yi.  y..    yij  y i. 
2
Corrigida para a média
a
i 1
2
a
n
2
i 1 j1
6
SST = SSTratamentos + SSE
Graus de liberdade:
SST tem an-1 graus de liberdade; SSTratamentos tem a-1 g.l. e SSerro tem a(n-1) g.l.
Quadrados médios:
tos
QMTrat  SQTratamen
a 1
QMErro  SQErro
a(n-1)
Esperanças dos quadrados médios:
E(QMErro) = 2
a
E(QMT ratam
entos) σ 2 
Teste de hipótese:
n τ i2
i 1
a 1
QMTtratam entos
F
QMErro
7
1-3.2 Análise Estatística
F0 = QMTratamentos / QMErro
Critério para rejeição de H0: F0 > F,a-1,N-a . Pode-se usar o nível descritivo (em
inglês: p-value: É o menor valor de  para o qual rejeitamos a hipótese nula.
Exemplo: para =5%, assim, se o nível descritivo < do que 0,05  rejeitar H0,
caso contrário,  aceitar H0.
Fórmulas para o cálculo das somas de quadrados:
a
n
SS T    y 
i 1 j1
SSTratamento s  1
2
ij
a
y..2
N
2
y
 i. 
n i 1
y..2
N
SS Erro  SS T  SS Tratamentos
8
Tabela da análise de variância de um experimento com um fator.
Causas de
Soma de
Graus de Quadrados
F0
variação
quadrados liberdade médios
Entre
tratamentos
SSTratamentos
a-1
QMTratamentos QMTratamentos
QMErro
Erro (dentro SSErro
de trata/os)
N-a
QMErro
Total
N-1
SST
Valor p
N=an
9
Exemplo 1-1. O experimento de absorbância
Tabela da análise de variância dos valores de absorbância.
Causas de
Soma de
Graus de Quadrados
F0
variação
quadrados liberdade médios
Entre
solventes
0,5831
4
0,1458
Erro
0,0288
20
0,0014
Total
0,6119
24
F.05;4;20=2,87
F,01;4;20=4,43
101,1087
(P<0,0001)
Coeficiente de variação (CV)= 7,95%
CV 
QMErro
Média
.100
Rejeita-se H0, e concluímos que as médias de tratamentos diferem entre si; os solventes afetam significativamente as médias de absorbância.
10
1-3.3 Estimação dos parâmetros do modelo
Estimativas da média geral e dos efeitos dos tratamentos:

μ  y..
τˆ i  yi.  y..
Estimativa pontual de i: dado i= + i, temos:
μˆ i  μˆ τˆ i  yi.
Um intervalo de confiança para i é dado por:
yi.  tα /2,Na QMErro /n
11
Intervalo de confiança para a diferença entre qualquer duas médias i-j:
yi.  y j.  tα/2, Na 2QMErro /n
Exemplo 1-3. Dados de absorbância
μˆ  0,4778
τˆ 1  0,5393 0,4778 0,0615 E50
τˆ 2  0,5669 0,4778 0,0891 EAW
τˆ 3  0,4496 0,4778 0,0282 MAW
τˆ 4  0,6363 0,4778 0,1585 E70
τˆ 5  0,1968 0,4778 0,2810 M1M
0,6363  2,086 (0,0014 ) / 5
0,6014  4  0,6712
12
(0,4496 0,6363) 2,086 2(0,0014)/
5
 0,2361 μ 3 μ 4  0,1373
(0,5393 0,5669) 2,086 2(0,0014)/
5
 0,0770 μ 1  μ 2  0,0218
Critério de rejeição de H0:i.-j..=0. Se o intervalo de confiança contém o
valor da hipótese nula  não se rejeita a hipótese de nulidade, cc rejeita-se a
hipótese.
1-3.4 Dados desbalanceados: o número de observações dentro de cada
tratamento é diferente. Nesse caso, as SQTotal e SQTratamentos são dadas por:
a
ni
SQ Total   yij2  y..2 /N
i 1 j1
yi.2 y..2
 
N
i 1 n i
a
SQ Tratamentos
13
1-4 Diagnóstico do Modelo
Verificar se as pressuposições básicas do modelo são válidas. Isso é
realizado através de uma análise de resíduos. Define-se o resíduo da ijésima observação como:
eij  yij  yˆ ij
onde yˆij  μˆ  τˆi  yi.  valores preditos pelo modelo.
1-4.1 A suposição de normalidade
Vamos usar o gráfico normal de probabilidades: sob normalidade
dos erros este gráfico deve apresentar uma forma de reta.
14
•
Alguns valores negativos dos
resíduos(mais extremos) deveriam ser
maiores; alguns valores positivos dos
resíduos deveriam ser menores, com
exceção do último valor que deveria ser
maior.
• Contudo este gráfico não é
grosseiramente não normal.
• Existe um resíduo que é muito maior
que os demais, este valor é denominado
outlier. È um problema sério. Deve-se
fazer uma investigação sobre esse valor
(erro de cálculo, digitação, algum fato
experimental). Só eliminar um outlier se
tiver uma justificativa não estatística,
caso contrário, fazer duas análises: uma
com e outra sem o outlier. Usar métodos
não paramétricos. Transformação.
• Outlier: dij=eij/RQ(QMErro). Se algum
resíduo padronizado for maior do que 3
ou 4 ele é um outlier.
Obs. RQ=raíz quadrada.
15
1-4.2 Gráfico de resíduos no tempo
Para verificar se existe correlação entre os resíduos. Uma tendência de ter resíduos positivos e
negativos indica uma correlação positiva. Isto implica que a suposição de independência dos erros
foi violada. Isto é um problema sério, e até difícil de resolver. Se possível evitar este problema. A
casualização adequada pode garantir a independência.
0. 10
R
E
S
0. 05
I
D
U
O
0. 00
16
1-4.3 Gráfico dos resíduos versos valores preditos
0. 10
R
E
S
0. 05
I
D
U
0. 00
O
- . 05
A distribuição dos pontos é aleatória. Útil para verificar se as variâncias são heterogêneas (forma de
megafone). Devido a presença de 1 outlier as variâncias não são homogêneas. Na presença de
heterogeneidade de variâncias é usual aplicar uma transformação nos dados. Pode-se usar os testes nãoparamétricos. A heterogeneidade de variância também ocorre nos casos de distribuições assimétricas, pois a 17
variância tende a ser função da média.
0. 2
0. 4
P R E D IT O
As conclusões são realizadas para os dados transformados.
Poisson: y*=y ou y*=1+y;  dados de contagens
Log normal: y*=log y;  somente valores positivos, variável contínua com assimetria.
Binomial: y*=arco seno y.  dados de porcentagens
Teste de Bartlett para igualdade de variâncias
H 0 : σ 12  σ 22  ...  σ a2
H1 : σ i2  σ 2j
q
χ  2,3026
c
a
2
q  (N  a)log10Sp   (ni  1)log10Si2
O teste estatístico é dado por:
Onde:
i j
2
0
i1
1 
 a
1
 n  11  N  a  
c  1
 i

3(a  1)  i1


a
Sp2 
 (ni  1)Si2
i1
Na
18
Si2 é a variância amostral do i-ésimo tratamento.
Rejeita-se H0 quando
χ 02  χ α;2 a-1 , ondeχ α;2 a-1 é o valorde tabela
Exemplo 1-4 Variâncias:
s12  0,0007092;s22  0,0002372;s32  0,0013873;
s42  0,0043068;s52  0,0005675
S p2  0,001442
q  (20)(-2,8410)- (-12,5969- 14,4995- 11,4313- 9,4634- 12,9841)
q  56,82 60,9752 4,1552
1 5 1 
 
  1,10
12  4 20 
4,1552
χ02  2,3026
 8,698
1,10
c  1
2
χ0,05;4
 9,488
Conclui-se que as 5 variâncias são iguais.
19
Teste de Levene
1) Calcular os resíduos da análise de variância;
2) Fazer uma análise de variância dos valores absolutos desses resíduos;
3) Se as variâncias são homogêneas, o resultado do teste F será não significativo.
Exemplo: dados de absorbância.
QMTratamentos
QMErro
F
Nível descritivo
0,000894
0,000447
1,9989
0,1335
Aceita-se as hipóteses de que as variâncias são homogêneas
20
1-4.4 Escolha da transformação para estabilizar a variância
Escolha empírica da transformação
Em muitos experimentos onde há repetições, podemos estimar o parâmetro 
através da equação de regressão:
log σyi  log θ  α log μ yi
Como  e  são desconhecidos, usamos as suas estimativas s e y(barra), esta é a
média da amostra.
Tabela 1-8 Transformações para estabilizar as variâncias
Relação entre i e 

=1-
Transformação
y  constante
0
1
Sem transformação
y  1/2
½
½
Raiz quadrada
y  
1
0
Logarítmica
y  3/2
3/2
-1/2
y  2
2
-1
Comentário
Poisson
Inversa da raiz
quadrada(1/y)
Inversa(1/y)
21
Exemplo 1-5
(Arquivo: plasma.sas)
Um pesquisador está interessado em estudar a influência das idades de crianças
doentes no nível de plasma, foram testadas 5 idades distintas, ou sejam, ID1= 0
ano, ID2=1 ano, ID3=2 anos, ID4=3 anos e ID5=4 anos. Os resultados de nível
de plasma foram:
Idade
0
1
2
3
4
Causas de
variação
Idades
Resíduo
Observações
13,44
10,11
9,83
7,94
4,86
12,84
11,38
9,00
6,01
5,10
S.Q.
260,81
55,23
11,91
10,28
8,65
5,14
5,67
G.L.
4
20
20,09
8,96
7,85
6,90
5,75
Q.M.
65,20
2,76
Média
15,60
8,59
8,88
6,77
6,23
F
23,61
14,78
9,86
8,84
6,55
5,52
Desvio
padrão
3,27
1,12
0,71
1,05
0,55
Nível
descritivo
<0,0001
22
O teste F da ANAVA indica que as 5 médias de níveis de plasma diferem
significativamente entre si. O gráfico dos resíduos indica heterogeneidade de variâncias.
R
4
E
S
2
I
D
U
0
O
-2
23
Para estudar a possibilidade de uma transformação nos dados, plotamos log do desvio padrão
versus log da média. A equação de uma regressão linear simples para os dados é dada por:
logdesvio  1,4247  1,5608 * logmedia  erro
24
Como o coeficiente angular é próximo de 1,5 e, de acordo com a tabela, podemos
usar a transformação INVERSO DA RAÍZ QUADRADA.
Causas de S.Q.
variação
Idade
0,0818
Resíduo 0,0108
G.L
Q.M.
4
19
0,0205
0,0006
F
Nível
descritivo
36,06
<0,0001
25
Transformação: logarítmica (base 10).
Causas de
variação
Idade
Resíduo
S.Q.
0,5385
0,0743
G.L
Q.M.
4
20
0,1346
0,0037
F
Nível
descritivo
36,23
<0,0001
26
1-4.5 Gráfico dos resíduos versus outras variáveis
Se a distribuição dos pontos no gráfico mostrar algum padrão (tendência, isto é,
se os pontos não estão distribuídos aleatoriamente no gráfico) a variável afeta a resposta,
assim, esta variável deve ser melhor controlada ou incluída na análise.
27
28
1-5 Interpretando os resultados
1-5.1 Modelo de Regressão
Fator quantitativo: interesse em encontrar uma equação de regressão que leva em
conta toda a faixa de valores análise de regressão
Exemplo: produção de milho em kg/parcela.
Doses de
fósforo
0 kg/ha
25 kg/ha
50 kg/ha
75 kg/ha
100 kg/ha
Observações
2,38
6,15
9,07
9,55
9,14
6,77
8,78
8,73
8,95
10,17
3,50
8,99
6,92
10,24
9,75
Totais
5,94
9,10
8,48
8,66
9,50
18,59
33,02
33,20
37,40
38,56
Médias Desvio Padrão
4,65
8,26
8,30
9,35
9,64
2,05
1,40
0,95
0,69
0,40
29
•
Dia
g
ra
m
ad
ed
isp
e
rsã
op
a
rao
sd
a
d
o
sd
ep
ro
d
u
çã
od
em
lh
io
1
1
9
•
Produçãoemkg/parcela
7
•
5
Os traços no gráfico representam os
valores médios para cada uma das
doses.
Pelo gráfico de dispersão, verifica-se
claramente que a relação não é linear.
Podemos ajustar um polinômio de 20
grau para representar este
relacionamento, isto é,
3
1
-2
0
0
2
0
4
0
6
0
8
0
1
0
0
1
2
0
y  β 0 β 1x β 2 x 2 ε
Do
se
sd
efó
sfo
ro
.
Onde 0, 1 e 2 são parâmetros
desconhecidos e que devem ser estimados e
 é o erro aleatório. Para o exemplo a
equação ajustada é dada por:
yˆ  5,0182 0,1087x 0,0006x2
R2=66,9%66,9 % da variabilidade dos dados
é explicada pelo modelo quadrático.
30
- Estimar a produção média de milho para
doses dentro da região de experimentação;
-Otimização.
Estimação: X=90  Ŷ=9,58
8,6Y10,5
yˆ  5,0182 0,1087(90)  0,0006(90)2  9,58
Otimização:
' y
 0,1087 0,0006x  0  x  90,58
'
x
 '' y
 0,0006( Pontode m áxim o)
''
x
31
1-5.2 Comparações entre médias de tratamentos
(Fatores qualitativos)
Quando o teste F da análise de variância for significativo, indica que existe diferenças entre as
médias de tratamentos. Entre quais médias ou grupos?
1-5.3 Contrastes
Desejamos verificar se a médias dos solventes E50, EAW e E70 não diferem da média dos
solventes MAW e MM. Esta hipótese é escrita como:
H0 : 2μ1  2μ2  2μ4  3μ3  3μ5
H1 : 2μ1  2μ 2  2μ 4  3μ 3  3μ 5
Temos o contraste:
2y1.  2y2.  2y4.  3y3.  3y5.
A soma de quadrados é dada por:
Com 1 grau de liberdade
(sempre).


SQ c    ci yi. 
 i 1

a
2
a
c
i 1
i
0
a
n  ci2
i 1
32
Se o delineamento é desbalanceado então:
 a

SQ c    ci yi. 
 i 1

2
a
 n i ci2
i 1
TESTE: SQc/QMErro. Vamos obter uma estatística F com
1 e N-a graus de liberdade.
1-5.4 Contrastes Ortogonais
Dois contrastes com coeficientes ci e di são ortogonais se:
a
a
i 1
i 1
 ci d i  0 ou  n i ci d i (desbalanceado)
Exemplo: vamos considerar um
experimento com 3 tratamentos
(a=3), sendo um deles o controle.
y1  2y1.  y2.  y3.
y2 
y2.  y3.
ortogonais
33
Os contrastes devem ser escolhidos antes de realizar o experimento.
Para a tratamentos podemos ter a-1 contrastes ortogonais; podemos ter vários conjuntos
de a-1 contrastes ortogonais.
Exemplo: dados de absorbância. Temos 5 médias de
tratamentos e, portanto, 4 g.l. 4 contrastes ortogonais.
Hipóteses:
H 0 : 2μ 1  2μ 2  2μ 4  3μ 3  3μ 5
H 0 : μ 1  μ 2  2μ 4
H0 :μ 1  μ 2
Contrastes
C1=2y1.+2y2.-3y3.+2y4.-3y5.
C2= y1.+ y2.
-2y4.
C3= y1.- y2.
C4 =
y3.
-y5.
H0 :μ 3  μ 5
C1=7,7286; C2=-0,8316; C3=-0,1376; C4=1,2644
SQC1=0,3982; SQC2=0,0231; SQC3=0,0019; SQC4=0,1599
34
Variações
Soma de
GL Quadrado
F
no modelo Quadrados
Médio
Solventes
0,5832
4
0,1458 101,11
Contrastes
C1
(0,3982)
1
276,23
C2
(0,0231)
1
15,99
C3
(0,0019)
1
1,31
C4
(0,1599)
1
110,90
Erro
0,0280
20
0,0014
Total
0,6112
24
P<0,0001
P<0,0001
P<0,0007
P<0,2653
P<0,0001
35
1-5.5 Método de Scheffé para comparação de contrastes
1 - Não sabe a priori quais contrastes comparar
2 - Deseja comparar mais do que a-1 contrastes
Considere m contrastes de médias:
Γ u  c1uμ 1  c2uμ 2  ... cauμ a u  1,2,...,m
A estimativa do contraste é dado por:
Cu  c1u x1  c2u x 2  ... cau x a u  1,2,...,m
O erro padrão do contraste é dado por:
a
SCu  QMErro  ciu2 /n i
i 1
36
Critério do teste: o valor com o qual Cu deve ser comparado é dado por:
Sα, u  SC u (a  1)Fα; a 1, N a
Se |Cu S,u|, então rejeita-se a hipótese de que o contraste u é igual a zero.
Exemplo 1-1. Dados de absorbância. Considere os 2 contrastes de interesse
Γ 1  2μ 1  2μ 2  3μ 3  2μ 4  3μ 5
Γ 2  μ 1 μ 2  2μ 4
As estimativas desses contrastes são:
C1  2y1  2y 2  3y3  2y 4  3y5
 2(0,5393) 2(0,5669) 3(0,4496) 2(0,6363) 3(0,1968)
 1,5458
37
C 2  y1  y 2  2y 4
 0,5393 0,5669 2(0,6363)
 0,1664
Erros padrões dos contrastes:
SC1  0,0014(4 4  9  4  9)/5  0,0917
SC2  0,0014(1 1  4)/5  0,0410
Os valores críticos são dados por:
S0,01;1  0,0917 4(4,43) 0,3860
S0,01;2  0,0410 4(4,43) 0,1726
Como |C1|  S0,01;1 conclui-se que o contraste C1 é diferente de zero, isto é, os tratamentos
E50, EAW e E70 em média diferem dos tratamentos MAW e M1M. Como |C2|  S0,01;2
conclui-se que o contraste C2 é igual a zero, portanto, os tratamentos E50 e EAW, em média,
não diferem do tratamento E70.
38
1-5.6 Comparações entre Pares de Médias
Hipótese:
H 0 : μ i  μ j para todosos i, j.
Número de comparações: a(a-1)/2.
Devem ser realizadas após o teste F da análise de variância rejeitar a hipótese nula
Método da Diferença Mínima Significativa (LSD)
A estatística a ser utilizada é dada por:
t0 
yi  y j
 1
1 

QMErro

n

 i nj 
Para um teste bilateral, o par de médias, i e j, é significativamente diferente se:
yi  y j  t / 2;N a QMErro(1 n i 1 n j )
39
Critério do teste: se
yi  y j  LSD
concluímos que o par de médias i e j, diferem
significativamente.
Exemplo: dados de absorbância. Para =0,05, o valor da LSD é:
LSD  t 0,025;20 2(QMErro)/n  2,086 2(0,0014) / 5  0,0494
y1  y 2  0,5393 0,5669  0,0276
y1  y 3  0,0897
y1  y 4  0,0970
y1  y 5  0,3425
y 2  y 3  0,1173
y 2  y 4  0,0694
y 2  y 5  0,3701
y 3  y 4  0,1867
y 3  y 5  0,2528
y 4  y 5  0,4395
*
diferença significativa para =5%.
40
Teste de Tukey
Duas médias são diferentes significativamente se a diferença das médias amostrais
(em valor absoluto) for superior a DMS (Diferença Mínima Significativa):
DMS 
q
2
s
1 1

ri rj
Onde q é um apropriado nível de confiança superior da amplitude studentizada para k
médias (tratamentos) e f graus de liberdade associados a estimativa s2 de 2 (QMErro).
Exemplo: dados de absorbância. O valor da Diferença Mínima Significativa é:
DMS  q0, 05 (5; 20 )
QMErro 1 1
0,0014 2

 4,23
 0,0708
ni n j
5
2
2
Conclusão: pelo teste de Tukey, ao nível de significância de 5%, as médias dos
tratamentos E50 e EAW, assim como as médias dos tratamentos EAW e E70 não
apresentam diferenças significativas. As médias dos tratamentos E50 e E70 apresentam
diferença significativa.
41
Teste de Dunnett: comparação com um controle
Interesse é comparar cada uma das a-1 médias com a média do tratamento controle,
assim temos a-1 comparações. Deseja-se testar a hipótese:
H 0 : μ i  μ a H1 : μ i  μ a para i  1,2,..., a - 1
Onde a é a média do tratamento controle.
A hipótese de nulidade é rejeitada, ao nível de significância , se
1
1
yi.  ya.  d (a  1, f ) QMErro  
 ni na 
Exemplo: dados de absorbância. Considere o tratamento MM como sendo o controle. Neste
exemplo, a=5, a-1=4 e f=20 e ni=na=5. Para =5%, da tabela (valores críticos do teste de
Dunnett) obtemos d0,05(4;20)=2,65. Assim, o valor crítico é dado por:
2,65 (0,00144)
2
 0,0636
5
42
y1  y 5  0,3425
y 2  y 5  0,3701
y 3  y 5  0,2528
y 4  y 5  0,4395
Conclusão: todas as médias diferem significativamente da média do tratamento controle.
Qual teste usar?
O LSD é eficiente para detectar diferenças verdadeiras nas médias se ele for aplicado
apenas depois do teste F da ANOVA se significativo a 5%. Idem para o Duncan. Estes
métodos não contém o erro tipo I (erro geral ou experimentwise error). Como o Tukey
controla este erro ele é o preferido pelos estatísticos. O SNK é mais conservador do que o
Duncan.
43
1-6 Modelo de Efeito Aleatório
Se o pesquisador seleciona aleatoriamente a níveis de um fator de uma população de
níveis desse fator, então o fator é dito aleatório. A inferência é feita para toda a
população de níveis.
Exemplo: uma pesquisadora estudou o conteúdo de sódio em cervejas selecionando
aleatoriamente 6 marcas de um grande número de marcas dos EUA e do Canadá. Ela,
então, escolheu 8 garrafas de cada marca aleatoriamente de supermercados e mediu a
quantidade de sódio (em miligramas) de cada garrafa.
44
Marcas
1
2
3
4
5
6
1
24.4
10.2
19.2
17.4
13.4
21.3
2
22.6
12.1
19.4
18.1
15.0
20.2
3
23.8
10.3
19.8
16.7
14.1
20.7
Garrafas
4
5
22.0 24.5
10.2
9.9
19.0 19.6
18.3 17.6
13.1 14.9
20.8 20.1
6
22.3
11.2
18.3
17.5
15.0
18.8
7
25.0
12.0
20.0
18.0
13.4
21.1
8
24.5
9.5
19.4
16.4
14.8
20.3
23.8
O modelo estatístico:
y ij  μ  τ i  ε ij , para i  1,..., a e j  1,..., n
i é o efeito do i-ésimo tratamento e assume-se que seja NID(0,2)
ij é o erro aleatório e assume-se que sejam NID(0, 2)
i e ij são independentes
Testar hipóteses sobre os efeitos dos tratamentos não faz sentido, assim, vamos
testar as hipóteses sobre a variância dos tratamentos.
H 0 : σ τ2  0
H1 : σ τ2  0
45
Se 2=0, então todos os tratamentos são idênticos; mas se 2>0 a variabilidade entre
tratamentos é significativa.
Quando temos um modelo de efeitos aleatórios o interesse está em estimarmos os componentes
de variâncias: 2 e 2. Prova-se que:
E(QMTratamentos) σ 2  nσ τ2
E(QMErro) σ 2
Portanto,
QMTratamentos  σ 2  nσ τ2
QMErro  σ 2
assim,
2
σ  QMErro
2
σ τ  (QMTratamentos QMErro)/n
46
Exemplo: Dados de sódio. Os resultados da análise de variância são mostrados
na tabela abaixo - Arquivo: conteudodesoddiocervejas.sas
Variações
S.Q.
no modelo
Marcas
854,529
Erro
30,070
Total
884,599
Conclusão: rejeita-se H0:
G.L.
5
42
47
Q.M.
170,906
0,716
F
Nível
descritivo
238,71 P<0,0001
 2  0
Os componentes de variância são estimados por:
ˆ 2  0,716
ˆ2  ( 170,906 0,716)/ 8  21,2738
Um uso importante: isolar diferentes fontes de variabilidade que afetam um produto
ou um sistema. Identificar fatores com maior variabilidade (Exemplo: Lotes,
amostras e réplicas).
47
2- Mais Sobre Experimentos com Um Fator
2-1 Escolha do Tamanho da Amostra
2-1.1 Curvas Características de Operação
Curva característica de operação: é um gráfico em que no eixo das ordenadas temos a
probabilidade de erro tipo II (aceitar a hipótese de nulidade quando na verdade deveríamos ter
rejeitado) e no eixo das abcissas temos a precisão desejada pelo pesquisador.
Probabilidade de erro tipo II para o modelo de efeito fixo e igual tamanho de amostra por
tratamento.
β  1  PRejeitarH 0 | H 0 é falsa 
β  1  PF0  Fα; a 1; Na | H 0 é falsa 
As CCO dadas no ábaco V (Apêndice), são usadas para avaliar o valor de . Essas
CCO são um gráfico de  (ordenadas) versus  (abcissas), onde:
a
2 
n τ
2
i
i 1
aσ 2
48
O cálculo de  apresenta algumas dificuldades práticas:
1)τ i  μ i  μ ondeμ  1 a i1μ i
a
2) necessita-se de uma estimativa de 2 (experiência, um
experimento piloto, bibliografia)
Exemplo: dados de absorbância. Suponha que a pesquisadora deseja rejeitar a hipótese nula
com pelo menos 90% de probabilidade(1-=90%) se as 5 médias dos trat/os são:
μ 1  0,6 μ 2  0,7 μ 3  0,3 μ 4  0,8 μ 5  0,2
Ela deseja usar =0,05, e neste caso a média geral vale 0,52.
τ 1  μ 1  μ  0,60  0,52  0,08
2
 μ 2  μ  0,70  0,52  0,18
τ
3
 μ 3  μ  0,30  0,52  0,22
τ
4
 μ 4  μ  0,80  0,52  0,28
τ
5
 μ 5  μ  0,20  0,52  0,32
2

i1 i  0,268
a
Assim,
τ
De um ensaio preliminar encontramos 2=0,06.
49
Temos:
2 
n 0,268
 0,893n
5(0,06)
CCO para a-1=5-1=4, N-a=a(n-1) e =0,05
n
a(n-1)
2


4
3,37
1,89
15
0,15
5
4,47
2,11
20
0,07
(1-)
0,85
0,93
Assim, a pesquisadora deve utilizar n=5 repetições para realizar o teste com o poder
desejado.
Alternativa: é selecionar um tamanho de amostra tal que, se a diferença entre qualquer duas
médias exceder um valor especificado, a hipótese de nulidade deve ser rejeitada. Seja D este
valor (precisão), então:
2
nD
2 
2a 2
Exemplo: dados de absorbância: suponha que a pesquisadora deseja rejeitar a hipótese de
nulidade com probabilidade igual a 0,90 (Poder do teste (1-)) se a diferença entre
qualquer duas médias for igual a 0,30. Considere uma estimativa para 2=0,015.
50
2
n
(
0
,
3
)
2 
 0,60n
2(5)(0,015)
CCO para (a-1)=(5-1)=4 e a(n-1) g.l. e =0,05
n
a(n-1)
2


5
3,0
1,73
20
0,15
6
3,6
1,90
25
0,12
7
4,2
2,05
30
0,07
(1-)
0,85
0,88
0,93
Conclui-se que n=7 repetições devem ser usadas para ter a precisão e confiança desejadas.
Modelo de efeitos aleatórios: a probabilidade de erro tipo II para esse caso é:
β  1  PRejeitarH 0 | H 0 é falsa 
β  1  P (F0  Fα; a-1; N-a | σ 2  0)
As CCO (Ábaco VI, Apêndice) são gráficos onde na ordenada temos a probabilidade de
erro tipo II e na a abcissa temos , onde  é dado por:
λ 
nσ τ2
1
σ2
51
2 : quanto da variabilidade na população dos tratamentos deseja-se detectar;
2 : pode ser obtido através de algum experimento ou experiência anterior, bibliografia.
Exemplo: conteúdo de sódio. O pesquisador deseja rejeitar a hipótese de nulidade com 99%
de probabilidade se 2 =10. De um experimento anterior sabe-se que 2 =1,0.
  1
n(10)

1
1  n(10)
CCO com (a-1)=(6-1)=5 e N-a=42 e =0,01
n
a(n-1)
(1-)


3
5,6
12
0,027
0,973
4
6,4
18
0,015
0,985
5
7,1
24
0,000
1,000
Método do Intervalo de Confiança
Assume-se que o pesquisador deseja expressar os resultados em termos de intervalos de
confiança dos efeitos dos tratamentos. Especifica à priori a amplitude dos mesmos.
52
A semi-amplitude do intervalo de confiança (precisão que o pesquisador deseja, isto é, a
diferença entre a média obtida no experimento e a média verdadeira) ) é dada por:
 tα/2; Na
2(QMErro)
n
Exemplo: dados de absorbância: o pesquisador deseja construir com confiança de 95%,
um intervalo com semi-amplitude de 0,15. Considere 2=0,015.
Para n=5 repetições, a semi-amplitude do intervalo de confiança é dada por:
 2,086 2(0,015) / 5  0,162
O qual apresenta uma precisão menor do que a desejada, portanto, vamos aumentar o
tamanho da amostra. Para n=6 repetições, temos:
 2,060 2(0,015) / 6  0,15
Para n=6 repetições encontramos a precisão desejada.
53
2-2 Encontrando efeitos de dispersão
O interesse é descobrir se os diferentes níveis do fator afetam a variabilidade  efeitos
de dispersão. Neste caso, a variável resposta a ser utilizada será a variância, desvio
padrão ou outra medida de variabilidade.
Exemplo. Na fabricação de pão utiliza-se farinha de trigo e de um número menor de outros
ingredientes permitidos (fatores em estudo). O objetivo de um programa de qualidade foi a de
identificar uma combinação desses ingredientes os quais produzem um alto volume específico
de pão e que seja tolerante a flutuações no processo de fabricação. Para esse fim, foi realizado
um experimento com 4 formulações (1, 2, 3 e 4), sendo a última uma formulação padrão. Os
dados médios de volume específico e desvio padrão estão na tabela a seguir.
Formulações
Observações
1
1
2
3
4
501,5
447,0
466,5
469,5
2
92,63
15,55
12,02
41,72
3
4
528,0 29,70 412,5 30,41 463,0 63,64
503,5 6,36 392,5 16,26 512,0 2,83
566,5 43,13 439,0 35,36 492,0 56,57
500,0 24,04 405,0 52,33 478,5 31,82
54
O teste F da ANOVA para os valores médios de volume específico de pão não foi
significativo(F=0,2667 e valor do nível descritivo igual a 0,8482), indicando que não
existe diferenças entre as 4 formulações.
Para investigar possíveis efeitos de dispersão, usualmente utiliza-se LN(s),como sendo a
variável resposta (a transformação logarítmica estabiliza a variância). Os resultados da ANOVA
estão na tabela a seguir.
Variações
no modelo
Formulações
Erro
S.Q.
7,408
4,789
G.L.
3
12
Q.M.
2,469
0,396
F
Nível
descritivo
6,24
0,0085
Observa-se que as formulações afetam o desvio padrão do volume específico do pão, isto
é, as formulações tem um efeito de dispersão.
55
1
2
3
4
LSD test; variable LNDESPAD (volumpao.sta)
Probabilities for Post Hoc Tests
MAIN EFFECT: VAR1
{1}
{2}
{3}
{4}
3,871943 2,105592 3,462963 3,582091
{1}
,001857 ,375988 ,526936
{2}
,001857
,010057 ,006118
{3}
,375988 ,010057
,793393
{4}
,526936 ,0,006118 ,793393
Dos resultados do teste LSD, conclui-se que a formulação 2 produz menos dispersão do
que as demais; As formulações 1, 3 e 4, são estatisticamente equivalentes.
2-3 Ajustando curvas de respostas
Quando os níveis do fator são quantitativos, podemos realizar uma regressão polinomial.
Duas etapas: 1) desdobramento dos graus de liberdade de tratamentos (a-1),em regressão
linear, quadrática, cúbica, 4 grau, e assim por diante. Geralmente ajusta-se uma regressão
quadrática. 2) obter a equação de regressão.
56
Exemplo: produção de milho, em kg/unidade experimental.
Dose de
fósforo
0
25
50
75
100
Efeito:
Soma de quadrados:
Totais dos
trat/os
yi.
18,59
33,02
33,20
37,40
38,56
Coeficientes dos contrastes ortogonais
(ci)
Linear Quadrát. Cúbico 4. grau
-2
2
-1
1
-1
-1
2
-4
0
-2
0
6
1
-1
-2
-4
2
2
1
1
 a

c
y
  i i. 
 i1

2
 a
 
   ci y i .  
 
  i1
a


2
n
c
  i 
i 1


44,32
-22,52
11,21
-25,33
49,11
9,06
3,14
2,29
57
O novo quadro da ANOVA fica:
Causas de
variação
Doses
(Linear)
(Quadrático)
(Cúbico)
(4. grau)
Erro
Total
Soma
Graus
QuadraF
Nível
de
de
dos
Descritivo
Quadrados Liberdade Médios
63,60
4
15,90 10,22
0,0003
49,107
1 49,107 31,56
0,0001
9,06
1
9,06 5,82
0,0291
3,14
1
3,14 2,02
0,1758
2,29
1
2,29 1,47
0,2437
23,34
15
1,56
86,94
19
Observamos que o efeito quadrático foi significativo, portanto, vamos ajustar um
polinômio de segunda ordem aos dados, dado por:
y   0  1 P1 ( x)   2 P2 ( x)  
Onde Pu(x) é um polinômio de u-ésima ordem.. Os 3 primeiros polinômios ortogonais
são:
58
P0 ( x)  1
 ( x  x )   x  50  x  50
P1 ( x)  1 
 1



25
 d   25 
 x  x  2  a 2  1   x  50  2   x  50  2 
  1
P2 ( x)   2 
  
  2  
  2
 d   12   25 
  25 

Onde d é a distância entre dois níveis de x, a é o total de níveis, e i são constantes
obtidas em tabelas. As estimativas de mínimos quadrados dos parâmetros no modelo
polinomial ortogonal são:
ˆ i
yP ( x)


 P ( x)
i
2
i  0,1,..., a  1
i
59
Y
2,38
6,77
3,50
5,94
6,15
8,78
8,99
9,10
.
.
.
9,50
160,77
X P0(x) P1(x) P1(x)2 YP1(x) P2(X) P2(X)2 YP2(X)
0
1
-2
4 -4,76
2
4
4,76
0
1
-2
4 -13,54
2
4
13,54
0
1
-2
4 -7,00
2
4
7,00
0
1
-2
4 -11,88
2
4
11,88
25
1
-1
1 -6,15
-1
1
-6,15
25
1
-1
1 -8,78
-1
1
-8,78
25
1
-1
1 -8,99
-1
1
-8,99
25
1
-1
1 -9,10
-1
1
-9,10
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
100
1
2
4 19,00
2
4
19,00
20
40 44,32
56 -22,46
Para os dados de adubação em milho, as estimativas dos parâmetros do modelo são:
60
160 160

 8,039
20
4(5)
44,32 44,32
ˆ 1 

 1,108
40
4(10)
 22,46  22,46
ˆ 2 

 0,401
56
4(14)
ˆ 0 
A equação de regressão é dada por:
 x  50  2  5 2  1 
 x  50 

yˆ  8,039 1,108(1)
  0,401(1) 
  
 25 
 25   12 
yˆ  5,02036 0,10849x  0,00064x 2
R2 =
2-4 Métodos não paramétricos na análise de variância
2-4.1 O Teste de Kruskal-Wallis
Quando as pressuposições básicas da ANOVA não forem atendidas, por exemplo, a
variável em estudo não apresenta distribuição normal (notas em escala), heterogeneidade de
variâncias, outliers.
É usado para testar a hipótese de que a tratamentos são idênticos contra a hipótese
alternativa de que pelo menos dois deles diferem entre si.
61
Pressuposições: 1) as observações são todas independentes.
2) as a populações são aproximadamente da mesma forma e contínuas
(pode ser abrandada, desde que consigamos ordenar os dados,
exemplo, escala ordinal).
Hipóteses:
H 0 : μ 1  μ 2  ...  μ a
H a : μ i  μ j para i  j
Método: procedemos a classificação conjunta (em ordem crescente) das N observações,
dando ordem 1 à menor e ordem N à maior delas, e substituímos às observações pelos seus
postos (ranks). No caso de empates (observações com o mesmo valor), designa-se o posto
médio para as observações empatadas. Seja Ri a somas dos ranks do i-ésimo tratamento. O
teste estatístico é dado por:
1  a R i.2 N(N  1)2 
H  2 


S  i1 n i
4

ni é o número de observações do i-ésimo tratamento e N é o número total de observações.
1  a ni 2 N(N  1)2 
S 
R ij 



N  1  i1 j1
4

2
62
Sem empates:
S2  N(N  1)/12
E o teste estatístico simplifica-se:
a
R i.2
12
H
 3(N  1)

N(N  1) i1 n i
Critério do teste: para ni5, H tem distribuição aproximada de 2a-1 sob H0.. Assim, se
H χ
2
α, a 1
Olhar o valor p
rejeita-se H0.
Exemplo: dados de absorbância.
E50
EAW
y1j
R1j
0,5553 14
0,5623 16
0,5585 15
0,5096 11
0,5110 12
68
y2j
R2j
0,5436 13
0,5660 17,5
0,5860 21
0,5731 19
0,5660 17,5
88
MAW
y3j
R3j
0,4748
9
0,4321
8
0,4309
7
0,5010 10
0,4094
6
40
E70
y4j
R4j
0,6286 24
0,6143 23
0,5826 20
0,7498 25
0,6060 22
114
M1M
y5j
R5j
0,1651
1
0,1840
2
0,2144
4
0,2249
5
0,1954
3
15
63
5
5
i1
j1
2
2
R

5524,50
S

 ij
H
1
5524,5 4225,0  54,1458
25  1
1
1 2

2
2
2
2


68

88

40

114

15

4225,0
 22,3987


54,1458 5

O nível descritivo para H=22,3987 com 4 g.l. é 0,0002, portanto, rejeita-se H0.
* Teste de comparação de médias não paramétrico.
2-5 Medidas Repetidas
É preciso levar em consideração duas fontes de variabilidade: entre unidades e dentro
de unidades (between subjects and within subjects). SUBJECTS=JULGADORES..
Cada degustador usa os a tratamentosdelineamento com medidas repetidas.
A tabela geral dos dados para este delineamento é dada como:
64
Tratamentos
1
2
.
.
a
Totais
subjects
Dados do delineamento com medidas repetidas com 1 fator
Subjects (julgadores)
Totais
1
2
...
n
tratamentos
y11
y12
...
y1n
y1.
y21
y22
...
y2n
y2.
.
.
.
.
.
.
.
.
.
.
ya1
ya2
...
yna
yª
y.1
y.2
...
y.n
y..
y ij  μ  τ i  β j  ε ij
O modelo estatístico:
Onde i é o efeito do i-ésimo tratamento e j é o efeito da j-ésima unidade. Assumese que: tratamentos de efeito fixo e subjects de efeito aleatório (Modelo Misto).
β J 0,σ β2 
Partição da soma de quadrados total: S.Q. Total = S.Q Entre julgadores + S.Q.Dentro julgadores
 y
a
i 1
j1
 y ..   a  y .j  y ..    y ij  y .j 
2
n
ij
n
j1
2
a
n
i 1
j1
2
65
Graus de liberdade: na-1 = (n-1) + n(a-1)
S.Q. Dentro de julgadores = S.Q.Tratamentos + S.Q. Erro
 y
a
i 1
 y .j   n  y i.  y ..    y ij  y i.  y .j  y .. 
2
n
ij
j1
a
i 1
2
a
n
i 1
j1
2
Graus de liberdade: n(a-1) = (a-1) + (a-1)(n-1)
Hipóteses:
H 0  τ 1  τ 2  ...  τ a  0
Ha  τ i  0
Critério do teste: F0 
Rejeita-se H0 se:
QMTratamentos
QMErro
F0  Fα; a 1,(a 1)(n 1)
EQMSuj  σ 2  aσ β2
n a
E(QMTrat)  σ 
τ

a  1 i1
E(QMErro) σ 2
2
66
2
j
Exemplo: hamburger de pescado, variável sabor.
Tratamentos
A
B
C
D
1
3,2
4,4
2,0
2,0
Variações
SQ
No modelo
Julgadores
7,829
Tratamentos 1,798
Erro
5,851
Total
15,479
Teste para julgadores:
Julgadores
3
4
5
4,0
4,4
3,6
3,4
4,2
2,6
3,8
3,6
4,0
4,2
3,4
2,2
2
3,0
2,8
2,4
2,4
GL
6
3
18
27
QM
1,305
0,599
0,325
6
3,2
2,8
2,6
2,6
7
4,0
4,0
3,8
4,0
F
Nível
Descritivo
4,01
0,0100
1,84
0,1753
H 0 : σ β2  0 H a : σ β2  0
Portanto, rejeita-se H0, isto é, o comportamento dos julgadores não é o mesmo,
não são equivalentes.
67
Intervalos de confiança:
3,03  μ 1  4,23
2,86  μ 2  4,06
2,57  μ 3  3,77
2,37  μ 4  3,57
2-6 Análise de Covariância
É utilizada para melhorar a precisão na comparação entre os tratamentos do experimento.
Suponha um experimento que junto com uma variável resposta Y (população de
staphilococus), tenha uma variável X (população inicial de staphilococus), e que Y e X estejam
relacionadas linearmente. Além disso, suponha que X não pode ser controlada pelo
pesquisador, mas pode ser observada junto com Y. A variável x é chamada covariável.
A ANCOVA é um ajuste da variável resposta para os efeitos de uma variável perturbadora (
nuisance). Se este ajuste não for feito, a covariável pode inflacionar o quadrado médio do erro
e fazer com que diferenças reais entre os tratamentos sejam difíceis de serem detectadas.
A covariável, x, não deve ser afetada pelos tratamentos. Por exemplo, experimento com
tratamento de sementes, y = produção da cultura e x = stand inicial (plantas que germinaram).
Observação: A blocagem pode ser usada para eliminar o efeito de variáveis nuisance que
podem ser controladas pelo pesquisador.
68
y
y1´
é a média
.
´
1
y
´
2
y
°
°
°
y1
°
°
°°•
°
°• y2 °
•
••
°
y1
corrigida por X
Tratamento 1
°
°
Tratamento 2
°
• •
•
•
•
X
X1
X
X2
69
Exemplo: dados de população de Staphilococus aureus, em frango, mantidos sob
refrigeração doméstica (-18 graus). O objetivo do experimento é comparar meios de
cultura, quais sejam: Baird Paker, Baird Paker Modificado, Vermelho Neutro e
Vermelho Neutro Modificado com relação à variável sobrevivência de Staphilococus
aos 7 dias de armazenamento. Os dados são mostradas na tabela a seguir.
Dados de pop. de Staphilococus para y = pop. aos 7 dias e x = pop. aos 0 dia
BP
BPM
VN
VNM
y
x
y
x
y
x
y
x
3,1710 3,3507 3,0663 3,4423 3,3903 3,7643 3,5623 3,7447
3,1857 3,4860 3,1840 3,6617 4,0037 4,0880 3,8820 4,0880
2,8553 3,0527 2,8300 3,2980 3,8293 4,1053 3,1507 3,8820
3,5063 3,6577 3,6603 3,7873 3,1637 3,4807 3,2253 3,4807
3,7740 4,0143 3,7180 3,8953 2,7917 3,7447 3,6393 3,4523
3,1383 3,7407 4,0263 3,7953 3,7917 3,3903 2,9937 3,5020
19,6307 21,3020 20,4850 21,8800 20,9703 22,5733 20,4533 22,1497
70
A figura mostra um tendência linear entre y = pop7 e x = pop0, isto é, a
população aos 7 dias é afetada pela população inicial (0 dia).
2-6.1 Descrição do procedimento
Modelo estatístico (1):
yij  μ τ i β xij  x.. ε ij
para i=1,2,...,a e j=1,2,...,n.
Yij é a j-ésima observação da v. resposta tomada no i-ésimo tratamento; xij é a medida
feita na covariável correspondente a yij; x.. é a média dos valores de xij,  é uma média
geral; i é o efeito do i-ésimo trat/o;  é o coef. angular de regressão linear e ij é o erro
aleatório.
71
Suposição:
ij ~ NID(0; );   0; 1  ...,a
2
a
 i  0
i 1
72
Para descrever a análise utiliza-se a notação:
S yy    y ij  y .. 
a
n
i 1
S xx 
j1
  x
a
i 1
n
 x .. 
j1
n
2
ij
x ..2
 x 
an
i 1 j1
a
2
ij
y ..2
  y 
an
i 1 j1
a
2
n
S xy    x ij  x .. y ij  y ..  
a
i 1
n
j1
2
ij
a
n
x
i 1
ij
j1
y ij 
(x .. )(y.. )
an
1 a 2 y ..2
  (y i.  y .. )   y i. 
n i1
an
i 1
a
1 a 2 x ..2
2
  (x i.  x .. )   x i. 
n i1
an
i 1
a
(x )(y.. )
1 a
  x i.  x .. y i.  y ..    (x i. )(y i. )  ..
n i1
an
i 1
a
Tyy
Txx
Txy
2
E yy    y ij  y i.   S yy  Tyy
a
n
2
i 1
j1
E xx    x ij  x i.   S xx  Txx
a
n
2
i 1
j1
E xy    x ij  x i. y ij  y i.   S xy  Txy
a
n
i 1
j1
73
Somas de quadrados:
SQTotal  S yy
SQRegressão  S xy  S xx
2

SQTratamentos(ajustado)  S yy  S xy  S xx  E yy  E xy  E xx
2
SQErro  E yy  E xy  E xx
2

2
Graus de liberdade:
Regressão: 1
Tratamentos(ajustado): a-1
Erro: a(n-1)-1
Total: na-1
Teste da hipótese:
F0 
H 0 :τ i  0
SQTrat/os(ajustado)/(a 1)
SQErro/an 1 1
ou
H 0  1  2  3  4
Rejeita-se H0 se:
F0  F ;a1,a ( n1)1
Use o valor p
74
Deve-se ajustar as médias: médias de mínimos quadrados
y i.  y i.  βˆ x i.  x .. 
βˆ  E xy E xx
para i  1,2,...,a
Erro padrão de qualquer média ajustada de tratamento:
S x ajustada
1/ 2
H 0 : β  0 vs H a : β  0
Hipótese:

E 

2
F0

 1 xi.  x.. 2 

 QMErro 
Exx 

n
xy
/E xx
QMErro
Rejeita-se H0 se:
F0  F ;1,a ( n1)1
Use o nível descritivo
75
Exemplo: dados de população de Staphilococus. (Arquivo: staplilocousanalisedecovariancia)
Variações
no modelo
Regressão
Tratamentos
ajustados
Erro
Total
Tabela da análise de covariância
SQ
GL
QM
F
1,2666
0,0112
1
3
1,2666
0,0037
1,9395
3,3605
19
23
0,1021
Nível
descritivo
12,41
0,0023
0,04
0,9903
Não podemos rejeitar a hipótese H0:i=0, isto é, os valores médios dos meios são
estatisticamente equivalentes, com nível descritivo de 0,9903. Rejeita-se a hipótese H0:=0,
ao nível descritivo de 0,0023, isto significa que foi importante remover o efeito da
população inicial de Staphilococus. Os valores das médias ajustadas com os seus erros
padrões são:
Médias ajustadas
3,3718
3,4285
3,4064
3,3831
Erro padrão
0,1335
0,1305
0,1328
0,1306
76
A estimativa do coeficiente de regressão é:
βˆ  0,8904
sβˆ  0,2527
Diagnóstico do modelo: os resíduos são dados por:
eij  yij  yˆ ij
yˆ ij  μˆ  τˆ i  βˆ (xij  x.. )  yi.  βˆ (xij  xi. ) pois : ˆi  y i .  y..  ˆ ( xi .  x.. )
ˆ  y..
Exemplo: e11=3,1710-3,2718-0,8904(3,3507-3,55033)
=0.07701
Os resíduos estão
aleatoriamente distribuídos
em torno do valor zero. A
faixa de distribuição, -0,5
a 0,5, é curta; não tem
outliers. Variâncias
homogêneas.
77
A suposição de normalidade é
satisfeita.
78
Valores aleatoriamente
distribuídos em torno de zero.
Conclusão: de acordo com os gráficos, os resultados da análise estatística podem ser utilizados,
pois eles não revelam qualquer problema quanto as suposições do modelo.
79
Download

umfator - IME-USP