Programa de Pós-Graduação em Engenharia Elétrica
Disciplina: Introdução ao Processo Estocástico
ANOVA:
Análise de Variância
Comparação entre tratamentos
Prof. Hani Camille Yehia
Alunos: Augusto Filho
Cléia do N. Cavalcante
Roteiro
1. Introduçao
2. Modelo de ANOVA
3. Verificaçao da suposiçoes do Modelo
4. Estimaçao dos parametros do Modelo
5. Métodos de Comparaçao Múltipla
6. Exemplo
Comparação entre tratamentos
É uma técnica de teste de hipóteses usada para comparar as
médias de três ou mais populações.
ANOVA
Sir Ronald A. Fisher (1890-1962)
A técnica de análise de variância foi
desenvolvida principalmente pelo
estatístico inglês Ronald A. Fisher, a partir
de 1918.
Uma das preocupações estatísticas ao analisar dados, é a de criar modelos
que explicitem estruturas do fenômeno em observação. A identificação
dessas estruturas permite conhecer melhor o fenômeno, bem como fazer
afirmações sobre possíveis comportamento do mesmo.
OBSERVAÇÃO = PREVISÍVEL + ALEATÓRIO
PREVISÍVEL: é expressada por uma função matemática com
parâmetros desconhecidos.
ALEATÓRIO: assumimos uma estrutura de probabilidade; um
modelo de probabilidade conhecido.
A Análise de Variância
Suponha que tenhamos k populações envolvidas, sendo extraída de cada
uma delas amostras aleatória de tamanho n. A resposta para cada um dos
tratamentos é uma variável aleatória.
Tratamento
Observações
Soma
Médias
1
y11
y12
...
y1n
y1.
2
y21
y22
...
y2n
y2.
y1.
y2.
.
.
.
…
.
.
.
.
.
.
...
.
.
.
.
.
.
…
.
.
.
k
yk1
yk2
...
ykn
Yk .
yk .
y..
y..
Modelo ANOVA
yij     i  eij
i = 1, 2, 3, ...,k
j = 1, 2, ..., n
Yij ; é valor da variável resposta na j-ésima observação do i-ésimo tratamento.
 : é a a média geral de todos os tratamentos;
i : é o efeito do i-ésimo tratamento;
eij: é o erro aleatório.
Pressuposições Básicas:

As amostra são aleatórias e independentes;

As populações têm distribuições normais;

As populações têm a mesma variância.
Suposições adotadas para o comportamento das populações
Hipóteses
Testar se as medias são iguais ou não:
H0 = 1 = 2 = ... = k = 0
H1 = i  0 , para pelo menos um i
As observações
Sob H0:
yij    eij
Sob H1:
yij     i  eij
Hipóteses e modelo subjacente
Sob H0: 1 = 2 =...= k = 0
yij     i  eij
yij    eij
Hipóteses e modelo subjacente
Sob H1: i  0 para algum i
yij     i  eij
Decomposição da soma de quadrados total
Para testar as hipóteses anteriores, baseia-se em uma análise da
variabilidade total dos dados das k amostras, dado pela soma de
quadrados total.
k
n
 (y
i 1 j1
k
n
 y.. )  n  ( yi.  y.. )   ( yij  yi. )
2
ij
k
SQTOTAL
2
i 1
=
SQTRAT
i 1 j1
+
SQERRO
2
Decomposição da soma de quadrados total
Soma de quadrados total:
2
y
SQTot   yij2  ..
N
i 1 j 1
k
n
Soma de quadrados dos tratamentos:
yi2. y..2
 
N
i 1 ni
k
SQTRAT
Soma de quadrados do erro:
SQERRO = SQTotal - SQTRAT
Graus de liberdade:
gl = N - 1
onde: N = nk
Graus de liberdade:
gl = k - 1
Graus de liberdade:
gl = k(n-1)
SQTOTAL = SQTrat + SQERRO
Graus de liberdade:
SQT tem kn-1 graus de liberdade;
SQTratamentos tem K-1 g.l.
SQerro tem k(n-1) g.l.
Quadrados médios:
Estatística de Teste:
QM TRAT
SQTRAT

k 1
QMTRAT
F
QM ERRO
QM ERRO
SQERRO

k (n  1)
Tabela de Análise de Variância – (ANOVA)
Fonte de
Variação
Soma de
Quadrados
yi2. y..2
 
N
i 1 ni
gl
Quadrados
Médios
k
Tratamentos
SQTRAT
k-1
Erro
SQERRO = SQTotal - SQTRAT
K(n-1)
Total
2
y
  yij2  ..
N
i 1 j 1
Kn -1
k
SQTotal
n
QM TRAT 
SQTRAT
k 1
QM ERRO 
SQERRO
k (n  1)
F
F
QMTRAT
QM ERRO
Regra de decisão: Abordagem Clássica

Rejeito Ho se: F > F (k – 1; k(n - 1)

Não rejeita Ho se: F  F (k – 1; k(n - 1)
Valor-p
Regra de decisão: Abordagem Valor-p
 = nível de significância
(probab. tolerável de se rejeitar Ho quando esta for verdadeira)
Usual:  = 5%

rejeita H0 (prova-se
estatisticamente H1)

Não rejeita H0 (os dados não
mostram evidência para afirmar
H 1)

Valor-p  

Valor-p > 
Estimação Pontual
1 k
ˆ  y...   i
k i 1
Média Geral:
Média do Tratamento:
Diferença entre a Média
do Tratamento:
Variância:
1 n
ˆ i  yi.   yij
n i 1
i   j  yi.  y j.
ˆ 2  QM Erro
Estimação Intervalar
yi.  t / 2,k ( n 1)
QM RES
n
( yi.  y j . )  t / 2,k ( n 1)
 Média i
2 QM RES
n
 Diferença entre médias
Métodos de Comparações Múltiplas
Métodos de Duncan
Procedimento
1. Ordenar de forma crescente as k médias amostrais dos tratamentos.
2 Estimar o desvio padrão de cada média.
Sy
i.

QM ERRO
n
3. Obter da tabela de Duncan os valores de:
onde:
 = nível de significância v ( p, f )
f = nº de graus de liberdade de SQerro
p = nº de médias envolvidas na comparação
Métodos de Duncan
4. Calcular as amplitudes mínimas:
R p  v ( p , f )  S y
i.
5. Testar as diferenças observadas entre as médias,
seguintes comparações:
fazendo as
( ymaior  ymenor )  Rk
( ymaior  y2ª menor )  Rk 1
( y2ª maior  ymenor )  Rk ( k 1) / 2
6. Regra de Decisão:
Se a diferença observada entre elas for > que Rp, concluir que as
médias médias que constituem um par são significativamente
diferentes.
Verificação da Adequação do Modelo
Um resíduo é definido como:
eij  yij  y i


Resíduo: A diferença entre uma observação e a média do
tratamento correspondente.
As suposições associadas ao modelo, é feita através da analise dos resíduos:
1.
Os erros tem média zero e a mesma variância 2;
2.
Os erros são independentes, ou seja, um valor de um erro não depende
de qualquer outro erro;
3.
Os erros têm distribuição normal.
Logo, os erros são iid N(0, 2).
Verificação da Adequação do Modelo
• Suposição de Independência
Gráfico de Resíduos vs Ordem
• Suposição de Igualdade de Variância
Gráfico de Resíduos vs Médias dos Tratamentos
• Suposição de Normalidade
Gráfico de Probabilidade Normal
Exemplo
Um trabalho no periódico Journal of the Association of Asphalt Paving
Technologists (Vol. 59, 1990) descreve um experimento com o ojbetivo de
determinar o efeito de bolhas de ar sobre a percentagem da resistência residual
do asfalto. Para finalidades do experimento, bolhas de ar são controladas em
três níveis: baixo (2-4%), médio (4-6%) e alto (6-8%). Os dados são mostrados
na seguinte tabela:
Bolhas de Ar
Resistência Residual (%)
Baixa
106
90
103
90
79
88
92
95
Média
80
69
94
91
70
83
87
83
Alta
78
80
62
69
76
85
69
85
Os diferentes níveis de bolhas de ar afetam significativamente a resistência
média ?
Boxplot
Boxplot of resistencia vs Niveis
110
resistencia
100
90
80
70
60
Alta
Baixa
Niveis
Média
1 – Passo: Formulação das Hipóteses
2 – Passo: Fixar o nível de significância do teste e encontrar o valor
de F_tab com 2 g.l no numerador e 21 g.l no denominador.
Logo o valor tabela foi encontrado como
Tabela F
Ftab
3 – Passo: Definir a região crítica e a região de não rejeição:
4 – Passo: O cálculo da Estatística de Teste:
Fcal
QM trat

QM erro
Para encontrarmos o F calculado, será criada uma tabela de análise de variância.
A soma quadrática entre tratamentos é:
A soma quadrática do erro é obtida pela subração como:
5 – Passo: Conclusão
Ao nível de 1% de significância existem evidências amostrais que nos levam a
rejeição da hipótese nula, ou seja, os diferentes níveis de bolhas de ar afetam
significativamente a resistência média retida.
Podemos também encontrar um valor P para essa estatística de teste.
Já que p=0,001 e menor que 0,01, temos evidencias que nos levam a rejeição
de Ho
Tabela da ANOVA
O gráfico ao lado mostra a região
crítica ao nível de 1% de significância,
e a região de não rejeição ao nível de
99% de confiança. É possível vermos
o p-valor calculado manualmente. O
MINITAB, obtém o mesmo resultado.
Estimação Pontual
Com o objetivo de obter mais informações sobre a diferença existente nos
efeitos da bolha de ar sobre a percentagem da resistência residual do
asfalto, calculou-se as seguintes estimativas para os parâmetros de
interesse:
Interval Plot of resistencia vs Niveis
95% CI for the Mean
100
95
resistencia
90
85
80
75
70
Alta
Baixa
Niveis
Média
Diferenças entre as Resistências médias residuais por níveis:
Intervalos de Confiança para a diferença entre médias
Se o intervalo contiver o valor zero, podemos concluir com 100(1-alpha)% de
confiança que não há diferença estatisticamente significativa entre as médias
consideradas.
Baixo e Médio
O intervalo contém o valor zero, o que nos leva a concluir com 99% de
confiança que a média da resistência Residual Baixa não difere
estatísticamente da resistência Residual Média.
Baixo e Alta
Como o intervalo não contém o zero, rejeita-se a hipótese nula, ou seja,
podemos concluir com 99% de significância que a média da resistência
residual baixa é maior que a média da resistência residual alta.
Média e Alta
Como o intervalo contém o zero, o que nos permite concluir com 99% de
confiança que a resistência residual média não difere estatisticamente da
resistência residual alta.
Método de Comparações Múltiplas
Método de Duncan
1 – Passo: Médias em Ordem Crescente
2 – Passo: Calcular o desvio padrão
3 – Passo: Ver valor tabelado de Duncan
4 – Passo: Calcular as amplitudes
significativas mínimas (Rp)
5 – Passo: Testar as diferenças observadas
entre as médias
6 – Passo: Conclusão
A partir da utilização do Método de Duncan, foi possível concluir com 99% de
confiança que a média de Resistëncia Residual para os níveis MÉDIA e ALTO
são equivalentes e INFERIORES a dureza média da resistência residual para
o nível BAIXO.
Suposições do Modelo
Residual Plots for resistencia
Normal Probability Plot of the Residuals
Residuals Versus the Fitted Values
99
10
Residual
Percent
90
50
10
1
-10
-20
-10
0
Residual
10
20
75
Histogram of the Residuals
85
Fitted Value
90
95
10
3
Residual
Frequency
80
Residuals Versus the Order of the Data
4
2
1
0
0
0
-10
-12
-8
-4
0
4
Residual
8
12
2
4
6
8 10 12 14 16 18 20 22 24
Observation Order
Referência:
Analysis of Variance Tables Based on Experimental Structure
C. J. Brien, Biometrics, Vol. 39, No. 1 (Mar., 1983), pp. 53-59
FISHER, R. A. The logic of inductive inference. J. R. Stat. Soc., v.98, p.34-54,
1935.
MONTGOMERY, D.C. 1988. Design and analysis of experiments. 2nd. John Wiley
& Sons, New York, USA.
SNEDECOR, C.W. and W.G. COCHRAN, 1980. Statistical Methods. 7ed. Iowa
State University Press, Amer. Iowa. USA.
FISHER, R.A. Statistical Methods for Research Workers. 11ª ed. Oliver & Boyd,
Edinburgo. 1950.
Gamerman, D. & Migon, H. (1993). Inferência estatística: uma abordagem
integrada, Textos de métodos matemáticos, UFRJ.
James F. Reed III: Analysis of Variance (ANOVA) Models in Emergency Medicine.
The Internet Journal of Emergency and Intensive Care Medicine. 2004. Volume 7
Number 2. http://www.ispub.com/ostia/index.php?xmlFilePath=journals/ijeicm/vol7n2/anova.xml