Universidade Federal de Alagoas
Centro de Tecnologia
Estatística
Aula 23
Prof. Marllus Gustavo Ferreira Passos das Neves
Aula 23

Teste de Hipóteses para 3 ou mais médias:
ANOVA fator único
Inferência sobre 3 ou mais médias
Objetivo: dadas 3 ou mais amostras, verificar a
hipótese de igualdade de 3 ou mais médias
populacionais
Suponha que a equipe de engenheiros de uma fábrica
de papel desconfia que a porcentagem (concentração)
de madeira de lei na fabricação aumenta a
resistência à tensão.
Eles resolvem fazer experimentos com 4 níveis de
concentração: 5%, 10%, 15% e 20%, fabricando 6
corpos de prova para cada nível, totalizando 24
corpos de prova
Inferência sobre 3 ou mais médias
O quadro abaixo o experimento com os resultados
Observações
Concentração de madeira de lei
5%
10%
15%
20%
1
7
12
14
19
2
8
17
18
25
3
15
13
19
22
4
11
18
17
23
5
9
19
16
18
6
10
15
18
20
Médias
10,00
15,67
17,00
21,17
Neste tipo de
experimento, há um
único fator 
concentração de
madeira de Lei.
O fator no nosso exemplo possui 4 níveis  chamados de
tratamentos
Cada tratamento teve 6 observações  6 replicatas
Inferência sobre 3 ou mais médias
A pergunta a ser respondida: o nível do fator ou os
diferentes tratamentos fazem melhorar a
resistência à tensão do papel?
Outro Exemplo: testar a hipótese de que o CRs
acumulados médios dos alunos de engenharia são
diferentes para 3 diferentes populações: iniciantes,
intermediários e concluintes.
Os dados estão a seguir  amostras de tamanhos
iguais a 30
Quem é o fator? Quem são os tratamentos?
Inferência sobre 3 ou mais médias
População/
estatística
Iniciantes
Intermediários
Concluintes
30
30
30
Média
amostral
6,564
6,736
7,105
s
1,739
1,148
1,041
n
Hipóteses:
H0: m1 = m2 = m3 = ...
H1: pelo menos uma é diferente das demais
Usaremos a chamada análise de variância
(ANOVA)  médias muito diferentes
ocasionam variância entre elas alta
Inferência sobre 3 ou mais médias
Ideia geral do teste: como se supõe que as
populações têm variâncias iguais, ou seja,
s12 = s22 = s32 = ... = s2, estimamos s2 com 2
abordagens diferentes.
Com a estatística F descobriremos se estas 2
abordagens possuem estimativas muito direfentes 
F alto ou parecidas  F próximo de 1. O 1º caso será
evidência em favor de H1 e o 2º caso em favor de H0
Quais são as 2
abordagens?
Variância entre amostras (variância
devido ao tratamento)
Variância dentro das amostras
(variância devido ao erro)
Inferência sobre 3 ou mais médias
F 
variância
variância
entre amostras
dentro das amostras
Médias muito diferentes ocasionam variância entre elas alta
(variância entre amostras)  F alto  Região de rejeição 
rejeitamos H0  evidência contra a igualdade de médias
Médias parecidas ocasionam variância entre elas baixa
(variância entre amostras)  F baixo  Região de não
rejeição  não rejeitamos H0  evidência a favor da
igualdade de médias
População/estatística
Iniciantes
Intermediários
Concluintes
30
30
30
Média amostral
6,564
6,736
7,105
s
1,739
1,148
1,041
n
numerador
denominador
Inferência sobre 3 ou mais médias
Suposições:
1) As amostras são independentes umas das outras;
2) As populações têm distribuições que são
aproximadamente normais
3) As populações têm a mesma variância (exigência
leve  tamanhos de amostras iguais podem ter
variâncias bem diferentes: a maior ser até 9
vezes a menor  os resultados ainda são
confiáveis)
4) Amostras aleatórias
5) As amostras são de populações que são
categorizadas de uma só maneira
Aplicações
Exemplo (continuação): testar a hipótese de que o
CRs acumulados médios dos alunos de engenharia são
diferentes para 3 diferentes populações: iniciantes,
intermediários e concluintes.
População/estatística
Iniciantes
Intermediários
Concluintes
30
30
30
Média amostral
6,564
6,736
7,105
s
1,739
1,148
1,041
n
2
ns X  30  0,0764  2,292
2
sp 
(1,739)
2
 (1,148)
3
2
 (1,041)
2
 1,808
numerador
denominador
Aplicações
2
F
ns X
s
2
p

2,292
1,808
 1,268
Como sempre  achar o valor crítico de F da tabela
Para a = 0,05 e graus de liberdade:
glnumerador = k – 1 = 3 – 1 = 2
gldenominador = k.(n – 1) = 3.(30 – 1) = 87
onde k é o no de amostras e n o tamanho das
amostras (por enquanto o mesmo para todas elas)
Aplicações
A tabela não possui 87, mas sim 60 e 120, cujos
valores são 3,1504 e 3,0718. Tomando o valor médio,
temos
Fc = 3,111
Como F = 1,268 < Fc = 3,111
não há evidência estatística suficiente, ao nível de
significância de 5%, para afirmar que as 3 médias
sejam diferentes
Inferência sobre 3 ou mais médias
Esse foi o caso da aplicação da ANOVA de um
critério ou ANOVA de fator único, pois usamos uma
única característica ou propriedade para categorizar
populações. Essa característica é, algumas vezes
chamada de tratamento ou fator.
Outra observação: os tamanhos das amostras foram
iguais, o que facilitou bastante o cálculo e o
entendimento
A seguir veremos como fica o caso de amostras com
tamanhos diferentes
ANOVA fator único: amostras de tamanhos diferentes
Para o caso de amostras com tamanhos diferentes,
também usamos a estatística F como a razão entre
duas estimativas diferentes da variância populacional
comum s2, mas agora elas envolvem medidas
ponderadas


2


n x -x
 i i
 Variação entre as médias das


amostras (tratamento)
k -1


F 
  (n i  1)s i2 

  Variação dentro das amostras (erro)
  (n i  1) 
ANOVA fator único: amostras de tamanhos diferentes
Média de todos os valores
x
amostrais combinados


2


n x -x
 i i



k -1


F 
  (n i  1)s i2 


  (n i  1) 
k
No de médias populacionais sendo
comparadas
ni No de valores da i-ésima amostra
xi
s
2
i
Média dos valores da i-ésima
amostra
Variância dos valores da i-ésima
amostra
ANOVA fator único: amostras de tamanhos diferentes
Suponhamos 3 amostras (tabela abaixo)
Amostra 1
Amostra 2
Amostra 3
a1
b1
c1
a2
b2
c2
b3
x
n1 = 2
n2 = 3
n3 = 2
x1
x2
x3
2
1
2
2
s3
s
x
s
2
k = 3  3 médias
populacionais sendo
comparadas: m1, m2 e m3
 médias amostrais
 variâncias amostrais
a 1  a 2  b1  b2  b3  c1  c2
n1  n 2  n 3
=7
média de todos
os valores amostrais
combinados
ANOVA fator único: amostras de tamanhos diferentes
Suponhamos 3 amostras (tabela abaixo)
Amostra 1
Amostra 2
Amostra 3
a1
b1
c1
a2
b2
c2
x
b3
n1 = 2
n2 = 3
n3 = 2
x1
x2
x3
 n x
i

i
-x


2
 n1 x1 - x
2
x
  n x
2
2
7

e
2
a 1  a 2  ...  c2  c3
2
2
2
s2
s1
-x
  n x
2
s3
2
3
2
3
-x

2
2
(n i  1)s i  (n 1  1)s 1  (n 2  1)s 2  (n 3  1)s 3
 (n
i
 1)  (n 1  1)  (n 2  1)  (n 3  1)

2


n
x
x
 i i



k -1


F 
  (n i  1)s i2 


(n

1)
  i

ANOVA fator único: amostras de tamanhos diferentes
Há uma nomenclatura para estes somatórios
 n x
i
i
-x

2

 n1 x1 - x
  n x
2
2
2
-x
  n x
2
3
3
-x

2
 SQ(tratame
nto)
ou SQ(entre amostras) ou SQ(entre grupos) ou SQ(fator)

2
2
2
2
(n i  1)s i  (n 1  1)s 1  (n 2  1)s 2  (n 3  1)s 3  SQ(erro)
ou SQ(dentro das amostras)
onde SQ = Soma dos quadrados
Dividindo SQ(tratamento) e SQ(erro) por seus
respectivos graus de liberdade  MQ(tratamento) e
MQ(erro)
onde MQ = Média quadrática
ANOVA fator único: amostras de tamanhos diferentes
MQ(tratame
nto) 
MQ(erro)

SQ(tratame
nto)
k 1
SQ(erro)
N -k
onde N = n1 + n2 + n3  no total de valores em todas
as amostras combinadas
 (n
i
 1)  (n 1  1)  (n 2  1)  (n 3  1)  N - 3
k do nosso exemplo
ANOVA fator único: amostras de tamanhos diferentes
Então para testarmos a hipótese de diferenças de 3
ou mais médias
H0: m1 = m2 = m3 = ...
H1: pelo menos uma é diferente das demais
Estatística de teste: F 
F
MQ(entre
MQ(dentro
MQ(tratame
nto)
MQ(erro)
amostras)
das amostras)
 gl = k - 1
 gl = N - k
ANOVA fator único: amostras de tamanhos diferentes
Este tipo de teste costuma ser feito com o auxílio da
tabela ANOVA
Col 1
Col 2
Col 3
Col 4
Col 5
Fonte de
variação
Soma dos
Quadrados
(SQ)
Graus de
liberdade
Média Quadrática
(MQ)
Estatística
de teste F
k-1
Num = Col 2/Col 3
N-k
Den = Col 2/Col 3
Tratamento
 n x
Erro

Total
i
i
-x

2
2
(n i  1)s i
N-1
Num / Den
Aplicações
Um engenheiro ambiental está analisando o efeito da vazão de
um efluente contaminado com chumbo na concentração de
saída do chumbo em um sistema de tratamento. A tabela
abaixo apresenta o resultado dos ensaios realizados com 5
vazões diferentes.
a) Há qualquer diferença na concentração de saída do
chumbo devido à variação na vazão? Use a = 0,05
Aplicações
Uso do Statdisk
Aplicações
Aplicações
Revisitando o teste dos CRs acumulados
Universidade Federal de Alagoas
Centro de Tecnologia
Estatística
Aula 23
Prof. Marllus Gustavo Ferreira Passos das Neves
Download

ANOVA fator único: amostras de tamanhos diferentes