Analysis of Variance
Wagner Oliveira de Araujo
Technical Report
- RT-MSTMA_001-09 - Relatório
Técnico
April - 2009 - Abril
The contents of this document are the sole responsibility of the authors.
O conteúdo do presente documento é de única responsabilidade dos autores.
Mestrado Sociedade, Tenologia e Meio Ambiente
Centro Universitário de Anápolis
www.unievangelica.edu.br
Analysis of Variance
Wagner Oliveira de Araujo ∗
[email protected]
Clarimar Jose Coelho †
[email protected]
Resumo. Este meta-artigo descreve uma síntese da Análise Univariada de Variância,
técnica estatística para determinar, com base em uma medida dependente, se várias
amostras são oriundas de populações com médias iguais.
1 Introdução
• A análise da variância é uma técnica que pode ser usada para determinar se as médias de
duas ou mais populações são iguais. ANalysis Of Variance (ANOVA);
• Permite determinar se as médias de 2 ou mais populações são iguais.
• População: o grupo (universo) do qual se extrai a amostra
• Amostra: parcela do grupo examinada
• Suposições:
– As amostras devem ser aleatórias e independentes
– As amostras devem ser extraídas de populações normais
– As populações devem ter variâncias iguais, isto é:
σ12 = σ32 = σ22 = . . . = σk2
Observações:
Média
y=
n
X
yi
i=1
Variância =
n
s2 =
Covariância =
Pn
Sxy =
∗
†
1 X
(yi − y)2
n − 1 i=1
i=1 (xi yi
− nx y)
n−1
Mestrando em Sociedade, Tecnologia e Meio Ambiente – Responsável pelo texto do artigo.
Orientador, Centro Universitário de Anápolis – UniEVAGÉLICA
1
(1)
2
Tabela 1: Dados de Quilometragem
Tipos de Gasolina
Observação
1
2
3
4
1
15,1
14,9
15,4
15,6
2
15,0
15,2
15,2
15,5
3
14,9
14,9
16,1
15,8
4
15,7
14,8
15,3
15,3
5
15,4
14,9
15,2
15,7
6
15,1
15,3
15,2
15,7
Médias Amostrais
15,2 15,0
15,4
15,6
Variâncias Amostrais 0,088 0,040 0,124 0,032
Tabela 2: Extrai-se uma amostra de cada população e, para cada uma delas, calcula-se a média
e a variância.
População 1 População 2 População 3 População k
Parâmetros desconhecidos
µ1
µ2
µ3
µk
σ1
σ2
σ3
σk
↓
↓
↓
↓
Estatística Amostral
x1
x2
x3
xk
s21
s22
s23
s2k
• Duas hipóteses possíveis:
– H0 : as médias das populações são todas iguais (nula);
– H1 : as médias das populações não são iguais (alternativa).
• Se a hipótese nula for verdadeira: diferenças devidas à variações aleatórias nas amostras
• Caso contrário as diferenças são muito grandes para serem causadas apenas devido a
aleatoriedade
• Fundamentos lógicos:
– Se H0 é verdadeira: conceitualmente idêntico a uma situação em que todas as amostras tenham sido tiradas de uma única população
– Se H0 é "falsa": as amostras vêm de populações com médias diferentes (mas normais e com variâncias iguais)
• Variância populacional é a média das variâncias amostrais.
– Variância "dentro":
s2 +s2 +s2 +s2 +...+s2
k
Sw2 = 1 2 3K 4
2
s1 = variancia da amostra 1
s22 = variancia da amostra 2
..
.
s2k = variancia da amostra k
K = numero de amostras
3
Veja Tabela 1 página 2
Sw2 =
0,088 + 0,040 + 0,124 + 0,032
4
• Estimativa "dentro"da variância não é afetada pela veracidade de H0 => não pode ser
usada sozinha para julgar se as médias populacionais são iguais;
• Estimativa "entre"da variância é sensível às diferenças das médias populacionais.
• Desvio padrão da distribuição amostral é:
– σx =
σx
√
n
• σx => desvio padrão da população
• n = tamanho da amostra
• Não conhecemos o desvio padrão da distribuição amostral, neste caso, usa-se o desvio
padrão da distribuição da qual se extraiu a amostra;
• A determinação da variância das médias amostrais possibilita estimar a variância da distribuição da qual se extraiu a amostra.
– Sx2 =
Sb2
n
• Estimativa "entre"da variância (Sb ): Veja Tabela 1 página 2
• Calcular a média das médias amostrais:
P
– x = kj=1 xj = 15,2 + 15,0 +4 15,4 + 15,6 = 15, 3
• Calcular Sx2
– Sx2 =
Pk
2
j=1 (xj −x)
k−1
=
(15,2−15,3)2 +(15,0−15,3)2 +(15,4−15,3)2 +(15,6−15,3)2
4−1
• Sendo n o número de amostras (observações) teremos:
– Sb2 = ns2x = 6(0, 067) = 0, 402
• Comparando com a variância "dentro":
– Sw2 = 0, 071
• Sb2 > Sw2
– 0, 402 > 0, 071
• Temos então 2 estimativas da variância populacional.
– Se H0 é verdadeira Sb2 ∼
= Sw2
– Se H0 é falsa Sb2 > Sw2
= 0, 067
4
Figura 1: Teste de hipótese
• No nosso exemplo sabemos que Sb é maior, mas não sabemos se é significativamente
maior (a variação casual devida a amostragem pode ser responsável por isso).
• Calculemos então a razão F : Razão F =
Sb2
2
Sw
• O valor obtido com a estatística é comparado com uma tabela de valores F
• As formas da distribuição F variam de acordo com os graus de liberdade do numerador e
denominador. Ver Figura 2
Figura 2: Grau de liberdade do numerador e denominador
• Os graus de liberdade são calculados como:
– Numerador: número de amostras menos 1 (k − 1)
– Denominador: número de amostras x (tamanho da amostra -1) {k[n − 1]}
– Exemplo:
(k−1)
{k[n−1]}
=
4−1
4(6−1)
=
3
20
• Utilização da tabela F
– Representam a linha divisória entre o aleatório e o não aleatório;
– Compara-se a razão F calculada com o valor tabelado
– Se o valor calculado for maior que o tabelado rejeitasse a hipótese nula. Ver Figura
3
5
Figura 3: Rejeitando a hipótese nula
Figura 4: Maior que o tabulado
• Lembrando . . . F =
Sb2
2
Sw
=
0,402
0,071
= 5, 661 ≈ 5, 70
• Este valor é maior que o tabulado => rejeita-se H0 . Ver Figura 4
• Atualmente os programas estatísticos fornecem diretamente o valor p
Tabela 3: Fontes
Fonte de variação
Soma de quadrados G.L.
Variância Razão F
Pk
2
2
entre médias
n j=1 (xj − x)
÷k−1
= Sb2
F = SS2x
w
dentro de amostras
÷ k(n − 1) = Sw2
Total
kn − 1
k = número de amostras
n = número de observações em cada amostra
nk = número total de
observações
Nota: i se refere às linhas, e j às colunas
1.1 Utilizando Matlab
Utilizaremos o software Matlab 6.5 para gerar os resultados de nosso exemplo.
6
Tabela 4: Exemplo de tabela amostral
Amostra
Observações
1
2
3 ...
n1
x1 x1 x1 . . . x1
n2
x2 x2 x2 . . . x2
n3
x3 x3 x3 . . . x3
..
..
..
..
n4
.
.
.
.
n5
n6
Médias Amostrais
xn
x1
xn
x2
xn
x3
...
...
xn
xk
X=[15.1,14.9,15.4,15.6;
15.0,15.2,15.2,15.5;
14.9,14.9,16.1,15.8;
15.7,14.8,15.3,15.3;
15.4,14.9,15.2,15.7;
15.1,15.3,15.2,15.7]
p = anova1(X)
Resultado produzido no MatLab:
16
15.8
Values
15.6
15.4
15.2
15
14.8
1
2
3
Column Number
(a) Execução de resultados
(b) Plotagem do gráfico
Figura 5: Resultado da execução juntamente com o gráfico
4
7
Referências
FREUND, J. E.; SIMON, G. A. Estatística Aplicada: economia, administração e contabilidade. 9.ed. Porto Alegre: Bookman, 1997.
HAIR, J. F.; ANDERSON, R. E.; TATHAM, R. L.; BLACK, W. C. Multivariate Data Analsys.
5.ed. New Jersey-USA: Prentice-Hall, 1998.
MANLY, B. J. F. Métodos Estatísticos Multivariados: uma introdução. 3.ed. Porto Alegre:
Bookman, 2005.
RENCHER, A. C. Methods of Multivariate Analysis. 2.ed. Nova York: John Wiley & Sons,
Inc, 2002.
STEVENSON, W. J. Estatística: aplicada à administração. 1.ed. São Paulo: HARBRA, 2001.
Download

Analysis of Variance Wagner Oliveira de Araujo Mestrado