Normalidade dos dados e dos resíduos
1. Teste de aderência (qui-quadrado)
ƒ
útil para verificar se a distribuição das freqüências observadas dos dados se ajusta a um
modelo teórico pré-determinado
ƒ recomendado para amostras grandes ( n > 50 ) e tem por finalidade comparar se as
freqüências observadas na amostra estão próximas das freqüências esperadas para a
distribuição normal.
ƒ Se as freqüências esperadas não diferirem estatisticamente das freqüências observadas,
pode-se inferir que a característica em estudo da população tem distribuição normal; de
outra maneira, possui distribuição diversa.
ƒ O teste que mede a eficiência do ajuste da distribuição, ou seja, o quanto a freqüência
observada está próxima da freqüência esperada, daí o nome de aderência, é o teste de quiquadrado ( χ 2 ). Como todo teste estatístico, alguns passos devem ser seguidos até à
conclusão.
1o Passo: Formulação das hipóteses
Ho : As freqüências observadas não diferem das freqüências esperadas em relação à distribuição
normal, ou seja, a característica em estudo da população tem distribuição normal.
H1 : As freqüências observadas diferem das freqüências esperadas em relação à distribuição normal,
ou seja, a característica em estudo da população não tem distribuição normal.
2o Passo: Escolha da significância α
3o Passo: Estatística apropriada
χ c2
( f i − fˆi ) 2
;
=∑
i =1
fˆ
k
para v = k – p – 1, onde: f i : freqüência observada na i-ésima classe; fˆi :
i
freqüência esperada na i-ésima classe; v : graus de liberdade; k : número de classes da distribuição
de freqüência; p : número de parâmetros estimados.
4o Passo: Região crítica
Figura 2.1. Distribuição qui-quadrado ( χ 2 ) mostrando as regiões de aceitação (RAH0) e rejeição
(RRH0) de Ho de um teste unilateral à direita, à significância α e v graus de liberdade.
5o Passo: Conclusão
Quando o valor da estatística apropriada χ c2 estiver dentro da região de aceitação de Ho
(Figura 2.1), a característica em estudo da população seguirá a distribuição normal. Isto ocorrerá
quando χc2 < χt2 , onde χt2 é o valor crítico obtido na tabela em função da significância α e v graus
de liberdade; caso contrário, rejeita-se Ho.
1o Exemplo: Para a realização do teste, a etapa inicial é encontrar os valores da média e do desvio
padrão da amostra para os dados agrupados na distribuição de freqüência. Para ilustrar o cálculo,
serão utilizados os dados da tabela 2.1, que se referem à distribuição de freqüência da massa da
matéria fresca de sementes de Vicia graminea Sm.
17
Tabela 2.1. Distribuição de freqüência da massa da matéria fresca (mg) de uma amostra de 500
sementes de Vicia graminea Sm.
Massa (mg)
xi (a)
f i (b)
1,25 ├ 1,75
1,75 ├ 2,25
2,25 ├ 2,75
2,75 ├ 3,25
3,25 ├ 3,75
3,75 ├ 4,25
4,25 ├ 4,75
4,75 ├ 5,25
5,25 ├ 5,75
5,75 ├ 6,25
6,25 ├ 6,75
Total
1,5
2,0
2,5
3,0
3,5
4,0
4,5
5,0
5,5
6,0
6,5
1
3
14
74
119
155
91
26
12
4
1
500
xi2
2,25
4,00
6,25
9,00
12,25
16,00
20,25
25,00
30,25
36,00
42,25
f i xi
1,5
6,0
35,0
222,0
416,5
620,0
409,5
130,0
66,0
24,0
6,5
1.937,0
f i xi2
2,25
12,00
87,50
666,00
1.457,75
2.480,00
1.842,75
650,00
363,00
144,00
42,25
7.747,50
k
(a) Ponto médio da classe; (b) Freqüência observada, sendo:
∑ fi = n .
i =1
k
x=
∑ f i xi
i =1
k
∑ fi
=
1.937,0
= 3,874 ≅ 3,9 mg , onde: xi : ponto médio da i-ésima classe; f i : freqüência
500
i =1
observada da i-ésima classe; k : número de classes da distribuição de freqüência.
k
k
2
∑ f i xi −
( ∑ f i xi ) 2
i =1
n
243,562
= 0,699 ≅ 0,7 mg , onde: xi : ponto médio da i-ésima classe;
499
n −1
f i : freqüência observada da i-ésima classe; x : média da amostra; k : número de classes da
distribuição de freqüência; n : tamanho da amostra.
s=
i =1
=
Tabela 2.2. Distribuição das freqüências observadas e esperadas da massa da matéria fresca (mg) de
uma amostra de 500 sementes de Vicia graminea Sm.
(5)
(3)
(4)
(2)
(1)
(6)
ˆ
ˆ
fi
Probabilidade
Li
Massa (mg)
zi
fi
fr
1,25
1,25 ├ 1,75
1,75
1,75 ├ 2,25
2,25
2,25 ├ 2,75
2,75
2,75 ├ 3,25
3,25
3,25 ├ 3,75
3,75
3,75 ├ 4,25
4,25
4,25 ├ 4,75
4,75
4,75 ├ 5,25
5,25
5,25 ├ 5,75
5,75
5,75 ├ 6,25
6,25
6,25 ├ 6,75
Total
x = 3,9 mg; s = 0,7 mg
-3,78
-3,07
-2,36
-1,64
-0,93
-0,21
0,50
1,21
1,93
2,64
3,36
0,4999
0,4989
0,4909
0,4495
0,3238
0,0832
0,1915
0,3869
0,4732
0,4959
0,4996
0,0010
0,0080
0,0414
0,1257
0,2406
0,2748
0,1954
0,0863
0,0227
0,0037
0,0004
1,0000
0,50
4,00
20,70
62,85
120,30
137,40
97,70
43,15
11,35
1,85
0,20
500
1
3
14
74
119
155
91
26
12
4
1
500
18
(1) Valor do limite inferior ( Li ) da classe de massa da matéria fresca.
L −x
.
(2) Valores de zi calculados segundo a expressão z i = i
s
(3) Valores de probabilidades (áreas) obtidas na tabela A1 a partir dos valores de zi (coluna 2),
considerando-se zi como valor absoluto na entrada da tabela.
(4) Valores das freqüências relativas esperadas ( fˆr ). Para todos os intervalos de classe, com
exceção da classe que contém a média, as freqüências relativas esperadas da classe são
calculadas pela diferença absoluta entre a probabilidade da classe e a imediatamente posterior.
Então, para se obter a freqüência relativa esperada da classe 2,25├ 2,75, calcula-se 0,49090,4495 = 0,0414. Para obter a freqüência relativa esperada da classe que contém a média (3,75├
4,25), somam-se os valores de probabilidade da classe e a imediatamente posterior (0,0832 +
0,1915 = 0,2748). O valor da probabilidade da última classe é obtido pela diferença entre 0,5 e
a probabilidade da classe (0,5000 - 0,4996 = 0,0004).
(5) Valores das freqüências esperadas ( fˆi )para a distribuição normal, obtidos pela multiplicação da
k
freqüência relativa esperada ( fˆr ) e ∑ f i = n . Por exemplo, para se obter a freqüência da classe
i =1
4,75├ 5,25, multiplica-se o valor 0,0863 por 500, obtendo-se 43,15.
(6) Valores das freqüências observadas ( f i ).
Após a obtenção das freqüências observadas na amostra e esperadas da distribuição normal,
o teste pode ser aplicado. Os passos para a execução do teste estão apresentados a seguir.
1o Passo: Formulação das hipóteses
Ho : As freqüências observadas não diferem das freqüências esperadas para distribuição normal, ou
seja, a massa da matéria fresca das sementes na população segue distribuição normal.
H1 : As freqüências observadas diferem das freqüências esperadas da distribuição normal, ou seja, a
massa da matéria fresca das sementes na população não segue distribuição normal.
2o Passo: Significância estabelecida α=0,05
3o Passo: Estatística apropriada
Para calcular o valor de qui-quadrado, Cochran (1954) recomenda que as classes sejam
agrupadas quando a freqüência esperada for menor que 1. Desta forma, um ajuste na distribuição
das freqüências esperadas da tabela 2.5 deve ser realizado. Para o exemplo, a freqüência esperada
da classe 1,25├1,75 que tem o valor 0,5; deve ser agrupada com a freqüência da classe 1,75├ 2,25
que é 4 (Tabela 2.1). Assim, aparecerá uma outra classe com intervalo entre 1,25├ 2,25, cuja
freqüência agrupada é 4,5 (Tabela 2.3). Este mesmo procedimento deve ser adotado para a classe
6,25├ 6,75.
19
Tabela 2.3. Tabela auxiliar para o cálculo do valor do qui-quadrado da massa da matéria fresca (mg)
de uma amostra de 500 sementes de Vicia graminea Sm.
Massa (mg)
f i (a)
1,25 ├ 2,25
2,25 ├ 2,75
2,75 ├ 3,25
3,25 ├ 3,75
3,75 ├ 4,25
4,25 ├ 4,75
4,75 ├ 5,25
5,25 ├ 5,75
5,75 ├ 6,75
Total
4
14
74
119
155
91
26
12
5
500
fˆi (b)
4,50
20,70
62,85
120,30
137,40
97,70
43,15
11,35
2,05
500
( f i − fˆi ) 2 / fˆi
0,056
2,169
1,978
0,014
2,254
0,459
6,816
0,037
4,245
(a) Valores de freqüência observada; (b) Valores de freqüência esperada.
χ c2 = 0,056 + 2,169 + ... + 4,245 = 18,028
4o Passo: Região crítica
Figura 2.2. Distribuição qui-quadrado ( χ 2 ) mostrando as regiões de aceitação (RAHo) e de rejeição
(RRHo) de Ho e os valores calculado e tabelado do teste unilateral à direita para
α = 0,05 e v = 6.
5o Passo: Conclusão
Como o valor calculado χ c2 = 18,028 é maior que o valor tabelado χt2 = 12,592 , para a
significância 0,05 e v=6 graus de liberdade, a hipótese Ho é rejeitada e conclui-se que as freqüências
observadas diferem das freqüências esperadas para a distribuição normal; conseqüentemente, a
massa de matéria fresca na população não segue a distribuição normal.
2.2.3. Teste de Shapiro-Wilk
ƒ
ƒ
também pode ser aplicado para verificar a normalidade da característica em estudo em uma
população
mais indicado quando o tamanho da amostra ou o número de parcelas é menor que 50 ou
quando não há empates.
1o Passo: Formulação das hipóteses
Ho: Os erros (desvios) da característica em estudo seguem a distribuição normal.
H1: Os erros não seguem a distribuição normal.
2o Passo: Escolha da significância α
3o Passo: Estatística apropriada
20
m
g2
;
sendo:
g = ∑ ai ,n (en−i +1 − ei ) ;
SQE
i =1
(n −1)
se n é par e m =
2 se n é ímpar ,
Wc =
m =n 2
n
SQE = ∑ ei2
i =1
e
ei = x i − x ,
onde: ai ,n : coeficientes obtidos na tabela; n : tamanho da amostra ou número de parcelas; SQE :
soma de quadrados do erro ou do resíduo.
4o Passo: Conclusão
Se o valor Wc for menor que o valor crítico Wt obtido na tabela em função do tamanho da
amostra (n) e significância α, rejeita-se a hipótese Ho e conclui-se que a característica em estudo da
população ou os erros não seguem a distribuição normal; caso contrário, aceita-se Ho.
Tabela 2.4. Porcentagem de sementes de Dolichos biflorus L. germinadas em diferentes
temperaturas (Labouriau & Pacheco, 1979).
n=r(c)
Temperatura (oC) (T ± t (0,95) .sT ) (a)
Tratamento(b)
35,0 ± 0,04 (i=1)
37,8 ± 0,04 (i=2)
38,5 ± 0,03 (i=3)
39,2 ± 0,06 (i=4)
j=1
96,0
76,0
72,0
38,0
j=2
100,0
92,0
94,0
30,0
j=3
98,0
88,0
64,0
54,0
j=4
100,0
84,0
82,0
40,0
j=5
96,0
94,0
32,0
42,0
Tabela 2.5. Valores calculados dos erros (ei ) para as porcentagens de sementes de Dolichos biflorus
L. germinadas em diferentes temperaturas.
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
ei
-36,8
-10,8
-10,8
-4,8
-2,8
-2,8
-2,0
-2,0
-0,8
0,0
1,2
1,2
2,0
2,0
3,2
5,2
7,2
13,2
13,2
25,2
Seguindo os passos para a execução do teste, tem-se:
21
1o Passo: Formulação das hipóteses
Ho: Os erros das porcentagens de sementes germinadas de Dolichos biflorus L. se ajustam à
distribuição normal.
H1: Os erros das porcentagens de sementes germinadas de Dolichos biflorus L. não se ajustam à
distribuição normal.
2o Passo: Significância estabelecida α=0,05
3o Passo: Estatística apropriada
Como para o exemplo n é par, então m=10 e o valor de g será dado por:
g = 0,4734 (25,2 + 36,8) + 0,3211 (13,2 + 10,8) + ... + 0,0140 (1,2 − 0,0) = 48,6552 ;
onde os valores dos coeficientes ai , n são obtidos na tabela, em função do tamanho da amostra ou
do número de parcelas.
Para o cálculo da estatística apropriada Wc é necessário obter também a soma dos erros ao
quadrado, ou seja, SQE = 2.718,4 ;
e a estatística apropriada do teste é: Wc = 0,8708 .
4o Passo: Conclusão
Como o valor calculado Wc = 0,8708 é menor que o valor crítico tabelado Wt = 0,905
obtido na tabela para n = 20 e significância α = 0,05; rejeita-se Ho e conclui-se que os erros das
porcentagens de germinação de sementes de Dolichos biflorus L. não seguem a distribuição normal.
Download

Normalidade dos dados e dos resíduos 1. Teste de - IME-USP