AVALIAÇÃO DO PODER E TAXAS DE ERRO TIPO I DO
TESTE DE SCOTT-KNOTT POR MEIO DO MÉTODO DE
MONTE CARLO1
ELOISE CURY DA SILVA2
DANIEL FURTADO FERREIRA3
EDUARDO BEARZOTI3
RESUMO - O Teste de Scott-Knott é um método de
agrupamento usado como alternativa em que procedimentos de comparações múltiplas são recomendados,
com a característica de não apresentar ambigüidade
nos resultados. Como pouco se sabe sobre seu poder
e taxas de erro tipo I, este trabalho tem por objetivo
responder a essas questões. O método de Monte
Carlo foi utilizado para simular experimentos utili-
zando a linguagem Pascal, gerando-se amplas situações experimentais com relação à precisão, número
de tratamentos, número de repetições e nível de significância adotado. A utilização do teste de ScottKnott é recomendada, por possuir poder elevado, taxas de erro tipo I quase sempre de acordo com os níveis
nominais e por apresentar resultados com ausência de
ambigüidade.
TERMOS PARA INDEXAÇÃO: Teste de Scott-Knott, taxas de erro por experimento e por comparação, poder,
simulação.
EVALUATION OF POWER AND TYPE I ERROR RATES OF THE
SCOTT-KNOTT’S TEST BY THE METHOD OF MONTE CARLO*
ABSTRACT - Scott and Knott’s test is a clustering
method used as an alternative where multiple comparison
procedures are applied, with the characteristic of not
presenting ambiguity in the results. As little is known
about its power and type I error rates, this work aimed at
answering these questions. The Monte Carlo method was
used to simulate experiments using the Pascal language,
generating large experimental situations in relationship
of precision, the number of treatments, the number of
replications and the level of significance adopted. Due
the fact of possessing high power, the type I error rate,
almost always was in accordance with the nominal
levels and for presenting results with absence of
ambiguity, use of Scott and Knott’s test was advised.
INDEX TERMS: Scott and Knott's test, comparisonwise, experimentwise, power, simulation.
INTRODUÇÃO
Um grande número de procedimentos de comparações múltiplas tem surgido durante as últimas décadas para comparar médias de tratamentos, quando o
teste F da análise da variância é significativo. Embora
de fácil aplicação e implementados na maioria dos programas estatísticos, os pesquisadores encontram muita
dificuldade de trabalhar com a ambigüidade dos resultados obtidos por esses métodos. Além dessa dificuldade, estão sujeitos a erros, e os principais deles são os erros tipo I e II. O erro tipo II é definido por Mood,
Graybill e Boes (1974) como sendo o erro que se comete ao aceitar a hipótese nula (falsa), quando, na verdade, esta deveria ser rejeitada (β). Já o poder de um
teste é definido como sendo a probabilidade de rejeitar a
hipótese nula Ho, quando ela é falsa (1-β).
Há muitas dificuldades em se comparar o erro
tipo I nos procedimentos de comparações múltiplas
(Carmer e Swanson, 1971), sendo que alguns tipos de
medidas podem ser encontradas na literatura. A razão
entre o número de erros tipo I (concluindo que µi ≠ µj
quando µi = µj) e o número de comparações é definida
como taxa de erro por comparação, chamada de “comparisonwise” e, a razão entre o número de experimentos com um ou mais erros tipo I (concluindo que µi ≠ µj
quando µi = µj) e o número total de experimentos é definido como taxa de erro por experimento, chamada de
“experimentwise” (Steel e Torrie, 1980).
1. Parte da Dissertação de Mestrado apresentada à UNIVERSIDADE FEDERAL DE LAVRAS (UFLA), para obtenção do grau de Mestre.
2. Estatística, MSc. em Agronomia, área de concentração Estatística e Experimentação Agropecuária.
3. Prof. Dr. do Departamento de Ciências Exatas, UFLA - Caixa Postal 37, 37200-000 – Lavras - MG
688
Um estudo em relação ao erro tipo I e poder de
alguns testes de comparações múltiplas, foi feito por
Perecin e Barbosa (1988), que verificaram que as taxas
de erro tipo I para o teste de Duncan eram quase tão
elevadas quanto as do teste t, e que o teste de Tukey
possuía poder muito reduzido. Sendo assim, concluíram
que estes procedimentos não devem ser empregados indiscriminadamente. Observaram que o teste t-bayesiano
concilia, de certa forma, as características desejáveis de
poder alto e baixas taxas de erro tipo I. Entretanto,
como dependem do número de tratamentos e da magnitude de seus efeitos, essas taxas não podem ser previstas com exatidão. E o procedimento Newman-Keuls
é o que pode ser aplicado sem maiores cuidados, pois
possui poder muito superior e taxas de erro tipo I similares às de Tukey.
Entre os procedimentos encontrados no referido
estudo, está o chamado, por eles, de Newman-Keuls
modificado. No teste original de Newman-Keuls, não se
consideram diferenças significativas entre médias que
estão entre duas outras, cuja diferença é não significativa, a partir de médias de tratamentos ordenadas. Neste
trabalho, quando não foi considerado este fato, o procedimento foi chamado de Newman-Keuls modificado.
Utilizando simulação de Monte Carlo, Bernhardson
(1975) realizou um estudo baseado em 1.000 experimentos com n = 15 e nível nominal de significância de 5%.
Cada população distribuída normalmente com média 50 e
desvio padrão 15. O número de tratamentos foi p variando
de 2(2)10, (de 2 a 10, variando de 2 em 2).
Concluiu-se que à medida que o número de tratamentos aumentou, os procedimentos HSD, SNK e de
Scheffé, quanto à taxa de erro por comparação, tenderam a ficar muito abaixo do nível nominal adotado. O
procedimento de Duncan teve suas taxas menores também, mas em menor escala, e o LSD permaneceu oscilando em torno do nível nominal de 5%. Quanto à taxa
de erro por experimento, o procedimento de Scheffé
teve comportamento semelhante ao da taxa de erro por
comparação; o HSD e SNK se igualaram em torno do
nível nominal adotado; o método de Duncan ficou próximo a 35% para n = 10 e o LSD para este mesmo n
ultrapassou 60%.
Em estudos de desempenho de testes estatísticos, muitas vezes torna-se bastante complicado obter,
analiticamente, informações sobre as taxas de erro tipo
I e poder do teste. Uma maneira de se obter as informações desejadas de maneira eficiente é através do método
de Monte Carlo, fazendo com que resultados possam
ser obtidos de maneira mais simples, evitando as dificuldades analíticas, (Smith e Gelfand, 1992).
Fazendo-se a comparação entre os valores encontrados analiticamente e os valores encontrados pelo
método de Monte Carlo, Boardman e Moffitt (1971)
concluíram que a diferença encontrada é muito pequena, o que faz deste método um ótimo procedimento para
este fim. Os resultados encontrados por eles são extremamente semelhantes aos encontrados por Bernhardson (1975), o que, mais uma vez, traz evidências
favoráveis à sua utilização como ferramenta útil na
compreensão de procedimentos para se comparar médias de tratamentos.
A literatura é ampla no que diz respeito a testes
de comparações múltiplas, o que facilita a sua aplicação
por pesquisadores de diferentes áreas. Contudo, muitas
vezes torna-se difícil a interpretação dos resultados por
não apresentarem uma real separação de grupos de médias devido à ambigüidade nos resultados. Com o objetivo de eliminar essa ambigüidade, foram apresentados
na literatura métodos aglomerativos, como o é caso do
procedimento proposto por Scott e Knott (1974).
O presente trabalho teve por objetivo avaliar o
poder e as taxas de erro tipo I do teste proposto por
Scott e Knott (1974), em amplas situações experimentais com relação à precisão, número de tratamentos,
número de repetições e nível de significância adotado,
através de simulação de Monte Carlo.
METODOLOGIA
Através de um programa implementado em Pascal, foram simulados 192.000 experimentos em uma
primeira etapa e 60.000 numa segunda, num total de
252.000 experimentos. Para isso, geraram-se dados de
experimentos, seguindo-se o modelo:
yij = µ + ti + eij
em que:
yij representa uma resposta simulada obtida do tratamento i na repetição j; µ é a média geral arbitrada
como 100 (sem perda de generalidade); ti é o efeito do
i-ésimo tratamento (Σti = 0); e eij (i = 1, 2, ..., p; j = 1,
2, 3,... ,r) é o erro aleatório, gerado independentemente
com distribuição normal com média zero e desvios padrões determinados a partir de diferentes precisões.
As simulações foram feitas gerando-se 2000 experimentos para cada situação em duas etapas:
Etapa A
As simulações foram feitas para as diversas
combinações entre o número de tratamentos (p = 5, 10,
20 e 80), o número de repetições (r = 4, 10 e 20), o nível
nominal de significância α igual a 1% e 5%, e os coeficientes de variação iguais a 1%, 10%, 20% e 30%.
Nessa etapa, os dados foram gerados com o interesse específico de estudar as taxas de erro por compa-
Ciênc. agrotec., Lavras, v.23, n.3, p.687-696, jul./set., 1999
689
ração e por experimento. Por isso, foi considerada a
não-existência de efeito de tratamento, aqui referenciada como situação de nulidade completa:
µi = µ (∀ i = 1, 2, …, p).
O teste de Scott-Knott foi aplicado a todos os
2.000 experimentos gerados em cada situação e foram
computados os valores das taxas de erro tipo I. Para decidir se estas eram semelhantes aos níveis nominais
estabelecidos, calculou-se um limite máximo para que
estes valores pudessem assumir. Este limite foi estabelecido utilizando-se o intervalo de confiança exato para
proporções (Leemis e Trivedi, 1996). Os limites superiores encontrados para α igual a 1% e 5% são
1,727044% e 6,391386%, respectivamente, e os inferiores são 0,518787% e 3,828164%. Assim, os valores que
superaram esses limites não foram considerados semelhantes aos níveis nominais de significância.
Etapa B
Nesta segunda etapa, as simulações foram feitas
para as diversas combinações entre o número de tratamentos (p = 5, 10, 20 ,40 e 96), mesmo número de repetições e níveis nominais de significância da etapa A,
com diferença entre tratamentos adjacentes, quando
esta existia, igual a dois erros padrão da média (2 σ x ).
O erro padrão é dado por σ x = σ / n . Neste caso, o
C.V. foi fixado em 10%, uma vez que os efeitos de tratamentos eram vinculados ao erro padrão da média.
Esta etapa, agora referenciada como situação de
nulidade parcial,
µ1 = µ2 ≠ µi (∀ i = 3, 4, …, p),
foi assim estabelecida para que pudessem ser gerados
dados que trouxessem informações sobre o poder e a
taxa de erro tipo I, quando em presença de tratamentos
com efeitos diferentes. Neste caso, como apenas os
efeitos de dois tratamentos são iguais, as taxas de erro
por comparação e por experimento coincidem, conforme Boardmam (1971).
Novamente aplicou-se o teste de Scott-Knott
para todos os 2.000 experimentos de cada situação e
computaram-se as taxas de erro tipo I e o poder. Os
critérios para decidir se as taxas de erro tipo I encontradas eram semelhantes às dos níveis nominais estabelecidos, foram exatamente os mesmos descritos anteriormente na etapa A. Para medir o poder do teste, os
resultados significativos foram computados para os
contrastes envolvendo diferenças de 2, 4, 6, 8 e 10 erros
padrão da média, em todas as situações especificadas.
RESULTADOS E DISCUSSÃO
No que se refere aos resultados das simulações,
as Tabelas 1 e 2 mostram a porcentagem de decisão
correta do teste de Scott-Knott (poder do teste), para os
níveis nominais de significância α = 1% e α = 5%, respectivamente.
Observa-se, pelas Tabelas 1 e 2, que o poder do
teste tendeu a aumentar com o aumento do número de
tratamentos de 5 para 10, e que essa tendência foi
mais clara quando a diferença real entre médias foi
de 2 σ x . Esse acréscimo também foi bastante influenciado pelo aumento no número de repetições,
principalmente de 4 para 10, ainda que influenciando menos do que o número de tratamentos. Percebese que com 96 tratamentos, quase não houve diferença no poder alterando-se o número de repetições,
embora o mesmo não possa ser dito para 5 tratamentos, por exemplo. Isso pode ser devido ao fato de se
obterem estimativas mais confiáveis para a variância
residual, pois com muitos tratamentos, independentemente do número de repetições, os graus de liberdade
residuais são elevados. Já para poucos tratamentos, os
graus de liberdade residuais serão pequenos, com poucas repetições e elevados, com muitas repetições, destacando-se, assim, o seu maior efeito nesta situação, uma
vez que a precisão do experimento foi fixada, adotandose diferenças constantes entre tratamentos consecutivos
de 2 σ x .
Como era de se esperar, à medida que a magnitude da diferença entre médias consecutivas aumentou, a porcentagem de decisões corretas melhorou de
desempenho rapidamente, de tal modo que com
6 σ x , o poder do teste pôde ser considerado muito
bom, exceto pelo valor 68,53 (Tabela 1), registrado
para o nível nominal de 1%, com apenas 4 repetições e 5 tratamentos, que esteve bem abaixo dos demais, com a mesma diferença real entre médias. Esses resultados estão de acordo com os de Perecin e Barbosa (1988) para o nível de 5%, os quais comentam que os testes de comparações múltiplas possuem
elevado poder quando as diferenças entre as médias de
tratamentos diferem de 6 ou mais erros padrões.
O primeiro bloco da Tabela 2, com número de
repetições igual a 4, pode ser comparado aos resultados
obtidos por Perecin e Barbosa (1988).
As Figuras 1 e 2 apresentadas, a seguir, mostram
o desempenho do teste de Scott-Knott, em relação aos
procedimentos de comparações múltiplas estudados
pelos autores citados, nas mesmas condições experimentais.
Ciênc. agrotec., Lavras, v.23, n.3, p.687-696, jul./set., 1999
690
TABELA 1 - Poder do teste de Scott-Knott, ao nível nominal de significância α = 1%, em função do número de
tratamentos, número de repetições e erro padrão da média ( σ x ).
No de
No de
repetições
Tratamentos
2σ x
4σ x
6σ x
8σ x
10 σ x
05
23,73
57,03
68,53
-
-
10
36,32
73,20
93,92
99,45
99,99
20
39,46
76,36
95,85
99,77
99,99
40
40,82
77,22
96,25
99,85
100,00
96
41,27
76,73
95,99
99,87
100,00
05
32,66
76,40
92,18
-
-
10
37,91
76,58
96,33
99,95
100,00
20
39,96
77,32
96,68
99,91
100,00
40
41,22
77,87
96,66
99,93
100,00
96
41,39
77,13
96,19
99,87
100,00
05
34,25
78,37
95,55
-
-
10
38,09
77,11
96,64
99,92
100,00
20
40,12
77,68
96,72
99,88
100,00
40
41,23
77,79
96,55
99,89
100,00
96
41,59
77,15
96,19
99,89
100,00
4
10
20
Diferença real entre médias
Quando considerada apenas diferenças de 2 σ x ,
o teste de Scott-Knott apresentou-se sempre superior
aos demais. Verificou-se que a porcentagem de decisões
corretas foi bem maior do que a do teste t-bayesiano,
que Perecin e Barbosa (1988) consideraram como o de
maior poder em seu estudo. E quando comparado ao de
Tukey, teste amplamente utilizado por pesquisadores
das mais diversas áreas, foi indiscutivelmente superior.
Os testes SNK, SNK modificado, t e Duncan apresentaram poderes bem menores do que os de Scott-Knott,
mas não tão baixos como os de Tukey. Os testes de
SNK modificado, Duncan e t apresentaram praticamente o mesmo poder, como mostra a sobreposição encontrada para as três curvas (Figura 1).
Na situação da Figura 2, para um pequeno número de tratamentos, o teste de Scott-Knott apresentouse ligeiramente superior ao t-bayesiano, situação que se
inverteu para os demais casos com maior número de
tratamentos. A diferença continuou sendo muito grande
em relação ao teste de Tukey. Verificou-se também
uma razoável diferença em favor do Scott-Knott, em
relação ao SNK e ao SNK modificado, uma vez que
os dois testes em questão apresentaram uma sobreposição de suas curvas. Quanto aos testes de Duncan
e de t, a diferença não pôde ser considerada grande.
Mesmo de posse destas constatações, informações importantes devem ser obtidas a respeito de suas
taxas de erro tipo I. A Tabela 3 apresenta os resultados
Ciênc. agrotec., Lavras, v.23, n.3, p.687-696, jul./set., 1999
691
obtidos neste estudo, para situação em que foi referida
como situação de nulidade completa.
Um aspecto que merece a atenção quando observa-se a Tabela 3, é o pequeno número de valores que
ultrapassaram os limites nominais de significância de
1% e 5%, quando estudada a taxa de erro por experimento, considerando-se tanto o limite superior quanto o
inferior do intervalo de confiança. Além disso, pôde-se
notar que todos os valores que ultrapassaram o limite
superior foram naquelas situações em que o número de
tratamentos era 5, embora não tivessem se distanciado
muito dos valores nominais.
Para a taxa de erro por comparação, nenhum
valor excedeu o nível nominal adotado. Além disto, es-
teve sempre bem abaixo do limite inferior do intervalo
de confiança, registrando valores em torno da metade
da taxa de erro por experimento.
Não se observou efeito do coeficiente de variação
nas taxas de erro; no entanto, um pequeno número de
tratamentos (p = 5) poderia causar maiores oscilações dessa taxa de erro, levando a resultados fora
dos esperados nas taxas nominais de 1% e 5%. O
fato de que o CV não tenha alterado as taxas de erro
por experimento (erro tipo I), foi uma importante
constatação, pois na experimentação os pesquisadores utilizam-se de vários artifícios para abaixá-lo,
como, por exemplo, transformações de dados, prática
não indicada para este fim.
TABELA 2 - Poder do teste de Scott-Knott, ao nível nominal de significância α = 5%, em função do número de
tratamentos, número de repetições e do erro padrão da média ( σ x ).
No de
No de
repetições
tratamentos
2σ x
4σ x
6σ x
8σ x
10 σ x
05
39,45
81,42
95,78
-
-
10
44,34
82,36
97,67
99,93
99,99
20
46,39
83,46
98,24
99,98
100,00
40
47,20
83,61
98,27
99,97
100,00
96
48,45
84,29
98,35
99,98
100,00
05
40,54
84,02
98,40
-
-
10
45,03
83,79
98,29
99,96
100,00
20
46,51
83,61
98,44
99,98
100,00
40
47,40
83,92
98,40
99,97
100,00
96
48,56
84,42
98,38
99,98
100,00
05
41,24
84,67
98,78
-
-
10
44,98
83,60
98,48
99,98
100,00
20
46,45
83,86
98,42
99,98
100,00
40
47,43
83,82
98,42
99,98
100,00
96
48,62
84,46
98,41
99,97
100,00
4
10
20
Diferença real entre médias
Ciênc. agrotec., Lavras, v.23, n.3, p.687-696, jul./set., 1999
692
60
55
% decisões corretas
50
Scott e Knott
t-bayesiano
SNK modificado
Duncan
t
SNK
Tukey
45
40
35
30
25
20
15
10
5
0
05
10
20
40
96/100
Número de tratamentos
FIGURA 1 - Poder do teste para os diversos procedimentos de comparações múltiplas em função do número de
tratamentos, considerando a diferença real entre médias igual a 2 σ x e nível nominal de significância de 5%.
100
90
t-bayesiano
Scott e Knott
t
Duncan
SNK
SNK modificado
Tukey
% decisões corretas
80
70
60
50
40
30
20
10
0
05
10
20
40
96/100
Número de tratamentos
FIGURA 2 - Poder do teste para os diversos procedimentos de comparações múltiplas em função do número de
tratamentos, considerando a diferença real entre médias igual a 4 σ x e nível nominal de significância de 5%.
Ciênc. agrotec., Lavras, v.23, n.3, p.687-696, jul./set., 1999
693
TABELA 3 - Taxas de erros por comparação (TPC) e por experimento (TPE), para o teste de Scott-Knott, em função do número de repetições (REP), número de tratamentos (TRAT), coeficientes de variação (CV) e níveis nominais de significância α=1% e α=5%.
REP
TRAT
CV
4
4
4
4
10
10
10
10
20
20
20
20
4
4
4
4
10
10
10
10
20
20
20
20
4
4
4
4
10
10
10
10
20
20
20
20
4
4
4
4
10
10
10
10
20
20
20
20
5
5
5
5
5
5
5
5
5
5
5
5
10
10
10
10
10
10
10
10
10
10
10
10
20
20
20
20
20
20
20
20
20
20
20
20
80
80
80
80
80
80
80
80
80
80
80
80
1
10
20
30
1
10
20
30
1
10
20
30
1
10
20
30
1
10
20
30
1
10
20
30
1
10
20
30
1
10
20
30
1
10
20
30
1
10
20
30
1
10
20
30
1
10
20
30
1%
%TPC
0,13 **
0,42 **
0,32 **
0,22 **
0,67
0,47 **
0,57
0,54
0,54
1,09
0,73
0,69
0,30 **
0,24 **
0,21 **
0,25 **
0,55
0,53
0,41 **
0,41 **
0,66
0,59
0,40 **
0,77
0,17 **
0,22 **
0,25 **
0,33 **
0,31 **
0,41 **
0,41 **
0,44 **
0,42 **
0,55
0,54
0,50 **
0,27 **
0,17 **
0,37 **
0,33 **
0,47 **
0,37 **
0,37 **
0,47 **
0,50 **
0,55
0,47 **
0,55
5%
%TPE
0,25 **
0,70
0,60
0,45 **
1,25
0,85
1,15
1,00
1,05
2,10 *
1,35
1,25
0,65
0,45 **
0,40 **
0,55
1,10
1,05
0,85
0,80
1,35
1,20
0,80
1,55
0,35 **
0,45 **
0,55
0,65
0,65
0,85
0,80
0,90
0,85
1,10
1,15
1,05
0,55
0,35 **
0,75
0,65
0,95
0,75
0,75
0,95
1,00
1,10
0,95
1,10
%TPC
3,47 **
2,78 **
3,35 **
2,85 **
3,11 **
3,54 **
3,42 **
3,31 **
3,41 **
3,14 **
3,49 **
3,41 **
2,12 **
2,05 **
2,11 **
2,48 **
2,61 **
3,07 **
2,81 **
2,68 **
2,45 **
2,47 **
2,76 **
2,42 **
2,16 **
1,86 **
1,82 **
1,91 **
2,28 **
2,51 **
2,42 **
2,49 **
2,98 **
2,74 **
2,21 **
2,56 **
1,74 **
1,74 **
1,69 **
1,81 **
2,27 **
2,55 **
2,41 **
1,75 **
2,31 **
2,45 **
2,43 **
2,70 **
%TPE
6,60 *
5,05
6,15
5,40
5,90
6,65 *
6,30
6,35
6,25
5,85
6,65 *
6,40 *
4,20
4,25
4,35
4,90
5,25
6,15
5,70
5,45
5,05
5,10
5,65
5,15
4,40
3,80 **
3,75 **
4,00
4,80
5,15
5,00
5,05
6,10
5,55
4,55
5,35
3,55 **
3,55 **
3,45 **
3,70 **
4,60
5,15
4,90
3,55 **
4,70
5,00
4,95
5,50
* Ultrapassou o limite superior do I.C. exato, com 99% de confiança para os níveis nominais de significância
de 1% (1,727044) e 5% (6,391386).
** Ultrapassou o limite inferior do I.C. exato, com 99% de confiança para os níveis nominais de significância
de 1% (0,518787) e 5% (3,828164).
Ciênc. agrotec., Lavras, v.23, n.3, p.687-696, jul./set., 1999
694
Com essas constatações, pode-se dizer que o
teste de Scott-Knott controlou bem os dois tipos de taxas de erro tipo I, tanto a taxa por experimento como a
por comparação. No entanto, para um pequeno número
de tratamentos (p = 5), os níveis empíricos superaram
significativamente os nominais em algumas situações.
A taxa de erro por comparação empírica, por outro lado,
foi controlada em todas as situações no que se refere ao
limite superior, quase sempre menor do que a taxa nominal e sempre inferior à taxa empírica de erro por experimento.
Ao se comparar tais resultados com os obtidos
por Bernhardson (1975), pode-se dizer que o teste de
Scott-Knott é conservador, embora não tanto quanto os
testes de Tukey, Scheffé e SNK. Porém, também não
atinge níveis elevados como os procedimentos de Duncan e LSD, que atingem taxas de mais de 40% para 10
tratamentos.
Levando-se em conta o trabalho de Carmer e
Swanson (1973), que utilizaram os resultados médios das situações com um C.V. de 10%, nível nominal
de 5% e número de repetições igual a 3, 4, 6 e 8, os
valores encontrados para a taxa de erro por comparação do teste de Scott-Knott, embora sempre abaixo
dos níveis nominais estabelecidos, foram um pouco
maiores que os encontrados pelo procedimento tbayesiano. Para p = 5, 10 e 20 as taxas de erro por
comparação foram de 3,37%, 1,50% e 0,58%, respectivamente. Em contrapartida, os valores registrados
para taxa de erro por experimento do procedimento tbayesiano (15,6%, 18,4% e 18,7%) foram quase três
vezes maior do que os encontrados para o Scott-Knott,
para os mesmos números de tratamentos considerados
anteriormente. Outro fato relevante foi comentado por
Perecin e Barbosa (1988) sobre as baixas taxas de erro
tipo I do teste t-bayesiano que, no entanto, não podem
ser previstas com exatidão, por dependerem do número
de tratamentos e da magnitude de seus efeitos.
Uma outra maneira de se medir a taxa de erro
tipo I, não encontrada na literatura, é através da etapa
em que as simulações foram realizadas levando-se em
conta a referida situação de nulidade parcial. Essa taxa está
apresentada na Tabela 4, para cada situação realizada.
Segundo Boardman e Moffitt (1971), não tem
mais sentido falar em taxas de erro por experimento e
por comparação, pois elas se igualam quando apenas
duas médias de tratamentos são iguais, como na hipótese em questão. Por esse motivo, nesta etapa do estudo
será referida apenas a taxa de erro tipo I.
Dedicando atenção à Tabela 5, observa-se que a
grande maioria dos valores ultrapassou os níveis nominais
de significância estabelecidos, embora estes valores não
tivessem se afastado muito dos valores nominais.
Apenas dois valores estiveram abaixo do limite
superior do intervalo de confiança, um para o nível
nominal de 1% e um para o nível de 5%. Os demais oscilaram sempre acima, embora não se distanciando
muito do desejado, com uma leve tendência de crescimento, à medida que o número de tratamentos aumentou.
Poder-se-ia inferir que, sob situação de nulidade
parcial, haveria um indicativo de que as taxas de erro
fossem maiores que os níveis nominais. No entanto, algumas ressalvas devem ser consideradas. Nesse caso, as
taxas de erro tipo I, como já comentado, podem ser consideradas como taxas de erro por comparação ou por
experimento, pois apenas uma comparação é realizada
por experimento. Os resultados observados na Tabela 3
mostraram que com poucos tratamentos (p = 5), as taxas
de erro por experimento apresentaram oscilações maiores
e, eventualmente, superaram os níveis nominais significativamente. Portanto, novos estudos poderiam ser realizados, para que pudessem ser esclarecidas as razões do aumento das taxas de erro tipo I, diferenciando o efeito da
situação de nulidade parcial do pequeno número de tratamentos com efeitos iguais envolvidos.
Convém salientar que, embora o delineamento
inteiramente casualizado tenha sido escolhido por ser o
mais simples e por ser o mais utilizado na literatura
para este fim, os resultados e conclusões obtidos a partir
destas simulações podem ser estendidos para os demais
delineamentos. Isso devido ao fato das médias dos tratamentos e o quadrado médio do resíduo (QMR), necessários para o cálculo da estatística do teste de ScottKnott, terem sido obtidos através de uma amostra gerada seguindo as pressuposições exigidas de normalidade
e independência dos erros, os quais possuíam média
zero e variância constante.
A utilização do teste de Scott-Knott é recomendada por possuir poder elevado, taxas de erro
tipo I quase sempre de acordo com os níveis nominais e por apresentar resultados com ausência de
ambigüidade.
CONCLUSÕES
a) Quando se compara o teste de Scott-Knott aos
testes de Tukey, t, Scheffé, Newman-Keuls, NewmanKeuls modificado e t-bayesiano, aquele apresentou maior
poder quando as comparações entre médias diferiram em 2
erros padrões. Para 4 erros padrões de diferença, o poder
foi semelhante ao do teste t-bayesiano e, nos demais casos (6, 8 e 10 σ x ), comportou-se de maneira similar a
todos os testes. Foi influenciado pelo número de tratamentos, sendo que o aumento no número de tratamentos provocou o aumento do poder.
Ciênc. agrotec., Lavras, v.23, n.3, p.687-696, jul./set., 1999
695
TABELA 4 - Taxa de erro tipo I para os níveis nominais de significância α=1% e α=5%, em função do número
de repetições e do número de tratamentos.
No de Repetições
4
10
20
Nível Nominal de Significância
No de Tratamentos
1%
5%
5
0,65
6,20
10
2,30
7,15
20
3,55
7,90
40
3,20
8,00
96
2,95
8,20
5
2,85
6,65
10
3,10
7,95
20
2,75
8,15
40
3,50
8,45
96
3,75
8,30
5
3,05
7,25
10
3,80
7,75
20
3,50
7,35
40
4,30
7,05
96
4,40
8,30
b) Quanto ao erro tipo I, existe um indicativo de
aumento da sua taxa empírica, na situação em que se
utilizou a situação de nulidade parcial.
c) A taxa de erro por experimento, quando considerados os resultados obtidos na situação de nulidade
completa, quase sempre esteve de acordo com os níveis
nominais estabelecidos. Em todas as situações estudadas, a taxa de erro tipo I por comparação sempre esteve
de acordo com os níveis nominais estabelecidos, e foi
sempre inferior à taxa de erro por experimento.
REFERÊNCIAS BIBLIOGRÁFICAS
CARMER, S. G.; SWANSON, M. R. Detection of differences between means: a Monte Carlo study of
five pairwise multiple comparison procedures.
Agronomy Journal, Madison, v. 63, n.6, p.940945, Nov./Dec. 1971.
CARMER, S. G.; SWANSON, M. R. An evaluation of ten
pairwise multiple comparison procedures by Monte
Carlo methods. Journal American Statistical Association, Washington, v. 68, n.341, p.66-74, Mar. 1973.
LEEMIS, L.; TRIVEDI, K. S. A comparison of approximate interval estimators for the Bernoulli parameter. The American Statistician, Alexandria, v.
50, n. 1, p. 63-68, Feb. 1996.
BERNHARDSON, C.S. Type I error rates when multiple comparison procedures follow a significant F
test of ANOVA, Biometrics, Washington, v. 31,
n.1, p. 337-340, Mar. 1975.
MOOD, A. M.; GRAYBILL, F. A.; BOES, D. C. Introduction to the theory of statistics. 3. ed. New
York: Wiley & Sons, 1974. 564 p.
BOARDMAN, T.J.; MOFFITT, D.R. Graphical Monte
Carlo Type I error rates for multiple comparison
procedures, Biometrics, Washington, v. 27, n.3,
p. 738-744, Sept. 1971.
PERECIN, D.; BARBOSA, J. C. Uma avaliação de seis
procedimentos para comparações múltiplas. Revista
de Matemática e Estatística, Marília-SP, v. 6,
p. 95-103. 1988.
Ciênc. agrotec., Lavras, v.23, n.3, p.687-696, jul./set., 1999
696
SCOTT, A. J.; KNOTT, M. A cluster analysis method
for grouping means in the analysis of variance.
Biometrics, Washington, v. 30, n.3, p. 507-512,
Sept. 1974.
SMITH, C. W.; GELFAND, A. E. Bayesian statistics
without tears: a sampling-resampling perspective.
The American Statistician, Alexandria, v. 46,
p. 84-88, May. 1992.
SMITH, C. W. Bayes least significance difference: a
review and comparison. Agronomy Journal, Madison, v. 70, n.1, p. 123-127, Jan./Feb. 1978.
STEEL, R.G.D.; TORRIE, J.H. Principles and procedures of statistics. 2. ed. New York: McGraw-Hill
Book, 1980.633 p.
Ciênc. agrotec., Lavras, v.23, n.3, p.687-696, jul./set., 1999
Download

avaliação do poder e taxas de erro tipo i do teste de scott