AVALIAÇÃO DO PODER E TAXAS DE ERRO TIPO I DO TESTE DE SCOTT-KNOTT POR MEIO DO MÉTODO DE MONTE CARLO1 ELOISE CURY DA SILVA2 DANIEL FURTADO FERREIRA3 EDUARDO BEARZOTI3 RESUMO - O Teste de Scott-Knott é um método de agrupamento usado como alternativa em que procedimentos de comparações múltiplas são recomendados, com a característica de não apresentar ambigüidade nos resultados. Como pouco se sabe sobre seu poder e taxas de erro tipo I, este trabalho tem por objetivo responder a essas questões. O método de Monte Carlo foi utilizado para simular experimentos utili- zando a linguagem Pascal, gerando-se amplas situações experimentais com relação à precisão, número de tratamentos, número de repetições e nível de significância adotado. A utilização do teste de ScottKnott é recomendada, por possuir poder elevado, taxas de erro tipo I quase sempre de acordo com os níveis nominais e por apresentar resultados com ausência de ambigüidade. TERMOS PARA INDEXAÇÃO: Teste de Scott-Knott, taxas de erro por experimento e por comparação, poder, simulação. EVALUATION OF POWER AND TYPE I ERROR RATES OF THE SCOTT-KNOTT’S TEST BY THE METHOD OF MONTE CARLO* ABSTRACT - Scott and Knott’s test is a clustering method used as an alternative where multiple comparison procedures are applied, with the characteristic of not presenting ambiguity in the results. As little is known about its power and type I error rates, this work aimed at answering these questions. The Monte Carlo method was used to simulate experiments using the Pascal language, generating large experimental situations in relationship of precision, the number of treatments, the number of replications and the level of significance adopted. Due the fact of possessing high power, the type I error rate, almost always was in accordance with the nominal levels and for presenting results with absence of ambiguity, use of Scott and Knott’s test was advised. INDEX TERMS: Scott and Knott's test, comparisonwise, experimentwise, power, simulation. INTRODUÇÃO Um grande número de procedimentos de comparações múltiplas tem surgido durante as últimas décadas para comparar médias de tratamentos, quando o teste F da análise da variância é significativo. Embora de fácil aplicação e implementados na maioria dos programas estatísticos, os pesquisadores encontram muita dificuldade de trabalhar com a ambigüidade dos resultados obtidos por esses métodos. Além dessa dificuldade, estão sujeitos a erros, e os principais deles são os erros tipo I e II. O erro tipo II é definido por Mood, Graybill e Boes (1974) como sendo o erro que se comete ao aceitar a hipótese nula (falsa), quando, na verdade, esta deveria ser rejeitada (β). Já o poder de um teste é definido como sendo a probabilidade de rejeitar a hipótese nula Ho, quando ela é falsa (1-β). Há muitas dificuldades em se comparar o erro tipo I nos procedimentos de comparações múltiplas (Carmer e Swanson, 1971), sendo que alguns tipos de medidas podem ser encontradas na literatura. A razão entre o número de erros tipo I (concluindo que µi ≠ µj quando µi = µj) e o número de comparações é definida como taxa de erro por comparação, chamada de “comparisonwise” e, a razão entre o número de experimentos com um ou mais erros tipo I (concluindo que µi ≠ µj quando µi = µj) e o número total de experimentos é definido como taxa de erro por experimento, chamada de “experimentwise” (Steel e Torrie, 1980). 1. Parte da Dissertação de Mestrado apresentada à UNIVERSIDADE FEDERAL DE LAVRAS (UFLA), para obtenção do grau de Mestre. 2. Estatística, MSc. em Agronomia, área de concentração Estatística e Experimentação Agropecuária. 3. Prof. Dr. do Departamento de Ciências Exatas, UFLA - Caixa Postal 37, 37200-000 – Lavras - MG 688 Um estudo em relação ao erro tipo I e poder de alguns testes de comparações múltiplas, foi feito por Perecin e Barbosa (1988), que verificaram que as taxas de erro tipo I para o teste de Duncan eram quase tão elevadas quanto as do teste t, e que o teste de Tukey possuía poder muito reduzido. Sendo assim, concluíram que estes procedimentos não devem ser empregados indiscriminadamente. Observaram que o teste t-bayesiano concilia, de certa forma, as características desejáveis de poder alto e baixas taxas de erro tipo I. Entretanto, como dependem do número de tratamentos e da magnitude de seus efeitos, essas taxas não podem ser previstas com exatidão. E o procedimento Newman-Keuls é o que pode ser aplicado sem maiores cuidados, pois possui poder muito superior e taxas de erro tipo I similares às de Tukey. Entre os procedimentos encontrados no referido estudo, está o chamado, por eles, de Newman-Keuls modificado. No teste original de Newman-Keuls, não se consideram diferenças significativas entre médias que estão entre duas outras, cuja diferença é não significativa, a partir de médias de tratamentos ordenadas. Neste trabalho, quando não foi considerado este fato, o procedimento foi chamado de Newman-Keuls modificado. Utilizando simulação de Monte Carlo, Bernhardson (1975) realizou um estudo baseado em 1.000 experimentos com n = 15 e nível nominal de significância de 5%. Cada população distribuída normalmente com média 50 e desvio padrão 15. O número de tratamentos foi p variando de 2(2)10, (de 2 a 10, variando de 2 em 2). Concluiu-se que à medida que o número de tratamentos aumentou, os procedimentos HSD, SNK e de Scheffé, quanto à taxa de erro por comparação, tenderam a ficar muito abaixo do nível nominal adotado. O procedimento de Duncan teve suas taxas menores também, mas em menor escala, e o LSD permaneceu oscilando em torno do nível nominal de 5%. Quanto à taxa de erro por experimento, o procedimento de Scheffé teve comportamento semelhante ao da taxa de erro por comparação; o HSD e SNK se igualaram em torno do nível nominal adotado; o método de Duncan ficou próximo a 35% para n = 10 e o LSD para este mesmo n ultrapassou 60%. Em estudos de desempenho de testes estatísticos, muitas vezes torna-se bastante complicado obter, analiticamente, informações sobre as taxas de erro tipo I e poder do teste. Uma maneira de se obter as informações desejadas de maneira eficiente é através do método de Monte Carlo, fazendo com que resultados possam ser obtidos de maneira mais simples, evitando as dificuldades analíticas, (Smith e Gelfand, 1992). Fazendo-se a comparação entre os valores encontrados analiticamente e os valores encontrados pelo método de Monte Carlo, Boardman e Moffitt (1971) concluíram que a diferença encontrada é muito pequena, o que faz deste método um ótimo procedimento para este fim. Os resultados encontrados por eles são extremamente semelhantes aos encontrados por Bernhardson (1975), o que, mais uma vez, traz evidências favoráveis à sua utilização como ferramenta útil na compreensão de procedimentos para se comparar médias de tratamentos. A literatura é ampla no que diz respeito a testes de comparações múltiplas, o que facilita a sua aplicação por pesquisadores de diferentes áreas. Contudo, muitas vezes torna-se difícil a interpretação dos resultados por não apresentarem uma real separação de grupos de médias devido à ambigüidade nos resultados. Com o objetivo de eliminar essa ambigüidade, foram apresentados na literatura métodos aglomerativos, como o é caso do procedimento proposto por Scott e Knott (1974). O presente trabalho teve por objetivo avaliar o poder e as taxas de erro tipo I do teste proposto por Scott e Knott (1974), em amplas situações experimentais com relação à precisão, número de tratamentos, número de repetições e nível de significância adotado, através de simulação de Monte Carlo. METODOLOGIA Através de um programa implementado em Pascal, foram simulados 192.000 experimentos em uma primeira etapa e 60.000 numa segunda, num total de 252.000 experimentos. Para isso, geraram-se dados de experimentos, seguindo-se o modelo: yij = µ + ti + eij em que: yij representa uma resposta simulada obtida do tratamento i na repetição j; µ é a média geral arbitrada como 100 (sem perda de generalidade); ti é o efeito do i-ésimo tratamento (Σti = 0); e eij (i = 1, 2, ..., p; j = 1, 2, 3,... ,r) é o erro aleatório, gerado independentemente com distribuição normal com média zero e desvios padrões determinados a partir de diferentes precisões. As simulações foram feitas gerando-se 2000 experimentos para cada situação em duas etapas: Etapa A As simulações foram feitas para as diversas combinações entre o número de tratamentos (p = 5, 10, 20 e 80), o número de repetições (r = 4, 10 e 20), o nível nominal de significância α igual a 1% e 5%, e os coeficientes de variação iguais a 1%, 10%, 20% e 30%. Nessa etapa, os dados foram gerados com o interesse específico de estudar as taxas de erro por compa- Ciênc. agrotec., Lavras, v.23, n.3, p.687-696, jul./set., 1999 689 ração e por experimento. Por isso, foi considerada a não-existência de efeito de tratamento, aqui referenciada como situação de nulidade completa: µi = µ (∀ i = 1, 2, …, p). O teste de Scott-Knott foi aplicado a todos os 2.000 experimentos gerados em cada situação e foram computados os valores das taxas de erro tipo I. Para decidir se estas eram semelhantes aos níveis nominais estabelecidos, calculou-se um limite máximo para que estes valores pudessem assumir. Este limite foi estabelecido utilizando-se o intervalo de confiança exato para proporções (Leemis e Trivedi, 1996). Os limites superiores encontrados para α igual a 1% e 5% são 1,727044% e 6,391386%, respectivamente, e os inferiores são 0,518787% e 3,828164%. Assim, os valores que superaram esses limites não foram considerados semelhantes aos níveis nominais de significância. Etapa B Nesta segunda etapa, as simulações foram feitas para as diversas combinações entre o número de tratamentos (p = 5, 10, 20 ,40 e 96), mesmo número de repetições e níveis nominais de significância da etapa A, com diferença entre tratamentos adjacentes, quando esta existia, igual a dois erros padrão da média (2 σ x ). O erro padrão é dado por σ x = σ / n . Neste caso, o C.V. foi fixado em 10%, uma vez que os efeitos de tratamentos eram vinculados ao erro padrão da média. Esta etapa, agora referenciada como situação de nulidade parcial, µ1 = µ2 ≠ µi (∀ i = 3, 4, …, p), foi assim estabelecida para que pudessem ser gerados dados que trouxessem informações sobre o poder e a taxa de erro tipo I, quando em presença de tratamentos com efeitos diferentes. Neste caso, como apenas os efeitos de dois tratamentos são iguais, as taxas de erro por comparação e por experimento coincidem, conforme Boardmam (1971). Novamente aplicou-se o teste de Scott-Knott para todos os 2.000 experimentos de cada situação e computaram-se as taxas de erro tipo I e o poder. Os critérios para decidir se as taxas de erro tipo I encontradas eram semelhantes às dos níveis nominais estabelecidos, foram exatamente os mesmos descritos anteriormente na etapa A. Para medir o poder do teste, os resultados significativos foram computados para os contrastes envolvendo diferenças de 2, 4, 6, 8 e 10 erros padrão da média, em todas as situações especificadas. RESULTADOS E DISCUSSÃO No que se refere aos resultados das simulações, as Tabelas 1 e 2 mostram a porcentagem de decisão correta do teste de Scott-Knott (poder do teste), para os níveis nominais de significância α = 1% e α = 5%, respectivamente. Observa-se, pelas Tabelas 1 e 2, que o poder do teste tendeu a aumentar com o aumento do número de tratamentos de 5 para 10, e que essa tendência foi mais clara quando a diferença real entre médias foi de 2 σ x . Esse acréscimo também foi bastante influenciado pelo aumento no número de repetições, principalmente de 4 para 10, ainda que influenciando menos do que o número de tratamentos. Percebese que com 96 tratamentos, quase não houve diferença no poder alterando-se o número de repetições, embora o mesmo não possa ser dito para 5 tratamentos, por exemplo. Isso pode ser devido ao fato de se obterem estimativas mais confiáveis para a variância residual, pois com muitos tratamentos, independentemente do número de repetições, os graus de liberdade residuais são elevados. Já para poucos tratamentos, os graus de liberdade residuais serão pequenos, com poucas repetições e elevados, com muitas repetições, destacando-se, assim, o seu maior efeito nesta situação, uma vez que a precisão do experimento foi fixada, adotandose diferenças constantes entre tratamentos consecutivos de 2 σ x . Como era de se esperar, à medida que a magnitude da diferença entre médias consecutivas aumentou, a porcentagem de decisões corretas melhorou de desempenho rapidamente, de tal modo que com 6 σ x , o poder do teste pôde ser considerado muito bom, exceto pelo valor 68,53 (Tabela 1), registrado para o nível nominal de 1%, com apenas 4 repetições e 5 tratamentos, que esteve bem abaixo dos demais, com a mesma diferença real entre médias. Esses resultados estão de acordo com os de Perecin e Barbosa (1988) para o nível de 5%, os quais comentam que os testes de comparações múltiplas possuem elevado poder quando as diferenças entre as médias de tratamentos diferem de 6 ou mais erros padrões. O primeiro bloco da Tabela 2, com número de repetições igual a 4, pode ser comparado aos resultados obtidos por Perecin e Barbosa (1988). As Figuras 1 e 2 apresentadas, a seguir, mostram o desempenho do teste de Scott-Knott, em relação aos procedimentos de comparações múltiplas estudados pelos autores citados, nas mesmas condições experimentais. Ciênc. agrotec., Lavras, v.23, n.3, p.687-696, jul./set., 1999 690 TABELA 1 - Poder do teste de Scott-Knott, ao nível nominal de significância α = 1%, em função do número de tratamentos, número de repetições e erro padrão da média ( σ x ). No de No de repetições Tratamentos 2σ x 4σ x 6σ x 8σ x 10 σ x 05 23,73 57,03 68,53 - - 10 36,32 73,20 93,92 99,45 99,99 20 39,46 76,36 95,85 99,77 99,99 40 40,82 77,22 96,25 99,85 100,00 96 41,27 76,73 95,99 99,87 100,00 05 32,66 76,40 92,18 - - 10 37,91 76,58 96,33 99,95 100,00 20 39,96 77,32 96,68 99,91 100,00 40 41,22 77,87 96,66 99,93 100,00 96 41,39 77,13 96,19 99,87 100,00 05 34,25 78,37 95,55 - - 10 38,09 77,11 96,64 99,92 100,00 20 40,12 77,68 96,72 99,88 100,00 40 41,23 77,79 96,55 99,89 100,00 96 41,59 77,15 96,19 99,89 100,00 4 10 20 Diferença real entre médias Quando considerada apenas diferenças de 2 σ x , o teste de Scott-Knott apresentou-se sempre superior aos demais. Verificou-se que a porcentagem de decisões corretas foi bem maior do que a do teste t-bayesiano, que Perecin e Barbosa (1988) consideraram como o de maior poder em seu estudo. E quando comparado ao de Tukey, teste amplamente utilizado por pesquisadores das mais diversas áreas, foi indiscutivelmente superior. Os testes SNK, SNK modificado, t e Duncan apresentaram poderes bem menores do que os de Scott-Knott, mas não tão baixos como os de Tukey. Os testes de SNK modificado, Duncan e t apresentaram praticamente o mesmo poder, como mostra a sobreposição encontrada para as três curvas (Figura 1). Na situação da Figura 2, para um pequeno número de tratamentos, o teste de Scott-Knott apresentouse ligeiramente superior ao t-bayesiano, situação que se inverteu para os demais casos com maior número de tratamentos. A diferença continuou sendo muito grande em relação ao teste de Tukey. Verificou-se também uma razoável diferença em favor do Scott-Knott, em relação ao SNK e ao SNK modificado, uma vez que os dois testes em questão apresentaram uma sobreposição de suas curvas. Quanto aos testes de Duncan e de t, a diferença não pôde ser considerada grande. Mesmo de posse destas constatações, informações importantes devem ser obtidas a respeito de suas taxas de erro tipo I. A Tabela 3 apresenta os resultados Ciênc. agrotec., Lavras, v.23, n.3, p.687-696, jul./set., 1999 691 obtidos neste estudo, para situação em que foi referida como situação de nulidade completa. Um aspecto que merece a atenção quando observa-se a Tabela 3, é o pequeno número de valores que ultrapassaram os limites nominais de significância de 1% e 5%, quando estudada a taxa de erro por experimento, considerando-se tanto o limite superior quanto o inferior do intervalo de confiança. Além disso, pôde-se notar que todos os valores que ultrapassaram o limite superior foram naquelas situações em que o número de tratamentos era 5, embora não tivessem se distanciado muito dos valores nominais. Para a taxa de erro por comparação, nenhum valor excedeu o nível nominal adotado. Além disto, es- teve sempre bem abaixo do limite inferior do intervalo de confiança, registrando valores em torno da metade da taxa de erro por experimento. Não se observou efeito do coeficiente de variação nas taxas de erro; no entanto, um pequeno número de tratamentos (p = 5) poderia causar maiores oscilações dessa taxa de erro, levando a resultados fora dos esperados nas taxas nominais de 1% e 5%. O fato de que o CV não tenha alterado as taxas de erro por experimento (erro tipo I), foi uma importante constatação, pois na experimentação os pesquisadores utilizam-se de vários artifícios para abaixá-lo, como, por exemplo, transformações de dados, prática não indicada para este fim. TABELA 2 - Poder do teste de Scott-Knott, ao nível nominal de significância α = 5%, em função do número de tratamentos, número de repetições e do erro padrão da média ( σ x ). No de No de repetições tratamentos 2σ x 4σ x 6σ x 8σ x 10 σ x 05 39,45 81,42 95,78 - - 10 44,34 82,36 97,67 99,93 99,99 20 46,39 83,46 98,24 99,98 100,00 40 47,20 83,61 98,27 99,97 100,00 96 48,45 84,29 98,35 99,98 100,00 05 40,54 84,02 98,40 - - 10 45,03 83,79 98,29 99,96 100,00 20 46,51 83,61 98,44 99,98 100,00 40 47,40 83,92 98,40 99,97 100,00 96 48,56 84,42 98,38 99,98 100,00 05 41,24 84,67 98,78 - - 10 44,98 83,60 98,48 99,98 100,00 20 46,45 83,86 98,42 99,98 100,00 40 47,43 83,82 98,42 99,98 100,00 96 48,62 84,46 98,41 99,97 100,00 4 10 20 Diferença real entre médias Ciênc. agrotec., Lavras, v.23, n.3, p.687-696, jul./set., 1999 692 60 55 % decisões corretas 50 Scott e Knott t-bayesiano SNK modificado Duncan t SNK Tukey 45 40 35 30 25 20 15 10 5 0 05 10 20 40 96/100 Número de tratamentos FIGURA 1 - Poder do teste para os diversos procedimentos de comparações múltiplas em função do número de tratamentos, considerando a diferença real entre médias igual a 2 σ x e nível nominal de significância de 5%. 100 90 t-bayesiano Scott e Knott t Duncan SNK SNK modificado Tukey % decisões corretas 80 70 60 50 40 30 20 10 0 05 10 20 40 96/100 Número de tratamentos FIGURA 2 - Poder do teste para os diversos procedimentos de comparações múltiplas em função do número de tratamentos, considerando a diferença real entre médias igual a 4 σ x e nível nominal de significância de 5%. Ciênc. agrotec., Lavras, v.23, n.3, p.687-696, jul./set., 1999 693 TABELA 3 - Taxas de erros por comparação (TPC) e por experimento (TPE), para o teste de Scott-Knott, em função do número de repetições (REP), número de tratamentos (TRAT), coeficientes de variação (CV) e níveis nominais de significância α=1% e α=5%. REP TRAT CV 4 4 4 4 10 10 10 10 20 20 20 20 4 4 4 4 10 10 10 10 20 20 20 20 4 4 4 4 10 10 10 10 20 20 20 20 4 4 4 4 10 10 10 10 20 20 20 20 5 5 5 5 5 5 5 5 5 5 5 5 10 10 10 10 10 10 10 10 10 10 10 10 20 20 20 20 20 20 20 20 20 20 20 20 80 80 80 80 80 80 80 80 80 80 80 80 1 10 20 30 1 10 20 30 1 10 20 30 1 10 20 30 1 10 20 30 1 10 20 30 1 10 20 30 1 10 20 30 1 10 20 30 1 10 20 30 1 10 20 30 1 10 20 30 1% %TPC 0,13 ** 0,42 ** 0,32 ** 0,22 ** 0,67 0,47 ** 0,57 0,54 0,54 1,09 0,73 0,69 0,30 ** 0,24 ** 0,21 ** 0,25 ** 0,55 0,53 0,41 ** 0,41 ** 0,66 0,59 0,40 ** 0,77 0,17 ** 0,22 ** 0,25 ** 0,33 ** 0,31 ** 0,41 ** 0,41 ** 0,44 ** 0,42 ** 0,55 0,54 0,50 ** 0,27 ** 0,17 ** 0,37 ** 0,33 ** 0,47 ** 0,37 ** 0,37 ** 0,47 ** 0,50 ** 0,55 0,47 ** 0,55 5% %TPE 0,25 ** 0,70 0,60 0,45 ** 1,25 0,85 1,15 1,00 1,05 2,10 * 1,35 1,25 0,65 0,45 ** 0,40 ** 0,55 1,10 1,05 0,85 0,80 1,35 1,20 0,80 1,55 0,35 ** 0,45 ** 0,55 0,65 0,65 0,85 0,80 0,90 0,85 1,10 1,15 1,05 0,55 0,35 ** 0,75 0,65 0,95 0,75 0,75 0,95 1,00 1,10 0,95 1,10 %TPC 3,47 ** 2,78 ** 3,35 ** 2,85 ** 3,11 ** 3,54 ** 3,42 ** 3,31 ** 3,41 ** 3,14 ** 3,49 ** 3,41 ** 2,12 ** 2,05 ** 2,11 ** 2,48 ** 2,61 ** 3,07 ** 2,81 ** 2,68 ** 2,45 ** 2,47 ** 2,76 ** 2,42 ** 2,16 ** 1,86 ** 1,82 ** 1,91 ** 2,28 ** 2,51 ** 2,42 ** 2,49 ** 2,98 ** 2,74 ** 2,21 ** 2,56 ** 1,74 ** 1,74 ** 1,69 ** 1,81 ** 2,27 ** 2,55 ** 2,41 ** 1,75 ** 2,31 ** 2,45 ** 2,43 ** 2,70 ** %TPE 6,60 * 5,05 6,15 5,40 5,90 6,65 * 6,30 6,35 6,25 5,85 6,65 * 6,40 * 4,20 4,25 4,35 4,90 5,25 6,15 5,70 5,45 5,05 5,10 5,65 5,15 4,40 3,80 ** 3,75 ** 4,00 4,80 5,15 5,00 5,05 6,10 5,55 4,55 5,35 3,55 ** 3,55 ** 3,45 ** 3,70 ** 4,60 5,15 4,90 3,55 ** 4,70 5,00 4,95 5,50 * Ultrapassou o limite superior do I.C. exato, com 99% de confiança para os níveis nominais de significância de 1% (1,727044) e 5% (6,391386). ** Ultrapassou o limite inferior do I.C. exato, com 99% de confiança para os níveis nominais de significância de 1% (0,518787) e 5% (3,828164). Ciênc. agrotec., Lavras, v.23, n.3, p.687-696, jul./set., 1999 694 Com essas constatações, pode-se dizer que o teste de Scott-Knott controlou bem os dois tipos de taxas de erro tipo I, tanto a taxa por experimento como a por comparação. No entanto, para um pequeno número de tratamentos (p = 5), os níveis empíricos superaram significativamente os nominais em algumas situações. A taxa de erro por comparação empírica, por outro lado, foi controlada em todas as situações no que se refere ao limite superior, quase sempre menor do que a taxa nominal e sempre inferior à taxa empírica de erro por experimento. Ao se comparar tais resultados com os obtidos por Bernhardson (1975), pode-se dizer que o teste de Scott-Knott é conservador, embora não tanto quanto os testes de Tukey, Scheffé e SNK. Porém, também não atinge níveis elevados como os procedimentos de Duncan e LSD, que atingem taxas de mais de 40% para 10 tratamentos. Levando-se em conta o trabalho de Carmer e Swanson (1973), que utilizaram os resultados médios das situações com um C.V. de 10%, nível nominal de 5% e número de repetições igual a 3, 4, 6 e 8, os valores encontrados para a taxa de erro por comparação do teste de Scott-Knott, embora sempre abaixo dos níveis nominais estabelecidos, foram um pouco maiores que os encontrados pelo procedimento tbayesiano. Para p = 5, 10 e 20 as taxas de erro por comparação foram de 3,37%, 1,50% e 0,58%, respectivamente. Em contrapartida, os valores registrados para taxa de erro por experimento do procedimento tbayesiano (15,6%, 18,4% e 18,7%) foram quase três vezes maior do que os encontrados para o Scott-Knott, para os mesmos números de tratamentos considerados anteriormente. Outro fato relevante foi comentado por Perecin e Barbosa (1988) sobre as baixas taxas de erro tipo I do teste t-bayesiano que, no entanto, não podem ser previstas com exatidão, por dependerem do número de tratamentos e da magnitude de seus efeitos. Uma outra maneira de se medir a taxa de erro tipo I, não encontrada na literatura, é através da etapa em que as simulações foram realizadas levando-se em conta a referida situação de nulidade parcial. Essa taxa está apresentada na Tabela 4, para cada situação realizada. Segundo Boardman e Moffitt (1971), não tem mais sentido falar em taxas de erro por experimento e por comparação, pois elas se igualam quando apenas duas médias de tratamentos são iguais, como na hipótese em questão. Por esse motivo, nesta etapa do estudo será referida apenas a taxa de erro tipo I. Dedicando atenção à Tabela 5, observa-se que a grande maioria dos valores ultrapassou os níveis nominais de significância estabelecidos, embora estes valores não tivessem se afastado muito dos valores nominais. Apenas dois valores estiveram abaixo do limite superior do intervalo de confiança, um para o nível nominal de 1% e um para o nível de 5%. Os demais oscilaram sempre acima, embora não se distanciando muito do desejado, com uma leve tendência de crescimento, à medida que o número de tratamentos aumentou. Poder-se-ia inferir que, sob situação de nulidade parcial, haveria um indicativo de que as taxas de erro fossem maiores que os níveis nominais. No entanto, algumas ressalvas devem ser consideradas. Nesse caso, as taxas de erro tipo I, como já comentado, podem ser consideradas como taxas de erro por comparação ou por experimento, pois apenas uma comparação é realizada por experimento. Os resultados observados na Tabela 3 mostraram que com poucos tratamentos (p = 5), as taxas de erro por experimento apresentaram oscilações maiores e, eventualmente, superaram os níveis nominais significativamente. Portanto, novos estudos poderiam ser realizados, para que pudessem ser esclarecidas as razões do aumento das taxas de erro tipo I, diferenciando o efeito da situação de nulidade parcial do pequeno número de tratamentos com efeitos iguais envolvidos. Convém salientar que, embora o delineamento inteiramente casualizado tenha sido escolhido por ser o mais simples e por ser o mais utilizado na literatura para este fim, os resultados e conclusões obtidos a partir destas simulações podem ser estendidos para os demais delineamentos. Isso devido ao fato das médias dos tratamentos e o quadrado médio do resíduo (QMR), necessários para o cálculo da estatística do teste de ScottKnott, terem sido obtidos através de uma amostra gerada seguindo as pressuposições exigidas de normalidade e independência dos erros, os quais possuíam média zero e variância constante. A utilização do teste de Scott-Knott é recomendada por possuir poder elevado, taxas de erro tipo I quase sempre de acordo com os níveis nominais e por apresentar resultados com ausência de ambigüidade. CONCLUSÕES a) Quando se compara o teste de Scott-Knott aos testes de Tukey, t, Scheffé, Newman-Keuls, NewmanKeuls modificado e t-bayesiano, aquele apresentou maior poder quando as comparações entre médias diferiram em 2 erros padrões. Para 4 erros padrões de diferença, o poder foi semelhante ao do teste t-bayesiano e, nos demais casos (6, 8 e 10 σ x ), comportou-se de maneira similar a todos os testes. Foi influenciado pelo número de tratamentos, sendo que o aumento no número de tratamentos provocou o aumento do poder. Ciênc. agrotec., Lavras, v.23, n.3, p.687-696, jul./set., 1999 695 TABELA 4 - Taxa de erro tipo I para os níveis nominais de significância α=1% e α=5%, em função do número de repetições e do número de tratamentos. No de Repetições 4 10 20 Nível Nominal de Significância No de Tratamentos 1% 5% 5 0,65 6,20 10 2,30 7,15 20 3,55 7,90 40 3,20 8,00 96 2,95 8,20 5 2,85 6,65 10 3,10 7,95 20 2,75 8,15 40 3,50 8,45 96 3,75 8,30 5 3,05 7,25 10 3,80 7,75 20 3,50 7,35 40 4,30 7,05 96 4,40 8,30 b) Quanto ao erro tipo I, existe um indicativo de aumento da sua taxa empírica, na situação em que se utilizou a situação de nulidade parcial. c) A taxa de erro por experimento, quando considerados os resultados obtidos na situação de nulidade completa, quase sempre esteve de acordo com os níveis nominais estabelecidos. Em todas as situações estudadas, a taxa de erro tipo I por comparação sempre esteve de acordo com os níveis nominais estabelecidos, e foi sempre inferior à taxa de erro por experimento. REFERÊNCIAS BIBLIOGRÁFICAS CARMER, S. G.; SWANSON, M. R. Detection of differences between means: a Monte Carlo study of five pairwise multiple comparison procedures. Agronomy Journal, Madison, v. 63, n.6, p.940945, Nov./Dec. 1971. CARMER, S. G.; SWANSON, M. R. An evaluation of ten pairwise multiple comparison procedures by Monte Carlo methods. Journal American Statistical Association, Washington, v. 68, n.341, p.66-74, Mar. 1973. LEEMIS, L.; TRIVEDI, K. S. A comparison of approximate interval estimators for the Bernoulli parameter. The American Statistician, Alexandria, v. 50, n. 1, p. 63-68, Feb. 1996. BERNHARDSON, C.S. Type I error rates when multiple comparison procedures follow a significant F test of ANOVA, Biometrics, Washington, v. 31, n.1, p. 337-340, Mar. 1975. MOOD, A. M.; GRAYBILL, F. A.; BOES, D. C. Introduction to the theory of statistics. 3. ed. New York: Wiley & Sons, 1974. 564 p. BOARDMAN, T.J.; MOFFITT, D.R. Graphical Monte Carlo Type I error rates for multiple comparison procedures, Biometrics, Washington, v. 27, n.3, p. 738-744, Sept. 1971. PERECIN, D.; BARBOSA, J. C. Uma avaliação de seis procedimentos para comparações múltiplas. Revista de Matemática e Estatística, Marília-SP, v. 6, p. 95-103. 1988. Ciênc. agrotec., Lavras, v.23, n.3, p.687-696, jul./set., 1999 696 SCOTT, A. J.; KNOTT, M. A cluster analysis method for grouping means in the analysis of variance. Biometrics, Washington, v. 30, n.3, p. 507-512, Sept. 1974. SMITH, C. W.; GELFAND, A. E. Bayesian statistics without tears: a sampling-resampling perspective. The American Statistician, Alexandria, v. 46, p. 84-88, May. 1992. SMITH, C. W. Bayes least significance difference: a review and comparison. Agronomy Journal, Madison, v. 70, n.1, p. 123-127, Jan./Feb. 1978. STEEL, R.G.D.; TORRIE, J.H. Principles and procedures of statistics. 2. ed. New York: McGraw-Hill Book, 1980.633 p. Ciênc. agrotec., Lavras, v.23, n.3, p.687-696, jul./set., 1999