Modificação do teste de Tukey para uso sob heterocedasticidade e desbalanceamento Paulo César de Resende Andrade 1 Lucas Luciano Barbosa 1 Regiane Teixeira Farias 1 Ana Luisa de Castro Pereira Martins 1 Douglas Mendes Cruz 1 1 Introdução Em diversas áreas das ciências aplicadas após a realização de experimentos geralmente se faz necessário compará-los com outros já existentes. Na experimentação, o pesquisador utiliza a análise de variância para avaliar a significância dos efeitos dos tratamentos, através do teste F, considerando duas hipóteses, H0 (hipótese de nulidade), onde supõe que todas as médias dos tratamentos são iguais e H1 (hipótese alternativa) onde pelo menos um par de médias difere entre si. Em caso de rejeição da hipótese H0, Procedimentos de Comparações Múltiplas (PCM) são utilizados para detectar quais médias diferem entre si. Os PCM são procedimentos estatísticos que comparam médias, desenvolvidos para serem utilizados sob normalidade, homogeneidade de variâncias e amostras de mesmo tamanho. Dentre os PCM tem-se como exemplo o Tukey, Duncan, teste t, entre outros. Entretanto, estes testes apresentam problemas como ambiguidade e controle do erro tipo I. No caso da ambiguidade, se torna difícil a interpretação dos resultados, este problema pode ser contornado pela utilização de métodos de agrupamentos como Scott-knott (1974), Callinski e Corsten (1985). O Erro tipo I (Rejeição de uma hipótese que deveria ser aceita) pode ser controlado tanto por experimento como por comparação de médias. Uma alternativa é o uso de métodos bayesianos (Andrade & Ferreira, 2010). Conagin (2008) propôs modificações no teste de Tukey (Tukey, 1953), na qual permite a utilização deste com diferentes números de repetições dos tratamentos. Entretanto o teste proposto ainda se limita a utilização a variâncias homogêneas. Dessa forma, visto a necessidade de utilização de variâncias heterogêneas, o presente trabalho tem como objetivo propor uma modificação no teste de Tukey, que permita além da 1 ICT – UFVJM. e-mail: [email protected] 1 utilização de número de repetições diferentes, a heterogeneidade de variâncias e compará-lo com os testes de Tukey e Student-Newman-Keuls (SNK). 2 Material e Métodos O teste proposto é uma versão modificada do teste de Tukey, que permite identificar quais médias dos tratamentos diferem entre si, para os casos de heterogeneidade e homogeneidade de variâncias, além dos dados serem balanceados ou não. Se a hipótese de nulidade H0 (µ 1 = µ 2 = ... = µ i, i = 1, 2, ..., k) é rejeitada, o interesse está em saber quais tratamentos diferem entre si. O procedimento é testar a hipótese H0: µ i = µ i’ versus H1: µ i ≠ µ i’, i ≠ i’ = 1, 2, ..., k, e H0 é rejeitada a um nível de significância α, se µ i − µ i´ ≥ qα ⋅σ α , em que é o quantil superior 100% α da distribuição q, amplitude padronizada, dada por , onde harmônica das variâncias das k médias, representa a raiz quadrada da média = , k é o número total de tratamentos, n1, n2, ..., nk, é o número de repetições do tratamento 1, 2, .., i, respectivamente, e s12, s22,..., ,si2, representam as variâncias de cada tratamento. Esse método permite realizar a comparação de médias tanto em casos de homogeneidade como heterogeneidade de variâncias para números de repetições iguais e diferentes, ao contrário do teste de Tukey e de outros testes convencionais. Foram realizadas 100.000 simulações no software R (R. Development Core Team, 2011), a um nível de significância α = 5%, considerando-se situações com variâncias homogêneas e heterogêneas, com mesmo número de repetições e com número de repetições diferentes, variando-se também o número de tratamentos. Foi utilizado o teste de Bartlett para testar a homogeneidade das variâncias. Após a realização das inferências, os resultados obtidos foram comparados com os testes de Tukey e SNK nas mesmas condições. Calculou-se ainda o poder do teste proposto. Foi também realizado um estudo, utilizando os dados descritos por Ramos & Ferreira (2009) com seis tratamentos, cinco repetições e variâncias heterogêneas. Após realizar a inferências, sob as mesmas condições, os resultados obtidos foram comparados com os testes Tukey, SNK e Calinski e Corsten bootstrap. 2 3 Resultados e discussões As inferências foram realizadas inicialmente utilizando dados simulados. Os resultados do teste TMT foram comparados com os testes Tukey e SNK. Além disso, o poder do teste TMT foi calculado. Na Tabela 1 estão apresentados os resultados para o conjunto de dados homocedásticos e com mesmo número de repetições, sendo 20 tratamentos com 5 repetições cada. Como pode ser observado, o teste TMT apresentou melhor resultado em relação aos testes de Tukey e SNK, por ser menos ambíguo, e conseguir identificar melhor as diferenças das médias dos tratamentos. Além disso, o poder do teste TMT foi 91,6%, sendo considerado elevado se comparado ao poder dos testes convencionais. Em situações simuladas com menor número de tratamentos, o teste proposto apresentou resultados análogos aos de Tukey, mas com poder por volta de 60%, sendo ainda elevado se comparado aos demais testes. Tabela 1. Dados homogêneos com mesmo número de repetições Tratamentos F H O C I N J L E T B M Q D A G R P K S Teste TMT a ab abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc bc bc c Teste SNK a ab abc abc abc abc abc abc abc abc abcd abcd abcd bcd bcd bcd bcd cd cd d Teste de Tukey a ab abc abc abc abc abcd abcd abcd abcd abcd abcd abcd bcd bcd bcd bcd bcd cd d Para os casos de variâncias homogêneas e com número de repetições diferentes o teste TMT diferiu do Tukey e do SNK, sendo menos ambíguo, apresentando um poder de 82,15%. O resultado obtido era esperado por este ter sido desenvolvido para ser utilizado em casos de 3 tratamentos com número de repetições diferentes, ao contrário dos testes Tukey e SNK, que para essas situações não são recomendados. Para casos de variâncias heterogêneas e mesmo número de repetições, sendo 14 tratamentos com 5 repetições cada, apresentados na Tabela 2, pode ser observado que o teste TMT foi menos ambíguo que os demais e consequentemente facilitando a interpretação dos resultados. O poder deste foi de 79,49%. Tabela 2. Dados heterogêneos com mesmo número de repetições Tratamentos N A K D J M C G L I B F H E Teste TMT a ab abc abc abc abc abc abc bc bc bc bc bc c Teste SNK a ab abc bcd bcd bcd bcd bcd cd cd cd cd cd d Teste de Tukey a ab abc abcd abcd abcd abcd bcd bcd bcd bcd cd cd d Para casos de variâncias heterogêneas e número de repetições diferentes o teste TMT apresentou resultados melhores que o SNK e semelhantes ao Tukey, e poder de 73,61%. O teste foi eficiente em diminuir a ambiguidade dos resultados. Os resultados também foram análogos aos do teste de Tukey, ao se considerar outras combinações de números de tratamentos e de repetições, mas sempre apresentando um poder maior. Ao comparar o teste TMT com os resultados de Ramos & Ferreira (2009), Tabela 3, observa-se que o teste em questão não apresentou resultados superiores ao teste boostrap de Carlisnki & Corsten; como este é realizado por reamostragem, já era de se esperar a diminuição da ambiguidade do teste, obtendo-se melhores resultados. Entretanto o teste TMT apresentou um poder de 60,73%, elevado se comparado aos demais, obtendo resultados melhores que o teste SNK e semelhantes ao Tukey. 4 Tabela 3. Dados heterogêneos com mesmo número de repetições, Ramos & Ferreira (2009) Tratamentos Teste TMT Teste SNK A B D F C E a ab bc bc c c a b bc bc cd d Teste de Tukey a ab bc bc c c Teste Carlinski & Corsten bootstrap a a b b c c 4 Conclusões É perceptível que o teste TMT, mesmo para os casos de homogeneidade de variâncias e tratamentos com mesmo número de repetições, apresentou resultados similares aos testes convencionais, mas sempre com um maior poder. Verificou-se que o TMT é mais eficaz quando se aumenta o número de tratamentos, bem como, em casos de heterogeneidade de variâncias e número de repetições diferentes, justificando seu uso nestas situações. A partir do teste TMT, tornou-se possível a comparação de médias de tratamentos com dados homo e heterocedásticos, balanceados ou não. Até então, essas comparações eram feitas por testes convencionais apesar de não serem indicados para essas situações com variâncias heterogêneas e números de repetições diferentes, resultando em uma análise não confiável. O teste apresentou poder ligeiramente maior em relação aos demais, ou seja, sendo mais eficiente em identificar as diferenças entre as médias dos tratamentos. Além disso, o teste diminui a ambiguidade facilitando a interpretação dos resultados. 5 Referências [1] CALINSKI, T.; CORSTEN, L.C.A. Clustering means in ANOVA by Simultaneous Testing. Biometrics, Washington, v. 41, n. 1, p. 39-48, Mar. 1985. [2] CONAGIN, A.; BARBIN, D.; DEMÉTRIO, C.G.B. Modifications for the Tukey test procedure and evaluation of the power and efficiency of multiple comparison procedures. Scientia Agricola, Piracicaba, v.65, n.4, p.428-432, July/August 2008. [3] R Development Core Team. R: A language and environment for statistical computing. Vienna, Austria: R Foundation for Statistical Computing, 2011. 5 [4] RAMOS, P. S.; FERREIRA D.F. Agrupamento de médias via bootstrap para populações normais e não-normais. Revista Ceres, Viçosa, v. 56, n.1, p.140-149, 2009. [5] SCOTT, A.J.; KNOTT, M. A Cluster analysis method for grouping means in the analysis of variance. Biometrics, Washington, v. 30, n. 3, p. 507-512, Sep. 1974. [6] TUKEY, J.W. The problem of multiple comparisons. Mimeographs Princeton University, Princeton, N.J., 1953. 6