Modificação do teste de Tukey para uso sob heterocedasticidade e
desbalanceamento
Paulo César de Resende Andrade 1
Lucas Luciano Barbosa 1
Regiane Teixeira Farias 1
Ana Luisa de Castro Pereira Martins 1
Douglas Mendes Cruz 1
1 Introdução
Em diversas áreas das ciências aplicadas após a realização de experimentos geralmente
se faz necessário compará-los com outros já existentes. Na experimentação, o pesquisador
utiliza a análise de variância para avaliar a significância dos efeitos dos tratamentos, através
do teste F, considerando duas hipóteses, H0 (hipótese de nulidade), onde supõe que todas as
médias dos tratamentos são iguais e H1 (hipótese alternativa) onde pelo menos um par de
médias difere entre si.
Em caso de rejeição da hipótese H0, Procedimentos de Comparações Múltiplas (PCM)
são utilizados para detectar quais médias diferem entre si. Os PCM são procedimentos
estatísticos que comparam médias, desenvolvidos para serem utilizados sob normalidade,
homogeneidade de variâncias e amostras de mesmo tamanho. Dentre os PCM tem-se como
exemplo o Tukey, Duncan, teste t, entre outros.
Entretanto, estes testes apresentam problemas como ambiguidade e controle do erro
tipo I. No caso da ambiguidade, se torna difícil a interpretação dos resultados, este problema
pode ser contornado pela utilização de métodos de agrupamentos como Scott-knott (1974),
Callinski e Corsten (1985). O Erro tipo I (Rejeição de uma hipótese que deveria ser aceita)
pode ser controlado tanto por experimento como por comparação de médias. Uma alternativa
é o uso de métodos bayesianos (Andrade & Ferreira, 2010).
Conagin (2008) propôs modificações no teste de Tukey (Tukey, 1953), na qual
permite a utilização deste com diferentes números de repetições dos tratamentos. Entretanto o
teste proposto ainda se limita a utilização a variâncias homogêneas.
Dessa forma, visto a necessidade de utilização de variâncias heterogêneas, o presente
trabalho tem como objetivo propor uma modificação no teste de Tukey, que permita além da
1
ICT – UFVJM. e-mail: [email protected]
1
utilização de número de repetições diferentes, a heterogeneidade de variâncias e compará-lo
com os testes de Tukey e Student-Newman-Keuls (SNK).
2 Material e Métodos
O teste proposto é uma versão modificada do teste de Tukey, que permite identificar
quais médias dos tratamentos diferem entre si, para os casos de heterogeneidade e
homogeneidade de variâncias, além dos dados serem balanceados ou não.
Se a hipótese de nulidade H0 (µ 1 = µ 2 = ... = µ i, i = 1, 2, ..., k) é rejeitada, o interesse
está em saber quais tratamentos diferem entre si. O procedimento é testar a hipótese
H0: µ i = µ i’ versus H1: µ i ≠ µ i’, i ≠ i’ = 1, 2, ..., k, e H0 é rejeitada a um nível de significância
α, se µ i − µ i´ ≥ qα ⋅σ α , em que
é o quantil superior 100% α da distribuição q, amplitude
padronizada, dada por
, onde
harmônica das variâncias das k médias,
representa a raiz quadrada da média
=
, k é o número total de
tratamentos, n1, n2, ..., nk, é o número de repetições do tratamento 1, 2, .., i, respectivamente, e
s12, s22,..., ,si2, representam as variâncias de cada tratamento.
Esse método permite realizar a comparação de médias tanto em casos de
homogeneidade como heterogeneidade de variâncias para números de repetições iguais e
diferentes, ao contrário do teste de Tukey e de outros testes convencionais.
Foram realizadas 100.000 simulações no software R (R. Development Core Team, 2011),
a um nível de significância α = 5%, considerando-se situações com variâncias homogêneas e
heterogêneas, com mesmo número de repetições e com número de repetições diferentes,
variando-se também o número de tratamentos. Foi utilizado o teste de Bartlett para testar a
homogeneidade das variâncias. Após a realização das inferências, os resultados obtidos foram
comparados com os testes de Tukey e SNK nas mesmas condições. Calculou-se ainda o poder
do teste proposto.
Foi também realizado um estudo, utilizando os dados descritos por Ramos & Ferreira
(2009) com seis tratamentos, cinco repetições e variâncias heterogêneas. Após realizar a
inferências, sob as mesmas condições, os resultados obtidos foram comparados com os testes
Tukey, SNK e Calinski e Corsten bootstrap.
2
3 Resultados e discussões
As inferências foram realizadas inicialmente utilizando dados simulados. Os
resultados do teste TMT foram comparados com os testes Tukey e SNK. Além disso, o poder
do teste TMT foi calculado.
Na Tabela 1 estão apresentados os resultados para o conjunto de dados
homocedásticos e com mesmo número de repetições, sendo 20 tratamentos com 5 repetições
cada. Como pode ser observado, o teste TMT apresentou melhor resultado em relação aos
testes de Tukey e SNK, por ser menos ambíguo, e conseguir identificar melhor as diferenças
das médias dos tratamentos. Além disso, o poder do teste TMT foi 91,6%, sendo considerado
elevado se comparado ao poder dos testes convencionais. Em situações simuladas com menor
número de tratamentos, o teste proposto apresentou resultados análogos aos de Tukey, mas
com poder por volta de 60%, sendo ainda elevado se comparado aos demais testes.
Tabela 1. Dados homogêneos com mesmo número de repetições
Tratamentos
F
H
O
C
I
N
J
L
E
T
B
M
Q
D
A
G
R
P
K
S
Teste TMT
a
ab
abc
abc
abc
abc
abc
abc
abc
abc
abc
abc
abc
abc
abc
abc
abc
bc
bc
c
Teste SNK
a
ab
abc
abc
abc
abc
abc
abc
abc
abc
abcd
abcd
abcd
bcd
bcd
bcd
bcd
cd
cd
d
Teste de Tukey
a
ab
abc
abc
abc
abc
abcd
abcd
abcd
abcd
abcd
abcd
abcd
bcd
bcd
bcd
bcd
bcd
cd
d
Para os casos de variâncias homogêneas e com número de repetições diferentes o teste
TMT diferiu do Tukey e do SNK, sendo menos ambíguo, apresentando um poder de 82,15%.
O resultado obtido era esperado por este ter sido desenvolvido para ser utilizado em casos de
3
tratamentos com número de repetições diferentes, ao contrário dos testes Tukey e SNK, que
para essas situações não são recomendados.
Para casos de variâncias heterogêneas e mesmo número de repetições, sendo 14
tratamentos com 5 repetições cada, apresentados na Tabela 2, pode ser observado que o teste
TMT foi menos ambíguo que os demais e consequentemente facilitando a interpretação dos
resultados. O poder deste foi de 79,49%.
Tabela 2. Dados heterogêneos com mesmo número de repetições
Tratamentos
N
A
K
D
J
M
C
G
L
I
B
F
H
E
Teste TMT
a
ab
abc
abc
abc
abc
abc
abc
bc
bc
bc
bc
bc
c
Teste SNK
a
ab
abc
bcd
bcd
bcd
bcd
bcd
cd
cd
cd
cd
cd
d
Teste de Tukey
a
ab
abc
abcd
abcd
abcd
abcd
bcd
bcd
bcd
bcd
cd
cd
d
Para casos de variâncias heterogêneas e número de repetições diferentes o teste TMT
apresentou resultados melhores que o SNK e semelhantes ao Tukey, e poder de 73,61%. O
teste foi eficiente em diminuir a ambiguidade dos resultados. Os resultados também foram
análogos aos do teste de Tukey, ao se considerar outras combinações de números de
tratamentos e de repetições, mas sempre apresentando um poder maior.
Ao comparar o teste TMT com os resultados de Ramos & Ferreira (2009), Tabela 3,
observa-se que o teste em questão não apresentou resultados superiores ao teste boostrap de
Carlisnki & Corsten; como este é realizado por reamostragem, já era de se esperar a
diminuição da ambiguidade do teste, obtendo-se melhores resultados. Entretanto o teste TMT
apresentou um poder de 60,73%, elevado se comparado aos demais, obtendo resultados
melhores que o teste SNK e semelhantes ao Tukey.
4
Tabela 3. Dados heterogêneos com mesmo número de repetições, Ramos & Ferreira (2009)
Tratamentos
Teste TMT
Teste SNK
A
B
D
F
C
E
a
ab
bc
bc
c
c
a
b
bc
bc
cd
d
Teste de
Tukey
a
ab
bc
bc
c
c
Teste Carlinski & Corsten
bootstrap
a
a
b
b
c
c
4 Conclusões
É perceptível que o teste TMT, mesmo para os casos de homogeneidade de variâncias
e tratamentos com mesmo número de repetições, apresentou resultados similares aos testes
convencionais, mas sempre com um maior poder.
Verificou-se que o TMT é mais eficaz quando se aumenta o número de tratamentos,
bem como, em casos de heterogeneidade de variâncias e número de repetições diferentes,
justificando seu uso nestas situações.
A partir do teste TMT, tornou-se possível a comparação de médias de tratamentos com
dados homo e heterocedásticos, balanceados ou não. Até então, essas comparações eram feitas
por testes convencionais apesar de não serem indicados para essas situações com variâncias
heterogêneas e números de repetições diferentes, resultando em uma análise não confiável.
O teste apresentou poder ligeiramente maior em relação aos demais, ou seja, sendo
mais eficiente em identificar as diferenças entre as médias dos tratamentos. Além disso, o
teste diminui a ambiguidade facilitando a interpretação dos resultados.
5 Referências
[1] CALINSKI, T.; CORSTEN, L.C.A. Clustering means in ANOVA by Simultaneous
Testing. Biometrics, Washington, v. 41, n. 1, p. 39-48, Mar. 1985.
[2] CONAGIN, A.; BARBIN, D.; DEMÉTRIO, C.G.B. Modifications for the Tukey test
procedure and evaluation of the power and efficiency of multiple comparison procedures.
Scientia Agricola, Piracicaba, v.65, n.4, p.428-432, July/August 2008.
[3] R Development Core Team. R: A language and environment for statistical computing.
Vienna, Austria: R Foundation for Statistical Computing, 2011.
5
[4] RAMOS, P. S.; FERREIRA D.F. Agrupamento de médias via bootstrap para populações
normais e não-normais. Revista Ceres, Viçosa, v. 56, n.1, p.140-149, 2009.
[5] SCOTT, A.J.; KNOTT, M. A Cluster analysis method for grouping means in the analysis
of variance. Biometrics, Washington, v. 30, n. 3, p. 507-512, Sep. 1974.
[6] TUKEY, J.W. The problem of multiple comparisons. Mimeographs Princeton
University, Princeton, N.J., 1953.
6
Download

Resumo Expandido