Erros tipo I e tipo II e testes de comparação múltipla de médias
Moeses Andrigo Danner e Simone Aparecida Zolet Sasso*
*Alunos de Mestrado da Universidade Tecnológica Federal do Paraná, Campus Pato Branco-PR.
Resumo – a maioria dos livros didáticos da área de estatística básica e experimentação
agrícola não apresenta detalhadamente os erros tipo I e tipo II dos testes de hipótese e os vários
aspectos dos testes de comparação múltipla de médias. Do mesmo modo, apresentam estes dois
assuntos separadamente, quando na realidade eles são intrínsecos, o que dificulta a compreensão
geral para a utilização destes testes. Assim, esta revisão bibliográfica tem como objetivos descrever
os erros tipo I e tipo II dos testes de hipótese, relacionar formas de reduzir a probabilidade de
ocorrência destes erros e apresentar alguns aspectos comparativos entre testes de comparação
múltipla de médias. Observou-se que os erros podem ser reduzidos com medidas simples, as quais
aumentarão a qualidade dos experimentos científicos e que o teste de Scott-Knott apresenta
vantagens em relação aos demais testes de comparação múltipla de médias, a saber: poder elevado,
taxas de erro tipo I quase sempre de acordo com os níveis nominais, por ser robusto à violação da
normalidade e por não apresentar ambigüidade dos resultados.
INTRODUÇÃO
Em qualquer pesquisa na área de ciências agrárias é formulada uma hipótese inicial, a qual
é a síntese do problema a ser resolvido, e é testada ao final da pesquisa. O principal teste de
hipótese na área de ciências agrárias é o teste F, que testa as variâncias entre os dados. Os erros tipo
I e tipo II são intrínsecos aos testes de hipótese e podem ser minimizados com alguns
procedimentos simples no planejamento e execução da pesquisa.
Após verificada a existência da significância do teste F para tratamentos, em experimentos
onde foram testados mais de dois tratamentos qualitativos de efeito fixo, há a necessidade de
definir-se entre quais tratamentos ocorrem as diferenças indicada pelo teste F. Isto pode ser
realizado utilizando um teste de comparação múltipla de médias (TCMM) ou pelo uso de
contrastes. Atualmente são conhecidos aproximadamente trezentos testes, dentre os mais comuns
podem ser listados: t ou DMS, Tukey, Duncan, Student-Newman-Keuls (SNK), Dunnet, Scheffé e
Scott-Knott. Todos estes testes apresentam vantagens e desvantagens quando comparados entre si,
sendo empregados nas comparações entre todos os pares de tratamentos os testes DMS, Tukey,
Duncan e SNK; entre grupos de tratamentos os testes DMS, Scheffé e Scott-Knott; ou na
comparação de cada tratamento contra uma testemunha, como é o caso do teste de Dunnett. Os
contrastes ortogonais são utilizados para comparar grupos de tratamentos que possuem
ortogonalidade entre si, ou seja, os tratamentos são totalmente diversos, como exemplo o contraste
entre capina manual e capina química. A escolha do teste a ser empregado depende única e
exclusivamente do pesquisador em função do tipo de hipótese formulada.
O emprego dos métodos estatísticos pode contribuir grandemente para a eficiência da
pesquisa experimental e para a validade das conclusões obtidas, sendo uma ferramenta que auxilia
na interpretação dos resultados, tornando-os mais nítidos. Entretanto, o desconhecimento dos
fundamentos dos métodos estatísticos, especialmente no que diz respeito aos requisitos para a
validade de suas aplicações, conduz, freqüentemente, ao seu mau uso. Corrobora com isto, as
facilidades dos recursos de computação, pois é freqüente o uso automático de procedimentos de
análise de dados disponíveis em ferramentas de análise estatística sem a verificação de sua
adequabilidade e validade, principalmente no que diz respeito às inerentes pressuposições exigidas.
Por isso, é necessário que o pesquisador compreenda claramente as técnicas estatísticas que utiliza.
Na pesquisa agropecuária, os testes estatísticos freqüentemente são utilizados de forma
inadequada. Cardellino & Siewerdt (1992) e Santos et al. (1998) avaliaram como inadequada, a
maioria dos trabalhos analisados por TCMM, respectivamente na Revista da Sociedade Brasileira
de Zootecnia e da Pesquisa Agropecuária Brasileira. Lúcio et al. (2003), avaliando trabalhos
publicados na revista Ciência Rural, consideraram 25% e 26% dos trabalhos inadequados, da área
vegetal e animal, respectivamente.
Torna-se evidente, então, a falta de conhecimento por parte dos pesquisadores das técnicas
de TCMM e que, quando se realiza um experimento, há a necessidade de considerar além do
tamanho da amostra, da parcela experimental, do número de repetições, delineamento experimental
é necessário considerar a estrutura dos tratamentos para que possam ser realizadas corretamente as
comparações, respeitando as hipóteses estabelecidas a priori.
Também é oportuno salientar as limitações da validade de inferências estatísticas. Assim,
por exemplo, o emprego de métodos estatísticos não prova que um ou mais fatores de um
experimento têm efeitos particulares, apenas fornece orientações referentes à confiabilidade e
validade dos resultados. Portanto, o emprego dos métodos estatísticos apropriados não permite a
prova definitiva de argumentos baseados nos resultados de um experimento particular, mas permite
a avaliação do erro provável de uma conclusão.
Esta revisão bibliográfica tem como objetivos descrever os erros tipo I e tipo II dos testes de
hipótese, relacionar formas de reduzir a probabilidade de ocorrência destes erros e apresentar alguns
aspectos comparativos entre testes de comparação múltipla de médias.
ERROS TIPO I E TIPO II
Após a coleta e tabulação dos dados experimentais, o pesquisador deve dar um tratamento
estatístico adequado aos mesmos, para verificar se as variações observadas entre os dados são ou
não são significativas estatisticamente. Além disso, será possível determinar com que nível de
significância uma hipótese estudada é aceita ou rejeitada.
O processo utilizado para decidir se uma hipótese é verdadeira ou falsa, ou se os resultados
obtidos com os diversos tratamentos são diferentes ou não, é chamado de teste de hipótese ou teste
de significância. O teste de hipótese estatístico é o mais generalizado instrumento de indução
estatística, tendo aplicações em vários setores das ciências sociais e naturais (Fonseca & Martins,
1978), servindo para tirar conclusões sobre parâmetros de uma população, utilizando a informação
contida numa amostra desta população (Montgomery et al., 2004). Se a informação obtida da
amostra for consistente com a hipótese, então se conclui que a hipótese é verdadeira; no entanto, se
essa informação for inconsistente com a hipótese, conclui-se que a hipótese é falsa. Porém, deve ser
enfatizado que, a verdade ou falsidade de uma hipótese nunca pode ser conhecida com certeza, a
menos que seja examinada a população inteira, sendo que isso é geralmente impossível em muitas
situações práticas. Por isso, o teste de hipótese é desenvolvido sendo intrínseca a probabilidade de
alcançar uma conclusão errada.
Em geral, para aplicar um teste de significância, inicialmente são formuladas duas hipóteses
estatísticas (Oliveira & Braida): a primeira, comumente chamada de hipótese de nulidade (H0); a
segunda é a hipótese alternativa ou complementar (H1), que é aceita quando H0 for rejeitada. H0 é a
hipótese de que não há diferença entre os tratamentos utilizados, enquanto H1 a hipótese de que há
diferenças entre os mesmos. Ao final do teste, decide-se aceitar H0 em detrimento de H1 ou rejeitar
H0 em favor de H1.
Existe sempre a probabilidade de que as conclusões do teste de hipótese não estejam
corretas, ao tomar-se qualquer uma das duas decisões citadas, sujeitando-se incorrer em um dos
seguintes erros (Pimentel-Gomes, 2000):
Erro Tipo I: é o erro cometido quando rejeita-se H0 sendo H0 verdadeira, ou seja, chegar a
um resultado que tem significância estatística quando na verdade ele ocorreu por acidente. Um teste
com alta especificidade terá menor probabilidade de ocorrer erros tipo I. Denominado de erro α.
Erro Tipo II: é o erro cometido quando não rejeita-se H0 sendo H0 falsa, denominado de erro
β. Quando a probabilidade de ocorrer o erro tipo II diminui, aumenta proporcionalmente a
probabilidade de ocorrer o erro tipo I. Este tipo de erro é mais freqüente que o erro α.
Os quadros 1 e 2 exemplificam teoricamente os erros tipo I e tipo II (Pimentel-Gomes,
2000).
Quadro 1 – Erros tipo I e tipo II cometidos em função da decisão tomada no teste de hipótese.
Decisão
Não rejeita H0
Rejeita H0
H0 é verdadeira
Correto
Erro tipo I
H0 é falsa
Erro tipo II
Correto
Quadro 2 - Probabilidade de ocorrer os erros tipo I e tipo II, complemento do quadro 1.
Probabilidade de não rejeitar H0
Probabilidade de rejeitar H0
Quando H0 for verdadeira
1-α
Quando H0 for falsa
α
1-β
β
Os erros tipo I e Tipo II são associados, sendo que ao diminuir-se a probabilidade da
ocorrência de um deles, aumenta-se conseqüentemente na mesma proporção a probabilidade de
ocorrência do outro. De um modo geral, controlamos apenas o erro Tipo I, através da adoção de um
Nível de Significância (NS) do teste estatístico, representado por α. Este NS indica a probabilidade
máxima de ocorrência do erro Tipo I. Quando utiliza-se um NS de 5% (α = 0,05), isto significa que
existe 5% de probabilidade de se cometer o erro Tipo I, ou seja, errar ao rejeitar H0, tendo
conseqüentemente um grau de confiança de 95% de probabilidade de tomar uma decisão correta.
Para reduzir a taxa de erro tipo I, basta por exemplo, reduzir NS α de 0,05 para 0,01. No entanto,
isto aumentará automaticamente a taxa do erro tipo II.
A redução do erro tipo II pode ser obtida aumentando a potência ou poder do teste
estatístico, que é a probabilidade de rejeitar H0 quando H0 é falsa, descrita por 1 – β, ou seja, é o
complemento do erro tipo II. Um teste com alta sensitividade terá menos erros do tipo II. Para
aumentar a potência do teste estatístico, devem-se efetuar vários procedimentos de fácil execução
(Pimentel-Gomes, 2000):
1. reduzir o erro experimental, controlando ao máximo fatores exógenos ao experimento;
2. aumentar as diferenças entre os tratamentos, para aumentar a probabilidade de
diferenciação entre os mesmos, pois quanto maior a diferença em relação a média,
maior o poder do teste e menor a probabilidade de ocorrer o erro tipo II;
3. empregar um delineamento experimental adequado, inteiramente casualizado quando
houver homogeneidade entre todas as unidades experimentais (U.E.) e efetuar controle
local quando necessário, o que reduz o erro experimental, e, principalmente;
4. aumentar o número de U.E. (n) do experimento, para aumentar os graus de liberdade do
erro, o qual é, então, melhor estimado. Quanto maior o n, maior a potência do teste e
maior a sensibilidade em detectar diferenças.
Este último procedimento reduz simultaneamente a probabilidade de ocorrer os erros tipo I
e tipo II. A potência de um teste considerada razoável seria 1 – β = 1 – 0,2 = 0,8 ou 80%.
Teste de uma hipótese estatística
Como ilustração, considere-se o seguinte teste de hipótese (Montgomery et al., 2004):
H0: μ = 50 cm/s (hipótese nula)
H1: μ ≠ 50 cm/s (hipótese alternativa)
Onde: μ representa a média verdadeira da população, porém é hipotética, pois na verdade
não se sabe a média verdadeira.
Supondo que uma amostra de n = 10 indivíduos, testa-se a média x da amostra, a qual é
utilizada estatística do teste. Considerando, segundo os interesses do pesquisador em relação ao
experimento, um nível crítico de ± 1,5, ou seja um intervalo de confiança em relação a média de
48,5 ≤ x ≤ 51,5, ou seja, neste intervalo, chamado de região de aceitação, H0 não é rejeitada. Se x
< 48,5 ou x > 51,5, estes valores constituirão a região crítica, rejeita-se a hipótese nula em favor da
hipótese alternativa H1. Desse modo, se a amostragem aleatória da população for feita de forma a
não representar fielmente a mesma, a x pode cair na região crítica induzindo a rejeição de H0,
quando na verdade H0 é verdadeira (Erro Tipo I) ou, a x pode cair na região de aceitação induzindo
a não rejeição de H0, quando na verdade H0 é falsa (Erro Tipo II). Assim, os erros tipo I e tipo II,
são intrínsecos ao teste de hipótese, e pode ser calculada a probabilidade dos mesmos ocorrerem.
Cálculo da probabilidade de se cometer um erro tipo I
Representado por: α = P(Erro Tipo I) = P(rejeitar H0, quando H0 é verdadeira)
Onde: α é o nível de significância ou tamanho do teste.
Considerando que o desvio padrão (σ) da população é de 2,5 cm/s.
Aplica-se o teorema central do limite, assumindo que a distribuição da média da amostra
pode ser considerada normal, com o desvio padrão dado por σ/ n = 2,5/ 10 = 0,79.
A probabilidade de se cometer o erro tipo I, ou o nível de significância do teste, é:
α = P( x < 48,5 quando μ = 50) + P( x > 51,5 quando μ = 50)
Calculam-se as variáveis padronizadas z1 e z2.
z1 = (x1 – μ)/ σ = (48,5 – 50)/0,79 = - 1,9
z2 = (x2 – μ)/ σ = (51,5 – 50)/0,79 = 1,9
Desse modo, α = P(z < - 1,9) + P(z > 1,9), olha-se na tabela de z.
α = 0,0288 + 0,0288 = 0,0576.
Ou seja, 5,76% das amostras escolhidas aleatoriamente induziriam ao erro tipo I, rejeitar H0
quando H0 for verdadeira, μ = 50 cm/s.
Pode-se reduzir α, alargando a região de aceitação. Por exemplo, considerar os valores
críticos de 48 e 52. o valor de α será:
α = P( x < 48 quando μ = 50) + P( x > 52 quando μ = 50)
Calculam-se as variáveis padronizadas z1 e z2.
z1 = (x1 – μ)/ σ = (48 – 50)/0,79 = - 2,53
z2 = (x2 – μ)/ σ = (52 – 50)/0,79 = 2,53
Desse modo, α = P(z < - 2,53) + P(z > 2,53), olha-se na tabela de z.
α = 0,0057 + 0,0057 = 0,0114.
Ou seja, 1,14% das amostras escolhidas aleatoriamente induziriam ao erro tipo I, rejeitar H0
quando H0 for verdadeira, μ = 50 cm/s.
Outra forma de reduzir α é aumentando o tamanho da amostra. Se o valor de n for
aumentado de 10 para 25, α será:
σ/ n = 2,5/
25 = 0,5.
z1 = (x1 – μ)/ σ = (48,5 – 50)/0,5 = - 3
z2 = (x2 – μ)/ σ = (51,5 – 50)/0,5 = 3
Desse modo, α = P(z < - 3) + P(z > 3), olha-se na tabela de z.
α = 0,00135 + 0,00135 = 0,0027.
Ou seja, 0,27% das amostras escolhidas induzirão ao erro tipo I, rejeitar H0 quando H0 for
verdadeira.
Observa-se que o aumento de n de 10 para 25 reduziu drasticamente, de 5,76% para 0,27%
a probabilidade de ocorrer o erro tipo I.
Cálculo da probabilidade de se cometer um erro tipo II
Representado por: β = P(Erro Tipo II) = P(não rejeitar H0, quando H0 é falsa).
Utilizando os mesmo dados do exemplo anterior, deve-se ter uma hipótese alternativa H1
específica, por exemplo H1 : μ = 52, tal como encontrar a probabilidade de não rejeitar a hipótese
nula H0: μ = 50 cm/s, quando a média verdadeira for μ = 52 cm/s.
β = P(48,5 ≤ x ≤ 51,5, quando μ = 52).
Calculam-se as variáveis padronizadas z1 e z2.
z1 = (x1 – μ)/ σ = (48,5 – 52)/0,79 = - 4,43
z2 = (x2 – μ)/ σ = (51,5 – 52)/0,79 = - 0,63
β = P(- 4,43 ≤ z ≤ - 0,63) = P(z ≤ - 0,63) - P(z ≤ - 4,43)
β = P (0,2643 - 0,00000471) ≅ 0,2643
Ou seja, 26,43% das amostras escolhidas induzirão ao erro tipo II, não rejeitar H0 quando H0
for falsa.
Se a média verdadeira for reduzida para μ = 50,5 cm/s.
β = P(48,5 ≤ x ≤ 51,5, quando μ = 50,5 cm/s).
Calculam-se as variáveis padronizadas z1 e z2.
z1 = (x1 – μ)/ σ = (48,5 – 50,5)/0,79 = - 2,53
z2 = (x2 – μ)/ σ = (51,5 – 50,5)/0,79 = 1,27
β = P(- 2,53 ≤ z ≤ 1,27) = P(z ≤ 1,27) - P(z ≤ - 2,53)
β = P (0,8980 - 0,0057) = 0,8923
Ou seja, 89,23% das amostras escolhidas induzirão ao erro tipo II, não rejeitar H0 quando H0
for falsa.
Assim, a probabilidade do erro tipo II é muito maior para o caso em que a média verdadeira
é 50,5 cm/s do que para o caso em que a média é 52 cm/s.
A probabilidade do erro tipo II também depende do tamanho da amostra. Se o valor de n for
aumentado de 10 para 25, ocorre o seguinte:
σ/ n = 2,5/
25 = 0,5.
Calculam-se as variáveis padronizadas z1 e z2.
z1 = (x1 – μ)/ σ = (48,5 – 52)/0,5 = - 7
z2 = (x2 – μ)/ σ = (51,5 – 52)/0,5 = - 1
β = P(- 7 ≤ Z ≤ - 1) = 0,16 - 0,00000000000129 ≅ 0,16
Ou seja, 16% das amostras escolhidas induzirão ao erro tipo II, não rejeitar H0 quando H0
for falsa.
Observa-se que o aumento de n de 10 para 25 reduziu de 26,43% para 16% a probabilidade
de ocorrer o erro tipo II.
Assim, comprova-se que o aumento de n reduz simultaneamente a probabilidade de
ocorrer os erros tipo I e tipo II.
Desse modo, observa-se que (Montgomery et al., 2004):
- O tamanho da região crítica, e conseqüentemente a probabilidade do erro tipo I, pode
sempre ser reduzido através da seleção apropriada dos valores críticos;
- os erros tipo I e tipo II são relacionados. Se o tamanho da amostra não variar, a redução da
probabilidade de um tipo de erro sempre resulta em aumento da probabilidade do outro;
- quando a hipótese nula é falsa, β aumenta a medida que o valor do parâmetro se aproxima
do valor usado na hipótese nula, sendo que o valor de β diminui a medida que aumenta a diferença
entre a média verdadeira e o valor utilizado na hipótese;
- somente o aumento do tamanho da amostra, proporciona a redução simultânea da
probabilidade de ocorrer erro tipo I (α) e erro tipo II (β).
Geralmente, o pesquisador controla a probabilidade α do erro tipo I, através da fixação do
nível de significância. Por outro lado, a probabilidade do erro tipo II (β) não é constante, mas
depende do valor verdadeiro do parâmetro. Ele depende também do tamanho da amostra.
Assim, seguindo demonstração descrita em Fonseca & Martins (1978), supondo que α =
0,05 = P(erro tipo I) = P( x C1 ≤ x ≤ x C2, quando μ = 50 cm/s)
Esse erro é dividido entre as duas caudas da distribuição da amostragem das médias (α/2 =
0,025). Assim:
z (limite 1) = valor tabelado z0,025 = -1,96
z (limite 2) = valor tabelado z0,025 = 1,96
Considerando n = 10 e σ = 2,5, calcula-se os valores críticos (limites).
( x C1 - μ)/( σ/ n ) = - 1,96
( x C1 - 50)/(2,5/ 10 ) = - 1,96
x C1 = ((-1,96 * (2,5/ 10 )) + 50 = 48,45 cm/s
( x C2 - μ)/( σ/ n ) = 1,96
( x C2 - 50)/(2,5/ 10 ) = 1,96
x C2 = ((1,96 * (2,5/ 10 )) + 50 = 51,55 cm/s
α = P( x C1 ≤ x ≤ x C2) = 0,05
α = 0,05 = P(48,45 ≤ x ≤ 51,55, quando μ = 50 cm/s) = 0,05
Desse modo, se a média da amostra cair abaixo de 48,45 ou acima de 51,55 rejeita-se H0;
caso contrário, se a média cair dentro dos limites, não rejeita-se H0.
Para o erro tipo II, β, deve-se especificar um valor alternativo para μ e fixar os valores
críticos. Considerando o valor de média da população 49,5 cm/s para a hipótese nula, H0: μ = 49,5
cm/s, calcula-se o erro β.
Primeiramente, calcula-se o valor de z para x C1, com μ = 49,5.
( x C1 - μ)/( σ/ n ) =
(48,45- 49,5)/(2,5/ 10 ) = -1,33
( x C2 - μ)/( σ/ n ) = 1,96
(51,55 – 49,5)/(2,5/ 10 ) = 2,59
β = 1 – (P(z ≤ - 1,33) + P(z ≥ 2,59)) =
β = 1 – (0,0918 + 0,0048) = 1 – 0,0966 = 0,9034
90,34%, esse é o erro β condicional a H0: μ = 49,5 cm/s, ou seja a probabilidade de concluir
que μ < 15 ou μ > 15, quando μ = 49,5.
TESTES DE COMPARAÇÃO MÚLTIPLA DE MÉDIAS (TCMM)
Para ilustrar e definir os procedimentos de TCMM é necessário tomar por base um modelo
matemático. Normalmente se usa o mais simples possível, a título de ilustração, o modelo do
delineamento experimental inteiramente casualizado, que é o seguinte (Storck & Lopes, 1997):
Yij = μ + ti + eij
Onde:
Yij é o valor observado em uma unidade experimental (U.E.), da j-ésima repetição que
recebeu o i-ésimo tratamento;
μ é uma constante inerente ao modelo, é a média das parcelas que receberam mesmo
tratamento;
ti é o efeito do tratamento aplicado na unidade experimental;
eij é o efeito do erro experimental associada ao resultado de cada unidade experimental de
forma individualizada, ou seja, a variação aleatória que incidiu na U.E. considerada.
Algumas pressuposições são descritas como necessárias para o desenvolvimento teórico das
técnicas de análise estatística de um experimento:
a) Os diversos efeitos são aditivos e independentes;
b) Os erros eij são independentes;
c) Os erros eij tem a mesma variância σ2;
d) Os erros eij tem distribuição normal.
A verificação se estas pressuposições do modelo matemático foram satisfeitas nos
resultados observados do experimento são importantes para demonstrar e avaliar a qualidade da
análise estatística do experimento, no entanto, este procedimento é pouco usado por pesquisadores
das áreas de ciências agrárias.
Procedimentos para verificação destas pressuposições foram desenvolvidos, como o teste de
aditividade de Tukey, para verificar se os efeitos do modelo matemático são aditivos; o teste de
Chorrilhos, para verificar a independência dos erros; o teste de Lilliefors, para verificar a
normalidade da distribuição dos erros (a normalidade é exigida para que os testes de hipótese
tenham validade); e o teste de Bartlett, para verificação da homogeneidade das variâncias dos erros
eij (Storck & Lopes, 1997). Se utilizados estes testes enriquecem um artigo científico por demonstrar
a qualidade da análise do experimento.
Assim, se uma ou mais pressuposições do modelo matemático não forem satisfeitas pelos
dados do experimento, a análise paramétrica efetuada pelo teste F, TCMM e análise de regressão,
podem levar à falsas conclusões. Desse modo, deve-se utilizar a transformação de dados
(transformação raiz quadrada, logarítmica, arcoseno, etc.) de modo que os dados se aproximem das
pressuposições do modelo matemático. Além disso, se as distorções forem expressivas, devem ser
utilizados métodos de análise não-paramétricos, como teste de Sperman, teste de Friedman, teste de
Kruskal-Wallis, etc. (Storck & Lopes, 1997).
Os testes estatísticos não provam igualdade, apenas diferenças significativas a um nível α
de erro, sendo que ao afirmar que duas médias não diferem, a margem de erro é desconhecida e está
situada num patamar acima do que seria considerado razoável, ou seja, maior que α. Isto porque,
normalmente, os resultados de um experimento nunca permitem afirmar que duas médias são
iguais, pois se o experimento for repetido centenas de vezes, nunca serão encontradas duas médias
que sempre são iguais, sob H0. Desse modo, quando se fixa o nível α de erro em 1%, significa que,
se forem realizadas simulações repetindo centenas de vezes o experimento, mantendo a mesma
média dos tratamentos, em média de 100 experimentos, sob H0, as variações ao acaso farão com
que, em 1 deles, a hipótese nula seja rejeitada (Pimentel-Gomes, 2000).
A análise e a interpretação dos resultados é uma etapa fundamental de um experimento,
pois têm como finalidade chegar-se às conclusões do trabalho. Desse modo, a escolha do método e
teste adequado para análise e interpretação é de extrema importância e devem ser planejadas antes
da implantação do experimento.
A análise estatística dos dados experimentais é efetuada em três etapas:
1ª: Análise das pressuposições do modelo matemático – quando alguma das pressuposições
forem violadas, deve-se utilizar a transformação de dados;
2ª: Análise da variância – na qual se calcula as estimativas das variâncias dos diversos
fatores envolvidos no experimento e, ao final, utiliza-se um teste de hipótese, comumente
utiliza-se o teste F, para saber se essas variâncias são diferentes ou não;
3ª: Complementação da análise da variância – na qual se aplicam testes de comparação
múltipla de médias (TCMM), análise de regressão ou contrastes ortogonais, dependendo do
tipo de tratamentos utilizados.
A análise da variância com o teste F proporciona a verificação da existência de variações
significativas estatisticamente entre os tratamentos estudados num experimento. O teste F é o mais
poderoso dos testes de comparação, entretanto, quando o experimento envolve mais de dois
tratamentos ou níveis de tratamentos, o teste F não determina entre quais tratamentos ou níveis
estão as diferenças observadas, pois ele compara as variâncias e não as médias.
Assim, quando rejeita-se H0 para tratamentos pelo teste F, ou seja, F calculado > F tabelado,
a um nível α de significância, torna-se necessário realizar uma complementação da análise da
variância, que pode ser a aplicação de TCMM (para tratamentos qualitativos ou quantitativos com
dois tratamentos), análise de regressão (para tratamentos quantitativos com mais de dois
tratamentos) ou de contrastes ortogonais (quando houver ortogonalidade entre os tratamentos).
Neste artigo será dada ênfase aos TCMM. Eles servem como complemento ao teste F,
visando detectar diferenças entre os vários tratamentos estudados. Sua aplicação é obrigatória na
análise de experimentos com mais de dois tratamentos qualitativos de efeito fixo que não
apresentam ortogonalidade entre si, para os quais o teste F demonstrou haver diferenças
significativas. Os tratamentos são denominados de qualitativos, quando não podem ser ordenados
segundo um critério numérico, diferenciando-se por características qualitativas, como cultivares de
soja, métodos de irrigação, tipos de adubação, etc.; e de efeito fixo quando os tratamentos podem
ser repetidos em experimentos posteriores e as conclusões serão válidas apenas para os tratamentos
testados.
Existem vários TCMM, dentre eles pode-se citar:
- Contrastes ortogonais;
- Teste t ou DMS;
- Bonferroni;
- Student-Knewman-Keuls (SNK);
- Dunnett;
- Duncan;
- Tukey;
- Scott-Knott.
Alguns deles são descritos abaixo.
Teste t ou DMS (Diferença Mínima Significativa)
O teste t é um TCMM não-paramétrico e seu uso apresenta algumas restrições. No entanto,
alguns pesquisadores optam por utilizá-lo também para qualquer tipo de comparação múltipla de
médias. Além disso, muitos pesquisadores recomendam este teste apenas para realizar comparações
planejadas inicialmente e jamais para inferências sugeridas pelos dados (Ramalho et al., 2000).
Segundo Oliveira & Braida (2000) este teste pode ser utilizado para comparar pares de médias em
experimentos com no máximo cinco tratamentos (exemplo descrito no anexo 1), ou quando forem
testadas diferenças especificadas antes da realização do experimento, como é o caso de
experimentos onde os tratamentos são comparados com uma testemunha ou padrão, sendo que neste
caso não importa o número de tratamentos. Beiguelman (1996) cita que o teste t deve ser usado em
experimentos planejados de modo que a comparação entre os tratamentos fosse feita com dados
emparelhados, como exemplo, comparação entre o peso no pré e pós-parto de vacas; o nível de
excreção de um metabólito antes e depois da ingestão de um determinado medicamento; etc. Neste
caso, os pares de medidas devem ser mensurados preferencialmente no mesmo indivíduo, para
evitar variações por fatores não controlados.
De acordo com Pimentel-Gomes (2000) o teste t pode mostrar que um contraste é
significativo quando testes como Tukey, Duncan e Scheffé não mostram. Isto porque o teste t só se
aplica justificadamente para contrastes previamente escolhidos, ortogonais e em número não
superior aos graus de liberdade para tratamentos (I - 1), enquanto que os outros testes citados
permitem testar qualquer contraste de interesse. Porém, o teste t pode ser tolerado para alguns
contrastes, mesmo não ortogonais, desde que preencha os outros dois requisitos básicos: serem
contrastes previamente escolhidos e em número ≤ a I - 1.
O teste t ou DMS necessita da significância do teste F para ser aplicado, e é baseado na
distribuição de t de “Student” (Beiguelman, 1996).
Este teste possui o inconveniente de ter a maior taxa de erro por experimento em relação a
todos os outros testes, quando utilizado para comparar médias duas a duas (Ramalho et al., 2000).
Este procedimento é de fácil aplicação e busca localizar as médias cujas diferenças são
maiores que um valor calculado e declarar estas diferenças como sendo estatisticamente
significativas. A Diferença Mínima Significativa (DMS) é dada por (Vieira & Hoffmann, 1989):
DMS = t(α;GLe)
2 * QMe
r
(1)
Onde:
t(α;Gle) = valor tabelado, encontrado em função do nível de significância α e do número de
graus de liberdade do erro experimental, obtido na análise da variância;
QMe = quadrado médio do erro, obtido na análise da variância;
r = número de repetições.
O fato de se utilizar a mesma estimativa de DMS para todas as comparações,
implica que, quando o número de tratamentos é grande, o nível global de significância não é
mantido, pois isto torna os testes sobre um mesmo tratamento não independentes (Ramalho et al.,
2000).
Teste de Tukey
O método de Tukey pode ser utilizado para comparar todo e qualquer contraste entre
médias de tratamentos tomadas aos pares (Pimentel-Gomes, 2000). Este teste não exige
significância pelo teste F, no entanto, quando isso acontece não se recomenda a utilização de
nenhum TCMM. Ele necessita apenas dos dados de médias dos tratamentos e do GLe e QMe,
calculados na análise da variância.
Este teste requer dados balanceados, ou seja, que todos os níveis de tratamentos tenham o
mesmo número de repetições, e que seja feita a comparação de todos os tratamentos, comparando
todas as médias tomadas duas a duas, segundo a diferença mínima significativa (Δ) calculada,
segundo a fórmula abaixo (Storck e Lopes, 1997):
V (X )
Δα = q α(I;GLe)
V (X) =
2
2QMe
(2)
(3)
J
Assim, toda diferença entre duas médias de tratamentos que seja maior que Δ é
considerada significativa em nível α de erro. Este teste apresenta ambigüidade nos dados, ou seja,
médias acompanhadas de mais de uma letra, o que dificulta a interpretação e conclusão a partir dos
dados, principalmente com grande número de tratamentos.
O método utiliza a distribuição da amplitude estudentizada ou padronizada (q). Tem o
objetivo de controlar a taxa de erro por experimento, sendo bastante conservador com relação à taxa
de erro por comparação, por manter constante seu erro tipo I, não importando o número de médias
sendo testadas (Zimmermann, 2004). Segundo o mesmo autor, Scheffé considerou o teste Tukey
superior ao seu próprio teste para comparação de médias tomada duas a duas, mas inferior para
outros tipos de comparações, como a de grupos.
Este teste tem um baixo poder quando comparado com os demais testes e este poder é
reduzido drasticamente com o aumento do número de tratamentos (Ramalho et al., 2000).
Um exemplo deste procedimento é detalhado no anexo 2.
Teste de Duncan
Para sua aplicação este teste exige as mesmas pressuposições que o teste de Tukey e
também usa como fundamento à amplitude estudentizada. Porém, a principal diferença em relação
ao teste Tukey, é que, para cada contraste, o nível de significância α é alterado em função do
número de médias abrangidas pelo contraste efetuado, segundo fórmula abaixo:
Du = Zu
V (X )
2
(4)
(para u = número de médias de tratamentos abrangidas no contraste, 2,3,4, ...I; considerando 5
tratamentos são calculados D2, D3, D4 e D5)
V (X) =
2QMe
J
(5)
Zu = (Gle; u (numero de médias abrangidas em cada contraste)) a um nível α de
significância, valor retirado da tabela de Duncan.
Assim, o nível de significância pretende fornecer uma proteção separada para cada
comparação par a par, ao nível nominal de significância. Por isso, este teste controla a taxa de erro
por comparação, mas não controla a taxa de erro por experimento (Ramalho et al., 2000). Este teste
indica resultados significativos em casos em que o teste de Tukey não permite obter significação
estatística, considerando o mesmo nível de significância (Pimentel-Gomes, 2000).
Um exemplo deste procedimento é detalhado no anexo 2.
Teste Scheffé
O teste de Sceffé pode ser utilizado para testar todo e qualquer contraste entre duas médias
ou entre grupos de médias de tratamentos, sendo exigido a significância do teste de F para
tratamentos, como requisito para a validade de sua aplicação. Este teste é ainda mais rigoroso que o
teste de Tukey, sendo mais utilizado para testar contrastes mais complexos e desaconselhável para
comparar médias duas a duas (Pimentel-Gomes, 2000; Storck & Lopes, 1997). Além disso, deve ser
aplicado para testar a significância de contrastes sugeridos pelos resultados do experimento, pois se
os contrastes de interesse do experimento formam um conjunto ortogonal ou foram estabelecidos a
priori no plano do experimento, o teste a ser utilizado deve ser o teste DMS ou de contrastes
ortogonais (Silva, 1997).
O procedimento do teste de Scheffé não exige ortogonalidade entre os contrastes e tem a
vantagem de utilizar dados obtidos no quadro da análise da variância do experimento, segundo
fórmulas abaixo:
X = ∑iCiMi = m1 + m2 – m3 – m4
V(X) =
QMe
* ∑iCi2
(6)
(7)
J
F = Fα (GLt; GLe)
D=
( I − 1) * V ( X ) * F
(8)
(9)
Quando se verifica que |X| > D, o contraste é significativo em nível α de probabilidade de
erro. Um exemplo deste procedimento é detalhado no anexo 1.
Teste de Scott-Knott
Este teste, idealizado por Scott e Knott (1974), tem sua base teórica na análise de
conglomerados, utilizando a razão de verossimilhança para testar a significância de que os g
tratamentos podem ser divididos em dois grupos que maximizem a soma dos quadrados entre
grupos e sua significância é formulada sobre o teste de χ2. Este teste exige significância do teste F
para tratamentos.
A grande vantagem deste teste é que, diferentemente dos demais, nenhuma média pode
pertencer a mais de um agrupamento, não ocorrendo ambigüidade nos tratamentos. Desse modo,
este procedimento resulta em maior objetividade e clareza. Além disso, não apresenta fórmula
básica de obtenção de valores limites para comparação de médias, como os demais testes, apenas
estabelece os grupos em função da variabilidade entre estes grupos de médias.
O procedimento passa pelo cálculo da soma de quadrados, representado por Bo, entre os
grupos de cada partição, determinando a partição que maximize a soma de quadrados, utilizando a
equação (Scott & Knott, 1974; Ramalho et al., 2000):
2
2
T
T
(T + T2 ) 2
B0 = 1 + 2 − 1
k1
k2
(k1 + k 2 )
(10)
Após, efetua-se o cálculo do estimador de máxima verossimilhança:
k
2
2
∑ ( y ( i ) − y ) + vs 

σˆ 0 2 =  i =1
(k + v)
s2 =
QMe
r
(11)
(12)
E o cálculo da estatística λ:
λ=
B0
π
2(π − 2) σˆ 0 2
(13)
O valor da estatística λ é, então, comparado ao valor tabelado da estatística de χ2:
χ2
si.

k 
 α ; ( π − 2 ) 


(14)
Se λ > χ2 rejeita-se H0 em favor da hipótese alternativa H1 de que os grupos diferem entre
No caso de rejeitar H0, os tratamentos dos dois subgrupos formados devem ser testados
entre si, seguindo os passos citados acima, encerrando o teste quando H0 não for rejeitada ou quando
sobrar apenas uma média no subgrupo (Ramalho et al., 2000). Um exemplo deste procedimento é
detalhado no anexo 1.
A escolha do TCMM
A escolha do teste a ser empregado depende única e exclusivamente do pesquisador
em função do tipo de hipótese formulada.
tipo II.
Todos os TCMM testam as hipóteses H0 ou H1 e, portanto, estão sujeitos aos erros tipo I e
Geralmente, o pesquisador controla a probabilidade α do erro tipo I, através da fixação do
nível de significância, por exemplo em 5%. Por outro lado, a probabilidade do erro tipo II (β) não é
constante, mas depende do valor verdadeiro do parâmetro. Ele depende também do tamanho da
amostra.
Considerando o nível de significância α do erro tipo I, Fisher (1954) citado por BUSSAB &
MORETTIN (2004) formulou uma escala de evidências contra a validade de H0, a qual é
classificada de marginal a fortíssima, inversamente proporcional ao nível de significância (Quadro
2). As considerações do autor referiam-se ao teste de qui-quadrado (χ2).
Quadro 3 – Escala de significância de Fisher.
0,1
0,05
0,025
Valor α
marginal
moderada
substancial
Evidência
0,01
forte
0,005
muito forte
0,001
fortíssima
A comparação de médias só pode ser feita após a análise da variância, pois exigem o
cálculo do quadrado médio do erro (QMe). A análise da variância expressa também o valor da
estatística F. Para comparar as médias de tratamentos, recomenda-se que o teste F tenha
demonstrado significância para tratamentos, sendo que neste caso, diz-se que o método usado para
comparar as médias é protegido.
A escolha do TCMM adequado exige que se leve em consideração tanto o nível de
significância como o poder do teste. O nível de significância de um teste é a probabilidade de
rejeitar a hipótese H0, quando na verdade H0 é verdadeira, ou seja, a probabilidade de cometer o erro
tipo I. Já o poder do teste é a probabilidade de rejeitar H0 quando H0 é realmente falsa, concluindo
de forma acertada. Portanto, quanto maior o poder de um teste, maior a probabilidade de ele induzir
a conclusões acertadas.
Assim, é claro que o pesquisador quer um teste com baixo nível de significância e poder
elevado. Como nível de significância e poder do teste estatístico são proporcionais, o dilema é que
diminuir o nível de significância implica diminuir o poder do teste, pois aumenta a taxa do erro β.
Vieira & Hoffmann (1989) citam que, se for escolhido para comparação o teste de Tukey ou
o teste de Dunnett, a 5%, o nível de significância para experimentos será 5%, mas o nível de
significância para comparações de médias será menor que 5%. Por outro lado, se for escolhido para
comparação de médias, o teste t ou o teste de Duncan, o nível de significância para comparação de
médias será de aproximadamente 5%, mas o nível de significância para experimentos será maior
que 5%, mas, em compensação, o poder do teste também será maior. Assim, se o pesquisador quer
ter alta chance de rejeitar a hipótese H0, pode optar pelo teste t ou teste de Duncan. Também,
observa-se que o teste Tukey a 5% apresenta maior poder do que o teste de Tukey a 1%.
A necessidade de aplicar um teste com grande poder ocorre, por exemplo, nos experimentos
de competição de cultivares. Neste caso, é importante a utilização de um teste estatístico com alta
probabilidade de discriminação e o erro de rejeitar H0 quando H0 é verdadeira, erro tipo I, tem
importância menor.
Por outro lado, se o pesquisador só pretende rejeitar H0 com muita confiança, deve optar
pelo teste de Tukey ou de Dunnett, com baixo nível de significância.
Assim, os adeptos da taxa de erro por experimento advogam o teste de Tukey, ou mesmo o
teste de Scheffé para contrastes mais gerais, como conservadores para contrastes de duas médias e
rejeitam o teste DMS e Duncan. Entretanto, os que aderem a taxa de erro por comparação sustentam
que a unidade básica é a comparação, não o experimento. Estes argumentam que, por exemplo, uma
decisão incorreta em um conjunto de comparações múltiplas em 40 experimentos de 10 tratamentos
não afeta a utilidade das restantes 39 comparações. Ademais, num teste com 5% de nível de
significância, há uma chance em 20 de uma decisão incorreta, de modo que em 40 comparações
deve-se tolerar cerca de duas decisões incorretas (Silva, 1997).
Além disso, em muitos experimentos, principalmente experimentos agrícolas de campo,
usualmente são esperadas diferenças de médias de tratamentos o que torna a consideração do erro
tipo II tão importante quanto à do erro tipo I. Por isso, a escolha entre os TCMM é feita coma
escolha entre uma taxa de erro por experimento, para o qual o teste de Tukey é recomendado, ou
uma taxa de erro por comparação, para a qual o teste DMS é o recomendado. O teste de Duncan é
um meio termo entre essa duas alternativas, sendo que as objeções ao teste de Duncan podem ser
minimizadas pela adoção de um nível de significância mais baixo, por exemplo, de 0,01 (Silva,
1997).
Porém, deve-se considerar que outros TCMM são disponíveis, de modo que o pesquisador
pode ampliar a base de sua escolha, sendo que não há tanta diferença entre os testes e qualquer um
pode ser utilizado, de acordo com os propósitos desejados. Assim, pode-se inferir que todo TCMM
possui vantagens e desvantagens e que existe uma grande margem de opção na escolha do teste e do
nível de significância, que devem estar de acordo com a hipótese inicial, ou seja, os objetivos do
pesquisador.
Comparação entre os TCMM
Os vários TCMM diferem fundamentalmente na filosofia do controle do erro tipo I. Para o
erro tipo I, nos TCMM, existem duas formas de medir esse erro. O cálculo da probabilidade em
todas as possíveis combinações de tratamentos tomados dois a dois, denominada de erro tipo I por
comparação. A segunda forma é calcular a probabilidade de efetuar pelo menos uma inferência
errada por experimento, denominada de erro tipo I por experimento (Ramalho et al., 2000).
O teste de Duncan e LSD não controlam a taxa de erro por experimento, mas controlam a
taxa de erro por comparação (Ramalho et al, 2000). Desse modo, Berhardson (1975), citado por
RAMALHO et al. (2000), numa simulação, observou que esse erro tem a probabilidade média de
ocorrer em 36,3% para o teste de Duncan e 59,1% para o teste LSD. Por outro lado, os testes de
Tukey e Scheffé controlam adequadamente as taxas de erro tipo I por experimento e por
comparação, preservando o nível nominal de significância (α).
Além disso, estes testes diferem quanto às pressuposições e, para um mesmo nível α de
erro, podem apresentar classificações diferentes entre as médias de tratamentos. Por isso, é
importante um estudo das pressuposições e das condições de cada teste, para decidir sobre a opção
mais acertada, levando em consideração os objetivos do experimento.
O poder ou potência de um teste estatístico é a probabilidade de rejeitar a hipótese nula H0,
quando a hipótese alternativa for verdadeira, não cometendo nenhum erro. A potência do teste é
calculada por 1 - β, como exemplo do exercício citado acima, com o valor verdadeiro da média μ =
52, quando n = 10, encontrou-se β = 0,2643; assim a potência do teste seria 1 - β = 1 - 0,2643 =
0,7357.
A potência é uma medida muito concisa da sensibilidade de um teste estatístico, ou seja a
capacidade de ele detectar todas as diferenças reais entre tratamentos. Ainda considerando o
exercício anterior, a sensibilidade do teste em detectar a diferença entre a média de 50 cm/s e 52
cm/s é 0,7357. Isto significa que, se a média verdadeira for realmente 52 cm/s, este teste rejeitará
corretamente H0: μ = 50 e detectará esta diferença em 73,57% das vezes. Se o valor de potência do
teste for considerado muito baixo, o pesquisador deve aumentar o tamanho da amostra (n).
Freqüentemente os testes estatísticos são comparados quanto às suas propriedades de
potência. Isto é realizado por meio de simulações, normalmente utilizando o método de Monte
Carlo. Perecin e Barbosa (1988) compararam o poder de alguns testes. Os autores observaram que o
teste t-Bayesiano concilia características desejáveis, pois foi o que apresentou o maior poder (33%)
e baixas taxas de erro tipo I, porém estas taxas não podem ser previstas com exatidão, pois variam
dependem do número de tratamentos e da magnitude de seus efeitos. O teste de Tukey apresentou o
menor poder (1%), enquanto que o teste de Duncan e o teste t apresentaram poder empírico
semelhante e na ordem de 22% e taxas de erro tipo I também semelhantes. Assim, os autores
concluíram que estes três testes não devem ser utilizados indiscriminadamente. Por sua vez, o teste
de Student-Knewman-Keuls (SNK) pode ser aplicado sem maiores cuidados, pois possui alto poder
e taxas de erro tipo I similares ao teste Tukey.
Berhardson (1975), citado por SILVA et al. (1999), numa simulação, observou que
conforme aumentou-se o número de tratamentos, a taxa de erro tipo I por comparação tendeu a ficar
abaixo da nominal para os testes SNK, Tukey e Scheffé e em menor escala para o teste de Duncan.
O teste t permaneceu oscilando em torno do nível nominal (5%). Quanto a taxa de erro tipo I por
experimento, o teste Scheffé permaneceu semelhante a taxa de erro por comparação, enquanto que
os níveis dos testes SNK e Tukey permaneceram em torno do nível nominal. Quando o número de
tratamentos foi igual a 10, a taxa de erro por experimento do teste de Duncan foi de 35% e o teste t
foi de 60%, sendo muito superiores ao nível nominal adotado, se mostrando inadequados para
controlar a taxa de erro por experimento (5%).
Segundo Ramalho et al. (2000) o teste de Tukey é muito afetado pelo número de
tratamentos, sendo que quanto mais tratamentos avaliados menor é o poder do teste.
Outro fator a ser considerado na escolha de um teste é a ambigüidade dos seus resultados,
pois a ambigüidade dificulta as interpretações e conclusões de um experimento, por não
apresentarem uma real separação de grupos de médias. Dos testes estatísticos, apenas o de ScottKnott elimina esta ambigüidade.
Silva et al. (1999), utilizando a simulação, observaram que, no teste de Scott-Knott, o erro
tipo I por comparação, estiveram sempre abaixo do nível nominal de significância. Além disso, o
poder do teste, para diferenças menores entre os tratamentos, foi praticamente o dobro do teste de
Duncan, t e SNK, e de até oito vezes em relação ao teste de Tukey, sendo o poder do teste
semelhante nas distribuições normais e não normais do resíduo, ou seja, o teste foi robusto à
violação da normalidade. O único teste que se comportou semelhantemente ao de Scott-Knott foi o
t-Bayesiano, o qual, Perecin e Barbosa (1988) consideraram como o de maior poder em seu estudo.
Segundo Silva (1997) de modo geral, o teste de Tukey é mais conservador que os testes
DMS e de Duncan no que se refere à probabilidade de erro tipo I, ou seja, declara significâncias
com menos freqüência que esses testes. Por sua vez, o teste de Duncan é mais conservador que o
teste DMS. Porém, o autor salienta que a menor probabilidade do erro tipo I implica em maior
probabilidade de erro tipo II e, por isso, o balanceamento apropriado entre essas duas
probabilidades de erro deve ser a base para a escolha entre estes três testes. A principal diferença
entre estes testes decorre das distintas taxas de erro que eles adotam. O teste DMS adota taxa de
erro por comparação e o teste de Tukey, taxa de erro por experimento, enquanto o teste Duncan usa
taxa de erro que não é baseada nem por experimento nem por comparação.
Borges & Ferreira (1999) através da simulação, compararam dois métodos de aproximações
para o teste t, avaliando a probabilidade de se cometer erro tipo I e erro tipo II, com o aumento da
diferença entre as variâncias de duas populações. Os autores concluíram que o poder do teste t a 5%
de significância é maior, à medida que aumenta a diferença entre médias populacionais, diminui a
razão entre as variâncias das duas populações e aumenta o tamanho da amostra. E que o método de
aproximação (Satterthwaite ou Cochran e Cox) não influenciou o poder do teste. O poder do teste (1
- β) é reduzido quando se tem pequenas diferenças entre médias populacionais e pequeno tamanho
de amostra, pois estes dois fatores aumentam o erro tipo II (β). Quando se consideraram variâncias
iguais das duas populações, o erro tipo I ficou abaixo dos níveis nominais e o teste apresentou boa
confiabilidade. Neste caso, o erro tipo II foi reduzido com o aumento da diferença entre as médias
populacionais. A porcentagem de erro tipo I não foi influenciada pelo tamanho maior da amostra,
enquanto que o erro tipo II foi influenciado pelo tamanho da amostra, pelo aumento da diferença
entre médias populacionais e pela razão entre as variâncias populacionais.
Em trabalho realizado por Santos et al. (2001) utilizando o método de simulação Monte
Carlo, observou-se que, sob H0 completa, as taxas de erro tipo I do teste de Scott-Knott modificado
foram baixas e iguais às do original, mas na situação de H0 parcial, foram maiores, apesar do poder
também ter sido superior. Os dois testes de Bonferroni modificados, I e II, tiveram poder alto, mas
não controlaram as taxas de erro tipo I. Os métodos de Scheffé modificados, I e II, tiveram poder
baixo, embora tenham controlado razoavelmente as taxas de erro tipo I.
Assim, observa-se que as comparações entre TCMM feitas através de simulações tem
revelado resultados contraditórios, em decorrência das diferentes condições e pressuposições
consideradas e, principalmente, das distintas taxas de erro dos testes comparados.
CONSIDERAÇÕES FINAIS
Os níveis de probabilidade mencionados nos testes estatísticos referem-se apenas ao
erro tipo I.
O erro tipo I é o único que pode ser controlado pelo experimentador, por meio da
fixação de um nível de significância α.
Para controlar simultaneamente os erros tipo I e II, reduzindo a probabilidade de eles
ocorrerem, deve-se aumentar o tamanho da amostra.
Ao afirmar-se que duas médias não diferem entre si, a margem de erro é
desconhecida e está situada num patamar acima do que seria considerado razoável.
Os testes estatísticos não provam igualdade entre tratamentos, apenas diferenças
entre os mesmos.
A escolha do teste a ser empregado depende única e exclusivamente do pesquisador
em função do tipo de hipótese formulada.
O teste de Scott-Knott apresenta vantagens em relação aos demais testes de comparação
múltipla de médias, por possuir poder elevado, taxas de erro tipo I quase sempre de acordo com os
níveis nominais, por ser robusto à violação da normalidade e por não apresentar ambigüidade dos
resultados.
O teste t ou DMS deve ser utilizado apenas para realizar comparações planejadas
inicialmente e jamais para contrastes sugeridos pelos dados.
REFERÊNCIAS
BEIGUELMAN, B. Curso prático de bioestatística. 4. ed. rev. Ribeirão Preto-SP: Sociedade
Brasileira de Genética. 1996. 242p.
BORGES, L. C. & FERREIRA, D. F. Comparação de duas aproximações do teste t com variâncias
heterogêneas através de simulação. Revista Ciência e Agrotecnologia, Lavras, v.23, n.2, p.390403. 1999.
BUSSAB, W. de O. & MORETTIN, P. A. Estatística básica. 5. ed. São Paulo: Saraiva. 2004.
526p.
CARDELLINO, R. A. & SIEWERDT, F. Utilização adequada e inadequada dos teste de
comparação de médias. Revista da Sociedade Brasileira de Zootecnia, Viçosa, v.21, n.6, p.985995. 1992.
FONSECA, J. S. da. & MARTINS, G. de A. Curso de estatística. 2. ed. São Paulo: Atlas. 1978.
173p.
LÚCIO, A. D.; LOPES, S. J.; STORCK, L.; CARPES, R. H.; LIEBERKNECHT, D.; NICOLA, M.
C. Características experimentais das publicações da Ciência Rural de 1971 a 2000. Ciência Rural,
Santa Maria, v.33, n.1, p.161-164. 2003.
MONTGOMERY, D. C.; RUNGER, G. C.; HUBELE, N. F. Estatística aplicada à engenharia. 2.
ed. Rio de Janeiro: LTC editora. 2004. 335p.
OLIVEIRA, P. H.; BRAIDA, J. A. Experimentação agrícola: apostila didática. Pato Branco:
CEFET. 2000. 51p.
PERECIN, D.; BARBOSA, J. C. Uma avaliação de seis procedimentos para comparações múltiplas.
Revista de Matemática e Estatística, Marília-SP, v.6, p.95-103. 1988.
PIMENTEL-GOMES, F. Curso de estatística experimental. 9. ed. Piracicaba: Nobel. 1981. 468p.
RAMALHO et al. Experimentação em genética e melhoramento de plantas. Lavras: UFLA.
2000. 326p.
SANTOS, J. W.; MOREIRA, J. A. N.; BELTRÃO, N. E. M. Avaliação do emprego de testes de
comparação de médias na revista Pesquisa Agropecuária Brasileira (PAB) de 1980 a 1994.
Pesquisa Agropecuária Brasileira, Brasília, v.33, n.3, p.225-230. 1998.
SANTOS, C. dos; FERREIRA, D. F.; BUENO FILHO, J. S. de S. Novas alternativas de testes de
agrupamento avaliadas por meio de simulação Monte Carlo. Revista Ciência e Agrotecnologia,
Lavras, v.25, n.6, p.1382-1392. 2001.
SCOTT, A. J.; KNOTT, M. A. A cluster analysis method for grouping means in the analysis of
variance. Biometrics, Washington, v.30, n.3, p.507-512. 1974.
SILVA, J. G. C. da. Estatística experimental II: Análise estatística de experimentos. Pelotas:
UFPel. 1997. 265p.
SILVA, E. C. da; FERREIRA, D. F.; BEARZOTI, E. Avaliação do poder e taxas de erro tipo I do
teste de Scott-Knott por meio do método de Monte Carlo. Revista Ciência e Agrotecnologia,
Lavras, v.23, n.3, p.687-696. 1999.
STORCK, L. & LOPES, S. J. Experimentação II. Santa Maria: UFSM. 1997. 197p.
VIEIRA, S. & HOFFMANN, R. Estatística experimental. São Paulo: Atlas. 1989. 179p.
ZIMMERMANN, F. J. P. Estatística aplicada à pesquisa agrícola. Santo Antônio de Goiás:
Embrapa Arroz e Feijão. 2004. 402p.
ANEXO 1
Exemplo:
Em um experimento, um pesquisador da UTFPR, Campus Pato Branco, testou quatro
formas de controle de Plantas Daninhas (PD) na cultura da cana-de-açúcar (T1 - Herbicida na dose
recomendada; T2 - Herbicida com 1/2 dose recomendada; T3 - Herbicida na dose recomendada +
adubação verde de crotalária; T4 - Herbicida com 1/2 dose recomendada + adubação verde de
crotalária). O delineamento experimental foi de blocos casualizados, com seis repetições. Os
resultados médios de produção de cana-de-açúcar em função dos tratamentos são descritos abaixo
(Tabela 1).
Tabela 1 – Rendimento de cana-de-açúcar (ton/ha), em função do controle de plantas daninhas.
Bloco (repetição)
Tratamentos
1
2
3
4
5
6
Soma (Yi.) Média
112
116,7 110,3
119,4
123,7
120,05
702,15 117,025
T1
86,15
91,75
83,4
89,15
94,3
92,49
537,24
89,54
T2
128,3
132,8 133,9
136,9
141,2
137,4
810,5 135,0833
T3
120,5
120,4 125,3
119,8
120,5
126,3
732,8 122,1333
T4
476,24
Soma (Y.j) 446,95 461,65 452,9 465,25 479,7
Soma total (Y..) 2782,69
Média geral 115,945417
Após a execução do experimento, obtenção e tabulação dos dados, deve-se primeiramente
efetuar a análise da variância, conforme procedimento abaixo:
Tabela 2 - Fórmulas do quadro de análise da variância.
Fontes de variação
GL
SQ
QM
Fcalc.
Ftab.
J-1
[(∑Y.j2/I) – (Y..2/I*J)] SQb/GLb QMb/Qme Fα (GLb;Gle)
Bloco (b)
I-1
[(∑Yi.2/J) – (Y..2/I*J)] SQt/GLt QMt/Qme Fα (GLt;Gle)
Tratamento (t)
(I -1) * (J-1) SQto – (SQb + SQt) SQe/Gle
Erro (e)
(I * J) -1
∑ij2 – (Y..2/I*J)
Total (to)
GL = Graus de liberdade; SQ = soma dos quadrados; QM = quadrado médio; Fcalc. = valor da
estatística F calculado; Ftab. = valor da estatística F tabelado.
Os cálculos baseados nestas fórmulas podem ser executados no programa Excel do
Windows, o que foi feito neste exemplo.
Tabela 3 - Quadro de análise da variância.
Fontes de variação
GL
5
Bloco (b)
3
Tratamento (t)
15
Erro (e)
23
Total (to)
SQ
204,2547708
6617,770179
151,1436458
6973,168596
QM
Fcalc.
Ftab. (5%)
40,850954 4,05418507*
2,9
2205,9234 218,923202*
3,29
10,076243
Após a formação do quadro da análise da variância, deve-se concluir se houve ou não
diferenças significativas pela estatística F dos tratamentos e dos blocos quando houver, como é
neste caso.
Conclusões:
Blocos: houve diferença significativa entre as médias de blocos, pelo teste F a 5% de
probabilidade de erro. Assim, os blocos foram utilizados de forma adequada, ou seja, havia
heterogeneidade entre os blocos, o que justifica seu uso para controle local. Isto demonstra que
próximos experimentos realizados nas mesmas condições locais, também deverão ser em
delineamento blocos casualizados, devido à heterogeneidade do local, não sendo recomendado o
uso do delineamento inteiramente casualizado.
Tratamentos: houve diferença significativa entre pelo menos duas médias de tratamentos,
pelo teste F a 5% de probabilidade de erro. Desse modo, na seqüência deverá ser aplicado um teste
de comparação de médias (TCM) para identificar quais os tratamentos que se diferenciaram entre si
e qual(is) foi(ram) o(s) melhor(es) e o pior(es) tratamento(s).
Neste caso como houve diferença significativa entre tratamentos e, como o teste F não
permite identificar entre quais tratamentos há as diferenças, devem-se aplicar os TCMM, pois tratase de tratamentos qualitativos sem ortogonalidade.
Abaixo serão exemplificados três TCMM, o teste t, o teste de Scheffé e o teste de ScottKnott.
TESTE t ou DMS
Procedimento
a) Calcular o valor comparador - DMS
DMS = t(α;Gle)
DMS = t(5%;15) *
2 * QMe
r
2 * 10,077
6
DMS = 2,13 * 1,833 = 3,9
b) Ordenar as médias em ordem decrescente
Tabela 4 – Médias ordenadas em ordem Decrescente
Formas de controle de PD da cana-de-açúcar
T3 (media 1)
T4 (média 2)
T1 (média 3)
T2 (média 4)
Rendimento médio (ton./ha)
135,08
122,13
117,03
89,54
c) Comparar as diferenças entre médias, duas a duas, com o valor comparador (DMS),
considerando que:
c.1) se a diferença entre médias é ≤ ao valor DMS, as médias não diferem estatisticamente;
c.2) se a diferença entre médias é > que o valor DMS, as médias diferem estatisticamente
entre si.
Primeiramente calcula-se a diferença da maior média em relação às demais iniciando pela
comparação com a menor média, até não apresentar diferença significativa.
m1 – m4 = 135,08 – 89,54 = 45,54 > DMS (há diferença significativa entre T3 e T2)
m1 – m3 = 135,08 – 117,03 = 18,05 > DMS (há diferença significativa entre T3 e T1)
m1 – m2 = 135,08 – 122,13 = 12,95 > DMS (há diferença significativa entre T3 e T4)
T3 diferiu significativamente de todos os outros tratamentos e, portanto, utiliza-se letra “a”
ao lado de sua média (Tabela 5).
A seguir, deve-se testar as diferenças com base na segunda maior média (m2), neste caso
T4.
m2 – m4 = 122,13 – 89,54 = 32,59 > DMS (há diferença significativa entre T4 e T2)
m2 – m3 = 122,13 – 117,03 = 5,1 > DMS (há diferença significativa entre T4 e T1)
T4 diferiu significativamente das demais médias e, portanto, utiliza-se letra “b” ao lado de
sua média (Tabela 5).
A seguir, é testado o contraste que ainda não foi testado, T1 com T2.
m3 – m4 = 117,03 – 89,54 = 27,49 > DMS (há diferença significativa entre T1 e T2)
Desse modo, como T1 diferiu de T2, ao lado de T1 vai a letra “c” e ao lado de T2 vai a letra
“d”.
d) Sumarização dos resultados, utilizando letras iguais para médias que não diferiram
estatisticamente e letras diferentes para médias que diferiram.
Observou-se que todas as médias diferiram entre si, colocando-se as letras ao lado das
médias segundo a Tabela 5.
Tabela 5 – Classificação das médias de rendimento de cana-de-açúcar em função do controle de
PD, pelo teste t, a 5% de probabilidade de erro.
Formas de controle de PD da cana-de-açúcar
Rendimento médio (ton./ha)
T3 (m1)
135,08 a*
T4 (m2)
122,13 b
T1 (m3)
117,03 c
T2 (m4)
89,54 d
* Tratamentos com médias não ligadas pela mesma letra, diferem a 5% de probabilidade de erro
pelo teste t.
e) Faz-se as conclusões pertinentes
Conclusões: o T3, herbicida na dose recomendada + adubação verde de crotalária,
proporcionou o maior rendimento de cana-de-açúcar, diferindo significativamente dos demais
tratamentos, pelo teste t a 5% de probabilidade de erro, enquanto que T2, herbicida em meia dose,
proporcionou o menor rendimento de cana-de-açúcar, diferindo significativamente dos demais
tratamentos, pelo teste t a 5% de probabilidade de erro (Tabela 5).
TESTE SCHEFFÉ
Procedimento
Primeiramente, calcula-se a estimativa do contraste, segundo a fórmula abaixo:
X = ∑iCiMi
X = m1 + m2 – m3 – m4
X = 117,03 + 89,54 – 135,08 – 122,13 = - 50,65 ton/ha
Em seguida, calcula-se a estimativa da variância do contraste, de acordo com o
procedimento abaixo:
V(X) =
QMe
∑iCi2
J
V(X) = (10,076243/6) * [(12) + (12) + (-12) + (-12)] = 6,717495333
Após, efetua-se a busca pelo valor da tabela F, a um nível α de significância, neste caso 5%,
e conforme o número de graus de liberdade de tratamentos e do erro, segundo fórmula abaixo:
F = F α (GLt; Gle)
F = F 5% (3;15) = 3,29
Finalmente, calcula-se o valor da diferença mínima significativa pela estatística D, segundo
expressão abaixo:
D=
( I − 1) * V ( X ) * F
D=
(4 − 1) * 6,717495333 * 3,29 = 8,1426
Assim, como X > D, conclui-se que, o contraste é significativo pelo teste Scheffé a 5% de
probabilidade de erro, sendo que o controle de PD em cana-de-açúcar utilizando a cultura da
crotalária como adubação verde somado ao efeito do herbicida proporcionou, na média, uma
produtividade superior à média do controle somente com herbicida.
Tabela 6 – Classificação das médias de rendimento de cana-de-açúcar em função do controle de
PD, pelo teste de Scheffé, a 5% de probabilidade de erro.
Formas de controle de PD da cana-de-açúcar
Rendimento médio (ton./ha)
Herbicida (dose recomendada) + adubação verde crotalária
135,08
Herbicida (1/2 dose recomendada) + adubação verde crotalária
122,13
Herbicida (dose recomendada)
117,03
Herbicida (1/2 dose recomendada)
89,54
TESTE DE SCOTT-KNOTT
Procedimento (utilizando valores do teste F do experimento citado acima)
Primeiramente, efetua-se o cálculo do número de partições possíveis, segundo a fórmula:
k–1=4–1=3
onde: k = número de tratamentos.
Para este caso, com quatro tratamentos, são possíveis três partições, descritas abaixo:
Partição 1: grupo 1 (média 1) e grupo 2 (média 2, média 3 e média 4);
Partição 2: grupo 1 (média 1 e média 2) e grupo 2 (média 3 e média 4);
Partição 3: grupo 1 (média 1, média 2 e média 3) e grupo 2 (média 4).
O segundo passo é calcular a soma de quadrados, representado por B0, entre os grupos de
cada partição, determinando a partição que maximize a soma de quadrados, utilizando a equação:
2
B0 =
2
T1
T
(T + T2 ) 2
+ 2 − 1
k1
k2
(k1 + k 2 )
Onde: T1 é a soma das médias do grupo 1, para cada uma das três partições descritas acima;
e T2 a soma das médias do grupo 2, para cada uma das três partições descritas acima. K1 e K2,
número de médias de tratamentos contidas no seu numerador.
Tabela 7 – Médias ordenadas em ordem Decrescente
Formas de controle de PD da cana-de-açúcar
T3 (media 1)
T4 (média 2)
T1 (média 3)
T2 (média 4)
Rendimento médio (ton./ha)
135,08
122,13
117,03
89,54
Partição 1 (média 1 versus média 2, 3 e 4)
B0 ={(135,082/1) + [(122,13 + 117,03 + 89,54)2/3] – [(135,08 + 122,13 + 117,03 + 89,54)2/4]} =
488,1976333
Partição 2 (média 1 e 2 versus média 3 e 4)
B0 ={[(135,08 + 122,13)2/2] + [(117,03 + 89,54)2/2] – [(135,08 + 122,13 + 117,03 + 89,54)2/4]} =
641,1024
Partição 3 (média 1, 2 e 3 versus média 4)
B0 ={[(135,08 + 122,13 + 117,03)2/3] + [(89,54)2/1] – [(135,08 + 122,13 + 117,03 + 89,54)2/4]} =
929,6320333
Assim, a partição 3 foi a que maximizou a soma de quadrados entre grupos.
Efetua-se, então, o cálculo do estimador de máxima verossimilhança:
k
2
2
∑ ( y ( i ) − y ) + vs 

σˆ 0 2 =  i =1
(k + v)
Onde:
y(i ) = média de cada i tratamento;
y = média geral dos i tratamentos;
v = graus de liberdade do erro;
s2 =
QMe
r
QMe = quadrado médio do erro;
r = número de repetições de cada tratamento;
k = número de médias envolvidas.
σˆ 0 2 = {[(135,08 – 115,945)2 + (122,13 – 115,945)2 + (117,03 – 115,945)2 + (89,54 – 115,945)2] +
[15* (10,076243/6)]} / (4 + 15) = 59,36812145
λ=
B0
π
2(π − 2) σˆ 0 2
λ = [3,1416/(2 * (3,1416 - 2)) * (929,6320333/59,36812145)] = 21,546
Na tabela de χ 2  α ; (π k− 2 ) 
Na tabela de χ2 (0,05; 4/(3,1416 - 2) = χ2 (0,05; 3,5 graus de liberdade)
Na tabela de χ2 = 8,65
Como λ > 8,65, rejeita-se H0, ou seja, dois grupos são formados ao nível de 5% de
probabilidade de erro, pelo teste de Scott-Knott, o grupo 1 com as médias 1 (T3), 2 (T4) e 3 (T1) e o
grupo 2 com a média 4 (T2), ou seja, a média 4 difere das demais médias.
Como já se sabe que m4 difere das demais médias, é necessário saber somente se as outras
médias (m1, m2 e m3) diferem entre si. Desse modo, repete-se o processo descrito acima para estas
médias.
As partições formadas são:
Partição 1: média 1 versus médias 2 e 3;
Partição 2: médias 1 e 2 versus média 3.
Calcular B0 e identificar a partição com maior soma de quadrados.
Partição 1
B0 ={(135,082/1) + [(122,13 + 117,03)2/2] – [(135,08 + 122,13 + 117,03)2/3]} = 160,16667
Partição 2
B0 ={[(135,08 + 122,13)2/2] + [(117,03)2/1] – [(135,08 + 122,13 + 117,03)2/3]} = 89,32042
Assim, a partição 1 (média 1 versus médias 2 e 3) é a que maximiza a soma de quadrados.
2
Calcular σˆ 0 e λ.
σˆ 0 2 = {[(135,08 – 124,75)2 + (122,13 – 124,75)2 + (117,03 – 124,75)2] + [15* (10,076243/6)]} / (3
+ 15) = 11,02
2
λ = [π/(2 * (π - 2)) * (Bo/ σˆ 0 )]
λ = [3,1416/(2 * (3,1416 - 2)) * (160,16667/11,02)] = 20
Na tabela de χ2 (α; g/(π - 2)
Na tabela de χ2 (0,05; 3/(3,1416 - 2) = χ2 (0,05; 2,63 graus de liberdade)
Na tabela de χ2 = 7,14
Como λ > 7,14, rejeita-se H0, ou seja, dois grupos são formados ao nível de 5% de
probabilidade de erro, pelo teste de Scott-Knott, o grupo 1 com a média 1 (T3) e o grupo 2 com as
médias 2 (T4) e 3 (T1), ou seja, a média 1 difere das médias 2 e 3 e as últimas não diferem entre si
(Tabela 8).
Tabela 8 – Classificação das médias de rendimento de cana-de-açúcar em função do controle de
PD, pelo teste de Scott-Knott, a 5% de probabilidade de erro.
Formas de controle de PD da cana-de-açúcar
Rendimento médio (ton./ha)
T3 (media 1)
135,08 a*
T4 (média 2)
122,13 b
T1 (média 3)
117,03 b
T2 (média 4)
89,54 c
* Tratamentos com médias não ligadas pela mesma letra, diferem a 5% de probabilidade de erro pelo
teste de Scott-Knott.
Desse modo, conclui-se que o controle de plantas daninhas utilizando herbicida na dose
recomendada e adubação verde com crotalária proporcionou o maior rendimento de cana-de-açúcar,
diferindo significativamente dos demais tratamentos pelo teste de Scott-Knott a 5% de
probabilidade de erro, enquanto que o controle de plantas daninhas com herbicida na metade da
dose recomendada proporcionou o menor rendimento de cana-de-açúcar, diferindo
significativamente dos demais tratamentos pelo teste de Scott-Knott a 5% de probabilidade de erro
(Tabela 8).
ANEXO 2
Exemplo:
Em um experimento, um pesquisador da UTFPR, Campus Pato Branco, testou cinco
variedades de cana-de-açúcar quanto ao rendimento de álcool. O delineamento experimental foi de
blocos casualizados, com quatro repetições. Os resultados médios de produção de álcool de cada
cultivar são descritos abaixo (Tabela 9).
Tabela 9 - Dados médios de rendimento de álcool (litros/parcela)
Bloco (repetição)
Tratamentos
1
2
3
4
74,7
76,4
73,2
69
1
78,9
73,3
84,2
73,2
2
81,9
79,8
85,4
90,6
3
90,8
101,2
97,4
95,2
4
63,8
65,8
67
68
5
390,1 396,5 407,2
396
Soma (Y.j)
Soma total (Y..)
Média geral
Soma (Yi.)
293,3
309,6
337,7
384,6
264,6
Média
73,325
77,4
84,425
96,15
66,15
1589,8
79,49
Tabela 10 - Fórmulas do quadro de análise da variância.
Fontes de variação
Bloco (b)
GL
J-1
SQ
2
2
[(∑Y.j /I) – (Y.. /I*J)]
2
2
Tratamento (t)
Erro (e)
I-1
(I -1) * (J-1)
[(∑Yi. /J) – (Y.. /I*J)]
SQto – (SQb + SQt)
Total (to)
(I * J) -1
∑ij – (Y.. /I*J)
2
QM
Fcalc.
Ftab.
SQb/GLb
QMb/Qme
Fα (GLb;Gle)
SQt/GLt
SQe/Gle
QMt/Qme
Fα (GLt;Gle)
QM
10,139333
522,24075
17,98475
Fcalc.
0,563773938
29,03797662*
Ftab. (5%)
3,49
3,26
2
Tabela 11 - Quadro de análise da variância.
Fontes de variação
GL
SQ
3
30,418
Bloco (b)
4
2088,963
Tratamento (t)
12
215,817
Erro (e)
19
2335,198
Total (to)
Conclusão:
Blocos: não houve diferença significativa entre as médias de blocos, pelo teste F a 5% de
probabilidade de erro. Assim, os blocos foram utilizados de forma inadequada, ou seja, havia
homogeneidade onde se julgou não haver. Por isso, num próximo experimento nas mesmas
condições locais, poderá ser utilizado o delineamento inteiramente casualizado, devido à
homogeneidade local.
Tratamentos: houve diferença significativa entre pelo menos duas médias de tratamentos,
pelo teste F a 5% de probabilidade de erro. Desse modo, na seqüência deverá ser aplicado um teste
de comparação de médias (TCM) para identificar quais os tratamentos que se diferenciaram entre si
e qual(is) foi(ram) o(s) melhor(es) e o pior(es) tratamento(s).
TESTE DE TUKEY
Este teste pode ser utilizado para comparar todo e qualquer contraste entre duas médias de
tratamentos. Não necessita de significância do teste F para tratamentos.
Procedimento
Primeiramente calcula-se o delta (Δ), segundo fórmulas abaixo, sendo que toda diferença
entre duas médias estimadas de tratamentos maior que Δ é considerada significativa a um nível α
de erro.
Δα = q α(I;GLe)
V (X) =
V (X )
2
2QMe
J
Δ5% = q5%(5;12)
(2 * 17,98475)/4
2
Δ5% = 4,51 * 2,12 = 9,56
Segundo passo é ordenar as médias em ordem decrescente.
Tabela 12 – Médias ordenadas em ordem decrescente.
Variedade de cana-de-açúcar
T4 (media 1 – m1)
T3 (média 2 – m2)
T2 (média 3 – m3)
T1 (média 4 – m4)
T5 (média 5 – m5)
Rendimento médio (L/parcela)
96,15
84,42
77,40
73,32
66,15
Em seguida comparar a maior média (m1), neste caso T4, com as demais médias, iniciando
com a menor.
m1 – m5 = 96,15 – 66,15 = 30 > Δ (há diferença significativa entre T4 e T5)
m1 – m4 = 96,15 – 73,32 = 22,83 > Δ (há diferença significativa entre T4 e T1)
m1 – m3 = 96,15 – 77,40 = 18,75 > Δ (há diferença significativa entre T4 e T2)
m1 – m2 = 96,15 – 84,42 = 11,73 > Δ (há diferença significativa entre T4 e T3)
T4 diferiu significativamente de todos os outros tratamentos e, portanto, utiliza-se letra “a”
ao lado de sua média (Tabela 13).
A seguir, deve-se testar os contrastes com base na segunda maior média (m2), neste caso
T3.
m2 – m5 = 84,42 – 66,15 = 18,27 > Δ (há diferença significativa entre T3 e T5)
m2 – m4 = 84,42 – 73,32 = 11,1 > Δ (há diferença significativa entre T3 e T1)
m2 – m3 = 84,42 – 77,40 = 7,02 < Δ (não há diferença significativa entre T3 e T2)
Ao lado das médias T3 e T2 coloca-se a letra “b” (Tabela 13).
A seguir, deve-se testar os contrastes com base na terceira maior média (m3), neste caso T2.
m3 – m5 = 77,40 – 66,15 = 11,25 > Δ (há diferença significativa entre T2 e T5)
m3 – m4 = 77,40 – 73,32 = 4,08 < Δ (não há diferença significativa entre T2 e T1)
Desse modo, ao lado das médias T2 e T1 coloca-se a letra “c”, como a média T2 já possui a
letra “b”, por não diferir de T3, ao lado de sua média fica “bc”, gerando resposta ambígua (Tabela
13).
Deve-se fazer as comparações restantes, neste caso, apenas o contraste entre T1 e T5.
m4 – m5 = 73,32 – 66,15 = 7,17 < Δ (não há diferença significativa entre T1 e T5)
Assim, ao lado das médias T1 e T5 coloca-se a letra “d”, como a média T1 já possui a letra
“c”, por não diferir de T2, ao lado de sua média fica “cd”, também gerando resposta ambígua
(Tabela 13).
Tabela 13 – Classificação das médias de rendimento de álcool em função da variedade de cana-deaçúcar, pelo teste de Tukey, a 5% de probabilidade de erro.
Variedade de cana-de-açúcar
Rendimento médio (L/parcela)
T4 (media 1 – m1)
96,15 a*
T3 (média 2 – m2)
84,42 b
T2 (média 3 – m3)
77,40 bc
T1 (média 4 – m4)
73,32 cd
T5 (média 5 – m5)
66,15 d
* Tratamentos com médias não ligadas pela mesma letra, diferem a 5% de probabilidade de erro pelo teste de
Tukey.
Conclusão: A variedade de cana-de-açúcar T4 obteve o maior rendimento de álcool,
diferindo significativamente das demais variedades, pelo teste de Tukey a 5% de probabilidade de
erro, enquanto que a variedade T5, obteve o menor rendimento de álcool, não diferindo
significativamente da variedade T1, pelo teste de Tukey a 5% de probabilidade de erro (Tabela 13).
TESTE DE DUNCAN
Procedimento
Primeiramente calcula-se o Du, para cada contraste, segundo fórmulas abaixo, sendo que
toda diferença entre duas médias estimadas de tratamentos maior que Du é considerada significativa
a um nível α de erro.
V (X )
Du = Zu
2
(para u = número de médias de tratamentos abrangidas no contraste, 2,3,4, ...I;
considerando este caso, com 5 tratamentos, são calculados D2, D3, D4 e D5)
V (X) =
2QMe
J
Zu = (Gle; u (numero de médias abrangidas em cada contraste)) a um nível α de
significância, retirado da tabela de Duncan.
Cálculo de Du a 5% de probabilidade de erro.
Du = Zu
V (X )
2
D2 = Z2 (GLe; 2)
D2 = Z2 (12; 2)
D2 = 3,08
2
(2 * 17,98475) / 4
2
(2 * 17,98475) / 4
2
D3 = Z3 (12; 3)
D3 = 3,23
(2 * 17,98475) / 4
(2 * 17,98475) / 4
2
(2 * 17,98475) / 4
D4 = Z4 (12; 4)
= 6,53
2
= 6,85
(2 * 17,98475) / 4
2
D4 = 3,33
(2 * 17,98475) / 4
2
D5 = Z5 (12; 5)
D5 = 3,36
= 7,06
(2 * 17,98475) / 4
2
(2 * 17,98475) / 4
2
= 7,12
O segundo passo é ordenar as médias em ordem decrescente.
Tabela 14 – Médias ordenadas em ordem decrescente.
Variedade de cana-de-açúcar
T4 (media 1 – m1)
T3 (média 2 – m2)
T2 (média 3 – m3)
T1 (média 4 – m4)
T5 (média 5 – m5)
Rendimento médio (L/parcela)
96,15
84,42
77,40
73,32
66,15
Em seguida comparar a maior média (m1), neste caso T4, com as demais médias, iniciando
com a menor.
m1 – m5 = 96,15 – 66,15 = 30 > D5 (há diferença significativa entre T4 e T5)
m1 – m4 = 96,15 – 73,32 = 22,83 > D4 (há diferença significativa entre T4 e T1)
m1 – m3 = 96,15 – 77,40 = 18,75 > D3 (há diferença significativa entre T4 e T2)
m1 – m2 = 96,15 – 84,42 = 11,73 > D2 (há diferença significativa entre T4 e T3)
T4 diferiu significativamente de todos os outros tratamentos e, portanto, utiliza-se letra “a”
ao lado de sua média (Tabela 15).
A seguir, deve-se testar os contrastes com base na segunda maior média (m2), neste caso
T3.
m2 – m5 = 84,42 – 66,15 = 18,27 > D4 (há diferença significativa entre T3 e T5)
m2 – m4 = 84,42 – 73,32 = 11,1 > D3 (há diferença significativa entre T3 e T1)
m2 – m3 = 84,42 – 77,40 = 7,02 > D2 (há diferença significativa entre T3 e T2)
T3, a segunda maior média, diferiu significativamente de todos os outros tratamentos e,
portanto, utiliza-se letra “b” ao lado de sua média (Tabela 15).
A seguir, deve-se testar os contrastes com base na terceira maior média (m3), neste caso T2.
m3 – m5 = 77,40 – 66,15 = 11,25 > D3 (há diferença significativa entre T2 e T5)
m3 – m4 = 77,40 – 73,32 = 4,08 < D2 (não há diferença significativa entre T2 e T1)
Desse modo, ao lado das médias T2 e T1 coloca-se a letra “c” (Tabela 15).
Faz-se as comparações restantes, neste caso, apenas o contraste entre T1 e T5.
m4 – m5 = 73,32 – 66,15 = 7,17 > D2 (há diferença significativa entre T1 e T5)
Assim, ao lado da média T5 coloca-se a letra “d” (Tabela 15).
Tabela 15 – Classificação das médias de rendimento de álcool em função da variedade de cana-deaçúcar, pelo teste de Duncan, a 5% de probabilidade de erro.
Variedade de cana-de-açúcar
Rendimento médio (L/parcela)
T4 (media 1 – m1)
96,15 a*
T3 (média 2 – m2)
84,42 b
T2 (média 3 – m3)
77,40 c
T1 (média 4 – m4)
73,32 c
T5 (média 5 – m5)
66,15 d
* Tratamentos com médias não ligadas pela mesma letra, diferem a 5% de probabilidade de erro pelo teste de
Duncan.
Conclusão: A variedade de cana-de-açúcar T4 obteve o maior rendimento de álcool,
diferindo significativamente das demais variedades, pelo teste de Duncan a 5% de probabilidade de
erro, enquanto que a variedade T5 obteve o menor rendimento de álcool, diferindo
significativamente das demais variedades, pelo teste de Duncan a 5% de probabilidade de erro
(Tabela 15).
Download

Erros tipo I e tipo II e testes de comparação múltipla de médias