Erros tipo I e tipo II e testes de comparação múltipla de médias Moeses Andrigo Danner e Simone Aparecida Zolet Sasso* *Alunos de Mestrado da Universidade Tecnológica Federal do Paraná, Campus Pato Branco-PR. Resumo – a maioria dos livros didáticos da área de estatística básica e experimentação agrícola não apresenta detalhadamente os erros tipo I e tipo II dos testes de hipótese e os vários aspectos dos testes de comparação múltipla de médias. Do mesmo modo, apresentam estes dois assuntos separadamente, quando na realidade eles são intrínsecos, o que dificulta a compreensão geral para a utilização destes testes. Assim, esta revisão bibliográfica tem como objetivos descrever os erros tipo I e tipo II dos testes de hipótese, relacionar formas de reduzir a probabilidade de ocorrência destes erros e apresentar alguns aspectos comparativos entre testes de comparação múltipla de médias. Observou-se que os erros podem ser reduzidos com medidas simples, as quais aumentarão a qualidade dos experimentos científicos e que o teste de Scott-Knott apresenta vantagens em relação aos demais testes de comparação múltipla de médias, a saber: poder elevado, taxas de erro tipo I quase sempre de acordo com os níveis nominais, por ser robusto à violação da normalidade e por não apresentar ambigüidade dos resultados. INTRODUÇÃO Em qualquer pesquisa na área de ciências agrárias é formulada uma hipótese inicial, a qual é a síntese do problema a ser resolvido, e é testada ao final da pesquisa. O principal teste de hipótese na área de ciências agrárias é o teste F, que testa as variâncias entre os dados. Os erros tipo I e tipo II são intrínsecos aos testes de hipótese e podem ser minimizados com alguns procedimentos simples no planejamento e execução da pesquisa. Após verificada a existência da significância do teste F para tratamentos, em experimentos onde foram testados mais de dois tratamentos qualitativos de efeito fixo, há a necessidade de definir-se entre quais tratamentos ocorrem as diferenças indicada pelo teste F. Isto pode ser realizado utilizando um teste de comparação múltipla de médias (TCMM) ou pelo uso de contrastes. Atualmente são conhecidos aproximadamente trezentos testes, dentre os mais comuns podem ser listados: t ou DMS, Tukey, Duncan, Student-Newman-Keuls (SNK), Dunnet, Scheffé e Scott-Knott. Todos estes testes apresentam vantagens e desvantagens quando comparados entre si, sendo empregados nas comparações entre todos os pares de tratamentos os testes DMS, Tukey, Duncan e SNK; entre grupos de tratamentos os testes DMS, Scheffé e Scott-Knott; ou na comparação de cada tratamento contra uma testemunha, como é o caso do teste de Dunnett. Os contrastes ortogonais são utilizados para comparar grupos de tratamentos que possuem ortogonalidade entre si, ou seja, os tratamentos são totalmente diversos, como exemplo o contraste entre capina manual e capina química. A escolha do teste a ser empregado depende única e exclusivamente do pesquisador em função do tipo de hipótese formulada. O emprego dos métodos estatísticos pode contribuir grandemente para a eficiência da pesquisa experimental e para a validade das conclusões obtidas, sendo uma ferramenta que auxilia na interpretação dos resultados, tornando-os mais nítidos. Entretanto, o desconhecimento dos fundamentos dos métodos estatísticos, especialmente no que diz respeito aos requisitos para a validade de suas aplicações, conduz, freqüentemente, ao seu mau uso. Corrobora com isto, as facilidades dos recursos de computação, pois é freqüente o uso automático de procedimentos de análise de dados disponíveis em ferramentas de análise estatística sem a verificação de sua adequabilidade e validade, principalmente no que diz respeito às inerentes pressuposições exigidas. Por isso, é necessário que o pesquisador compreenda claramente as técnicas estatísticas que utiliza. Na pesquisa agropecuária, os testes estatísticos freqüentemente são utilizados de forma inadequada. Cardellino & Siewerdt (1992) e Santos et al. (1998) avaliaram como inadequada, a maioria dos trabalhos analisados por TCMM, respectivamente na Revista da Sociedade Brasileira de Zootecnia e da Pesquisa Agropecuária Brasileira. Lúcio et al. (2003), avaliando trabalhos publicados na revista Ciência Rural, consideraram 25% e 26% dos trabalhos inadequados, da área vegetal e animal, respectivamente. Torna-se evidente, então, a falta de conhecimento por parte dos pesquisadores das técnicas de TCMM e que, quando se realiza um experimento, há a necessidade de considerar além do tamanho da amostra, da parcela experimental, do número de repetições, delineamento experimental é necessário considerar a estrutura dos tratamentos para que possam ser realizadas corretamente as comparações, respeitando as hipóteses estabelecidas a priori. Também é oportuno salientar as limitações da validade de inferências estatísticas. Assim, por exemplo, o emprego de métodos estatísticos não prova que um ou mais fatores de um experimento têm efeitos particulares, apenas fornece orientações referentes à confiabilidade e validade dos resultados. Portanto, o emprego dos métodos estatísticos apropriados não permite a prova definitiva de argumentos baseados nos resultados de um experimento particular, mas permite a avaliação do erro provável de uma conclusão. Esta revisão bibliográfica tem como objetivos descrever os erros tipo I e tipo II dos testes de hipótese, relacionar formas de reduzir a probabilidade de ocorrência destes erros e apresentar alguns aspectos comparativos entre testes de comparação múltipla de médias. ERROS TIPO I E TIPO II Após a coleta e tabulação dos dados experimentais, o pesquisador deve dar um tratamento estatístico adequado aos mesmos, para verificar se as variações observadas entre os dados são ou não são significativas estatisticamente. Além disso, será possível determinar com que nível de significância uma hipótese estudada é aceita ou rejeitada. O processo utilizado para decidir se uma hipótese é verdadeira ou falsa, ou se os resultados obtidos com os diversos tratamentos são diferentes ou não, é chamado de teste de hipótese ou teste de significância. O teste de hipótese estatístico é o mais generalizado instrumento de indução estatística, tendo aplicações em vários setores das ciências sociais e naturais (Fonseca & Martins, 1978), servindo para tirar conclusões sobre parâmetros de uma população, utilizando a informação contida numa amostra desta população (Montgomery et al., 2004). Se a informação obtida da amostra for consistente com a hipótese, então se conclui que a hipótese é verdadeira; no entanto, se essa informação for inconsistente com a hipótese, conclui-se que a hipótese é falsa. Porém, deve ser enfatizado que, a verdade ou falsidade de uma hipótese nunca pode ser conhecida com certeza, a menos que seja examinada a população inteira, sendo que isso é geralmente impossível em muitas situações práticas. Por isso, o teste de hipótese é desenvolvido sendo intrínseca a probabilidade de alcançar uma conclusão errada. Em geral, para aplicar um teste de significância, inicialmente são formuladas duas hipóteses estatísticas (Oliveira & Braida): a primeira, comumente chamada de hipótese de nulidade (H0); a segunda é a hipótese alternativa ou complementar (H1), que é aceita quando H0 for rejeitada. H0 é a hipótese de que não há diferença entre os tratamentos utilizados, enquanto H1 a hipótese de que há diferenças entre os mesmos. Ao final do teste, decide-se aceitar H0 em detrimento de H1 ou rejeitar H0 em favor de H1. Existe sempre a probabilidade de que as conclusões do teste de hipótese não estejam corretas, ao tomar-se qualquer uma das duas decisões citadas, sujeitando-se incorrer em um dos seguintes erros (Pimentel-Gomes, 2000): Erro Tipo I: é o erro cometido quando rejeita-se H0 sendo H0 verdadeira, ou seja, chegar a um resultado que tem significância estatística quando na verdade ele ocorreu por acidente. Um teste com alta especificidade terá menor probabilidade de ocorrer erros tipo I. Denominado de erro α. Erro Tipo II: é o erro cometido quando não rejeita-se H0 sendo H0 falsa, denominado de erro β. Quando a probabilidade de ocorrer o erro tipo II diminui, aumenta proporcionalmente a probabilidade de ocorrer o erro tipo I. Este tipo de erro é mais freqüente que o erro α. Os quadros 1 e 2 exemplificam teoricamente os erros tipo I e tipo II (Pimentel-Gomes, 2000). Quadro 1 – Erros tipo I e tipo II cometidos em função da decisão tomada no teste de hipótese. Decisão Não rejeita H0 Rejeita H0 H0 é verdadeira Correto Erro tipo I H0 é falsa Erro tipo II Correto Quadro 2 - Probabilidade de ocorrer os erros tipo I e tipo II, complemento do quadro 1. Probabilidade de não rejeitar H0 Probabilidade de rejeitar H0 Quando H0 for verdadeira 1-α Quando H0 for falsa α 1-β β Os erros tipo I e Tipo II são associados, sendo que ao diminuir-se a probabilidade da ocorrência de um deles, aumenta-se conseqüentemente na mesma proporção a probabilidade de ocorrência do outro. De um modo geral, controlamos apenas o erro Tipo I, através da adoção de um Nível de Significância (NS) do teste estatístico, representado por α. Este NS indica a probabilidade máxima de ocorrência do erro Tipo I. Quando utiliza-se um NS de 5% (α = 0,05), isto significa que existe 5% de probabilidade de se cometer o erro Tipo I, ou seja, errar ao rejeitar H0, tendo conseqüentemente um grau de confiança de 95% de probabilidade de tomar uma decisão correta. Para reduzir a taxa de erro tipo I, basta por exemplo, reduzir NS α de 0,05 para 0,01. No entanto, isto aumentará automaticamente a taxa do erro tipo II. A redução do erro tipo II pode ser obtida aumentando a potência ou poder do teste estatístico, que é a probabilidade de rejeitar H0 quando H0 é falsa, descrita por 1 – β, ou seja, é o complemento do erro tipo II. Um teste com alta sensitividade terá menos erros do tipo II. Para aumentar a potência do teste estatístico, devem-se efetuar vários procedimentos de fácil execução (Pimentel-Gomes, 2000): 1. reduzir o erro experimental, controlando ao máximo fatores exógenos ao experimento; 2. aumentar as diferenças entre os tratamentos, para aumentar a probabilidade de diferenciação entre os mesmos, pois quanto maior a diferença em relação a média, maior o poder do teste e menor a probabilidade de ocorrer o erro tipo II; 3. empregar um delineamento experimental adequado, inteiramente casualizado quando houver homogeneidade entre todas as unidades experimentais (U.E.) e efetuar controle local quando necessário, o que reduz o erro experimental, e, principalmente; 4. aumentar o número de U.E. (n) do experimento, para aumentar os graus de liberdade do erro, o qual é, então, melhor estimado. Quanto maior o n, maior a potência do teste e maior a sensibilidade em detectar diferenças. Este último procedimento reduz simultaneamente a probabilidade de ocorrer os erros tipo I e tipo II. A potência de um teste considerada razoável seria 1 – β = 1 – 0,2 = 0,8 ou 80%. Teste de uma hipótese estatística Como ilustração, considere-se o seguinte teste de hipótese (Montgomery et al., 2004): H0: μ = 50 cm/s (hipótese nula) H1: μ ≠ 50 cm/s (hipótese alternativa) Onde: μ representa a média verdadeira da população, porém é hipotética, pois na verdade não se sabe a média verdadeira. Supondo que uma amostra de n = 10 indivíduos, testa-se a média x da amostra, a qual é utilizada estatística do teste. Considerando, segundo os interesses do pesquisador em relação ao experimento, um nível crítico de ± 1,5, ou seja um intervalo de confiança em relação a média de 48,5 ≤ x ≤ 51,5, ou seja, neste intervalo, chamado de região de aceitação, H0 não é rejeitada. Se x < 48,5 ou x > 51,5, estes valores constituirão a região crítica, rejeita-se a hipótese nula em favor da hipótese alternativa H1. Desse modo, se a amostragem aleatória da população for feita de forma a não representar fielmente a mesma, a x pode cair na região crítica induzindo a rejeição de H0, quando na verdade H0 é verdadeira (Erro Tipo I) ou, a x pode cair na região de aceitação induzindo a não rejeição de H0, quando na verdade H0 é falsa (Erro Tipo II). Assim, os erros tipo I e tipo II, são intrínsecos ao teste de hipótese, e pode ser calculada a probabilidade dos mesmos ocorrerem. Cálculo da probabilidade de se cometer um erro tipo I Representado por: α = P(Erro Tipo I) = P(rejeitar H0, quando H0 é verdadeira) Onde: α é o nível de significância ou tamanho do teste. Considerando que o desvio padrão (σ) da população é de 2,5 cm/s. Aplica-se o teorema central do limite, assumindo que a distribuição da média da amostra pode ser considerada normal, com o desvio padrão dado por σ/ n = 2,5/ 10 = 0,79. A probabilidade de se cometer o erro tipo I, ou o nível de significância do teste, é: α = P( x < 48,5 quando μ = 50) + P( x > 51,5 quando μ = 50) Calculam-se as variáveis padronizadas z1 e z2. z1 = (x1 – μ)/ σ = (48,5 – 50)/0,79 = - 1,9 z2 = (x2 – μ)/ σ = (51,5 – 50)/0,79 = 1,9 Desse modo, α = P(z < - 1,9) + P(z > 1,9), olha-se na tabela de z. α = 0,0288 + 0,0288 = 0,0576. Ou seja, 5,76% das amostras escolhidas aleatoriamente induziriam ao erro tipo I, rejeitar H0 quando H0 for verdadeira, μ = 50 cm/s. Pode-se reduzir α, alargando a região de aceitação. Por exemplo, considerar os valores críticos de 48 e 52. o valor de α será: α = P( x < 48 quando μ = 50) + P( x > 52 quando μ = 50) Calculam-se as variáveis padronizadas z1 e z2. z1 = (x1 – μ)/ σ = (48 – 50)/0,79 = - 2,53 z2 = (x2 – μ)/ σ = (52 – 50)/0,79 = 2,53 Desse modo, α = P(z < - 2,53) + P(z > 2,53), olha-se na tabela de z. α = 0,0057 + 0,0057 = 0,0114. Ou seja, 1,14% das amostras escolhidas aleatoriamente induziriam ao erro tipo I, rejeitar H0 quando H0 for verdadeira, μ = 50 cm/s. Outra forma de reduzir α é aumentando o tamanho da amostra. Se o valor de n for aumentado de 10 para 25, α será: σ/ n = 2,5/ 25 = 0,5. z1 = (x1 – μ)/ σ = (48,5 – 50)/0,5 = - 3 z2 = (x2 – μ)/ σ = (51,5 – 50)/0,5 = 3 Desse modo, α = P(z < - 3) + P(z > 3), olha-se na tabela de z. α = 0,00135 + 0,00135 = 0,0027. Ou seja, 0,27% das amostras escolhidas induzirão ao erro tipo I, rejeitar H0 quando H0 for verdadeira. Observa-se que o aumento de n de 10 para 25 reduziu drasticamente, de 5,76% para 0,27% a probabilidade de ocorrer o erro tipo I. Cálculo da probabilidade de se cometer um erro tipo II Representado por: β = P(Erro Tipo II) = P(não rejeitar H0, quando H0 é falsa). Utilizando os mesmo dados do exemplo anterior, deve-se ter uma hipótese alternativa H1 específica, por exemplo H1 : μ = 52, tal como encontrar a probabilidade de não rejeitar a hipótese nula H0: μ = 50 cm/s, quando a média verdadeira for μ = 52 cm/s. β = P(48,5 ≤ x ≤ 51,5, quando μ = 52). Calculam-se as variáveis padronizadas z1 e z2. z1 = (x1 – μ)/ σ = (48,5 – 52)/0,79 = - 4,43 z2 = (x2 – μ)/ σ = (51,5 – 52)/0,79 = - 0,63 β = P(- 4,43 ≤ z ≤ - 0,63) = P(z ≤ - 0,63) - P(z ≤ - 4,43) β = P (0,2643 - 0,00000471) ≅ 0,2643 Ou seja, 26,43% das amostras escolhidas induzirão ao erro tipo II, não rejeitar H0 quando H0 for falsa. Se a média verdadeira for reduzida para μ = 50,5 cm/s. β = P(48,5 ≤ x ≤ 51,5, quando μ = 50,5 cm/s). Calculam-se as variáveis padronizadas z1 e z2. z1 = (x1 – μ)/ σ = (48,5 – 50,5)/0,79 = - 2,53 z2 = (x2 – μ)/ σ = (51,5 – 50,5)/0,79 = 1,27 β = P(- 2,53 ≤ z ≤ 1,27) = P(z ≤ 1,27) - P(z ≤ - 2,53) β = P (0,8980 - 0,0057) = 0,8923 Ou seja, 89,23% das amostras escolhidas induzirão ao erro tipo II, não rejeitar H0 quando H0 for falsa. Assim, a probabilidade do erro tipo II é muito maior para o caso em que a média verdadeira é 50,5 cm/s do que para o caso em que a média é 52 cm/s. A probabilidade do erro tipo II também depende do tamanho da amostra. Se o valor de n for aumentado de 10 para 25, ocorre o seguinte: σ/ n = 2,5/ 25 = 0,5. Calculam-se as variáveis padronizadas z1 e z2. z1 = (x1 – μ)/ σ = (48,5 – 52)/0,5 = - 7 z2 = (x2 – μ)/ σ = (51,5 – 52)/0,5 = - 1 β = P(- 7 ≤ Z ≤ - 1) = 0,16 - 0,00000000000129 ≅ 0,16 Ou seja, 16% das amostras escolhidas induzirão ao erro tipo II, não rejeitar H0 quando H0 for falsa. Observa-se que o aumento de n de 10 para 25 reduziu de 26,43% para 16% a probabilidade de ocorrer o erro tipo II. Assim, comprova-se que o aumento de n reduz simultaneamente a probabilidade de ocorrer os erros tipo I e tipo II. Desse modo, observa-se que (Montgomery et al., 2004): - O tamanho da região crítica, e conseqüentemente a probabilidade do erro tipo I, pode sempre ser reduzido através da seleção apropriada dos valores críticos; - os erros tipo I e tipo II são relacionados. Se o tamanho da amostra não variar, a redução da probabilidade de um tipo de erro sempre resulta em aumento da probabilidade do outro; - quando a hipótese nula é falsa, β aumenta a medida que o valor do parâmetro se aproxima do valor usado na hipótese nula, sendo que o valor de β diminui a medida que aumenta a diferença entre a média verdadeira e o valor utilizado na hipótese; - somente o aumento do tamanho da amostra, proporciona a redução simultânea da probabilidade de ocorrer erro tipo I (α) e erro tipo II (β). Geralmente, o pesquisador controla a probabilidade α do erro tipo I, através da fixação do nível de significância. Por outro lado, a probabilidade do erro tipo II (β) não é constante, mas depende do valor verdadeiro do parâmetro. Ele depende também do tamanho da amostra. Assim, seguindo demonstração descrita em Fonseca & Martins (1978), supondo que α = 0,05 = P(erro tipo I) = P( x C1 ≤ x ≤ x C2, quando μ = 50 cm/s) Esse erro é dividido entre as duas caudas da distribuição da amostragem das médias (α/2 = 0,025). Assim: z (limite 1) = valor tabelado z0,025 = -1,96 z (limite 2) = valor tabelado z0,025 = 1,96 Considerando n = 10 e σ = 2,5, calcula-se os valores críticos (limites). ( x C1 - μ)/( σ/ n ) = - 1,96 ( x C1 - 50)/(2,5/ 10 ) = - 1,96 x C1 = ((-1,96 * (2,5/ 10 )) + 50 = 48,45 cm/s ( x C2 - μ)/( σ/ n ) = 1,96 ( x C2 - 50)/(2,5/ 10 ) = 1,96 x C2 = ((1,96 * (2,5/ 10 )) + 50 = 51,55 cm/s α = P( x C1 ≤ x ≤ x C2) = 0,05 α = 0,05 = P(48,45 ≤ x ≤ 51,55, quando μ = 50 cm/s) = 0,05 Desse modo, se a média da amostra cair abaixo de 48,45 ou acima de 51,55 rejeita-se H0; caso contrário, se a média cair dentro dos limites, não rejeita-se H0. Para o erro tipo II, β, deve-se especificar um valor alternativo para μ e fixar os valores críticos. Considerando o valor de média da população 49,5 cm/s para a hipótese nula, H0: μ = 49,5 cm/s, calcula-se o erro β. Primeiramente, calcula-se o valor de z para x C1, com μ = 49,5. ( x C1 - μ)/( σ/ n ) = (48,45- 49,5)/(2,5/ 10 ) = -1,33 ( x C2 - μ)/( σ/ n ) = 1,96 (51,55 – 49,5)/(2,5/ 10 ) = 2,59 β = 1 – (P(z ≤ - 1,33) + P(z ≥ 2,59)) = β = 1 – (0,0918 + 0,0048) = 1 – 0,0966 = 0,9034 90,34%, esse é o erro β condicional a H0: μ = 49,5 cm/s, ou seja a probabilidade de concluir que μ < 15 ou μ > 15, quando μ = 49,5. TESTES DE COMPARAÇÃO MÚLTIPLA DE MÉDIAS (TCMM) Para ilustrar e definir os procedimentos de TCMM é necessário tomar por base um modelo matemático. Normalmente se usa o mais simples possível, a título de ilustração, o modelo do delineamento experimental inteiramente casualizado, que é o seguinte (Storck & Lopes, 1997): Yij = μ + ti + eij Onde: Yij é o valor observado em uma unidade experimental (U.E.), da j-ésima repetição que recebeu o i-ésimo tratamento; μ é uma constante inerente ao modelo, é a média das parcelas que receberam mesmo tratamento; ti é o efeito do tratamento aplicado na unidade experimental; eij é o efeito do erro experimental associada ao resultado de cada unidade experimental de forma individualizada, ou seja, a variação aleatória que incidiu na U.E. considerada. Algumas pressuposições são descritas como necessárias para o desenvolvimento teórico das técnicas de análise estatística de um experimento: a) Os diversos efeitos são aditivos e independentes; b) Os erros eij são independentes; c) Os erros eij tem a mesma variância σ2; d) Os erros eij tem distribuição normal. A verificação se estas pressuposições do modelo matemático foram satisfeitas nos resultados observados do experimento são importantes para demonstrar e avaliar a qualidade da análise estatística do experimento, no entanto, este procedimento é pouco usado por pesquisadores das áreas de ciências agrárias. Procedimentos para verificação destas pressuposições foram desenvolvidos, como o teste de aditividade de Tukey, para verificar se os efeitos do modelo matemático são aditivos; o teste de Chorrilhos, para verificar a independência dos erros; o teste de Lilliefors, para verificar a normalidade da distribuição dos erros (a normalidade é exigida para que os testes de hipótese tenham validade); e o teste de Bartlett, para verificação da homogeneidade das variâncias dos erros eij (Storck & Lopes, 1997). Se utilizados estes testes enriquecem um artigo científico por demonstrar a qualidade da análise do experimento. Assim, se uma ou mais pressuposições do modelo matemático não forem satisfeitas pelos dados do experimento, a análise paramétrica efetuada pelo teste F, TCMM e análise de regressão, podem levar à falsas conclusões. Desse modo, deve-se utilizar a transformação de dados (transformação raiz quadrada, logarítmica, arcoseno, etc.) de modo que os dados se aproximem das pressuposições do modelo matemático. Além disso, se as distorções forem expressivas, devem ser utilizados métodos de análise não-paramétricos, como teste de Sperman, teste de Friedman, teste de Kruskal-Wallis, etc. (Storck & Lopes, 1997). Os testes estatísticos não provam igualdade, apenas diferenças significativas a um nível α de erro, sendo que ao afirmar que duas médias não diferem, a margem de erro é desconhecida e está situada num patamar acima do que seria considerado razoável, ou seja, maior que α. Isto porque, normalmente, os resultados de um experimento nunca permitem afirmar que duas médias são iguais, pois se o experimento for repetido centenas de vezes, nunca serão encontradas duas médias que sempre são iguais, sob H0. Desse modo, quando se fixa o nível α de erro em 1%, significa que, se forem realizadas simulações repetindo centenas de vezes o experimento, mantendo a mesma média dos tratamentos, em média de 100 experimentos, sob H0, as variações ao acaso farão com que, em 1 deles, a hipótese nula seja rejeitada (Pimentel-Gomes, 2000). A análise e a interpretação dos resultados é uma etapa fundamental de um experimento, pois têm como finalidade chegar-se às conclusões do trabalho. Desse modo, a escolha do método e teste adequado para análise e interpretação é de extrema importância e devem ser planejadas antes da implantação do experimento. A análise estatística dos dados experimentais é efetuada em três etapas: 1ª: Análise das pressuposições do modelo matemático – quando alguma das pressuposições forem violadas, deve-se utilizar a transformação de dados; 2ª: Análise da variância – na qual se calcula as estimativas das variâncias dos diversos fatores envolvidos no experimento e, ao final, utiliza-se um teste de hipótese, comumente utiliza-se o teste F, para saber se essas variâncias são diferentes ou não; 3ª: Complementação da análise da variância – na qual se aplicam testes de comparação múltipla de médias (TCMM), análise de regressão ou contrastes ortogonais, dependendo do tipo de tratamentos utilizados. A análise da variância com o teste F proporciona a verificação da existência de variações significativas estatisticamente entre os tratamentos estudados num experimento. O teste F é o mais poderoso dos testes de comparação, entretanto, quando o experimento envolve mais de dois tratamentos ou níveis de tratamentos, o teste F não determina entre quais tratamentos ou níveis estão as diferenças observadas, pois ele compara as variâncias e não as médias. Assim, quando rejeita-se H0 para tratamentos pelo teste F, ou seja, F calculado > F tabelado, a um nível α de significância, torna-se necessário realizar uma complementação da análise da variância, que pode ser a aplicação de TCMM (para tratamentos qualitativos ou quantitativos com dois tratamentos), análise de regressão (para tratamentos quantitativos com mais de dois tratamentos) ou de contrastes ortogonais (quando houver ortogonalidade entre os tratamentos). Neste artigo será dada ênfase aos TCMM. Eles servem como complemento ao teste F, visando detectar diferenças entre os vários tratamentos estudados. Sua aplicação é obrigatória na análise de experimentos com mais de dois tratamentos qualitativos de efeito fixo que não apresentam ortogonalidade entre si, para os quais o teste F demonstrou haver diferenças significativas. Os tratamentos são denominados de qualitativos, quando não podem ser ordenados segundo um critério numérico, diferenciando-se por características qualitativas, como cultivares de soja, métodos de irrigação, tipos de adubação, etc.; e de efeito fixo quando os tratamentos podem ser repetidos em experimentos posteriores e as conclusões serão válidas apenas para os tratamentos testados. Existem vários TCMM, dentre eles pode-se citar: - Contrastes ortogonais; - Teste t ou DMS; - Bonferroni; - Student-Knewman-Keuls (SNK); - Dunnett; - Duncan; - Tukey; - Scott-Knott. Alguns deles são descritos abaixo. Teste t ou DMS (Diferença Mínima Significativa) O teste t é um TCMM não-paramétrico e seu uso apresenta algumas restrições. No entanto, alguns pesquisadores optam por utilizá-lo também para qualquer tipo de comparação múltipla de médias. Além disso, muitos pesquisadores recomendam este teste apenas para realizar comparações planejadas inicialmente e jamais para inferências sugeridas pelos dados (Ramalho et al., 2000). Segundo Oliveira & Braida (2000) este teste pode ser utilizado para comparar pares de médias em experimentos com no máximo cinco tratamentos (exemplo descrito no anexo 1), ou quando forem testadas diferenças especificadas antes da realização do experimento, como é o caso de experimentos onde os tratamentos são comparados com uma testemunha ou padrão, sendo que neste caso não importa o número de tratamentos. Beiguelman (1996) cita que o teste t deve ser usado em experimentos planejados de modo que a comparação entre os tratamentos fosse feita com dados emparelhados, como exemplo, comparação entre o peso no pré e pós-parto de vacas; o nível de excreção de um metabólito antes e depois da ingestão de um determinado medicamento; etc. Neste caso, os pares de medidas devem ser mensurados preferencialmente no mesmo indivíduo, para evitar variações por fatores não controlados. De acordo com Pimentel-Gomes (2000) o teste t pode mostrar que um contraste é significativo quando testes como Tukey, Duncan e Scheffé não mostram. Isto porque o teste t só se aplica justificadamente para contrastes previamente escolhidos, ortogonais e em número não superior aos graus de liberdade para tratamentos (I - 1), enquanto que os outros testes citados permitem testar qualquer contraste de interesse. Porém, o teste t pode ser tolerado para alguns contrastes, mesmo não ortogonais, desde que preencha os outros dois requisitos básicos: serem contrastes previamente escolhidos e em número ≤ a I - 1. O teste t ou DMS necessita da significância do teste F para ser aplicado, e é baseado na distribuição de t de “Student” (Beiguelman, 1996). Este teste possui o inconveniente de ter a maior taxa de erro por experimento em relação a todos os outros testes, quando utilizado para comparar médias duas a duas (Ramalho et al., 2000). Este procedimento é de fácil aplicação e busca localizar as médias cujas diferenças são maiores que um valor calculado e declarar estas diferenças como sendo estatisticamente significativas. A Diferença Mínima Significativa (DMS) é dada por (Vieira & Hoffmann, 1989): DMS = t(α;GLe) 2 * QMe r (1) Onde: t(α;Gle) = valor tabelado, encontrado em função do nível de significância α e do número de graus de liberdade do erro experimental, obtido na análise da variância; QMe = quadrado médio do erro, obtido na análise da variância; r = número de repetições. O fato de se utilizar a mesma estimativa de DMS para todas as comparações, implica que, quando o número de tratamentos é grande, o nível global de significância não é mantido, pois isto torna os testes sobre um mesmo tratamento não independentes (Ramalho et al., 2000). Teste de Tukey O método de Tukey pode ser utilizado para comparar todo e qualquer contraste entre médias de tratamentos tomadas aos pares (Pimentel-Gomes, 2000). Este teste não exige significância pelo teste F, no entanto, quando isso acontece não se recomenda a utilização de nenhum TCMM. Ele necessita apenas dos dados de médias dos tratamentos e do GLe e QMe, calculados na análise da variância. Este teste requer dados balanceados, ou seja, que todos os níveis de tratamentos tenham o mesmo número de repetições, e que seja feita a comparação de todos os tratamentos, comparando todas as médias tomadas duas a duas, segundo a diferença mínima significativa (Δ) calculada, segundo a fórmula abaixo (Storck e Lopes, 1997): V (X ) Δα = q α(I;GLe) V (X) = 2 2QMe (2) (3) J Assim, toda diferença entre duas médias de tratamentos que seja maior que Δ é considerada significativa em nível α de erro. Este teste apresenta ambigüidade nos dados, ou seja, médias acompanhadas de mais de uma letra, o que dificulta a interpretação e conclusão a partir dos dados, principalmente com grande número de tratamentos. O método utiliza a distribuição da amplitude estudentizada ou padronizada (q). Tem o objetivo de controlar a taxa de erro por experimento, sendo bastante conservador com relação à taxa de erro por comparação, por manter constante seu erro tipo I, não importando o número de médias sendo testadas (Zimmermann, 2004). Segundo o mesmo autor, Scheffé considerou o teste Tukey superior ao seu próprio teste para comparação de médias tomada duas a duas, mas inferior para outros tipos de comparações, como a de grupos. Este teste tem um baixo poder quando comparado com os demais testes e este poder é reduzido drasticamente com o aumento do número de tratamentos (Ramalho et al., 2000). Um exemplo deste procedimento é detalhado no anexo 2. Teste de Duncan Para sua aplicação este teste exige as mesmas pressuposições que o teste de Tukey e também usa como fundamento à amplitude estudentizada. Porém, a principal diferença em relação ao teste Tukey, é que, para cada contraste, o nível de significância α é alterado em função do número de médias abrangidas pelo contraste efetuado, segundo fórmula abaixo: Du = Zu V (X ) 2 (4) (para u = número de médias de tratamentos abrangidas no contraste, 2,3,4, ...I; considerando 5 tratamentos são calculados D2, D3, D4 e D5) V (X) = 2QMe J (5) Zu = (Gle; u (numero de médias abrangidas em cada contraste)) a um nível α de significância, valor retirado da tabela de Duncan. Assim, o nível de significância pretende fornecer uma proteção separada para cada comparação par a par, ao nível nominal de significância. Por isso, este teste controla a taxa de erro por comparação, mas não controla a taxa de erro por experimento (Ramalho et al., 2000). Este teste indica resultados significativos em casos em que o teste de Tukey não permite obter significação estatística, considerando o mesmo nível de significância (Pimentel-Gomes, 2000). Um exemplo deste procedimento é detalhado no anexo 2. Teste Scheffé O teste de Sceffé pode ser utilizado para testar todo e qualquer contraste entre duas médias ou entre grupos de médias de tratamentos, sendo exigido a significância do teste de F para tratamentos, como requisito para a validade de sua aplicação. Este teste é ainda mais rigoroso que o teste de Tukey, sendo mais utilizado para testar contrastes mais complexos e desaconselhável para comparar médias duas a duas (Pimentel-Gomes, 2000; Storck & Lopes, 1997). Além disso, deve ser aplicado para testar a significância de contrastes sugeridos pelos resultados do experimento, pois se os contrastes de interesse do experimento formam um conjunto ortogonal ou foram estabelecidos a priori no plano do experimento, o teste a ser utilizado deve ser o teste DMS ou de contrastes ortogonais (Silva, 1997). O procedimento do teste de Scheffé não exige ortogonalidade entre os contrastes e tem a vantagem de utilizar dados obtidos no quadro da análise da variância do experimento, segundo fórmulas abaixo: X = ∑iCiMi = m1 + m2 – m3 – m4 V(X) = QMe * ∑iCi2 (6) (7) J F = Fα (GLt; GLe) D= ( I − 1) * V ( X ) * F (8) (9) Quando se verifica que |X| > D, o contraste é significativo em nível α de probabilidade de erro. Um exemplo deste procedimento é detalhado no anexo 1. Teste de Scott-Knott Este teste, idealizado por Scott e Knott (1974), tem sua base teórica na análise de conglomerados, utilizando a razão de verossimilhança para testar a significância de que os g tratamentos podem ser divididos em dois grupos que maximizem a soma dos quadrados entre grupos e sua significância é formulada sobre o teste de χ2. Este teste exige significância do teste F para tratamentos. A grande vantagem deste teste é que, diferentemente dos demais, nenhuma média pode pertencer a mais de um agrupamento, não ocorrendo ambigüidade nos tratamentos. Desse modo, este procedimento resulta em maior objetividade e clareza. Além disso, não apresenta fórmula básica de obtenção de valores limites para comparação de médias, como os demais testes, apenas estabelece os grupos em função da variabilidade entre estes grupos de médias. O procedimento passa pelo cálculo da soma de quadrados, representado por Bo, entre os grupos de cada partição, determinando a partição que maximize a soma de quadrados, utilizando a equação (Scott & Knott, 1974; Ramalho et al., 2000): 2 2 T T (T + T2 ) 2 B0 = 1 + 2 − 1 k1 k2 (k1 + k 2 ) (10) Após, efetua-se o cálculo do estimador de máxima verossimilhança: k 2 2 ∑ ( y ( i ) − y ) + vs σˆ 0 2 = i =1 (k + v) s2 = QMe r (11) (12) E o cálculo da estatística λ: λ= B0 π 2(π − 2) σˆ 0 2 (13) O valor da estatística λ é, então, comparado ao valor tabelado da estatística de χ2: χ2 si. k α ; ( π − 2 ) (14) Se λ > χ2 rejeita-se H0 em favor da hipótese alternativa H1 de que os grupos diferem entre No caso de rejeitar H0, os tratamentos dos dois subgrupos formados devem ser testados entre si, seguindo os passos citados acima, encerrando o teste quando H0 não for rejeitada ou quando sobrar apenas uma média no subgrupo (Ramalho et al., 2000). Um exemplo deste procedimento é detalhado no anexo 1. A escolha do TCMM A escolha do teste a ser empregado depende única e exclusivamente do pesquisador em função do tipo de hipótese formulada. tipo II. Todos os TCMM testam as hipóteses H0 ou H1 e, portanto, estão sujeitos aos erros tipo I e Geralmente, o pesquisador controla a probabilidade α do erro tipo I, através da fixação do nível de significância, por exemplo em 5%. Por outro lado, a probabilidade do erro tipo II (β) não é constante, mas depende do valor verdadeiro do parâmetro. Ele depende também do tamanho da amostra. Considerando o nível de significância α do erro tipo I, Fisher (1954) citado por BUSSAB & MORETTIN (2004) formulou uma escala de evidências contra a validade de H0, a qual é classificada de marginal a fortíssima, inversamente proporcional ao nível de significância (Quadro 2). As considerações do autor referiam-se ao teste de qui-quadrado (χ2). Quadro 3 – Escala de significância de Fisher. 0,1 0,05 0,025 Valor α marginal moderada substancial Evidência 0,01 forte 0,005 muito forte 0,001 fortíssima A comparação de médias só pode ser feita após a análise da variância, pois exigem o cálculo do quadrado médio do erro (QMe). A análise da variância expressa também o valor da estatística F. Para comparar as médias de tratamentos, recomenda-se que o teste F tenha demonstrado significância para tratamentos, sendo que neste caso, diz-se que o método usado para comparar as médias é protegido. A escolha do TCMM adequado exige que se leve em consideração tanto o nível de significância como o poder do teste. O nível de significância de um teste é a probabilidade de rejeitar a hipótese H0, quando na verdade H0 é verdadeira, ou seja, a probabilidade de cometer o erro tipo I. Já o poder do teste é a probabilidade de rejeitar H0 quando H0 é realmente falsa, concluindo de forma acertada. Portanto, quanto maior o poder de um teste, maior a probabilidade de ele induzir a conclusões acertadas. Assim, é claro que o pesquisador quer um teste com baixo nível de significância e poder elevado. Como nível de significância e poder do teste estatístico são proporcionais, o dilema é que diminuir o nível de significância implica diminuir o poder do teste, pois aumenta a taxa do erro β. Vieira & Hoffmann (1989) citam que, se for escolhido para comparação o teste de Tukey ou o teste de Dunnett, a 5%, o nível de significância para experimentos será 5%, mas o nível de significância para comparações de médias será menor que 5%. Por outro lado, se for escolhido para comparação de médias, o teste t ou o teste de Duncan, o nível de significância para comparação de médias será de aproximadamente 5%, mas o nível de significância para experimentos será maior que 5%, mas, em compensação, o poder do teste também será maior. Assim, se o pesquisador quer ter alta chance de rejeitar a hipótese H0, pode optar pelo teste t ou teste de Duncan. Também, observa-se que o teste Tukey a 5% apresenta maior poder do que o teste de Tukey a 1%. A necessidade de aplicar um teste com grande poder ocorre, por exemplo, nos experimentos de competição de cultivares. Neste caso, é importante a utilização de um teste estatístico com alta probabilidade de discriminação e o erro de rejeitar H0 quando H0 é verdadeira, erro tipo I, tem importância menor. Por outro lado, se o pesquisador só pretende rejeitar H0 com muita confiança, deve optar pelo teste de Tukey ou de Dunnett, com baixo nível de significância. Assim, os adeptos da taxa de erro por experimento advogam o teste de Tukey, ou mesmo o teste de Scheffé para contrastes mais gerais, como conservadores para contrastes de duas médias e rejeitam o teste DMS e Duncan. Entretanto, os que aderem a taxa de erro por comparação sustentam que a unidade básica é a comparação, não o experimento. Estes argumentam que, por exemplo, uma decisão incorreta em um conjunto de comparações múltiplas em 40 experimentos de 10 tratamentos não afeta a utilidade das restantes 39 comparações. Ademais, num teste com 5% de nível de significância, há uma chance em 20 de uma decisão incorreta, de modo que em 40 comparações deve-se tolerar cerca de duas decisões incorretas (Silva, 1997). Além disso, em muitos experimentos, principalmente experimentos agrícolas de campo, usualmente são esperadas diferenças de médias de tratamentos o que torna a consideração do erro tipo II tão importante quanto à do erro tipo I. Por isso, a escolha entre os TCMM é feita coma escolha entre uma taxa de erro por experimento, para o qual o teste de Tukey é recomendado, ou uma taxa de erro por comparação, para a qual o teste DMS é o recomendado. O teste de Duncan é um meio termo entre essa duas alternativas, sendo que as objeções ao teste de Duncan podem ser minimizadas pela adoção de um nível de significância mais baixo, por exemplo, de 0,01 (Silva, 1997). Porém, deve-se considerar que outros TCMM são disponíveis, de modo que o pesquisador pode ampliar a base de sua escolha, sendo que não há tanta diferença entre os testes e qualquer um pode ser utilizado, de acordo com os propósitos desejados. Assim, pode-se inferir que todo TCMM possui vantagens e desvantagens e que existe uma grande margem de opção na escolha do teste e do nível de significância, que devem estar de acordo com a hipótese inicial, ou seja, os objetivos do pesquisador. Comparação entre os TCMM Os vários TCMM diferem fundamentalmente na filosofia do controle do erro tipo I. Para o erro tipo I, nos TCMM, existem duas formas de medir esse erro. O cálculo da probabilidade em todas as possíveis combinações de tratamentos tomados dois a dois, denominada de erro tipo I por comparação. A segunda forma é calcular a probabilidade de efetuar pelo menos uma inferência errada por experimento, denominada de erro tipo I por experimento (Ramalho et al., 2000). O teste de Duncan e LSD não controlam a taxa de erro por experimento, mas controlam a taxa de erro por comparação (Ramalho et al, 2000). Desse modo, Berhardson (1975), citado por RAMALHO et al. (2000), numa simulação, observou que esse erro tem a probabilidade média de ocorrer em 36,3% para o teste de Duncan e 59,1% para o teste LSD. Por outro lado, os testes de Tukey e Scheffé controlam adequadamente as taxas de erro tipo I por experimento e por comparação, preservando o nível nominal de significância (α). Além disso, estes testes diferem quanto às pressuposições e, para um mesmo nível α de erro, podem apresentar classificações diferentes entre as médias de tratamentos. Por isso, é importante um estudo das pressuposições e das condições de cada teste, para decidir sobre a opção mais acertada, levando em consideração os objetivos do experimento. O poder ou potência de um teste estatístico é a probabilidade de rejeitar a hipótese nula H0, quando a hipótese alternativa for verdadeira, não cometendo nenhum erro. A potência do teste é calculada por 1 - β, como exemplo do exercício citado acima, com o valor verdadeiro da média μ = 52, quando n = 10, encontrou-se β = 0,2643; assim a potência do teste seria 1 - β = 1 - 0,2643 = 0,7357. A potência é uma medida muito concisa da sensibilidade de um teste estatístico, ou seja a capacidade de ele detectar todas as diferenças reais entre tratamentos. Ainda considerando o exercício anterior, a sensibilidade do teste em detectar a diferença entre a média de 50 cm/s e 52 cm/s é 0,7357. Isto significa que, se a média verdadeira for realmente 52 cm/s, este teste rejeitará corretamente H0: μ = 50 e detectará esta diferença em 73,57% das vezes. Se o valor de potência do teste for considerado muito baixo, o pesquisador deve aumentar o tamanho da amostra (n). Freqüentemente os testes estatísticos são comparados quanto às suas propriedades de potência. Isto é realizado por meio de simulações, normalmente utilizando o método de Monte Carlo. Perecin e Barbosa (1988) compararam o poder de alguns testes. Os autores observaram que o teste t-Bayesiano concilia características desejáveis, pois foi o que apresentou o maior poder (33%) e baixas taxas de erro tipo I, porém estas taxas não podem ser previstas com exatidão, pois variam dependem do número de tratamentos e da magnitude de seus efeitos. O teste de Tukey apresentou o menor poder (1%), enquanto que o teste de Duncan e o teste t apresentaram poder empírico semelhante e na ordem de 22% e taxas de erro tipo I também semelhantes. Assim, os autores concluíram que estes três testes não devem ser utilizados indiscriminadamente. Por sua vez, o teste de Student-Knewman-Keuls (SNK) pode ser aplicado sem maiores cuidados, pois possui alto poder e taxas de erro tipo I similares ao teste Tukey. Berhardson (1975), citado por SILVA et al. (1999), numa simulação, observou que conforme aumentou-se o número de tratamentos, a taxa de erro tipo I por comparação tendeu a ficar abaixo da nominal para os testes SNK, Tukey e Scheffé e em menor escala para o teste de Duncan. O teste t permaneceu oscilando em torno do nível nominal (5%). Quanto a taxa de erro tipo I por experimento, o teste Scheffé permaneceu semelhante a taxa de erro por comparação, enquanto que os níveis dos testes SNK e Tukey permaneceram em torno do nível nominal. Quando o número de tratamentos foi igual a 10, a taxa de erro por experimento do teste de Duncan foi de 35% e o teste t foi de 60%, sendo muito superiores ao nível nominal adotado, se mostrando inadequados para controlar a taxa de erro por experimento (5%). Segundo Ramalho et al. (2000) o teste de Tukey é muito afetado pelo número de tratamentos, sendo que quanto mais tratamentos avaliados menor é o poder do teste. Outro fator a ser considerado na escolha de um teste é a ambigüidade dos seus resultados, pois a ambigüidade dificulta as interpretações e conclusões de um experimento, por não apresentarem uma real separação de grupos de médias. Dos testes estatísticos, apenas o de ScottKnott elimina esta ambigüidade. Silva et al. (1999), utilizando a simulação, observaram que, no teste de Scott-Knott, o erro tipo I por comparação, estiveram sempre abaixo do nível nominal de significância. Além disso, o poder do teste, para diferenças menores entre os tratamentos, foi praticamente o dobro do teste de Duncan, t e SNK, e de até oito vezes em relação ao teste de Tukey, sendo o poder do teste semelhante nas distribuições normais e não normais do resíduo, ou seja, o teste foi robusto à violação da normalidade. O único teste que se comportou semelhantemente ao de Scott-Knott foi o t-Bayesiano, o qual, Perecin e Barbosa (1988) consideraram como o de maior poder em seu estudo. Segundo Silva (1997) de modo geral, o teste de Tukey é mais conservador que os testes DMS e de Duncan no que se refere à probabilidade de erro tipo I, ou seja, declara significâncias com menos freqüência que esses testes. Por sua vez, o teste de Duncan é mais conservador que o teste DMS. Porém, o autor salienta que a menor probabilidade do erro tipo I implica em maior probabilidade de erro tipo II e, por isso, o balanceamento apropriado entre essas duas probabilidades de erro deve ser a base para a escolha entre estes três testes. A principal diferença entre estes testes decorre das distintas taxas de erro que eles adotam. O teste DMS adota taxa de erro por comparação e o teste de Tukey, taxa de erro por experimento, enquanto o teste Duncan usa taxa de erro que não é baseada nem por experimento nem por comparação. Borges & Ferreira (1999) através da simulação, compararam dois métodos de aproximações para o teste t, avaliando a probabilidade de se cometer erro tipo I e erro tipo II, com o aumento da diferença entre as variâncias de duas populações. Os autores concluíram que o poder do teste t a 5% de significância é maior, à medida que aumenta a diferença entre médias populacionais, diminui a razão entre as variâncias das duas populações e aumenta o tamanho da amostra. E que o método de aproximação (Satterthwaite ou Cochran e Cox) não influenciou o poder do teste. O poder do teste (1 - β) é reduzido quando se tem pequenas diferenças entre médias populacionais e pequeno tamanho de amostra, pois estes dois fatores aumentam o erro tipo II (β). Quando se consideraram variâncias iguais das duas populações, o erro tipo I ficou abaixo dos níveis nominais e o teste apresentou boa confiabilidade. Neste caso, o erro tipo II foi reduzido com o aumento da diferença entre as médias populacionais. A porcentagem de erro tipo I não foi influenciada pelo tamanho maior da amostra, enquanto que o erro tipo II foi influenciado pelo tamanho da amostra, pelo aumento da diferença entre médias populacionais e pela razão entre as variâncias populacionais. Em trabalho realizado por Santos et al. (2001) utilizando o método de simulação Monte Carlo, observou-se que, sob H0 completa, as taxas de erro tipo I do teste de Scott-Knott modificado foram baixas e iguais às do original, mas na situação de H0 parcial, foram maiores, apesar do poder também ter sido superior. Os dois testes de Bonferroni modificados, I e II, tiveram poder alto, mas não controlaram as taxas de erro tipo I. Os métodos de Scheffé modificados, I e II, tiveram poder baixo, embora tenham controlado razoavelmente as taxas de erro tipo I. Assim, observa-se que as comparações entre TCMM feitas através de simulações tem revelado resultados contraditórios, em decorrência das diferentes condições e pressuposições consideradas e, principalmente, das distintas taxas de erro dos testes comparados. CONSIDERAÇÕES FINAIS Os níveis de probabilidade mencionados nos testes estatísticos referem-se apenas ao erro tipo I. O erro tipo I é o único que pode ser controlado pelo experimentador, por meio da fixação de um nível de significância α. Para controlar simultaneamente os erros tipo I e II, reduzindo a probabilidade de eles ocorrerem, deve-se aumentar o tamanho da amostra. Ao afirmar-se que duas médias não diferem entre si, a margem de erro é desconhecida e está situada num patamar acima do que seria considerado razoável. Os testes estatísticos não provam igualdade entre tratamentos, apenas diferenças entre os mesmos. A escolha do teste a ser empregado depende única e exclusivamente do pesquisador em função do tipo de hipótese formulada. O teste de Scott-Knott apresenta vantagens em relação aos demais testes de comparação múltipla de médias, por possuir poder elevado, taxas de erro tipo I quase sempre de acordo com os níveis nominais, por ser robusto à violação da normalidade e por não apresentar ambigüidade dos resultados. O teste t ou DMS deve ser utilizado apenas para realizar comparações planejadas inicialmente e jamais para contrastes sugeridos pelos dados. REFERÊNCIAS BEIGUELMAN, B. Curso prático de bioestatística. 4. ed. rev. Ribeirão Preto-SP: Sociedade Brasileira de Genética. 1996. 242p. BORGES, L. C. & FERREIRA, D. F. Comparação de duas aproximações do teste t com variâncias heterogêneas através de simulação. Revista Ciência e Agrotecnologia, Lavras, v.23, n.2, p.390403. 1999. BUSSAB, W. de O. & MORETTIN, P. A. Estatística básica. 5. ed. São Paulo: Saraiva. 2004. 526p. CARDELLINO, R. A. & SIEWERDT, F. Utilização adequada e inadequada dos teste de comparação de médias. Revista da Sociedade Brasileira de Zootecnia, Viçosa, v.21, n.6, p.985995. 1992. FONSECA, J. S. da. & MARTINS, G. de A. Curso de estatística. 2. ed. São Paulo: Atlas. 1978. 173p. LÚCIO, A. D.; LOPES, S. J.; STORCK, L.; CARPES, R. H.; LIEBERKNECHT, D.; NICOLA, M. C. Características experimentais das publicações da Ciência Rural de 1971 a 2000. Ciência Rural, Santa Maria, v.33, n.1, p.161-164. 2003. MONTGOMERY, D. C.; RUNGER, G. C.; HUBELE, N. F. Estatística aplicada à engenharia. 2. ed. Rio de Janeiro: LTC editora. 2004. 335p. OLIVEIRA, P. H.; BRAIDA, J. A. Experimentação agrícola: apostila didática. Pato Branco: CEFET. 2000. 51p. PERECIN, D.; BARBOSA, J. C. Uma avaliação de seis procedimentos para comparações múltiplas. Revista de Matemática e Estatística, Marília-SP, v.6, p.95-103. 1988. PIMENTEL-GOMES, F. Curso de estatística experimental. 9. ed. Piracicaba: Nobel. 1981. 468p. RAMALHO et al. Experimentação em genética e melhoramento de plantas. Lavras: UFLA. 2000. 326p. SANTOS, J. W.; MOREIRA, J. A. N.; BELTRÃO, N. E. M. Avaliação do emprego de testes de comparação de médias na revista Pesquisa Agropecuária Brasileira (PAB) de 1980 a 1994. Pesquisa Agropecuária Brasileira, Brasília, v.33, n.3, p.225-230. 1998. SANTOS, C. dos; FERREIRA, D. F.; BUENO FILHO, J. S. de S. Novas alternativas de testes de agrupamento avaliadas por meio de simulação Monte Carlo. Revista Ciência e Agrotecnologia, Lavras, v.25, n.6, p.1382-1392. 2001. SCOTT, A. J.; KNOTT, M. A. A cluster analysis method for grouping means in the analysis of variance. Biometrics, Washington, v.30, n.3, p.507-512. 1974. SILVA, J. G. C. da. Estatística experimental II: Análise estatística de experimentos. Pelotas: UFPel. 1997. 265p. SILVA, E. C. da; FERREIRA, D. F.; BEARZOTI, E. Avaliação do poder e taxas de erro tipo I do teste de Scott-Knott por meio do método de Monte Carlo. Revista Ciência e Agrotecnologia, Lavras, v.23, n.3, p.687-696. 1999. STORCK, L. & LOPES, S. J. Experimentação II. Santa Maria: UFSM. 1997. 197p. VIEIRA, S. & HOFFMANN, R. Estatística experimental. São Paulo: Atlas. 1989. 179p. ZIMMERMANN, F. J. P. Estatística aplicada à pesquisa agrícola. Santo Antônio de Goiás: Embrapa Arroz e Feijão. 2004. 402p. ANEXO 1 Exemplo: Em um experimento, um pesquisador da UTFPR, Campus Pato Branco, testou quatro formas de controle de Plantas Daninhas (PD) na cultura da cana-de-açúcar (T1 - Herbicida na dose recomendada; T2 - Herbicida com 1/2 dose recomendada; T3 - Herbicida na dose recomendada + adubação verde de crotalária; T4 - Herbicida com 1/2 dose recomendada + adubação verde de crotalária). O delineamento experimental foi de blocos casualizados, com seis repetições. Os resultados médios de produção de cana-de-açúcar em função dos tratamentos são descritos abaixo (Tabela 1). Tabela 1 – Rendimento de cana-de-açúcar (ton/ha), em função do controle de plantas daninhas. Bloco (repetição) Tratamentos 1 2 3 4 5 6 Soma (Yi.) Média 112 116,7 110,3 119,4 123,7 120,05 702,15 117,025 T1 86,15 91,75 83,4 89,15 94,3 92,49 537,24 89,54 T2 128,3 132,8 133,9 136,9 141,2 137,4 810,5 135,0833 T3 120,5 120,4 125,3 119,8 120,5 126,3 732,8 122,1333 T4 476,24 Soma (Y.j) 446,95 461,65 452,9 465,25 479,7 Soma total (Y..) 2782,69 Média geral 115,945417 Após a execução do experimento, obtenção e tabulação dos dados, deve-se primeiramente efetuar a análise da variância, conforme procedimento abaixo: Tabela 2 - Fórmulas do quadro de análise da variância. Fontes de variação GL SQ QM Fcalc. Ftab. J-1 [(∑Y.j2/I) – (Y..2/I*J)] SQb/GLb QMb/Qme Fα (GLb;Gle) Bloco (b) I-1 [(∑Yi.2/J) – (Y..2/I*J)] SQt/GLt QMt/Qme Fα (GLt;Gle) Tratamento (t) (I -1) * (J-1) SQto – (SQb + SQt) SQe/Gle Erro (e) (I * J) -1 ∑ij2 – (Y..2/I*J) Total (to) GL = Graus de liberdade; SQ = soma dos quadrados; QM = quadrado médio; Fcalc. = valor da estatística F calculado; Ftab. = valor da estatística F tabelado. Os cálculos baseados nestas fórmulas podem ser executados no programa Excel do Windows, o que foi feito neste exemplo. Tabela 3 - Quadro de análise da variância. Fontes de variação GL 5 Bloco (b) 3 Tratamento (t) 15 Erro (e) 23 Total (to) SQ 204,2547708 6617,770179 151,1436458 6973,168596 QM Fcalc. Ftab. (5%) 40,850954 4,05418507* 2,9 2205,9234 218,923202* 3,29 10,076243 Após a formação do quadro da análise da variância, deve-se concluir se houve ou não diferenças significativas pela estatística F dos tratamentos e dos blocos quando houver, como é neste caso. Conclusões: Blocos: houve diferença significativa entre as médias de blocos, pelo teste F a 5% de probabilidade de erro. Assim, os blocos foram utilizados de forma adequada, ou seja, havia heterogeneidade entre os blocos, o que justifica seu uso para controle local. Isto demonstra que próximos experimentos realizados nas mesmas condições locais, também deverão ser em delineamento blocos casualizados, devido à heterogeneidade do local, não sendo recomendado o uso do delineamento inteiramente casualizado. Tratamentos: houve diferença significativa entre pelo menos duas médias de tratamentos, pelo teste F a 5% de probabilidade de erro. Desse modo, na seqüência deverá ser aplicado um teste de comparação de médias (TCM) para identificar quais os tratamentos que se diferenciaram entre si e qual(is) foi(ram) o(s) melhor(es) e o pior(es) tratamento(s). Neste caso como houve diferença significativa entre tratamentos e, como o teste F não permite identificar entre quais tratamentos há as diferenças, devem-se aplicar os TCMM, pois tratase de tratamentos qualitativos sem ortogonalidade. Abaixo serão exemplificados três TCMM, o teste t, o teste de Scheffé e o teste de ScottKnott. TESTE t ou DMS Procedimento a) Calcular o valor comparador - DMS DMS = t(α;Gle) DMS = t(5%;15) * 2 * QMe r 2 * 10,077 6 DMS = 2,13 * 1,833 = 3,9 b) Ordenar as médias em ordem decrescente Tabela 4 – Médias ordenadas em ordem Decrescente Formas de controle de PD da cana-de-açúcar T3 (media 1) T4 (média 2) T1 (média 3) T2 (média 4) Rendimento médio (ton./ha) 135,08 122,13 117,03 89,54 c) Comparar as diferenças entre médias, duas a duas, com o valor comparador (DMS), considerando que: c.1) se a diferença entre médias é ≤ ao valor DMS, as médias não diferem estatisticamente; c.2) se a diferença entre médias é > que o valor DMS, as médias diferem estatisticamente entre si. Primeiramente calcula-se a diferença da maior média em relação às demais iniciando pela comparação com a menor média, até não apresentar diferença significativa. m1 – m4 = 135,08 – 89,54 = 45,54 > DMS (há diferença significativa entre T3 e T2) m1 – m3 = 135,08 – 117,03 = 18,05 > DMS (há diferença significativa entre T3 e T1) m1 – m2 = 135,08 – 122,13 = 12,95 > DMS (há diferença significativa entre T3 e T4) T3 diferiu significativamente de todos os outros tratamentos e, portanto, utiliza-se letra “a” ao lado de sua média (Tabela 5). A seguir, deve-se testar as diferenças com base na segunda maior média (m2), neste caso T4. m2 – m4 = 122,13 – 89,54 = 32,59 > DMS (há diferença significativa entre T4 e T2) m2 – m3 = 122,13 – 117,03 = 5,1 > DMS (há diferença significativa entre T4 e T1) T4 diferiu significativamente das demais médias e, portanto, utiliza-se letra “b” ao lado de sua média (Tabela 5). A seguir, é testado o contraste que ainda não foi testado, T1 com T2. m3 – m4 = 117,03 – 89,54 = 27,49 > DMS (há diferença significativa entre T1 e T2) Desse modo, como T1 diferiu de T2, ao lado de T1 vai a letra “c” e ao lado de T2 vai a letra “d”. d) Sumarização dos resultados, utilizando letras iguais para médias que não diferiram estatisticamente e letras diferentes para médias que diferiram. Observou-se que todas as médias diferiram entre si, colocando-se as letras ao lado das médias segundo a Tabela 5. Tabela 5 – Classificação das médias de rendimento de cana-de-açúcar em função do controle de PD, pelo teste t, a 5% de probabilidade de erro. Formas de controle de PD da cana-de-açúcar Rendimento médio (ton./ha) T3 (m1) 135,08 a* T4 (m2) 122,13 b T1 (m3) 117,03 c T2 (m4) 89,54 d * Tratamentos com médias não ligadas pela mesma letra, diferem a 5% de probabilidade de erro pelo teste t. e) Faz-se as conclusões pertinentes Conclusões: o T3, herbicida na dose recomendada + adubação verde de crotalária, proporcionou o maior rendimento de cana-de-açúcar, diferindo significativamente dos demais tratamentos, pelo teste t a 5% de probabilidade de erro, enquanto que T2, herbicida em meia dose, proporcionou o menor rendimento de cana-de-açúcar, diferindo significativamente dos demais tratamentos, pelo teste t a 5% de probabilidade de erro (Tabela 5). TESTE SCHEFFÉ Procedimento Primeiramente, calcula-se a estimativa do contraste, segundo a fórmula abaixo: X = ∑iCiMi X = m1 + m2 – m3 – m4 X = 117,03 + 89,54 – 135,08 – 122,13 = - 50,65 ton/ha Em seguida, calcula-se a estimativa da variância do contraste, de acordo com o procedimento abaixo: V(X) = QMe ∑iCi2 J V(X) = (10,076243/6) * [(12) + (12) + (-12) + (-12)] = 6,717495333 Após, efetua-se a busca pelo valor da tabela F, a um nível α de significância, neste caso 5%, e conforme o número de graus de liberdade de tratamentos e do erro, segundo fórmula abaixo: F = F α (GLt; Gle) F = F 5% (3;15) = 3,29 Finalmente, calcula-se o valor da diferença mínima significativa pela estatística D, segundo expressão abaixo: D= ( I − 1) * V ( X ) * F D= (4 − 1) * 6,717495333 * 3,29 = 8,1426 Assim, como X > D, conclui-se que, o contraste é significativo pelo teste Scheffé a 5% de probabilidade de erro, sendo que o controle de PD em cana-de-açúcar utilizando a cultura da crotalária como adubação verde somado ao efeito do herbicida proporcionou, na média, uma produtividade superior à média do controle somente com herbicida. Tabela 6 – Classificação das médias de rendimento de cana-de-açúcar em função do controle de PD, pelo teste de Scheffé, a 5% de probabilidade de erro. Formas de controle de PD da cana-de-açúcar Rendimento médio (ton./ha) Herbicida (dose recomendada) + adubação verde crotalária 135,08 Herbicida (1/2 dose recomendada) + adubação verde crotalária 122,13 Herbicida (dose recomendada) 117,03 Herbicida (1/2 dose recomendada) 89,54 TESTE DE SCOTT-KNOTT Procedimento (utilizando valores do teste F do experimento citado acima) Primeiramente, efetua-se o cálculo do número de partições possíveis, segundo a fórmula: k–1=4–1=3 onde: k = número de tratamentos. Para este caso, com quatro tratamentos, são possíveis três partições, descritas abaixo: Partição 1: grupo 1 (média 1) e grupo 2 (média 2, média 3 e média 4); Partição 2: grupo 1 (média 1 e média 2) e grupo 2 (média 3 e média 4); Partição 3: grupo 1 (média 1, média 2 e média 3) e grupo 2 (média 4). O segundo passo é calcular a soma de quadrados, representado por B0, entre os grupos de cada partição, determinando a partição que maximize a soma de quadrados, utilizando a equação: 2 B0 = 2 T1 T (T + T2 ) 2 + 2 − 1 k1 k2 (k1 + k 2 ) Onde: T1 é a soma das médias do grupo 1, para cada uma das três partições descritas acima; e T2 a soma das médias do grupo 2, para cada uma das três partições descritas acima. K1 e K2, número de médias de tratamentos contidas no seu numerador. Tabela 7 – Médias ordenadas em ordem Decrescente Formas de controle de PD da cana-de-açúcar T3 (media 1) T4 (média 2) T1 (média 3) T2 (média 4) Rendimento médio (ton./ha) 135,08 122,13 117,03 89,54 Partição 1 (média 1 versus média 2, 3 e 4) B0 ={(135,082/1) + [(122,13 + 117,03 + 89,54)2/3] – [(135,08 + 122,13 + 117,03 + 89,54)2/4]} = 488,1976333 Partição 2 (média 1 e 2 versus média 3 e 4) B0 ={[(135,08 + 122,13)2/2] + [(117,03 + 89,54)2/2] – [(135,08 + 122,13 + 117,03 + 89,54)2/4]} = 641,1024 Partição 3 (média 1, 2 e 3 versus média 4) B0 ={[(135,08 + 122,13 + 117,03)2/3] + [(89,54)2/1] – [(135,08 + 122,13 + 117,03 + 89,54)2/4]} = 929,6320333 Assim, a partição 3 foi a que maximizou a soma de quadrados entre grupos. Efetua-se, então, o cálculo do estimador de máxima verossimilhança: k 2 2 ∑ ( y ( i ) − y ) + vs σˆ 0 2 = i =1 (k + v) Onde: y(i ) = média de cada i tratamento; y = média geral dos i tratamentos; v = graus de liberdade do erro; s2 = QMe r QMe = quadrado médio do erro; r = número de repetições de cada tratamento; k = número de médias envolvidas. σˆ 0 2 = {[(135,08 – 115,945)2 + (122,13 – 115,945)2 + (117,03 – 115,945)2 + (89,54 – 115,945)2] + [15* (10,076243/6)]} / (4 + 15) = 59,36812145 λ= B0 π 2(π − 2) σˆ 0 2 λ = [3,1416/(2 * (3,1416 - 2)) * (929,6320333/59,36812145)] = 21,546 Na tabela de χ 2 α ; (π k− 2 ) Na tabela de χ2 (0,05; 4/(3,1416 - 2) = χ2 (0,05; 3,5 graus de liberdade) Na tabela de χ2 = 8,65 Como λ > 8,65, rejeita-se H0, ou seja, dois grupos são formados ao nível de 5% de probabilidade de erro, pelo teste de Scott-Knott, o grupo 1 com as médias 1 (T3), 2 (T4) e 3 (T1) e o grupo 2 com a média 4 (T2), ou seja, a média 4 difere das demais médias. Como já se sabe que m4 difere das demais médias, é necessário saber somente se as outras médias (m1, m2 e m3) diferem entre si. Desse modo, repete-se o processo descrito acima para estas médias. As partições formadas são: Partição 1: média 1 versus médias 2 e 3; Partição 2: médias 1 e 2 versus média 3. Calcular B0 e identificar a partição com maior soma de quadrados. Partição 1 B0 ={(135,082/1) + [(122,13 + 117,03)2/2] – [(135,08 + 122,13 + 117,03)2/3]} = 160,16667 Partição 2 B0 ={[(135,08 + 122,13)2/2] + [(117,03)2/1] – [(135,08 + 122,13 + 117,03)2/3]} = 89,32042 Assim, a partição 1 (média 1 versus médias 2 e 3) é a que maximiza a soma de quadrados. 2 Calcular σˆ 0 e λ. σˆ 0 2 = {[(135,08 – 124,75)2 + (122,13 – 124,75)2 + (117,03 – 124,75)2] + [15* (10,076243/6)]} / (3 + 15) = 11,02 2 λ = [π/(2 * (π - 2)) * (Bo/ σˆ 0 )] λ = [3,1416/(2 * (3,1416 - 2)) * (160,16667/11,02)] = 20 Na tabela de χ2 (α; g/(π - 2) Na tabela de χ2 (0,05; 3/(3,1416 - 2) = χ2 (0,05; 2,63 graus de liberdade) Na tabela de χ2 = 7,14 Como λ > 7,14, rejeita-se H0, ou seja, dois grupos são formados ao nível de 5% de probabilidade de erro, pelo teste de Scott-Knott, o grupo 1 com a média 1 (T3) e o grupo 2 com as médias 2 (T4) e 3 (T1), ou seja, a média 1 difere das médias 2 e 3 e as últimas não diferem entre si (Tabela 8). Tabela 8 – Classificação das médias de rendimento de cana-de-açúcar em função do controle de PD, pelo teste de Scott-Knott, a 5% de probabilidade de erro. Formas de controle de PD da cana-de-açúcar Rendimento médio (ton./ha) T3 (media 1) 135,08 a* T4 (média 2) 122,13 b T1 (média 3) 117,03 b T2 (média 4) 89,54 c * Tratamentos com médias não ligadas pela mesma letra, diferem a 5% de probabilidade de erro pelo teste de Scott-Knott. Desse modo, conclui-se que o controle de plantas daninhas utilizando herbicida na dose recomendada e adubação verde com crotalária proporcionou o maior rendimento de cana-de-açúcar, diferindo significativamente dos demais tratamentos pelo teste de Scott-Knott a 5% de probabilidade de erro, enquanto que o controle de plantas daninhas com herbicida na metade da dose recomendada proporcionou o menor rendimento de cana-de-açúcar, diferindo significativamente dos demais tratamentos pelo teste de Scott-Knott a 5% de probabilidade de erro (Tabela 8). ANEXO 2 Exemplo: Em um experimento, um pesquisador da UTFPR, Campus Pato Branco, testou cinco variedades de cana-de-açúcar quanto ao rendimento de álcool. O delineamento experimental foi de blocos casualizados, com quatro repetições. Os resultados médios de produção de álcool de cada cultivar são descritos abaixo (Tabela 9). Tabela 9 - Dados médios de rendimento de álcool (litros/parcela) Bloco (repetição) Tratamentos 1 2 3 4 74,7 76,4 73,2 69 1 78,9 73,3 84,2 73,2 2 81,9 79,8 85,4 90,6 3 90,8 101,2 97,4 95,2 4 63,8 65,8 67 68 5 390,1 396,5 407,2 396 Soma (Y.j) Soma total (Y..) Média geral Soma (Yi.) 293,3 309,6 337,7 384,6 264,6 Média 73,325 77,4 84,425 96,15 66,15 1589,8 79,49 Tabela 10 - Fórmulas do quadro de análise da variância. Fontes de variação Bloco (b) GL J-1 SQ 2 2 [(∑Y.j /I) – (Y.. /I*J)] 2 2 Tratamento (t) Erro (e) I-1 (I -1) * (J-1) [(∑Yi. /J) – (Y.. /I*J)] SQto – (SQb + SQt) Total (to) (I * J) -1 ∑ij – (Y.. /I*J) 2 QM Fcalc. Ftab. SQb/GLb QMb/Qme Fα (GLb;Gle) SQt/GLt SQe/Gle QMt/Qme Fα (GLt;Gle) QM 10,139333 522,24075 17,98475 Fcalc. 0,563773938 29,03797662* Ftab. (5%) 3,49 3,26 2 Tabela 11 - Quadro de análise da variância. Fontes de variação GL SQ 3 30,418 Bloco (b) 4 2088,963 Tratamento (t) 12 215,817 Erro (e) 19 2335,198 Total (to) Conclusão: Blocos: não houve diferença significativa entre as médias de blocos, pelo teste F a 5% de probabilidade de erro. Assim, os blocos foram utilizados de forma inadequada, ou seja, havia homogeneidade onde se julgou não haver. Por isso, num próximo experimento nas mesmas condições locais, poderá ser utilizado o delineamento inteiramente casualizado, devido à homogeneidade local. Tratamentos: houve diferença significativa entre pelo menos duas médias de tratamentos, pelo teste F a 5% de probabilidade de erro. Desse modo, na seqüência deverá ser aplicado um teste de comparação de médias (TCM) para identificar quais os tratamentos que se diferenciaram entre si e qual(is) foi(ram) o(s) melhor(es) e o pior(es) tratamento(s). TESTE DE TUKEY Este teste pode ser utilizado para comparar todo e qualquer contraste entre duas médias de tratamentos. Não necessita de significância do teste F para tratamentos. Procedimento Primeiramente calcula-se o delta (Δ), segundo fórmulas abaixo, sendo que toda diferença entre duas médias estimadas de tratamentos maior que Δ é considerada significativa a um nível α de erro. Δα = q α(I;GLe) V (X) = V (X ) 2 2QMe J Δ5% = q5%(5;12) (2 * 17,98475)/4 2 Δ5% = 4,51 * 2,12 = 9,56 Segundo passo é ordenar as médias em ordem decrescente. Tabela 12 – Médias ordenadas em ordem decrescente. Variedade de cana-de-açúcar T4 (media 1 – m1) T3 (média 2 – m2) T2 (média 3 – m3) T1 (média 4 – m4) T5 (média 5 – m5) Rendimento médio (L/parcela) 96,15 84,42 77,40 73,32 66,15 Em seguida comparar a maior média (m1), neste caso T4, com as demais médias, iniciando com a menor. m1 – m5 = 96,15 – 66,15 = 30 > Δ (há diferença significativa entre T4 e T5) m1 – m4 = 96,15 – 73,32 = 22,83 > Δ (há diferença significativa entre T4 e T1) m1 – m3 = 96,15 – 77,40 = 18,75 > Δ (há diferença significativa entre T4 e T2) m1 – m2 = 96,15 – 84,42 = 11,73 > Δ (há diferença significativa entre T4 e T3) T4 diferiu significativamente de todos os outros tratamentos e, portanto, utiliza-se letra “a” ao lado de sua média (Tabela 13). A seguir, deve-se testar os contrastes com base na segunda maior média (m2), neste caso T3. m2 – m5 = 84,42 – 66,15 = 18,27 > Δ (há diferença significativa entre T3 e T5) m2 – m4 = 84,42 – 73,32 = 11,1 > Δ (há diferença significativa entre T3 e T1) m2 – m3 = 84,42 – 77,40 = 7,02 < Δ (não há diferença significativa entre T3 e T2) Ao lado das médias T3 e T2 coloca-se a letra “b” (Tabela 13). A seguir, deve-se testar os contrastes com base na terceira maior média (m3), neste caso T2. m3 – m5 = 77,40 – 66,15 = 11,25 > Δ (há diferença significativa entre T2 e T5) m3 – m4 = 77,40 – 73,32 = 4,08 < Δ (não há diferença significativa entre T2 e T1) Desse modo, ao lado das médias T2 e T1 coloca-se a letra “c”, como a média T2 já possui a letra “b”, por não diferir de T3, ao lado de sua média fica “bc”, gerando resposta ambígua (Tabela 13). Deve-se fazer as comparações restantes, neste caso, apenas o contraste entre T1 e T5. m4 – m5 = 73,32 – 66,15 = 7,17 < Δ (não há diferença significativa entre T1 e T5) Assim, ao lado das médias T1 e T5 coloca-se a letra “d”, como a média T1 já possui a letra “c”, por não diferir de T2, ao lado de sua média fica “cd”, também gerando resposta ambígua (Tabela 13). Tabela 13 – Classificação das médias de rendimento de álcool em função da variedade de cana-deaçúcar, pelo teste de Tukey, a 5% de probabilidade de erro. Variedade de cana-de-açúcar Rendimento médio (L/parcela) T4 (media 1 – m1) 96,15 a* T3 (média 2 – m2) 84,42 b T2 (média 3 – m3) 77,40 bc T1 (média 4 – m4) 73,32 cd T5 (média 5 – m5) 66,15 d * Tratamentos com médias não ligadas pela mesma letra, diferem a 5% de probabilidade de erro pelo teste de Tukey. Conclusão: A variedade de cana-de-açúcar T4 obteve o maior rendimento de álcool, diferindo significativamente das demais variedades, pelo teste de Tukey a 5% de probabilidade de erro, enquanto que a variedade T5, obteve o menor rendimento de álcool, não diferindo significativamente da variedade T1, pelo teste de Tukey a 5% de probabilidade de erro (Tabela 13). TESTE DE DUNCAN Procedimento Primeiramente calcula-se o Du, para cada contraste, segundo fórmulas abaixo, sendo que toda diferença entre duas médias estimadas de tratamentos maior que Du é considerada significativa a um nível α de erro. V (X ) Du = Zu 2 (para u = número de médias de tratamentos abrangidas no contraste, 2,3,4, ...I; considerando este caso, com 5 tratamentos, são calculados D2, D3, D4 e D5) V (X) = 2QMe J Zu = (Gle; u (numero de médias abrangidas em cada contraste)) a um nível α de significância, retirado da tabela de Duncan. Cálculo de Du a 5% de probabilidade de erro. Du = Zu V (X ) 2 D2 = Z2 (GLe; 2) D2 = Z2 (12; 2) D2 = 3,08 2 (2 * 17,98475) / 4 2 (2 * 17,98475) / 4 2 D3 = Z3 (12; 3) D3 = 3,23 (2 * 17,98475) / 4 (2 * 17,98475) / 4 2 (2 * 17,98475) / 4 D4 = Z4 (12; 4) = 6,53 2 = 6,85 (2 * 17,98475) / 4 2 D4 = 3,33 (2 * 17,98475) / 4 2 D5 = Z5 (12; 5) D5 = 3,36 = 7,06 (2 * 17,98475) / 4 2 (2 * 17,98475) / 4 2 = 7,12 O segundo passo é ordenar as médias em ordem decrescente. Tabela 14 – Médias ordenadas em ordem decrescente. Variedade de cana-de-açúcar T4 (media 1 – m1) T3 (média 2 – m2) T2 (média 3 – m3) T1 (média 4 – m4) T5 (média 5 – m5) Rendimento médio (L/parcela) 96,15 84,42 77,40 73,32 66,15 Em seguida comparar a maior média (m1), neste caso T4, com as demais médias, iniciando com a menor. m1 – m5 = 96,15 – 66,15 = 30 > D5 (há diferença significativa entre T4 e T5) m1 – m4 = 96,15 – 73,32 = 22,83 > D4 (há diferença significativa entre T4 e T1) m1 – m3 = 96,15 – 77,40 = 18,75 > D3 (há diferença significativa entre T4 e T2) m1 – m2 = 96,15 – 84,42 = 11,73 > D2 (há diferença significativa entre T4 e T3) T4 diferiu significativamente de todos os outros tratamentos e, portanto, utiliza-se letra “a” ao lado de sua média (Tabela 15). A seguir, deve-se testar os contrastes com base na segunda maior média (m2), neste caso T3. m2 – m5 = 84,42 – 66,15 = 18,27 > D4 (há diferença significativa entre T3 e T5) m2 – m4 = 84,42 – 73,32 = 11,1 > D3 (há diferença significativa entre T3 e T1) m2 – m3 = 84,42 – 77,40 = 7,02 > D2 (há diferença significativa entre T3 e T2) T3, a segunda maior média, diferiu significativamente de todos os outros tratamentos e, portanto, utiliza-se letra “b” ao lado de sua média (Tabela 15). A seguir, deve-se testar os contrastes com base na terceira maior média (m3), neste caso T2. m3 – m5 = 77,40 – 66,15 = 11,25 > D3 (há diferença significativa entre T2 e T5) m3 – m4 = 77,40 – 73,32 = 4,08 < D2 (não há diferença significativa entre T2 e T1) Desse modo, ao lado das médias T2 e T1 coloca-se a letra “c” (Tabela 15). Faz-se as comparações restantes, neste caso, apenas o contraste entre T1 e T5. m4 – m5 = 73,32 – 66,15 = 7,17 > D2 (há diferença significativa entre T1 e T5) Assim, ao lado da média T5 coloca-se a letra “d” (Tabela 15). Tabela 15 – Classificação das médias de rendimento de álcool em função da variedade de cana-deaçúcar, pelo teste de Duncan, a 5% de probabilidade de erro. Variedade de cana-de-açúcar Rendimento médio (L/parcela) T4 (media 1 – m1) 96,15 a* T3 (média 2 – m2) 84,42 b T2 (média 3 – m3) 77,40 c T1 (média 4 – m4) 73,32 c T5 (média 5 – m5) 66,15 d * Tratamentos com médias não ligadas pela mesma letra, diferem a 5% de probabilidade de erro pelo teste de Duncan. Conclusão: A variedade de cana-de-açúcar T4 obteve o maior rendimento de álcool, diferindo significativamente das demais variedades, pelo teste de Duncan a 5% de probabilidade de erro, enquanto que a variedade T5 obteve o menor rendimento de álcool, diferindo significativamente das demais variedades, pelo teste de Duncan a 5% de probabilidade de erro (Tabela 15).