HOMENAGEM A ESTATÍSTICA É COMO O BIQUINI Frederico Pimentel Gomes1 UM PROBLEMA DE ARITMÉTICA D izem os entendidos que a Estatística é como o biquini, mostra muito, mas oculta o esssencial. Na verdade, esse pensamento, aparentemente paradoxal, é correto não só em relação à Estatística (mal empregada) como relativamente a qualquer conhecimento usado inadequadamente. Não esqueçamos que, exagerando um pouco um problema bastante comum de Aritmética, podemos afirmar, com base na infalível Matemática, que, se dois homens fazem um muro em cinco dias de trabalho, a população masculina de Piracicaba (100.000 marmanjos, digamos) poderá construí-lo, folgadamente, em três segundos apenas... Mas ninguém estranhará que depois de três horas de atividade nem sequer tenham conseguido começar a construção... Veremos neste artigo alguns problemas práticos importantes que o biquini oculta àqueles que não sabem aprofundar-se suficientemente na solução dos problemas. UM RESULTADO INFELIZ Consideremos um experimento com quatro cultivares de milho, em três blocos casualizados, e admitamos que, para uma média geral de 2.000 kg ha-1, o desvio padrão tenha sido s = 280 kg ha-1 e, portanto, com coeficiente de variação médio de 14%. Suponhamos, ainda, que o valor de F, como se vê na análise da variância (Tabela 1), seja F = 3,32. Como o limite da tabela estatística correspondente, ao nível de 5% de probabilidade, é F = 4,76, concluem alguns colegas que, quanto à produtividade, “os cultivares são estatisticamente iguais”. Mas esta conclusão é errônea, por vários motivos. Em primeiro lugar, não existem testes estatísticos capazes de demonstrar que duas médias de tratamentos são iguais. O que demonstrou o teste F, aplicado à análise da variância do experimento, foi apenas que não há diferença estatisticamente significativa, ao nível de 5% de probabilidade, entre as médias dos cultivares, ou, em outras palavras, que não se comprovaram estatisticamente, a esse nível de probabilidade, diferenças ^ = entre as médias de tratamentos, cujas estimativas são as seguintes: m 1 -1 ^ -1 ^ -1 ^ 2.300 kg ha ; m2 = 2.200 kg ha ; m3 = 1.800 kg ha ; m4 = 1.700 kg ha-1. Tabela 1. Análise de variância do experimento, com três blocos casualizados. Causa da variação Blocos Tratamentos Resíduos G.L. S.Q. Q.M. F 2 3 6 188.160 780.000 470.400 94.080 260.000 78.400 1,20 3,32 Poderíamos, a seguir, comparar essas médias duas a duas, pela prova de Tukey, que nos daria, nesse caso, a diferença mínima significativa, ao nível de 5% de probabilidade, ∆ = 792 kg ha-1. Verifica-se, pois, que nem sequer a diferença entre a maior média (2.300 kg ha-1) e a menor (1.700 kg ha-1) é significativa, o que se indica pela colocação de uma ^ = mesma letra (a, por exemplo) ao lado de todas as médias, assim: m 1 ^ = 1.700 a. ^ = 2.200 a; m ^ = 1.800 a; m 2.300 a; m 2 3 4 Esse resultado seria de esperar, aliás, pois só muito raramente o teste de Tukey aplicado à comparação de médias leva a resultado significativo quando não atingiu a significância o teste F aplicado à análise da variância (PIMENTEL GOMES, 1987). No entanto, com as mesmas médias estimadas para os tratamentos e o mesmo desvio padrão (s = 280 kg ha-1), se tiverem sido usados cinco blocos casualizados, a análise da variância mudará e nos dará um valor de F maior (5,55, em lugar de 3,32, como se vê na Tabela 2) significativo, uma 1 Professor Catedrático (aposentado) da ESALQ-USP, Consultor Científico de várias entidades. In memoriam. vez que o novo valor de F da tabela, ao nível de 5% e probabilidade, é F0 = 3,49. A nova diferença mínima significativa, pela prova de Tukey, será ^ = 2.300 kg ha-1 passará a ser signifimenor: ∆ = 526 kg ha-1. E a média m 1 ^ = 1.700 kg ha-1. cativamente superior à média m 4 Tabela 2. Análise da variância do experimento, com as mesmas médias de tratamentos, mas com cinco blocos casualizados, em vez de três. Causa da variação G.L. S.Q. Q.M. F 4 3 12 376.320 1.300.000 940.800 94.080 433.333 78.400 1,20 5,53* Blocos Tratamentos Resíduos CONCLUSÕES A TIRAR Esse ensaio fictício nos demonstra claramente o seguinte: • Em igualdade de outras condições, o aumento do número de repetições traz maior precisão aos experimentos, e pode tornar significativas diferenças entre médias de tratamentos, por pequenas que sejam. • Em ensaios com poucas repetições e pequeno número de graus de liberdade para o Resíduo, podem não ser comprovadas estatisticamente diferenças ponderáveis entre médias de tratamentos. Na verdade, em experimentos de escassa precisão, como o que discutimos de início, com coeficiente de variação de 14% e apenas três blocos casualizados, o nível de significância de 10% seria preferível. E a este nível o efeito de tratamento seria significativo, pois temos F = 3,32, em comparação com o valor F0 = 3,29 da tabela apropriada. • Por outro lado, num experimento com 100 cultivares, em dois blocos ao acaso e coeficiente de variação de 15%, uma diferença máxima de produtividade de 60% não é significativa pelo teste de Tukey. E é quase certo que o teste F, aplicado à análise da variância, chegará à conclusão análoga. Ao contrário, uma diferença máxima de 10%, num ensaio com coeficiente de variação de 15%, dez cultivares de 45 blocos casualizados, será significativa. • Tendo em vista as considerações feitas, se a conclusão de igualdade de tratamento fosse válida, seria fácil demonstrá-la sempre, em qualquer caso. Bastaria, para isso, fazer um experimento com muito poucas repetições e mal conduzido, para ter elevado coeficiente de variação. COMENTÁRIO FINAL Como já afirmei noutros artigos, os níveis de significância são um ponto delicado e discutível da análise estatística. É fácil compreender que o uso de experimentos de precisão baixa ou média, combinado à interpretação inadequada dos níveis de significância, tem afastado cientistas menos experientes de linhas promissoras de pesquisa. Tratamentos distintos só muito raramente dão resultados equivalentes. Diferenças que não atingem o nível estatístico de significância são, não raro, importantes e facilmente comprováveis por métodos mais eficientes ou por experimentos de maior precisão. E, em muitos casos, são recomendáveis níveis de significância menos exigentes, de 10% e até de 25% de probabilidade, em ensaios de pequena precisão (poucas repetições, coeficiente de variação elevado e escassos graus de liberdade para o Resíduo), e, mais ainda, quando o uso de novas técnicas não implica em aumento de despesa, como é o caso, em geral, da utilização de material genético mais produtivo. (negrito do redator) LITERATURA CITADA PIMENTEL GOMES, F. Curso de Estatística Experimental. 12a. edição. Piracicaba: ESALQ, 1987. INFORMAÇÕES AGRONÔMICAS Nº 108 – DEZEMBRO/2004 9