ENCONTRANDO O NÚMERO DE CLASSES DE UM HISTOGRAMA Tales Jesus Fernandes1; Eric Batista Ferreira2; INTRODUÇÃO Na estatística, um histograma é uma representação gráfica da distribuição de freqüências de uma massa de medições, normalmente um gráfico de barras verticais. A construção de histogramas tem caráter preliminar em qualquer estudo e é um importante indicador da distribuição de dados. Os histogramas podem tanto indicar quando uma distribuição aproxima-se de uma função normal, como podem indicar uma mistura de populações, quando se apresentam bimodais (WIKIPEDIA, 2008). Como o histograma é a representação gráfica de uma distribuição de freqüências, ou seja, dados agrupados em classes, um dos primeiros passos na sua construção é a determinação do número de classes (K). E este é um problema que já vem sido discutido há muito tempo. Sturges (1926) propôs que o número de classes poderia ser determinado por K = 1 + log 2 ( N ) . Embora funcionasse bem para distribuições simétricas, o número de classes de Sturges era insuficiente para demonstrar a verdadeira inclinação de distribuições assimétricas. Doane (1976), baseando-se na estatística ∑( X − X ) ⎡ (X − X) ⎤ ⎣∑ ⎦ 3 b1 = 2 32 e em seu desvio padrão σ b1 = 6( N − 2) , ( N + 1)( N + 3) tentou solucionar esse problema propondo uma fórmula para adicionar classes extras ao K de Sturges. O número de classes extras proposto por Doane (1976) é dado por ⎛ b1 ⎞ K e = log 2 ⎜⎜1 + ⎟⎟ . ⎝ σ b1 ⎠ 1 2 Graduando em Matemática – UFLA – email: [email protected]. Pos-doc – Departamento de Ciências Exatas – UFLA – email: [email protected]. Se b1 = 0 , nenhuma classe é adicionada, a distribuição é simétrica e o número de classes é dado pela fórmula de Sturges (1926). Esta adição de classes extras é decrescente. A taxa de incremento decrescente foi baseada na teoria da informação codificada (Pierce, 1961), em que a entropia de uma mensagem é dada por: ⎛ 1 ⎞ − lo g 2 ⎜ ⎟, ⎝M ⎠ sendo M o número de diferentes e prováveis símbolos que possam ocorrer. Os símbolos vão sendo incluídos na codificação de mensagens em uma escala também decrescente. No entanto, o critério de adicionar classes extras de Doane (1976) possui uma inconsistência. Se a distribuição que gerou os dados for assimétrica à esquerda, negativo então, b1 σ b1 b1 será também será negativa, pois σ b1 só depende do tamanho da amostra e nunca será negativo. Tomando os devidos cuidados de impor as propriedades do logaritmo, tem-se que 1+ b1 b1 > 0 , logo, > −1 . σ b1 σ b1 Como o valor de b1 σ b1 é negativo percebe-se então que o valor de 1 + b1 σ é um b1 valor compreendido entre 0 e 1, logo o logaritmo dessa quantidade resultará em um número negativo de classes extras. Isso resultaria em uma subtração do número de classes previamente estabelecido pelo K de Sturges, o que não faz sentido, uma vez que se deseja ressaltar a assimetria com o aumento do número de classes. O presente trabalho tem por objetivo comparar o comportamento das regras de construção de histograma de Sturges (1926), Doane (1976) e uma modificação da estatística de Doane. MATERIAL E MÉTODOS Foram simulados tamanhos amostrais de 5 a 10.000, aumentando de 1 em 1. Esses tamanhos amostrais foram avaliados sob a suposição de simetria, assimetria à esquerda e assimetria à direita. Tais condições de simetria foram criadas fazendo-se b1 = 0 , b1 < 0 e b1 > 0 , respectivamente. Em cada um dos casos, foi estudado o comportamento das funções de Sturges, Doane e Doane modificada com a adição de um módulo na quantidade b1 . Todas as análises foram feitas no software R versão 2.6.2 (R DEVELOPMENT CORE TEAM, 2008). RESULTADOS E DISCUSSÃO Sob suposição de simetria da distribuição que originou os dados, as funções que determinam o número de classes de Sturges, Doane e Doane modificado têm comportamento idêntico (Figura 1). Isso é esperado, uma vez que Doane e Doane modificado têm a função de adicionar classes à função de Sturges apenas quando os dados são assimétricos, caso contrário a inserção de classes extras (Ke) é nula. FIGURA 1 Número de classes dado pelas funções de Sturges (―), Doane (---) e Doane modificado (····) em função do tamanho amostral, para dados vindos de uma distribuição simétrica. Entretanto, sob assimetria, o comportamento das funções se diferencia. Quando os dados vêm de uma distribuição assimétrica à direita (Figura 2a), a função de Doane cumpre seu propósito e insere classes extras à função de Sturges. Por isso seu comportamento de diferenciado e o número de classes cresce mais rápido que a função de Sturges. Neste caso, a função corrigida por esse trabalho não se diferencia da função de Doane porque sua correção é apenas para casos de assimetria à esquerda. Quando os dados vêm de uma distribuição assimétrica à esquerda, as três funções se distinguem (Figura 2b). A função de Sturges ignora o fato de os dados serem assimétricos e apresenta o mesmo comportamento que já apresentava na Figura 1. Contraditoriamente, a função de Doane começa a subtrair classes do número previsto por Sturges. Ela prevê o menor número de classes dentre as três estudadas, o que vai contra o princípio de Doane (1976), que diz que a assimetria dos dados deve ser mais bem expressada por um maior número de classes. Entretanto, a correção proposta por esse trabalho foi capaz de manter a coerência sugerida por Doane e adicionou classes extras ao número de classes previsto por Sturges. Esse comportamento pode ser visto na Figura 2b, linha (····). FIGURA 2 Número de classes dado pelas funções de Sturges (―), Doane (---) e Doane modificado (····) em função do tamanho amostral, para dados vindos de uma distribuição assimétrica à direita (a) e assimétrica a esquerda (b). CONCLUSÕES A correção algébrica proposta por este trabalho foi capaz de manter a coerência da afirmação de Doane (1976), que diz que quanto mais assimétricos são os dados, mais classes são necessárias para identificar claramente essa assimetria, independente se essa assimetria acontece à esquerda ou à direita. REFERÊNCIAS BIBLIOGRÁFICAS DOANE, D. P. Aesthetic frequency classifications. The American Statistician, Alexandria, v. 30, n. 4, p. 181-183, Nov. 1976. PIERCE, J. R. Symbols, Signals and Noise: The Nature and Process of Communication Harper and Brothers, 1961, p. 80-86. R DEVELOPMENT CORE TEAM. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org. 2008. STURGES, H. A. The Choice of a Class Interval. Journal of the American Statistical Association. v. 21, p. 65-66. Mar. 1926. WIKIPÉDIA. Histograma. Disponível em: <http://pt.wikipedia.org/wiki/Histograma>. Acesso em: 3 mar. 08.