ENCONTRANDO O NÚMERO DE CLASSES DE UM HISTOGRAMA
Tales Jesus Fernandes1; Eric Batista Ferreira2;
INTRODUÇÃO
Na estatística, um histograma é uma representação gráfica da distribuição de
freqüências de uma massa de medições, normalmente um gráfico de barras verticais. A
construção de histogramas tem caráter preliminar em qualquer estudo e é um importante
indicador da distribuição de dados. Os histogramas podem tanto indicar quando uma
distribuição aproxima-se de uma função normal, como podem indicar uma mistura de
populações, quando se apresentam bimodais (WIKIPEDIA, 2008).
Como o histograma é a representação gráfica de uma distribuição de freqüências, ou
seja, dados agrupados em classes, um dos primeiros passos na sua construção é a
determinação do número de classes (K). E este é um problema que já vem sido discutido há
muito tempo. Sturges (1926) propôs que o número de classes poderia ser determinado por
K = 1 + log 2 ( N ) . Embora funcionasse bem para distribuições simétricas, o número de classes
de Sturges era insuficiente para demonstrar a verdadeira inclinação de distribuições
assimétricas.
Doane (1976), baseando-se na estatística
∑( X − X )
⎡ (X − X) ⎤
⎣∑
⎦
3
b1 =
2 32
e em seu desvio padrão
σ b1 =
6( N − 2)
,
( N + 1)( N + 3)
tentou solucionar esse problema propondo uma fórmula para adicionar classes extras ao K de
Sturges.
O número de classes extras proposto por Doane (1976) é dado por
⎛
b1 ⎞
K e = log 2 ⎜⎜1 +
⎟⎟ .
⎝ σ b1 ⎠
1
2
Graduando em Matemática – UFLA – email: [email protected].
Pos-doc – Departamento de Ciências Exatas – UFLA – email: [email protected].
Se
b1 = 0 , nenhuma classe é adicionada, a distribuição é simétrica e o número de
classes é dado pela fórmula de Sturges (1926). Esta adição de classes extras é decrescente. A
taxa de incremento decrescente foi baseada na teoria da informação codificada (Pierce,
1961), em que a entropia de uma mensagem é dada por:
⎛ 1 ⎞
− lo g 2 ⎜
⎟,
⎝M ⎠
sendo M o número de diferentes e prováveis símbolos que possam ocorrer. Os símbolos vão
sendo incluídos na codificação de mensagens em uma escala também decrescente.
No entanto, o critério de adicionar classes extras de Doane (1976) possui uma
inconsistência. Se a distribuição que gerou os dados for assimétrica à esquerda,
negativo então,
b1
σ b1
b1 será
também será negativa, pois σ b1 só depende do tamanho da amostra
e nunca será negativo.
Tomando os devidos cuidados de impor as propriedades do logaritmo, tem-se que
1+
b1
b1
> 0 , logo,
> −1 .
σ b1
σ b1
Como o valor de
b1
σ b1
é negativo percebe-se então que o valor de 1 +
b1
σ
é um
b1
valor compreendido entre 0 e 1, logo o logaritmo dessa quantidade resultará em um número
negativo de classes extras. Isso resultaria em uma subtração do número de classes
previamente estabelecido pelo K de Sturges, o que não faz sentido, uma vez que se deseja
ressaltar a assimetria com o aumento do número de classes.
O presente trabalho tem por objetivo comparar o comportamento das regras de
construção de histograma de Sturges (1926), Doane (1976) e uma modificação da estatística
de Doane.
MATERIAL E MÉTODOS
Foram simulados tamanhos amostrais de 5 a 10.000, aumentando de 1 em 1. Esses
tamanhos amostrais foram avaliados sob a suposição de simetria, assimetria à esquerda e
assimetria à direita. Tais condições de simetria foram criadas fazendo-se
b1 = 0 ,
b1 < 0 e
b1 > 0 , respectivamente.
Em cada um dos casos, foi estudado o comportamento das funções de Sturges, Doane
e Doane modificada com a adição de um módulo na quantidade
b1 .
Todas as análises foram feitas no software R versão 2.6.2 (R DEVELOPMENT CORE
TEAM, 2008).
RESULTADOS E DISCUSSÃO
Sob suposição de simetria da distribuição que originou os dados, as funções que
determinam o número de classes de Sturges, Doane e Doane modificado têm comportamento
idêntico (Figura 1). Isso é esperado, uma vez que Doane e Doane modificado têm a função de
adicionar classes à função de Sturges apenas quando os dados são assimétricos, caso contrário
a inserção de classes extras (Ke) é nula.
FIGURA 1 Número de classes dado pelas funções de Sturges (―), Doane (---) e Doane modificado
(····) em função do tamanho amostral, para dados vindos de uma distribuição simétrica.
Entretanto, sob assimetria, o comportamento das funções se diferencia. Quando os dados vêm
de uma distribuição assimétrica à direita (Figura 2a), a função de Doane cumpre seu propósito e insere
classes extras à função de Sturges. Por isso seu comportamento de diferenciado e o número de classes
cresce mais rápido que a função de Sturges. Neste caso, a função corrigida por esse trabalho não se
diferencia da função de Doane porque sua correção é apenas para casos de assimetria à esquerda.
Quando os dados vêm de uma distribuição assimétrica à esquerda, as três funções se
distinguem (Figura 2b). A função de Sturges ignora o fato de os dados serem assimétricos e apresenta
o mesmo comportamento que já apresentava na Figura 1. Contraditoriamente, a função de Doane
começa a subtrair classes do número previsto por Sturges. Ela prevê o menor número de classes dentre
as três estudadas, o que vai contra o princípio de Doane (1976), que diz que a assimetria dos dados
deve ser mais bem expressada por um maior número de classes.
Entretanto, a correção proposta por esse trabalho foi capaz de manter a coerência sugerida por
Doane e adicionou classes extras ao número de classes previsto por Sturges. Esse comportamento
pode ser visto na Figura 2b, linha (····).
FIGURA 2 Número de classes dado pelas funções de Sturges (―), Doane (---) e Doane modificado
(····) em função do tamanho amostral, para dados vindos de uma distribuição assimétrica à
direita (a) e assimétrica a esquerda (b).
CONCLUSÕES
A correção algébrica proposta por este trabalho foi capaz de manter a coerência da
afirmação de Doane (1976), que diz que quanto mais assimétricos são os dados, mais classes
são necessárias para identificar claramente essa assimetria, independente se essa assimetria
acontece à esquerda ou à direita.
REFERÊNCIAS BIBLIOGRÁFICAS
DOANE, D. P. Aesthetic frequency classifications. The American Statistician, Alexandria, v.
30, n. 4, p. 181-183, Nov. 1976.
PIERCE, J. R. Symbols, Signals and Noise: The Nature and Process of Communication
Harper and Brothers, 1961, p. 80-86.
R DEVELOPMENT CORE TEAM. R: A language and environment for statistical
computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0,
URL http://www.R-project.org. 2008.
STURGES, H. A. The Choice of a Class Interval. Journal of the American Statistical
Association. v. 21, p. 65-66. Mar. 1926.
WIKIPÉDIA. Histograma. Disponível em: <http://pt.wikipedia.org/wiki/Histograma>.
Acesso em: 3 mar. 08.
Download

Encontrando o Número de Classes de um Histograma