MÓDULO 4 – DISTRIBUIÇÃO DE FREQÜÊNCIAS Como vimos no módulo 1, para que nós possamos extrair dos dados estatísticos de que dispomos a correta análise e interpretação, o primeiro passo deverá ser a correta organização e sumarização destes dados, caso contrário estes números não farão qualquer sentido para nós. Também no módulo 1 vimos que a depender do tamanho do nosso conjunto de dados, poderemos organizá­los em um rol, ou seja, por ordem de grandeza (crescente ou decrescente), ou em uma distribuição de freqüências. A distribuição de freqüências é o modo de tratamento de dados utilizado quando é grande a quantidade de dados brutos, e passamos a agrupar os dados estatísticos em subconjuntos com características semelhantes – as classes ou categorias. A distribuição de freqüência será, portanto, a organização de dados em classes ou intervalos, a fim de que se possa determinar o número de observações ou a percentagem de observações de cada classe, chamada de freqüência de classes . Para apresentar estes dados posso utilizar gráficos e tabelas, bem como utilizar as medidas de posição e variabilidade para interpretá­los, mas não sem organizá­los previamente em uma distribuição, sem a qual ficaria impossível o cálculo de algumas das medidas necessárias, como média, variância, etc. Tabela 4.1. Idade de 100 estudantes formandos do curso de Direito de uma Universidade AB em dez/2006 Idade 20 a 22 22 a 24 24 a 26 26 a 28 28 a 30 30 a 32 32 a 34 34 a 36 36 a 38 38 a 40 Número de estudantes 8 10 12 20 17 15 9 5 3 1 Total = 100
A tabela 4.1 acima é uma distribuição de freqüências das idades dos estudantes que estão se formando no curso de Direito de uma determinada Universidade fictícia AB. A primeira classe corresponderia ao grupo de estudantes formandos em Direito no ano de 2006 e que possuem entre 20 e 22 anos, e é indicada pelo símbolo 20 - 22. A freqüência desta classe corresponde a 3 porque existem 3 estudantes cuja idade faz parte desta classe. 4.1. A CONSTRUÇÃO DE UMA DISTRIBUIÇÃO DE FREQÜÊNCIAS PARA DADOS CONTÍNUOS Para se construir uma determinada distribuição de freqüências é preciso em primeiro lugar definir o tipo de variável em questão, para depois definir os passos que devem ser seguidos para a construção desta distribuição. Vamos supor que eu tenho o seguinte conjunto de dados abaixo, referente às idades de uma amostra de 100 alunos formandos de Direito de uma Universidade AB: Tabela 4.2. Dados das idades dos estudantes formandos de Direito da Universidade AB 20 22,3 24,3 26,2 27,1 28,2 29,3 31 32 34 20,4 22,5 24,4 26,3 27,2 28,3 29,4 31,1 32 34,5 20,5 22,6 24,5 26,4 27,3 28,5 29,5 31,2 32,3 35 21 22,7 25 26,5 27,4 29 29,5 31,3 33 35 21 22,8 25 26,6 28 29 30 31,4 33 36 22 22,9 25,3 26,7 28 29 30 31,5 33 36 22 23 25,5 26,8 28 29 30 31,6 34 37 22 24 25,7 26,9 28 29,1 31 31,6 34 37,5 22,1 24,1 26 27 28 29,1 31 32 34 38 22,2 24,2 26 27 28 29,2 31 32 34 40
Na tabela acima dispomos o conjunto de dados referente a uma amostra fictícia para ilustrar o presente módulo e ajudar os alunos a construir uma distribuição de freqüências a partir da série de dados estatísticos colocados acima. Como podemos observar, os dados já estão dispostos em ordem crescente de grandeza, em um rol, muito embora se trate de um conjunto de números superior a 30 observações. Esta amostra diz respeito às idades dos alunos de uma determinada Universidade fictícia AB que estão se formando no curso de Direito. Estamos considerando, portanto, uma variável contínua. Como vimos no módulo 1, uma variável contínua é aquela que pode assumir qualquer valor num intervalo contínuo. Como vimos, tratar um conjunto de dados sob a forma de uma distribuição de freqüências significa organizá­los em intervalos de classes. É preciso, portanto, construir estas classes. Precisamos, então, definir o número de classes, o tamanho destas classes para então enquadrar os dados nas classes pela simples contagem destes dados amostrais. A primeira coisa que devemos fazer ao nos depararmos com um conjunto de dados como este apresentado na tabela 4.2 é procurar calcular a amplitude total (ou intervalo). Neste caso será muito mais fácil já que os números já estão dispostos em um rol. Conforme vimos no módulo 3, a amplitude total ou intervalo poderá ser calculada da seguinte forma: A total = V máximo - V mínimo A total = 40 - 20 = 20 No caso do nosso exemplo, a amplitude total será igual a 20. O valor da amplitude total será importante porque, juntamente com o número de classes, definirá a chamada “amplitude de classes”. Mas como então estabelecer o número de classes? A teoria estatística tem se desenvolvido ao longo dos anos e chegou ao consenso que é aconselhável estabelecer o número de classes entre um mínimo de 5 e um máximo de 20 classes. Uma distribuição de freqüências que possua mais de 20 classes torna a apresentação dos dados muito confusa e de mais difícil avaliação. Se estabelecermos um número de classes inferior a 5, poderemos correr o risco de ocultar informações importantes sobre os dados disponíveis. Quando se quer determinar o número de classes em função do conjunto de dados disponíveis, basta tirarmos a raiz quadrada de n, onde n corresponderia ao total de observações (seja da população ou da amostra). Sendo assim, teremos: Número classes = n No caso do exemplo apresentado acima, temos um total de observações n=100, portanto o número de classes será igual a 10, senão vejamos: N classes = n N classes = 100 = 10 Ora, uma vez que estabelecemos o número de classes, é preciso pensar qual será o tamanho de cada classe, ou dito de outra forma, faz­se necessário determinar a amplitude de classe desta distribuição de freqüências. Para isto calculamos a amplitude total desta distribuição, a qual corresponde a uma medida absoluta de variabilidade. A amplitude de classes será calculada, então, tomando­se o valor da amplitude total e dividindo­se pelo número de classes. Assim, teremos: Amplitudeclasses =
Amplitude total Número classes Seguindo o exemplo que estamos trabalhando, já fizemos o cálculo da amplitude total e do número de classes, podemos então passar para o cálculo da amplitude de classes do referido exemplo. Teremos, então: A classes = A total N classes A classes =
20
= 2 10 A amplitude das classes da distribuição de freqüências que estamos procurando construir em nosso exemplo será igual a dois. Isto representa o intervalo ou tamanho de cada classe, onde iremos dispor os nossos dados. É importante ressaltar que uma distribuição de freqüência não obrigatoriamente apresenta uma
única amplitude de classes, conquanto mantenha a composição estrutural da distribuição. Dispomos agora do número de classes, da amplitude de classes, podemos então construir o chamado intervalo de classes. O intervalo de classes é composto por um limite inferior (número menor) e por um limite superior (número maior). Os limites inferior e superior podem ou não estar incluídos no intervalo de classes, existindo uma simbologia própria dentro da estatística para se expressar isto. Senão vejamos exemplos possíveis a partir da tabela 4.1 acima: a) 20 - 22: diz­se que é um intervalo fechado, pois tanto o 20 quanto o 22 b) participam do intervalo; 22 - 24: diz­se que este é um intervalo aberto, já que o limite inferior, c) 22, não participa do intervalo, ao passo que o limite superior participa do intervalo; 20 - 22: caso o exemplo se apresentasse assim, teríamos um intervalo d) de classe aberto, já que o limite inferior participa do intervalo, mas o limite superior não participa do intervalo; 20 – 22: aqui teríamos um intervalo de classe aberto, onde nem o limite inferior, nem o limite superior participam do intervalo. Após o cálculo do número de classes e da amplitude de classes, deveremos definir os limites inferior e superior de cada classe, começando com o menor valor, ou, no caso de dados fracionais, com um inteiro logo abaixo do menor valor. No nosso exemplo, poderíamos calcular as classes da seguinte forma: Para a primeira classe: Limite inferior: 20 Limite superior: 20 + amplitude de classe = 20 + 2 = 22 Para a segunda classe: Limite inferior: limite superior da classe anterior = 22 Limite superior: limite inferior da seg. classe + amp. Classes = 22 + 2 = 24 E assim sucessivamente até a classe de número 10, no nosso exemplo, que terá como limite inferior 38 e como limite superior 40. É importante frisar que determinado valor não pode pertencer a mais de uma classe, mas por outro lado, para cada valor deve haver uma classe, não permitindo a existência de lacunas na fixação destas mesmas classes. Bem, uma vez que já definimos o número de classes e a amplitude total, a partir delas pudemos estabelecer a amplitude de classes, e pudemos também definir os limites superior e inferior de cada classe, resta­nos agora confrontar as nossas classes com as observações que dispomos na tabela 4.2. Mediante contagem, devemos construir nossa distribuição de freqüência, fixando cada observação numa classe determinada. Quando indicamos o número de observações existentes em um dado intervalo, temos a chamada freqüência absoluta simples ( f i ). Em outras palavras, a freqüência absoluta é o número de
vezes que o dado aparece naquele determinado conjunto de números. É importante destacar que nenhuma classe poderá apresentar freqüência absoluta igual a zero. Assim, uma primeira construção que poderemos fazer nos leva à tabela 4.1, só que agora colocaremos a notação estatística trabalhada por nós até agora. Então, teremos: Tabela 4.3. Distribuição de Freqüência das Idades Classes Freqüência Absoluta Simples 20 - 22 8 22 - 24 10 24 - 26 12 26 - 28 20 28 - 30 17 30 - 32 15 32 - 34 9 34 - 36 5 36 - 38 3 38 - 40 1 ∑ 100
É importante ressaltar que na construção da distribuição de freqüências acima, uma vez que determinado valor tenha sido incluído em determinado intervalo de classes, não deverá ser incluído em um outro. Daí a razão porque temos intervalos onde o limite inferior não está incluído, pois ele corresponde ao mesmo valor do limite superior da classe anterior, portanto o referido valor provavelmente já deve ter sido alocado numa classe anterior. Por exemplo, na tabela 4.2 temos a observação do dado “22” que se repete 3 vezes, e que será incluído no primeiro intervalo de classes. Mas este valor não deverá ser incluído novamente no segundo intervalo de classes. A seguir, deveremos calcular as freqüências absolutas simples acumuladas ( f i , A ), que indica o número de observações acumuladas até o limite superior de uma classe. Por exemplo, na terceira classe teríamos 30 alunos com idade entre 20 e 26 anos se formando em Direito. Senão vejamos como ficaria a nova tabela, incluindo­se a nova notação da freqüência acumulada: TABELA 4.4 Classes Freqüência Absoluta Simples ( f i ) Freqüência absoluta simples acumulada( f i , A ) 20 - 22 8 8 22 - 24 10 18 24 - 26 12 30 26 - 28 20 50 28 - 30 17 67 30 - 32 15 82 32 - 34 9 91 34 - 36 5 96 36 - 38 3 99 38 - 40 1 100 ∑ 100
Um outro dado importante que podemos extrair da construção de uma distribuição de freqüências é a freqüência relativa simples ( f i , R ), que nos mostra a participação relativa do número de observações em uma dada classe, e deverá ser calculada da seguinte forma:
f , i R = f i , geralmente expresso em percentual. å f i A soma das freqüências relativas de todas as classes será igual a 1, se expressa em forma fracionária, ou a 100% se expressa em percentual. No caso da distribuição de freqüências que estamos construindo, teremos agora a seguinte tabela: TABELA 4.5 Classes 20 - 22 f i 8 f i , A 8 f i , R 0,08 22 - 24 10 18 0,10 24 - 26 12 30 0,12 26 - 28 20 50 0,20 28 - 30 17 67 0,17 30 - 32 15 82 0,15 32 - 34 9 91 0,09 34 - 36 5 96 0,05 36 - 38 3 99 0,03 38 - 40 1 100 0,01 ∑ 100 1
4.2. A CONSTRUÇÃO DE UMA DISTRIBUIÇÃO DE FREQÜÊNCIAS PARA DADOS DISCRETOS Numa distribuição de freqüência de dados contínuos os valores individuais sofrem uma perda de identidade uma vez agrupados em classes, e isto gera a perda de uma certa quantidade de informações. Isto ficará claro ao calcularmos a média aritmética em uma distribuição de freqüência e comparar o resultado ao obtido mediante o cálculo dos dados individualmente, até mesmo no exemplo que demos neste módulo. Os resultados não serão os mesmos haja vista esta perda de informação. Dependendo do tipo de dados e dos objetivos do observador, este fenômeno pode ou não ocorrer numa distribuição de freqüência com dados discretos. Quando não há perda de informação, é possível que os dados originais sejam reconstituídos a partir da tabela de distribuição de freqüência com dados discretos. No caso de dados contínuos isto não é possível. Essencialmente, não existem diferenças substanciais entre uma distribuição de freqüência com dados contínuos e uma com dados discretos. Os cálculos das freqüências acumuladas e relativas são feitos da mesma forma, bem como os cálculos das medidas de posição e variabilidade. 
Download

freqüência de Idade de 100 estudantes formandos do curso de