Capítulo 2 DISTRIBUIÇÃO DE FREQUENCIA Representação tabular dos dados estatísticos • Denomina-se tabela a disposição escrita dos dados estatísticos segundo um ou mais critérios de classificação. A seguir, um exemplo de tabela. • Tabela. Classe sócio-econômica das famílias do Município X CLASSE A............. B............. C............. D............. ANOS 1998 721 1 379 3 656 5 865 1999(1) 783 1 406 3 585 5 634 FONTE: Prefeitura do Município X NOTA: Dados referentes ao mês de junho de cada ano (1) Previsão realizada em novembro de 1998 Elementos de uma tabela • ELEMENTOS ESSENCIAIS: – Título: é uma informação concisa colocada no topo da tabela que indica a natureza do fato observado, o local e a época em que procedeu-se a observação. – Corpo: é o conjunto de linhas e colunas que contém uma série de informações em disposição horizontal e vertical, respectivamente. – Casa ou célula: é o cruzamento de uma linha com uma coluna. Uma casa pode conter somente uma informação. – Cabeçalho: é a parte superior do corpo da tabela que especifica o conteúdo das colunas. – Coluna indicadora: é a parte do corpo da tabela que especifica o conteúdo das linhas Elementos de uma tabela • ELEMENTOS COMPLEMENTARES: – Fonte: é a informação colocada no rodapé da tabela destinada a indicar a procedência dos dados. – Notas: são informações destinadas a esclarecer todo o conteúdo da tabela. No caso de haver duas ou mais notas, estas devem ser numeradas por algarismos romanos. – Chamadas: são informações destinadas a esclarecer o conteúdo de uma casa, linha ou coluna da tabela. As chamadas são indicadas no corpo da tabela por algarismos arábicos entre parênteses e a numeração deve crescer da esquerda para a direita e de cima para baixo. No corpo da tabela, os números das chamadas devem estar esquerda nas casas e à direita no cabeçalho e na coluna indicadora. Distribuição de frequência • É uma tabela constituída de uma coluna indicadora que contem intervalos de dados e outra coluna que contém o número de dados em cada intervalo. • Os intervalos são denominados classes e o número de dados em cada classe é denominado freqüência absoluta simples ou simplesmente freqüência, geralmente denotada por f. Tabela- Nota final em Estatística dos alunos da turma X, segundo período de 2008 NOTAS 10| 28.................... 28 | 46.................... 46 | 64.................... 64 | 82.................... 82 | 100.................... N.º de alunos 12 15 10 8 5 Construção de uma tabela de distribuição de frequências Um número adequado de classes pode também ser dado pela fórmula de Sturges que é a seguinte: número de classes 1 3,3log n número de classes 1 3,3 log N (amostra) ou (população) onde n é o número de dados observados e logn é o logaritmo decimal do número de dados. O resultado encontrado pela fórmula acima deve ser arredondado para o inteiro mais próximo. A amplitude das classes é : c = maior valo r observado - menor valo r observado numero de classes • OBS: O limite da primeira classe deve ser igual ou menor ao menor dado observado – Limite superior da última classe é igual ao limite inferior da primeira somado ao produto do número de classes pela amplitude das mesmas e deve ser superior ao maior dado observado. • Exemplo. A quantidade de vendas de determinado produto observada em 50 cidades, em julho de 2008 apresentou os seguintes dados: 110 110 112 121 125 128 128 131 131 132 136 141 142 142 145 145 147 147 147 150 150 150 151 153 155 157 159 159 159 163 163 165 165 165 165 165 165 168 171 173 175 175 176 179 184 185 189 193 195 197. Elabore uma distribuição de freqüências para estes dados. Distribuição de frequências relativas • Comparar duas ou mais distribuições de freqüências f f%= 100 n (amostra) f f%= 100 N (população) Distribuição de frequências acumuladas • Número de dados até uma determinada classe, incluindo todas as anteriores. • Para comparar duas ou mais distribuições de freqüências acumuladas, empregam-se as freqüências acumuladas relativas. F%= F 100 n (amostra) F%= F 100 N (população) Análise de uma distribuição de frequências • • Tendência central: os dados se agrupam em torno de um valor intermediário que tende a se localizar no centro da distribuição. Dispersão: variação apresentada pelos dados. Quanto maior for a variação, mais heterogêneos são os dados; quanto menor a dispersão, mais homogêneos sãos os dados. Análise de uma distribuição de frequências • • • Simetria: numa distribuição simétrica os dados estão igualmente distribuído em torno de um valor central. Conglomerados: são grupos de dados que tendem a se concentrarem em torno de certos valores formando agrupamentos dentro da distribuição denominados conglomerados. Valores discrepantes: são dados que se afastam dos valores típicos. Capítulo 3 REPRESENTAÇÃO GRÁFICA GRÁFICO DE COLUNAS OU DE BARRAS • • • • É a representação de uma série estatística através de retângulos em posição vertical (gráfico de colunas) ou horizontal (gráfico de barras). Mais adequados para a representação de séries geográficas e especificativas. Os retângulos devem ter a mesma base e as variações são representadas pelas alturas. Quando as legendas são muito extensas, usa-se gráfico de barras, com os retângulo em ordem decrescente. Tabela 3.1. População brasileira segundo a região, 2000 Região Habitantes % Norte................................ 10 030 556 6,8 Nordeste........................... 42 497 540 28,9 Sudeste............................. 62 740 401 42,7 Sul.................................... 22 129 377 15,1 Centro-Oeste.................... 9 427 601 6,4 BRASIL........................... 146 825 475 100,0 FONTE: IBGE, Censo demográfico de 1991 Gráfico de colunas Figura 3.1. População brasileira segundo a região, 1991 70 Habitantes (milhões) 60 50 40 30 20 10 0 N NE SE Regiões S CO Gráfico de barras Figura 3.2. População brasileira segundo a região, 1991 Sudeste Regiões Nordeste Sul Norte Centro-Oeste 0 10 20 30 40 Habitantes (milhões) 50 60 70 Colunas Justapostas e Colunas Superpostas • Se houver mais de um item por categoria a ser representada, as colunas (ou barras) podem ser justapostas ou superpostas. Tabela 3.2. População brasileira segundo a região e a situação do domicílio (urbana ou rural), 1991 Habitantes Regiões Urbana Rural Norte........................ 5 922 574 4 107 982 Nordeste................... 25 776 279 16 721 261 Sudeste..................... 55 225 983 7 514 418 Sul............................ 16 403 032 5 726 345 Centro-Oeste............ 7 663 122 1 764 479 BRASIL................... 110 990 990 35 834 485 FONTE: IBGE, censo demográfico de 1991 Gráfico de colunas justapostas Habitantes (milhões) 60 Figura 3.3. População brasileira segundo a região e a situação do domicílio (urbana ou rural), 1991 Urbana 50 Rural 40 30 20 10 0 N NE SE Regiões S CO Gráfico de colunas superpostas Habitantes (milhões) 70 Figura 3.4. População brasileira segundo a região e a situação do domicílio (urbana ou rural), 1991 60 Rural 50 Urbana 40 30 20 10 0 N NE SE Regiões S CO Colunas compostas • Neste caso, as colunas têm a mesma altura e são dividas em áreas proporcionais aos itens de cada categoria. Assim sendo, tem-se que: • 1.º) Região Norte: população urbana (59,0%); população rural (41%) • 2.º) Região Nordeste: população urbana (60,7%); população rural (39,3%) • 3.º) Região Sudeste: população urbana (88,0%); população rural (12,0%) • 4.º) Região Sul: população urbana (81,3%); população rural (18,7%) • 5.º) Região Centro-Oeste: população urbana (75,6%); população rural (24,4%) Colunas compostas Figura 3.5. População brasileira segundo a região e a situação do domicílio (urbana ou rural), 1991 100 Habitantes (milhões) 90 80 70 60 50 40 30 20 10 0 Rural Urbana N NE SE Regiões S CO GRÁFICO DE SETORES • É a representação de uma série estatística através de um círculo dividido em setores cujas áreas os proporcionais aos valores representados. • Tem o objetivo de comparar os valores observados numa série geográfica ou especificativa com o total dos mesmos. Figura 3.6. População brasileira segundo a região, 1991 6% 7% 15% 43% Centro-Oeste Norte Sul Nordeste Sudeste 29% GRÁFICO DE CURVAS OU DE LINHAS • Utilizado quando uma das variáveis o tempo, sendo este representado sempre no eixo das abscissas. • Havendo mais de uma variável a ser representada, utiliza-se tracejados diferentes devidamente identificados por meio de legendas. Tabela 3.3. Precipitação e temperatura médias anuais em Juiz de Fora, 1991-2000 Ano Precipitação (mm) Temperatura(ºC) Ano Precipitação (mm) Temperatura (ºC) 1991 1 544 18,7 1996 1 563 18,5 1992 1 648 19,8 1997 1 405 19,3 1993 1 221 19,4 1998 1 300 19,4 1994 1 730 19,1 1999 1 381 18,6 1995 1 565 19,4 2000 1 366 18,9 Gráfico de Linhas Figura 3.7. Precipitação anual em Juiz de Fora, 1991-2000 1800 Precipitação (mm) 1700 1600 1500 1400 1300 1200 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 Anos FONTE: Estação Climatológica de Juiz de Fora Gráfico de Linhas Populações dos municípios A e B, 1930-1990 Habitantes Município A Município B 1934........... 50 362 631 842 1950........... 112 549 1 374 509 1960........... 158 694 2 102 999 1970........... 222 172 3 091 408 1980........... 304 075 4 266 144 1990........... 420 038 5 631 310 2000........... 562 851 7 264 389 Figura 3.8. Populações dos Municípios A e B, 1930-1990 10000000 Habitantes Anos 1000000 100000 Município A Município B 10000 1930 1940 1950 1960 Anos 1970 1980 1990 GRÁFICO DE PONTOS • Utilizado para representar a distribuição dos dados de uma variável quantitativa quando o número de observações não é muito grande. – Exemplo 3.5. Os dados abaixo referem-se às medidas da temperatura média (ºC) em 20 postos de observação de determinada localidade em julho de 2001: 19, 22, 18, 24, 16, 25, 18, 21, 20, 25, 19, 25, 18, 21, 20, 16, 19, 21, 14, 23. Represente estes dados por um gráfico de pontos. Gráfico de Pontos Figura 3.8. Temperatura média em 20 postos de observação na localidade X, julho de 2001 18 19 20 21 Temperatura (ºC) 22 23 HISTOGRAMA • Utilizado para representar uma distribuição de freqüências simples. • É um conjunto de retângulos justapostos de mesma base que representam as classes sendo que as alturas dos referidos retângulos correspondem às freqüências (absolutas ou relativas) das respectivas classes e os centros das bases representam os pontos médios das respectivas classes. Tabela 3.3. Velocidade média do vento em 50 postos de observação instalados na localidade X, 2000 Velocidade (km/h) N.º de postos 8 29 | 43................ 12 43 | 57............... 15 57 | 71............... 11 71 | 85................ 4 85 | 99................ FONTE: Serviço de meteorologia da localidade X Histograma 16 Velocidade média do vento observada em 50 postos de observação instalados na localidade X, 2000 Número de postos 14 12 10 8 6 4 2 0 36 50 64 78 Velocidade (km/h) 82 POLÍGONO DE FREQUENCIA Velocidade média do vento observada em 50 postos de observação instalados na localidade X, 2000 16 14 Número de postos • Também utilizado para representar um distribuição de freqüência simples. • Representando-se os pontos médios das classes nas abscissas e as respectivas freqüências no eixo das ordenadas. 12 10 8 6 4 2 0 22 36 50 64 78 Velocidade (km/h) 82 96 OGIVA DE GALTON • Utilizada para representar uma distribuição de freqüências acumuladas. • Representando-se os limites das classes nas abscissas e as respectivas freqüências acumuladas no eixo das ordenadas Tabela 3.3. Velocidade média do vento em 50 postos de observação instalados na localidade X, 2000 Velocidade (km/h) N.º de postos Abaixo de 29................. 0 Abaixo de 43................. 8 Abaixo de 57................. 20 Abaixo de 71................. 35 Abaixo de 85................. 46 Abaixo de 99................. 50 FONTE: Serviço de meteorologia Ogiva de Galton Velocidade média do vento observada em 50 postos de observação instalados na localidade X, 2000 50 Número de postos 45 40 35 30 25 20 15 10 5 0 29 43 57 71 Velocidade (km/h) 85 99 RAMOS E FOLHAS • O gráfico de ramos e folhas é utilizado para representar a distribuição dos dados de uma variável quantitativa. – Exemplo 3.7. Os dados a seguir representam os valores da vazão (em m3/s) de 26 rios na localidade X em julho de 2001: 56, 85, 42, 63, 97, 59, 72, 91, 95, 104, 68, 79, 88, 88, 101, 76, 100, 118, 86, 94, 93. Represente a distribuição destes dados por um gráfico de ramos e folhas. – Solução – Ordenando-se os dados acima, tem-se : 42, 56, 59, 63, 68, 72, 76, 79, 85, 86, 88, 88, 91, 93, 94, 95, 97, 100, 101, 104, 118. – Adotando-se uma escala de 10, os ramos são 4, 5, 6, 7, 8, 9, 10 e 11, enquanto que as folhas são 2 (para o ramo 4), 6 e 9 (para o ramo 5), 3 e 8 (para o ramo 6), 2, 6 e 9 (para o ramo 7), 5, 6, 8 e 8 (para o ramo 8), 1, 3, 4, 5 e 7 (para o ramo 9), 0, 1 e 4 (para o ramo 10) e 18 (para o ramo 11). Com estas considerações, tem-se o gráfico a seguir. Ramos e Folhas 4 5 6 7 8 9 10 11 2 6 3 2 5 1 0 18 9 8 6 6 3 1 9 8 4 4 8 5 7 ANÁLISE DE UM GRÁFICO • • • • • • • GRÁFICOS DE COLUNAS (BARRAS) SIMPLES E GRÁFICO DE SETORES Nestes gráficos deve-se observar os valores máximo (s) e mínimo (s). Nos gráficos de colunas justapostas, superpostas e compostas deve-se comparar as variá eis envolvidas. GRÁFICO DE CURVAS Nestes gráficos deve-se observar os valores máximo (s) e mínimo (s), o (s) período (s) onde ocorre (em) a(s) maior (es) e menor(es) variação (variações) e a tendência das variáveis analisadas. No caso de duas ou mais variáveis, deve-se comparar as variações das mesmas. HISTOGRAMA, POLÍGONO DE FREQÜÊNCIA, OGIVA DE GALTON, GRÁFICO DE PONTOS E RAMOS-E-FOLHAS Nestes gráficos procura obter as seguintes informações: tendência central, dispersão e assimetria, conglomerados e valores discrepantes.