ESTATÍSTICA DESCRITIVA 1 – INTRODUÇÃO Antes de começamos a falar de estatística descritiva, vamos primeiro a pergunta: O que é estatística? Podemos dizer que Estatística é a ciência que investiga os processos de obtenção, organização e análise de dados sobre uma população, e os métodos de tirar conclusões ou fazer predições com base nesses dados. Este conceito tem significado mais amplo do que aquele que usualmente se dá à palavra “estatística”, isto é, o resultado de contagens sobre ocorrência de determinados eventos e a sua representação através de gráficos e tabelas, como por exemplo, as estatísticas de ocorrência de chuvas numa certa época do ano, as estatísticas sobre número de desempregados, as estatísticas de acidentes nas rodovias da Bahia no período do carnaval, as estatísticas sobre ganhadores de prêmios de loterias, etc. Em geral, este conceito mais popular de estatística corresponde somente à organização e descrição dos dados relativos a um determinado experimento ou situação e não trata da análise e interpretação desses dados. Ele está associado à parte da estatística que denominamos de Estatística Descritiva. A Estatística Descritiva é a parte da estatística que se preocupa com a organização e descrição de dados experimentais. Além da Estatística Descritiva há a Estatística Indutiva ou Estatística Inferencial que consiste, fundamentalmente, das técnicas de análises e interpretação dos dados. A partir de um conjunto restrito de dados, chamado de amostra, organizado e descrito pela estatística descritiva, a Estatística Indutiva procura fazer inferência ou, em outras palavras, tirar conclusões sobre a natureza desses dados e estender essas conclusões a conjuntos maiores de dados, chamados de populações. A estatística descritiva, cujo objetivo básico é o de sintetizar uma série de valores de mesma natureza, permitindo dessa forma que se tenha uma visão global da variação desses valores, organiza e descreve os dados de três formas: por meio de tabelas, de gráficos e de medidas descritivas. A tabela é um quadro que resume um conjunto de observações, enquanto os gráficos são formas de apresentação dos dados, cujo objetivo é o de produzir uma impressão mais rápida e viva do fenômeno em estudo. Para ressaltar as tendências características observadas nas tabelas, isoladamente, ou em comparação com outras, é necessário expressar tais tendências através de números ou estatísticas. Estes números ou estatística são divididos em duas categorias: medidas de posição e medidas de dispersão. 2 – CONCEITOS FUNDAMENTAIS E DEFINIÇÕES Freqüentemente precisamos tirar conclusões válidas sobre um grande grupo de indivíduos ou objetos. Ao invés de examinar todo o grupo (chamado de população) – o que pode ser difícil ou mesmo impossível – pode-se cogitar em estudar apenas uma pequena parte (amostra) dessa população. 1 População: conjunto de elementos que tem pelo menos uma característica em comum. Amostra: subconjunto de elementos de uma população Em se tratando de conjuntos e subconjuntos, estes podem ser: Finito: possuem um número limitado de elementos; Infinito: possuem um número ilimitado de elementos. Após a determinação dos elementos pergunta-se: o que fazer com estes? Pode-se medi-los, observalos, contá-los surgindo um conjunto de respostas que receberá a denominação de variável. Variável: é a característica que vai ser observada, medida ou contada nos elementos da população ou da amostra e que pode variar, ou seja, assumir um valor diferente de elemento para elemento. Podemos classificar os tipos de varáveis em: Variável qualitativa (ou categórica): é uma variável que assume como possíveis valores, atributos ou qualidades. Essa variável pode ser classificada em: Variável qualitativa nominal – variável que assume como possíveis valores, atributos ou qualidades e estes não apresentam uma ordem natural de ocorrência. Exemplo: meios de informação utilizados pelos os alunos da disciplina probabilidade e estatística do curso de engenharia do IFBA: televisão, livro, revistas, jornal, internet, rádio. Variável qualitativa ordinal – variável que assume como possíveis valores, atributos ou qualidades e estes apresentam uma ordem natural de ocorrência. Exemplo: estado civil dos professores do IFBA: solteiro, casado, separados. Variável quantitativa: é uma variável que assume como possíveis valores, números. Essa variável pode ser classificada em: Variável quantitativa nominal – variável que assume como possíveis valores, atributos ou qualidades e estes não apresentam uma ordem natural de ocorrência. Exemplo: meios de informação utilizados pelos os alunos da disciplina probabilidade e estatística do curso de engenharia elétrica do IFBA: televisão, livro, revistas, jornal, internet, rádio. Variável quantitativa discreta – variável que assume como possíveis valores números, em geral inteiros, formando um conjunto finito ou enumerável. Exemplo: número de reprovação, na disciplina Física I, dos alunos do curso de engenharia elétrica do IFBA: 0, 1, 2, ... Variável quantitativa contínua – variável que assume como possíveis valores números, em intervalo da reta real e, em geral, resultante de mensurações. Exemplo: peso (kg), dos alunos do curso de engenharia elétrica do IFBA: 45, 48, 50, 53, 60, 65, ... 2 – TABELAS Toda tabela deve ser simples, clara, objetiva e auto-explicativa. Uma tabela deve apresentar a seguinte estrutura; Titulo: aponta o fenômeno, época e local de ocorrência; Cabeçalho: explica o conteúdo das colunas; Corpo: mostra os dados. Rodapé: (elementos complementares). A fonte: cita o informante. A nota: esclarece o conteúdo e indicam a metodologia adotada na obtenção ou elaboração da informação. 2 Com o objetivo de levantar dados, para exemplificar o uso de tabelas estatísticas, gráficos etc, será aplicado um questionário na turma do primeiro semestre do curso de engenharia elétrica do IFBA – Campus Vitória da Conquista. EXEMPLOS DE TABELAS: Retiradas dos resultados da avaliação dos programas de pósgraduação do triênio 2007, 2008 e 2009 (Trienal 2010) – portal da CAPES SÉRIE CRONOLÓGICA, TEMPORAL, EVOLUTIVA OU HISTÓRICA. É a série estatística em que os dados são observados segundo a época de ocorrência. Exemplo: Exportação do Açúcar – 1965-1971 Ano Vendas (em milhares de dólar) 1965 60.193 1966 80.114 1967 812.826 1968 106.879 1999 112.064 1970 126.740 1971 149.548 Fonte: Instituto do Açúcar e do Álcool. 3 “As imagens de satélites de sensoriamento remoto revelam a área cultivada com cana-de-açúcar nos principais estados produtores da região centro-sul do Brasil na safra 2008/09. Os resultados estão divulgados no site do Canasat e se referem à área de cana disponível para colheita na safra 2008/09 incluindo as diferentes finalidades, como indústria sucroalcooleira, produção de aguardente, forragem, etc. Eventualmente, parte da cana inicialmente disponível para colheita pode não ser processada na safra, devido a fatores como regime de chuvas e disponibilidade de equipamentos de colheita e transporte, entre outros”. Retirado http://www.unica.com.br/downloads/estatisticas/canasat_2008.pdf As avaliações da área cultivada com cana, por meio de imagens de satélites de sensoriamento remoto, são realizadas pelo INPE (Instituto Nacional de Pesquisas Espaciais) em cooperação com a UNICA (União da Indústria da Cana-de-Açúcar) e o CTC (Centro de Tecnologia Canavieira) desde 2003 e os resultados destas avaliações estão disponíveis no site do projeto Canasat (http://www.dsr.inpe.br/canasat/). OBS: Ver mais em http://www.unica.com.br/dadosCotacao/estatistica/ SÉRIE GEOGRÁFICA OU DE LOCALIZAÇÃO É a série estatística em que os dados são observados segundo a localização de ocorrência. Exemplo População de algumas cidades da Bahia - 2010 Cidade Salvador Feira de Santana Vitória da Conquista Itatuna Ilhéus Jequié Bareiras População 2.480.790 542.476 295.277 202.359 176.917 151.820 130.620 Fonte: IBGE – CENSO 2010 (http://www.censo2010.ibge.gov.br/dados_divulgados/index.php?uf=29) 4 SÉRIE ESPECÍFICA É a série estatística em que os dados são agrupados segundo a modalidade de ocorrência. Exemplo: Número de Mestrados / Doutorados Reconhecidos – Área: Ciências Exatas e da Terra Totais de Cursos de pósgraduação Total M D F Área de Avaliação Astronomia Ciência da Computação Física Geociências Matemática Oceanografia Probabilidade e Estatística Química Total: Ciências Exatas e da Terra 7 62 75 78 49 12 13 95 391 Fonte: Portal da CAPES (Atualização – 24/04/2007) M – Mestrado Acadêmico, D – Doutorado, 4 43 45 43 33 7 7 57 239 3 14 29 35 15 5 6 35 142 0 5 1 0 1 0 0 3 10 F – Mestrado Profissional. DISTRIBUIÇÃO DE FREQÜÊNCIA É a série estatística em que os dados são agrupados com suas respectivas freqüências absolutas. Exemplo. Nota da Primeira avaliação dos Alunos da Disciplina Probabilidade e Estatística. Período 2011-1 – IFBA - Campus Vitória da Conquista. Média: 5,74 Notas 8,0 7,0 7,0 6,0 6,0 5,0 5,0 4,0 4,0 3,0 Total: Número de Alunos 2 9 1 1 4 17 Fonte: Resultado da primeira avaliação. Nota da Primeira avaliação dos Alunos da Disciplina Mecânica Geral, Período 2007-1 – CEFET/BA – UE Vitória da Conquista (IFBA a partir 28/12/2008). Média: 4,73 Notas 7,0 6,0 6,0 5,0 5,0 4,0 4,0 3,0 Total: Número de Alunos 2 2 5 2 11 Fonte: Resultado da primeira avaliação. 5 GRÁFICOS A representação gráfica das séries estatísticas tem por finalidade representar os resultados obtidos. Deve ser apresentada com clareza. Gráficos em Colunas: Do relatório de divulgação dos resultados finais da avaliação Trienal 2010 dos programas de pós-graduação do triênio 2007, 2008 e 2009. Fonte: Portal da Capes Gráficos em setores: Do relatório de divulgação dos resultados finais da avaliação Trienal 2010 dos programas de pós-graduação do triênio 2007, 2008 e 2009. Fonte: Portal da Capes 6 DISTRIBUIÇÃO DE FREQÜÊNCIA Para construir as tabelas de distribuição de freqüência, torna-se necessário um estudo completo das distribuições de freqüência. Para os procedimentos usuais na construção dessas tabelas são necessários os seguintes conceitos fundamentais: População, Amostra, Variável Discreta e Variável Contínua (este conceitos estão no inicio do texto), Representação da Amostra. A estatística tem como objeto encontrar leis de comportamento para todo o conjunto, por meio da sinterização dos dados numéricos, sob a forma de tabelas, gráficos e medidas. Os procedimentos para a representação das distribuições de freqüência são: 1) DADOS BRUTOS – o conjunto dos dados numéricos obtidos após a critica dos valores coletados constitui-se nos dados brutos. Exemplo: As notas de 32 estudantes de uma turma estão descritas a seguir: 6,0 – 0,0 – 2,0 – 6,5 – 5,0 – 3,5 – 4,0 – 7,0 8,0 – 7,0 – 8,5 – 6,0 – 4,5 – 0,0 – 6,5 – 6,0 2,0 – 5,0 – 5,5 – 5,0 – 7,0 – 1,5 – 5,0 – 5,0 4,0 – 4,5 – 4,0 – 1, 0 – 5,5 – 3, 5 - 2,5 – 4,5 Estes dados são exemplos de dados brutos. 2) ROL – É o arranjo dos dados brutos em ordem crescente ou decrescente. Assim: 0,0 – 0,0 – 1,0 – 1,5 – 2,0 – 2,0 – 2,5 – 3,5 – 3,5 – 4,0 – 4,0 – 4,0 – 4,5 – 4,5 – 4,5 – 5, 0 – 5,0 – 5,0 5,0 – 5,0 – 5,5 – 5,5 – 6,0 – 6,0 – 6,0 – 6,5 – 6,5 – 7,0 – 7,0 – 7,0 – 8,0 – 8,5. Constituem um rol. 3) Amplitude total ou “range” (R) – É a diferença entre o maior e o menos valor observado. Neste exemplo: R = 8,5 – 0,0 = 8,5. 4) Freqüência Absoluta (Fi) – É o número de vezes que o elemento aparece na amostra ou o número de elementos pertencente a uma classe. Neste exemplo: F(0,0) 2 ; F(5,0) 5 . 5) Distribuição de Freqüência – É o arranjo dos valores e suas respectivas freqüências. Neste exemplo, temos: Classes Fi 0 1,5 3 1,5 3,0 4 3,0 4,5 5 4,5 6,0 10 6,0 7,5 8 Exemplo de distribuição de freqüência – variável contínua ( X representa a variável , = tamanho da amostra) 7,5 9,0 2 F n e n i 6) Número de Classes ( K ) – Não há uma fórmula exata para o cálculo do número de classes. a) K 5 para n 25 e K n , para n 25. Aproximar para o maior inteiro. 7 b) Fórmula de Sturges K 1 3, 22log n , onde n tamanho da amostra. 7) Amplitude das Classes (h): h R K . A amplitude das classes ( h ) deve ser aproximada para mais. Para o nosso exemplo notas de 32 estudantes de uma turma, temos: R 8,5 ; K 32 5,7 K 6. Logo, h 8,5/ 6 1, 41. Portanto, h 1,5 . 8) Limites das Classes Existem diversas maneiras de expressar os limites das classes. Por exemplo: a) 12 14: compreende todos os valores entre 12 e 14; b) 12 14: compreende todos os valores de 12 a 14, excluindo o 14; c) 12 14: compreende todos os valores de 12 a 14, excluindo o 12; d) limite aparente 12 – 14 ; limite real 11,5 – 13,5. Usaremos com mais freqüência o item b. 9) Ponto médio das classes ( xi ) – É a média aritmética entre o limite superior e o limite inferior da classe. Assim. Se a classe por 4,5 6,0 , teremos: xi 6, 0 4,5 5, 25 , como ponto médio da classe. 2 10) Freqüência absoluta acumulada ( Fac ) – É a soma das freqüências dos valores inferiores ou igual ao valor dado. Exemplo: Xi Fi Fac 21 22 23 24 25 26 3 2 2 1 4 3 15 3 5 7 8 12 15 11) Freqüência relativa ( f i ) – A freqüência relativa de um valor é dada por f i Fi , ou seja, é a n porcentagem daquele valor na amostra. 8 Exemplo: Xi Fi fi 21 22 23 24 25 26 3 2 2 1 4 3 15 3/15 = 1/5 2/15 2/15 1/15 4/15 3/15 = 1/5 1 Observe que f i 1. i 12) HISTOGRAMAS E POLÍGONOS DE FREQÜÊNCIA Histograma e polígonos de freqüências são duas representações gráficas de distribuições de freqüências. i) Um histograma ou histograma de freqüência consiste em um conjunto de retângulos que tem: a) as bases sobre o eixo horizontal (eixo dos X) com centro no ponto médio a as larguras iguais ás amplitudes dos intervalos das classes ; b) as áreas proporcionais às freqüências ii) Um polígono de freqüência é um gráfico de linha em que as freqüências são locadas sobre perpendiculares levantadas nos pontos médios. Pode-se também obtê-los, ligando-se os pontos médios dos topos dos retângulos de um histograma. Exemplo: IDADE DOS PROFESSORES DA COEEL IDADE Fi 25 30 2 30 35 2 35 40 1 40 45 4 9 9 MEDIDAS DE POSIÇÕES Tais medidas nos permitem orientarmos quanto à posição da distribuição no eixo do x, possibilitando comparações de séries de dados entre si. São também chamadas de medidas de tendência central. Vários tipos de médias podem ser definidos, sendo as mais comuns a média aritmética, ou simplesmente média, a mediana, a moda, a média harmônica. Cada uma delas apresenta vantagem e desvantagem, dependendo dos dados e dos fins desejados. 1. MÉDIA ARITMÉTICA A média aritmética, ou média, de um conjunto de n números X1 , X2 ,..., Xn é representada por X e é definida por: n X X2 X 1 n Xn X i 1 i ou X n X n Exemplo: A média aritmética dos números 8, 3, 5, 12, 10 é: 8 3 5 12 10 7, 6 5 , X n ocorrem com as freqüências f1 , f 2 , X Se os números X1 , X 2 , média aritmética será: , f n vezes, respectivamente , a n f X f X fn X n X 1 1 2 2 i 1n f1 f 2 f n fi X i f i 1 i fX fX n f Exemplo: Se 5, 8, 6, 2 ocorrerem com as freqüências 3, 2, 4 e 1, respectivamente, a média aritmética será X (3)(5) (2)(8) (4)(6) (1)(2) 15 16 24 2 5, 7 3 2 4 1 10 10 MÉDIA GERAL (OU PONDERADA) Às vezes, associam-se os números X1 , X 2 , , X n a certos fatores de ponderação ou pesos n1 , n2 , , nk , que dependem do significado ou importância atribuídas aos números. Nesse caso X n1 X 1 n2 X 2 nk X k nX n1 n2 nk n Exemplo: Se o exame final, em um curso, tem peso 3 e as provas correntes peso 1, e um estudante tem grau 85 neste exame e 70 e 90 nas provas, seu médio é: grau X (1)(70) (1)(90) (3)(85) 415 83 . 11 3 5 MÉDIA GEOMÉTRICA A média geométrica Mg de um conjunto de n números x1 , x2 , , xn de valores de X, associados às freqüências absolutas F1 , F2 , Fn , respectivamente, é a raiz de ordem n do produto desses números elevados as suas respectivas freqüências absolutas, Mg n x1F1 x2F2 Em particular, se F1 F2 xnFn Fn 1 , temos Mg n x1 x2 xn Na prática, Mg é calculado por meio de logaritmos. log Mg F1 log x1 F2 log x2 n Fn log xn . Exemplo 1: Determinar: (a) a média geométrica; (b) a média aritmética dos números 3, 5, 6, 6, 7, 10, 12. Admita-se que os números sejam exatos. Solução: a) log Mg (log 3 log 5 log 6 log 6 log 7 log10 log12) 0,8081 7 Mg 10 0,8081 6, 43 Mg 7 3 5 6 6 7 10 12 7 453600 6, 43 ou b) X (3 5 6 6 7 10 12) 49 7 7 7 11 Observe que a média geométrica de um conjunto de números positivos desiguais é menos do que a média aritmética. MÉDIA HARMÔNICA Sejam x1 , x2 , , xn , valores de X, associados às freqüências absolutas F1 , F2 , respectivamente. A média harmônica de X é definida por: Mh Em particular, se F1 F2 n F1 F2 x1 x2 Fn xn Fn n Fi i 1 xi n Fn 1 , temos Mh n n 1 x i 1 i Exemplo: Calcular a média harmônica para 3, 5, 7 Mh 3 3 3 105 315 4, 44 1 1 1 35 21 15 71 71 3 5 7 105 MEDIANA Colocados em ordem crescente (rol), mediana ( x ) é o valor que divide a amostra, ou população, em duas partes iguais. Cálculo da mediana – variável discreta. A mediana de um conjunto de números, organizados em ordem de grandeza (um rol), é o valor central ou a média aritmética dos dois valores centrais. n 40 elemento que é 6. 2 1 Exemplo 2: O conjunto dos números 5, 5, 7, 9, 11, 12, 15, 18 tem mediana (9 11) 10 . 2 Exemplo 1: O conjunto dos números 3, 4, 5, 6, 8, 8, 8, 10 tem mediana: Cálculo da mediana – variável contínua. Para os dados agrupados, a mediana, obtida por interpolação, é dada pela fórmula: x LMd n 2 f FMd h 12 LMd limite inferior da classe mediana (isto é, da classe que contém a mediana) n tamanho da amostra ou número de elementos f em que: soma de todas as freqüências das classes inferiores à mediana FMd freqüência da classe mediana h amplitude do intervalo da classe mediana. Exemplo: Dada a distribuição amostral abaixo, calcular a mediana. Classes 13 35 57 79 9 11 11 13 Fi 3 5 8 6 4 3 Solução: 10 passo – calcula-se n 29 1 . Neste caso n 29 , temos 150 . 20 passo: Identifica-se 2 2 0 a classe Md pela Fac, neste caso a classe mediana é a 3 ( 5 7 ). Aplica-se a fórmula x LMd n 2 f FMd 29 13 h 2 2 8 2 5 5 2 5 13 53 x 6, 63 . 8 8 8 8 QUARTIS Os quartis dividem o conjunto de dados em quatro partes iguais. Logo Q1 = 10 quartil, deixa 25 % dos elementos. Q2 = 20 quartil, coincide com a mediana, deixa 50% dos elementos Q3 = 30 quartil, deixa 75 % dos elementos. Fórmulas para determinar os quartis Q1 e Q3 : n f 4 Q1 LQ1 FQ1 h e 3n 4 Q3 LQ3 FQ3 f h 13 DECIS São os valores que dividem a série em 10 partes iguais. As fórmulas para calcular os decis são análogas aquelas para calcular os qurtis. jn 10 D j LD j FD j f h em que: LD j limite inferior da classe D j , j 1, 2,3, 4,5, 6, 7,8,9. n tamanho da amostra h amplitude da classe D j FD j freqüência da classe D j f soma das freqüências anteriores à classe D j . PERCENTIS São as medidas que dividem a amostra em 100 partes iguais. O cálculo de um percentil é dado por: jn 100 Pj PD j FPj f h em que: PD j limite inferior da classe Pj , j 1, 2,3, 4,5, n tamanho da amostra ,99 h amplitude da classe Pj FPj freqüência da classe Pj f soma das freqüências anteriores à classe Pj . 14 MODA A moda de um conjunto de números é o valor que ocorre com maior freqüência, ou seja, é o valor mais comum. A moda pode não existir e, mesmo que exista, pode não ser única. Exemplo: O conjunto 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 tem moda 9. Exemplo: O conjunto 3, 5, 8, 10, 12, 15, 16 não tem moda. Exemplo: O conjunto 2, 3, 4, 4, 4, 5, 5, 7, 7, 7, 9 tem duas modas, 4 e 7, e é denominada bimodal. Uma distribuição que tem apenas uma única moda é denominada unimodal. Para uma distribuição de freqüência ou histograma a moda pode ser obtida por meio da fórmula: Mo L 1 h 1 2 Fórmula de Czuber L limite inferior da classe modal em que: 1 diferença entre a freqüência da classe modal e a imediatamente anterior 2 diferença entre a freqüência da classe modal e a imediatamente posterior h amplitude da classe. A moda é aproximadamente a diferença entre o triplo da mediana e o dobro da média. È muitas vezes usada com boa aproximação quando a distribuição apresenta razoável simetria em relação à média. Mo 3x 2 x . Fórmula de Pearson Atenção: Exercícios – Série IV (Pg. 137). MEDIDAS DE DISPERSÃO Fenômenos que envolvem análises estatísticas caracterizam-se por suas semelhanças e variabilidades (Toledo 1985). As medidas de dispersão auxiliam as medidas de tendência central a descrever o conjunto de dados adequadamente. Indicam se os dados estão, ou não, próximos uns dos outros. Desta forma, não há sentido calcular a média de um conjunto onde não há variação dos seus elementos. Existe ausência de dispersão e a medida de dispersão é igual a zero. Por outro lado, aumentando-se a dispersão, o valor da medida aumenta e se a variação for muito grande, a média não será uma medida de tendência central representativa. 15 Faz-se necessário, portanto, ao menos uma medida de tendência central e uma medida de dispersão para descrever um conjunto de dados. As cinco medidas de dispersão que serão definidas a seguir são: amplitude total, desvio médio, variância, desvio padrão e coeficiente de variação. AMPLITUDE TOTAL A amplitude total de um conjunto de dados é a diferença entre o maior e o menor valor observado. A medida de dispersão não levar em consideração os valores intermediários perdendo a informação de como os dados estão distribuídos e/ou concentrados. R xmáx xmín Exemplo: Para a série 12, 14, 22, 24, 27, 35, 41. R 41 12 29. DESVIO MÉDIO A diferença entre cada valor observado e a média é denominado desvio e é dado por ( xi µ) se o conjunto de dados é populacional, ou por ( xi x ) se os dados são amostrais. Ao somar todos os desvios, ou seja, ao somar todas as diferenças de cada valor observado em relação a média, o resultado é igual a zero (propriedade da média). Isto significa que esta medida não mede a variabilidade dos dados. Para resolver este problema, pode-se desconsiderar o sinal da diferença, considerando-as em módulo e a média destas diferenças em módulo é denominada desvio médio: dm 1 N xi N i 1 ou d m 1 n xi x n i 1 para dados populacionais ou amostrais, respectivamente. Caso os dados estejam apresentados segundo uma distribuição de freqüência, tem-se: dm 1 N xi Fi N i 1 ou dm 1 n xi x Fi n i 1 VARIÂNCIA A variância que é definida por: 2 1 N ( xi )2 N i 1 ou S 2 1 n ( xi x ) 2 n 1 i 1 16 se os dados são populacionais ou amostrais, respectivamente. Caso os dados estejam apresentados segundo uma distribuição de freqüência, tem-se: 2 1 N ( xi )2 Fi N i 1 ou S 2 1 n ( xi x )2 Fi . n 1 i 1 DESVIO-PADRÃO Ao calcular a variância observa-se que o resultado será dado em unidades quadráticas, o que dificulta a sua interpretação. O problema é resolvido extraindo-se a raiz quadrada da variância, definindo-se, assim, o desvio padrão: N n ( xi )2 i 1 N ou (x x ) S i 1 2 i n 1 se os dados são populacionais ou amostrais e, se estiverem em distribuição de freqüências: N n ( xi )2 Fi i 1 N ou (x x ) S i 1 i n 1 2 Fi . Atenção: Se duas populações apresentam a mesma média, mas os desvios padrão não são iguais, isto não significa que as populações têm o mesmo comportamento. COEFICIENTE DE VARIAÇÃO O coeficiente de variação é uma medida de dispersão relativa definida como a razão entre o desvio padrão e a média: CV 100 ou populacional CV S 100 x amostral Alguns analistas consideram: Baixa dispersão: CV 15% Média dispersão: 15% CV 30% Alta dispersão: CV 30% 17 A partir do coeficiente de variação pode-se avaliar a homogeneidade do conjunto de dados e, conseqüentemente, se a média é uma boa medida para representar estes dados. É utilizado, também, para comparar conjuntos com unidades de medidas distintas. Uma desvantagem do coeficiente de variação é que ele deixa de ser útil quando a média está próxima de zero. Uma média muito próxima de zero pode inflacionar o CV. Um coeficiente de variação superior a 50% sugere alta dispersão o que indica heterogeneidade dos dados. Quanto maior for este valor, menos representativa será a média. Neste caso, opta-se pela mediana ou moda, não existindo uma regra prática para a escolha de uma destas medidas. O pesquisador, com sua experiência, é que deverá decidir por uma ou outra. Por outro lado, quanto mais próximo de zero, mais homogêneo é o conjunto de dados e mais representativa será sua média. MEDIDAS DE ASSIMETRIA A medida de assimetria é um indicador da forma da distribuição dos dados. Ao construir uma distribuição de freqüências e/ou um histograma, busca-se, também, identificar visualmente, a forma da distribuição dos dados que é ou não confirmada pelo coeficiente de Assimetria de Pearson (AS) definido como: AS M0 ou AS populacional x M0 S amostral Classificação da distribuição: Simétrica: média ( x) mediana ( x) moda (Mo) ou AS 0 Assimétrica positiva: média ( x) mediana ( x) moda (Mo) ou AS 0 . O lado mais longo do polígono de freqüência (cauda da distribuição) está à direita do centro. Assimétrica negativa: média ( x) mediana ( x) moda (Mo) ou AS 0 . O lado mais longo do polígono de freqüência (cauda da distribuição) está à esquerda do centro. 18 Distribuição simétrica Distribuição assimétrica positiva Distribuição assimétrica negativa 19 MEDIDAS DE CURTOSE A medida de curtose é o grau de achatamento da distribuição, é um indicador da forma desta distribuição. É definido como: K Q3 Q1 2( P90 P10 ) Q3 - 30 quartil 0 Q - 1 quartil em que 3 0 P90 - 90 percentil P10 - 100 percentil A curtose ou achatamento é mais uma medida com a finalidade de complementar a caracterização da dispersão em uma distribuição. Esta medida quantifica a concentração ou dispersão dos valores de um conjunto de dados em relação às medidas de tendência central em uma distribuição de freqüências. Uma distribuição é classificada quanto ao grau de achatamento como: Leptocúrtica: quando a distribuição apresenta uma curva de freqüência bastante fechada, com os dados fortemente concentrados em torno de seu centro, K < 0,263. Mesocúrtica: quando os dados estão razoavelmente concentrados em torno de seu centro, K= 0,263. Platicúrtica: quando a distribuição apresenta uma curva de freqüência mais aberta, com os dados fracamente concentrados em torno de seu centro, K > 0,263. Classificação da distribuição quanto à curtose. 20