Capítulo 5 Medidas Descritivas 5.1 - Introdução • Conforme foi visto no capítulo 3, ao se analisar uma distribuição de freqüências, deve-se observar características como a tendência central, a dispersão, e a forma da distribuição dos dados. • Estas características podem ser descritas por parâmetros denominados medidas descritivas de uma população ou amostra de dados. 5.2. MEDIDAS DE TENDÊNCIA CENTRAL • Refere-se à concentração dos dados de uma amostra ou população em torno de um valor intermediário. • As principais medidas de tendência central são a média aritmética, a mediana e a moda. 5.2.1. MÉDIA ARITMÉTICA SIMPLES • A média aritmética ou simplesmente média de uma variável quantitativa pode ser simples ou ponderada. • É definida como o quociente da divisão da soma dos dados da amostra (população) pelo tamanho da amostra (população). • Se x1, x2, ..., xN constituem a população de dados de uma variável quantitativa X, a média aritmética simples desta população é: • Se x1, x2, ..., xN constituem a população de dados de uma variável quantitativa X, a média aritmética simples desta população é: • No caso de uma amostra de n dados de uma variável quantitativa X, a média aritmética é: N xi = x = i =1 N xi n 5.2.1.2. MÉDIA ARITMÉTICA PONDERADA • Em algumas situações, ao se determinar a média, atribui-se uma importância maior ou menor a determinada observação. • A importância de um valor é determinada por um fator denominado peso ou ponderação. • Neste caso, a média aritmética definida como o quociente da divisão da soma dos produtos das observações pelos respectivos pesos, pela soma dos pesos, sendo denominada média aritmética ponderada. • Assim, se x1, x2, ..., xN, constituem a população de N dados de uma variável quantitativa X, sendo atribuídos a este dados os pesos p1, p2, ..., pN, , a média aritmética ponderada desta população é • Por outro lado, se x1, x2, ..., xn, constituem uma amostra de n dados de uma variável quantitativa X, sendo atribuídos a este dados os pesos p1, p2, ..., pn, , a média aritmética ponderada desta amostra é N xi pi p = i =1 N pi i =1 n xi pi x p = i =1 n pi i =1 5.2.2. MEDIANA • A mediana de N dados da população de uma variável quantitativa é o valor que se localiza no centro do conjunto de dados quando estes são dispostos em ordem crescente. Conseqüentemente, metade ou 50% dos dados estão abaixo da mediana e a metade ou os 50% restantes estão acima da mesma. • Se N é ímpar, a mediana é o valor que ocupa a posição (N+1)/2; se N é par, a mediana e, por convenção, a média aritmética entre o valor de posição N/2 e o de posição (N/2)+1. 5.2.3. MODA • Denomina-se moda o dado mais frequente da população ou de uma amostra de dados de uma variável quantitativa. • A moda pode não existir e se existir, pode não ser única. Assim sendo, uma distribuição de dados pode ser amodal quando não tem moda, unimodal quando tem moda única, bimodal quando tem duas modas e, em geral multimodal, se tiver várias modas. 5.2.4. PERCENTIS • O percentil de ordem k de n dados de uma variável quantitativa dispostos em ordem crescente é um valor tal k/100 ou k % destes n dados estão abaixo e 1k/100 ou 100k% restantes estão acima do referido valor. • Se k = 50, o percentil de ordem correspondente é a mediana; • se k = 25, 50 e 75, os percentis com as ordens correspondentes são denominados 1.ºquartil, 2.º quartil e 3.º quartil, respectivamente; se k = 10, 20, 30, ..., 90, os percentis de ordem correspondentes são denominados 1.º decil, 2.º decil, 3.º decil, ..., 9.º decil, respectivamente. • O késimo percentil de uma população de N dados quando estes estão dispostos em ordem crescente é o valor de posição k(N+1)/100. No caso de uma amostra de n dados, o késimo percentil da amostra é o valor de posição k(n + 1)/100. • • 5.2.5. MEDIDAS DE TENDÊNCIA CENTRAL DE DADOS AGRUPADOS Média aritmética xi fi x fi Mediana – – – – • l é o limite inferior da classe mediana F(ant) é a frequencia acumulada da classe anterior a classe mediana f frequencia da classe mediana h amplitude da classe medana Moda – – – – – l é o limite inferior da (s) classe (s) de maior freqüência (classe modal), h é a amplitude da classe (s) modal (is), fm é a freqüência da classe modal, fa é a freqüência da classe adjacente anterior fp é a freqüência da classe adjacente posterior. kn F ( ant ~ 100 X l f ) h fm - fa mo = + h 2 fm - fa - fp 5.2.6. EMPREGO DAS MEDIDAS DE TENDÊNCIA CENTRAL • A média é a medida mais utilizada devido as suas propriedades aritméticas. • Porém esta medida é fortemente influenciada por valores discrepantes e neste caso utiliza-se a mediana. • A moda é pouco utilizada. • Porém, se a freqüência do valor que mais ocorre é acentuadamente maior que as dos demais valores, a moda pode ser utilizada como medida de tendência central. 5.3. MEDIDAS DE DISPERSÃO • Estas medidas indicam o grau de dispersão dos dados de uma população ou amostra de uma variável quantitativa em torno de uma medida de tendência central. • A dispersão pode ser absoluta ou relativa 5.3.1. MEDIDAS DE DISPERSÃO ABSOLUTAS • • • • • 5.3.1.1. Variância Se x1, x2, ..., xn constituem a população com média de N dados de uma variável quantitativa X, a variância desta população é onde xi (i = 1, 2, ..., N) são os desvios dos dados em relação à média da população. A variância é a média dos quadrados dos desvios em relação à média aritmética. A fórmula acima pode ser modificada, considerando-se que Esta fórmula além de ser mais prática, fornece um resultado mais exato do que a fórmula original porque evita os arredondamentos quando o valor da média apresenta casas decimais. N 2 ( xi ) 2 i 1 N N ( xi ) 2 N i 1 2 xi 2 i 1 N 2 xi i 1 N 2 xi i 1 N N x i i 1 N 2 2 N 2 • Por outro lado, se x1, x2, ..., xn constituem uma amostra de n dados de uma variável quantitativa X, a variância desta amostra é • A razão do divisor n 1 em lugar de n será explicada futuramente em estudos mais avançados. • Modificando-se a fórmula acima como no caso da variância de uma população e omitindo-se os índices dos somatórios tem-se que n s s 2 2 i 1 ( xi x ) 2 n 1 2 xi n 1 x i 2 n ( n 1) Propriedades da Variância • Somando-se (ou subtraindo-se) a cada elemento de um conjunto de valores uma constante arbitrária, a variância não se altera • Multiplicando-se (ou dividindo-se) cada elemento de um conjunto de valores por um valor constante, a variância fica multiplicada (ou dividida) pelo quadrado da constante 5.3.1.2. Desvio padrão • Sendo a variância expressa em termos do quadrado da unidade de medida da variável em estudo, define-se uma medida de dispersão que é a raiz quadrada da variância. • Esta medida é denominada desvio ou afastamento padrão que, ao contrário da variância, expressa a dispersão em termos da unidade de medida da variável, sendo portanto mais fácil de ser interpretada. ( xi ) 2 N s x 2 i n 1 x i 2 n ( n 1) Propriedades do Desvio Padrão • Somando-se (ou subtraindo-se) a cada elemento de um conjunto de valores uma constante arbitrária, o desvio padrão não se altera • Multiplicando-se (ou dividindo-se) cada elemento de um conjunto de valores por um valor constante, desvio padrão fica multiplicado (ou dividido) pela constante 5.3.2. Dados Agrupados nc 2 i 1 xi f i xi f i i 1 N N nc 2 2 s 2 2 xi fi n 1 x i f i 2 n ( n 1) • onde xi e fi (i = 1, 2, ..., nc) são, respectivamente, o ponto médio e a freqüência da i-ésima classe e N = (população) ou n = (amostra). 5.3.1.3. Amplitude total ou Range (R) • A amplitude total ou amplitude de variação dos dados de população ou de uma amostra de uma variável quantitativa é definida como a diferença a entre os valores extremos. • É uma medida pouco utilizada porque não detecta a dispersão dos valores intermediários. • Se os dados estiverem agrupados em classes numa tabela de distribuição de freqüências, a amplitude total é dada pela diferença entre o limite inferior da primeira classe e o limite superior da última classe. Exemplo • Exemplo: Sejam as seguintes amostras A e B: • A= {5, 6, 7, 8, 25} • B= {5, 8, 11, 19, 25} • Ambas as amostras apresentam Range (R): R = 25 - 5 = 20 .Porém, em B há uma maior variabilidade, que a amplitude total não deixa clara. 5.3.1.2. Desvio semiinterquartílico • Mede a dispersão em torno da mediana, definido como a m e - Q + Q3 - m e Q1 - m e Q 3 - m e 1 média das diferenças Q = 2 2 absolutas entre os quartis extremos (1.º e 3.º) e a mediana, • simplificando, tem-se finalmente que • O desvio semi-interquartílico mede a dispersão dos dados 3 1 entre Q1 e Q3desprezando a dispersão dos dados abaixo de Q1 e acima de Q3. Q Q Q 2 5.3.1.4. Desvio médio • desvio médio é definido como a média aritmética dos desvios. DM xi N DM xi x n 5.3.2. MEDIDAS DE DISPERSÃO RELATIVA • Comparar as dispersões de dois ou mais conjuntos de valores de diferentes variáveis. • Se as variável em estudo são medidas em diferentes unidades de medida ou mesmo que as unidades de medidas sejam as mesmas, os valores apresentam diferentes ordens de grandeza. Neste caso deve-se utilizar as medidas de dispersão relativa que são adimensionais CV 100 % CV s x 100 % • Exemplo: Sejam os resultados das medidas das estaturas e dos pesos de um mesmo grupo de indivíduos. 5.4. MEDIDAS DE ASSIMETRIA E DE CURTOSE • Estes parâmetros fornecem informações sobre a forma como se distribuem os valores observados de uma variável. • A medida de assimetria indica se há mais valores abaixo ou acima da média de uma população ou de uma amostra. • A medida de curtose indica se os valores intermediários de uma amostra ou população são dispersos ou concentrados. 5.4.1. DEFINIÇÃO DE ASSIMETRIA 8 7 fr eq ü ên c ia 6 5 4 3 2 1 0 11 13 15 17 19 valo re s Figura 5.1. Distribuição simétrica 8 8 7 7 6 5 F re q ü ên c ia F re q ü ên c ia 6 4 3 5 4 3 2 2 1 1 0 0 11 13 15 17 19 Valo re s Figura 5.2. Distribuição assimétrica positiva 11 13 15 Valo re s 17 19 Figura 5.3. Distribuição assimétrica negativa 5.4.2. COEFICIENTE DE ASSIMETRIA • Um coeficiente de assimetria indica o grau da assimetria de uma distribuição de dados. Um dos coeficientes de assimetria mais utilizados é: As x) 3( x ~ s x média ~ x mediana 0 ,15 As 1 assimetria As 1 assimetria forte moderada 5.4.3. CONCEITO DE CURTOSE Figura 5.4a. Distribuição leptocúrtica F igura 5.4b. Distribuição m esocúrtica Figura 5.4c. Distribuição platicúrtica 5.4.4. COEFICIENTE DE CURTOSE C Q 3 Q1 2 ( P90 P10 ) Q 3 - 3º quartil Q 1 - 1º quartil P90 - 90º percentil P10 - 10º percentil C 0,263 - curva mesocúrtic a C 0,263 - curva leptocúrti ca C 0,263 - curva platicúrti ca 5.5. ANÁLISE DE DADOS A PARTIR DAS ESTATÍSTICAS DE ORDEM • As características de uma distribuição são em geral descritas informando os valores da média e do desvio padrão e, algumas vezes do coeficiente de assimetria. Porém a média e o desvio padrão são fortemente influenciados pela presença de valores discrepantes. Para contornar esta dificuldade, John Tukey (1977) propôs descrever as características de uma distribuição através das estatísticas de ordem que são, a mediana, os quartis ou juntas e os extremos, apresentados no esquema a seguir. • • n ~ x J E ~ x Q1 Ei Q3 Es onde n é o número de observações, ~ x é a mediana, J as juntas (1º quartil e 3º quartil) e E os extremos (o menor valor observado, Ei e o maior valor observado, Es • • • • • As características da distribuição da população pode ser analisada a partir do diagrama de Tukey (boxplot em inglês), devido a sua configuração. A diferença DI = Q3 Q1 é denominada desvio interquartílico e pode ser empregada como medida de dispersão. Este diagrama indica as seguintes características: a) tendência central: é dada pela posição da mediana na escala de medida da variável; b) dispersão: medida pelo valor de DI; c) assimetria: indicada a partir da comparação das diferenças Q1 e Q3 . Todos os valores observados inferiores a e superiores a são discrepantes (outliers). Os valores a e b são o menor valor observado não discrepante e o maior valor observado não discrepante, respectivamente. Ei a Q1 ~ x Q3 DI b Es Medidas de Posição Relativa • As medidas de posição relativa nos permitem determinar o quão um valor em particular está afastado da média. As principais são: – Escore Padronizado, – Regra de Chebyshev e a – Regra Empírica. Escore Padronizado (z-score) Exemplo • Em um exame final de Estatística, o grau médio de um grupo de 150 estudantes foi 78 e o desvio padrão, 8.0. Em Contabilidade, entretanto, o grau médio final do grupo foi 73 e o desvio padrão, 7.6. • Um estudante obteve os graus 90 em Estatística e 85 em Contabilidade. Em qual dos exames ele obteve melhor desempenho? Regra de Chebyshev Exemplo • O Controle se qualidade de uma empresa recebeu um lote de 1000 peças com a medida principal apresentando média igual a 50 e desvio padrão igual a 2. O gerente do controle de qualidade deseja determinar o número de peças que se encontram nos seguintes intervalos: • a. 47 a 53 • b. 45 a 55 • c. 44 a 56 Regra Empírica • • Usada somente quando o conjunto de dados é normalmente distribuído. Para dados que têm uma distribuição de freqüência descrita pela curva normal: – Aproximadamente 68% das observações estão dentro de 1 desvio padrão da média. – Aproximadamente 95% das observações estão dentro de 2 desvios padrão da média. – Aproximadamente 99,7 % das observações estão dentro de 3 desvios padrão da média. Exemplo • Suponha que um conjunto de dados tenha distribuição normal com média igual a 30 e desvio padrão, 5. Use a Regra empírica para determinar a porcentagem de dados que se encontram dentro de cada um dos seguintes intervalos. • a. 20 a 40 • b. 15 a 45 • c. 25 a 35