Apostila 5 12.6 - Mediana Colocando os valores em ordem crescente, mediana é o elemento que ocupa a posição central. Variável Discreta será mostrada através de exemplos: Exemplo: a) Seja a série: 5, 7, 8, 10, 14 a mediana será o número que se encontra no meio ~ (número ímpar de elementos) x = 8 b) Seja a série: 5, 7, 8, 10, 14, 15 a mediana será a média dos elementos centrais ( ~ 8 + 10 número par de elementos) x = 2 ~ x=9 c) Dada a distribuição: xi 1 2 3 4 ∑ Fi 1 3 5 2 11 Fac 1 4 9 11 ~ n = 11 (número ímpar de elementos), x será o 6º elemento que se encontra na terceira linha da tabela. Usa-se a Fac para encontrar o valor xi correspondente à mediana. ~ Portanto x = 3 d) Seja: xi 82 85 87 89 90 ∑ Fi 5 10 15 8 4 42 Fac 5 15 30 38 42 ~ n = 42 (número par de elementos), x será a média entre o 21º e o 22º elementos que se encontram na terceira linha da tabela Usa-se a Fac para encontrar o valor xi ~ 87 + 87 correspondente à mediana. Como o 21º elemento = 87 e o 22º elemento = 87, x = 2 ~ x = 87 1 Apostila 5 Variável Contínua também será mostrada através do exemplo a seguir: Seja: classes 35 45 45 55 55 65 65 75 75 85 85 95 ∑ Fi 5 12 18 14 6 3 58 Fac 5 17 35 49 55 58 1º passo: Calcula-se a ordem n/2. Como a variável é contínua não há necessidade de verificar se n é par ou ímpar. No caso da tabela acima n=58, portanto n/2 = 29º 2º passo: Identifica-se a classe Modal pela Fac. Nesse caso a classe modal (MD) é a 3ª. ⎛n ⎞ ⎜ −∑ f ⎟•h ~ 2 ⎠ 3º passo: Aplica-se a fórmula: x = l MD + ⎝ FMD onde: l MD = limite inferior da classe MD n = tamanho da amostra ou número de elementos ∑ f = soma das freqüências anteriores à classe MD h = amplitude da classe MD FMD = freqüência da classe MD ⎛ 58 ⎞ ⎜ − 17 ⎟ • 10 ~ ⎝ 2 ⎠ x = 55 + 18 ~ x = 61,67 12.7 - Quartis Os quartis dividem um conjunto de dados em quatro partes iguais. Há, portanto, três quartis: Q1 = 1º quartil, valor situado de tal modo na série que uma quarta parte (25%) dos dados é menor que ele e as três quartas partes restantes (75%) são maiores. Q2 = 2º quartil, coincide com a mediana (Q2 = MD) Q3 = 3º quartil, valor situado de tal modo que as três quartas partes (75%) dos termos são menores que ele e uma quarta parte (25%) é maior. Os quartis são usados apenas para dados agrupados em classe e são obtidos pelas seguintes fórmulas: ⎞ ⎛n ⎜ −∑ f ⎟•h 4 ⎠ Q1 = l Q1 + ⎝ FQ1 2 Apostila 5 ⎞ ⎛ 3n ⎜ −∑ f ⎟•h 4 ⎠ Q3 = l Q 3 + ⎝ FQ 3 Exemplo: Dada a distribuição, determinar os quartis (Q1 e Q3) e a mediana classes 7 17 17 27 27 37 37 47 47 57 ∑ Fi 6 15 20 10 5 56 Fac 6 21 41 51 56 Passos para os cálculos: 1º passo: n = 56 Q1 n 56 = = 14º 4 4 ~ Q3 3n 3 • 56 = = 42º 4 4 x n 56 = = 28º 2 2 2º passo: Pela Fac identifica-se a classe Q1, classe MD, e classe Q3 classes 7 17 17 27 27 37 37 47 47 57 ∑ Fi 6 15 20 10 5 56 Fac 6 21 41 51 56 Classe Q1 Classe MD Classe Q3 3º passo: Uso das fórmulas: Para Q1 temos lQ1 = 17, n = 56, ∑f = 6, h = 10, FQ1 = 15 ~ Para x temos lMD = 27, n = 56, ∑f = 21, h = 10, FMD = 15 Para Q3 temos lQ3 = 37, n = 56, ∑f = 41, h = 10, FQ3 = 10 Logo: ⎛ 56 ⎞ ⎜ − 6 ⎟ • 10 ⎝ 4 ⎠ Q1 = 17 + = 22,33 15 ⎛ 56 ⎞ ⎜ − 21⎟ • 10 ~ ⎝ 2 ⎠ x = 27 + = 30,5 20 ⎛ 3 • 56 ⎞ − 41⎟ • 10 ⎜ ⎝ 4 ⎠ = 38 Q3 = 37 + 10 3 Apostila 5 12.8 – Decis Continuando o estudo das medidas separatrizes medianas e quartis, temos os decis. São valores que dividem a série em 10 partes iguais. Para obter os decis utiliza-se a seguinte fórmula: Di = l Di ⎞ ⎛ in ⎜ −∑ f ⎟•h ⎠ ⎝ 10 + FDi Onde: lDi n h FDi ∑f = limite inferior da classe Di, i = 1,2,3,....,9 = tamanho da amostra = amplitude da classe = freqüência da classe Di = soma das freqüências anteriores à classe Di 12.9 – Percentis São as medidas que dividem a amostra em 10 partes iguais. Para obter os percentis, utiliza-se das fórmula: ⎞ ⎛ in −∑ f ⎟•h ⎜ 100 ⎠ Pi = l Pi + ⎝ FPi Onde: l Pi = limite inferior da classe Pi, i = 1,2,3,....,99 n = tamanho da amostra h = amplitude da classe FPi = freqüência da classe Pi ∑f = soma das freqüências anteriores à classe Pi 4 Apostila 5 Portanto , nesta distribuição, o valor 12,33 divide a amostra em duas partes: uma com 40% dos elementos e outra com 60% dos elementos. O valor 16,59 indica que 72% da distribuição estão abaixo dele e 28% acima dele. 12.10 – Moda Dentre as principais medidas de posição, destaca-se a Moda. É o valor mais freqüente da distribuição. Para distribuições simples (sem intervalo de classe), a identificação da moda é facilitada pela observação do elemnto que apresenta maior freqüência. Exemplo: Para a distribuição abaixo Xi Fi 243 7 245 17 248 23 251 20 307 8 A moda será 248. Indica-se Mo = 248 (é o elemento de maior freqüência) Para dados agrupados em classes, existem diversas fórmulas para o cálculo da Moda. Serão apresentados dois modos: a) 1º processo: fórmula de Czuber ∆1 Mo = l + •h ∆1 + ∆ 2 Onde: l = Limite inferior da classe modal ∆1 = diferença entre a freqüência da classe modal e a imediatamente anterior; ∆2 = diferença entre a freqüência da classe modal e a imediatamente posterior; h = amplitude da classe 5 Apostila 5 b) 2º processo: determinação gráfica da Moda É preciso construir o histograma da distribuição, identificar a classe modal ( aquela com maior altura) e fazer a construção indicada abaixo: De acordo com a forma que apresentam, os gráficos de distribuições de freqüências podem ser: 6 Apostila 5 a) Unimodais: Quando apresentam um ponto de máximo. Nesse caso podemos ter curvas simétricas ou assimétricas; uma curva simétrica extremamente importante é a curva de normal ou de Gauss, enquanto que as assimétricas podem ser positivas (cauda longa à direita ou negativas (cauda longa à esquerda). b) Antimodais: apresentam um ponto de mínimo c) Amodais: Sem pontos de máximos ou de mínimos d) Plurimodais: Quando temos 2 ou mais pontos de máximo 7 Apostila 5 A plurimodalidade ocorre geralmente motivada por três razões a) dados pertencentes a populações diferentes b) número de classes e intervalos inadequados c) insuficiência de dados Exercícios 8 Apostila 5 9 Apostila 5 13 – Medidas de Dispersão, Assimetria e Curtose Servem para verificarmos a representatividade das medidas de posição, pois é muito comum encontrarmos séries que, apesar de terem a mesma média, são compostas de maneira distinta. Assim, para as séries: a) 20, 20, 20, 20, 20 b) 15, 10, 20, 25, 30 __ __ temos x a = x b = 20. Nota-se que os valores da série “a” se concentram totalmente na média 20, enquanto os valores da série “b” se dispersam em torno do mesmo valor. Ou seja, a série “a” não apresenta dispersão e os valores da série “b” estão dispersos em torno de 20. Neste capítulo vamos medir o grau de concentração ou dispersão dos dados em torno da média. 13.1 – Amplitude Total É a diferença entra o maior e o menor dos valores da séria. R = Xmax – Xmin Exemplo: Para a série 10, 12, 20, 22, 25, 33, 38 R = 38 – 10 → R = 28 A utilização da amplitude total como medida de dispersão é muito limitada, pois, sendo uma medida que depende apenas dos valores externos, é instável, não sendo afetada pela dispersão dos valores internos. 13.2 – Desvio médio e Variância Como a amplitude total é uma medida instável, utilizaremos estas outras medidas que são mais estáveis. a) Desvio médio __ Neste caso considera-se o módulo de cada desvio (xi - x ), evitando com isso que ∑di = 0. Assim, o Desvio Médio é dado por: Dm = ∑ __ xi - x • Fi = ∑ di • Fi n n Trata-se da média aritmética dos desvios considerados em módulos (valor absolutos). b) Variância __ Neste caso considera-se o quaddrado de cada desvio (xi - x )2, evitando com isso que ∑di = 0. Assim, a definição da variância é dada por: 2 __ ⎞ ⎛ 2 ⎜ xi − x ⎟ • Fi ∑ di • Fi ∑ ⎠ ⎝ 2 σ = = n n Trata-se da média aritmética dos quadrados dos desvios. __ σ 2 indica variância e lê-se sigma ao quadrado e x é a média da população. 10 Apostila 5 Para o caso do cálculo da variância de valores amostrais é conveniente usar a fórmula: 2 __ ⎞ ⎛ xi x ⎟ • Fi − ⎜ ∑ ⎠ ⎝ S2 = n -1 As diferenças entre as fórmulas são: σ 2 tem como denominador o tamanho da amostra n S2 tem como denominador o tamanho da amostra menos 1 (n - 1). Para o cálculo da variância, é mais interessante o uso das seguintes fórmulas práticas: 2 ( xiFi ) ⎤ 1⎡ ∑ 2 2 ⎥ σ = ⎢∑ xi • Fi − n n⎢ ⎥⎦ ⎣ 2 ( xiFi ) ⎤ 1 ⎡ ∑ 2 2 ⎥ ⎢∑ xi • Fi − S = n -1 ⎢ n ⎥⎦ ⎣ que são obtidas por transformações nas respectivas fórmulas originais. 13.3 – Desvio Padrão Observando a fórmula para o cálculo da variância, notamos tratar-se de uma soma de quadrados. Dessa forma obteremos os valores ao quadrado. Para voltarmos á variável original, necessitamos definir outra medida de dispersão, que é a raiz quadrada da variância – o desvio padrão. σ = σ2 S = S2 Resumindo: Para o cálculo do desvio padrão deve-se primeiramente determinar o valor da variância e, em seguida, extrair a raiz quadrada desse resultado. 11 Apostila 5 12 Apostila 5 13 Apostila 5 13.4 – Coeficiente de Variação Trata-se de uma medida relativa de dispersão, útil para a comparação em termos relativos do grau de concentração em torno da média de séries distintas. É dado por: σ S C•V = __ ou C•V = __ x x 14 Apostila 5 13.5 – Escores Reduzidos Uma importante utilização do desvio padrão constitui o seu emprego na variável: __ __ xi − x xi − x ou Zi = Zi = σ S que mede o afastamento de um valor “xi” em relação à média da distribuição, em unidades do desvio padrão. 14 – Medidas de Assimetria Já foi acentuado que, em uma distribuição simétrica, coincidem a média, a moda e a mediana e que os quartis ficam eqüidistantes da mediana, o que não ocorre numa distribuição assimétrica 14.1 – Coeficientes de assimetria Quando dispomos de valores da média e do desvio padrão devemos utilizar: 15 Apostila 5 a) Primeiro Coeficiente de Pearson __ __ x − Mo x − Mo ou As = As = S σ Se As = 0 a distribuição é simétrica Se As > 0 a distribuição é assimétrica positiva Se As < 0 a distribuição é assimétrica negativa Quando não temos condições de calcular a média e o desvio padrão utilizamos: b) Segundo Coeficiente de Pearson ~ Q3 + Q1 − 2 x As = Q3 − Q1 Vale o mesmo critério estabelecido acima 16 Apostila 5 15 – Medidas de Curtose Entende-se por curtose o grau de achatamento de uma distribuição. Com referência ao grau de achatamento, pode-se ter: Para medir o grau de curtose utilizaremos o coeficiente K: 17 Apostila 5 K= Q3 − Q1 2(P90 − P10 ) onde: P90 = 90º percentil; Q3 = 3º quartil P10 = 10º percentil Q1 = 1º quartil Se K = 0,263, diremos que a curva correspondente à distribuição de freqüência é mesocúrtica. Se K > 0,263, diremos que a curva correspondente à distribuição de freqüência é platicúrtica. Se K = 0,263, diremos que a curva correspondente à distribuição de freqüência é leptoúrtica. 18 Apostila 5 19 Apostila 5 20 Apostila 5 21