FISCAL DO ICMS - SP ESTATÍSTICA Módulo 05: Medidas de Dispersão Prof. Weber Campos ([email protected]) Estatística MÓDULO 05 - MEDIDAS DE DISPERSÃO 1. Conceito: Dispersão é a maior ou menor diversificação dos valores de uma variável, em torno de um valor de tendência central tomado como ponto de comparação. Para qualificar os valores de uma variável, mostrando a maior ou menor concentração ou dispersão entre seus valores e a medida de posição tomada como referência, no caso a média aritmética, recorre-se às medidas de dispersão ou de variabilidade. Portanto, a finalidade das medidas de dispersão é verificar a representatividade do grau de concentração ou dispersão dos dados em torno da média. 2. AMPLITUDE TOTAL: AT É a diferença entre o maior valor e o menor valor dos dados apresentados. Ø Exemplo para um conjunto: Seja o conjunto: X = {1, 2, 3, 5, 7, 9} ® Teremos que: AT= 9 – 1 ® AT = 8 Ø Exemplo de Dados Tabulados não agrupados em classes: Seja: Xi fi 2 5 4 10 6 15 8 12 10 5 13 3 Total 50 Teremos que: AT = 13 – 2 ® AT = 11 Ø Exemplo de Dados tabulados agrupados em classes: Seja: classes fi 2 |— 4 3 4 |— 6 5 6 |— 8 7 8 |— 10 4 10 |— 12 1 Total 20 Teremos que: AT = 12 – 2 ® AT = 10 Obs.: Note que a Amplitude Total também pode ser determinada pela diferença entre o Ponto Médio da última classe e o Ponto Médio da primeira classe! Obs.: Essa medida tem aplicações muito limitadas, pois só capta o que acontece com os valores extremos, sendo completamente insensível aos valores intermediários. 43 Prof. Weber Campos Estatística 3. DESVIO MÉDIO: DM É a média dos valores absolutos dos desvios calculados em relação à média aritmética do conjunto. 3.1. Para um conjunto: DM = å Xi - X n Exemplo: Seja X = {1, 3, 5, 7, 9} ® Teremos que: X = 5 Daí: Xi Xi – X | Xi – X | 1 1 – 5 = -4 4 3 3 – 5 = -2 2 5–5=0 5 0 7 2 7–5=2 9 4 9–5=4 Total 12 Logo: DM = 12 / 5 ® DM = 2,4 3.2. Para Dados tabulados não agrupados: Teremos que: DM = å fi. Xi - X n Exemplo: Calcule o desvio médio da distribuição: Xi 2 4 6 8 10 13 Total fi 5 10 15 12 5 3 50 Acharemos as colunas Xi – X , |Xi – X | e fi.|Xi – X | . Calculando a média, encontraremos: X =6,5. Logo: Xi 2 4 6 8 10 13 Total Daí: DM = 110 / 50 ® fi 5 10 15 12 5 3 50 Xi – X 2-6,5=-4,5 4-6,5=-2,5 6-6,5=-0,5 8-6,5=1,5 10-6,5=3,5 13-6,5=6,5 |Xi – X | 4,5 2,5 0,5 1,5 3,5 6,5 fi. |Xi – X | 4,5x5=22,5 2,5x10=25 0,5x15=7,5 1,5x12=18 3,5x5=17,5 6,5x3=19,5 110 DM = 2,20 44 Prof. Weber Campos Estatística 3.3. Para Dados tabulados agrupados em classes: Teremos também que: DM = å fi. Xi - X n A única diferença para o DMA nos dados tabulados não agrupados é que agora a coluna Xi – X será encontrada pela diferença entre o Ponto Médio de cada classe e a Média Aritmética da distribuição! Portanto, devemos aqui encontrar primeiramente a coluna dos Pontos Médios (Xi)! 4. VARIÂNCIA: V ou S2 É a média dos quadrados dos desvios dos elementos tomados em relação à média aritmética. Ø Para um conjunto de valores: Para a População: å ( Xi - X ) V= Para a Amostra: å ( Xi - X ) V= ou æ 1ç V= ç nç è ou æ 1 ç V= n - 1 çç è 2 n 2 n -1 (å Xi) - 2 å Xi 2 n (å Xi) - 2 å Xi 2 n Ø Para a Distribuição de Frequências: Para a População: å fi × ( Xi - X ) V= n å fi × ( Xi - X ) V= 2 ou ö ÷ ÷÷ ø æ 1ç V= ç nç è ö ÷ ÷÷ ø (å fiXi) - 2 å fiXi 2 n (å ö ÷ ÷÷ ø ) 2 æ fiXi ö÷ 1 ç 2 fiXi ou V = Para a Amostra: ÷÷ n n - 1 çç n -1 ø è ü Lembre-se que em uma distribuição de freqüência com classes, os elementos Xi não são conhecidos, e que estes são representados geralmente pelos pontos médios das classes. 2 å IMPORTANTE: Na fórmula da Variância aparece o termo (å Xi) para um conjunto de valores e o termo (å fiXi) para os Dados Tabulados. É importante saber que há uma relação entre os termos acima e o valor da média aritmética X . Temos as seguintes relações: - Para o Rol ou Dados Brutos: å Xi = n. X - Para Dados Tabulados: å fiXi = n. X Deste modo, se forem fornecidos os valores de X e de n, conseqüentemente teremos o valor do termo que aparece na fórmula da variância. 45 Prof. Weber Campos Estatística Exemplo: Seja X = {1, 3, 5, 7, 9} ® Teremos que: X = 5 Daí: Xi (Xi – X )2 Xi – X 1 1 – 5 = -4 16 3 3 – 5 = -2 4 5 5–5=0 0 7 4 7–5=2 9 16 9–5=4 Total 40 Logo: V = 40 5 ® V=8 Exemplo: Calcule a variância a partir da distribuição populacional a seguir: Xi 2 4 6 8 10 13 Total fi 5 10 15 12 5 3 50 Acharemos as colunas Xi – X , (Xi – X )2 e fi.( Xi – X )2 . Calculando a média, encontraremos: X =6,5. Logo: Xi 2 4 6 8 10 13 Total Daí: V = 382,50 50 fi 5 10 15 12 5 3 50 ® Xi – X 2-6,5=-4,5 4-6,5=-2,5 6-6,5=-0,5 8-6,5=1,5 10-6,5=3,5 13-6,5=6,5 (Xi – X )2 20,25 6,25 0,25 2,25 12,25 42,25 fi. (Xi – X )2 20,25x5 = 101,25 6,25x10 = 62,5 0,25x15 = 3,75 2,25x12 = 27 12,25x5 = 61,25 42,25x3 = 126,75 382,50 V = 7,65 46 Prof. Weber Campos Estatística Cálculo Simplificado da Variância Da mesma forma que usamos uma variável transformada no Cálculo Simplificado da Média Aritmética, também usaremos no Cálculo Simplificado da Variância com a finalidade de facilitar a obtenção da variância que dependendo dos dados fornecidos na questão pode ser bastante trabalhosa. Assim, transformaremos a variável original X em uma outra variável, por meio de uma operação de subtração e depois de uma divisão. Poderemos simbolizar a nova variável (a variável transformada) por uma outra letra, Z por exemplo. Ou W, ou Y... fica a seu critério. Iremos, portanto, no cálculo simplificado da variância construir uma nova coluna, que será chamada Coluna da Variável Transformada. Vejamos um exemplo: Classes fi 29,5 |— 39,5 39,5 |— 49,5 49,5 |— 59,5 59,5 |— 69,5 69,5 |— 79,5 79,5 |— 89,5 89,5 |— 99,5 4 8 14 20 26 18 10 n=100 Xi (pontos médios) 34,5 44,5 54,5 64,5 74,5 84,5 94,5 Zi = Xi – 64,5 10 -3 -2 -1 0 1 2 3 fi .Zi fi .Zi2 -12 -16 -14 0 +26 +36 +30 +50 36 32 14 0 26 72 90 +270 Ø Os passos deste método são os seguintes (Para distribuições com amplitudes de classes iguais): 1) Construir a coluna da variável transformada (aqui chamada Z), seguindo a sugestão: i) Subtrairemos os Xi pelo ponto médio de uma das classes da distribuição. A escolha mais adequada é uma classe central da distribuição. Se a distribuição tiver um número par de classes, escolha a classe central com maior freqüência. No exemplo acima, escolhemos o PM da 4ª Classe. ii) Dividiremos o resultado pela Amplitude da Classe, o “h” (no exemplo: h=10). IMPORTANTE: Sempre que construirmos a coluna da variável transformada por meio da sugestão apresentada acima, teremos como resultado uma seqüência de números inteiros, iniciando por zero na classe escolhida anteriormente e incrementando de +1 para baixo e de -1 para cima. (Veja a tabela.) 2) Construir a coluna (fi .Zi) e calcular o seu somatório; 3) Construir a coluna (fi .Zi2) e calcular o seu somatório; 4) Encontrar o valor da Variância da Variável Transformada, usando a fórmula da variância: 2 ( fi.Zi ) ö÷ 1 æç å 2 - Para a população: VZ = å fi.Zi . ÷ nç n è ø 47 Prof. Weber Campos Estatística Substituindo os dados, teremos: VZ = (50) 2 ö 1 æ çç 270 ÷ = 2,45 100 ÷ø 100 è 5) Cálculo da Variância A relação entre X e Z é dada por: Z = X – 64,5_ , 10 e ao isolarmos X, obteremos: X = 10.Z + 64,5 . Pelas propriedades da variância, sabemos que ao somar ou subtrair uma constante a uma variável, a variância não se altera, e que ao multiplicar (ou dividir) uma variável por uma constante, a variância fica multiplicada ou dividida pelo quadrado da constante. Portanto, como X = 10 × Z + 64,5 , então: VX = (10) 2 × VZ . Substituindo o valor de VZ = 2,45 , calculado no item 4, obtemos a variância da variável X: VX = (10)2 . 2,45 = 245 . Propriedades da Variância: ® A variância de dados constantes é zero; ® A variância utiliza o quadrado dos desvios em relação à média, portanto terá o quadrado da unidade dos dados, ou seja, m2, kg2, ... ® Quanto a Propriedade da Soma e da Subtração: Somando-se (ou subtraindo-se) a cada elemento de um conjunto de valores uma constante arbitrária, a variância não se altera. ® Quanto a Propriedade do Produto e da Divisão: Multiplicando-se (ou dividindo-se) cada elemento de um conjunto de valores por um valor constante, arbitrário e diferente de zero, a variância ficará multiplicada (ou dividida) pelo quadrado desta constante. Obs.: Veja nos resumos, ao final da apostila, o cálculo simplificado da variância! 5. DESVIO PADRÃO: dp ou S É a raiz quadrada da média dos quadrados dos desvios em relação à média aritmética, ou seja, é a raiz quadrada da variância: S = V . Caso uma questão peça o valor do desvio padrão, primeiramente calcule a variância e em seguida tire a raiz quadrada. 5.4. Propriedades do Desvio Padrão: ® O desvio padrão de dados constantes é zero; ® O desvio padrão é uma medida que utiliza a mesma unidade dos dados. 48 Prof. Weber Campos Estatística ® Quanto a Propriedade da Soma e da Subtração: Somando-se (ou subtraindo-se) a cada elemento de um conjunto de valores uma constante arbitrária, o desvio padrão não se altera. ® Quanto a Propriedade do Produto e da Divisão: Multiplicando-se (ou dividindo-se) cada elemento de um conjunto de valores por um valor constante, arbitrário e diferente de zero, o desvio padrão ficará multiplicado (ou dividido) por esta constante. 6. AMPLITUDE SEMI-INTERQUARTÍLICA (DESVIO QUARTÍLICO): Dq É a metade da diferença entre o terceiro quartil (Q3) e o primeiro quartil (Q1). Ou seja: Dq = (Q3 - Q1 ) 2 Atenção: → O intervalo interquartílico é definido por: [Q1 ; Q3 ] → A distância ou amplitude interquartílica é definida como: Q3 - Q1 éQ Q ù → O intervalo semi-interquartílico é definido por: ê 1 ; 3 ú ë2 2 û → A distância ou amplitude semi-interquartílica é definida como: Q3 - Q1 2 7. COEFICIENTE DE VARIAÇÃO: CV (A Dispersão Relativa) Também conhecido por Coeficiente de Variação de Pearson. É utilizada para fazer comparação da dispersão de duas séries distintas em torno de suas respectivas médias. É definida como o quociente entre o Desvio Padrão e a Média Aritmética do conjunto de dados. S Ou seja: CV = X Exemplo: Considere que tenhamos duas distribuições. A primeira com média 4 e desvio padrão 1,5 e a outra com média 3 e desvio padrão 1,3. Neste caso temos os seguintes CV's: 1.5 1.3 CV1 = = 0.375 CV2 = = 0.43 4 3 logo conclui-se que, como CV2 é maior que CV1 , a segunda distribuição tem uma dispersão relativa maior que a primeira. Obs.: Quanto menor for o valor do CV, mais homogêneo será o conjunto de dados. Portanto, no exemplo acima, a primeira distribuição é mais homogênea do que a segunda. Obs.: Em geral CV maior ou igual a 50% é considerado alto, sendo a média pouco representativa. Valores menores que 50% implicam CV baixo e a média é tão mais representativa quanto menor for o valor do CV. 49 Prof. Weber Campos Estatística 8. VARIÂNCIA RELATIVA : VR A variância relativa também é uma medida de dispersão relativa que é obtida como a razão entre a variância e o quadrado da média aritmética. S2 VR = 2 X A variância relativa pode ser definida como o quadrado do coeficiente de variação, vejamos: VR = (CV ) 2 2 S2 æSö =ç ÷ = 2 èXø X RESUMO DAS PROPRIEDADES DA SOMA, SUBTRAÇÃO, PRODUTO E DIVISÃO: Se tomarmos todos os elementos de um conjunto e os... ...somarmos ...subtrairmos ...multiplicarmos ...dividirmos por por uma constante uma constante a uma de uma constante constante As medidas: Média, Mediana, Moda, Quartil, Decil e Percentil estarão: O Desvio Padrão e o Desvio Médio ficarão: A Variância ficará: O Coeficiente de Variação ficará: Também somada a esta constante Inalterado Também subtraída desta constante Inalterado Inalterada Inalterada alterado S (calcular ) X alterado S (calcular ) X Também multiplicada por esta constante Também dividida por esta constante Multiplicado pelo módulo desta constante Dividido pelo módulo desta constante Multiplicada pelo quadrado desta constante Dividida pelo quadrado desta constante Inalterado Inalterado 50 Prof. Weber Campos Estatística EXERCÍCIOS 01. (AFC-94 ESAF) Entre os funcionários de um órgão do governo, foi retirada uma amostra de dez indivíduos. Os números que representam as ausências ao trabalho registradas para cada um deles, no último ano, são: 0, 0, 0, 2, 2, 2, 4, 4, 6 e 10. Sendo assim, o valor do desvio padrão desta amostra é: 3 a) c) 10 b) 9 d) 30 02. (AFPS-2002/ESAF) Dada a seqüência de valores 4, 4, 2, 7 e 3 assinale a opção que dá o valor da variância. Use o denominador 4 em seus cálculos. a) 5,5 c) 3,5 e) 16,0 b) 4,5 d) 6,0 03. (AFTN-98) Os dados seguintes, ordenados do menor para o maior, foram obtidos de uma amostra aleatória, de 50 preços (Xi) de ações, tomada numa bolsa de valores internacional. A unidade monetária é o dólar americano. 4, 5, 5, 6, 6, 6, 6, 7, 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10, 10, 10, 10, 11, 11, 12, 12, 13, 13,14, 15, 15, 15, 16, 16, 18, 23 Os valores seguintes foram calculados para a amostra: Si Xi = 490 e Si Xi2 – (Si Xi )2/ 50 = 668 Assinale a opção que corresponde à mediana e à variância amostral, respectivamente (com aproximação de uma casa decimal) a) (9,0 13,6) c) (8,0 15,0) e) (9,0 14,0) b) (9,5 14,0) d) (8,0 13,6) 04. (SEFAZ/SP APOFP 2009 ESAF) Considerando que as observações apresentadas na questão anterior constituem uma amostra aleatória simples X1, X2, ..., Xn de uma variável aleatória X, determine o valor mais próximo da variância amostral, usando um estimador não tendencioso da variância de X. Considere que: a) 90,57 b) 96,85 c) 94,45 d) 92,64 e) 98,73 05. (Tec Receita Federal 2005 ESAF) Considere os seguintes conjuntos de observações referentes a cinco diferentes variáveis: T: 10; 10; 10; 10; 10; 8 V: 10; 10; 10; 10; 8; 8 X: 10; 10; 10; 8; 8; 8 Y: 10; 10; 8; 8; 8; 8 Z: 10; 8; 8; 8; 8; 8 O conjunto de observações que apresenta a maior variabilidade, medida pelo desvio padrão, é o referente à variável a) Y b) T c) V d) X e) Z 51 Prof. Weber Campos Estatística 06. (Fiscal de Rendas SP 2006 FCC) Considerando as respectivas definições e propriedades relacionadas às medidas de posição e de variabilidade, é correto afirmar: (A) Concedendo um reajuste de 10% em todos os salários dos empregados de uma empresa, temse também que a respectiva variância fica multiplicada por 1,10. (B) Definindo coeficiente de variação (CV) como sendo o quociente da divisão do desvio padrão pela respectiva média aritmética (diferente de zero) de uma seqüência de valores, tem-se então que CV também poderá ser obtido dividindo a correspondente variância pelo quadrado da média aritmética. (C) Subtraindo um valor fixo de cada salário dos funcionários de uma empresa, tem-se que o respectivo desvio padrão dos novos valores é igual ao valor do desvio padrão dos valores anteriores. (D) Dividindo todos os valores de uma seqüência de números estritamente positivos por 4, tem-se que o respectivo desvio padrão fica dividido por 2. (E) Em qualquer distribuição de valores em estudo, a diferença entre a mediana e a moda é sempre diferente de zero. 07. (ANEEL 2004 ESAF) Em uma pesquisa de opinião para avaliar a percepção de dirigentes quanto adequabilidade de determinado procedimento administrativo, observaram-se 40 impressões favoráveis ao procedimento e 60 contrárias. Seja X o atributo com valor 1 para uma impressão favorável e zero em caso contrário. Assinale a opção que dá a variância dos valores observados de X. Use o denominador 100 no cálculo da variância. a) 0,1600 d) 0,2424 b) 0,3600 e) 0,3636 c) 0,2400 08. (ATRFB 2009 ESA) Obtenha o valor mais próximo da variância amostral da seguinte distribuição de frequências, onde xi representa o i-ésimo valor observado e fi a respectiva frequência. xi 5 6 7 8 9 fi 2 6 6 4 3 a) 1,429. b) 1,225. c) 1,5. d) 1,39. e) 1, 4. 09. (ACE-MICT-1998/ESAF) Num estudo sobre a distribuição do preço de venda de um produto obteve-se, a partir de uma amostra aleatória de 25 revendedores, a tabela de freqüências seguinte: Classe de Preços mi fi [ 5 – 9) 7 3 [ 9 – 13) 11 5 [13 – 17) 15 7 [17 – 21) 19 6 [21 – 25) 23 3 [25 – 29) 27 1 As quantidades mi e fi representam o ponto médio e a freqüência da classe de preços i. Sabendo-se que: Si(fi mi2) – (Si fi mi)2 / 25 » 694 52 Prof. Weber Campos Estatística assinale a opção que melhor aproxima o desvio padrão amostral. a) (347/12)0.5 d) 28,91 b) 6 e) 8 0.5 c) (345/12) 10. (AFRFB 2009 ESAF) A tabela mostra a distribuição de frequências relativas populacionais (f’) de uma variável X: X f' – 2 6a 1 1a 2 3a Sabendo que “a” é um número real, então a média e a variância de X são, respectivamente: a) µX = - 0,5 e sX2 = 3,7 b) µX = 0,5 e sX2 = - 3,45 c) µX = - 0,5 e sX2 = 3,45 d) µX = 0 e sX2 = 1 e) µX = 0,5 e sX2 = 3,7 11. Determine a variância amostral de X utilizando a distribuição de frequência a seguir: Classes 29,5 |— 39,5 39,5 |— 49,5 49,5 |— 59,5 59,5 |— 69,5 69,5 |— 79,5 79,5 |— 89,5 89,5 |— 99,5 fi 4 8 14 20 26 18 10 n=100 12. (AFRF-2002.2) Uma variável contábil Y, medida em milhares de reais, foi observada em dois grupos de empresas apresentando os resultados seguintes: Grupo Média Desvio padrão A 20 4 B 10 3 Assinale a opção correta. a) No Grupo B, Y tem maior dispersão absoluta. b) A dispersão absoluta de cada grupo é igual à dispersão relativa. c) A dispersão relativa do Grupo B é maior do que a dispersão relativa do Grupo A. d) A dispersão relativa de Y entre os Grupos A e B é medida pelo quociente da diferença de desvios padrão pela diferença de médias. e) Sem o conhecimento dos quartis não é possível calcular a dispersão relativa nos grupos. 53 Prof. Weber Campos Estatística 13. (AFRF-2000) Numa amostra de tamanho 20 de uma população de contas a receber, representadas genericamente por X, foram determinadas a média amostral M = 100 e o desvio-padrão S =13 da variável transformada (X-200)/5. Assinale a opção que dá o coeficiente de variação amostral de X. a) 3,0 % d) 17,3 % b) 9,3 % e) 10,0 % c) 17,0 % 14. (AFRF-2003/ESAF) O atributo Z= (X-2)/3 tem média amostral 20 e variância amostral 2,56. Assinale a opção que corresponde ao coeficiente de variação amostral de X. a) 12,9% d) 31,2% b) 50,1% e) 10,0% c) 7,7% 01 02 03 04 05 06 07 08 09 10 c c a b d c c c a c GABARITO 11 247,47 12 c 13 b 14 c 54 Prof. Weber Campos