Faculdade Sagrada Família ___________________________________________________________________ AULA 11 - DISPERSÃO OU VARIABILIDADE Vimos anteriormente que um conjunto de valores pode ser convenientemente sintetizado, por meio de procedimentos matemáticos, em poucos valores representativos – média aritmética, mediana e moda. Tais valores podem servir de comparação para dar a posição de qualquer elemento do conjunto. No entanto, quando se trata de interpretar dados estatísticos, mesmo aqueles já convenientemente simplificados, é necessário ter-se uma ideia retrospectiva de como se apresentavam esses mesmos dados nas tabelas. Assim, não é o bastante dar uma das medidas de posição para caracterizar perfeitamente um conjunto de valores, pois, mesmo sabendo, por exemplo, que a temperatura média de duas cidades é a mesma, e igual a 24ºC, ainda assim somos levados a pensar a respeito do clima dessas cidades. Em uma delas poderá a temperatura variar entre limites de muito calor e de muito frio e haver, ainda, uma temperatura e possuir uma temperatura média de 24ºC. A outra poderá ter uma variação pequena de temperatura e possuir, portanto, no que se refere à temperatura, um clima mais favorável. Vemos, então, que a média – ainda que considerada como um número que tem a finalidade de representar uma série de valores – não pode, por si mesma, destacar o grau de homogeneidade ou heterogeneidade que existe entre os valores que compõem o conjunto. Consideremos os seguintes conjuntos de valores das variáveis x, y e z: X: 70, 70, 70, 70, 70. Y: 68, 69, 70, 71, 72. Z: 5, 15, 50, 120, 160. Calculando a média aritmética de cada um desses conjuntos, obtemos: ∑ xi ⇒ x = 350 = 70 x= n 5 ∑ yi ⇒ x = 350 = 70 y= n 5 ∑ z i ⇒ x = 350 = 70 z= n 5 Vemos, então, que os três conjuntos apresentam a mesma média aritmética: 70. Entretanto, é fácil notar que o conjunto X é mais homogêneo que os conjuntos Y e Z, já que todos os valores são iguais à média. O conjunto Y, por sua vez, é mais homogêneo que o conjunto Z, pois há menos diversificação entre cada um de seus valores e a média representativa. Chamando de dispersão ou variabilidade a maior ou menor diversificação dos valores de uma variável em torno de um valor de tendência central tomado como ponto de comparação, podemos dizer que o conjunto X apresenta dispersão ou variabilidade nula e que o conjunto Y apresenta uma dispersão ou variabilidade menor que o conjunto Z. ___________________________________________________________________ MÉTODOS QUANTITATIVOS Prof. MSc. Regiane Aparecida Nunes de Siqueira [email protected] 1 Faculdade Sagrada Família ___________________________________________________________________ Portanto, para qualificar os valores de uma dada variável, ressaltando a maior ou menor dispersão ou variabilidade entre esses valores e a sua medida de posição, a Estatística recorre às medidas de dispersão ou de variabilidade. Dessas medidas, estudaremos a amplitude total, a variância, o desvio padrão e o coeficiente de variação. - Amplitude Total DADOS NÃO-AGRUPADOS A amplitude total é a diferença entre o maior e o menor valor observado: AT = x(máx) − x(mín) Exemplo: Para os valores: 40, 45, 48, 52, 54, 62 e 70 temos: AT = 70 – 40 = 30. Quando dizemos que a amplitude total dos valores é 30, estamos afirmando alguma coisa do grau de concentração. É evidente que, quanto maior a amplitude total, maior é a dispersão ou variabilidade dos valores da variável. Relativamente aos três conjuntos de valores mencionados no início deste, temos: ATx = 70 – 70 = 0 (dispersão nula) ATy = 72 – 68 = 4 ATz = 160 – 5 = 155 DADOS AGRUPADOS • Sem intervalos de classe Neste caso, ainda temos: AT = x(máx) − x(mín) Exemplo: Considerando a TABELA 1: TABELA 1 – INDÚSTRIA DE BEBIDAS ALFA NÚMERO DE DEPENDENTES DOS FUNCIONÁRIOS – 2003 xi 0 1 2 3 4 fi 2 6 12 7 3 Σ = 30 FONTE: Departamento Pessoal temos: AT = 4 – 0 = 4. • Com intervalos de classe ___________________________________________________________________ MÉTODOS QUANTITATIVOS Prof. MSc. Regiane Aparecida Nunes de Siqueira [email protected] 2 Faculdade Sagrada Família ___________________________________________________________________ Neste caso, a amplitude total é a diferença entre o limite superior da última classe e o limite inferior da primeira classe: AT = L(máx) − l (mín) Exemplo: Considerando a distribuição da TABELA 2: TABELA 2 – INDÚSTRIA DE BEBIDAS ALFA ESTATURAS DOS FUNCIONÁRIOS – 2002 ESTATURAS (cm) fi 150 I----------- 154 154 I----------- 158 158 I----------- 162 162 I----------- 166 166 I----------- 170 170 I----------- 174 4 9 11 8 5 3 Σ f i = 40 FONTE: Departamento Pessoal temos: AT = 174 –150 = 24 A amplitude total tem o inconveniente de só levar em conta os dois valores extremos da série, descuidando do conjunto de valores intermediários, o que quase sempre invalida a idoneidade do resultado. Ela é apenas uma identificação aproximada da dispersão ou variabilidade. Faz-se uso da amplitude total quando se quer determinara amplitude da temperatura em um dia ou no ano, no controle de qualidade ou como uma medida de cálculo rápido, e quando a compreensão popular é mais importante que a exatidão e a estatibilidade. - Variância e Desvio Padrão Como vimos, a amplitude total é instável, por se deixar influenciar pelos valores, que são, na sua maioria, devidos ao acaso. A variância e o desvio padrão são medidas que fogem a essa falha, pois levam em consideração a totalidade dos valores da variável em estudo, o que faz delas índices de variabilidade bastante estáveis e, por isso mesmo, os mais geralmente empregados. A variância baseia-se nos desvios em torno da média aritmética, porém determinando a média aritmética dos quadrados dos desvios. Lembremos que ∑ d i = ∑ ( xi − x ) = 0 Assim, representando a variância por s2, temos: ___________________________________________________________________ MÉTODOS QUANTITATIVOS Prof. MSc. Regiane Aparecida Nunes de Siqueira [email protected] 3 Faculdade Sagrada Família ___________________________________________________________________ s 2 ∑ ( x − x) = ∑f 2 ∑ (x = 2 i i Ou, lembremos que ∑f i = n: s 2 i − x) n OBS.: Quando nosso interesse não se restringe à descrição dos dados mas, partindo da amostra, visamos tirar inferências válidas para a respectiva população, convém efetuar uma modificação, que consiste em usar o divisor n - 1 em lugar de n. Podemos, ainda, com o intuito de conservar a definição, calcular a variância n . usando o divisor de n e, em seguida, multiplicar o resultado por n −1 Sendo a variância calculada a partir dos quadrados dos desvios, ela é um número em unidade quadrada em relação à variável em questão, o que, sob o ponto de vista prático, é um inconveniente. Por isso mesmo, imaginou-se uma nova medida que tem utilidade e interpretação práticas, denominada desvio padrão, definida como a raiz quadrada da variância e representada por s: s = s2 Assim: s= ∑ (x i − x) 2 n Tanto o desvio padrão como a variância são usados como medidas de dispersão ou variabilidade. O uso de uma ou de outra dependerá da finalidade que se tenha em vista. A variância é uma medida que tem pouca utilidade como estatística descritiva, porém é extremamente importante na inferência estatística e em combinações de amostras. Embora a fórmula dada para o cálculo do desvio seja a que torna mais fácil a sua compreensão, ela não é uma boa fórmula para fins de computação, pois, em geral, a média aritmética é um número fracionário, o que torna pouco prático o cálculo das quantidades ( xi − x) 2 . Podemos simplificar os cálculos fazendo uso da igualdade: (∑ xi ) 2 2 2 ∑ ( xi − x ) = ∑ x i − n ___________________________________________________________________ MÉTODOS QUANTITATIVOS Prof. MSc. Regiane Aparecida Nunes de Siqueira [email protected] 4 Faculdade Sagrada Família ___________________________________________________________________ Assim, substituindo na equação do desvio padrão obtemos: ∑x 2 i s= − (∑ xi ) 2 n n que pode ser escrita do seguinte modo: s= ∑x n 2 i − (∑ x i ) 2 n2 Não apenas este método é usualmente mais prático, como também mais preciso. Quando a média não é exata e tem de ser arredondada, cada desvio fica afetado ligeiramente do erro, devido a esse arredondamento. O mesmo acontece com os quadrados, podendo os resultados do cálculo ser menos exatos do que quando essa segunda fórmula é usada. O desvio padrão admite algumas propriedades, dentre as quais destacamos: 1. Somando-se (ou subtraindo-se) uma constante à todos os valores de uma variável, o desvio padrão não se altera: y i = xi ± c ⇒ s y = s x 2. Multiplicando-se todos os valores de uma variável por uma constante (diferente de zero), o desvio padrão fica multiplicado por essa constante: yi = c.xi ⇒ s y = c.s x Essas propriedades nos permitem introduzir, no cálculo do desvio padrão, simplificações úteis. Para o cálculo do desvio padrão, consideremos os seguintes casos: DADOS NÃO AGRUPADOS Tomemos, como exemplo, o conjunto de valores da variável x: 40, 45, 48, 52, 54, 62, 70 O modo mais prático para se obter o desvio padrão é formar uma tabela com duas colunas: uma para xi e outra para xi2. Assim: xi 40 45 48 52 54 62 70 Σ = 371 xi 2 1600 2025 2304 2704 2916 3844 4900 Σ = 20293 ___________________________________________________________________ MÉTODOS QUANTITATIVOS Prof. MSc. Regiane Aparecida Nunes de Siqueira [email protected] 5 Faculdade Sagrada Família ___________________________________________________________________ Como n = 7, temos: 20293 3712 − 2 7 7 s= s = 9,486 DADOS AGRUPADOS • Sem intervalos de classe Como, neste caso, temos a presença de frequências, devemos levá-las em consideração, resultando a fórmula: s= ∑fx i n 2 i − ( ∑ f i xi ) 2 n2 Consideremos, como exemplo, a distribuição da TABELA 1. O modo mais prático para se obter o desvio padrão é abrir, na tabela dada, uma coluna para os produtos fixi e outra para fixi2, lembrando que para obter fixi2 basta multiplicar cada fixi pelo seu respectivo xi. Assim: TABELA 1 – INDÚSTRIA DE BEBIDAS ALFA NÚMERO DE DEPENDENTES DOS FUNCIONÁRIOS – 2003 xi fi 0 1 2 3 4 o fixi 2 6 12 7 3 Σ = 30 0 6 24 21 12 Σ = 63 fixi 2 0 6 48 63 48 Σ = 165 FONTE: Departamento Pessoal Logo: s= 165 63 2 − 30 30 2 s = 1,04 DADOS AGRUPADOS • Com intervalos de classe Tomemos como exemplo a distribuição da TABELA 2. Começamos por abrir as colunas para xi (ponto médio), para fixi e para fixi2. Assim: ___________________________________________________________________ MÉTODOS QUANTITATIVOS Prof. MSc. Regiane Aparecida Nunes de Siqueira [email protected] 6 Faculdade Sagrada Família ___________________________________________________________________ TABELA 2 – INDÚSTRIA DE BEBIDAS ALFA ESTATURAS DOS FUNCIONÁRIOS – 2002 ESTATURAS (cm) 150 I----------- 154 154 I----------- 158 158 I----------- 162 162 I----------- 166 166 I----------- 170 170 I----------- 174 xi fi 4 9 11 8 5 3 Σ = 40 152 156 160 164 168 172 fixi 608 1404 1760 1312 840 516 Σ = 6440 fixi2 92416 219024 281600 215168 141120 88752 Σ = 1038080 FONTE: Departamento Pessoal Logo: 1038080 6440 2 s= − 40 40 2 s = 5,57 cm. - Coeficiente de Variação O desvio padrão por si só não nos diz muita coisa. Assim, um desvio padrão de duas unidades pode ser considerado pequeno para uma série de valores cujo valor médio é 200; no entanto se a média for igual a 20, o mesmo não pode ser dito. Além disso, o fato de o desvio padrão ser expresso na mesma unidade dos dados limita seu emprego quando desejamos comparar duas ou mais séries de valores, relativamente à sua dispersão ou variabilidade, quando expressas em unidades diferentes. Para contornar essas dificuldades e limitações, podemos caracterizar a dispersão ou variabilidade dos dados em termos relativos a seu valor médio, medida essa denominada coeficiente de variação (CV): s CV = .100 x Para a distribuição da TABELA 2, onde x = 161 cm e s = 5,57 cm, temos: CV = 5,57 .100 = 3,359 161 CV = 3,5% OBS.: Embora para qualificar a dispersão de uma distribuição, seja mais proveitoso o coeficiente de variação, não devemos deduzir daí que a variância e o desvio ___________________________________________________________________ MÉTODOS QUANTITATIVOS Prof. MSc. Regiane Aparecida Nunes de Siqueira [email protected] 7 Faculdade Sagrada Família ___________________________________________________________________ padrão não têm utilidade. Pelo contrário, são medidas muito úteis no tratamento de assuntos relativos à inferência estatística. - Exercícios de Aplicação 1. Calcule a amplitude total dos conjuntos de dados: a) 1, 3, 5, 9 (R: 8) b) 20, 14, 15, 19, 21, 22, 20 (R: 8) c) 17,9; 22,5; 13,3; 16,8; 15,4; 14,2 (R: 9,2) d) –10, -6, 2, 3, 7, 9, 10 (R: 20) 2. Calcule a amplitude total das distribuições: a) fi xi 2 1 3 3 4 5 5 8 6 5 7 4 8 2 (R: 6) b) CLASSES 1,5 I--- 1,6 1,6 I--- 1,7 1,7 I--- 1,8 1,8 I--- 1,9 1,9 I--- 2,0 2,0 I--- 2,1 2,1 I--- 2,2 fi 4 8 12 15 12 8 4 (R: 0,7) 3. Calcule os desvios padrões dos conjuntos a seguir: a) 1, 3, 5, 9 (R: 2,96) b) 20, 14, 15, 19, 21, 22, 20 (R: 2,81) c) 17,9; 22,5; 13,3; 16,8; 15,4; 14,2 (R: 3,02) d) –10, -6, 2, 3, 7, 9, 10 (R: 7,04) ___________________________________________________________________ MÉTODOS QUANTITATIVOS Prof. MSc. Regiane Aparecida Nunes de Siqueira [email protected] 8 Faculdade Sagrada Família ___________________________________________________________________ 4. Calcule os desvios das distribuições a seguir: a) fi xi 2 1 3 3 4 5 5 8 6 5 7 4 8 2 (R: 1,51) b) CLASSES 1,5 I--- 1,6 1,6 I--- 1,7 1,7 I--- 1,8 1,8 I--- 1,9 1,9 I--- 2,0 2,0 I--- 2,1 2,1 I--- 2,2 fi 4 8 12 15 12 8 4 (R: 0,16) 5. Dada a distribuição relativa a 100 lançamentos de 5 moedas simultaneamente: Nº de CARAS 0 1 2 3 4 5 Calcule o desvio padrão. (R: 1,13) fi 6. Calcule o desvio padrão da distribuição: CLASSES fi 2 I--- 6 6 I--- 10 10 I--- 14 14 I--- 18 18 I--- 22 (R: 4,45) 4 16 34 29 16 3 5 12 21 15 7 7. Sabendo-se que um conjunto apresenta para média aritmética e para desvio padrão, respectivamente, 18,3 e 1,47, calcule o coeficiente de variação. (R: 8,03%) 8. Em um exame final de Matemática, o grau médio de um grupo de 150 alunos foi 7,8 e o desvio padrão, 0,80. Em Estatística, entretanto, o grau médio final foi 7,3 e o desvio padrão, 0,76. Em que disciplina foi maior a dispersão. (R: 10,26%; 10,41%; Estatística) ___________________________________________________________________ MÉTODOS QUANTITATIVOS Prof. MSc. Regiane Aparecida Nunes de Siqueira [email protected] 9 Faculdade Sagrada Família ___________________________________________________________________ 9. Medidas as estaturas de 1017 indivíduos, obtivemos média 162,2 cm e desvio padrão 8,01 cm. O peso médio desses mesmos indivíduos é 52 kg, com um desvio padrão de 2,3 kg. Esses indivíduos apresentam maior variabilidade em estatura ou em peso? (R: 4,94%; 4,42%; estatura) 10. Um grupo de 85 moças tem estatura média de 160,6 cm, com um desvio padrão igual a 5,97 cm. Outro grupo de 125 moças tem uma estatura média de 161,9 cm, sendo o desvio padrão igual a 6,01 cm. Qual é o coeficiente de variação de cada um dos grupos? Qual o grupo mais homogêneo? (R: 3,72%; 3,71%; 2º grupo) 11. Uma distribuição apresenta as seguintes estatísticas: s = 1,5 e CV = 2,9%. Determine a média da distribuição. (R: 51,72) ___________________________________________________________________ MÉTODOS QUANTITATIVOS Prof. MSc. Regiane Aparecida Nunes de Siqueira [email protected] 10