Medidas estatísticas de dispersão Garfield explica porque a soma dos desvios em relação à média aritmética é sempre igual a zero: “Se eu chutar o Odie para lá ... E depois para lá – no sentido contrário – ... é como se eu não o tivesse chutado”. Jim Daves, (1945 - ...) Cartunista americano. As medidas de dispersão são úteis para que se possa verificar a homogeneidade ou heterogeneidade das medidas de um grupo. Grupos mais homogêneos têm medidas de variabilidade menores do que grupos mais heterogêneos. Grupos absolutamente homogêneos têm medidas de variabilidade igual a zero. Esses dois aspectos abordados acima – variabilidade zero implica em medida de dispersão igual a zero, e menor variabilidade implica em medida de dispersão menor – são a base da construção das medidas de dispersão, como se verá mais abaixo. O estudo da variabilidade é com certeza um dos aspectos mais importantes de todo o corpo teórico da Estatística, seja na compreensão de um fenômeno a partir da análise exploratória de dados ou em estudos inferenciais. Na comparação entre dois conjuntos de dados, podemos ter situações em que apesar de as medidas de tendência central serem muito próximas, elas podem representar comportamentos muito diversos devido à sua variabilidade ou dispersão. Para efeito de ilustração do que se está dizendo, observe os dois conjuntos abaixo, resultado de uma simulação estritamente numérica. Sejam os conjuntos A = {2 ; 2 ; 2}, B = {1 ;2; 3} e C = {0 ;2 ;4}. Observe que se procurarmos analisar o fenômeno que produziu esses números através de suas medidas de tendência central, obteríamos como resultado que os três conjuntos têm a mesma média, igual a 2, a mesma mediana também igual a 2 e que, ainda, o número 2 é moda para os três conjuntos. Poderíamos ser levados a crer que eles representam exatamente a mesma situação. Na verdade isso não ocorre. A simples observação dos dados nos mostra que os conjuntos representam situações muito diferentes. O conjunto A representa uma situação de absoluta homogeneidade. Não há qualquer variação entre os valores medidos em três diferentes indivíduos. Já o conjunto B apresenta pequenas variações e o conjunto C uma variação ainda maior. Então é 63 necessária a construção de medidas que possam auxiliar o analista a compreender melhor o comportamento dos dados e, assim, compreender melhor o fenômeno que produziu esses dados. A forma mais comum de se verificar o quanto os dados variam é observar o quanto eles se dispersam em torno de algum valor central, comumente a média. Mas é possível também utilizar os valores extremos. As principais medidas de variabilidade são então: (I) a amplitude total, (II) a variância, (III) o desvio padrão e (IV) o coeficiente de variação. A amplitude total A amplitude total de um conjunto de dados é determinada pela diferença entre o maior valor da amostra e seu menor valor. Se Xmax é o maior valor e Xmin o menor valor, podemos definir a amplitude total (At) como: At = Xmax – Xmin Podemos determinar para o conjunto de funcionários da empresa ABC a dispersão das idades e dos salários através desta medida: Estatística Aplicada às Ciências Sociais Número de ordem 64 Nome Idade Salário 1 A. L. Ferraz 49 1.714,00 2 R. Abreu 48 1.701,00 3 R. S. Reis 64 1.589,00 4 N. Farias 37 1.418,00 5 J. L. Jansen 42 1.000,00 6 U. S. Machado 40 3.732,00 7 F. Nogueira 21 1.330,00 8 M. Pinheiro 33 1.307,00 9 M. A. da Silva 39 1.282,00 10 P. A. B. Costa 42 1.260,00 11 H. F. Minho 39 975,00 12 N. M de Lima 32 1.256,00 13 C. F. Loureiro 22 1.185,00 14 M. E. M. Ferreira 21 3.535,00 Número de ordem Nome Idade Salário 15 J. A. Isaias 37 2.956,00 16 J. Martins 24 1.179,00 17 A. P. Ribeiro 28 966,00 18 L. C. Batista 32 3.204,00 19 A. F. dos Santos 31 881,00 20 C. A. Brandão 38 3.080,00 21 D.J.Feltrin 23 2.872,00 22 L. S. Prestes 22 826,00 23 J. L. Campos 46 1.010,00 24 S. I. Magalhães 34 708,00 25 P. R. Gonçalves 47 2.960,00 26 M. I. Machado 42 2.797,00 27 M. Paraná 32 1.001,00 28 U. V. Guimarães 29 2.315,00 29 E. M. Moreira 41 5.572,00 30 A. P. de Andrade 30 2.372,00 31 L. R de Souza 51 4.829,00 32 R. T. Moraes 23 1.826,00 33 J. Pilloto 20 540,00 34 F. C. Lopes 27 489,00 35 C. A. Meier 33 479,00 36 H. O. Silveira 22 1.904,00 37 K. D. Almeida 41 659,00 38 M. J. D. Colares 34 1.827,00 39 R. F. L. Silvério 24 472,00 40 M. N. Messias 20 640,00 At = Xmax – Xmin = 64 – 20 = 44 anos. A amplitude total dos salários será a diferença entre Xmax = 5.572 e Xmin = 472, correspondente aos salários dos funcionários E. M. Moreira e R. F. L. Silvério. At = Xmax – Xmin = 5.572 – 472 = 5.100 ou R$5.100,00 Medidas estatísticas de dispersão O funcionário mais velho da empresa é o senhor R. S. Reis que tem 64 anos e os mais novos são os jovens J. Piloto e M. N. Messias com 20 anos. Assim, Xmax = 64 e Xmin = 20. A amplitude total será: 65 A variância Se utilizarmos os desvios de um conjunto de dados em relação a um valor central desse conjunto é razoável pensarmos em determinar a distância de cada dado em relação ao valor médio e depois somarmos essas distâncias. A distância de cada dado em relação à média pode ser dada por (X – X). A ideia de somarmos as distâncias é boa porque conseguimos com que todos os dados sejam considerados ou, de outra forma, que a distância de todos os dados da média componham a medida de dispersão. Mas esbarra em uma restrição importante que é uma das características da média: a soma dos desvios em relação à média de um conjunto de dados é sempre igual a zero. Vamos verificar essa propriedade utilizando novamente três conjuntos simples de dados: A = {2, 2, 2}, B= {1, 2, 3} e C = {0, 2, 4}. A média de cada um desses conjuntos é igual a 2. Assim, para o conjunto A, a soma dos desvios em relação à média produzirá: (X – X) = {(2 – 2) + (2 – 2) + (2 – 2)} = 0 + 0 + 0 = 0 Para o conjunto B: (X – X) = {(1 – 2) + (2 – 2) + (3 – 2)} = (–1) + 0 + 1 = 0 E para o conjunto C: (X – X) = {(0 – 2) + (2 – 2) + (4 – 2)} = (–2) + 0 + 2 = 0 Estatística Aplicada às Ciências Sociais Essa propriedade vale para qualquer conjunto de dados. Então para contornarmos esse problema mantendo a ideia de somar desvios em relação à média teremos que encontrar uma forma que essa soma seja sempre positiva. Duas alternativas apresentam-se então: (i) a soma dos desvios em módulo e (ii) a soma dos quadrados dos desvios. 66 Se tomarmos a média da soma dos desvios em módulo (de seus valores absolutos), definiremos uma medida de dispersão que é conhecida como desvio médio, que embora resolva o problema apresentado não é uma medida muito usual. De qualquer forma sua expressão pode ser dada por: Desvio médio = |x – X | n Essa medida é a média da somatória dos desvios em relação à média aritmética. Ou seja, tomamos as distâncias de cada ponto até a média. Consideramos as distâncias sem levar em consideração os sinais, por isso usamos o módulo. Somamos todos os desvios em valor absoluto (em módulo) e depois dividimos por “n”, o que resulta na média das distâncias ou desvios em relação à média aritmética, por isso essa medida é denominada de desvio médio. Os desvios médios dos conjuntos acima serão iguais a 0 para o conjunto A, 2 para o conjunto B e 4 para o conjunto C. Esses resultados obedecem aos critérios estabelecidos para uma medida de dispersão, ou seja, conjuntos sem variabilidade (todos os valores são iguais) têm medida de dispersão igual a zero, como é o caso do conjunto A e conjuntos mais heterogêneos têm maior medida de variabilidade. O conjunto C tem medida de variabilidade maior que B, que por sua vez tem medida maior do que A. A outra forma de contornar o problema da soma dos desvios em relação a média ser igual a zero é elevar o valor dos desvios ou distâncias ao quadrado. Dessa forma, podemos encontrar a variância, definida como a média da soma dos quadrados dos desvios em relação à média. Aqui vale a pena destacar uma diferença quando se trata de dados provenientes de uma população ou de uma amostra. A média dos dados da população é denotada por μ, enquanto a média dos dados provenientes de uma amostra é X. Assim, a variância mede a variabilidade média dos quadrados dos desvios dos valores em torno da média e pode ser representada por VAR(X) ou σ2. Vamos utilizar o quadrado porque, como vimos, a média tem sempre a propriedade que a soma dos desvios em torno dela ser é igual a zero, ou seja, Σ(X – μ) = 0. Dessa forma, a variância populacional pode ser definida como: 2 = VAR (X) = (X – )2 N S2 = VAR (X) = (X – X)2 n–1 Medidas estatísticas de dispersão Na expressão acima N é o tamanho da população ou número de valores populacionais considerados. Quando tratamos de amostra em vez de população como no caso acima, N é substituído por (n –1) e n é o tamanho da amostra. A justificativa de utilizarmos n – 1, e não N neste caso, será apresentada no capítulo referente a Estimação, quando tratarmos de distribuições amostrais. Neste caso substituímos σ2 por S2. Então para o caso de amostra teremos: 67 Uma forma alternativa de determinar o valor da variância, derivada da expressão acima é dada por: X2 – nX2 n–1 S2 = VAR (X) = Estatística Aplicada às Ciências Sociais Utilizando a fórmula acima podemos calcular a variância das idades através do procedimento abaixo em que calculamos a média e a subtraímos dos valores de X: 68 N. de ordem Idade (X) X–X (X – X )2 1 49 15 225 2 401 2 48 14 196 2 304 3 64 30 900 4 096 4 37 3 9 1 369 5 42 8 64 1 764 6 40 6 36 1 600 7 21 –13 169 441 8 33 –1 1 1 089 9 39 5 25 1 521 10 42 8 64 1 764 11 39 5 25 1 521 12 32 –2 4 1 024 13 22 –12 144 484 14 21 –13 169 441 15 37 3 9 16 24 –10 100 576 17 28 –6 36 784 18 32 –2 4 1 024 19 31 –3 9 961 20 38 4 16 1 444 21 23 –11 121 529 22 22 –12 144 484 23 46 12 144 2 116 24 34 0 0 1 156 25 47 13 169 2 209 26 42 8 64 1 764 X2 1 369 N. de ordem Idade (X) X–X (X – X )2 27 32 –2 4 1 024 28 29 –5 25 841 29 41 7 49 1 681 30 30 –4 16 900 31 51 17 289 2 601 32 23 –11 121 529 33 20 –14 196 400 34 27 –7 49 729 1 089 35 33 –1 1 36 22 –12 144 484 37 41 7 49 1 681 38 34 0 0 1 156 39 24 –10 100 576 40 20 –14 196 400 X X= X2 X 1360 = n 40 (X – X)2 = 1360 34 S2 = VAR (X) = 4086 (X – X)2 = 39 n–1 4 086 50 326 104,7692 Uma forma simplificada de calcularmos a variância de um conjunto de dados amostrais pode ser realizada através da expressão: S2 = VAR (X) = X2 – nX2 n–1 Para o exemplo em consideração: Variância para dados agrupados A variância para dados agrupados pode ser determinada pela expressão: S2 = VAR (X) = (X – X)2f n–1 Medidas estatísticas de dispersão 2 S2 = VAR (X) = X2 – nX2 = 50 326 – (40) (34 ) = 104,7692 39 n–1 69 onde f é a frequência relativa de cada classe, X o ponto médio de cada classe e X, a média aritmética dos dados. Tomando como exemplo a distribuição de frequências das idades dos funcionários da empresa ABC, temos: Idade f X Xf X-X (X-X)2 (X-X)2f [20,30) 14 25 350 –10,25 105,0625 [30,40) 14 35 490 –0,25 0,0625 0,875 [40,50) 10 45 450 9,75 95,0625 950,625 [50,60) 1 55 55 19,75 390,0625 390,0625 [60,70) 1 65 65 29,75 885,0625 885,0625 Total 40 1 470,875 ( X – X) f = 3 697,50 Xf = 1410 X= Xf 1410 = 35,25 = n 40 S2 = (X – X)2f 3 697,5 = 94,8077 = n–1 39 Estatística Aplicada às Ciências Sociais Nesse caso é importante observar algumas suposições realizadas. O ponto médio da primeira classe, por exemplo, representa as idades dos 14 funcionários que têm idades entre 20 e 30 anos, não incluídos os de 30 anos. Estamos, portanto, considerando que todos os 14 funcionários têm 25 anos. Ganha-se em síntese e perde-se detalhes. Com isso pode haver uma pequena distorção nos valores da média e da variância. A variância para os dados brutos foi de 104,7692, enquanto para os dados organizados em distribuição de frequências este valor foi calculado em 94,80769. Houve essa distorção principalmente em razão do valor extremo da idade. Mas, ainda assim, os resultados foram bastante razoáveis. Nesse caso, a consideração em relação aos outliers passa a ter um papel importante, o que não ocorre para grandes amostras, em que tal distorção praticamente desaparece. 70 Ocorre que, no geral, o cientista social só tem acesso a dados já agregados em classes e raramente aos dados brutos, como nos casos das grandes pesquisas nacionais como o Censo e Pesquisa Nacional de Amostras Domiciliares (PNAD). Nesses casos as pequenas distorções são inevitáveis. Desvio padrão Como a unidade da variância (S2) é sempre ao quadrado, a forma de representar uma medida de dispersão na mesma unidade dos dados é calculando a raiz quadrada da variância. Essa medida é chamada de desvio padrão, uma das medidas mais importantes da Estatística. A expressão do desvio padrão é a raiz quadrada da variância conforme abaixo: S = D.P(X) = X2 – n X2 n–1 No exemplo acima, o desvio padrão para os dados brutos será igual a S = 104,7692 =10,2357 Já para os dados organizados em distribuição de frequências, o valor do desvio padrão sofrerá uma pequena distorção: S = 94,8077 = 9,7369 A média tem um significado físico muito claro. Além de estar na mesma unidade das medidas, ela representa o centro de gravidade dos dados, que pode se alterar com pequenas mudanças nos valores extremos da série de dados. Já a interpretação física do desvio padrão não é tão clara, embora também esteja na mesma unidade dos dados. Coeficiente de variação Mesmo o desvio padrão estando na mesma unidade dos dados ele não consegue revelar a dimensionalidade desses dados. Um mesmo valor de desvio padrão pode ser grande ou pequeno, dependendo da dimensionalidade. Vamos ilustrar esse fato comparando a variabilidade entre três conjuntos de dados, explorando um pouco a intuição. Vamos supor que desejamos verificar qual entre três conjuntos de dados é o mais homogêneo e qual é o mais heterogêneo. Tomaremos os conjuntos A = {1, 2, 3}, B ={11, 12, 13} e C ={111, 112, 113}. Vamos tentar identificar a heterogeneidade de cada um deles de forma intuitiva. Então o aparelho A faz uma medida que tem por resultado o valor 1m, repete-se a medida e o valor observado agora é 2m e, finalmente, fazemos mais uma vez a medida e o resultado foi 3m. A pergunta é: será que o aparelho está bem calibrado? A resposta natural é: não. O aparelho erra muito cada vez que faz a medida. Medidas estatísticas de dispersão Vamos supor que essas sejam medidas de distância entre dois pontos, que serão repetidas três vezes para cada um dos aparelhos de medir distância A, B e C. 71 Repetindo a experiência com o aparelho B observamos que o aparelho ainda erra. Em três repetições o aparelho aponta para 11, 12 e 13 metros. Mas o erro é menor do que o cometido anteriormente. Finalmente fazemos o mesmo para o aparelho C e verificamos que o erro agora é bem pequeno em relação aos outros dois aparelhos. Isso indica que a variabilidade do conjunto A é maior do que a do conjunto B, que por sua vez é maior do que a do conjunto C. Logo, o conjunto A é mais heterogêneo que o conjunto B que é mais heterogêneo que o conjunto C. Vamos verificar se o desvio padrão é capaz de identificar essas diferenças. Vamos usar a expressão do desvio padrão amostral, ele é calculado como a raiz quadrada da variância amostral, isto é, o denominador será igual a n-1. Observando que n = 3 para cada uma das amostras, temos: (X – X)2 n–1 Calculando o desvio padrão da amostra A, que tem média igual a 2, teremos: S= (1 – 2)2 + (2 – 2)2 + (3 – 2)2 = 12 + 02 12 = 2 = 1 = 1 2 2 2 Repetindo o procedimento para a amostra B que tem média igual a 12, obtemos: SA = (11 – 12)2 + (12 – 12)2 + (13 – 12)2 = 1 2 O mesmo para a amostra C, que tem média igual a 112: SA = (111 – 112)2 + (112 – 112)2 + (113 – 112)2 = 1 2 Pudemos observar que, embora as amostras tenham homogeneidades diferentes, o valor do desvio padrão de cada uma delas é igual a 1. Ou seja, se as amostras têm médias diferentes, o desvio padrão não é adequado para realizar tal comparação. Isso porque o seu cálculo não é sensível à dimensionalidade dos dados. A dimensionalidade diz respeito aos valores dos dados. O número 1 tem dimensionalidade um que corresponde à unidade (101), o número 10 tem dimensionalidade dois, que corresponde à dezena (102) e o 100 tem dimensionalidade três que corresponde à centena (103). Estatística Aplicada às Ciências Sociais SA = 72 Temos então que encontrar uma forma de padronizar os valores dos desvios padrões, calculados de forma a considerar a dimensionalidade dos dados. Podemos fazer isso igualando a média a 100 e calculando a medida correspondente de dispersão. Igualamos a 100 para produzirmos valores de percentuais. Isso pode ser feito através de uma regra de três simples e a nova medida será definida como coeficiente de variação (C.V.): X S – – 100 C.V. Dessa forma, o coeficiente de variação será definido pela fórmula abaixo: C.V. = S . 100% X Observe que o coeficiente de variação é uma medida cuja unidade é o percentual. Isso significa que ele passa também a ter uma interpretação física. Vamos determinar o valor dos coeficientes de variação para cada um dos conjuntos de dados acima: C.VA = S x 100 = (1/2). 100 = 50% XA C.VB = S x 100 = (1/12). 100 = 6,33% XB C.Vc = S x 100 = (1/112). 100 = 0,9% Xc Esses resultados confirmam a nossa intuição de que o conjunto A é o mais homogêneo e o conjunto C é o mais heterogêneo. Em resumo, o desvio padrão tem várias utilidades em Estatística, uma delas é comparar a variabilidade entre dois conjuntos que têm a mesma média. Ele é a raiz quadrada da variância. Como o desvio padrão não tem um significado físico mais bem definido, o seu valor será grande ou pequeno dependendo da dimensionalidade dos dados. Medidas estatísticas de dispersão Um desvio padrão pode ser mínimo ou imenso dependendo da dimensão dos dados que estamos tratando. Existe, no entanto, uma possibilidade de comparação da variabilidade entre dois conjuntos padronizando o valor do desvio padrão pelo valor da média do conjunto de dados. Essa nova medida é chamada de coeficiente de variação. Essas são as principais medidas de dispersão utilizadas na comparação de dados provenientes de fenômenos sociais, desde que eles possam ser quantificados. 73 Texto complementar A importância do desvio padrão (COMISSÃO, 2009) O Processo Seletivo Seriado (PSS) é a forma de seleção adotada pela Universidade Federal da Paraíba – UFPB, desde 1999, para ingresso em seus cursos de graduação [...] Tanto no caso do candidato que faz as provas ano a ano como no caso daquele que faz o conjunto de provas das três séries, são utilizadas as seguintes medidas: Nota Bruta Nota Padronizada O que significam tais medidas? Nota Bruta (NB) A nota bruta é o número de pontos obtidos pelo candidato na prova de uma determinada matéria. Tomemos, por exemplo, a matéria Matemática na prova referente à 1.ª série. Se o candidato obtiver 6 acertos, sua nota bruta, em Matemática, será igual a 6. NB = 6 Estatística Aplicada às Ciências Sociais Nota Padronizada (NP) 74 No Ensino Fundamental e Médio, os professores corrigem as provas e fornecem os resultados aos seus alunos em notas que, normalmente, variam numa escala de 0 (zero) a 10 (dez). São as chamadas “notas brutas”, que são facilmente entendidas por todos. Dessa forma, se um aluno disser que tirou 10 (dez) em História, saberemos que ele acertou a prova toda. Por outro lado, se o mesmo aluno afirmar que tirou 5 (cinco) em Biologia, imaginaremos que ele acertou a metade da prova. Entretanto, chegada a hora do PSS, as notas brutas a que estamos acostumados cedem lugar às notas padronizadas. E aí os estudantes fazem muitas perguntas. O que é uma nota padronizada? Como se faz para calculá-la? Por que não se usam as tradicionais notas brutas no vestibular? [...] O Processo Seletivo Seriado é um exame de natureza classificatória. Assim, o objetivo do sistema de avaliação numérica das provas é determinar a posição de um candidato em relação aos demais. Para fazer essa comparação utilizando-se as notas obtidas pelos candidatos nas diferentes provas, é necessário que se tenha a mesma unidade de medida, comum às várias provas. A unidade de medida que oferece maiores vantagens para a comparação da posição de um candidato em relação aos outros, quando vários instrumentos de medida (provas) são utilizados, é o chamado escore padrão. O escore padrão ou escore padronizado indica a quantidade de unidades de desvio padrão. O desvio padrão é uma medida estatística que indica a magnitude de dispersão das notas em torno da sua média. Quando as notas são concentradas em torno da média, o desvio padrão é pequeno. Quando as notas se distanciam da média, o desvio padrão é grande. Qual a importância do desvio padrão? Exemplifiquemos: um candidato obteve 7 na prova de Matemática, que “teve” média 4 (quatro) e 7 (sete) na prova de Física, que também “teve” média 4 (quatro). Qual o 7 (sete) que vale mais? O de Matemática ou o de Física? Muitos dirão que os dois sete valem a mesma coisa, mas isto não é verdade. Vejamos o por quê. A nota padronizada é, em síntese, uma transformação da nota bruta. Como padronizar uma nota bruta? Medidas estatísticas de dispersão Imaginemos que na prova de Matemática, a maioria das notas esteja próxima da média (desvio padrão pequeno) enquanto que, na de Física, as notas estejam mais espalhadas em torno da média (desvio padrão grande). Nessas condições, pode-se concluir que o 7 de Matemática vale mais porque está situado acima de um maior número de notas que o de Física. 75 A fórmula que permite calcular o escore padrão (EP) de um candidato i, numa determinada matéria, é: EP = NBi – NB SX Onde : EP = escore padrão. NBi = nota bruta obtida pelo candidato i, na prova de uma determinada matéria. NB = média das notas brutas obtidas pelos candidatos que se submeteram à mesma prova. Sx = desvio padrão das notas brutas da prova. Apliquemos essa transformação ao exemplo citado no início dessa explicação. Se a nota bruta do candidato foi 6, na prova de Matemática referente à 1.ª série, e a média e o desvio padrão das notas brutas dessa prova foram, respectivamente, 4 e 2, o seu escore padrão será: EP = 6 – 4 = 1 2 Esse resultado mostra que o candidato obteve uma unidade de desvio padrão acima da média, na prova de Matemática da 1.ª série. Estatística Aplicada às Ciências Sociais A fim de se evitarem decimais e valores negativos, a Coperve transforma os escores padrão obtidos em notas padronizadas. Estas têm média arbitrada em 500 e desvio padrão arbitrado em 100. Consequentemente, a nota padronizada (NP) do candidato i , em qualquer matéria, será: 76 NP = 500 + 100 . NBi – NB SX No exemplo dado, a nota padronizada do candidato na matéria Matemática, na prova da 1.ª série, será: NP = 500 + 100 × 1 = 600 Essa nota indica que o candidato obteve 6(seis) desvios padrão na sua avaliação (6 × 100). Considerando que as provas são aplicadas por série do Ensino Médio, teremos: Nota Padronizada 1 (NP1) – nota padronizada do candidato na prova da 1.ª série de uma determinada matéria. Nota Padronizada 2 (NP2) – nota padronizada do candidato na prova da 2.ª série de uma determinada matéria. Nota Padronizada 3 (NP3) – nota padronizada do candidato na prova da 3.ª série de uma determinada matéria. Nota Padronizada 4 (NP4) – nota padronizada representativa do desempenho do candidato na prova de Redação. Observação: as notas padronizadas são calculadas levando em conta o desempenho de todos os candidatos que se submeteram à mesma prova, excluídos os eliminados do Processo Seletivo, de modo que, em cada matéria, as notas padronizadas tenham a mesma média (500) e o mesmo desvio padrão (100). As notas brutas e as notas padronizadas obtidas pelos candidatos, nas avaliações referentes ao PSS 1 e 2, são divulgadas, por matéria, sem caráter classificatório, após a correção das provas. Como é feita a classificação final? Após a correção das provas do PSS 3, calcula-se para cada candidato a Nota Final (NF), por matéria. Essa será a média das notas padronizadas 1, 2 e 3 por ele obtidas em cada matéria. A nota final do candidato na prova de Redação será igual à sua nota padronizada 4. Para um melhor entendimento, consideremos o seguinte exemplo, relativo a um candidato que tenha obtido as notas padronizadas, por matéria, indicadas no quadro a seguir: Medidas estatísticas de dispersão Para efeito da classificação final, é calculada a Média Final (MF) de cada candidato, efetuando-se a média aritmética de todas as suas notas finais, de modo que a média final tenha uma casa decimal, desprezando-se as demais casas decimais resultantes do cálculo. 77 Matéria 1.ª série – NP1 Notas padronizadas 2.ª série 3.ª série Redação– NP2 – NP3 NP4 Nota final Português 544 640 637 - 607 Matemática 604 566 630 - 600 Química 634 718 721 - 691 Física 544 612 623 - 593 Biologia 480 460 515 - 485 História 750 806 823 - 793 Geografia 710 670 735 - 705 Inglês 805 715 805 - 775 - - - 675 675 Redação A Nota Final em cada matéria é obtida efetuando-se a média aritmética das notas padronizadas NP1, NP2 e NP3 obtidas na matéria. No caso de Redação, a Nota Final será igual à nota padronizada 4 (NP4). A Média Final é a média aritmética das Notas Finais: (607+600+691+593+485+793+705+775+675) / 9 = 658,2. Estatística Aplicada às Ciências Sociais A classificação final é feita por curso, na ordem decrescente das médias finais (MF), até o limite das vagas ofertadas. Havendo empate de médias finais, terá preferência, na ordem de classificação, o candidato com maior Nota Final em Língua Portuguesa e Literatura Brasileira. Considerado o total de vagas oferecido pelo curso e persistindo o empate na disputa pela última vaga, serão classificados todos os candidatos que se encontrarem com igual Média Final. 78 Atividades 1. Os dados a seguir referem-se ao peso em gramas de 44 bebês recém-nascidos em um período de 24 horas em um hospital de Brisbane na Austrália. Determine a média do peso dos bebês e verifique se os bebês podem ser considerados como uma amostra homogênea. 3 837 3 380 3 430 3 428 3 334 3 294 3 480 4 162 3 554 2 576 3 116 3 630 3 838 3 208 3 428 3 406 3 625 3 521 3 783 3 402 2 208 3 746 3 345 3 500 1 745 3 523 3 034 3 736 2 846 2 902 2 184 3 370 3 166 2 635 3 300 3 692 3 520 3 920 2 383 2 121 3 150 3 866 3 542 3 278 2. Discuta a relação entre média, desvio padrão e coeficiente de variação. 3. Um outlier pode influenciar fortemente uma medida de variação, como influencia a média aritmética. Que procedimento deve-se fazer em uma análise de dados sociológicos que apresentam mais de um outlier? Medidas estatísticas de dispersão 79