Medidas estatísticas de dispersão
Garfield explica porque a soma dos desvios em
relação à média aritmética é sempre igual a zero:
“Se eu chutar o Odie para lá ... E depois para lá
– no sentido contrário – ... é como se eu não o tivesse chutado”.
Jim Daves, (1945 - ...) Cartunista americano.
As medidas de dispersão são úteis para que se possa verificar a homogeneidade
ou heterogeneidade das medidas de um grupo. Grupos mais homogêneos têm medidas de variabilidade menores do que grupos mais heterogêneos. Grupos absolutamente homogêneos têm medidas de variabilidade igual a zero.
Esses dois aspectos abordados acima – variabilidade zero implica em medida de
dispersão igual a zero, e menor variabilidade implica em medida de dispersão menor –
são a base da construção das medidas de dispersão, como se verá mais abaixo.
O estudo da variabilidade é com certeza um dos aspectos mais importantes de
todo o corpo teórico da Estatística, seja na compreensão de um fenômeno a partir da
análise exploratória de dados ou em estudos inferenciais.
Na comparação entre dois conjuntos de dados, podemos ter situações em que
apesar de as medidas de tendência central serem muito próximas, elas podem representar comportamentos muito diversos devido à sua variabilidade ou dispersão. Para
efeito de ilustração do que se está dizendo, observe os dois conjuntos abaixo, resultado de uma simulação estritamente numérica.
Sejam os conjuntos A = {2 ; 2 ; 2}, B = {1 ;2; 3} e C = {0 ;2 ;4}. Observe que se procurarmos analisar o fenômeno que produziu esses números através de suas medidas
de tendência central, obteríamos como resultado que os três conjuntos têm a mesma
média, igual a 2, a mesma mediana também igual a 2 e que, ainda, o número 2 é moda
para os três conjuntos. Poderíamos ser levados a crer que eles representam exatamente a mesma situação. Na verdade isso não ocorre. A simples observação dos dados nos
mostra que os conjuntos representam situações muito diferentes.
O conjunto A representa uma situação de absoluta homogeneidade. Não há qualquer variação entre os valores medidos em três diferentes indivíduos. Já o conjunto
B apresenta pequenas variações e o conjunto C uma variação ainda maior. Então é
63
necessária a construção de medidas que possam auxiliar o analista a compreender
melhor o comportamento dos dados e, assim, compreender melhor o fenômeno que
produziu esses dados.
A forma mais comum de se verificar o quanto os dados variam é observar o quanto
eles se dispersam em torno de algum valor central, comumente a média. Mas é possível também utilizar os valores extremos.
As principais medidas de variabilidade são então: (I) a amplitude total, (II) a variância, (III) o desvio padrão e (IV) o coeficiente de variação.
A amplitude total
A amplitude total de um conjunto de dados é determinada pela diferença entre o
maior valor da amostra e seu menor valor. Se Xmax é o maior valor e Xmin o menor valor,
podemos definir a amplitude total (At) como:
At = Xmax – Xmin
Podemos determinar para o conjunto de funcionários da empresa ABC a dispersão das idades e dos salários através desta medida:
Estatística Aplicada às Ciências Sociais
Número
de ordem
64
Nome
Idade
Salário
1
A. L. Ferraz
49
1.714,00
2
R. Abreu
48
1.701,00
3
R. S. Reis
64
1.589,00
4
N. Farias
37
1.418,00
5
J. L. Jansen
42
1.000,00
6
U. S. Machado
40
3.732,00
7
F. Nogueira
21
1.330,00
8
M. Pinheiro
33
1.307,00
9
M. A. da Silva
39
1.282,00
10
P. A. B. Costa
42
1.260,00
11
H. F. Minho
39
975,00
12
N. M de Lima
32
1.256,00
13
C. F. Loureiro
22
1.185,00
14
M. E. M. Ferreira
21
3.535,00
Número
de ordem
Nome
Idade
Salário
15
J. A. Isaias
37
2.956,00
16
J. Martins
24
1.179,00
17
A. P. Ribeiro
28
966,00
18
L. C. Batista
32
3.204,00
19
A. F. dos Santos
31
881,00
20
C. A. Brandão
38
3.080,00
21
D.J.Feltrin
23
2.872,00
22
L. S. Prestes
22
826,00
23
J. L. Campos
46
1.010,00
24
S. I. Magalhães
34
708,00
25
P. R. Gonçalves
47
2.960,00
26
M. I. Machado
42
2.797,00
27
M. Paraná
32
1.001,00
28
U. V. Guimarães
29
2.315,00
29
E. M. Moreira
41
5.572,00
30
A. P. de Andrade
30
2.372,00
31
L. R de Souza
51
4.829,00
32
R. T. Moraes
23
1.826,00
33
J. Pilloto
20
540,00
34
F. C. Lopes
27
489,00
35
C. A. Meier
33
479,00
36
H. O. Silveira
22
1.904,00
37
K. D. Almeida
41
659,00
38
M. J. D. Colares
34
1.827,00
39
R. F. L. Silvério
24
472,00
40
M. N. Messias
20
640,00
At = Xmax – Xmin = 64 – 20 = 44 anos.
A amplitude total dos salários será a diferença entre Xmax = 5.572 e Xmin = 472, correspondente aos salários dos funcionários E. M. Moreira e R. F. L. Silvério.
At = Xmax – Xmin = 5.572 – 472 = 5.100 ou R$5.100,00
Medidas estatísticas de dispersão
O funcionário mais velho da empresa é o senhor R. S. Reis que tem 64 anos e os
mais novos são os jovens J. Piloto e M. N. Messias com 20 anos. Assim, Xmax = 64 e Xmin
= 20. A amplitude total será:
65
A variância
Se utilizarmos os desvios de um conjunto de dados em relação a um valor central
desse conjunto é razoável pensarmos em determinar a distância de cada dado em relação ao valor médio e depois somarmos essas distâncias. A distância de cada dado em
relação à média pode ser dada por (X – X).
A ideia de somarmos as distâncias é boa porque conseguimos com que todos os
dados sejam considerados ou, de outra forma, que a distância de todos os dados da
média componham a medida de dispersão. Mas esbarra em uma restrição importante
que é uma das características da média: a soma dos desvios em relação à média de um
conjunto de dados é sempre igual a zero.
Vamos verificar essa propriedade utilizando novamente três conjuntos simples
de dados: A = {2, 2, 2}, B= {1, 2, 3} e C = {0, 2, 4}. A média de cada um desses conjuntos
é igual a 2.
Assim, para o conjunto A, a soma dos desvios em relação à média produzirá:
(X – X) = {(2 – 2) + (2 – 2) + (2 – 2)} = 0 + 0 + 0 = 0
Para o conjunto B:
(X – X) = {(1 – 2) + (2 – 2) + (3 – 2)} = (–1) + 0 + 1 = 0
E para o conjunto C:
(X – X) = {(0 – 2) + (2 – 2) + (4 – 2)} = (–2) + 0 + 2 = 0
Estatística Aplicada às Ciências Sociais
Essa propriedade vale para qualquer conjunto de dados. Então para contornarmos esse problema mantendo a ideia de somar desvios em relação à média teremos
que encontrar uma forma que essa soma seja sempre positiva. Duas alternativas apresentam-se então: (i) a soma dos desvios em módulo e (ii) a soma dos quadrados dos
desvios.
66
Se tomarmos a média da soma dos desvios em módulo (de seus valores absolutos), definiremos uma medida de dispersão que é conhecida como desvio médio, que
embora resolva o problema apresentado não é uma medida muito usual. De qualquer
forma sua expressão pode ser dada por:
Desvio médio =
|x – X |
n
Essa medida é a média da somatória dos desvios em relação à média aritmética.
Ou seja, tomamos as distâncias de cada ponto até a média. Consideramos as distâncias
sem levar em consideração os sinais, por isso usamos o módulo. Somamos todos os
desvios em valor absoluto (em módulo) e depois dividimos por “n”, o que resulta na
média das distâncias ou desvios em relação à média aritmética, por isso essa medida é
denominada de desvio médio.
Os desvios médios dos conjuntos acima serão iguais a 0 para o conjunto A, 2 para
o conjunto B e 4 para o conjunto C. Esses resultados obedecem aos critérios estabelecidos para uma medida de dispersão, ou seja, conjuntos sem variabilidade (todos os
valores são iguais) têm medida de dispersão igual a zero, como é o caso do conjunto A
e conjuntos mais heterogêneos têm maior medida de variabilidade. O conjunto C tem
medida de variabilidade maior que B, que por sua vez tem medida maior do que A.
A outra forma de contornar o problema da soma dos desvios em relação a média
ser igual a zero é elevar o valor dos desvios ou distâncias ao quadrado. Dessa forma,
podemos encontrar a variância, definida como a média da soma dos quadrados dos
desvios em relação à média. Aqui vale a pena destacar uma diferença quando se trata
de dados provenientes de uma população ou de uma amostra. A média dos dados
da população é denotada por μ, enquanto a média dos dados provenientes de uma
amostra é X.
Assim, a variância mede a variabilidade média dos quadrados dos desvios dos
valores em torno da média e pode ser representada por VAR(X) ou σ2.
Vamos utilizar o quadrado porque, como vimos, a média tem sempre a propriedade que a soma dos desvios em torno dela ser é igual a zero, ou seja, Σ(X – μ) = 0. Dessa
forma, a variância populacional pode ser definida como:
2
= VAR (X) =
(X – )2
N
S2 = VAR (X) =
(X – X)2
n–1
Medidas estatísticas de dispersão
Na expressão acima N é o tamanho da população ou número de valores populacionais considerados. Quando tratamos de amostra em vez de população como no
caso acima, N é substituído por (n –1) e n é o tamanho da amostra. A justificativa de utilizarmos n – 1, e não N neste caso, será apresentada no capítulo referente a Estimação,
quando tratarmos de distribuições amostrais. Neste caso substituímos σ2 por S2. Então
para o caso de amostra teremos:
67
Uma forma alternativa de determinar o valor da variância, derivada da expressão
acima é dada por:
X2 – nX2
n–1
S2 = VAR (X) =
Estatística Aplicada às Ciências Sociais
Utilizando a fórmula acima podemos calcular a variância das idades através do
procedimento abaixo em que calculamos a média e a subtraímos dos valores de X:
68
N. de ordem
Idade
(X)
X–X
(X – X )2
1
49
15
225
2 401
2
48
14
196
2 304
3
64
30
900
4 096
4
37
3
9
1 369
5
42
8
64
1 764
6
40
6
36
1 600
7
21
–13
169
441
8
33
–1
1
1 089
9
39
5
25
1 521
10
42
8
64
1 764
11
39
5
25
1 521
12
32
–2
4
1 024
13
22
–12
144
484
14
21
–13
169
441
15
37
3
9
16
24
–10
100
576
17
28
–6
36
784
18
32
–2
4
1 024
19
31
–3
9
961
20
38
4
16
1 444
21
23
–11
121
529
22
22
–12
144
484
23
46
12
144
2 116
24
34
0
0
1 156
25
47
13
169
2 209
26
42
8
64
1 764
X2
1 369
N. de ordem
Idade
(X)
X–X
(X – X )2
27
32
–2
4
1 024
28
29
–5
25
841
29
41
7
49
1 681
30
30
–4
16
900
31
51
17
289
2 601
32
23
–11
121
529
33
20
–14
196
400
34
27
–7
49
729
1 089
35
33
–1
1
36
22
–12
144
484
37
41
7
49
1 681
38
34
0
0
1 156
39
24
–10
100
576
40
20
–14
196
400
X
X=
X2
X
1360
=
n
40
(X – X)2 =
1360
34
S2 = VAR (X) =
4086
(X – X)2
=
39
n–1
4 086
50 326
104,7692
Uma forma simplificada de calcularmos a variância de um conjunto de dados
amostrais pode ser realizada através da expressão:
S2 = VAR (X) =
X2 – nX2
n–1
Para o exemplo em consideração:
Variância para dados agrupados
A variância para dados agrupados pode ser determinada pela expressão:
S2 = VAR (X) =
(X – X)2f
n–1
Medidas estatísticas de dispersão
2
S2 = VAR (X) = X2 – nX2 = 50 326 – (40) (34 ) = 104,7692
39
n–1
69
onde f é a frequência relativa de cada classe, X o ponto médio de cada classe e X,
a média aritmética dos dados.
Tomando como exemplo a distribuição de frequências das idades dos funcionários da empresa ABC, temos:
Idade f
X
Xf
X-X
(X-X)2
(X-X)2f
[20,30) 14 25
350
–10,25 105,0625
[30,40) 14 35
490
–0,25
0,0625
0,875
[40,50) 10 45
450
9,75
95,0625
950,625
[50,60)
1
55
55
19,75
390,0625
390,0625
[60,70)
1
65
65
29,75
885,0625
885,0625
Total
40
1 470,875
( X – X) f = 3 697,50
Xf = 1410
X=
Xf
1410
= 35,25
=
n
40
S2 =
(X – X)2f
3 697,5
= 94,8077
=
n–1
39
Estatística Aplicada às Ciências Sociais
Nesse caso é importante observar algumas suposições realizadas. O ponto médio
da primeira classe, por exemplo, representa as idades dos 14 funcionários que têm
idades entre 20 e 30 anos, não incluídos os de 30 anos. Estamos, portanto, considerando que todos os 14 funcionários têm 25 anos. Ganha-se em síntese e perde-se detalhes. Com isso pode haver uma pequena distorção nos valores da média e da variância.
A variância para os dados brutos foi de 104,7692, enquanto para os dados organizados
em distribuição de frequências este valor foi calculado em 94,80769. Houve essa distorção principalmente em razão do valor extremo da idade. Mas, ainda assim, os resultados foram bastante razoáveis. Nesse caso, a consideração em relação aos outliers
passa a ter um papel importante, o que não ocorre para grandes amostras, em que tal
distorção praticamente desaparece.
70
Ocorre que, no geral, o cientista social só tem acesso a dados já agregados em
classes e raramente aos dados brutos, como nos casos das grandes pesquisas nacionais como o Censo e Pesquisa Nacional de Amostras Domiciliares (PNAD). Nesses casos
as pequenas distorções são inevitáveis.
Desvio padrão
Como a unidade da variância (S2) é sempre ao quadrado, a forma de representar
uma medida de dispersão na mesma unidade dos dados é calculando a raiz quadrada
da variância. Essa medida é chamada de desvio padrão, uma das medidas mais importantes da Estatística.
A expressão do desvio padrão é a raiz quadrada da variância conforme abaixo:
S = D.P(X) =
X2 – n X2
n–1
No exemplo acima, o desvio padrão para os dados brutos será igual a
S = 104,7692 =10,2357
Já para os dados organizados em distribuição de frequências, o valor do desvio
padrão sofrerá uma pequena distorção:
S = 94,8077 = 9,7369
A média tem um significado físico muito claro. Além de estar na mesma unidade das medidas, ela representa o centro de gravidade dos dados, que pode se alterar
com pequenas mudanças nos valores extremos da série de dados. Já a interpretação
física do desvio padrão não é tão clara, embora também esteja na mesma unidade dos
dados.
Coeficiente de variação
Mesmo o desvio padrão estando na mesma unidade dos dados ele não consegue
revelar a dimensionalidade desses dados. Um mesmo valor de desvio padrão pode
ser grande ou pequeno, dependendo da dimensionalidade. Vamos ilustrar esse fato
comparando a variabilidade entre três conjuntos de dados, explorando um pouco a
intuição.
Vamos supor que desejamos verificar qual entre três conjuntos de dados é o mais
homogêneo e qual é o mais heterogêneo. Tomaremos os conjuntos A = {1, 2, 3}, B ={11,
12, 13} e C ={111, 112, 113}. Vamos tentar identificar a heterogeneidade de cada um
deles de forma intuitiva.
Então o aparelho A faz uma medida que tem por resultado o valor 1m, repete-se a
medida e o valor observado agora é 2m e, finalmente, fazemos mais uma vez a medida
e o resultado foi 3m. A pergunta é: será que o aparelho está bem calibrado? A resposta
natural é: não. O aparelho erra muito cada vez que faz a medida.
Medidas estatísticas de dispersão
Vamos supor que essas sejam medidas de distância entre dois pontos, que serão
repetidas três vezes para cada um dos aparelhos de medir distância A, B e C.
71
Repetindo a experiência com o aparelho B observamos que o aparelho ainda erra.
Em três repetições o aparelho aponta para 11, 12 e 13 metros. Mas o erro é menor
do que o cometido anteriormente. Finalmente fazemos o mesmo para o aparelho C
e verificamos que o erro agora é bem pequeno em relação aos outros dois aparelhos.
Isso indica que a variabilidade do conjunto A é maior do que a do conjunto B, que por
sua vez é maior do que a do conjunto C. Logo, o conjunto A é mais heterogêneo que o
conjunto B que é mais heterogêneo que o conjunto C.
Vamos verificar se o desvio padrão é capaz de identificar essas diferenças. Vamos
usar a expressão do desvio padrão amostral, ele é calculado como a raiz quadrada da
variância amostral, isto é, o denominador será igual a n-1. Observando que n = 3 para
cada uma das amostras, temos:
(X – X)2
n–1
Calculando o desvio padrão da amostra A, que tem média igual a 2, teremos:
S=
(1 – 2)2 + (2 – 2)2 + (3 – 2)2 = 12 + 02 12 = 2 = 1 = 1
2
2
2
Repetindo o procedimento para a amostra B que tem média igual a 12, obtemos:
SA =
(11 – 12)2 + (12 – 12)2 + (13 – 12)2 = 1
2
O mesmo para a amostra C, que tem média igual a 112:
SA =
(111 – 112)2 + (112 – 112)2 + (113 – 112)2 = 1
2
Pudemos observar que, embora as amostras tenham homogeneidades diferentes, o valor do desvio padrão de cada uma delas é igual a 1. Ou seja, se as amostras
têm médias diferentes, o desvio padrão não é adequado para realizar tal comparação. Isso porque o seu cálculo não é sensível à dimensionalidade dos dados. A dimensionalidade diz respeito aos valores dos dados. O número 1 tem dimensionalidade um que corresponde à unidade (101), o número 10 tem dimensionalidade dois,
que corresponde à dezena (102) e o 100 tem dimensionalidade três que corresponde
à centena (103).
Estatística Aplicada às Ciências Sociais
SA =
72
Temos então que encontrar uma forma de padronizar os valores dos desvios padrões, calculados de forma a considerar a dimensionalidade dos dados.
Podemos fazer isso igualando a média a 100 e calculando a medida correspondente de dispersão. Igualamos a 100 para produzirmos valores de percentuais. Isso
pode ser feito através de uma regra de três simples e a nova medida será definida
como coeficiente de variação (C.V.):
X
S
–
–
100
C.V.
Dessa forma, o coeficiente de variação será definido pela fórmula abaixo:
C.V. = S . 100%
X
Observe que o coeficiente de variação é uma medida cuja unidade é o percentual.
Isso significa que ele passa também a ter uma interpretação física.
Vamos determinar o valor dos coeficientes de variação para cada um dos conjuntos de dados acima:
C.VA = S x 100 = (1/2). 100 = 50%
XA
C.VB = S x 100 = (1/12). 100 = 6,33%
XB
C.Vc = S x 100 = (1/112). 100 = 0,9%
Xc
Esses resultados confirmam a nossa intuição de que o conjunto A é o mais homogêneo e o conjunto C é o mais heterogêneo.
Em resumo, o desvio padrão tem várias utilidades em Estatística, uma delas é
comparar a variabilidade entre dois conjuntos que têm a mesma média. Ele é a raiz
quadrada da variância. Como o desvio padrão não tem um significado físico mais bem
definido, o seu valor será grande ou pequeno dependendo da dimensionalidade dos
dados.
Medidas estatísticas de dispersão
Um desvio padrão pode ser mínimo ou imenso dependendo da dimensão dos
dados que estamos tratando. Existe, no entanto, uma possibilidade de comparação da
variabilidade entre dois conjuntos padronizando o valor do desvio padrão pelo valor
da média do conjunto de dados. Essa nova medida é chamada de coeficiente de variação. Essas são as principais medidas de dispersão utilizadas na comparação de dados
provenientes de fenômenos sociais, desde que eles possam ser quantificados.
73
Texto complementar
A importância do desvio padrão
(COMISSÃO, 2009)
O Processo Seletivo Seriado (PSS) é a forma de seleção adotada pela Universidade Federal da Paraíba – UFPB, desde 1999, para ingresso em seus cursos de graduação [...]
Tanto no caso do candidato que faz as provas ano a ano como no caso daquele
que faz o conjunto de provas das três séries, são utilizadas as seguintes medidas:
Nota Bruta
Nota Padronizada
O que significam tais medidas?
Nota Bruta (NB)
A nota bruta é o número de pontos obtidos pelo candidato na prova de uma
determinada matéria. Tomemos, por exemplo, a matéria Matemática na prova referente à 1.ª série. Se o candidato obtiver 6 acertos, sua nota bruta, em Matemática,
será igual a 6.
NB = 6
Estatística Aplicada às Ciências Sociais
Nota Padronizada (NP)
74
No Ensino Fundamental e Médio, os professores corrigem as provas e fornecem
os resultados aos seus alunos em notas que, normalmente, variam numa escala de
0 (zero) a 10 (dez). São as chamadas “notas brutas”, que são facilmente entendidas
por todos.
Dessa forma, se um aluno disser que tirou 10 (dez) em História, saberemos que
ele acertou a prova toda. Por outro lado, se o mesmo aluno afirmar que tirou 5 (cinco)
em Biologia, imaginaremos que ele acertou a metade da prova.
Entretanto, chegada a hora do PSS, as notas brutas a que estamos acostumados cedem lugar às notas padronizadas. E aí os estudantes fazem muitas perguntas.
O que é uma nota padronizada? Como se faz para calculá-la? Por que não se usam as
tradicionais notas brutas no vestibular?
[...]
O Processo Seletivo Seriado é um exame de natureza classificatória. Assim, o
objetivo do sistema de avaliação numérica das provas é determinar a posição de um
candidato em relação aos demais. Para fazer essa comparação utilizando-se as notas
obtidas pelos candidatos nas diferentes provas, é necessário que se tenha a mesma
unidade de medida, comum às várias provas.
A unidade de medida que oferece maiores vantagens para a comparação da
posição de um candidato em relação aos outros, quando vários instrumentos de
medida (provas) são utilizados, é o chamado escore padrão.
O escore padrão ou escore padronizado indica a quantidade de unidades de
desvio padrão. O desvio padrão é uma medida estatística que indica a magnitude
de dispersão das notas em torno da sua média. Quando as notas são concentradas
em torno da média, o desvio padrão é pequeno. Quando as notas se distanciam
da média, o desvio padrão é grande. Qual a importância do desvio padrão? Exemplifiquemos: um candidato obteve 7 na prova de Matemática, que “teve” média 4
(quatro) e 7 (sete) na prova de Física, que também “teve” média 4 (quatro). Qual o 7
(sete) que vale mais? O de Matemática ou o de Física?
Muitos dirão que os dois sete valem a mesma coisa, mas isto não é verdade.
Vejamos o por quê.
A nota padronizada é, em síntese, uma transformação da nota bruta.
Como padronizar uma nota bruta?
Medidas estatísticas de dispersão
Imaginemos que na prova de Matemática, a maioria das notas esteja próxima
da média (desvio padrão pequeno) enquanto que, na de Física, as notas estejam
mais espalhadas em torno da média (desvio padrão grande). Nessas condições, pode-se concluir que o 7 de Matemática vale mais porque está situado acima de um
maior número de notas que o de Física.
75
A fórmula que permite calcular o escore padrão (EP) de um candidato i, numa
determinada matéria, é:
EP = NBi – NB
SX
Onde :
EP = escore padrão.
NBi = nota bruta obtida pelo candidato i, na prova de uma determinada
matéria.
NB = média das notas brutas obtidas pelos candidatos que se submeteram à
mesma prova.
Sx = desvio padrão das notas brutas da prova.
Apliquemos essa transformação ao exemplo citado no início dessa explicação.
Se a nota bruta do candidato foi 6, na prova de Matemática referente à 1.ª série, e a
média e o desvio padrão das notas brutas dessa prova foram, respectivamente, 4 e
2, o seu escore padrão será:
EP = 6 – 4 = 1
2
Esse resultado mostra que o candidato obteve uma unidade de desvio padrão
acima da média, na prova de Matemática da 1.ª série.
Estatística Aplicada às Ciências Sociais
A fim de se evitarem decimais e valores negativos, a Coperve transforma os
escores padrão obtidos em notas padronizadas. Estas têm média arbitrada em 500
e desvio padrão arbitrado em 100. Consequentemente, a nota padronizada (NP) do
candidato i , em qualquer matéria, será:
76
NP = 500 + 100 . NBi – NB
SX
No exemplo dado, a nota padronizada do candidato na matéria Matemática, na
prova da 1.ª série, será:
NP = 500 + 100 × 1 = 600
Essa nota indica que o candidato obteve 6(seis) desvios padrão na sua avaliação (6 × 100).
Considerando que as provas são aplicadas por série do Ensino Médio,
teremos:
Nota Padronizada 1 (NP1) – nota padronizada do candidato na prova da 1.ª
série de uma determinada matéria.
Nota Padronizada 2 (NP2) – nota padronizada do candidato na prova da 2.ª
série de uma determinada matéria.
Nota Padronizada 3 (NP3) – nota padronizada do candidato na prova da 3.ª
série de uma determinada matéria.
Nota Padronizada 4 (NP4) – nota padronizada representativa do desempenho do candidato na prova de Redação.
Observação: as notas padronizadas são calculadas levando em conta o desempenho de todos os candidatos que se submeteram à mesma prova, excluídos os
eliminados do Processo Seletivo, de modo que, em cada matéria, as notas padronizadas tenham a mesma média (500) e o mesmo desvio padrão (100).
As notas brutas e as notas padronizadas obtidas pelos candidatos, nas
avaliações referentes ao PSS 1 e 2, são divulgadas, por matéria, sem caráter
classificatório, após a correção das provas.
Como é feita a classificação final?
Após a correção das provas do PSS 3, calcula-se para cada candidato a Nota
Final (NF), por matéria. Essa será a média das notas padronizadas 1, 2 e 3 por ele
obtidas em cada matéria. A nota final do candidato na prova de Redação será igual
à sua nota padronizada 4.
Para um melhor entendimento, consideremos o seguinte exemplo, relativo a
um candidato que tenha obtido as notas padronizadas, por matéria, indicadas no
quadro a seguir:
Medidas estatísticas de dispersão
Para efeito da classificação final, é calculada a Média Final (MF) de cada candidato, efetuando-se a média aritmética de todas as suas notas finais, de modo que
a média final tenha uma casa decimal, desprezando-se as demais casas decimais
resultantes do cálculo.
77
Matéria
1.ª série
– NP1
Notas padronizadas
2.ª série 3.ª série Redação– NP2
– NP3
NP4
Nota
final
Português
544
640
637
-
607
Matemática
604
566
630
-
600
Química
634
718
721
-
691
Física
544
612
623
-
593
Biologia
480
460
515
-
485
História
750
806
823
-
793
Geografia
710
670
735
-
705
Inglês
805
715
805
-
775
-
-
-
675
675
Redação
A Nota Final em cada matéria é obtida efetuando-se a média aritmética das
notas padronizadas NP1, NP2 e NP3 obtidas na matéria. No caso de Redação, a Nota
Final será igual à nota padronizada 4 (NP4).
A Média Final é a média aritmética das Notas Finais:
(607+600+691+593+485+793+705+775+675) / 9 = 658,2.
Estatística Aplicada às Ciências Sociais
A classificação final é feita por curso, na ordem decrescente das médias finais
(MF), até o limite das vagas ofertadas. Havendo empate de médias finais, terá preferência, na ordem de classificação, o candidato com maior Nota Final em Língua
Portuguesa e Literatura Brasileira. Considerado o total de vagas oferecido pelo curso
e persistindo o empate na disputa pela última vaga, serão classificados todos os
candidatos que se encontrarem com igual Média Final.
78
Atividades
1. Os dados a seguir referem-se ao peso em gramas de 44 bebês recém-nascidos
em um período de 24 horas em um hospital de Brisbane na Austrália. Determine a média do peso dos bebês e verifique se os bebês podem ser considerados
como uma amostra homogênea.
3 837
3 380
3 430
3 428
3 334
3 294
3 480
4 162
3 554
2 576
3 116
3 630
3 838
3 208
3 428
3 406
3 625
3 521
3 783
3 402
2 208
3 746
3 345
3 500
1 745
3 523
3 034
3 736
2 846
2 902
2 184
3 370
3 166
2 635
3 300
3 692
3 520
3 920
2 383
2 121
3 150
3 866
3 542
3 278
2. Discuta a relação entre média, desvio padrão e coeficiente de variação.
3. Um outlier pode influenciar fortemente uma medida de variação, como influencia a média aritmética. Que procedimento deve-se fazer em uma análise de dados sociológicos que apresentam mais de um outlier?
Medidas estatísticas de dispersão
79
Download

Medidas estatísticas de dispersão