Padronização
Seja X1, ..., Xn uma amostra de uma variável com com média ̅ e desvio-padrão S. Então a variável Z, definida como
̅
, tem as seguintes propriedades:
a)
b)
c)
̅
( )
é uma variável adimensional.
Dizemos que a variável Z é uma variável padronizada, construída a partir de X.
Momentos
Definição 1: Seja
um conjunto de dados, definem-se:
a) momento amostral de ordem k dos dados ao valor:
∑
b) momento central amostral de ordem k dos dados ao valor:
dividir o somatório por (
e
∑
(
̅)
. Alguns autores preferem
).
Coeficiente de Assimetria
A Figura 1 traz histogramas estilizados de distribuições que diferem em relação à forma; mais especificamente, ao
tipo de assimetria.
Nosso objetivo é mensurar o grau de assimetria de um conjunto de dados de modo que possamos intuir o tipo de
assimetria e sua intensidade (o quanto de afasta de uma situação simétrica).
Na Tabela 1 estão dispostas sete observações de três variáveis hipotéticas. Todas têm a mesma média e mesmo
desvio-padrão amostral (pelo menos até a segunda casa decimal), no entanto, elas claramente apresentam
comportamentos diferentes. A distribuição dos dados da variável X apresenta assimetria positiva; de Y negativa e a
de W é simétrica. Iremos apresentar o desenvolvimento do Coeficiente de Assimetria utilizando esses dados.
1
Simetria
Assimetria Positiva
Assimetria Negativa
Numa distribuição
Numa distribuição assimétrica positiva, a Numa distribuição assimétrica negativa, a
perfeitamente simétrica, se tendência é que hajam desvios positivos
tendência é que hajam desvios negativos
existir um ponto a uma
muito maiores do que os negativos
muito maiores do que os positivos
distância a acima da média
existirá um outro ponto,
localizado à mesma
distância abaixo da média.
Figura 1: Histogramas estilizados de distribuições com diferentes tipos de assimetria
Tabela 1: Conjunto de dados hipotético
Observação
1
2
3
4
5
6
7
Média
Desvio-padrão
10
10,2
10,8
11
12
14
16
12
2,06
14
13,8
13,2
13
12
10
8
12
2,06
8,87
10
11
12
13
14
15,13
12
2,06
Obs: O desvio-padrão foi calculado como a raiz quadrada do segundo momento central amostral de ordem 2 dos dados.
A intuição que norteia a construção do Coeficiente de Assimetria vem dos histogramas da Figura 1. Os valores a e b
indicam desvios em relação à média amostral. Na Tabela 2, apresentamos esses desvios para os dados da Tabela 1.
Note que:
a) para a variável X, há mais desvios negativos, no entanto, de magnitude menor do que os positivos;
b) para a variável Y, ocorre o oposto, há mais desvios positivos, no entanto, de magnitude menor do que os
negativos;
c) em W, para cada desvio negativo, existe um positivo com o mesmo módulo.
Poderíamos, então, propor o cálculo da média dos desvios. Esperaríamos que os sinais dos desvios de maior
magnitude predominassem e indicassem o tipo de assimetria presente nos dados. No entanto, pode-se provar que a
soma dos desvios em relação á média amostral sempre será zero. Para eliminar esse problema, e ainda preservar os
sinais dos desvios, poderíamos elevá-lo a qualquer potência ímpar e então calcular sua média. A Tabela 3 descreve
essa operação utilizando-se a potência 3.
2
Tabela 2: Desvios em relação a média dos dados da Tabela 1.
̅
1
2
3
4
5
6
7
Média
DP
10
10,2
10,8
11
12
14
16
12
2,06
̅
-2
-1,8
-1,2
-1
0
2
4
14
13,8
13,2
13
12
10
8
12
2,06
2
1,8
1,2
1
0
-2
-4
8,87
10
11
12
13
14
15,1
12
2,06
̅
-3,13
-2
-1
0
1
2
3,13
Os valores das médias dos desvios ao cubo para X, Y e W são, respectivamente, 7,92; -7,92 e 0. Notem que o sinal
indica o tipo de assimetria presente nos dados e que esses valores correspondem ao momento central amostral de
ordem 3. Em geral, os momentos
, sendo
um número ímpar podem ser utilizados como indicadores do tipo
de assimetria presente nos dados.
Os momentos
, no entanto, têm um inconveniente. Eles dependem da unidade de medida dos dados. Imagine
uma amostra de preços em dólares convertida para reais. Obviamente nada mudou em termos da assimetria,
(
) (
)
(
)
todavia, os terceiros momentos amostrais não irão coincidir, já que
Tabela 3: Desvios em relação a média dos dados da Tabela 1.
̅
1
2
3
4
5
6
7
Média
DP
10
10,2
10,8
11
12
14
16
12
2,06
-2
-1,8
-1,2
-1
0
2
4
(
̅)
-8
-5,83
-1,73
-1
0
8
64
7,92
̅
14
13,8
13,2
13
12
10
8
12
2,06
2
1,8
1,2
1
0
-2
-4
(
̅)
8
5,832
1,728
1
0
-8
-64
-7,92
̅
8,87
10
11
12
13
14
15,1
12
2,06
-3,1
-2
-1
0
1
2
3,13
(
̅)
-30,66
-8
-1
0
1
8
30,66
0
Um modo de contornar esse problema é refazer os cálculos utilizando-se os dados padronizados. A Tabela 4
apresenta essas contas. Agora, mesmo que mudemos a escala de uma coluna o terceiro momento amostral da
variável padronizada não sofrerá alterações.
3
Tabela 4: Desvios em relação a média dos dados da Tabela 1, dados padronizados.
1
2
3
4
5
6
7
Média
DP
10
10,2
10,8
11
12
14
16
12
2,06
Definição 2: Seja
-0,97
-0,87
-0,58
-0,49
0,00
0,97
1,94
-0,92
-0,67
-0,20
-0,11
0,00
0,92
7,33
0,91
14,00
13,80
13,20
13,00
12,00
10,00
8
12
2,06
0,97
0,87
0,58
0,49
0,00
-0,97
-1,9
̅
um conjunto de dados e
√
0,92
0,67
0,20
0,11
0,00
-0,92
-7,3
-0,91
,
8,87
10,00
11,00
12,00
13,00
14,00
15,1
12
2,06
-1,52
-0,97
-0,49
0,00
0,49
0,97
1,52
-3,53
-0,92
-0,12
0,00
0,12
0,92
3,53
0
. Define-se o Coeficiente de
Assimetria (Amostral) dos dados por
∑
Alternativamente,
pode ser reescrito como
∑
(√
)
Em resumo temos:
a) se a distribuição é assimétrica positiva ⇒
b) se a distribuição é assimétrica negativa ⇒
c) se a distribuição é (perfeitamente) simétrica ⇒
4
Coeficiente de Curtose
A Figura 2 ilustra as funções densidade de probabilidades associadas a duas distribuições, ambas com média zero,
desvio-padrão um e simétricas; apesar disso, as distribuições diferem bastante.
A Figura 3 destaca o comportamento de uma das caudas dessas distribuições. Note que, em relação à f.d.p. de Y
(vermelha), a f.d.p. de X (azul) aproxima-se mais rapidamente de zero. Isso sugere que um conjunto de dados gerado
por Y apresentaria um número maior de observações distantes do centro da distribuição do que um conjunto de
dados gerados por X. Uma vez que X e Y possuem mesmas médias e variâncias, podemos afirmar que a distribuição
de Y possui caudas mais pesadas (maior curtose) do que a de X.
Voltando aos conjuntos de dados gerados por X e Y, seria de se esperar que os momentos centrais de ordem par
(superior a 2, uma vez que as variâncias são iguais) de Y fossem superiores aos de X, como um efeito direto da
quantidade de desvios de maior magnitude (lembre que os momentos nada mais são do que médias e que as médias
sofrem grande influência de valores muito elevados). Esse é o raciocínio básico que leva à definição de um
coeficiente de curtose.
Figura 2: F.d.p. de duas distribuições
5
Figura 3: Destaque da cauda esquerda dos histogramas representados na Figura2.
Definição 3: Seja
̅
um conjunto de dados e
√
,
. Define-se o Coeficiente de Curtose
(Amostral) dos dados por
∑
Alternativamente,
pode ser reescrito como
∑
(√
)
Os coeficientes de assimetria e curtose são utilizados para verificar se um conjunto de dados podem ter sido gerados
a partir de um modelo normal. Assim se, um conjunto de dados foi de fato gerado a partir de uma normal
esperaríamos ter próximo a zero e próximo a 3.
A partir disso, foi proposta uma alteração no coeficiente de curtose para facilitar sua interpretação.
6
Definição 7: Define-se o coeficiente Excesso de Curtose por
Temos que
a) se
b) se
c) se
dizemos que a distribuição tem caudas mais leves do que a normal (platicúrtica),
dizemos que a distribuição tem caudas com o mesmo peso das de uma normal (mesocúrtica) e
dizemos que a distribuição tem caudas mais pesadas do que a normal (leptocúrtica)
7