Boxplot
Os métodos de representação de variáveis objetivam descrever o comportamento das
variáveis e/ou sua estrutura de dependência. Os métodos a serem apresentados são
adaptações de métodos utilizados na representação de dados uni e bivariados.
1
Gráficos de caixa ou box plots
Podemos ter uma boa idéia sobre o comportamento de uma variável analisando seus
valores mı́nimo (Q0 ), máximo (Q4 ) e quartis (Q1 , Q2 e Q3 ). Dessas medidas, extraı́mos
as seguintes informações
a. Tendência central: expressa pelo segundo quartil (Q2 ), que é a própria mediana.
b. Variabilidade: pode-se calcular a amplitude dos dados (Q4 − Q0 ) e o intervalo interquartil (dq = Q3 − Q1 ), por exemplo.
c. Assimetria: numa distribuição simétrica positiva espera-se que Q3 − Q2 > Q2 − Q1
e, caso inexistam valores aberrantes que Q4 − Q3 > Q1 − Q0 . Numa distribuição
assimétrica negativa, inverte-se o sinal das desigualdades. O coeficiente de Bowley
1
pode ser utilizado para medir o grau de assimetria de uma distribuição; ele é dado
por
Q3 + Q1 − 2Q2
(Q3 − Q2 ) − (Q2 − Q1 )
B=
=
.
Q3 − Q1
Q3 − Q1
Temos que −1 ≤ B ≤ 1; para interpretação desse coeficiente, note que se Q3 = Q2
temos a maior evidência possı́vel de assimetria à direita que pode ser obtida a partir
dos quartis, nesse caso, B = −1; se Q2 = Q1 , temos a maior evidência de assimetria
positiva e caso a distribuição seja perfeitamente simétrica, temos (Q3 − Q2 ) = (Q2 −
Q1 ), o que implica em B = 02
d. Valores aberrantes: observações maiores do que Q3 + 1, 5dq ou inferiores a Q1 − 1, 5dq
são suspeitas de serem valores aberrantes. Essa regra foi construı́da com base na
distribuição normal3 , logo, sua aplicação a distribuições assimétricas pode levar à
identificação de um número elevado de valores suspeitos.
1
Ver Zar (1996), por exemplo.
Cabe ressaltar que o fato de B ser zero não implica em simetria da distribuição.
3
Se a variável seguir uma distrinuição normal, espera-se que 99,3% das observações estejam entre
Q1 − 1, 5dq e Q3 + 1, 5dq .
2
1
A
Q0
Q1
Q2
Q3
Q4
* *
*
B
Q0
Q1 Q2 Q3
Q4
Figura 1: Gráficos de caixa
A Figura 1 ilustra a construção de box plots. Tome, inicialmente, a figura indicada
por A. Os valores da variável estão representados no eixo horizontal. Q1 e Q3 definem os
limites da caixa; Q2 é a linha que divide a caixa em duas. A partir da caixa são estendidas
linhas que terminam nos valores mı́nimo e máximo. Já a figura indexada por B traz uma
variação do gráfico de caixas. Nesse caso há valores que superam os limites descritos
no item (d). Tais pontos estão indicados por asteriscos. Nesse caso a linha contı́nua foi
estendida até a última observação que não foi considerada suspeita.
A Figura 2 traz o gráfico de caixas para as variáveis do exemplo.
1500
1000
500
0
1
X
1
2
X
2
3
X
3
4
X
4
Figura 2: Gráficos de caixa
2
Gráfico matriz
O gráfico matriz é uma representação da matriz de correlações. Trata-se da disposição
matricial de todos os diagramas de dispersão das variáveis envolvidas no problema. A
Figura 3 é o gráfico matriz dos dados do exemplo. Note que na linha i, coluna j temos o
diagrama de dispersão com Xi no eixo das ordenadas e Xj nas abscissas. Analisando esse
2
gráfico, notamos uma forte correlação entre X3 e X4 e uma fraca correlação linear entre
X1 e X2 . Podemos perceber também que a relação entre X1 e X3 não é propriamente
linear.
600
800 1000 1200 1400 1600
0
200
400
600
800
40
30
X1
20
10
0
1600
1400
1200
X2
1000
800
600
1200
1000
800
X3
600
400
200
0
800
600
X4
400
200
0
0
10
20
30
40
0
200 400 600 800 10001200
Figura 3: Gráfico matriz
Algumas alterações podem ser introduzidas nos gráficos matrizes a fim de facilitar sua
interpretação. Por exemplo, a Figura 4 é uma modificação da Figura 3, na qual foram
introduzidos os histogramas de cada variável (diagonal principal) e a linha de tendência.
Figura 4: Gráfico matriz
3
Download

Boxplot - Insper