Boxplot Os métodos de representação de variáveis objetivam descrever o comportamento das variáveis e/ou sua estrutura de dependência. Os métodos a serem apresentados são adaptações de métodos utilizados na representação de dados uni e bivariados. 1 Gráficos de caixa ou box plots Podemos ter uma boa idéia sobre o comportamento de uma variável analisando seus valores mı́nimo (Q0 ), máximo (Q4 ) e quartis (Q1 , Q2 e Q3 ). Dessas medidas, extraı́mos as seguintes informações a. Tendência central: expressa pelo segundo quartil (Q2 ), que é a própria mediana. b. Variabilidade: pode-se calcular a amplitude dos dados (Q4 − Q0 ) e o intervalo interquartil (dq = Q3 − Q1 ), por exemplo. c. Assimetria: numa distribuição simétrica positiva espera-se que Q3 − Q2 > Q2 − Q1 e, caso inexistam valores aberrantes que Q4 − Q3 > Q1 − Q0 . Numa distribuição assimétrica negativa, inverte-se o sinal das desigualdades. O coeficiente de Bowley 1 pode ser utilizado para medir o grau de assimetria de uma distribuição; ele é dado por Q3 + Q1 − 2Q2 (Q3 − Q2 ) − (Q2 − Q1 ) B= = . Q3 − Q1 Q3 − Q1 Temos que −1 ≤ B ≤ 1; para interpretação desse coeficiente, note que se Q3 = Q2 temos a maior evidência possı́vel de assimetria à direita que pode ser obtida a partir dos quartis, nesse caso, B = −1; se Q2 = Q1 , temos a maior evidência de assimetria positiva e caso a distribuição seja perfeitamente simétrica, temos (Q3 − Q2 ) = (Q2 − Q1 ), o que implica em B = 02 d. Valores aberrantes: observações maiores do que Q3 + 1, 5dq ou inferiores a Q1 − 1, 5dq são suspeitas de serem valores aberrantes. Essa regra foi construı́da com base na distribuição normal3 , logo, sua aplicação a distribuições assimétricas pode levar à identificação de um número elevado de valores suspeitos. 1 Ver Zar (1996), por exemplo. Cabe ressaltar que o fato de B ser zero não implica em simetria da distribuição. 3 Se a variável seguir uma distrinuição normal, espera-se que 99,3% das observações estejam entre Q1 − 1, 5dq e Q3 + 1, 5dq . 2 1 A Q0 Q1 Q2 Q3 Q4 * * * B Q0 Q1 Q2 Q3 Q4 Figura 1: Gráficos de caixa A Figura 1 ilustra a construção de box plots. Tome, inicialmente, a figura indicada por A. Os valores da variável estão representados no eixo horizontal. Q1 e Q3 definem os limites da caixa; Q2 é a linha que divide a caixa em duas. A partir da caixa são estendidas linhas que terminam nos valores mı́nimo e máximo. Já a figura indexada por B traz uma variação do gráfico de caixas. Nesse caso há valores que superam os limites descritos no item (d). Tais pontos estão indicados por asteriscos. Nesse caso a linha contı́nua foi estendida até a última observação que não foi considerada suspeita. A Figura 2 traz o gráfico de caixas para as variáveis do exemplo. 1500 1000 500 0 1 X 1 2 X 2 3 X 3 4 X 4 Figura 2: Gráficos de caixa 2 Gráfico matriz O gráfico matriz é uma representação da matriz de correlações. Trata-se da disposição matricial de todos os diagramas de dispersão das variáveis envolvidas no problema. A Figura 3 é o gráfico matriz dos dados do exemplo. Note que na linha i, coluna j temos o diagrama de dispersão com Xi no eixo das ordenadas e Xj nas abscissas. Analisando esse 2 gráfico, notamos uma forte correlação entre X3 e X4 e uma fraca correlação linear entre X1 e X2 . Podemos perceber também que a relação entre X1 e X3 não é propriamente linear. 600 800 1000 1200 1400 1600 0 200 400 600 800 40 30 X1 20 10 0 1600 1400 1200 X2 1000 800 600 1200 1000 800 X3 600 400 200 0 800 600 X4 400 200 0 0 10 20 30 40 0 200 400 600 800 10001200 Figura 3: Gráfico matriz Algumas alterações podem ser introduzidas nos gráficos matrizes a fim de facilitar sua interpretação. Por exemplo, a Figura 4 é uma modificação da Figura 3, na qual foram introduzidos os histogramas de cada variável (diagonal principal) e a linha de tendência. Figura 4: Gráfico matriz 3