Análise Exploratória de
Dados - 2006
R - LIG -07
Resultados da Prova 1 turma MAA: 20 alunos - 2005
summary(notas)
Min. 1st Qu. Median
3.60 4.80 5.70
Mean 3rd Qu.
5.69
6.30
Max.
8.20
Resultados da Prova 1 turma MAA: 38
alunos - 2006
Min.  1,8
Q1  5,35
Q2 6,75
Q3 8,075
Max. 9,5
Média 6,45
Desvio-padrão2,13
Objetivos



Definir e construir gráficos de
quantis.
Trabalhar com transformações de
variáveis buscando “simetrizar” os
dados.
Definir medidas de assimetria.
Gráficos de quantis



É possível construir uma representação
gráfica dos quantis de uma distribuição de
freqüências, chamada gráfico de quantis.
No eixo das abscissas colocamos os
valores de p e no eixo das ordenadas os
valores de q(p).
Depois, unimos os pontos obtidos por
segmentos de retas, para que se possa
obter q(p) para todo p.
Gráficos





de quantis: exemplo
Considere os dados sobre os 30
municípios mais populosos do Brasil
em dados2bm.txt.
dados=read.table(“http://www.im.ufrj.br/~flavia/
aed06/dados2bm.txt”,header=T)
Defina o vetor de valores de p da
seguinte forma:
prop=c(0:10)
prop=prop/10
Gráficos




de quantis: exemplo
Calcule os quantis correspondentes aos
valores em prop para os tamanhos das
populações:
quantis=quantile(dados$pop10mil,prop)
Finalmente, trace o gráfico usando a
função plot:
plot(prop,quantis,main=“Gráfico de
quantis dos dados sobre
população”,sub=“30 maiores municípios
brasileiros”)
volta
Para que os pontos sejam unidos por segmentos, insira o
argumento type=“l” na função plot.
Para que ambos pontos e linhas entre pontos apareçam no gráfico,
insira o argumento type=“b” na função plot.
Gráficos de quantis (cont.)


O gráfico de quantis pode ser útil para
verificar se a distribuição dos dados é
simétrica (ou aproximadamente
simétrica).
Se os dados forem aproximadamente
simétricos, os pontos no topo superior
direito do gráfico de quantis comportamse como os pontos do canto inferior
esquerdo.
Gráficos de quantis (cont.)


Se os dados forem assimétricos à direita,
os pontos do topo superior direito são
mais inclinados do que os pontos no canto
inferior esquerdo.
No exemplo anterior, claramente
percebemos uma assimetria positiva.
Gráficos de quantis: exemplo


Vejamos um exemplo com dados
aproximadamente simétricos.
source(“http://www.im.ufrj.br/~flavia/aed
06/exemplo2a7.txt”)
volta
Gráficos de quantis: exemplo


Vejamos um exemplo de conjunto de
dados com assimetria negativa.
source(“http://www.im.ufrj.br/~flavia/aed
06/exemplo3a7.txt”)
volta
Exercício 1

Construa o gráfico
de quantis, para os
dados do exemplo
13: emissão de
dióxido de
Carbono.
volta
Transformações

Diversas técnicas estatísticas são
baseadas na suposição de que os
dados provêm de uma distribuição
normal ou, pelo menos,
aproximadamente simétrica.
Transformações

Porém, em muitas situações, os
dados em que estamos interessados
apresentam assimetria e/ou podem
conter valores atípicos.
Transformações (cont.)


Existem métodos estatísticos que são
desenvolvidos para dados não
normais.
Porém, se quisermos utilizar algum
método para dados normais, quando os
dados não parecem ter esse tipo de
comportamento, o que se pode fazer é
uma transformação desses dados
visando a simetrização .
Transformações (cont.)

Uma família de transformações
freqüentemente explorada é
 x p , se p  0

p
x  ln( x), se p  0
  x p , se p  0

Normalmente, o que se faz é experimentar valores
de p na seqüência ...,-3,-2,-1,-1/2,-1/3,-1/4,0,1/4,
1/3,1/2,1,2,3,...
Transformações (cont.)


Para cada valor de p construímos
gráficos apropriados (histogramas,
boxplots, quantis,...) para os dados
originais e transformados, de forma
a poder escolher o valor de p
apropriado.
Para dados positivos, a distribuição é
geralmente assimétrica à direita.
Transformações (cont.)


Para essas distribuições, a
transformação sugerida com 0<p<1
é apropriada, pois valores grandes
de x decrescem mais, relativamente
a valores pequenos.
Para distribuições assimétricas à
esquerda experimente valores de p
maiores que 1.
Dados sobre emissão de
dióxido de carbono


Vimos que a distribuição das
emissões de dióxido de carbono é
bastante assimétrica à direita.
Proponha uma distribuição que torne
os dados aproximadamente
simétricos.
Continuação do exemplo
Pela sugestão anterior, devemos buscar por um valor de p que
esteja entre 0 e 1.
Aqui, teríamos problema com a transformação logarítmica,
pois há uma observação com emissão 0.
Na figura a seguir, foi solicitado um boxplot para valores de p
que variaram da seguinte forma: 1/2,1/3,1/4,1/5, 1/6 e 1/7.
Continuação do exemplo


É possível verificar, a partir da figura
anterior, que os valores de p entre
1/5 e ¼ são os que resultaram numa
distribuição aproximadamente
simétrica.
Podemos continuar e escolher um
valor de p entre 1/5 e ¼, por
exemplo, (1/5+1/4)/2.
Exercício 2

Analise a distribuição dos dados
sobre notas em Estatística
(dados3bm.txt) quanto à assimetria,
construindo um gráfico de quantis
para estes dados.
Exercício 2 (conclusão)


Pelo gráfico de quantis dos dados
sobre notas em Estatística, podemos
perceber que a distribuição é
aproximadamente simétrica.
Isto pode ser confirmado pelo
boxplot e pelo histograma das notas.
Exercício 3


Análise a forma da distribuição da
variável densidade demográfica em
dados sobre o Brasil (dados1bm.txt).
Proponha uma transformação
buscando tornar a distribuição
aproximadamente simétrica.
Exercicio 3(cont.)

Construindo o boxplot de densidade
demográfica, percebe-se,
claramente, forte assimetria positiva.
Transformações


Como os dados são todos positivos,
podemos começar tentando a
transformação logarítmica.
boxplot(log(dados$dd))
Exercício 4



Trabalhe com a base de dados sobre
veículos.
Para cada variável entre preço,
tamanho e motor, analise as
distribuições quanto à assimetria.
Nos casos onde há assimetria,
proponha, se possível, uma
transformação de simetrização.
Leitura e organização dos dados

dados=read.table(“http://www.im.ufrj.br/~flavia/aed06/da
dos7bm.txt”,header=T)
Continuação


É possível verificar que a distribuição
da variável preço apresenta
assimetria positiva.
Tente a transformação logarítmica,
pois os preços são todos positivos.
Exercício 5




Considere a variável CO(gás
carbônico nos dados sobre poluição
(dados4bm.txt).
Calcule as principais medidas de
posição e dispersão.
Construa um histograma, ramo-efolhas e boxplot.
Comente sobre a forma da
distribuição desta variável.
dados=read.table(”http://www.im.ufrj.br/~flavia/
aed06/dados4bm.txt",header=T)
names(dados)
[1] "data" "CO" "O3" "temp" "umid"
summary(dados$CO)
Min. 1st Qu. Median Mean 3rd Qu. Max.
4.700 6.300 7.200 7.464 8.025 12.500
sd(dados$CO)
range(dados$CO)
IQR(dados$CO)
[1] 1.543912
[1] 4.7 12.5
[1] 1.725
Ramo-e-folhas
4 | 77
5 | 12
5 | 55677789
6 | 1111122222222233333444444
6 | 5666677777899999999
7 | 00122233444
7 | 5566777778888899999999
8 | 012334
8 | 55678999
9 | 0114
9 | 557
10 | 1333
10 | 8
11 | 4
11 | 69
12 | 0
12 | 5
Forma da distribuição



Os dados apresentam assimetria
positiva não muito acentuada.
Verifique como fica a distribuição na
escala logarítmica desta variável.
Repita esta análise uni-variada para
as outras variáveis dos dados sobre
poluição (ozônio, umidade,
temperatura).
Medidas de assimetria
1. Coeficiente de assimetria de Pearson:
3( x  med )
sk P 
s
média
desvio-padrão
mediana
Medidas de assimetria

Uma outra media
de assimetria é
dada por:
sk 
1
n
m
 ( x  x)
3
i
i 1
s3
se houver simetria
sk  0,

sk  0, se houver assimetria à direita
sk  0, se houver assimetria à esquerda

o mesmo vale para skP
Calcular as medidas de assimetria para os
exemplos trabalhados no início da aula

Exemplo 1: dados sobre as
populações dos 30 maiores
municípios brasileiros.
> skp=3*(mean(dados[,2])-median(dados[,2]))/sd(dados[,2])
> skp
[1] 0.9827185
continuação

scubo=0

for (i in 1:30){scubo=scubo+(dados[i,2]-mean(dados[,2]))^3}




> scubo=scubo/30
> sk=scubo/(sd(dados[,2])^3)
> sk
[1] 3.393688
Como confirmado, ambas apresentam valor maior que zero indicando
assimetria à direita.
Fig. Ex1.
Exemplo 2:

Lembre que o segundo exemplo ilustrou
dados simétricos gerados artificialmente
no vetor x. (exemplo2a7.txt)
> skp=3*(mean(x)-median(x))/sd(x)
> skp
[1] 0.071745
> scubo=0
> for (i in 1:1000){scubo=scubo+(x[i]-mean(x))^3}
> scubo=scubo/n
> sk=scubo/(sd(x)^3)
> sk
[1] -0.0001131420
Conforme o esperado, ambos são
aproximadamente zero.
Fig. Ex2.
Exemplo 3:

O terceiro exemplo ilustrou dados com
assimetria negativa gerados
artificialmente no vetor x.
(exemplo3a7.txt)
skp=3*(mean(x)-median(x))/sd(x)
> skp
[1] -0.6805239
> scubo=0
> for (i in 1:100){scubo=scubo+(x[i]-mean(x))^3}
> scubo=scubo/100
> sk=scubo/(sd(x)^3)
> sk
Conforme o esperado, ambos são
[1] -7.27931
menores que zero.
Fig. Ex3.
Exemplo 4: medidas de assimetria para
emissões de dióxido de carbono
> x=dados$emissao
> skp=3*(mean(x)-median(x))/sd(x)
> skp
[1] 1.348357
> scubo=0
> for (i in 1:72){scubo=scubo+(x[i]mean(x))^3}
> scubo=scubo/72
> sk=scubo/(sd(x)^3)
Como esperado, ambos são
> sk
maiores que zero.
[1] 2.349014
Figura ex4.
Medidas de achatamento ou curtose
Na figura a seguir temos duas distribuições de freqüências
com mesma média, mesma variância e simétricas.
Apesar das distribuições apresentarem a mesma
média, mesma variância e simetria, verifica-se
que na vizinhança da média elas diferem quanto às
freqüências, uma distribuição apresentando
valores maiores.
Dizemos que essas distribuições diferem quanto
a um novo aspecto conhecido como
“achatamento” ou curtose.
Medida de curtose

Uma medida usada para avaliar o grau de
achatamento de uma distribuição de
freqüências é dada por:
k
1
n
n

( xi  x) 4
i 1
s
4
, onde s é o desvio - padrão.
Medida de curtose



Se k=3, dizemos que a distribuição é
mesocúrtica.
Se k<3, dizemos que a distribuição é
platicúrtica (mais achatada).
Se k>3, dizemos que a distribuição é
leptocúrtica.
Exemplo: Calcular a medida de curtose para
os dados sobre emissões.
s4=0
for (i in 1:72){s4=s4+(dados$emissao[i]-mean(dados$emissao))^4}
s4=s4/72
k=s4/(sd(dados$emissao)^4)
k
9.19315
Como k>3, temos uma distribuição leptocúrtica.
A curtose para dados provenientes de uma distribuição normal
(curva em forma de sino) é aproximadamente igual a 3, pois a
Curtose de uma distribuição normal é 3.
Uma distribuição normal é a referência para uma distribuição
mesocúrtica.
Download

Análise Exploratória de Dados