Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Aula 14: Análise Exploratória de Dados
SER-202 Estatística: Aplicações ao Sensoriamento Remoto
Thiago S. F. Silva [email protected]
25/04/2013
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
1 Pra que serve análise exploratória?
2 Codificação e organização de dados
3 Estatística Descritiva: medidas de tendência central e dispersão
4 Análise Gráfica
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Análise Exploratória de Dados (AED)
Você iria a um encontro às escuras?
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Análise Exploratória de Dados (AED)
Você iria a um encontro às escuras?
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Análise Exploratória de Dados (AED)
É essencial ficar “íntimo” dos dados antes de qualquer análise
Você já possui um modelo conceitual (né?)
Será que seus dados se conformam à esse modelo?
Será que seus dados foram coletados corretamente?
Será que seus dados foram registrados corretamente?
Será . . . ?
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Análise Exploratória de Dados (AED)
É essencial ficar “íntimo” dos dados antes de qualquer análise
Você já possui um modelo conceitual (né?)
Será que seus dados se conformam à esse modelo?
Será que seus dados foram coletados corretamente?
Será que seus dados foram registrados corretamente?
Será . . . ?
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Análise Exploratória de Dados (AED)
É essencial ficar “íntimo” dos dados antes de qualquer análise
Você já possui um modelo conceitual (né?)
Será que seus dados se conformam à esse modelo?
Será que seus dados foram coletados corretamente?
Será que seus dados foram registrados corretamente?
Será . . . ?
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Análise Exploratória de Dados (AED)
É essencial ficar “íntimo” dos dados antes de qualquer análise
Você já possui um modelo conceitual (né?)
Será que seus dados se conformam à esse modelo?
Será que seus dados foram coletados corretamente?
Será que seus dados foram registrados corretamente?
Será . . . ?
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Análise Exploratória de Dados (AED)
É essencial ficar “íntimo” dos dados antes de qualquer análise
Você já possui um modelo conceitual (né?)
Será que seus dados se conformam à esse modelo?
Será que seus dados foram coletados corretamente?
Será que seus dados foram registrados corretamente?
Será . . . ?
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Análise Exploratória de Dados (AED)
É essencial ficar “íntimo” dos dados antes de qualquer análise
Você já possui um modelo conceitual (né?)
Será que seus dados se conformam à esse modelo?
Será que seus dados foram coletados corretamente?
Será que seus dados foram registrados corretamente?
Será . . . ?
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Análise Exploratória de Dados (AED)
summary(m1)
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
Call:
lm(formula = y ~ x)
Residuals:
Min
1Q Median
-6.294 -2.268 -0.174
3Q
1.851
Max
7.184
Coefficients:
Estimate Std. Error t value
(Intercept) -0.0424
0.7910
-0.05
x
1.0731
0.0369
29.05
Pr(>|t|)
(Intercept)
0.96
x
<2e-16 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 2.92 on 38 degrees of freedom
Multiple R-squared: 0.957, Adjusted R-squared: 0.956
F-statistic: 844 on 1 and 38 DF, p-value: <2e-16
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Análise Exploratória de Dados (AED)
20
0
10
y
30
40
x <- c(rnorm(20,5,1),rnorm(20,30,1))
y <- x + rnorm(40,0,3)
5
10
Thiago S. F. Silva [email protected]
15
20
25
30
x
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Análise Exploratória de Dados (AED)
summary(m2)
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
Call:
lm(formula = y2 ~ x2)
Residuals:
Min
1Q Median
-273.1 -219.7 -72.5
3Q
210.6
Max
488.1
Coefficients:
Estimate Std. Error t value
(Intercept)
271.28
34.39
7.89
x2
1.18
2.97
0.40
Pr(>|t|)
(Intercept) 3.2e-10 ***
x2
0.69
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 243 on 48 degrees of freedom
Multiple R-squared: 0.00331, Adjusted R-squared: -0.0175
F-statistic: 0.159 on 1 and 48 DF, p-value: 0.692
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Análise Exploratória de Dados (AED)
400
0
200
y2
600
x2 <- runif(50,-20,20)
y2 <- 2 + 3*x2 + (2*x22 ) + rnorm(50, 0, 3)
−20
−10
Thiago S. F. Silva [email protected]
0
10
20
x2
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Análise Exploratória de Dados (AED)
"O Quarteto de Anscombe"
Anscombe, F.J., 1973. Graphs in Statistical Analysis. The American Statistician 27,
17–21.
m1 <- lm(y1 ~ x1, data = ans)
m1$coefficients
m3 <- lm(y3 ~ x3, data = ans)
m3$coefficients
## (Intercept)
##
3.0001
## (Intercept)
##
3.0025
x1
0.5001
x3
0.4997
m2 <- lm(y2 ~ x2, data = ans)
m2$coefficients
m4 <- lm(y4 ~ x4, data = ans)
m4$coefficients
## (Intercept)
##
3.001
## (Intercept)
##
3.0017
x2
0.500
Thiago S. F. Silva [email protected]
x4
0.4999
Aula 14: Análise Exploratória de Dados
4
6
5
6
8
10
ans$y3
8
7
ans$y1
9
10
12
11
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
4
6
8
10
12
14
4
6
8
10
12
14
ans$x3
ans$y4
8
6
5
6
4
3
ans$y2
7
10
8
12
9
ans$x1
4
6
8
10
12
14
ans$x2
Thiago S. F. Silva [email protected]
8
10
12
14
16
ans$x4
Aula 14: Análise Exploratória de Dados
18
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Análise Exploratória de Dados (AED)
A Análise Exploratória é normalmente composta por:
Estatísticas Descritivas
Aderência à distribuição
Análise Gráfica
Análise de Relações
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Codificação de Variáveis
Teoria da mensuração
Quantitativas
Variáveis
Categóricas
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Codificação de Variáveis
Teoria da mensuração
Quantitativas
Variáveis
Ordinais
Categóricas
Nominais
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Codificação de Variáveis
Teoria da mensuração
Quantitativas
Variáveis
Ordinais
Categóricas
Nominais
Thiago S. F. Silva [email protected]
(Binárias)
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Codificação de Variáveis
Teoria da mensuração
Razão
Quantitativas
Intervalo
Variáveis
Ordinais
Categóricas
Nominais
(Binárias)
Binárias
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Codificação de Variáveis
Teoria da mensuração
Contínuas
Quantitativas
Discretas
Variáveis
Ordinais
Categóricas
Nominais
(Binárias)
Binárias
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Codificação de Variáveis
Exemplos
Binária: Sim/Não, Masculino/Feminino
Nominal: Esquerda/Direita/Centro, Floresta/Água/Solo
Ordinal: Ruim/Médio/Bom, Baixo/Médio/Alto
Intervalo: temperatura (◦ C), data
Razão: temperatura (K), altura (m), peso (g)
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Organização de Dados
Na maioria das vezes, recebemos ou tabulamos nossos dados
no formato wide (largo)
Mas a maioria dos pacotes de análise requer tabela no
formato long (longo)
Tabela :
Retroespalhamento em imagem Radarsat-2 dual-pol (HH/HV), modo S1, para classes de cobertura
da terra na várzea Amazônica, durante a estação seca. Fl = floresta, in = inundável, tf = terra firme, mac =
macrófita, em = emergente, fl = flutuante, ag = água
1
2
3
4
5
6
...
ag.HH
0.06
0.03
0.05
0.03
0.07
0.04
...
fl.in.HH
0.12
0.13
0.24
0.11
0.24
0.21
...
fl.tf.HH
0.19
0.39
0.16
0.18
0.17
0.21
...
mac.em.HH
0.30
0.16
0.14
0.21
0.06
0.25
...
Thiago S. F. Silva [email protected]
mac.fl.HH
0.29
0.48
0.35
0.20
0.20
0.32
...
solo.HH
0.31
0.12
0.31
0.23
0.17
0.21
...
ag.HV
0.00
0.00
0.00
0.00
0.00
0.00
...
fl.in.HV
0.04
0.06
0.11
0.02
0.03
0.04
...
Aula 14: Análise Exploratória de Dados
...
...
...
...
...
...
...
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Organização de Dados
Na maioria das vezes, recebemos ou tabulamos nossos dados
no formato wide (largo)
Mas a maioria dos pacotes de análise requer tabela no
formato long (longo)
Tabela :
Retroespalhamento em imagem Radarsat-2 dual-pol (HH/HV), modo S1, para classes de cobertura
da terra na várzea Amazônica, durante a estação seca. Fl = floresta, in = inundável, tf = terra firme, mac =
macrófita, em = emergente, fl = flutuante, ag = água
1
2
3
4
5
6
...
ag.HH
0.06
0.03
0.05
0.03
0.07
0.04
...
fl.in.HH
0.12
0.13
0.24
0.11
0.24
0.21
...
fl.tf.HH
0.19
0.39
0.16
0.18
0.17
0.21
...
mac.em.HH
0.30
0.16
0.14
0.21
0.06
0.25
...
mac.fl.HH
0.29
0.48
0.35
0.20
0.20
0.32
...
solo.HH
0.31
0.12
0.31
0.23
0.17
0.21
...
ag.HV
0.00
0.00
0.00
0.00
0.00
0.00
...
fl.in.HV
0.04
0.06
0.11
0.02
0.03
0.04
...
Quantas variáveis existem nessa tabela?
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
...
...
...
...
...
...
...
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Quantas variáveis?
Tabela :
Retroespalhamento em imagem Radarsat-2 dual-pol(HH/HV), modo S1, para classes de cobertura
da terra na várzea Amazônica, durante a estação seca. Fl = floresta, in = inundável, tf = terra firme, mac =
macrófita, em = emergente, fl = flutuante, ag = água
obs
1
2
3
4
5
6
...
ag.HH
0.06
0.03
0.05
0.03
0.07
0.04
...
fl.in.HH
0.12
0.13
0.24
0.11
0.24
0.21
...
fl.tf.HH
0.19
0.39
0.16
0.18
0.17
0.21
...
mac.em.HH
0.30
0.16
0.14
0.21
0.06
0.25
...
Thiago S. F. Silva [email protected]
mac.fl.HH
0.29
0.48
0.35
0.20
0.20
0.32
...
solo.HH
0.31
0.12
0.31
0.23
0.17
0.21
...
ag.HV
0.00
0.00
0.00
0.00
0.00
0.00
...
fl.in.HV
0.04
0.06
0.11
0.02
0.03
0.04
...
Aula 14: Análise Exploratória de Dados
...
...
...
...
...
...
...
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Quantas variáveis?
Tabela :
Retroespalhamento em imagem Radarsat-2 dual-pol(HH/HV), modo S1, para classes de cobertura
da terra na várzea Amazônica, durante a estação seca. Fl = floresta, in = inundável, tf = terra firme, mac =
macrófita, em = emergente, fl = flutuante, ag = água
obs
1
2
3
4
5
6
...
ag.HH
0.06
0.03
0.05
0.03
0.07
0.04
...
fl.in.HH
0.12
0.13
0.24
0.11
0.24
0.21
...
fl.tf.HH
0.19
0.39
0.16
0.18
0.17
0.21
...
mac.em.HH
0.30
0.16
0.14
0.21
0.06
0.25
...
mac.fl.HH
0.29
0.48
0.35
0.20
0.20
0.32
...
solo.HH
0.31
0.12
0.31
0.23
0.17
0.21
...
ag.HV
0.00
0.00
0.00
0.00
0.00
0.00
...
fl.in.HV
0.04
0.06
0.11
0.02
0.03
0.04
...
Classe de cobertura
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
...
...
...
...
...
...
...
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Quantas variáveis?
Tabela :
Retroespalhamento em imagem Radarsat-2 dual-pol(HH/HV), modo S1, para classes de cobertura
da terra na várzea Amazônica, durante a estação seca. Fl = floresta, in = inundável, tf = terra firme, mac =
macrófita, em = emergente, fl = flutuante, ag = água
obs
1
2
3
4
5
6
...
ag.HH
0.06
0.03
0.05
0.03
0.07
0.04
...
fl.in.HH
0.12
0.13
0.24
0.11
0.24
0.21
...
fl.tf.HH
0.19
0.39
0.16
0.18
0.17
0.21
...
mac.em.HH
0.30
0.16
0.14
0.21
0.06
0.25
...
mac.fl.HH
0.29
0.48
0.35
0.20
0.20
0.32
...
solo.HH
0.31
0.12
0.31
0.23
0.17
0.21
...
ag.HV
0.00
0.00
0.00
0.00
0.00
0.00
...
fl.in.HV
0.04
0.06
0.11
0.02
0.03
0.04
...
Classe de cobertura
Polarização
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
...
...
...
...
...
...
...
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Quantas variáveis?
Tabela :
Retroespalhamento em imagem Radarsat-2 dual-pol(HH/HV), modo S1, para classes de cobertura
da terra na várzea Amazônica, durante a estação seca. Fl = floresta, in = inundável, tf = terra firme, mac =
macrófita, em = emergente, fl = flutuante, ag = água
obs
1
2
3
4
5
6
...
ag.HH
0.06
0.03
0.05
0.03
0.07
0.04
...
fl.in.HH
0.12
0.13
0.24
0.11
0.24
0.21
...
fl.tf.HH
0.19
0.39
0.16
0.18
0.17
0.21
...
mac.em.HH
0.30
0.16
0.14
0.21
0.06
0.25
...
mac.fl.HH
0.29
0.48
0.35
0.20
0.20
0.32
...
solo.HH
0.31
0.12
0.31
0.23
0.17
0.21
...
ag.HV
0.00
0.00
0.00
0.00
0.00
0.00
...
fl.in.HV
0.04
0.06
0.11
0.02
0.03
0.04
...
Classe de cobertura
Polarização
Retroespalhamento
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
...
...
...
...
...
...
...
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Quantas variáveis?
Tabela :
Retroespalhamento em imagem Radarsat-2 dual-pol(HH/HV), modo S1, para classes de cobertura
da terra na várzea Amazônica, durante a estação seca. Fl = floresta, in = inundável, tf = terra firme, mac =
macrófita, em = emergente, fl = flutuante, ag = água
obs
1
2
3
4
5
6
...
ag.HH
0.06
0.03
0.05
0.03
0.07
0.04
...
fl.in.HH
0.12
0.13
0.24
0.11
0.24
0.21
...
fl.tf.HH
0.19
0.39
0.16
0.18
0.17
0.21
...
mac.em.HH
0.30
0.16
0.14
0.21
0.06
0.25
...
Classe de cobertura
mac.fl.HH
0.29
0.48
0.35
0.20
0.20
0.32
...
solo.HH
0.31
0.12
0.31
0.23
0.17
0.21
...
ag.HV
0.00
0.00
0.00
0.00
0.00
0.00
...
fl.in.HV
0.04
0.06
0.11
0.02
0.03
0.04
...
* Sensor (Radarsat-2)
Polarização
Retroespalhamento
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
...
...
...
...
...
...
...
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Quantas variáveis?
Tabela :
Retroespalhamento em imagem Radarsat-2 dual-pol(HH/HV), modo S1, para classes de cobertura
da terra na várzea Amazônica, durante a estação seca. Fl = floresta, in = inundável, tf = terra firme, mac =
macrófita, em = emergente, fl = flutuante, ag = água
obs
1
2
3
4
5
6
...
ag.HH
0.06
0.03
0.05
0.03
0.07
0.04
...
fl.in.HH
0.12
0.13
0.24
0.11
0.24
0.21
...
fl.tf.HH
0.19
0.39
0.16
0.18
0.17
0.21
...
mac.em.HH
0.30
0.16
0.14
0.21
0.06
0.25
...
mac.fl.HH
0.29
0.48
0.35
0.20
0.20
0.32
...
solo.HH
0.31
0.12
0.31
0.23
0.17
0.21
...
ag.HV
0.00
0.00
0.00
0.00
0.00
0.00
...
fl.in.HV
0.04
0.06
0.11
0.02
0.03
0.04
...
...
...
...
...
...
...
...
Classe de cobertura
* Sensor (Radarsat-2)
Polarização
* Modo de aquisição (S1)
Retroespalhamento
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Quantas variáveis?
Tabela :
Retroespalhamento em imagem Radarsat-2 dual-pol(HH/HV), modo S1, para classes de cobertura
da terra na várzea Amazônica, durante a estação seca. Fl = floresta, in = inundável, tf = terra firme, mac =
macrófita, em = emergente, fl = flutuante, ag = água
obs
1
2
3
4
5
6
...
ag.HH
0.06
0.03
0.05
0.03
0.07
0.04
...
fl.in.HH
0.12
0.13
0.24
0.11
0.24
0.21
...
fl.tf.HH
0.19
0.39
0.16
0.18
0.17
0.21
...
mac.em.HH
0.30
0.16
0.14
0.21
0.06
0.25
...
mac.fl.HH
0.29
0.48
0.35
0.20
0.20
0.32
...
solo.HH
0.31
0.12
0.31
0.23
0.17
0.21
...
ag.HV
0.00
0.00
0.00
0.00
0.00
0.00
...
fl.in.HV
0.04
0.06
0.11
0.02
0.03
0.04
...
...
...
...
...
...
...
...
Classe de cobertura
* Sensor (Radarsat-2)
Polarização
* Modo de aquisição (S1)
Retroespalhamento
* Estação do ano (seca)
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
No formato longo, cada coluna descreve uma variável, e cada
linha representa uma observação:
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
No formato longo, cada coluna descreve uma variável, e cada
linha representa uma observação:
obs
101
102
103
...
301
302
303
...
501
502
503
...
1501
1502
1503
...
1701
1702
1703
...
1901
1902
1903
...
pol
HH
HH
HH
...
HH
HH
HH
...
HH
HH
HH
...
HV
HV
HV
...
HV
HV
HV
...
HV
HV
HV
...
classe
sigma0
agua
0.04
agua
0.08
agua
0.06
...
...
floresta_inundavel
0.07
floresta_inundavel
0.48
floresta_inundavel
0.10
...
...
floresta_terrafirme
0.40
floresta_terrafirme
0.04
floresta_terrafirme
0.51
...
...
agua
0.01
agua
0.00
agua
0.00
...
...
floresta_inundavel
0.06
floresta_inundavel
0.02
floresta_inundavel
0.12
...
...
floresta_terrafirme
0.04
floresta_terrafirme
0.04
floresta_terrafirme
0.04
...
...
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
No formato longo, cada coluna descreve uma variável, e cada
linha representa uma observação:
obs
101
102
103
...
301
302
303
...
501
502
503
...
1501
1502
1503
...
1701
1702
1703
...
1901
1902
1903
...
pol
HH
HH
HH
...
HH
HH
HH
...
HH
HH
HH
...
HV
HV
HV
...
HV
HV
HV
...
HV
HV
HV
...
classe
sigma0
agua
0.04
agua
0.08
agua
0.06
...
...
floresta_inundavel
0.07
floresta_inundavel
0.48
floresta_inundavel
0.10
...
...
floresta_terrafirme
0.40
floresta_terrafirme
0.04
floresta_terrafirme
0.51
...
...
agua
0.01
agua
0.00
agua
0.00
...
...
floresta_inundavel
0.06
floresta_inundavel
0.02
floresta_inundavel
0.12
...
...
floresta_terrafirme
0.04
floresta_terrafirme
0.04
floresta_terrafirme
0.04
...
...
Thiago S. F. Silva [email protected]
Que tipo de variável é cada uma
destas?
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Estatística Descritiva: tendência central e dispersão
Através da estatística descritiva, buscamos:
Localizar nossos dados no espaço (numérico)
Quais os valores esperados para estes dados?
Quantificar a dispersão destes dados em torno desta localidade
Qual a variância dos meus dados?
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Estatística Descritiva: tendência central e dispersão
Tendência central para dados contínuos?
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Estatística Descritiva: tendência central e dispersão
Tendência central para dados contínuos?
Média aritmética
Thiago S. F. Silva [email protected]
X̄(arit) =
n
1X
xi
n i=1
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Estatística Descritiva: tendência central e dispersão
Tendência central para dados contínuos?
Média aritmética
Média geométrica
Thiago S. F. Silva [email protected]
X̄(geom) =
n
Y
!1
n
xi
i=1
X̄(geom)
n
1X
= exp
log xi
n i=1
Aula 14: Análise Exploratória de Dados
!
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Estatística Descritiva: tendência central e dispersão
Tendência central para dados contínuos?
Média aritmética
Média geométrica
X̄ =
n
1
1X
n i=1 xi
!−1
Média harmônica
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tendência Central: Exemplos
Média Aritmética: para variáveis que se somam (efeitos aditivos)
Se eu tenho três pacotes, de 1kg, 6kg, e 3kg, quanto carrego de
peso em média?
1+6+3
3
= 3.3333
Ou seja, seria o mesmo que carregar 3 pacotes de 3.3333kg
somados
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tendência Central: Exemplos
Média Geométrica: para variáveis que se multiplicam (efeitos
cumulativos)
Se sua bolsa de mestrado recebe um aumento de 1% no primeiro ano,
6% no segundo ano, e 3% no terceiro ano, qual é o aumento médio nos 3
anos?
Bolsa final: R$ 1500 ∗ 1.01 ∗ 1.06 ∗ 1.03 = R$ 1654.077
1
1
(1.01 ∗ 1.06 ∗ 1.03) 3 = 1.1027 3 = 1.0331
Ou seja, o aumento percentual médio foi de 1.0331
Redimento: 1500 ∗ 1.0331 ∗ 1.0331 ∗ 1.0331 = 1653.9346
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tendência Central: Exemplos
Média Geométrica: para variáveis que se multiplicam (efeitos
cumulativos)
Se sua bolsa de mestrado recebe um aumento de 1% no primeiro ano,
6% no segundo ano, e 3% no terceiro ano, qual é o aumento médio nos 3
anos?
Bolsa final: R$ 1500 ∗ 1.01 ∗ 1.06 ∗ 1.03 = R$ 1654.077
1
1
(1.01 ∗ 1.06 ∗ 1.03) 3 = 1.1027 3 = 1.0331
Ou seja, o aumento percentual médio foi de 1.0331
Redimento: 1500 ∗ 1.0331 ∗ 1.0331 ∗ 1.0331 = 1653.9346
Aritmética: 1500 ∗ 1.0333 ∗ 1.0333 ∗ 1.0333 = 1654.8954
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tendência Central: Exemplos
Média Harmônica: para taxas e proporções
Você viaja de carro por 300km, a 20km/h nos primeiros 100km, a
40km/h nos próximos 100km, e finalmente a 80km/h nos 100km finais.
Que velocidade você deveria manter constante para percorrer os mesmos
300km, no mesmo tempo?
Parte 1: 100/20 = 5h; Parte 2: 100/40 = 2.5h; 100/80 = 1.25h; Tempo
total =8.75h
−1
1
1
1
+ 40
+ 80
= 34.2857
( 13 × 20
Ou seja, uma velocidade média de 34.2857 km/h
Distancia: 34.2857 * 8.75 = 300
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tendência Central: Exemplos
Média Harmônica: para taxas e proporções
Você viaja de carro por 300km, a 20km/h nos primeiros 100km, a
40km/h nos próximos 100km, e finalmente a 80km/h nos 100km finais.
Que velocidade você deveria manter constante para percorrer os mesmos
300km, no mesmo tempo?
Parte 1: 100/20 = 5h; Parte 2: 100/40 = 2.5h; 100/80 = 1.25h; Tempo
total =8.75h
−1
1
1
1
+ 40
+ 80
= 34.2857
( 13 × 20
Ou seja, uma velocidade média de 34.2857 km/h
Distancia: 34.2857 * 8.75 = 300
Aritmética: 46.6667 * 8.75 = 408.3333
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Estatística Descritiva: tendência central e dispersão
Dispersão para dados contínuos?
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Estatística Descritiva: tendência central e dispersão
Dispersão para dados contínuos?
s2 =
Variância e Desvio Padrão
Thiago S. F. Silva [email protected]
n
1 X
(xi − x̄ )
n − 1 i=1
√
s = s2
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Estatística Descritiva: tendência central e dispersão
Dispersão para dados contínuos?
Variância e Desvio Padrão
A = max (x ) − min(x )
Amplitude
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Estatística Descritiva: tendência central e dispersão
Dispersão para dados contínuos?
Variância e Desvio Padrão
CV =
Amplitude
s
∗ 100(%)
x̄
Coeficiente de Variação
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
set.seed(1979)
x <- rnorm(500, 50, 10)
cv <- function(x) sd(x)/mean(x) * 100
mean(x)
0.05
Histogram of x
Density
## [1] 9.878
## [1] 19.61
hist(x, breaks = 40, prob = T, xlim = c(0,
100), col = "gray70")
curve(dnorm(x, mean = 50, sd = 10), add = T)
abline(v = mean(x), col = "red")
abline(v = c(mean(x) + sd(x), mean(x) - sd(x)),
col = "blue")
abline(v = c(mean(x) + 2 * sd(x), mean(x) 2 * sd(x)), col = "purple")
Thiago S. F. Silva [email protected]
0.00
0.01
cv(x)
0.02
sd(x)
0.03
0.04
## [1] 50.36
0
20
40
60
x
Aula 14: Análise Exploratória de Dados
80
100
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
set.seed(1979)
x <- rnorm(500, 50, 20)
cv <- function(x) sd(x)/mean(x) * 100
mean(x)
Histogram of x
0.020
## [1] 50.73
Density
## [1] 19.76
## [1] 38.94
hist(x, breaks = 40, prob = T, xlim = c(0,
100), col = "gray70")
curve(dnorm(x, mean = 50, sd = 20), add = T)
abline(v = mean(x), col = "red")
abline(v = c(mean(x) + sd(x), mean(x) - sd(x)),
col = "blue")
abline(v = c(mean(x) + 2 * sd(x), mean(x) 2 * sd(x)), col = "purple")
Thiago S. F. Silva [email protected]
0.000
0.005
cv(x)
0.010
0.015
sd(x)
0
20
40
60
x
Aula 14: Análise Exploratória de Dados
80
100
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Estatística Descritiva: tendência central e dispersão
Quantis (quantiles, percentis): medidas robustas de
tendência central e dispersão
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Estatística Descritiva: tendência central e dispersão
Quantis (quantiles, percentis): medidas robustas de
tendência central e dispersão
P(X ≤ m) ≥
1
2
P(X ≥ m) ≤
1
2
Mediana:valor mais central (50%/50%)
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Estatística Descritiva: tendência central e dispersão
Quantis (quantiles, percentis): medidas robustas de
tendência central e dispersão
Mediana:valor mais central (50%/50%)
q : P(X ≤ q) ≤ i
i-ésimo quantil:
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Estatística Descritiva: tendência central e dispersão
Quantis (quantiles, percentis): medidas robustas de
tendência central e dispersão
Mediana:valor mais central (50%/50%)
i-ésimo quantil:
i-ésimo quantil = percentil de 100 ∗ i%
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Estatística Descritiva: tendência central e dispersão
Quantis (quantiles, percentis): medidas robustas de
tendência central e dispersão
Mediana:valor mais central (50%/50%)
i-ésimo quantil:
i-ésimo quantil = percentil de 100 ∗ i%
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Estatística Descritiva: tendência central e dispersão
Quantis (quantiles, percentis): medidas robustas de
tendência central e dispersão
Mediana:valor mais central (50%/50%)
i-ésimo quantil:
i-ésimo quantil = percentil de 100 ∗ i%
qi : i = 0.25 , qi : i = 0.50 e qi : i = 0.75
são chamados de quartis
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
set.seed(1979)
x <- rnorm(500, 50, 20)
median(x)
Histogram of x
0.020
## [1] 51.4
0.005
quantile(x, prob = c(0.25, 0.75))
0.010
## 50%
## 51.4
Density
0.015
quantile(x, prob = 0.5)
0.000
##
25%
75%
## 37.77 64.73
hist(x, breaks = 40, prob = T, xlim = c(0,
100), col = "gray70")
curve(dnorm(x, mean = 50, sd = 20), add = T)
abline(v = median(x), col = "red", lwd = 2,
lty = 2)
abline(v = quantile(x, prob = c(0.25, 0.75)),
col = "blue", lwd = 2, lty = 2)
Thiago S. F. Silva [email protected]
0
20
40
60
x
Aula 14: Análise Exploratória de Dados
80
100
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Histogram of x
0.015
0.010
0.000
0.005
Density
hist(x, breaks = 40, prob = T, xlim = c(0,
100), col = "gray70")
curve(dnorm(x, mean = 50, sd = 20), add = T)
abline(v = mean(x), col = "red", lwd = 2,
lty = 1)
abline(v = median(x), col = "red", lwd = 2,
lty = 2)
abline(v = c(mean(x) + sd(x), mean(x) - sd(x)),
col = "blue", lwd = 2, lty = 1)
abline(v = quantile(x, prob = c(0.25, 0.75)),
col = "purple", lwd = 2, lty = 2)
abline(v = quantile(x, prob = c(0.16, 0.84)),
col = "blue", lwd = 2, lty = 2)
0.020
set.seed(1979)
x <- rnorm(500, 50, 20)
0
20
40
60
x
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
80
100
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
set.seed(1979)
x <- rgeom(500, 0.1)
mean(x)
## [1] 8.66
Density
median(x)
## [1] 6
sd(x)
## [1] 8.847
quantile(x, probs = c(0.25, 0.5))
0.00 0.02 0.04 0.06 0.08 0.10 0.12
Histogram of x
0
10
20
30
40
x
## 25% 50%
##
3
6
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
50
60
70
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
hist(x, breaks = 30, prob = T, col = "gray70")
abline(v = mean(x), col = "red", lwd = 2,
lty = 1)
abline(v = median(x), col = "red", lwd = 2,
lty = 2)
abline(v = c(mean(x) + sd(x), mean(x) - sd(x)),
col = "blue", lwd = 2, lty = 1)
abline(v = quantile(x, prob = c(0.25, 0.75)),
col = "purple", lwd = 2, lty = 2)
abline(v = quantile(x, prob = c(0.16, 0.84)),
col = "blue", lwd = 2, lty = 2)
Density
set.seed(1979)
x <- rgeom(500, 0.1)
0.00 0.02 0.04 0.06 0.08 0.10 0.12
Histogram of x
0
10
20
30
40
x
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
50
60
70
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Os quantis são muito mais robustos com relação a valores
extremos (outliers)
mean(x)
Density
## [1] 4.8
median(x)
## [1] 3.5
hist(x, breaks = 40, prob = T, , col = "gray70")
abline(v = mean(x), col = "red", lwd = 2,
lty = 1)
abline(v = median(x), col = "red", lwd = 2,
lty = 2)
0.00 0.05 0.10 0.15 0.20 0.25 0.30
Histogram of x
x <- c(1, 2, 3, 2, 3, 4, 5, 6, 2, 3, 5, 4,
1, 2, 3, 4, 5, 5, 6, 30)
0
5
10
15
20
x
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
25
30
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Os quantis são muito mais robustos com relação a valores
extremos (outliers)
Histogram of x
mean(x)
Density
## [1] 18.3
## [1] 3.5
hist(x, breaks = 80, prob = T, , col = "gray70")
abline(v = mean(x), col = "red", lwd = 2,
lty = 1)
abline(v = median(x), col = "red", lwd = 2,
lty = 2)
0.00
0.05
median(x)
0.10
0.15
x <- c(1, 2, 3, 2, 3, 4, 5, 6, 2, 3, 5, 4,
1, 2, 3, 4, 5, 5, 6, 300)
0
50
100
150
200
x
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
250
300
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Os quantis são muito mais robustos com relação a valores
extremos (outliers)
x <- c(1, 2, 3, 2, 3, 4, 5, 6, 2, 3, 5, 4,
1, 2, 3, 4, 5, 5, 6, 30)
## [1] 6.127
Density
quantile(x, prob = c(0.16, 0.84))
## 16% 84%
##
2
5
hist(x, breaks = 40, prob = T, , col = "gray70")
abline(v = mean(x), col = "red", lwd = 2,
lty = 1)
abline(v = median(x), col = "red", lwd = 2,
lty = 2)
abline(v = c(mean(x) - sd(x), mean(x) + sd(x)),
col = "blue", lwd = 2, lty = 1)
abline(v = quantile(x, prob = c(0.16, 0.84)),
col = "blue", lwd = 2, lty = 2)
Thiago S. F. Silva [email protected]
0.00 0.05 0.10 0.15 0.20 0.25 0.30
Histogram of x
sd(x)
0
5
10
15
20
x
Aula 14: Análise Exploratória de Dados
25
30
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Estatística Descritiva: tendência central e dispersão
Tendência e dispersão para dados categóricos?
Qual a média de (Floresta, Solo, Água)?
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Estatística Descritiva: tendência central e dispersão
Tendência e dispersão para dados categóricos?
Qual a média de (Floresta, Solo, Água)?
Solução: contagens, frequência, porcentagem, chance (odds)
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Estatística Descritiva: tendência central e dispersão
Tendência e dispersão para dados categóricos?
Qual a média de (Floresta, Solo, Água)?
Solução: contagens, frequência, porcentagem, chance (odds)
Exemplo: Você gosta de estatística?
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Estatística Descritiva: tendência central e dispersão
Tendência e dispersão para dados categóricos?
Qual a média de (Floresta, Solo, Água)?
Solução: contagens, frequência, porcentagem, chance (odds)
Exemplo: Você gosta de estatística?
Obs.
Gosto
1
Sim
2
Não
3
Não
4
Não
5
Não
6
Não
7
Não
8
Sim
9
Sim
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Estatística Descritiva: tendência central e dispersão
Tendência e dispersão para dados categóricos?
Qual a média de (Floresta, Solo, Água)?
Solução: contagens, frequência, porcentagem, chance (odds)
Exemplo: Você gosta de estatística?
Obs.
Gosto
1
Sim
2
Não
3
Não
4
Não
Variável
Contagem
Frequência
Porcentagem
Chance
5
Não
Sim
3
0.33
33%
0.5
6
Não
Não
6
0.66
66%
2
7
Não
8
Sim
9
Sim
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Estatística Descritiva: tendência central e dispersão
Tendência e dispersão para dados categóricos?
Exemplo: O quanto você gosta de estatística? (1-Abomino,
2-Odeio, 3-Não Gosto, 4-Tolero,5-Adoro)
Obs.
Gosto
1
5
2
1
3
1
4
1
5
2
6
2
7
3
8
3
9
4
Variável
Contagem
Frequência
Porcentagem
Abomino
3
0.33
33%
0.5
Odeio
2
0.25
25%
0.29
Não Gosto
2
0.25
25%
0.29
Tolero
1
0.1
10%
0.125
Adoro
1
0.1
10%
0.125
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Chance
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Análise Gráfica
O ser humano tem uma capacidade incrível de processar
informações visuais
A análise gráfica pode ser considerada uma das partes mais
importantes do processo
Muitas questões podem ser respondidas sem a necessidade de
(mindless) testes
A visualição de gráficos tem sido um tópico hot em estatística
atualmente
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Análise Gráfica
O ser humano tem uma capacidade incrível de processar
informações visuais
A análise gráfica pode ser considerada uma das partes mais
importantes do processo
Muitas questões podem ser respondidas sem a necessidade de
(mindless) testes
A visualição de gráficos tem sido um tópico hot em estatística
atualmente
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Análise Gráfica
O ser humano tem uma capacidade incrível de processar
informações visuais
A análise gráfica pode ser considerada uma das partes mais
importantes do processo
Muitas questões podem ser respondidas sem a necessidade de
(mindless) testes
A visualição de gráficos tem sido um tópico hot em estatística
atualmente
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Análise Gráfica
O ser humano tem uma capacidade incrível de processar
informações visuais
A análise gráfica pode ser considerada uma das partes mais
importantes do processo
Muitas questões podem ser respondidas sem a necessidade de
(mindless) testes
A visualição de gráficos tem sido um tópico hot em estatística
atualmente
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 1 variável
Histograma
Adequado para mostrar distribuições, pode ser usado tanto
para dados categóricos quanto contínuos
É importante definirem-se bem as subdivisões (bins)
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 1 variável
Histograma
Adequado para mostrar distribuições, pode ser usado tanto
para dados categóricos quanto contínuos
É importante definirem-se bem as subdivisões (bins)
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 1 variável
Histograma
plot.data <- subset(bs, bs$modo == "S1" &
bs$pol == "HH" & bs$classe == "floresta_inundavel" &
bs$data == "2011-07-06")
hist(plot.data$sigma0)
30
20
0
10
Frequency
40
Histogram of plot.data$sigma0
0.0
0.2
0.4
0.6
0.8
1.0
plot.data$sigma0
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
1.2
1.4
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 1 variável
Histograma
hist(plot.data$sigma0, breaks = 40)
10
0
5
Frequency
15
20
Histogram of plot.data$sigma0
0.2
0.4
0.6
0.8
plot.data$sigma0
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
1.0
1.2
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 1 variável
Histograma
hist(plot.data$sigma0, breaks = 40)
hist(plot.data$sigma0, breaks = 100)
3
0
1
2
Frequency
4
5
6
Histogram of plot.data$sigma0
0.2
0.4
0.6
0.8
plot.data$sigma0
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
1.0
1.2
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 1 variável
Histograma
hist(plot.data$sigma0, breaks = 40)
hist(plot.data$sigma0, breaks = 400)
hist(10 * log10(plot.data$sigma0), breaks = 30)
0
5
Frequency
10
15
Histogram of 10 * log10(plot.data$sigma0)
−10
−5
10 * log10(plot.data$sigma0)
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
0
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 1 variável
Histograma
hist(plot.data$sigma0, breaks = 40)
hist(plot.data$sigma0, breaks = 400)
hist(10 * log10(plot.data$sigma0), breaks = 400)
hist(10 * log10(plot.data$sigma0), breaks = 30)
hist(10 * log10(plot.data$sigma0), breaks = 30,
prob = T)
Density
0.00 0.05 0.10 0.15 0.20 0.25 0.30
Histogram of 10 * log10(plot.data$sigma0)
−10
−5
10 * log10(plot.data$sigma0)
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
0
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 1 variável
Densidade
hist(plot.data$sigma0, breaks = 40)
hist(plot.data$sigma0, breaks = 400)
hist(10 * log10(plot.data$sigma0), breaks = 400)
hist(10 * log10(plot.data$sigma0), breaks = 30)
hist(10 * log10(plot.data$sigma0), breaks = 30,
prob = T)
hist(10 * log10(plot.data$sigma0), breaks = 30,
prob = T, col = "gray70", xlab = "Retroespalhamento",
ylab = "densidade", main = NA)
0.00 0.05 0.10 0.15 0.20 0.25 0.30
Histograma
−10
−5
Retroespalhamento
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
0
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 1 variável
Gráfico de Densidade kernel
Similar ao histograma, mas ajusta uma linha suavizada à
distribuição
Assim como o histograma depende das subdivisões, este
gráfico depende da largura do kernel (bandwidth)
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 1 variável
Gráfico de Densidade kernel
Similar ao histograma, mas ajusta uma linha suavizada à
distribuição
Assim como o histograma depende das subdivisões, este
gráfico depende da largura do kernel (bandwidth)
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 1 variável
Gráfico de Densidade kernel
Similar ao histograma, mas ajusta uma linha suavizada à
distribuição
Assim como o histograma depende das subdivisões, este
gráfico depende da largura do kernel (bandwidth)
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 1 variável
Gráfico de Densidade kernel
density.default(x = plot.data$sigma0)
Density
0.0
0.5
1.0
1.5
2.0
plot(density(plot.data$sigma0))
0.0
0.5
1.0
N = 100 Bandwidth = 0.06818
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 1 variável
Gráfico de Densidade kernel
1.5
0.0
0.5
1.0
Density
2.0
2.5
plot(density(plot.data$sigma0))
plot(density(plot.data$sigma0, bw = 0.04),
main = NA)
0.0
0.2
0.4
0.6
0.8
1.0
N = 100 Bandwidth = 0.04
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
1.2
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 1 variável
Gráfico de Densidade kernel
1.0
0.0
0.5
Density
1.5
2.0
plot(density(plot.data$sigma0))
plot(density(plot.data$sigma0, bw = 0.04),
main = NA)
plot(density(plot.data$sigma0, bw = 0.08),
main = NA)
0.0
0.5
1.0
N = 100 Bandwidth = 0.08
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
1.5
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 1 variável
Gráfico de Densidade kernel
0.00
0.05
Density
0.10
0.15
plot(density(plot.data$sigma0))
plot(density(plot.data$sigma0, bw = 0.04),
main = NA)
plot(density(plot.data$sigma0, bw = 0.08),
main = NA)
plot(density(10 * log10(plot.data$sigma0)),
main = NA)
−15
−10
−5
0
N = 100 Bandwidth = 0.8662
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 1 variável
0.10
Density
0.00
0.05
plot(density(plot.data$sigma0))
plot(density(plot.data$sigma0, bw = 0.04),
main = NA)
plot(density(plot.data$sigma0, bw = 0.08),
main = NA)
plot(density(10 * log10(plot.data$sigma0)),
main = NA)
plot(density(10 * log10(plot.data$sigma0),
bw = 1), main = NA)
0.15
Gráfico de Densidade kernel
−15
−10
−5
N = 100 Bandwidth = 1
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
0
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 1 variável
Gráfico de Barras
Adequado para mostrar proporções, especialmente apropriado
para variáveis categóricas
Pode ser mostrado lado a lado ou empilhado
Transmite a impressão de um dado cumulativo
Não deve ser usado para valores pontuais (ex: média)
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 1 variável
Gráfico de Barras
Adequado para mostrar proporções, especialmente apropriado
para variáveis categóricas
Pode ser mostrado lado a lado ou empilhado
Transmite a impressão de um dado cumulativo
Não deve ser usado para valores pontuais (ex: média)
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 1 variável
Gráfico de Barras
Adequado para mostrar proporções, especialmente apropriado
para variáveis categóricas
Pode ser mostrado lado a lado ou empilhado
Transmite a impressão de um dado cumulativo
Não deve ser usado para valores pontuais (ex: média)
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 1 variável
Gráfico de Barras
Adequado para mostrar proporções, especialmente apropriado
para variáveis categóricas
Pode ser mostrado lado a lado ou empilhado
Transmite a impressão de um dado cumulativo
Não deve ser usado para valores pontuais (ex: média)
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 1 variável
5
stats <- factor(c("Sim", "Não", "Não", "Não",
"Não", "Não", "Não", "Sim", "Sim"))
summ <- table(stats)
summ
6
Gráfico de Barras
3
4
## stats
## Não Sim
##
6
3
0
1
2
barplot(summ)
Não
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Sim
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 1 variável
8
stats <- factor(c("Sim", "Não", "Não", "Não",
"Não", "Não", "Não", "Sim", "Sim"))
summ <- table(stats)
summ
10
Gráfico de Barras
4
6
## stats
## Não Sim
##
6
3
0
2
barplot(summ)
barplot(summ, ylim = c(0, 10))
Não
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Sim
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 1 variável
Gráfico de Barras
## stats
## Não Sim
##
6
3
barplot(summ)
barplot(summ, ylim = c(0, 10))
barplot(summ, horiz = T)
Não
Sim
stats <- factor(c("Sim", "Não", "Não", "Não",
"Não", "Não", "Não", "Sim", "Sim"))
summ <- table(stats)
summ
0
Thiago S. F. Silva [email protected]
1
2
3
Aula 14: Análise Exploratória de Dados
4
5
6
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 1 variável
Gráfico de Barras
0.4
Thiago S. F. Silva [email protected]
0.1
Aula 14: Análise Exploratória de Dados
solo
arbustos_inundaveis
macrofitas_flutuantes
floresta_terrafirme
0.0
macrofitas_emergentes
barplot(mean.bs, las = 2, ylab = "Retroespalhamento Médio")
0.2
agua
plot.data <- subset(bs, bs$modo == "S1" &
bs$pol == "HH" & bs$data == "2011-07-06")
mean.bs <- tapply(plot.data$sigma0, plot.data$classe,
mean, na.rm = T)
0.3
floresta_inundavel
Retroespalhamento Médio
Inapropriado, pois as médias são valores
pontuais.
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 1+ variável
Gráfico de Barras
sand.085p
60
40
0
20
load("rich+env_jun.Rdata")
granulo <- rich.env.jun[, 34:40]
granulo <- t(as.matrix(granulo))
barplot(granulo, col = rainbow(7), legend = T,
args.legend = list(x = "top", inset = c(0,
-0.7), ncol = 3))
sand.025.0125
sand.050.025
sand.085.050
80 100
clay.004l
silt.063.004
sand.0125.0063
Thiago S. F. Silva [email protected]
1 Exploratória
13 18 22
27 31
Aula 14: Análise
de Dados
5
9
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 1 variável
Gráfico de Pizza
Gráficos de pizza são adequados. . .
. . . para nada!
Nosso cérebro é muito mais apto em julgar distâncias do que
áreas
A partir de hoje, podem abolir gráficos de pizza do seu
repertório
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 1 variável
Gráfico de Pizza
Gráficos de pizza são adequados. . .
. . . para nada!
Nosso cérebro é muito mais apto em julgar distâncias do que
áreas
A partir de hoje, podem abolir gráficos de pizza do seu
repertório
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 1 variável
Gráfico de Pizza
Gráficos de pizza são adequados. . .
. . . para nada!
Nosso cérebro é muito mais apto em julgar distâncias do que
áreas
A partir de hoje, podem abolir gráficos de pizza do seu
repertório
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 1 variável
Gráfico de Pizza
Gráficos de pizza são adequados. . .
. . . para nada!
Nosso cérebro é muito mais apto em julgar distâncias do que
áreas
A partir de hoje, podem abolir gráficos de pizza do seu
repertório
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 2 variáveis
Gráfico de dispersão (scatterplot)
Um dos gráficos mais úteis em estatística . . .
Pode servir para visualizar duas variáveis contínuas, ou uma
variável contínua vs. uma categórica
Desde que a variável categórica seja codificada
Pode ser complementado por barras de erro
Cuidado ao unir os pontos com linhas, pois isso passa uma
noção de continuidade!
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 2 variáveis
Gráfico de dispersão (scatterplot)
Um dos gráficos mais úteis em estatística . . .
Pode servir para visualizar duas variáveis contínuas, ou uma
variável contínua vs. uma categórica
Desde que a variável categórica seja codificada
Pode ser complementado por barras de erro
Cuidado ao unir os pontos com linhas, pois isso passa uma
noção de continuidade!
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 2 variáveis
Gráfico de dispersão (scatterplot)
Um dos gráficos mais úteis em estatística . . .
Pode servir para visualizar duas variáveis contínuas, ou uma
variável contínua vs. uma categórica
Desde que a variável categórica seja codificada
Pode ser complementado por barras de erro
Cuidado ao unir os pontos com linhas, pois isso passa uma
noção de continuidade!
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 2 variáveis
Gráfico de Dispersão
Retroespalhamento Médio
0.45
plot(mean.bs, las = 2, ylab = "Retroespalhamento Médio",
type = "p")
0.40
0.35
0.30
0.25
0.20
Index
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
7
6
5
4
3
2
1
0.15
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 2 variáveis
Gráfico de Dispersão
ylab = "Retroespalhamento Médio",
ylab = "Retroespalhamento Médio",
"n", xlab = NA)
= names(mean.bs),
Retroespalhamento Médio
0.45
plot(mean.bs, las = 2,
type = "p")
plot(mean.bs, las = 2,
type = "p", xaxt =
axis(1, c(1:7), labels
las = 2)
0.40
0.35
0.30
0.25
0.20
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
arbustos_inundaveis
solo
macrofitas_flutuantes
macrofitas_emergentes
floresta_inundavel
floresta_terrafirme
agua
0.15
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 2 variáveis
Gráfico de Dispersão
Thiago S. F. Silva [email protected]
0.25
0.20
Aula 14: Análise Exploratória de Dados
arbustos_inundaveis
solo
macrofitas_flutuantes
0.15
macrofitas_emergentes
ylab = "Retroespalhamento Médio",
"n", xlab = NA)
= names(mean.bs),
0.30
floresta_inundavel
ylab = "Retroespalhamento Médio",
"n", xlab = NA)
= names(mean.bs),
0.35
floresta_terrafirme
ylab = "Retroespalhamento Médio",
0.40
agua
plot(mean.bs, las = 2,
type = "p")
plot(mean.bs, las = 2,
type = "p", xaxt =
axis(1, c(1:7), labels
las = 2)
plot(mean.bs, las = 2,
type = "l", xaxt =
axis(1, c(1:7), labels
las = 2)
0.45
Retroespalhamento Médio
Incorreto, não existe continuidade entre
as categorias.
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 2 variáveis
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
arbustos_inundaveis
solo
macrofitas_flutuantes
macrofitas_emergentes
floresta_inundavel
floresta_terrafirme
agua
mean.bs
0.4
0.2
0.0
plot(mean.bs, las = 2, ylab = "Retroespalhamento Médio",
type = "p")
plot(mean.bs, las = 2, ylab = "Retroespalhamento Médio",
type = "p", xaxt = "n", xlab = NA)
axis(1, c(1:7), labels = names(mean.bs),
las = 2)
sd.bs <- tapply(plot.data$sigma0, plot.data$classe,
sd, na.rm = T)
plot(mean.bs, las = 2, ylab = "Retroespalhamento Médio",
type = "p", xaxt = "n", xlab = NA)
axis(1, c(1:7), labels = names(mean.bs),
las = 2)
plot(mean.bs, las = 2, ylab = "Retroespalhamento Médio",
type = "l", xaxt = "n", xlab = NA)
axis(1, c(1:7), labels = names(mean.bs),
las = 2)
library(Hmisc)
errbar(c(1:7), mean.bs, yplus = mean.bs +
sd.bs, yminus = mean.bs - sd.bs, lty = 1,
, xaxt = "n", xlab = NA)
axis(1, c(1:7), labels = names(mean.bs),
las = 2)
0.6
Gráfico de Dispersão
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 2 variáveis
20
15
10
Riqueza de Espécies
0
5
load("rich+env_jun.Rdata")
plot(rich.env.jun$p.tot, rich.env.jun$rich,
xlab = "Fósforo Total", ylab = "Riqueza de Espécies")
# A sintaxe de 'em função de' (~)
# também pode ser usada
plot(rich ~ p.tot, data = rich.env.jun, xlab = "Fósforo Total",
ylab = "Riqueza de Espécies")
25
Gráfico de Dispersão
40
60
80
Fósforo Total
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
100
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 2 variáveis
Gráfico de Área
Pode ser visto como uma versão contínua do gráfico de barras
...
Mostra diferenças ponto a ponto, e cumulativas
Não deve ser usado se a área sob a curva não fizer sentido
para os dados plotados
A ordem do empilhamento pode afetar a percepção
se a variável x não for contínua, melhor usar barras empilhadas
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 2 variáveis
Gráfico de Área
Pode ser visto como uma versão contínua do gráfico de barras
...
Mostra diferenças ponto a ponto, e cumulativas
Não deve ser usado se a área sob a curva não fizer sentido
para os dados plotados
A ordem do empilhamento pode afetar a percepção
se a variável x não for contínua, melhor usar barras empilhadas
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 2 variáveis
Gráfico de Área
Pode ser visto como uma versão contínua do gráfico de barras
...
Mostra diferenças ponto a ponto, e cumulativas
Não deve ser usado se a área sob a curva não fizer sentido
para os dados plotados
A ordem do empilhamento pode afetar a percepção
se a variável x não for contínua, melhor usar barras empilhadas
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 2 variáveis
Gráfico de Área
Pode ser visto como uma versão contínua do gráfico de barras
...
Mostra diferenças ponto a ponto, e cumulativas
Não deve ser usado se a área sob a curva não fizer sentido
para os dados plotados
A ordem do empilhamento pode afetar a percepção
se a variável x não for contínua, melhor usar barras empilhadas
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 2 variáveis
Gráfico de Área
Pode ser visto como uma versão contínua do gráfico de barras
...
Mostra diferenças ponto a ponto, e cumulativas
Não deve ser usado se a área sob a curva não fizer sentido
para os dados plotados
A ordem do empilhamento pode afetar a percepção
se a variável x não for contínua, melhor usar barras empilhadas
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 2 variáveis
Gráfico de Área
1.5
Produtividade Primára (Tg/ano)
load("npp_summary.Rdata")
library(ggplot2)
ggplot(npp.df, aes(year, mean)) + geom_area(fill = "gray50") +
xlab("Ano") + ylab("Produtividade Primára (Tg/ano)")
1.0
0.5
0.0
1970
1980
1990
Ano
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
2000
2010
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 2 variáveis
Gráfico de Área
1.5
Produtividade Primára (Tg/ano)
library(ggplot2)
ggplot(npp.df, aes(year, mean)) + geom_area(fill = "blue") +
xlab("Ano") + ylab("Produtividade Primára (Tg/ano)")
ggplot(npp.df, aes(as.factor(year), mean)) +
geom_bar(fill = "gray50") + xlab("Ano") +
ylab("Produtividade Primára (Tg/ano)") +
theme(axis.text.x = element_text(angle = 90,
hjust = 1))
load("cons_npp_summary.Rdata")
ggplot(cons.npp.df, aes(year, mean)) + geom_area(fill = fix) +
xlab("Ano") + ylab("Produtividade Primára (Tg/ano)")
1.0
0.5
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
0.0
Ano
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 2 variáveis
Gráfico de Área
http://www.leancrew.com/all-this/2011/11/
i-hate-stacked-area-charts/
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 2 variáveis
Boxplot
Usado para combinações entre variáveis contínuas e
categóricas . . .
Na opinião de muitos, um dos gráficos mais informativos que
existem . . .
Combina as propriedades de um histograma e de um
scatterplot
Faz uso dos quantis para uma descrição robusta dos dados
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 2 variáveis
Boxplot
Usado para combinações entre variáveis contínuas e
categóricas . . .
Na opinião de muitos, um dos gráficos mais informativos que
existem . . .
Combina as propriedades de um histograma e de um
scatterplot
Faz uso dos quantis para uma descrição robusta dos dados
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 2 variáveis
Boxplot
Usado para combinações entre variáveis contínuas e
categóricas . . .
Na opinião de muitos, um dos gráficos mais informativos que
existem . . .
Combina as propriedades de um histograma e de um
scatterplot
Faz uso dos quantis para uma descrição robusta dos dados
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 2 variáveis
Boxplot
Usado para combinações entre variáveis contínuas e
categóricas . . .
Na opinião de muitos, um dos gráficos mais informativos que
existem . . .
Combina as propriedades de um histograma e de um
scatterplot
Faz uso dos quantis para uma descrição robusta dos dados
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 2 variáveis
Boxplot
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 2 variáveis
0.8
0.4
0.6
10
0.2
5
0
Frequency
15
1.0
1.2
20
Boxplot
0.2
0.4
0.6
0.8
1.0
1.2
Retroespalhamento − Floresta Inundável
Thiago S. F. Silva [email protected]
Retroespalhamento − Floresta Inundável
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 2 variáveis
Boxplot
1.5
boxplot(sigma0 ~ classe, data = plot.data,
las = 2)
#
#
#
#
#
#
linha central: mediana caixa :
quartis linhas verticais: valor mais
alto/baixo dentro da distância
quartil+/-1.5*distancia interquartil
pontos: outliers, tudo que for maior
do que quartil +/- 1.5 quartil
1.0
0.5
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
arbustos_inundaveis
solo
macrofitas_flutuantes
macrofitas_emergentes
floresta_terrafirme
floresta_inundavel
agua
0.0
Superposição da distância interquartil é
um indício de diferença/separabilidade
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 2 variáveis
Violin Plot
Tentativa de ir além do boxplot . . .
Combina as propriedades de um gráfico de densidades e de
um scatterplot
Pode ficar estranho se as distribuições não forem
bem-comportadas
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 2 variáveis
Violin Plot
Tentativa de ir além do boxplot . . .
Combina as propriedades de um gráfico de densidades e de
um scatterplot
Pode ficar estranho se as distribuições não forem
bem-comportadas
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 2 variáveis
Violin Plot
Tentativa de ir além do boxplot . . .
Combina as propriedades de um gráfico de densidades e de
um scatterplot
Pode ficar estranho se as distribuições não forem
bem-comportadas
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 2 variáveis
Violin Plot
1.5
ggplot(plot.data, aes(classe, sigma0)) +
geom_boxplot() + theme(axis.text.x = element_text(angle = 90,
hjust = 1))
sigma0
1.0
0.5
Aula 14: Análise Exploratória de Dados
arbustos_inundaveis
solo
macrofitas_flutuantes
floresta_terrafirme
macrofitas_emergentes
Thiago S. F. Silva [email protected]
floresta_inundavel
agua
0.0
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 2 variáveis
Violin Plot
1.5
sigma0
ggplot(plot.data, aes(classe, sigma0)) +
geom_boxplot() + theme(axis.text.x = element_text(angle = 90,
hjust = 1))
ggplot(plot.data, aes(classe, sigma0)) +
geom_violin() + theme(axis.text.x = element_text(angle
= 90,
1.0
hjust = 1))
0.5
Aula 14: Análise Exploratória de Dados
arbustos_inundaveis
solo
macrofitas_flutuantes
floresta_terrafirme
macrofitas_emergentes
Thiago S. F. Silva [email protected]
floresta_inundavel
agua
0.0
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Combinando mais de duas variáveis . . .
. . . sem usar “3D”
Gráficos “3D” são dependentes de perspectiva, e não
enfatizam bem as diferenças
São uma boa ferramenta de visualização se puderem ser
manipulados
Mas para exibição em papel, dificultam a interpretação
Ao invés de usar múltiplos eixos, podemos explorar as relações
entre cor, forma e tamanho dos objetos plotados
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Combinando mais de duas variáveis . . .
. . . sem usar “3D”
Gráficos “3D” são dependentes de perspectiva, e não
enfatizam bem as diferenças
São uma boa ferramenta de visualização se puderem ser
manipulados
Mas para exibição em papel, dificultam a interpretação
Ao invés de usar múltiplos eixos, podemos explorar as relações
entre cor, forma e tamanho dos objetos plotados
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Combinando mais de duas variáveis . . .
. . . sem usar “3D”
Gráficos “3D” são dependentes de perspectiva, e não
enfatizam bem as diferenças
São uma boa ferramenta de visualização se puderem ser
manipulados
Mas para exibição em papel, dificultam a interpretação
Ao invés de usar múltiplos eixos, podemos explorar as relações
entre cor, forma e tamanho dos objetos plotados
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Combinando mais de duas variáveis . . .
. . . sem usar “3D”
Gráficos “3D” são dependentes de perspectiva, e não
enfatizam bem as diferenças
São uma boa ferramenta de visualização se puderem ser
manipulados
Mas para exibição em papel, dificultam a interpretação
Ao invés de usar múltiplos eixos, podemos explorar as relações
entre cor, forma e tamanho dos objetos plotados
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 2 variáveis
ggplot(rich.env.jun, aes(p.tot, n.tot)) +
geom_point(size = 3) + ylab("Nitrogênio Total") +
xlab("Fósforo Total") + theme_bw()
Nitrogênio Total
400
200
0
40
Thiago S. F. Silva [email protected]
60
80
Fósforo Total
Aula 14: Análise Exploratória de Dados
100
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 3 variáveis
ggplot(rich.env.jun, aes(p.tot, n.tot)) +
geom_point(size = 3) + ylab("Nitrogênio Total") +
xlab("Fósforo Total") + theme_bw()
ggplot(rich.env.jun, aes(p.tot, n.tot)) +
geom_point(aes(size = rich)) + ylab("Nitrogênio Total") +
xlab("Fósforo Total") + theme_bw()
Nitrogênio Total
400
rich
0
5
10
15
20
200
25
0
40
Thiago S. F. Silva [email protected]
60
80
100
Fósforo Total
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 4 variáveis
Nitrogênio Total
ggplot(rich.env.jun, aes(p.tot, n.tot)) +
geom_point(size = 3) + ylab("Nitrogênio Total") +
xlab("Fósforo Total") + theme_bw()
ggplot(rich.env.jun, aes(p.tot, n.tot)) +
geom_point(aes(size = rich)) + ylab("Nitrogênio Total") +
xlab("Fósforo Total") + theme_bw()
400
ggplot(rich.env.jun, aes(p.tot, n.tot)) +
geom_point(aes(color = rich, size = prof *
-1)) + ylab("Nitrogênio Total") +
xlab("Fósforo Total") + theme_bw()
prof * −1
100
150
200
250
300
rich
25
200
20
15
10
5
0
0
40
Thiago S. F. Silva [email protected]
60
80
100
Fósforo Total
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 5 variáveis
ggplot(rich.env.jun, aes(p.tot, n.tot)) +
geom_point(size = 3) + ylab("Nitrogênio Total") +
xlab("Fósforo Total") + theme_bw()
ggplot(rich.env.jun, aes(p.tot, n.tot)) +
geom_point(aes(size = rich)) + ylab("Nitrogênio Total") +
xlab("Fósforo Total") + theme_bw()
400
ggplot(rich.env.jun, aes(p.tot, n.tot)) +
geom_point(aes(color = rich, size = prof *
-1)) + ylab("Nitrogênio Total") +
xlab("Fósforo Total") + theme_bw()
ggplot(rich.env.jun, aes(p.tot, n.tot)) +
geom_point(aes(color = rich, size = prof *
-1, shape = clayfac)) + ylab("Nitrogênio Total") +
xlab("Fósforo Total") + theme_bw()
200
prof * −1
100
150
200
250
Nitrogênio Total
300
rich
25
20
15
10
5
0
clayfac
Alto
Baixo
0
40
Thiago S. F. Silva [email protected]
60
80
100
Fósforo Total
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Elementos de um bom gráfico
Foco na informação que se quer enfatizar
Quanto menor a razão tinta/papel, melhor
Selecione e ordene suas variáveis de acordo com a pergunta a
ser respondida
Cores e formas só devem ser usadas se também trouxerem
informação!
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Elementos de um bom gráfico
Foco na informação que se quer enfatizar
Quanto menor a razão tinta/papel, melhor
Selecione e ordene suas variáveis de acordo com a pergunta a
ser respondida
Cores e formas só devem ser usadas se também trouxerem
informação!
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Elementos de um bom gráfico
Foco na informação que se quer enfatizar
Quanto menor a razão tinta/papel, melhor
Selecione e ordene suas variáveis de acordo com a pergunta a
ser respondida
Cores e formas só devem ser usadas se também trouxerem
informação!
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Elementos de um bom gráfico
Foco na informação que se quer enfatizar
Quanto menor a razão tinta/papel, melhor
Selecione e ordene suas variáveis de acordo com a pergunta a
ser respondida
Cores e formas só devem ser usadas se também trouxerem
informação!
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Elementos de um bom gráfico
Foco na informação que se quer enfatizar
Quanto menor a razão tinta/papel, melhor
Selecione e ordene suas variáveis de acordo com a pergunta a
ser respondida
Cores e formas só devem ser usadas se também trouxerem
informação!
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Qual a pergunta a ser respondida?
Diferença entre classes, para cada polarização?
HH
HV
1.5
0.2
sigma0
1.0
0.1
0.5
0.0
0.0
aguafloresta_inundavel
floresta_terrafirme
macrofitas_emergentes
macrofitas_flutuantes
soloarbustos_inundaveis
aguafloresta_inundavel
floresta_terrafirme
macrofitas_emergentes
macrofitas_flutuantes
soloarbustos_inundaveis
classe
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Qual a pergunta a ser respondida?
Ou a diferença entre polarizações, para cada classe?
agua
floresta_inundavel
0.2
0.0
sigma0
macrofitas_emergentes
floresta_terrafirme
1.00
1.25
1.00
0.75
0.50
0.25
0.00
0.4
0.75
0.50
0.25
0.00
macrofitas_flutuantes
solo
1.00
1.25
1.00
0.75
0.50
0.25
0.00
0.9
0.75
0.6
0.50
0.3
0.25
0.0
0.00
arbustos_inundaveis
1.5
1.0
0.5
0.0
HH
HV
pol
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 5 variáveis
0.4
0.2
arbustos_inundaveis
solo
macrofitas_flutuantes
macrofitas_emergentes
floresta_terrafirme
floresta_inundavel
agua
0.0
mean.bs
0.6
Isso é melhor . . .
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Outline
Pra que serve análise exploratória?
Codificação e organização de dados
Estatística Descritiva: medidas de tendência central e dispersão
Análise Gráfica
Tipos de Gráficos - 5 variáveis
. . . do que isso
0.6
Isso é melhor . . .
0.4
0.7
0.6
0.5
0.2
0.4
0.3
0.2
0.1
0.0
0
arbustos_inundaveis
solo
macrofitas_flutuantes
macrofitas_emergentes
floresta_terrafirme
floresta_inundavel
-0.1
agua
mean.bs
0.8
Thiago S. F. Silva [email protected]
Aula 14: Análise Exploratória de Dados
Download

Aula 14: Análise Exploratória de Dados - SER-202 - DPI