Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Aula 14: Análise Exploratória de Dados SER-202 Estatística: Aplicações ao Sensoriamento Remoto Thiago S. F. Silva [email protected] 25/04/2013 Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica 1 Pra que serve análise exploratória? 2 Codificação e organização de dados 3 Estatística Descritiva: medidas de tendência central e dispersão 4 Análise Gráfica Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Análise Exploratória de Dados (AED) Você iria a um encontro às escuras? Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Análise Exploratória de Dados (AED) Você iria a um encontro às escuras? Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Análise Exploratória de Dados (AED) É essencial ficar “íntimo” dos dados antes de qualquer análise Você já possui um modelo conceitual (né?) Será que seus dados se conformam à esse modelo? Será que seus dados foram coletados corretamente? Será que seus dados foram registrados corretamente? Será . . . ? Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Análise Exploratória de Dados (AED) É essencial ficar “íntimo” dos dados antes de qualquer análise Você já possui um modelo conceitual (né?) Será que seus dados se conformam à esse modelo? Será que seus dados foram coletados corretamente? Será que seus dados foram registrados corretamente? Será . . . ? Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Análise Exploratória de Dados (AED) É essencial ficar “íntimo” dos dados antes de qualquer análise Você já possui um modelo conceitual (né?) Será que seus dados se conformam à esse modelo? Será que seus dados foram coletados corretamente? Será que seus dados foram registrados corretamente? Será . . . ? Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Análise Exploratória de Dados (AED) É essencial ficar “íntimo” dos dados antes de qualquer análise Você já possui um modelo conceitual (né?) Será que seus dados se conformam à esse modelo? Será que seus dados foram coletados corretamente? Será que seus dados foram registrados corretamente? Será . . . ? Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Análise Exploratória de Dados (AED) É essencial ficar “íntimo” dos dados antes de qualquer análise Você já possui um modelo conceitual (né?) Será que seus dados se conformam à esse modelo? Será que seus dados foram coletados corretamente? Será que seus dados foram registrados corretamente? Será . . . ? Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Análise Exploratória de Dados (AED) É essencial ficar “íntimo” dos dados antes de qualquer análise Você já possui um modelo conceitual (né?) Será que seus dados se conformam à esse modelo? Será que seus dados foram coletados corretamente? Será que seus dados foram registrados corretamente? Será . . . ? Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Análise Exploratória de Dados (AED) summary(m1) ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## Call: lm(formula = y ~ x) Residuals: Min 1Q Median -6.294 -2.268 -0.174 3Q 1.851 Max 7.184 Coefficients: Estimate Std. Error t value (Intercept) -0.0424 0.7910 -0.05 x 1.0731 0.0369 29.05 Pr(>|t|) (Intercept) 0.96 x <2e-16 *** --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 2.92 on 38 degrees of freedom Multiple R-squared: 0.957, Adjusted R-squared: 0.956 F-statistic: 844 on 1 and 38 DF, p-value: <2e-16 Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Análise Exploratória de Dados (AED) 20 0 10 y 30 40 x <- c(rnorm(20,5,1),rnorm(20,30,1)) y <- x + rnorm(40,0,3) 5 10 Thiago S. F. Silva [email protected] 15 20 25 30 x Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Análise Exploratória de Dados (AED) summary(m2) ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## Call: lm(formula = y2 ~ x2) Residuals: Min 1Q Median -273.1 -219.7 -72.5 3Q 210.6 Max 488.1 Coefficients: Estimate Std. Error t value (Intercept) 271.28 34.39 7.89 x2 1.18 2.97 0.40 Pr(>|t|) (Intercept) 3.2e-10 *** x2 0.69 --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 243 on 48 degrees of freedom Multiple R-squared: 0.00331, Adjusted R-squared: -0.0175 F-statistic: 0.159 on 1 and 48 DF, p-value: 0.692 Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Análise Exploratória de Dados (AED) 400 0 200 y2 600 x2 <- runif(50,-20,20) y2 <- 2 + 3*x2 + (2*x22 ) + rnorm(50, 0, 3) −20 −10 Thiago S. F. Silva [email protected] 0 10 20 x2 Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Análise Exploratória de Dados (AED) "O Quarteto de Anscombe" Anscombe, F.J., 1973. Graphs in Statistical Analysis. The American Statistician 27, 17–21. m1 <- lm(y1 ~ x1, data = ans) m1$coefficients m3 <- lm(y3 ~ x3, data = ans) m3$coefficients ## (Intercept) ## 3.0001 ## (Intercept) ## 3.0025 x1 0.5001 x3 0.4997 m2 <- lm(y2 ~ x2, data = ans) m2$coefficients m4 <- lm(y4 ~ x4, data = ans) m4$coefficients ## (Intercept) ## 3.001 ## (Intercept) ## 3.0017 x2 0.500 Thiago S. F. Silva [email protected] x4 0.4999 Aula 14: Análise Exploratória de Dados 4 6 5 6 8 10 ans$y3 8 7 ans$y1 9 10 12 11 Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica 4 6 8 10 12 14 4 6 8 10 12 14 ans$x3 ans$y4 8 6 5 6 4 3 ans$y2 7 10 8 12 9 ans$x1 4 6 8 10 12 14 ans$x2 Thiago S. F. Silva [email protected] 8 10 12 14 16 ans$x4 Aula 14: Análise Exploratória de Dados 18 Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Análise Exploratória de Dados (AED) A Análise Exploratória é normalmente composta por: Estatísticas Descritivas Aderência à distribuição Análise Gráfica Análise de Relações Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Codificação de Variáveis Teoria da mensuração Quantitativas Variáveis Categóricas Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Codificação de Variáveis Teoria da mensuração Quantitativas Variáveis Ordinais Categóricas Nominais Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Codificação de Variáveis Teoria da mensuração Quantitativas Variáveis Ordinais Categóricas Nominais Thiago S. F. Silva [email protected] (Binárias) Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Codificação de Variáveis Teoria da mensuração Razão Quantitativas Intervalo Variáveis Ordinais Categóricas Nominais (Binárias) Binárias Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Codificação de Variáveis Teoria da mensuração Contínuas Quantitativas Discretas Variáveis Ordinais Categóricas Nominais (Binárias) Binárias Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Codificação de Variáveis Exemplos Binária: Sim/Não, Masculino/Feminino Nominal: Esquerda/Direita/Centro, Floresta/Água/Solo Ordinal: Ruim/Médio/Bom, Baixo/Médio/Alto Intervalo: temperatura (◦ C), data Razão: temperatura (K), altura (m), peso (g) Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Organização de Dados Na maioria das vezes, recebemos ou tabulamos nossos dados no formato wide (largo) Mas a maioria dos pacotes de análise requer tabela no formato long (longo) Tabela : Retroespalhamento em imagem Radarsat-2 dual-pol (HH/HV), modo S1, para classes de cobertura da terra na várzea Amazônica, durante a estação seca. Fl = floresta, in = inundável, tf = terra firme, mac = macrófita, em = emergente, fl = flutuante, ag = água 1 2 3 4 5 6 ... ag.HH 0.06 0.03 0.05 0.03 0.07 0.04 ... fl.in.HH 0.12 0.13 0.24 0.11 0.24 0.21 ... fl.tf.HH 0.19 0.39 0.16 0.18 0.17 0.21 ... mac.em.HH 0.30 0.16 0.14 0.21 0.06 0.25 ... Thiago S. F. Silva [email protected] mac.fl.HH 0.29 0.48 0.35 0.20 0.20 0.32 ... solo.HH 0.31 0.12 0.31 0.23 0.17 0.21 ... ag.HV 0.00 0.00 0.00 0.00 0.00 0.00 ... fl.in.HV 0.04 0.06 0.11 0.02 0.03 0.04 ... Aula 14: Análise Exploratória de Dados ... ... ... ... ... ... ... Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Organização de Dados Na maioria das vezes, recebemos ou tabulamos nossos dados no formato wide (largo) Mas a maioria dos pacotes de análise requer tabela no formato long (longo) Tabela : Retroespalhamento em imagem Radarsat-2 dual-pol (HH/HV), modo S1, para classes de cobertura da terra na várzea Amazônica, durante a estação seca. Fl = floresta, in = inundável, tf = terra firme, mac = macrófita, em = emergente, fl = flutuante, ag = água 1 2 3 4 5 6 ... ag.HH 0.06 0.03 0.05 0.03 0.07 0.04 ... fl.in.HH 0.12 0.13 0.24 0.11 0.24 0.21 ... fl.tf.HH 0.19 0.39 0.16 0.18 0.17 0.21 ... mac.em.HH 0.30 0.16 0.14 0.21 0.06 0.25 ... mac.fl.HH 0.29 0.48 0.35 0.20 0.20 0.32 ... solo.HH 0.31 0.12 0.31 0.23 0.17 0.21 ... ag.HV 0.00 0.00 0.00 0.00 0.00 0.00 ... fl.in.HV 0.04 0.06 0.11 0.02 0.03 0.04 ... Quantas variáveis existem nessa tabela? Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados ... ... ... ... ... ... ... Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Quantas variáveis? Tabela : Retroespalhamento em imagem Radarsat-2 dual-pol(HH/HV), modo S1, para classes de cobertura da terra na várzea Amazônica, durante a estação seca. Fl = floresta, in = inundável, tf = terra firme, mac = macrófita, em = emergente, fl = flutuante, ag = água obs 1 2 3 4 5 6 ... ag.HH 0.06 0.03 0.05 0.03 0.07 0.04 ... fl.in.HH 0.12 0.13 0.24 0.11 0.24 0.21 ... fl.tf.HH 0.19 0.39 0.16 0.18 0.17 0.21 ... mac.em.HH 0.30 0.16 0.14 0.21 0.06 0.25 ... Thiago S. F. Silva [email protected] mac.fl.HH 0.29 0.48 0.35 0.20 0.20 0.32 ... solo.HH 0.31 0.12 0.31 0.23 0.17 0.21 ... ag.HV 0.00 0.00 0.00 0.00 0.00 0.00 ... fl.in.HV 0.04 0.06 0.11 0.02 0.03 0.04 ... Aula 14: Análise Exploratória de Dados ... ... ... ... ... ... ... Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Quantas variáveis? Tabela : Retroespalhamento em imagem Radarsat-2 dual-pol(HH/HV), modo S1, para classes de cobertura da terra na várzea Amazônica, durante a estação seca. Fl = floresta, in = inundável, tf = terra firme, mac = macrófita, em = emergente, fl = flutuante, ag = água obs 1 2 3 4 5 6 ... ag.HH 0.06 0.03 0.05 0.03 0.07 0.04 ... fl.in.HH 0.12 0.13 0.24 0.11 0.24 0.21 ... fl.tf.HH 0.19 0.39 0.16 0.18 0.17 0.21 ... mac.em.HH 0.30 0.16 0.14 0.21 0.06 0.25 ... mac.fl.HH 0.29 0.48 0.35 0.20 0.20 0.32 ... solo.HH 0.31 0.12 0.31 0.23 0.17 0.21 ... ag.HV 0.00 0.00 0.00 0.00 0.00 0.00 ... fl.in.HV 0.04 0.06 0.11 0.02 0.03 0.04 ... Classe de cobertura Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados ... ... ... ... ... ... ... Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Quantas variáveis? Tabela : Retroespalhamento em imagem Radarsat-2 dual-pol(HH/HV), modo S1, para classes de cobertura da terra na várzea Amazônica, durante a estação seca. Fl = floresta, in = inundável, tf = terra firme, mac = macrófita, em = emergente, fl = flutuante, ag = água obs 1 2 3 4 5 6 ... ag.HH 0.06 0.03 0.05 0.03 0.07 0.04 ... fl.in.HH 0.12 0.13 0.24 0.11 0.24 0.21 ... fl.tf.HH 0.19 0.39 0.16 0.18 0.17 0.21 ... mac.em.HH 0.30 0.16 0.14 0.21 0.06 0.25 ... mac.fl.HH 0.29 0.48 0.35 0.20 0.20 0.32 ... solo.HH 0.31 0.12 0.31 0.23 0.17 0.21 ... ag.HV 0.00 0.00 0.00 0.00 0.00 0.00 ... fl.in.HV 0.04 0.06 0.11 0.02 0.03 0.04 ... Classe de cobertura Polarização Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados ... ... ... ... ... ... ... Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Quantas variáveis? Tabela : Retroespalhamento em imagem Radarsat-2 dual-pol(HH/HV), modo S1, para classes de cobertura da terra na várzea Amazônica, durante a estação seca. Fl = floresta, in = inundável, tf = terra firme, mac = macrófita, em = emergente, fl = flutuante, ag = água obs 1 2 3 4 5 6 ... ag.HH 0.06 0.03 0.05 0.03 0.07 0.04 ... fl.in.HH 0.12 0.13 0.24 0.11 0.24 0.21 ... fl.tf.HH 0.19 0.39 0.16 0.18 0.17 0.21 ... mac.em.HH 0.30 0.16 0.14 0.21 0.06 0.25 ... mac.fl.HH 0.29 0.48 0.35 0.20 0.20 0.32 ... solo.HH 0.31 0.12 0.31 0.23 0.17 0.21 ... ag.HV 0.00 0.00 0.00 0.00 0.00 0.00 ... fl.in.HV 0.04 0.06 0.11 0.02 0.03 0.04 ... Classe de cobertura Polarização Retroespalhamento Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados ... ... ... ... ... ... ... Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Quantas variáveis? Tabela : Retroespalhamento em imagem Radarsat-2 dual-pol(HH/HV), modo S1, para classes de cobertura da terra na várzea Amazônica, durante a estação seca. Fl = floresta, in = inundável, tf = terra firme, mac = macrófita, em = emergente, fl = flutuante, ag = água obs 1 2 3 4 5 6 ... ag.HH 0.06 0.03 0.05 0.03 0.07 0.04 ... fl.in.HH 0.12 0.13 0.24 0.11 0.24 0.21 ... fl.tf.HH 0.19 0.39 0.16 0.18 0.17 0.21 ... mac.em.HH 0.30 0.16 0.14 0.21 0.06 0.25 ... Classe de cobertura mac.fl.HH 0.29 0.48 0.35 0.20 0.20 0.32 ... solo.HH 0.31 0.12 0.31 0.23 0.17 0.21 ... ag.HV 0.00 0.00 0.00 0.00 0.00 0.00 ... fl.in.HV 0.04 0.06 0.11 0.02 0.03 0.04 ... * Sensor (Radarsat-2) Polarização Retroespalhamento Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados ... ... ... ... ... ... ... Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Quantas variáveis? Tabela : Retroespalhamento em imagem Radarsat-2 dual-pol(HH/HV), modo S1, para classes de cobertura da terra na várzea Amazônica, durante a estação seca. Fl = floresta, in = inundável, tf = terra firme, mac = macrófita, em = emergente, fl = flutuante, ag = água obs 1 2 3 4 5 6 ... ag.HH 0.06 0.03 0.05 0.03 0.07 0.04 ... fl.in.HH 0.12 0.13 0.24 0.11 0.24 0.21 ... fl.tf.HH 0.19 0.39 0.16 0.18 0.17 0.21 ... mac.em.HH 0.30 0.16 0.14 0.21 0.06 0.25 ... mac.fl.HH 0.29 0.48 0.35 0.20 0.20 0.32 ... solo.HH 0.31 0.12 0.31 0.23 0.17 0.21 ... ag.HV 0.00 0.00 0.00 0.00 0.00 0.00 ... fl.in.HV 0.04 0.06 0.11 0.02 0.03 0.04 ... ... ... ... ... ... ... ... Classe de cobertura * Sensor (Radarsat-2) Polarização * Modo de aquisição (S1) Retroespalhamento Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Quantas variáveis? Tabela : Retroespalhamento em imagem Radarsat-2 dual-pol(HH/HV), modo S1, para classes de cobertura da terra na várzea Amazônica, durante a estação seca. Fl = floresta, in = inundável, tf = terra firme, mac = macrófita, em = emergente, fl = flutuante, ag = água obs 1 2 3 4 5 6 ... ag.HH 0.06 0.03 0.05 0.03 0.07 0.04 ... fl.in.HH 0.12 0.13 0.24 0.11 0.24 0.21 ... fl.tf.HH 0.19 0.39 0.16 0.18 0.17 0.21 ... mac.em.HH 0.30 0.16 0.14 0.21 0.06 0.25 ... mac.fl.HH 0.29 0.48 0.35 0.20 0.20 0.32 ... solo.HH 0.31 0.12 0.31 0.23 0.17 0.21 ... ag.HV 0.00 0.00 0.00 0.00 0.00 0.00 ... fl.in.HV 0.04 0.06 0.11 0.02 0.03 0.04 ... ... ... ... ... ... ... ... Classe de cobertura * Sensor (Radarsat-2) Polarização * Modo de aquisição (S1) Retroespalhamento * Estação do ano (seca) Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica No formato longo, cada coluna descreve uma variável, e cada linha representa uma observação: Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica No formato longo, cada coluna descreve uma variável, e cada linha representa uma observação: obs 101 102 103 ... 301 302 303 ... 501 502 503 ... 1501 1502 1503 ... 1701 1702 1703 ... 1901 1902 1903 ... pol HH HH HH ... HH HH HH ... HH HH HH ... HV HV HV ... HV HV HV ... HV HV HV ... classe sigma0 agua 0.04 agua 0.08 agua 0.06 ... ... floresta_inundavel 0.07 floresta_inundavel 0.48 floresta_inundavel 0.10 ... ... floresta_terrafirme 0.40 floresta_terrafirme 0.04 floresta_terrafirme 0.51 ... ... agua 0.01 agua 0.00 agua 0.00 ... ... floresta_inundavel 0.06 floresta_inundavel 0.02 floresta_inundavel 0.12 ... ... floresta_terrafirme 0.04 floresta_terrafirme 0.04 floresta_terrafirme 0.04 ... ... Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica No formato longo, cada coluna descreve uma variável, e cada linha representa uma observação: obs 101 102 103 ... 301 302 303 ... 501 502 503 ... 1501 1502 1503 ... 1701 1702 1703 ... 1901 1902 1903 ... pol HH HH HH ... HH HH HH ... HH HH HH ... HV HV HV ... HV HV HV ... HV HV HV ... classe sigma0 agua 0.04 agua 0.08 agua 0.06 ... ... floresta_inundavel 0.07 floresta_inundavel 0.48 floresta_inundavel 0.10 ... ... floresta_terrafirme 0.40 floresta_terrafirme 0.04 floresta_terrafirme 0.51 ... ... agua 0.01 agua 0.00 agua 0.00 ... ... floresta_inundavel 0.06 floresta_inundavel 0.02 floresta_inundavel 0.12 ... ... floresta_terrafirme 0.04 floresta_terrafirme 0.04 floresta_terrafirme 0.04 ... ... Thiago S. F. Silva [email protected] Que tipo de variável é cada uma destas? Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Estatística Descritiva: tendência central e dispersão Através da estatística descritiva, buscamos: Localizar nossos dados no espaço (numérico) Quais os valores esperados para estes dados? Quantificar a dispersão destes dados em torno desta localidade Qual a variância dos meus dados? Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Estatística Descritiva: tendência central e dispersão Tendência central para dados contínuos? Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Estatística Descritiva: tendência central e dispersão Tendência central para dados contínuos? Média aritmética Thiago S. F. Silva [email protected] X̄(arit) = n 1X xi n i=1 Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Estatística Descritiva: tendência central e dispersão Tendência central para dados contínuos? Média aritmética Média geométrica Thiago S. F. Silva [email protected] X̄(geom) = n Y !1 n xi i=1 X̄(geom) n 1X = exp log xi n i=1 Aula 14: Análise Exploratória de Dados ! Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Estatística Descritiva: tendência central e dispersão Tendência central para dados contínuos? Média aritmética Média geométrica X̄ = n 1 1X n i=1 xi !−1 Média harmônica Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tendência Central: Exemplos Média Aritmética: para variáveis que se somam (efeitos aditivos) Se eu tenho três pacotes, de 1kg, 6kg, e 3kg, quanto carrego de peso em média? 1+6+3 3 = 3.3333 Ou seja, seria o mesmo que carregar 3 pacotes de 3.3333kg somados Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tendência Central: Exemplos Média Geométrica: para variáveis que se multiplicam (efeitos cumulativos) Se sua bolsa de mestrado recebe um aumento de 1% no primeiro ano, 6% no segundo ano, e 3% no terceiro ano, qual é o aumento médio nos 3 anos? Bolsa final: R$ 1500 ∗ 1.01 ∗ 1.06 ∗ 1.03 = R$ 1654.077 1 1 (1.01 ∗ 1.06 ∗ 1.03) 3 = 1.1027 3 = 1.0331 Ou seja, o aumento percentual médio foi de 1.0331 Redimento: 1500 ∗ 1.0331 ∗ 1.0331 ∗ 1.0331 = 1653.9346 Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tendência Central: Exemplos Média Geométrica: para variáveis que se multiplicam (efeitos cumulativos) Se sua bolsa de mestrado recebe um aumento de 1% no primeiro ano, 6% no segundo ano, e 3% no terceiro ano, qual é o aumento médio nos 3 anos? Bolsa final: R$ 1500 ∗ 1.01 ∗ 1.06 ∗ 1.03 = R$ 1654.077 1 1 (1.01 ∗ 1.06 ∗ 1.03) 3 = 1.1027 3 = 1.0331 Ou seja, o aumento percentual médio foi de 1.0331 Redimento: 1500 ∗ 1.0331 ∗ 1.0331 ∗ 1.0331 = 1653.9346 Aritmética: 1500 ∗ 1.0333 ∗ 1.0333 ∗ 1.0333 = 1654.8954 Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tendência Central: Exemplos Média Harmônica: para taxas e proporções Você viaja de carro por 300km, a 20km/h nos primeiros 100km, a 40km/h nos próximos 100km, e finalmente a 80km/h nos 100km finais. Que velocidade você deveria manter constante para percorrer os mesmos 300km, no mesmo tempo? Parte 1: 100/20 = 5h; Parte 2: 100/40 = 2.5h; 100/80 = 1.25h; Tempo total =8.75h −1 1 1 1 + 40 + 80 = 34.2857 ( 13 × 20 Ou seja, uma velocidade média de 34.2857 km/h Distancia: 34.2857 * 8.75 = 300 Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tendência Central: Exemplos Média Harmônica: para taxas e proporções Você viaja de carro por 300km, a 20km/h nos primeiros 100km, a 40km/h nos próximos 100km, e finalmente a 80km/h nos 100km finais. Que velocidade você deveria manter constante para percorrer os mesmos 300km, no mesmo tempo? Parte 1: 100/20 = 5h; Parte 2: 100/40 = 2.5h; 100/80 = 1.25h; Tempo total =8.75h −1 1 1 1 + 40 + 80 = 34.2857 ( 13 × 20 Ou seja, uma velocidade média de 34.2857 km/h Distancia: 34.2857 * 8.75 = 300 Aritmética: 46.6667 * 8.75 = 408.3333 Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Estatística Descritiva: tendência central e dispersão Dispersão para dados contínuos? Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Estatística Descritiva: tendência central e dispersão Dispersão para dados contínuos? s2 = Variância e Desvio Padrão Thiago S. F. Silva [email protected] n 1 X (xi − x̄ ) n − 1 i=1 √ s = s2 Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Estatística Descritiva: tendência central e dispersão Dispersão para dados contínuos? Variância e Desvio Padrão A = max (x ) − min(x ) Amplitude Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Estatística Descritiva: tendência central e dispersão Dispersão para dados contínuos? Variância e Desvio Padrão CV = Amplitude s ∗ 100(%) x̄ Coeficiente de Variação Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica set.seed(1979) x <- rnorm(500, 50, 10) cv <- function(x) sd(x)/mean(x) * 100 mean(x) 0.05 Histogram of x Density ## [1] 9.878 ## [1] 19.61 hist(x, breaks = 40, prob = T, xlim = c(0, 100), col = "gray70") curve(dnorm(x, mean = 50, sd = 10), add = T) abline(v = mean(x), col = "red") abline(v = c(mean(x) + sd(x), mean(x) - sd(x)), col = "blue") abline(v = c(mean(x) + 2 * sd(x), mean(x) 2 * sd(x)), col = "purple") Thiago S. F. Silva [email protected] 0.00 0.01 cv(x) 0.02 sd(x) 0.03 0.04 ## [1] 50.36 0 20 40 60 x Aula 14: Análise Exploratória de Dados 80 100 Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica set.seed(1979) x <- rnorm(500, 50, 20) cv <- function(x) sd(x)/mean(x) * 100 mean(x) Histogram of x 0.020 ## [1] 50.73 Density ## [1] 19.76 ## [1] 38.94 hist(x, breaks = 40, prob = T, xlim = c(0, 100), col = "gray70") curve(dnorm(x, mean = 50, sd = 20), add = T) abline(v = mean(x), col = "red") abline(v = c(mean(x) + sd(x), mean(x) - sd(x)), col = "blue") abline(v = c(mean(x) + 2 * sd(x), mean(x) 2 * sd(x)), col = "purple") Thiago S. F. Silva [email protected] 0.000 0.005 cv(x) 0.010 0.015 sd(x) 0 20 40 60 x Aula 14: Análise Exploratória de Dados 80 100 Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Estatística Descritiva: tendência central e dispersão Quantis (quantiles, percentis): medidas robustas de tendência central e dispersão Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Estatística Descritiva: tendência central e dispersão Quantis (quantiles, percentis): medidas robustas de tendência central e dispersão P(X ≤ m) ≥ 1 2 P(X ≥ m) ≤ 1 2 Mediana:valor mais central (50%/50%) Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Estatística Descritiva: tendência central e dispersão Quantis (quantiles, percentis): medidas robustas de tendência central e dispersão Mediana:valor mais central (50%/50%) q : P(X ≤ q) ≤ i i-ésimo quantil: Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Estatística Descritiva: tendência central e dispersão Quantis (quantiles, percentis): medidas robustas de tendência central e dispersão Mediana:valor mais central (50%/50%) i-ésimo quantil: i-ésimo quantil = percentil de 100 ∗ i% Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Estatística Descritiva: tendência central e dispersão Quantis (quantiles, percentis): medidas robustas de tendência central e dispersão Mediana:valor mais central (50%/50%) i-ésimo quantil: i-ésimo quantil = percentil de 100 ∗ i% Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Estatística Descritiva: tendência central e dispersão Quantis (quantiles, percentis): medidas robustas de tendência central e dispersão Mediana:valor mais central (50%/50%) i-ésimo quantil: i-ésimo quantil = percentil de 100 ∗ i% qi : i = 0.25 , qi : i = 0.50 e qi : i = 0.75 são chamados de quartis Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica set.seed(1979) x <- rnorm(500, 50, 20) median(x) Histogram of x 0.020 ## [1] 51.4 0.005 quantile(x, prob = c(0.25, 0.75)) 0.010 ## 50% ## 51.4 Density 0.015 quantile(x, prob = 0.5) 0.000 ## 25% 75% ## 37.77 64.73 hist(x, breaks = 40, prob = T, xlim = c(0, 100), col = "gray70") curve(dnorm(x, mean = 50, sd = 20), add = T) abline(v = median(x), col = "red", lwd = 2, lty = 2) abline(v = quantile(x, prob = c(0.25, 0.75)), col = "blue", lwd = 2, lty = 2) Thiago S. F. Silva [email protected] 0 20 40 60 x Aula 14: Análise Exploratória de Dados 80 100 Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Histogram of x 0.015 0.010 0.000 0.005 Density hist(x, breaks = 40, prob = T, xlim = c(0, 100), col = "gray70") curve(dnorm(x, mean = 50, sd = 20), add = T) abline(v = mean(x), col = "red", lwd = 2, lty = 1) abline(v = median(x), col = "red", lwd = 2, lty = 2) abline(v = c(mean(x) + sd(x), mean(x) - sd(x)), col = "blue", lwd = 2, lty = 1) abline(v = quantile(x, prob = c(0.25, 0.75)), col = "purple", lwd = 2, lty = 2) abline(v = quantile(x, prob = c(0.16, 0.84)), col = "blue", lwd = 2, lty = 2) 0.020 set.seed(1979) x <- rnorm(500, 50, 20) 0 20 40 60 x Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados 80 100 Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica set.seed(1979) x <- rgeom(500, 0.1) mean(x) ## [1] 8.66 Density median(x) ## [1] 6 sd(x) ## [1] 8.847 quantile(x, probs = c(0.25, 0.5)) 0.00 0.02 0.04 0.06 0.08 0.10 0.12 Histogram of x 0 10 20 30 40 x ## 25% 50% ## 3 6 Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados 50 60 70 Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica hist(x, breaks = 30, prob = T, col = "gray70") abline(v = mean(x), col = "red", lwd = 2, lty = 1) abline(v = median(x), col = "red", lwd = 2, lty = 2) abline(v = c(mean(x) + sd(x), mean(x) - sd(x)), col = "blue", lwd = 2, lty = 1) abline(v = quantile(x, prob = c(0.25, 0.75)), col = "purple", lwd = 2, lty = 2) abline(v = quantile(x, prob = c(0.16, 0.84)), col = "blue", lwd = 2, lty = 2) Density set.seed(1979) x <- rgeom(500, 0.1) 0.00 0.02 0.04 0.06 0.08 0.10 0.12 Histogram of x 0 10 20 30 40 x Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados 50 60 70 Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Os quantis são muito mais robustos com relação a valores extremos (outliers) mean(x) Density ## [1] 4.8 median(x) ## [1] 3.5 hist(x, breaks = 40, prob = T, , col = "gray70") abline(v = mean(x), col = "red", lwd = 2, lty = 1) abline(v = median(x), col = "red", lwd = 2, lty = 2) 0.00 0.05 0.10 0.15 0.20 0.25 0.30 Histogram of x x <- c(1, 2, 3, 2, 3, 4, 5, 6, 2, 3, 5, 4, 1, 2, 3, 4, 5, 5, 6, 30) 0 5 10 15 20 x Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados 25 30 Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Os quantis são muito mais robustos com relação a valores extremos (outliers) Histogram of x mean(x) Density ## [1] 18.3 ## [1] 3.5 hist(x, breaks = 80, prob = T, , col = "gray70") abline(v = mean(x), col = "red", lwd = 2, lty = 1) abline(v = median(x), col = "red", lwd = 2, lty = 2) 0.00 0.05 median(x) 0.10 0.15 x <- c(1, 2, 3, 2, 3, 4, 5, 6, 2, 3, 5, 4, 1, 2, 3, 4, 5, 5, 6, 300) 0 50 100 150 200 x Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados 250 300 Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Os quantis são muito mais robustos com relação a valores extremos (outliers) x <- c(1, 2, 3, 2, 3, 4, 5, 6, 2, 3, 5, 4, 1, 2, 3, 4, 5, 5, 6, 30) ## [1] 6.127 Density quantile(x, prob = c(0.16, 0.84)) ## 16% 84% ## 2 5 hist(x, breaks = 40, prob = T, , col = "gray70") abline(v = mean(x), col = "red", lwd = 2, lty = 1) abline(v = median(x), col = "red", lwd = 2, lty = 2) abline(v = c(mean(x) - sd(x), mean(x) + sd(x)), col = "blue", lwd = 2, lty = 1) abline(v = quantile(x, prob = c(0.16, 0.84)), col = "blue", lwd = 2, lty = 2) Thiago S. F. Silva [email protected] 0.00 0.05 0.10 0.15 0.20 0.25 0.30 Histogram of x sd(x) 0 5 10 15 20 x Aula 14: Análise Exploratória de Dados 25 30 Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Estatística Descritiva: tendência central e dispersão Tendência e dispersão para dados categóricos? Qual a média de (Floresta, Solo, Água)? Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Estatística Descritiva: tendência central e dispersão Tendência e dispersão para dados categóricos? Qual a média de (Floresta, Solo, Água)? Solução: contagens, frequência, porcentagem, chance (odds) Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Estatística Descritiva: tendência central e dispersão Tendência e dispersão para dados categóricos? Qual a média de (Floresta, Solo, Água)? Solução: contagens, frequência, porcentagem, chance (odds) Exemplo: Você gosta de estatística? Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Estatística Descritiva: tendência central e dispersão Tendência e dispersão para dados categóricos? Qual a média de (Floresta, Solo, Água)? Solução: contagens, frequência, porcentagem, chance (odds) Exemplo: Você gosta de estatística? Obs. Gosto 1 Sim 2 Não 3 Não 4 Não 5 Não 6 Não 7 Não 8 Sim 9 Sim Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Estatística Descritiva: tendência central e dispersão Tendência e dispersão para dados categóricos? Qual a média de (Floresta, Solo, Água)? Solução: contagens, frequência, porcentagem, chance (odds) Exemplo: Você gosta de estatística? Obs. Gosto 1 Sim 2 Não 3 Não 4 Não Variável Contagem Frequência Porcentagem Chance 5 Não Sim 3 0.33 33% 0.5 6 Não Não 6 0.66 66% 2 7 Não 8 Sim 9 Sim Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Estatística Descritiva: tendência central e dispersão Tendência e dispersão para dados categóricos? Exemplo: O quanto você gosta de estatística? (1-Abomino, 2-Odeio, 3-Não Gosto, 4-Tolero,5-Adoro) Obs. Gosto 1 5 2 1 3 1 4 1 5 2 6 2 7 3 8 3 9 4 Variável Contagem Frequência Porcentagem Abomino 3 0.33 33% 0.5 Odeio 2 0.25 25% 0.29 Não Gosto 2 0.25 25% 0.29 Tolero 1 0.1 10% 0.125 Adoro 1 0.1 10% 0.125 Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Chance Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Análise Gráfica O ser humano tem uma capacidade incrível de processar informações visuais A análise gráfica pode ser considerada uma das partes mais importantes do processo Muitas questões podem ser respondidas sem a necessidade de (mindless) testes A visualição de gráficos tem sido um tópico hot em estatística atualmente Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Análise Gráfica O ser humano tem uma capacidade incrível de processar informações visuais A análise gráfica pode ser considerada uma das partes mais importantes do processo Muitas questões podem ser respondidas sem a necessidade de (mindless) testes A visualição de gráficos tem sido um tópico hot em estatística atualmente Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Análise Gráfica O ser humano tem uma capacidade incrível de processar informações visuais A análise gráfica pode ser considerada uma das partes mais importantes do processo Muitas questões podem ser respondidas sem a necessidade de (mindless) testes A visualição de gráficos tem sido um tópico hot em estatística atualmente Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Análise Gráfica O ser humano tem uma capacidade incrível de processar informações visuais A análise gráfica pode ser considerada uma das partes mais importantes do processo Muitas questões podem ser respondidas sem a necessidade de (mindless) testes A visualição de gráficos tem sido um tópico hot em estatística atualmente Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 1 variável Histograma Adequado para mostrar distribuições, pode ser usado tanto para dados categóricos quanto contínuos É importante definirem-se bem as subdivisões (bins) Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 1 variável Histograma Adequado para mostrar distribuições, pode ser usado tanto para dados categóricos quanto contínuos É importante definirem-se bem as subdivisões (bins) Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 1 variável Histograma plot.data <- subset(bs, bs$modo == "S1" & bs$pol == "HH" & bs$classe == "floresta_inundavel" & bs$data == "2011-07-06") hist(plot.data$sigma0) 30 20 0 10 Frequency 40 Histogram of plot.data$sigma0 0.0 0.2 0.4 0.6 0.8 1.0 plot.data$sigma0 Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados 1.2 1.4 Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 1 variável Histograma hist(plot.data$sigma0, breaks = 40) 10 0 5 Frequency 15 20 Histogram of plot.data$sigma0 0.2 0.4 0.6 0.8 plot.data$sigma0 Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados 1.0 1.2 Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 1 variável Histograma hist(plot.data$sigma0, breaks = 40) hist(plot.data$sigma0, breaks = 100) 3 0 1 2 Frequency 4 5 6 Histogram of plot.data$sigma0 0.2 0.4 0.6 0.8 plot.data$sigma0 Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados 1.0 1.2 Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 1 variável Histograma hist(plot.data$sigma0, breaks = 40) hist(plot.data$sigma0, breaks = 400) hist(10 * log10(plot.data$sigma0), breaks = 30) 0 5 Frequency 10 15 Histogram of 10 * log10(plot.data$sigma0) −10 −5 10 * log10(plot.data$sigma0) Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados 0 Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 1 variável Histograma hist(plot.data$sigma0, breaks = 40) hist(plot.data$sigma0, breaks = 400) hist(10 * log10(plot.data$sigma0), breaks = 400) hist(10 * log10(plot.data$sigma0), breaks = 30) hist(10 * log10(plot.data$sigma0), breaks = 30, prob = T) Density 0.00 0.05 0.10 0.15 0.20 0.25 0.30 Histogram of 10 * log10(plot.data$sigma0) −10 −5 10 * log10(plot.data$sigma0) Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados 0 Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 1 variável Densidade hist(plot.data$sigma0, breaks = 40) hist(plot.data$sigma0, breaks = 400) hist(10 * log10(plot.data$sigma0), breaks = 400) hist(10 * log10(plot.data$sigma0), breaks = 30) hist(10 * log10(plot.data$sigma0), breaks = 30, prob = T) hist(10 * log10(plot.data$sigma0), breaks = 30, prob = T, col = "gray70", xlab = "Retroespalhamento", ylab = "densidade", main = NA) 0.00 0.05 0.10 0.15 0.20 0.25 0.30 Histograma −10 −5 Retroespalhamento Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados 0 Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 1 variável Gráfico de Densidade kernel Similar ao histograma, mas ajusta uma linha suavizada à distribuição Assim como o histograma depende das subdivisões, este gráfico depende da largura do kernel (bandwidth) Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 1 variável Gráfico de Densidade kernel Similar ao histograma, mas ajusta uma linha suavizada à distribuição Assim como o histograma depende das subdivisões, este gráfico depende da largura do kernel (bandwidth) Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 1 variável Gráfico de Densidade kernel Similar ao histograma, mas ajusta uma linha suavizada à distribuição Assim como o histograma depende das subdivisões, este gráfico depende da largura do kernel (bandwidth) Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 1 variável Gráfico de Densidade kernel density.default(x = plot.data$sigma0) Density 0.0 0.5 1.0 1.5 2.0 plot(density(plot.data$sigma0)) 0.0 0.5 1.0 N = 100 Bandwidth = 0.06818 Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 1 variável Gráfico de Densidade kernel 1.5 0.0 0.5 1.0 Density 2.0 2.5 plot(density(plot.data$sigma0)) plot(density(plot.data$sigma0, bw = 0.04), main = NA) 0.0 0.2 0.4 0.6 0.8 1.0 N = 100 Bandwidth = 0.04 Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados 1.2 Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 1 variável Gráfico de Densidade kernel 1.0 0.0 0.5 Density 1.5 2.0 plot(density(plot.data$sigma0)) plot(density(plot.data$sigma0, bw = 0.04), main = NA) plot(density(plot.data$sigma0, bw = 0.08), main = NA) 0.0 0.5 1.0 N = 100 Bandwidth = 0.08 Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados 1.5 Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 1 variável Gráfico de Densidade kernel 0.00 0.05 Density 0.10 0.15 plot(density(plot.data$sigma0)) plot(density(plot.data$sigma0, bw = 0.04), main = NA) plot(density(plot.data$sigma0, bw = 0.08), main = NA) plot(density(10 * log10(plot.data$sigma0)), main = NA) −15 −10 −5 0 N = 100 Bandwidth = 0.8662 Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 1 variável 0.10 Density 0.00 0.05 plot(density(plot.data$sigma0)) plot(density(plot.data$sigma0, bw = 0.04), main = NA) plot(density(plot.data$sigma0, bw = 0.08), main = NA) plot(density(10 * log10(plot.data$sigma0)), main = NA) plot(density(10 * log10(plot.data$sigma0), bw = 1), main = NA) 0.15 Gráfico de Densidade kernel −15 −10 −5 N = 100 Bandwidth = 1 Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados 0 Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 1 variável Gráfico de Barras Adequado para mostrar proporções, especialmente apropriado para variáveis categóricas Pode ser mostrado lado a lado ou empilhado Transmite a impressão de um dado cumulativo Não deve ser usado para valores pontuais (ex: média) Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 1 variável Gráfico de Barras Adequado para mostrar proporções, especialmente apropriado para variáveis categóricas Pode ser mostrado lado a lado ou empilhado Transmite a impressão de um dado cumulativo Não deve ser usado para valores pontuais (ex: média) Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 1 variável Gráfico de Barras Adequado para mostrar proporções, especialmente apropriado para variáveis categóricas Pode ser mostrado lado a lado ou empilhado Transmite a impressão de um dado cumulativo Não deve ser usado para valores pontuais (ex: média) Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 1 variável Gráfico de Barras Adequado para mostrar proporções, especialmente apropriado para variáveis categóricas Pode ser mostrado lado a lado ou empilhado Transmite a impressão de um dado cumulativo Não deve ser usado para valores pontuais (ex: média) Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 1 variável 5 stats <- factor(c("Sim", "Não", "Não", "Não", "Não", "Não", "Não", "Sim", "Sim")) summ <- table(stats) summ 6 Gráfico de Barras 3 4 ## stats ## Não Sim ## 6 3 0 1 2 barplot(summ) Não Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Sim Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 1 variável 8 stats <- factor(c("Sim", "Não", "Não", "Não", "Não", "Não", "Não", "Sim", "Sim")) summ <- table(stats) summ 10 Gráfico de Barras 4 6 ## stats ## Não Sim ## 6 3 0 2 barplot(summ) barplot(summ, ylim = c(0, 10)) Não Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Sim Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 1 variável Gráfico de Barras ## stats ## Não Sim ## 6 3 barplot(summ) barplot(summ, ylim = c(0, 10)) barplot(summ, horiz = T) Não Sim stats <- factor(c("Sim", "Não", "Não", "Não", "Não", "Não", "Não", "Sim", "Sim")) summ <- table(stats) summ 0 Thiago S. F. Silva [email protected] 1 2 3 Aula 14: Análise Exploratória de Dados 4 5 6 Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 1 variável Gráfico de Barras 0.4 Thiago S. F. Silva [email protected] 0.1 Aula 14: Análise Exploratória de Dados solo arbustos_inundaveis macrofitas_flutuantes floresta_terrafirme 0.0 macrofitas_emergentes barplot(mean.bs, las = 2, ylab = "Retroespalhamento Médio") 0.2 agua plot.data <- subset(bs, bs$modo == "S1" & bs$pol == "HH" & bs$data == "2011-07-06") mean.bs <- tapply(plot.data$sigma0, plot.data$classe, mean, na.rm = T) 0.3 floresta_inundavel Retroespalhamento Médio Inapropriado, pois as médias são valores pontuais. Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 1+ variável Gráfico de Barras sand.085p 60 40 0 20 load("rich+env_jun.Rdata") granulo <- rich.env.jun[, 34:40] granulo <- t(as.matrix(granulo)) barplot(granulo, col = rainbow(7), legend = T, args.legend = list(x = "top", inset = c(0, -0.7), ncol = 3)) sand.025.0125 sand.050.025 sand.085.050 80 100 clay.004l silt.063.004 sand.0125.0063 Thiago S. F. Silva [email protected] 1 Exploratória 13 18 22 27 31 Aula 14: Análise de Dados 5 9 Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 1 variável Gráfico de Pizza Gráficos de pizza são adequados. . . . . . para nada! Nosso cérebro é muito mais apto em julgar distâncias do que áreas A partir de hoje, podem abolir gráficos de pizza do seu repertório Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 1 variável Gráfico de Pizza Gráficos de pizza são adequados. . . . . . para nada! Nosso cérebro é muito mais apto em julgar distâncias do que áreas A partir de hoje, podem abolir gráficos de pizza do seu repertório Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 1 variável Gráfico de Pizza Gráficos de pizza são adequados. . . . . . para nada! Nosso cérebro é muito mais apto em julgar distâncias do que áreas A partir de hoje, podem abolir gráficos de pizza do seu repertório Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 1 variável Gráfico de Pizza Gráficos de pizza são adequados. . . . . . para nada! Nosso cérebro é muito mais apto em julgar distâncias do que áreas A partir de hoje, podem abolir gráficos de pizza do seu repertório Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 2 variáveis Gráfico de dispersão (scatterplot) Um dos gráficos mais úteis em estatística . . . Pode servir para visualizar duas variáveis contínuas, ou uma variável contínua vs. uma categórica Desde que a variável categórica seja codificada Pode ser complementado por barras de erro Cuidado ao unir os pontos com linhas, pois isso passa uma noção de continuidade! Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 2 variáveis Gráfico de dispersão (scatterplot) Um dos gráficos mais úteis em estatística . . . Pode servir para visualizar duas variáveis contínuas, ou uma variável contínua vs. uma categórica Desde que a variável categórica seja codificada Pode ser complementado por barras de erro Cuidado ao unir os pontos com linhas, pois isso passa uma noção de continuidade! Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 2 variáveis Gráfico de dispersão (scatterplot) Um dos gráficos mais úteis em estatística . . . Pode servir para visualizar duas variáveis contínuas, ou uma variável contínua vs. uma categórica Desde que a variável categórica seja codificada Pode ser complementado por barras de erro Cuidado ao unir os pontos com linhas, pois isso passa uma noção de continuidade! Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 2 variáveis Gráfico de Dispersão Retroespalhamento Médio 0.45 plot(mean.bs, las = 2, ylab = "Retroespalhamento Médio", type = "p") 0.40 0.35 0.30 0.25 0.20 Index Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados 7 6 5 4 3 2 1 0.15 Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 2 variáveis Gráfico de Dispersão ylab = "Retroespalhamento Médio", ylab = "Retroespalhamento Médio", "n", xlab = NA) = names(mean.bs), Retroespalhamento Médio 0.45 plot(mean.bs, las = 2, type = "p") plot(mean.bs, las = 2, type = "p", xaxt = axis(1, c(1:7), labels las = 2) 0.40 0.35 0.30 0.25 0.20 Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados arbustos_inundaveis solo macrofitas_flutuantes macrofitas_emergentes floresta_inundavel floresta_terrafirme agua 0.15 Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 2 variáveis Gráfico de Dispersão Thiago S. F. Silva [email protected] 0.25 0.20 Aula 14: Análise Exploratória de Dados arbustos_inundaveis solo macrofitas_flutuantes 0.15 macrofitas_emergentes ylab = "Retroespalhamento Médio", "n", xlab = NA) = names(mean.bs), 0.30 floresta_inundavel ylab = "Retroespalhamento Médio", "n", xlab = NA) = names(mean.bs), 0.35 floresta_terrafirme ylab = "Retroespalhamento Médio", 0.40 agua plot(mean.bs, las = 2, type = "p") plot(mean.bs, las = 2, type = "p", xaxt = axis(1, c(1:7), labels las = 2) plot(mean.bs, las = 2, type = "l", xaxt = axis(1, c(1:7), labels las = 2) 0.45 Retroespalhamento Médio Incorreto, não existe continuidade entre as categorias. Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 2 variáveis Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados arbustos_inundaveis solo macrofitas_flutuantes macrofitas_emergentes floresta_inundavel floresta_terrafirme agua mean.bs 0.4 0.2 0.0 plot(mean.bs, las = 2, ylab = "Retroespalhamento Médio", type = "p") plot(mean.bs, las = 2, ylab = "Retroespalhamento Médio", type = "p", xaxt = "n", xlab = NA) axis(1, c(1:7), labels = names(mean.bs), las = 2) sd.bs <- tapply(plot.data$sigma0, plot.data$classe, sd, na.rm = T) plot(mean.bs, las = 2, ylab = "Retroespalhamento Médio", type = "p", xaxt = "n", xlab = NA) axis(1, c(1:7), labels = names(mean.bs), las = 2) plot(mean.bs, las = 2, ylab = "Retroespalhamento Médio", type = "l", xaxt = "n", xlab = NA) axis(1, c(1:7), labels = names(mean.bs), las = 2) library(Hmisc) errbar(c(1:7), mean.bs, yplus = mean.bs + sd.bs, yminus = mean.bs - sd.bs, lty = 1, , xaxt = "n", xlab = NA) axis(1, c(1:7), labels = names(mean.bs), las = 2) 0.6 Gráfico de Dispersão Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 2 variáveis 20 15 10 Riqueza de Espécies 0 5 load("rich+env_jun.Rdata") plot(rich.env.jun$p.tot, rich.env.jun$rich, xlab = "Fósforo Total", ylab = "Riqueza de Espécies") # A sintaxe de 'em função de' (~) # também pode ser usada plot(rich ~ p.tot, data = rich.env.jun, xlab = "Fósforo Total", ylab = "Riqueza de Espécies") 25 Gráfico de Dispersão 40 60 80 Fósforo Total Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados 100 Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 2 variáveis Gráfico de Área Pode ser visto como uma versão contínua do gráfico de barras ... Mostra diferenças ponto a ponto, e cumulativas Não deve ser usado se a área sob a curva não fizer sentido para os dados plotados A ordem do empilhamento pode afetar a percepção se a variável x não for contínua, melhor usar barras empilhadas Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 2 variáveis Gráfico de Área Pode ser visto como uma versão contínua do gráfico de barras ... Mostra diferenças ponto a ponto, e cumulativas Não deve ser usado se a área sob a curva não fizer sentido para os dados plotados A ordem do empilhamento pode afetar a percepção se a variável x não for contínua, melhor usar barras empilhadas Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 2 variáveis Gráfico de Área Pode ser visto como uma versão contínua do gráfico de barras ... Mostra diferenças ponto a ponto, e cumulativas Não deve ser usado se a área sob a curva não fizer sentido para os dados plotados A ordem do empilhamento pode afetar a percepção se a variável x não for contínua, melhor usar barras empilhadas Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 2 variáveis Gráfico de Área Pode ser visto como uma versão contínua do gráfico de barras ... Mostra diferenças ponto a ponto, e cumulativas Não deve ser usado se a área sob a curva não fizer sentido para os dados plotados A ordem do empilhamento pode afetar a percepção se a variável x não for contínua, melhor usar barras empilhadas Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 2 variáveis Gráfico de Área Pode ser visto como uma versão contínua do gráfico de barras ... Mostra diferenças ponto a ponto, e cumulativas Não deve ser usado se a área sob a curva não fizer sentido para os dados plotados A ordem do empilhamento pode afetar a percepção se a variável x não for contínua, melhor usar barras empilhadas Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 2 variáveis Gráfico de Área 1.5 Produtividade Primára (Tg/ano) load("npp_summary.Rdata") library(ggplot2) ggplot(npp.df, aes(year, mean)) + geom_area(fill = "gray50") + xlab("Ano") + ylab("Produtividade Primára (Tg/ano)") 1.0 0.5 0.0 1970 1980 1990 Ano Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados 2000 2010 Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 2 variáveis Gráfico de Área 1.5 Produtividade Primára (Tg/ano) library(ggplot2) ggplot(npp.df, aes(year, mean)) + geom_area(fill = "blue") + xlab("Ano") + ylab("Produtividade Primára (Tg/ano)") ggplot(npp.df, aes(as.factor(year), mean)) + geom_bar(fill = "gray50") + xlab("Ano") + ylab("Produtividade Primára (Tg/ano)") + theme(axis.text.x = element_text(angle = 90, hjust = 1)) load("cons_npp_summary.Rdata") ggplot(cons.npp.df, aes(year, mean)) + geom_area(fill = fix) + xlab("Ano") + ylab("Produtividade Primára (Tg/ano)") 1.0 0.5 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 0.0 Ano Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 2 variáveis Gráfico de Área http://www.leancrew.com/all-this/2011/11/ i-hate-stacked-area-charts/ Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 2 variáveis Boxplot Usado para combinações entre variáveis contínuas e categóricas . . . Na opinião de muitos, um dos gráficos mais informativos que existem . . . Combina as propriedades de um histograma e de um scatterplot Faz uso dos quantis para uma descrição robusta dos dados Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 2 variáveis Boxplot Usado para combinações entre variáveis contínuas e categóricas . . . Na opinião de muitos, um dos gráficos mais informativos que existem . . . Combina as propriedades de um histograma e de um scatterplot Faz uso dos quantis para uma descrição robusta dos dados Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 2 variáveis Boxplot Usado para combinações entre variáveis contínuas e categóricas . . . Na opinião de muitos, um dos gráficos mais informativos que existem . . . Combina as propriedades de um histograma e de um scatterplot Faz uso dos quantis para uma descrição robusta dos dados Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 2 variáveis Boxplot Usado para combinações entre variáveis contínuas e categóricas . . . Na opinião de muitos, um dos gráficos mais informativos que existem . . . Combina as propriedades de um histograma e de um scatterplot Faz uso dos quantis para uma descrição robusta dos dados Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 2 variáveis Boxplot Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 2 variáveis 0.8 0.4 0.6 10 0.2 5 0 Frequency 15 1.0 1.2 20 Boxplot 0.2 0.4 0.6 0.8 1.0 1.2 Retroespalhamento − Floresta Inundável Thiago S. F. Silva [email protected] Retroespalhamento − Floresta Inundável Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 2 variáveis Boxplot 1.5 boxplot(sigma0 ~ classe, data = plot.data, las = 2) # # # # # # linha central: mediana caixa : quartis linhas verticais: valor mais alto/baixo dentro da distância quartil+/-1.5*distancia interquartil pontos: outliers, tudo que for maior do que quartil +/- 1.5 quartil 1.0 0.5 Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados arbustos_inundaveis solo macrofitas_flutuantes macrofitas_emergentes floresta_terrafirme floresta_inundavel agua 0.0 Superposição da distância interquartil é um indício de diferença/separabilidade Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 2 variáveis Violin Plot Tentativa de ir além do boxplot . . . Combina as propriedades de um gráfico de densidades e de um scatterplot Pode ficar estranho se as distribuições não forem bem-comportadas Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 2 variáveis Violin Plot Tentativa de ir além do boxplot . . . Combina as propriedades de um gráfico de densidades e de um scatterplot Pode ficar estranho se as distribuições não forem bem-comportadas Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 2 variáveis Violin Plot Tentativa de ir além do boxplot . . . Combina as propriedades de um gráfico de densidades e de um scatterplot Pode ficar estranho se as distribuições não forem bem-comportadas Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 2 variáveis Violin Plot 1.5 ggplot(plot.data, aes(classe, sigma0)) + geom_boxplot() + theme(axis.text.x = element_text(angle = 90, hjust = 1)) sigma0 1.0 0.5 Aula 14: Análise Exploratória de Dados arbustos_inundaveis solo macrofitas_flutuantes floresta_terrafirme macrofitas_emergentes Thiago S. F. Silva [email protected] floresta_inundavel agua 0.0 Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 2 variáveis Violin Plot 1.5 sigma0 ggplot(plot.data, aes(classe, sigma0)) + geom_boxplot() + theme(axis.text.x = element_text(angle = 90, hjust = 1)) ggplot(plot.data, aes(classe, sigma0)) + geom_violin() + theme(axis.text.x = element_text(angle = 90, 1.0 hjust = 1)) 0.5 Aula 14: Análise Exploratória de Dados arbustos_inundaveis solo macrofitas_flutuantes floresta_terrafirme macrofitas_emergentes Thiago S. F. Silva [email protected] floresta_inundavel agua 0.0 Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Combinando mais de duas variáveis . . . . . . sem usar “3D” Gráficos “3D” são dependentes de perspectiva, e não enfatizam bem as diferenças São uma boa ferramenta de visualização se puderem ser manipulados Mas para exibição em papel, dificultam a interpretação Ao invés de usar múltiplos eixos, podemos explorar as relações entre cor, forma e tamanho dos objetos plotados Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Combinando mais de duas variáveis . . . . . . sem usar “3D” Gráficos “3D” são dependentes de perspectiva, e não enfatizam bem as diferenças São uma boa ferramenta de visualização se puderem ser manipulados Mas para exibição em papel, dificultam a interpretação Ao invés de usar múltiplos eixos, podemos explorar as relações entre cor, forma e tamanho dos objetos plotados Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Combinando mais de duas variáveis . . . . . . sem usar “3D” Gráficos “3D” são dependentes de perspectiva, e não enfatizam bem as diferenças São uma boa ferramenta de visualização se puderem ser manipulados Mas para exibição em papel, dificultam a interpretação Ao invés de usar múltiplos eixos, podemos explorar as relações entre cor, forma e tamanho dos objetos plotados Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Combinando mais de duas variáveis . . . . . . sem usar “3D” Gráficos “3D” são dependentes de perspectiva, e não enfatizam bem as diferenças São uma boa ferramenta de visualização se puderem ser manipulados Mas para exibição em papel, dificultam a interpretação Ao invés de usar múltiplos eixos, podemos explorar as relações entre cor, forma e tamanho dos objetos plotados Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 2 variáveis ggplot(rich.env.jun, aes(p.tot, n.tot)) + geom_point(size = 3) + ylab("Nitrogênio Total") + xlab("Fósforo Total") + theme_bw() Nitrogênio Total 400 200 0 40 Thiago S. F. Silva [email protected] 60 80 Fósforo Total Aula 14: Análise Exploratória de Dados 100 Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 3 variáveis ggplot(rich.env.jun, aes(p.tot, n.tot)) + geom_point(size = 3) + ylab("Nitrogênio Total") + xlab("Fósforo Total") + theme_bw() ggplot(rich.env.jun, aes(p.tot, n.tot)) + geom_point(aes(size = rich)) + ylab("Nitrogênio Total") + xlab("Fósforo Total") + theme_bw() Nitrogênio Total 400 rich 0 5 10 15 20 200 25 0 40 Thiago S. F. Silva [email protected] 60 80 100 Fósforo Total Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 4 variáveis Nitrogênio Total ggplot(rich.env.jun, aes(p.tot, n.tot)) + geom_point(size = 3) + ylab("Nitrogênio Total") + xlab("Fósforo Total") + theme_bw() ggplot(rich.env.jun, aes(p.tot, n.tot)) + geom_point(aes(size = rich)) + ylab("Nitrogênio Total") + xlab("Fósforo Total") + theme_bw() 400 ggplot(rich.env.jun, aes(p.tot, n.tot)) + geom_point(aes(color = rich, size = prof * -1)) + ylab("Nitrogênio Total") + xlab("Fósforo Total") + theme_bw() prof * −1 100 150 200 250 300 rich 25 200 20 15 10 5 0 0 40 Thiago S. F. Silva [email protected] 60 80 100 Fósforo Total Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 5 variáveis ggplot(rich.env.jun, aes(p.tot, n.tot)) + geom_point(size = 3) + ylab("Nitrogênio Total") + xlab("Fósforo Total") + theme_bw() ggplot(rich.env.jun, aes(p.tot, n.tot)) + geom_point(aes(size = rich)) + ylab("Nitrogênio Total") + xlab("Fósforo Total") + theme_bw() 400 ggplot(rich.env.jun, aes(p.tot, n.tot)) + geom_point(aes(color = rich, size = prof * -1)) + ylab("Nitrogênio Total") + xlab("Fósforo Total") + theme_bw() ggplot(rich.env.jun, aes(p.tot, n.tot)) + geom_point(aes(color = rich, size = prof * -1, shape = clayfac)) + ylab("Nitrogênio Total") + xlab("Fósforo Total") + theme_bw() 200 prof * −1 100 150 200 250 Nitrogênio Total 300 rich 25 20 15 10 5 0 clayfac Alto Baixo 0 40 Thiago S. F. Silva [email protected] 60 80 100 Fósforo Total Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Elementos de um bom gráfico Foco na informação que se quer enfatizar Quanto menor a razão tinta/papel, melhor Selecione e ordene suas variáveis de acordo com a pergunta a ser respondida Cores e formas só devem ser usadas se também trouxerem informação! Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Elementos de um bom gráfico Foco na informação que se quer enfatizar Quanto menor a razão tinta/papel, melhor Selecione e ordene suas variáveis de acordo com a pergunta a ser respondida Cores e formas só devem ser usadas se também trouxerem informação! Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Elementos de um bom gráfico Foco na informação que se quer enfatizar Quanto menor a razão tinta/papel, melhor Selecione e ordene suas variáveis de acordo com a pergunta a ser respondida Cores e formas só devem ser usadas se também trouxerem informação! Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Elementos de um bom gráfico Foco na informação que se quer enfatizar Quanto menor a razão tinta/papel, melhor Selecione e ordene suas variáveis de acordo com a pergunta a ser respondida Cores e formas só devem ser usadas se também trouxerem informação! Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Elementos de um bom gráfico Foco na informação que se quer enfatizar Quanto menor a razão tinta/papel, melhor Selecione e ordene suas variáveis de acordo com a pergunta a ser respondida Cores e formas só devem ser usadas se também trouxerem informação! Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Qual a pergunta a ser respondida? Diferença entre classes, para cada polarização? HH HV 1.5 0.2 sigma0 1.0 0.1 0.5 0.0 0.0 aguafloresta_inundavel floresta_terrafirme macrofitas_emergentes macrofitas_flutuantes soloarbustos_inundaveis aguafloresta_inundavel floresta_terrafirme macrofitas_emergentes macrofitas_flutuantes soloarbustos_inundaveis classe Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Qual a pergunta a ser respondida? Ou a diferença entre polarizações, para cada classe? agua floresta_inundavel 0.2 0.0 sigma0 macrofitas_emergentes floresta_terrafirme 1.00 1.25 1.00 0.75 0.50 0.25 0.00 0.4 0.75 0.50 0.25 0.00 macrofitas_flutuantes solo 1.00 1.25 1.00 0.75 0.50 0.25 0.00 0.9 0.75 0.6 0.50 0.3 0.25 0.0 0.00 arbustos_inundaveis 1.5 1.0 0.5 0.0 HH HV pol Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 5 variáveis 0.4 0.2 arbustos_inundaveis solo macrofitas_flutuantes macrofitas_emergentes floresta_terrafirme floresta_inundavel agua 0.0 mean.bs 0.6 Isso é melhor . . . Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados Outline Pra que serve análise exploratória? Codificação e organização de dados Estatística Descritiva: medidas de tendência central e dispersão Análise Gráfica Tipos de Gráficos - 5 variáveis . . . do que isso 0.6 Isso é melhor . . . 0.4 0.7 0.6 0.5 0.2 0.4 0.3 0.2 0.1 0.0 0 arbustos_inundaveis solo macrofitas_flutuantes macrofitas_emergentes floresta_terrafirme floresta_inundavel -0.1 agua mean.bs 0.8 Thiago S. F. Silva [email protected] Aula 14: Análise Exploratória de Dados