Análise Preliminar dos Dados Aula 02 Prof. Christopher Freire Souza Centro de Tecnologia Universidade Federal de Alagoas www.ctec.ufal.br/professor/cfs 2 Análise Preliminar dos Dados Objetivo • Compreensão e descrição dos dados a partir da organização, resumo e elaboração de gráficos e estimação de estatísticas. 3 Análise Preliminar dos Dados Características importantes dos dados • Centro: indica o meio do conjunto de dados • Variação: indica quanto os dados variam em relação ao centro • Distribuição: indica a forma • Outliers ou valores discrepantes: indica valores amostrais que se localizam muito longe da grande maioria • Tempo: variação dos valores com o tempo 4 Análise Preliminar dos Dados Análise Preliminar dos Dados • Resumos e Gráficos • Estatísticas • Análise Exploratória de Dados 5 Análise Preliminar dos Dados Resumos e Gráficos • • • • • • • • • Distribuição de freqüência Histogramas Histogramas polares Polígono de freqüência Ogiva Gráfico de Pareto Diagramas de dispersão Gráficos de séries temporais Criação de gráficos estatísticos (Curva de permanência e gráfico polar) 6 Análise Preliminar dos Dados Resumos e Gráficos (Distribuição de freqüência) • Para n>20, agrupa-se os dados em classes, sendo a freqüência o número de valores em cada classe. • Definições: ▫ Limites inferiores de classe: menores números que podem pertencer a cada classe. Ex. ...,21; 31; 41;... ▫ Limites superiores de classe: maiores números que podem pertencer a cada classe. Ex. ...,30; 40; 50;... ▫ Fronteiras de classe: números usados para separar as classes. Ex. ...,30,5; 40,5; 50,5;... ▫ Ponto médio de classe: média aritmética dos limites de cada classe. Ex. ...,35,5; 45,5; 55,5;... ▫ Amplitude de classe: diferença entre limites inferiores de classe consecutivos. Ex. 31-21=10. Idade Freqüência 21-30 28 31-40 30 41-50 12 51-60 2 61-70 2 71-80 2 7 Análise Preliminar dos Dados Resumos e Gráficos (Distribuição de freqüência) • Procedimento para elaboração de tabelas de distribuição de freqüência: ▫ Definir números de classe, recomendando-se um número entre 5 e 20, definido por conveniência. Ex. para dados cujos valores variam entre 20 e 100, aplicar 8 classes. ▫ Calcular a amplitude dos dados e arredondar o número de classes para cima. ▫ Definir ponto inicial (limite inferior da 1ª classe): valor mínimo ou inferior. ▫ Definir outros limites inferiores. ▫ Definir limites superiores (possibilidade de intervalos abertos). ▫ Calcular freqüências (realizar contagem) Idade Freqüência 21-30 28 31-40 30 41-50 12 51-60 2 61-70 2 71-80 2 Mesmo procedimento para freqüência relativa ou acumulada 8 Análise Preliminar dos Dados Resumos e Gráficos (Histogramas) • Versão gráfica da tabela de freqüências. • MATLAB: hist Vazões médias anuais no rio Paraná na UHE Itaipú 9 Análise Preliminar dos Dados Resumos e Gráficos (Histogramas polares) • Histogramas em eixos polares, onde as classes são apresentadas no eixo angular e as freqüências no eixo radial. • MATLAB: rose 90 4 120 60 3 2 150 30 1 180 0 210 330 240 300 270 10 Análise Preliminar dos Dados Resumos e Gráficos (Polígono de freqüência) • Segmentos de retas que conectam pontos médios da parte superior de barras de freqüência de classe, estendidos à esquerda e à direita para alcançar o eixo horizontal. 11 Análise Preliminar dos Dados Resumos e Gráficos (Ogiva) • Gráficos de linhas que representam freqüência acumulada de não-excedência. O gráfico intercepta valores das fronteiras de classes, iniciando da fronteira inferior da primeira classe e terminando na fronteira superior da última classe. 12 Análise Preliminar dos Dados Resumos e Gráficos (Gráfico de Pareto) • Gráfico de barras para dados qualitativos, sendo as barras ordenadas em função dos valores de freqüência de maneira decrescente. • Recomenda-se a aplicação de gráficos de Pareto em vez de gráficos de setores (i.e. pizza). • MATLAB: pareto Prioridade de adequação 250 97% 200 78% 150 58% 100 39% 50 19% 0 Ct.Est. Sl.AulaCopias C.A. Monit. Lb.Cmpt.W.C. Capac. Pesq. Lb.Ens. 0% 13 Análise Preliminar dos Dados Resumos e Gráficos (Diagramas de dispersão) • Gráfico de pares de dados, útil à análise de relação/associação entre variáveis. • MATLAB: scatter 14 Análise Preliminar dos Dados Resumos e Gráficos (Gráficos de séries temporais) Hidrograma do posto XINGO 18000 dados não-usados dados em uso 16000 14000 12000 Q(m³/s) • Gráfico onde as informações de uma variável são representadas no eixo das ordenadas com seus pares equivalentes ao momento/tempo de ocorrência no eixo das abcissas. • MATLAB: plot 10000 8000 6000 4000 2000 0 31 34 37 40 43 4649 52 55 58 61 64 6770 73 76 79 82 8588 91 94 97 00 03 06 Ano 15 Análise Preliminar dos Dados Resumos e Gráficos (Criação de gráficos estatísticos) • Oportunidade para apresentar dados importantes e interessantes de maneira eficaz • Princípios para criação de gráficos (Tufte apud Triola pg 50) ▫ P/ pequena quantidade de dados, use tabela ▫ Foco nos dados. Ilustração não deve distrair o leitor. Gaste a tinta de impressão nos dados. ▫ Não distorcer os dados. Não use áreas e volumes para informação unidimensional. ▫ Não usar linhas inclinadas, pontos ou quadriculados (hachuras), pois criam desconfortável ilusão de movimento. 16 Análise Preliminar dos Dados Resumos e Gráficos (Criação de gráficos estatísticos) Curva de Permanência do posto XINGO 18000 16000 14000 12000 Q(m³/s) • Curva de permanência • Freqüência acumulada de excedência de valores • Procedimento: ▫ Ordena dados de forma decrescente ▫ Calcula a % de excedência pela razão da ordem de cada registro pela quantidade de dados ▫ Gráfico das vazões ordenadas contra a % de excedência 10000 8000 6000 4000 2000 0 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95100 Fração do tempo (%) 17 Análise Preliminar dos Dados Resumos e Gráficos (Criação de gráficos estatísticos) • Gráfico polar • Apresenta dados em coordenadas polares, onde o eixo radial é a magnitude e o angular a direção ou a data. • MATLAB: polar 66231000(ss) and 66160000(bs) stations 82-90(pre) and 02-05(post) annual maximum specific flows (l.s -1.km-2) A M press postss prebs postbs M J F J J 100 A D 200 S 300 O N 18 Análise Preliminar dos Dados Estatísticas • • • • Medidas de centro Medidas de variação Medidas de forma (posição relativa) Medidas de associação entre variáveis 19 Análise Preliminar dos Dados Estatísticas • Quantis: dividem a amostra ordenada de dados em grupos com aproximadamente o mesmo número de dados ▫ 99 percentis - divisão em 100 partes ▫ 3 quartis – divisão em 4 partes 20 Análise Preliminar dos Dados Estatísticas (Medidas de forma / posição relativa) • Percentil • Percentis dividem os valores ordenados em 100 partes iguais. Assim, existem 99 percentis. • Para calcular o percentil a que um valor xi corresponde, aplica-se: ▫ onde n é o tamanho da amostra. 21 Análise Preliminar dos Dados Estatísticas (Medidas de forma / posição relativa) • Percentil • Para calcular o valor x para um percentil específico, aplica-se aos dados ordenados: ▫ onde L é o percentil que se deseja estimar. Caso i não seja exato, o valor de x referente ao percentil em análise será o da posição maior inteiro mais próximo de i. Caso i seja exato, estima-se o percentil a partir da média entre os valores de xi e xi+1 • MATLAB: prctile • Como em curvas de permanência a ordem dos dados é decrescente, PL=Q(100-L). Ex. P10=Q90 22 Análise Preliminar dos Dados Estatísticas (Medidas de forma / posição relativa) • Quartil • Percentil que divide os dados em quartos. • Q1=P25; Q2=P50 ; Q3=P75 23 Análise Preliminar dos Dados Estatísticas (Medidas de centro) • • • • • Ponto Médio Mediana Moda Média Média aparada 24 Análise Preliminar dos Dados Estatísticas (Medidas de centro) • Ponto Médio = (min+max)/2 • Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] • Ponto médio = (1+36)/2 = 18,5 25 Análise Preliminar dos Dados Estatísticas (Medidas de centro) • Mediana • Valor do meio da amostra, para dados ordenados em função de seus valores • MATLAB: median • Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] • Mediana = 12,5 26 Análise Preliminar dos Dados Estatísticas (Medidas de centro) • Média ▫ onde n é o número de dados, i.e., o tamanho da amostra, fi é a freqüência (número de observações) de ocorrência do valor xi. • MATLAB: mean • Por exemplo, para a amostra [1, 3, 6, 15, 15, 21, 28, 36] • Média = (1+3+6+21+28+36).1/8+15.2/8 = 15,625 27 Análise Preliminar dos Dados Estatísticas (Medidas de centro) • Média aparada • Cálculo da média da parcela central (100-x)% da amostra ordenada em função de seus valores. • MATLAB: trimmean • Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] • Média aparada em 0% = 15 • Média aparada em 25% = 13,83 • Média aparada em 50% = 13 28 Análise Preliminar dos Dados Estatísticas (Medidas de centro) • Moda • Valor que ocorre mais freqüentemente • MATLAB: mode • Simetria da distribuição dos dados: média=moda=mediana 29 Análise Preliminar dos Dados Estatísticas (Medidas de variação) • • • • • • • Amplitude Desvio médio absoluto Desvio padrão Variância Coeficiente de variação Intervalo interquartil Intervalo percentílico 30 Análise Preliminar dos Dados Estatísticas (Medidas de variação) • Amplitude = max-min • MATLAB: range • Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] • Amplitude = (36-1) = 35 31 Análise Preliminar dos Dados Estatísticas (Medidas de variação) • Intervalo interquartil = Q3-Q1 • Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] • Intervalo interquartil = 24,5 - 4,5 = 20 32 Análise Preliminar dos Dados Estatísticas (Medidas de variação) • Intervalo percentílico = P90-P10 • Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] • Intervalo percentílico = 36 - 1 = 35 33 Análise Preliminar dos Dados Estatísticas (Medidas de variação) • Desvio médio absoluto • • • • MATLAB: mad Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36], média=15 Desvios |xi-media|=[14,12,9,5, 0, 6, 13, 21] Desvio médio absoluto = 10 34 Análise Preliminar dos Dados Estatísticas (Medidas de variação) • Variância • Estimador da dispersão em relação à média a partir dos quadrados dos valores observados • MATLAB: var • Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] • var = 156 35 Análise Preliminar dos Dados Estatísticas (Medidas de variação) • Graus de liberdade: número de valores escolhidos livremente antes que os demais sejam determinados. • Por exemplo, para a amostra [10, 13, 15, 18] • Conhecida a média (14) e outros n-1 dados, chega-se ao n-ésimo. Logo, número de graus de liberdade = n-1 36 Análise Preliminar dos Dados Estatísticas (Medidas de variação) • Desvio padrão • Desvio médio dos valores em relação à média • MATLAB: std • • • • • Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] Desvios (xi-media)=[-14,-12,-9,-5, 0, 6, 13, 21] Quadrados (xi-media)²=[196,144,81,25,0,36,169,441] Soma dos Quadrados = 1092 Desvio padrão =12,49 37 Graus de Liberdade Christopher Souza: Análise Preliminar de Dados Amostra Média Mediana Amp. Var.(n-1) Std(n-1) Var.(n) std(n) 1,1 1,0 1,0 0 0,0 0,0 0 0 1,2 1,5 1,5 1 0,5 0,707 0,25 0,5 1,5 3,0 3,0 4 8,0 2,828 4 2 2,1 1,5 1,5 1 0,5 0,707 0,25 0,5 2,2 2,0 2,0 0 0,0 0,0 0 0 2,5 3,5 3,5 3 4,5 2,121 2,25 1,5 5,1 3,0 3,0 4 8,0 2,828 4 2 5,2 3,5 3,5 3 4,5 2,121 2,25 1,5 5,5 5,0 5,0 0 0,0 0,0 0 0 Média amostral 8/3 8/3 16/9 26/9 1,3 1,44 0,89 Parâmetro 8/3 2 4 26/9 1,7 2,89 1,7 População: 1, 2, 5 38 Análise Preliminar dos Dados Estatísticas (Medidas de variação) • Desvio padrão • Dispersão típica (Regra empírica da amplitude) • Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] • Desvio padrão ≈ (36 – 1)/4 = 8,75 39 Análise Preliminar dos Dados Estatísticas (Medidas de variação) • Coeficiente de variação • Estimador adimensionalizado da dispersão de valores em relação à média de maneira a permitir comparações entre populações. • Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] • Cv=83,27% 40 Análise Preliminar dos Dados Estatísticas (Medidas de forma / posição relativa) • • • • • Escore z Quartil Percentil Simetria/Assimetria Curtose 41 Análise Preliminar dos Dados Estatísticas (Medidas de forma / posição relativa) • Escore z • Número de desvios padrão a que se situa o valor “i” da amostra, acima ou abaixo da média. • Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] • Escores z=[-1,12;-0,96;-0,72;-0,4; 0; 0,48; 1,04; 1,68] 42 Análise Preliminar dos Dados Estatísticas (Medidas de forma / posição relativa) • Simetria/Assimetria • Coeficiente que descreve quanto a maior parte dos dados se encontra afastada da média. • O coeficiente analisa o desvio em relação à média na 3a potência. • MATLAB: skewness • Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] • assimetria=0,5 43 Análise Preliminar dos Dados Estatísticas (Medidas de forma / posição relativa) • Curtose • Coeficiente que descreve quanto os valores mais extremos se afastam da média. • O coeficiente descreve o desvio em relação à média na 4a potência. • MATLAB: kurtosis • Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] • Curtose = 1,95 44 Análise Preliminar dos Dados Estatísticas (Medidas de associação entre variáveis) • Coeficiente de correlação linear de Pearson • Mede a intensidade da relação linear entre os valores quantitativos emparelhados de amostras de duas variáveis (‘x’ e ‘y’) • MATLAB: corrcoef 45 Análise Preliminar dos Dados Estatísticas (Medidas de associação entre variáveis) • Coeficiente de correlação linear de Pearson = 0,7036 0.5 0.45 0.4 0.35 Q(mm/dia) pano(mm/dia) qano(mm/dia) 1993 1.153424658 0.000182305 1994 3.239617486 0.034381446 1995 2.268493151 0.179512434 1996 3.735068493 0.454060273 1997 1.963561644 0.058780805 1998 1.205737705 0 1999 2.412054795 0.293169934 2000 2.51010929 0.265057745 0.3 0.25 0.2 0.15 0.1 0.05 0 1 1.5 2 2.5 P(mm/dia) 3 3.5 Bacia do rio Acaraú-CE (semi-árido; 1560 km²) 4 46 Christopher Souza: Teste de hipóteses Postos • Número atribuído a um item da amostra de acordo com sua posição na lista ordenada. • Em caso de empates, aplica-se a média dos postos como valor de posto de cada item com igual valor • • • • • Ex: x: [12 10 5 5 4 5 11 12] xo: [4 5 5 5 10 11 12 12] io: [1 3 3 3 5 6 7,5 7,5] i: [7,5 5 3 3 1 3 6 7,5] 47 Análise Preliminar dos Dados Estatísticas (Medidas de associação entre variáveis) • Coeficiente de correlação de postos de Spearman • Mede a associação das magnitudes de duas variáveis a partir das posições dos valores ordenados por amostra (‘x’ e ‘y’) rposto 1 6d 2 n (n 2 1) ▫ onde d é a diferença entre as posições dos correspondentes x e y. • MATLAB: corr • Spearman = 0,7143 1993 1994 1995 1996 1997 1998 1999 2000 pano(mm/dia) qano(mm/dia) 1 1.153424658 0.000182 7 3.239617486 0.034381 4 2.268493151 0.179512 8 3.735068493 0.45406 3 1.963561644 0.058781 2 1.205737705 0 5 2.412054795 0.29317 6 2.51010929 0.265058 d 2 3 5 8 4 1 7 6 d² 1 -4 1 0 1 -1 2 0 SOMA 1 16 1 0 1 1 4 0 24 48 Análise Preliminar dos Dados Análise Exploratória de Dados • Outliers • Diagrama de caixa 49 Análise Preliminar dos Dados Análise Exploratória de Dados (Outliers) • Outlier - dado cujo valor se localiza muito afastado de quase todos os demais valores da amostra. • Outliers podem ser valores atípicos reais ou um dado errado/inexistente. • Outliers podem afetar significativamente os valores de estatísticas como a média e outras dela dependentes (e.g. desvio padrão, c.v.), bem como, na definição de classes em estudos de freqüência e em gráficos. • Se um outlier for um dado real, deve-se estudar a série com e sem o outlier. • Uma técnica usual para detecção de outliers é comparar valores com 1,5x(Q3-Q1) abaixo de Q1 e acima de Q3. 50 Análise Preliminar dos Dados Análise Exploratória de Dados (Diagrama de caixa) • Representação gráfica do resumo dos cinco números (mínima, Q1, mediana, Q3 e máxima). • Ótimo para comparação de duas ou mais amostras. • Outliers podem ser representados. • MATLAB: boxplot