Análise Preliminar dos Dados
Aula 02
Prof. Christopher Freire Souza
Centro de Tecnologia
Universidade Federal de Alagoas
www.ctec.ufal.br/professor/cfs
2
Análise Preliminar dos
Dados
Objetivo
• Compreensão e descrição dos dados a partir da
organização, resumo e elaboração de gráficos e
estimação de estatísticas.
3
Análise Preliminar dos
Dados
Características importantes dos dados
• Centro: indica o meio do conjunto de dados
• Variação: indica quanto os dados variam em relação ao
centro
• Distribuição: indica a forma
• Outliers ou valores discrepantes: indica valores
amostrais que se localizam muito longe da grande
maioria
• Tempo: variação dos valores com o tempo
4
Análise Preliminar dos
Dados
Análise Preliminar dos Dados
• Resumos e Gráficos
• Estatísticas
• Análise Exploratória de Dados
5
Análise Preliminar dos
Dados
Resumos e Gráficos
•
•
•
•
•
•
•
•
•
Distribuição de freqüência
Histogramas
Histogramas polares
Polígono de freqüência
Ogiva
Gráfico de Pareto
Diagramas de dispersão
Gráficos de séries temporais
Criação de gráficos estatísticos (Curva de permanência e
gráfico polar)
6
Análise Preliminar dos
Dados
Resumos e Gráficos (Distribuição de
freqüência)
• Para n>20, agrupa-se os dados em
classes, sendo a freqüência o
número de valores em cada classe.
• Definições:
▫ Limites inferiores de classe:
menores números que podem
pertencer a cada classe. Ex. ...,21;
31; 41;...
▫ Limites superiores de classe:
maiores números que podem
pertencer a cada classe. Ex. ...,30;
40; 50;...
▫ Fronteiras de classe: números
usados para separar as classes. Ex.
...,30,5; 40,5; 50,5;...
▫ Ponto médio de classe: média
aritmética dos limites de cada
classe. Ex. ...,35,5; 45,5; 55,5;...
▫ Amplitude de classe: diferença
entre limites inferiores de classe
consecutivos. Ex. 31-21=10.
Idade
Freqüência
21-30
28
31-40
30
41-50
12
51-60
2
61-70
2
71-80
2
7
Análise Preliminar dos
Dados
Resumos e Gráficos (Distribuição de
freqüência)
• Procedimento para elaboração de
tabelas de distribuição de
freqüência:
▫ Definir números de classe,
recomendando-se um número
entre 5 e 20, definido por
conveniência. Ex. para dados cujos
valores variam entre 20 e 100,
aplicar 8 classes.
▫ Calcular a amplitude dos dados e
arredondar o número de classes
para cima.
▫ Definir ponto inicial (limite
inferior da 1ª classe): valor mínimo
ou inferior.
▫ Definir outros limites inferiores.
▫ Definir limites superiores
(possibilidade de intervalos
abertos).
▫ Calcular freqüências (realizar
contagem)
Idade
Freqüência
21-30
28
31-40
30
41-50
12
51-60
2
61-70
2
71-80
2
Mesmo procedimento para
freqüência relativa ou
acumulada
8
Análise Preliminar dos
Dados
Resumos e Gráficos (Histogramas)
• Versão gráfica da tabela
de freqüências.
• MATLAB: hist
Vazões médias anuais no rio Paraná na
UHE Itaipú
9
Análise Preliminar dos
Dados
Resumos e Gráficos (Histogramas
polares)
• Histogramas em eixos
polares, onde as classes
são apresentadas no eixo
angular e as freqüências
no eixo radial.
• MATLAB: rose
90
4
120
60
3
2
150
30
1
180
0
210
330
240
300
270
10
Análise Preliminar dos
Dados
Resumos e Gráficos (Polígono de
freqüência)
• Segmentos de retas
que conectam
pontos médios da
parte superior de
barras de freqüência
de classe,
estendidos à
esquerda e à direita
para alcançar o eixo
horizontal.
11
Análise Preliminar dos
Dados
Resumos e Gráficos (Ogiva)
• Gráficos de linhas que
representam
freqüência acumulada
de não-excedência. O
gráfico intercepta
valores das fronteiras
de classes, iniciando
da fronteira inferior
da primeira classe e
terminando na
fronteira superior da
última classe.
12
Análise Preliminar dos
Dados
Resumos e Gráficos (Gráfico de
Pareto)
• Gráfico de barras para
dados qualitativos, sendo
as barras ordenadas em
função dos valores de
freqüência de maneira
decrescente.
• Recomenda-se a aplicação
de gráficos de Pareto em
vez de gráficos de setores
(i.e. pizza).
• MATLAB: pareto
Prioridade de adequação
250
97%
200
78%
150
58%
100
39%
50
19%
0
Ct.Est. Sl.AulaCopias C.A.
Monit. Lb.Cmpt.W.C. Capac. Pesq. Lb.Ens.
0%
13
Análise Preliminar dos
Dados
Resumos e Gráficos (Diagramas de
dispersão)
• Gráfico de pares de dados, útil
à análise de relação/associação
entre variáveis.
• MATLAB: scatter
14
Análise Preliminar dos
Dados
Resumos e Gráficos (Gráficos de
séries temporais)
Hidrograma do posto XINGO
18000
dados não-usados
dados em uso
16000
14000
12000
Q(m³/s)
• Gráfico onde as
informações de uma
variável são
representadas no eixo
das ordenadas com seus
pares equivalentes ao
momento/tempo de
ocorrência no eixo das
abcissas.
• MATLAB: plot
10000
8000
6000
4000
2000
0
31 34 37 40 43 4649 52 55 58 61 64 6770 73 76 79 82 8588 91 94 97 00 03 06
Ano
15
Análise Preliminar dos
Dados
Resumos e Gráficos (Criação de
gráficos estatísticos)
• Oportunidade para apresentar dados importantes e
interessantes de maneira eficaz
• Princípios para criação de gráficos (Tufte apud Triola pg
50)
▫ P/ pequena quantidade de dados, use tabela
▫ Foco nos dados. Ilustração não deve distrair o leitor.
Gaste a tinta de impressão nos dados.
▫ Não distorcer os dados. Não use áreas e volumes para
informação unidimensional.
▫ Não usar linhas inclinadas, pontos ou quadriculados
(hachuras), pois criam desconfortável ilusão de
movimento.
16
Análise Preliminar dos
Dados
Resumos e Gráficos (Criação de
gráficos estatísticos)
Curva de Permanência do posto XINGO
18000
16000
14000
12000
Q(m³/s)
• Curva de permanência
• Freqüência acumulada de
excedência de valores
• Procedimento:
▫ Ordena dados de forma
decrescente
▫ Calcula a % de excedência
pela razão da ordem de
cada registro pela
quantidade de dados
▫ Gráfico das vazões
ordenadas contra a % de
excedência
10000
8000
6000
4000
2000
0
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95100
Fração do tempo (%)
17
Análise Preliminar dos
Dados
Resumos e Gráficos (Criação de
gráficos estatísticos)
• Gráfico polar
• Apresenta dados em
coordenadas polares,
onde o eixo radial é a
magnitude e o angular a
direção ou a data.
• MATLAB: polar
66231000(ss) and 66160000(bs) stations 82-90(pre) and
02-05(post) annual maximum specific flows (l.s -1.km-2)
A
M
press
postss
prebs
postbs
M
J
F
J
J
100
A
D
200
S
300
O
N
18
Análise Preliminar dos
Dados
Estatísticas
•
•
•
•
Medidas de centro
Medidas de variação
Medidas de forma (posição relativa)
Medidas de associação entre variáveis
19
Análise Preliminar dos
Dados
Estatísticas
• Quantis: dividem a amostra ordenada de dados
em grupos com aproximadamente o mesmo
número de dados
▫ 99 percentis - divisão em 100 partes
▫ 3 quartis – divisão em 4 partes
20
Análise Preliminar dos
Dados
Estatísticas (Medidas de forma /
posição relativa)
• Percentil
• Percentis dividem os valores ordenados em 100 partes iguais.
Assim, existem 99 percentis.
• Para calcular o percentil a que um valor xi corresponde, aplica-se:
▫ onde n é o tamanho da amostra.
21
Análise Preliminar dos
Dados
Estatísticas (Medidas de forma /
posição relativa)
• Percentil
• Para calcular o valor x para um percentil específico, aplica-se aos
dados ordenados:
▫ onde L é o percentil que se deseja estimar. Caso i não seja exato, o valor
de x referente ao percentil em análise será o da posição maior inteiro
mais próximo de i. Caso i seja exato, estima-se o percentil a partir da
média entre os valores de xi e xi+1
• MATLAB: prctile
• Como em curvas de permanência a ordem dos dados é decrescente,
PL=Q(100-L). Ex. P10=Q90
22
Análise Preliminar dos
Dados
Estatísticas (Medidas de forma /
posição relativa)
• Quartil
• Percentil que divide os dados em quartos.
• Q1=P25; Q2=P50 ; Q3=P75
23
Análise Preliminar dos
Dados
Estatísticas (Medidas de centro)
•
•
•
•
•
Ponto Médio
Mediana
Moda
Média
Média aparada
24
Análise Preliminar dos
Dados
Estatísticas (Medidas de centro)
• Ponto Médio = (min+max)/2
• Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]
• Ponto médio = (1+36)/2 = 18,5
25
Análise Preliminar dos
Dados
Estatísticas (Medidas de centro)
• Mediana
• Valor do meio da amostra, para dados ordenados em
função de seus valores
• MATLAB: median
• Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]
• Mediana = 12,5
26
Análise Preliminar dos
Dados
Estatísticas (Medidas de centro)
• Média
▫ onde n é o número de dados, i.e., o tamanho da amostra, fi é a
freqüência (número de observações) de ocorrência do valor xi.
• MATLAB: mean
• Por exemplo, para a amostra [1, 3, 6, 15, 15, 21, 28, 36]
• Média = (1+3+6+21+28+36).1/8+15.2/8 = 15,625
27
Análise Preliminar dos
Dados
Estatísticas (Medidas de centro)
• Média aparada
• Cálculo da média da parcela central (100-x)% da amostra
ordenada em função de seus valores.
• MATLAB: trimmean
• Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]
• Média aparada em 0% = 15
• Média aparada em 25% = 13,83
• Média aparada em 50% = 13
28
Análise Preliminar dos
Dados
Estatísticas (Medidas de centro)
• Moda
• Valor que ocorre mais freqüentemente
• MATLAB: mode
• Simetria da distribuição dos dados:
média=moda=mediana
29
Análise Preliminar dos
Dados
Estatísticas (Medidas de variação)
•
•
•
•
•
•
•
Amplitude
Desvio médio absoluto
Desvio padrão
Variância
Coeficiente de variação
Intervalo interquartil
Intervalo percentílico
30
Análise Preliminar dos
Dados
Estatísticas (Medidas de variação)
• Amplitude = max-min
• MATLAB: range
• Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]
• Amplitude = (36-1) = 35
31
Análise Preliminar dos
Dados
Estatísticas (Medidas de variação)
• Intervalo interquartil = Q3-Q1
• Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]
• Intervalo interquartil = 24,5 - 4,5 = 20
32
Análise Preliminar dos
Dados
Estatísticas (Medidas de variação)
• Intervalo percentílico = P90-P10
• Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]
• Intervalo percentílico = 36 - 1 = 35
33
Análise Preliminar dos
Dados
Estatísticas (Medidas de variação)
• Desvio médio absoluto
•
•
•
•
MATLAB: mad
Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36], média=15
Desvios
|xi-media|=[14,12,9,5, 0, 6, 13, 21]
Desvio médio absoluto = 10
34
Análise Preliminar dos
Dados
Estatísticas (Medidas de variação)
• Variância
• Estimador da dispersão em relação à média a partir dos quadrados
dos valores observados
• MATLAB: var
• Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]
• var = 156
35
Análise Preliminar dos
Dados
Estatísticas (Medidas de variação)
• Graus de liberdade: número de valores
escolhidos livremente antes que os demais sejam
determinados.
• Por exemplo, para a amostra [10, 13, 15, 18]
• Conhecida a média (14) e outros n-1 dados,
chega-se ao n-ésimo. Logo, número de graus de
liberdade = n-1
36
Análise Preliminar dos
Dados
Estatísticas (Medidas de variação)
• Desvio padrão
• Desvio médio dos valores em relação à média
• MATLAB: std
•
•
•
•
•
Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]
Desvios
(xi-media)=[-14,-12,-9,-5, 0, 6, 13, 21]
Quadrados (xi-media)²=[196,144,81,25,0,36,169,441]
Soma dos Quadrados = 1092
Desvio padrão =12,49
37
Graus de Liberdade
Christopher Souza:
Análise Preliminar de
Dados
Amostra
Média
Mediana
Amp.
Var.(n-1)
Std(n-1)
Var.(n)
std(n)
1,1
1,0
1,0
0
0,0
0,0
0
0
1,2
1,5
1,5
1
0,5
0,707
0,25
0,5
1,5
3,0
3,0
4
8,0
2,828
4
2
2,1
1,5
1,5
1
0,5
0,707
0,25
0,5
2,2
2,0
2,0
0
0,0
0,0
0
0
2,5
3,5
3,5
3
4,5
2,121
2,25
1,5
5,1
3,0
3,0
4
8,0
2,828
4
2
5,2
3,5
3,5
3
4,5
2,121
2,25
1,5
5,5
5,0
5,0
0
0,0
0,0
0
0
Média amostral
8/3
8/3
16/9
26/9
1,3
1,44
0,89
Parâmetro
8/3
2
4
26/9
1,7
2,89
1,7
População: 1, 2, 5
38
Análise Preliminar dos
Dados
Estatísticas (Medidas de variação)
• Desvio padrão
• Dispersão típica (Regra empírica da amplitude)
• Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]
• Desvio padrão ≈ (36 – 1)/4 = 8,75
39
Análise Preliminar dos
Dados
Estatísticas (Medidas de variação)
• Coeficiente de variação
• Estimador adimensionalizado da dispersão de valores em relação à
média de maneira a permitir comparações entre populações.
• Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]
• Cv=83,27%
40
Análise Preliminar dos
Dados
Estatísticas (Medidas de forma /
posição relativa)
•
•
•
•
•
Escore z
Quartil
Percentil
Simetria/Assimetria
Curtose
41
Análise Preliminar dos
Dados
Estatísticas (Medidas de forma /
posição relativa)
• Escore z
• Número de desvios padrão a que se situa o valor “i” da amostra,
acima ou abaixo da média.
• Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]
•
Escores z=[-1,12;-0,96;-0,72;-0,4; 0; 0,48; 1,04; 1,68]
42
Análise Preliminar dos
Dados
Estatísticas (Medidas de forma /
posição relativa)
• Simetria/Assimetria
• Coeficiente que descreve quanto a maior parte dos dados se
encontra afastada da média.
• O coeficiente analisa o desvio em relação à média na 3a potência.
• MATLAB: skewness
• Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]
• assimetria=0,5
43
Análise Preliminar dos
Dados
Estatísticas (Medidas de forma /
posição relativa)
• Curtose
• Coeficiente que descreve quanto os valores mais extremos se afastam
da média.
• O coeficiente descreve o desvio em relação à média na 4a potência.
• MATLAB: kurtosis
• Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]
• Curtose = 1,95
44
Análise Preliminar dos
Dados
Estatísticas (Medidas de associação
entre variáveis)
• Coeficiente de correlação linear de Pearson
• Mede a intensidade da relação linear entre os valores quantitativos
emparelhados de amostras de duas variáveis (‘x’ e ‘y’)
• MATLAB: corrcoef
45
Análise Preliminar dos
Dados
Estatísticas (Medidas de associação
entre variáveis)
• Coeficiente de correlação linear de Pearson = 0,7036
0.5
0.45
0.4
0.35
Q(mm/dia)
pano(mm/dia) qano(mm/dia)
1993
1.153424658
0.000182305
1994
3.239617486
0.034381446
1995
2.268493151
0.179512434
1996
3.735068493
0.454060273
1997
1.963561644
0.058780805
1998
1.205737705
0
1999
2.412054795
0.293169934
2000
2.51010929
0.265057745
0.3
0.25
0.2
0.15
0.1
0.05
0
1
1.5
2
2.5
P(mm/dia)
3
3.5
Bacia do rio Acaraú-CE (semi-árido; 1560 km²)
4
46
Christopher Souza: Teste
de hipóteses
Postos
• Número atribuído a um item
da amostra de acordo com sua
posição na lista ordenada.
• Em caso de empates, aplica-se
a média dos postos como valor
de posto de cada item com
igual valor
•
•
•
•
•
Ex:
x: [12 10 5 5 4 5 11 12]
xo: [4 5 5 5 10 11 12 12]
io: [1 3 3 3 5 6 7,5 7,5]
i: [7,5 5 3 3 1 3 6 7,5]
47
Análise Preliminar dos
Dados
Estatísticas (Medidas de associação
entre variáveis)
• Coeficiente de correlação de postos de Spearman
• Mede a associação das magnitudes de duas variáveis a partir das
posições dos valores ordenados por amostra (‘x’ e ‘y’)
rposto  1 
6d 2
n  (n 2  1)
▫ onde d é a diferença entre as posições dos correspondentes x e y.
• MATLAB: corr
• Spearman = 0,7143
1993
1994
1995
1996
1997
1998
1999
2000
pano(mm/dia) qano(mm/dia)
1
1.153424658 0.000182
7
3.239617486 0.034381
4
2.268493151 0.179512
8
3.735068493 0.45406
3
1.963561644 0.058781
2
1.205737705
0
5
2.412054795 0.29317
6
2.51010929 0.265058
d
2
3
5
8
4
1
7
6
d²
1
-4
1
0
1
-1
2
0
SOMA
1
16
1
0
1
1
4
0
24
48
Análise Preliminar dos
Dados
Análise Exploratória de Dados
• Outliers
• Diagrama de caixa
49
Análise Preliminar dos
Dados
Análise Exploratória de Dados
(Outliers)
• Outlier - dado cujo valor se localiza muito afastado de quase todos
os demais valores da amostra.
• Outliers podem ser valores atípicos reais ou um dado
errado/inexistente.
• Outliers podem afetar significativamente os valores de estatísticas
como a média e outras dela dependentes (e.g. desvio padrão, c.v.),
bem como, na definição de classes em estudos de freqüência e em
gráficos.
• Se um outlier for um dado real, deve-se estudar a série com e sem o
outlier.
• Uma técnica usual para detecção de outliers é comparar valores com
1,5x(Q3-Q1) abaixo de Q1 e acima de Q3.
50
Análise Preliminar dos
Dados
Análise Exploratória de Dados
(Diagrama de caixa)
• Representação
gráfica do resumo
dos cinco números
(mínima, Q1,
mediana, Q3 e
máxima).
• Ótimo para
comparação de duas
ou mais amostras.
• Outliers podem ser
representados.
• MATLAB: boxplot
Download

Introdução à Probabilidade e à Estatística