Estatística Descritiva
1
Estatística Descritiva

Também chamada de Análise Exploratória de Dados

Etapa inicial da análise utilizada para descrever os
dados coletados.

A disponibilidade de uma grande quantidade de dados e
de métodos computacionais muito eficientes revigorou
esta área da Estatística.
2

Exemplo: Estudo sobre Idade (anos)
Dados (n=165):
14
27
53
18
70
29
26
43
31
27
17
23
18
17
10
21
36
54
62
17
18
39
50
22
44
26
32
35
19
21
42
22
25
37
29
14
32
37
32
37
37
37
29
27
24
36
40
28
19
22
38
45
60
21
18
16
35
50
22
19
47
27
50
46
33
22
51
18
16
41
39
26
25
43
19
18
26
41
26
25
32
30
27
26
19
49
32
28
32
17
26
31
44
45
60
19
16
24
38
28
31
22
29
18
41
35
51
22
19
48
14
54
21
34
22
41
38
18
41
28
20
40
19
24
31
40
62
17
26
19
27
21
50
53
70
17
50
36
70
44
43
53
32
37
17
21
39
37
35
21
37
62
17
28
23
41
32
25
28
32
27
19
21
45
14
É preciso resumir de alguma forma
3
Estatística Descritiva

Após a coleta das observações:

Primeira Etapa
Resumo dos Dados = Estatística Descritiva
4
Conceitos básicos

Variável é uma característica de interesse a
ser medida em cada unidade amostral.
5
Tipos de variável
Variável
qualitativa ou atributo
nominal
ordinal
quantitativa
discreta
contínua
6
Exemplos de variáveis

qualitativa nominal: sexo, carreira, região onde
mora, portador de diabetes

qualitativa ordinal: grau de instrução, nível de renda,
grau de evolução de uma doença

quantitativa discreta: número de filhos, número de
acidentes em um mês

quantitativa contínua: peso, altura,
sangüínea sistólica, tempo de vida útil
pressão
7
Distribuição de freqüências
Distribuição de freqüências de uma variável é uma lista de
valores individuais ou intervalos de valores que a variável
pode assumir, com as respectivas freqüências de ocorrência.
Tipos de freqüência:

Freqüência absoluta

Freqüência relativa
8
Distribuição de freqüências
Exemplo (variável contínua):
9
0
5
10
15
20
Histograma com as 10 classes da
distribuição de freqüências original
60
65
70
75
h
10
0
5
10
15
20
25
com 5 classes
60
65
70
75
h
11
!
0
10
20
30
40
50
60
2 classes
60
65
70
75
h
12
0
2
4
6
8
10
12
14
20 classes
60
65
70
75
hh
13
0
2
4
6
8
40 classes
60
65
70
75
hh
14
0
1
2
3
4
5
6
88 classsssses
62
64
66
68
70
72
74
hh
15
Produção de Aço em Março/2008
nas 300 siderúrgicas de Freedonia
(em milhões de toneladas)

[1] 6.876618 12.097970 4.198805 1.977347 2.499686 5.129911 3.864137 5.393796 5.435424 5.223608 [11] 5.269344 8.197886 7.082304
8.214568 9.767853 10.176256 8.045936 3.122520 4.970869 6.404714 [21] 8.113886 7.930350 3.830383 7.858221 6.197518 1.087644
3.726859 8.387229 10.659252 5.406586 [31] 5.700303 3.690097 9.232655 6.348535 8.828824 6.914480 4.928011 12.833652 7.613482
10.833950 [41] 8.361260 3.399995 5.882505 7.311930 13.410290 3.102575 6.425824 19.574748 3.736885 3.118031 [51] 5.914881 11.656941
6.066372 11.832583 8.144090 17.089016 12.335980 3.832523 7.179797 6.408568 [61] 4.640458 4.094012 8.054444 8.787959 8.768513
7.705142 2.579192 7.626540 10.014986 5.214400 [71] 15.655666 7.731958 10.410604 7.770637 9.357073 16.611883 18.557087 2.920553
4.955024 12.896035 [81] 3.046784 14.960503 12.972153 7.748507 11.555733 7.487245 13.862800 2.461602 4.378627 1.583542 [91] 5.710247
7.465643 4.306912 2.272638 6.653955 14.555497 8.755477 9.626985 16.267962 8.753827[101] 7.089586 4.646395 18.751816 10.110630
4.158379 7.742147 3.403779 7.582975 7.576675 9.727539[111] 12.844820 2.496837 2.840600 9.474741 11.316375 6.479272 10.678346
3.114404 9.693240 7.113135[121] 3.105780 10.954278 17.490894 2.759040 7.712045 3.269794 6.263665 9.071387 8.896182 5.802322[131]
11.758015 4.243693 17.118969 5.777395 3.906514 14.505247 5.717483 7.158199 8.190922 6.751097[141] 2.234036 5.117306 8.722552
3.882102 6.429062 9.978124 6.519737 2.049796 3.034467 15.691433[151] 7.110984 17.289195 8.254315 6.176311 6.371584 3.125555
11.469224 2.949307 12.602642 11.876376[161] 13.546733 8.719288 4.419488 13.100454 4.044903 7.089641 4.767460 12.337639 4.022905
4.428531[171] 9.998569 6.556799 13.666071 5.542366 6.371643 3.392875 5.354327 4.315321 8.979245 7.408258[181] 14.878525 7.118937
10.931751 5.335933 4.543817 7.836608 7.523252 2.952185 4.266915 1.073351[191] 9.444695 5.392002 5.575110 14.988542 6.341733
13.245391 10.781805 4.336494 4.761749 2.340650[201] 5.395041 11.528355 6.114785 5.758685 8.049890 12.950325 4.124019 8.504680
8.249042 13.281873[211] 3.850087 9.467709 8.108362 6.552531 11.172370 11.036386 4.059687 2.583675 2.420407 6.700969[221] 1.659434
6.765582 5.605151 6.384327 4.294425 4.613965 5.630146 6.855454 5.585359 5.278643[231] 8.235252 13.671480 7.238542 10.177182
9.102644 6.050771 12.336994 22.141359 1.960311 3.975556[241] 6.489878 2.053341 3.800076 11.369381 3.684374 5.621648 3.093503
7.288933 6.913161 4.421509[251] 1.806421 6.155574 2.392318 8.558654 8.229195 8.939463 7.738086 13.302252 9.536604 12.589417[261]
3.900192 6.075976 3.158733 10.796325 9.731696 10.610404 8.560950 2.860262 8.263175 13.880770[271] 4.554466 11.910367 3.498353
9.844699 6.393392 6.744949 7.452153 10.043793 9.647260 4.645847[281] 12.441962 3.887967 8.057977 4.641737 3.772433 8.356782
8.919851 7.217435 4.212135 9.635687[291] 4.765684 4.524338 8.306220 4.544394 9.166337 8.486697 6.712709 6.346452 5.178664
8.333287
16
Para construir o boxplot

Min, Q1 , Mediana , Q3 , Max
1.073351 4.54425 6.998392 9.559199 22.14136
17
5
10
15
20
O Boxplot
18

Mediana = 7

Primeiro Quartil = 4.5

Terceiro Quartil = 9.5

IQ = 5

4.5 – 1.5 (5) = - 3

9.5 + 1.5 (5) = 17

8 pontos maiores que 17 ( a partir de 16.61)
19
0
10
20
30
40
50
60
Histograma com 12 classes de
mesma amplitude.
0
5
10
15
20
xx
20

Média = 7.5

Mediana = 7

Variância = 14.37

Desvio-padrão = 3.79
21
Variáveis Quantitativas
Medidas de Posição:
Mínimo, Máximo, Moda, Média, Mediana, Percentis,
Quartis
Medidas de Dispersão:
Amplitude, Intervalo Interquartil, Variância, Desvio
Padrão, Coeficiente de Variação.
22
Medidas de Posição

Máximo (max): a maior observação

Mínimo (min): a menor observação

Moda (mo): é o valor (ou atributo) que ocorre com maior
freqüência
Dados: 4, 5, 4, 6, 5, 8, 4
max = 8
min = 4
mo = 4
23
Medidas de Posição

Média
Dados: 2, 5, 3, 7, 8
24
Medidas de Posição

Mediana
A Mediana é o valor que ocupa a posição central de um
conjunto de n dados ordenados.
Posição da mediana: (n+1) / 2
25
Mediana
 n = 5 (ímpar)
Ordenados: 2 3 6 7 8
 (5+1)/2 = 3 => Md = 6
 n = 6 (par)
Ordenados: 1 2 4 6 8 9
 (6+1)/2 = 3,5
Md = (4+6)/2 = 5
26
Medidas de Posição

Percentis:
O percentil de ordem px100 (0 < p < 1), em um conjunto
de dados de tamanho n, é o valor da variável que ocupa
a posição p x (n+1) do conjunto de dados ordenados.

Casos Particulares:
Percentil 50 = Mediana ou segundo quartil (Md)
Percentil 25 = Primeiro quartil (Q1)
Percentil 75 = Terceiro quartil (Q3)
27
Quartis

Dados: 4, 7, 8, 1, 3, 10, 2, 13, 5, 5, 8 => n = 11
Ordenados: 1, 2, 3, 4, 5, 5, 7, 8, 8, 10, 13
Q1 = 3

Md = 5
Q3 = 8
Dados: 15, 5, 3, 8, 10, 2, 7, 11, 12
=> n = 9
Ordenados: 2, 3, 5, 7, 8, 10, 11, 12, 15
Q1 = 4,5
Md = 8
Q3 = 11,25
28
Medidas Resumo

Exemplo: Considere as notas de um teste de 3 grupos de alunos
Grupo 1: 3,4,5,6,7
Grupo 2: 1,3,5,7,9
Grupo 3: 5,5,5,5,5
29
Medidas de Dispersão

Finalidade: Encontrar um valor que resuma a variabilidade
do conjunto de dados

Amplitude (A):
A = máx - min
Para os grupos anteriores:
Grupo 1:
A=4
Grupo 2:
A=8
Grupo 3:
A=0
30
Medidas de Dispersão

Intervalo Interquartil: É a diferença entre o terceiro quartil e
o primeiro quartil, ou seja
d = Q3 – Q1

Dados: 15, 5, 3, 8, 10, 2, 7, 11, 12
Ordenados: 2, 3, 5, 7, 8, 10, 11, 12, 15
Q1 = 4,5
Q3 = 11,25
d = Q3 – Q1 = 11,25 – 4,5 = 6,75
31
Medidas de Dispersão


Variância
Desvio Padrão
32
Medidas de Dispersão
Cálculo da variância para os grupos
Grupo 1:
33
Medidas de Dispersão
Fórmula alternativa para cálculo da variância
Grupo 1:
34
Medidas de Dispersão


Coeficiente de Variação
é uma medida de dispersão relativa

elimina o efeito da magnitude dos dados

exprime a variabilidade em relação à média
35
Tipos de gráficos
Dados unidimensionais:




Gráfico de pizza
Gráfico de barras
Histograma
Boxplot
36
Gráfico de pizza
tipo A
tipo B
tipo C
tipo D
37
Gráfico de Barras
47
46,5
46
45,5
45
44,5
44
43,5
43
42,5
42
rendimento
1° Trim 2° Trim 3° Trim 4° Trim
38
Histograma
Agrupar os dados em intervalos de classes (distribuição de freqüências)
• Bases iguais: construir um retângulo para cada classe, com base igual
ao tamanho da classe e altura proporcional à freqüência da classe (f)
• Bases diferentes: base igual ao tamanho da classe e área do
retângulo igual à freqüência relativa da classe (fr)
A altura será dada por: h = fr / base (densidade da freqüência)
39
Histograma
Exemplo com classes iguais
Distribuição de notas finais na disciplina de Noções de Estatística
40
Histograma
Exemplo com classes desiguais
Dados de vacinação infantil
41
Box Plot
42
Box Plot
Exemplo: Tempo de sobrevivência (dias)
Dados ordenados (n=36):
43
Download

ESTATISTICA DESCRITIVA