Estatística Descritiva
Ivan Balducci
Faculdade de Odontologia
São José dos Campos
UNESP
Estatística Descritiva
Resume um número grande de
observações
Termos que devem ser
familiares:

Tendência Central
 Dispersão
 Média
 Mediana
 Moda
Tabela
Histograma
Box-Plot
Desvio
Padrão
Coeficiente de
variação
Estatística Descritiva
Indicadores
de tendência central
(grandeza dos números)
 Indicadores de dispersão
(variabilidade dos números)
Indicadores de
tendência central
Média
Mediana
Moda
Média aritmética
Soma das observações
Número de observações
Sigma = Soma de...
Obs
n
Número de
observações
Tendência central: Exemplo 1
Alturas de Homens (m)
1,90
1,93
1,98
1,91
1,80
1,84
1,88
2,03
1,96
1,86
Média =  Alturas
n
= 19,09m
10
= 1,909m
A média indica uma altura
representativa?
2.05
2.00
1.95
1.90
1.85
1.80
1.75
Média
A média indica uma
altura que é
representativa do
grupo.
Neste caso, a média é
um indicator
satisfatório de
tendência central.
Tendência central: Exemplo 2
Tempo p/ crianças completarem um quebra-cabeças (s)
31
40
49
56
214
70
47
35
43
58
101
45
33
42
52
65
390
58
30
582
87
47
39
23
43
256
55
43
15
67
62
183
33
54
467
49
29
38
76
Média =  Tempo
n
= 3707 s
39
= 95,05 s
600

500
A média indica um tempo
representativo?
A média indica um tempo que
não é típico. No caso, uma
criança que leva 95 s é de fato
lenta.

400

300


200

100
0






Média
Um pequeno número de
outliers produziram efeito
desproporcionado sobre a
média.
Mediana
Um valor escolhido de tal
forma que divide os dados
em duas partes, com igual
número de observações
acima e abaixo do valor
escolhido
Encontrando a mediana por ordenação
Tempo: 15 23 29 30 31 33 33 35 38 39 40 42 43
posição: 1 2 3 4 5 6 7 8 9 10 11 12 13
Tempo: 43 43 45 47 47 49 49 52 54 55 56 58 58
posição: 14 15 16 17 18 19 20 21 22 23 24 25 26
Tempo: 62 65 67 70 76 87 101 183 214 256 390 467 582
posição: 27 28 29 30 31 32 33 34 35 36 37 38 39
Há 19 crianças +rápidas e 19 - rápidas do
que a criança indicada. A mediana é 49 s.
600

500
A mediana indica um tempo
representativo?

400

300


200

100
0






A mediana indica um
tempo que é
razoavelmente
típico. Uma criança que
leva 49s não é
especialmente rápida ou
lenta.
Mediana
Efeito de extremos: valores discrepantes
Tempo: 15 23 29 30 31 33 33 35 38 39 40 42 43
posição: 1 2 3 4 5 6 7 8 9 10 11 12 13
Tempo: 43 43 45 47 47 49 49 52 54 55 56 58 58
posição: 14 15 16 17 18 19 20 21 22 23 24 25 26
9000
Tempo: 62 65 67 70 76 87 101 183 214 256 390 467 582
posição: 27 28 29 30 31 32 33 34 35 36 37 38 39
Mediana é descrita como ‘Robusta’. Ela é
resistente aos efeitos de alguns valores
discrepantes.
Cálculo da mediana com um
número par de observações
Valores: 2 4 6 6 7 9 12 2 0
posições: 1 2 3 4 5 6 7 8
Localize o par central.
Valores são 6 e 7
Mediana = 6,5
Md = [(n/2) + ((n/2) +1)] /2 = 4º e 5º
Moda
Valor que ocorre com um pico de
freqüência
Não há fórmula para o cálculo da
moda
Tendência central: Exemplo 3
Número de dentes presentes em uma população de
idosos
13 ***
12
11
10
9
8
7
6
5
4
3
2
1
0
***
********
****************************
*****************************
Moda (Aprox. 9)
*****************
Mediana = 8
**********
Média = 6,69
****
***
******
***********
*********
********************
Moda (Aprox. 1)
*****
Indicadores de tendência
central
Média
Mediana
Moda
O indicador padrão.
OK para muitos conjuntos
de dados
Usada com frequência
Muito rara - apenas usada
com dados polimodais
Indicadores de
dispersão
Desvio-Padrão
Coeficiente
de variação
Peso de camundongos (g)
Animais de laboratório
ração
17
21
19
19
21
18
22
23
20
20
Total 200g
Média 20g
Animais selvagens
alimentação natural
23
20
26
17
23
20
10
13
30
18
Total 200g
Média 20g
Peso de camundongos (g)
laboratório selvagens
30
25
20
15
10
Desvio Padrão – camundongos de laboratório
Pesos
17 g
21
19
19
21
18
22
23
20
20
Desvio
da média
-3 g
+1
-1
-1
+1
-2
+2
+3
0
0
Desvio
ao quadrado
9
1
1 (Soma)2 = 30
1
2
1 (Soma) = 30 = 3,33
9
4 n-1
4
3,33 = 1,83
9
0
0
30
Desvio Padrão – camundongos selvagens
Pesos
Desvios
da média
23 g
20
26
17
23
20
10
13
30
18
+3 g
0
+6
-3
+3
0
-10
-7
+10
-2
Desvios
ao quadrado
9
0
36
9
9
0
100
49
100
4
316
(Soma)2 = 316
SS = 316 = 35,11
n-1
9
 35,11 = 5,93 g
Desvio-Padrão
Comparação
Peso médio
= 20 ± 1,83 g (± D.P.)
camundongo de laboratório
Peso médio
camundongo selvagem
= 20 ± 5,93 g (± D.P.)
Mesma tendência central
Diferente dispersão
Coeficiente de variação
C.V. = D.P.
Média
Pode ser expresso em
porcentagem.
C.V. (%) p/ camundongos selvagens=(5,93/20)x100=29,65%
C.V. (%) p/ camundongos de laboratório=(1,83/20)x100=9,15%
Tendência
Central
Fórmula
Prós
Contras
Média
Σx/ N
* é precisa
* é apenas um
valor para os
dados
*Assimetria
produzida pelos
outliers
* Média pode
não ser realista
Mediana
Valores
Ordenados,
então (N+1)/2
Moda
Maior
Frequência
* Não é
influenciada
pelos outliers
* Pode ser
bimodal
* Não precisa
estar perto da
metade
* Não é boa se
os dados não se
aglomeram ao
redor da
mediana
* Imprecisa
HISTOGRAMA
Os retângulos são desenhados de modo
que a área de cada retângulo seja
proporcional à freqüência
Histograma: conjunto de
retângulos justapostos
Área retângulo= base x altura = bj * fj
(fj =frequência da classe)
xj-1
xj
X
Base retângulo= xj – xj-1 = bj = amplitude da classe
Se a base = 1 ...então a área = freqüência
Exemplo: Notas de exame de uma
classe de 80 alunos
72 71 39 63 83 32 65 52 91 60 54 70 29 73 75 65
38 65 42 49 89 28 72 63 49 40 52 61 36 40 93 70
43 59 58 81 60 39 81 73 67 58 58 39 49 38 53 79
81 90 56 56 52 49 58 69 76 52 77 74 62 59 57 37
79 83 72 60 62 48 45 75 72 68 88 68 31 60 61 46
Notas de exame de 80 alunos:
Distribuição agrupada de freqüências
Notas 90-99 80-89 70-79 60-69 50-59 40-49 30-39 20-29
Nº
3
7
16
17
15
11
9
2
Notas de exame de 80 alunos dispostas em
um gráfico de barras
18
16
20-29
30-39
40-49
50-59
60-69
70-79
80-89
90-99
14
12
Nº
10
8
6
4
2
0
CLASSES (Categorias de Notas)
Box Plot ou esquema dos
5 números
•Mínimo
•1º quartil
•2º quartil (Mediana)
•3º quartil
•Máximo
Quartis
25%
Menor
Valor
Q1
25º Percentil
1º Quartil
M
Q3
Maior
Valor
Quartis
25%
Menor
Valor
Q1 Q1
25º Percentil
1º Quartil
50%
Mediana
50º Percentil
2º Quartil
Q3
Maior
Valor
Quartis
25%
Menor
Valor
Q
Q11
25ºPercentil
1º Quartil
50%
Mediana
50º Percentil
2º Quartil
75%
Q3
75º Percentil
3º Quartil
Maior
Valor
Faixa
Faixa = Maior Valor - Menor Valor
Menor
Valor
Q1
M
Faixa
Q3
Maior
Valor
Faixa Interquartil
Faixa Interquartil = Q3 - Q1
Menor
Valor
Q1
M
IQR
Q3
Maior
Valor
Simetria
Os valores dos dados se dispersam igualmente
ao redor de um valor central
Valores
Simetria
Os valores dos dados são Espelho-Imagem ao
redor de um ponto
Valores
Um lado é o Espelho - Imagem do outro
Simetria
Os valores se dispersam igualmente ao redor de um
valor central
Média = Mediana
Assimetria-Positiva
Os valores dos dados se dispersam para a Direita
Assimetria-Positiva
Os valores dos dados se dispersam para a Direita
Mediana < Média
Média situa-se à direita da mediana
Assimetria-Negativa
Os valores dos dados se dispersam para a Esquerda
Assimetria-Negativa
Os valores dos dados se dispersam para a Esquerda
Média < Mediana
Média situa-se à esquerda da mediana
Box Plot
100
Notas
95
90
Q3
Metade
dos dados
85
80
Q1
75
70
Box Plot
100
Notas
95
90
Q3
85
M
80
Q1
75
70
Metade dos
dados
Box Plot
100
Máximo
Notas
95
90
Q3
85
M
80
Q1
75
70
Mínimo
Dispersão dos
Dados
Forma da Distribuição
Box-Plots
Esq-Assim.
Q1 MedianaQ3
Simétrica
Q1
MedianaQ3
Dir-Assim.
Q1 MedianaQ3
Tabelas
Forma não discursiva de apresentar
informações, nas quais o dado
numérico se destaca como
informação central
Números não falam por si mesmos
Elementos da Tabela
Título
Corpo
Cabeçalho
Coluna
indicadora
Elementos da Tabela
Título: explica o que a tabela contém
Corpo: formado pelas linhas e colunas
de dados (números)
Cabeçalho: especifica o conteúdo das
colunas
Coluna Indicadora: especifica o
conteúdo das linhas
Casos registrados de intoxicação humana,
segundo a causa determinante. Brasil, 1993.
Causa
Acidente
Abuso
Suicídio
Profissional
Outras
Ignorada
Freqüência
29601
2604
7965
3735
1959
1103
Fonte: MS/FIOCRUZ/SINITOX
Título: Casos registrados...
Cabeçalho: Causa Freqüência
Coluna Indicadora: especificações
Acidente, Abuso, Suicídio etc..
Corpo: 29601 2604 7965 3735
1959 1103
Estruturação
MÍNIMO de 3 TRAÇOS HORIZONTAIS
PARALELOS
O 1º p/ separar o TOPO
O 2º p/ separar o CABEÇALHO
O 3º p/ separar o RODAPÉ (espaço inferior
da tabela destinado à fonte, às notas,
chamadas...)
No nosso exº: Fonte: MS/FIOCRUZ?SINTOX
Tabela desnecessária !!!
Grupo
Nº de
ratos
Sexo
Idade
Controle
20
M
20 a 30
dias
Tratado
20
M
20 a 30
dias
“Tanto o grupo controle como o grupo
tratado foram constituídos por 20 ratos
machos com idades variando entre 20 e 30
dias”
Estatística descritiva dos pesos (g) adquiridos pelos
camundongos selvagens e de laboratório
Estatística
Laboratório
Selvagens
n
10
10
Média
20,00
20,00
Desvio Padrão
1,83
5,93
C. V. (%)
9,15
29,65
Exemplos- Estatística
Descritiva na Literatura
Odontológica
Avaliação Crítica da Aplicabilidade
do Índice de O’LEARY em Relação
aos Índices de GREENEVERMILLION e de LÖE & SILNESS
Cesário Antonio DUARTE
Rev Odontol Univ São Paulo
v.8, n.4, p.301-307, out.dez. 1994.
Índice Gengival
TABELA 1. Médias e desvios padrões dos índices em
seis períodos de avaliação.
Períodos
Média
0
1,43
Desvio
Padrão
0,41
1
1,19
0,39
2
1,10
0,45
3
0,98
0,52
4
0,80
0,43
5
0,63
0,42
Investment strength as a
function of time and
temperature
C.L. Chew, M.F. Land, C.C. Thomas, R.D.
Norman
Journal of Dentistry 27 (1999) 297-302
Tabela 1. Média (DP) dos dados (MN/m2) de
resistência, segundo o revestimento e tempo após
a mistura. Temperatura ambiente.
Revestimento
2h
6h
12h
24h
Cerafina
4,23(0,20)
6,63(0,25)
6,14(0,43)
7,55(0,35)
Ceramigold
3,39(0,14)
5,31(1,19)
5,81(0,42)
8,79(0,38)
Novocast
4,03(0,21)
4,08(0,24)
3,95(0,24)
4,23(0,36)
Tabela 2. Média (DP) dos dados (MN/m2) de
resistência, segundo o revestimento e tempo após
a mistura. 700ºC.
Revestimento
2h
6h
12h
24h
Cerafina
16,24(1,76) 17,75(1,08) 16,80(1,81) 14,99(1,86)
Ceramigold
14,18(1,64) 15,35(1,01) 12,20(0,50) 10,13(0,56)
Novocast
4,9(0,42)
5,17(0,18)
5,29(0,25)
4,24(0,51)
Tabela 3. Média (DP) dos dados (MN/m2) de
resistência, segundo o revestimento e tempo após
a mistura. 872ºC.
Revestimento
2h
6h
12h
24h
Cerafina
22,39(1,78) 21,09(2,42) 20,15(1,98) 22,26(1,67)
Ceramigold
14,58(0,56) 13,60(1,11) 12,69(1,22) 11,23(1,05)
Tendência Central
Média
Mediana
Moda
Dispersão
Desvio Padrão
Faixa
Faixa Inter-quartil
Tabela
Histograma
Box-Plot
Download

Q - Unesp