Estatística Descritiva
Thais Rotsen Correa
Departamento de Estatística/UFOP
Estatística Descritiva
• Variável: quantiifcação da característica de interesse do estudo.
• Exemplos: idade, renda, estado civil, sexo, altura, peso, número
de pacientes com determinada carcterística, concentração de
uma certa substância no sangue.
• Uma variável pode ser obtida através da manipulação de outras
variáveis. Exemplo: ínice de massa corporal = peso/altura^2
Thais Rotsen Correa
Departamento de Matemática/UFOP
Tabela de dados brutos
Paciente
Colesterol (mg/litro)
Sexo
Idade (anos)
Consumo de fritura
Peso (kg)
1
278,7
F
19
Alto
68,9
2
182,3
F
23
Baixo
63,4
3
180,9
F
20
Baixo
60,8
4
210,0
F
20
Médio
65,0
5
290,7
M
21
Alto
75,8
6
279,6
M
19
Alto
80,0
7
250,4
M
22
Médio
70,0
8
150,2
M
22
Baixo
55,7
9
179,8
M
19
Alto
60,4
10
233,2
M
20
Médio
72,0
Classificação das Variáveis
Variável Qualitativa
ou Categórica
Variável Quantitativa
Nominal
Ordinal
Discreta
Contínua
Ex: sexo
Ex: fritura
Ex: idade
Ex: colesterol
Thais Rotsen Correa
Departamento de Matemática/UFOP
Tabelas de Freqüência
• n: frequência absoluta simples
• N: frequência absoluta acumulada
• f: frequência relativa simples
• F: frequência relativa acumulada
Thais Rotsen Correa
Departamento de Matemática/UFOP
Gráficos
• Gráfico de Pizza ou Setores
• Gráfico de barras
• Histograma
• Diagrama de dispersão
• Boxplot
• Vários outros…
Thais Rotsen Correa
Departamento de Matemática/UFOP
Gráfico de Pizza ou Setores
Sexo
Feminino
Masculino
40,0%
60,0%
Thais Rotsen Correa
Departamento de Matemática/UFOP
Gráfico de Barras (freqüência absoluta)
Consumo de fritura
4
Frequencia
3
2
1
0
Baixo
Thais Rotsen Correa
Departamento de Matemática/UFOP
Médio
Consumo de fritura
Alto
Idade
3,0
Frequencia
2,5
2,0
1,5
1,0
0,5
0,0
19
Thais Rotsen Correa
Departamento de Matemática/UFOP
20
21
Idade
22
23
Idade
Frquencia Acumulada
10
8
6
4
2
0
19
Cumulative across all data.
Thais Rotsen Correa
Departamento de Matemática/UFOP
20
21
Idade
22
23
Gráfico de Barras (freqüência relativa)
Consumo de fritura
40
%
30
20
10
0
Baixo
Percent within all data.
Thais Rotsen Correa
Departamento de Matemática/UFOP
Médio
Consumo de fritura
Alto
Idade
30
25
%
20
15
10
5
0
19
Percent within all data.
Thais Rotsen Correa
Departamento de Matemática/UFOP
20
21
Idade
22
23
Idade
100
% Acumulado
80
60
40
20
0
19
Percent within all data.
Thais Rotsen Correa
Departamento de Matemática/UFOP
20
21
Idade
22
23
Gráfico de Barras (duas variáveis)
Consumo de fritura de acordo com Sexo
3,0
Frequencia
2,5
2,0
1,5
1,0
0,5
0,0
Consumo de fritura
Sexo
Thais Rotsen Correa
Departamento de Matemática/UFOP
Alto
Baixo Médio
F
Alto
Baixo Médio
M
Idade de acordo com Sexo
20
%
15
10
5
0
Sexo
Idade
F
M
19
Percent within all data.
Thais Rotsen Correa
Departamento de Matemática/UFOP
F
M
20
F
M
21
F
M
22
F
M
23
Gráfico de valores individuais
300
Colesterol (mg/litro)
275
250
225
200
175
150
Alto
Thais Rotsen Correa
Departamento de Matemática/UFOP
Baixo
Consumo de fritura
Médio
Histograma
Histograma: Colesterol (mg/litro)
3,0
Frequencia
2,5
2,0
1,5
1,0
0,5
0,0
150
Thais Rotsen Correa
Departamento de Matemática/UFOP
175
200
225
250
Colesterol (mg/litro)
275
300
Histograma: Colesterol (mg/litro)
30
25
%
20
15
10
5
0
150
Thais Rotsen Correa
Departamento de Matemática/UFOP
175
200
225
250
Colesterol (mg/litro)
275
300
Diagrama de Dispersão
Colesterol (mg/litro) vs Peso
300
Colesterol (mg/litro)
275
250
225
200
175
150
55
60
70
65
Peso
Thais Rotsen Correa
Departamento de Matemática/UFOP
75
80
Medidas de Posição Central
Considere uma amostra de tamanho n com valores x1,...xn.
1. Média
x
x1  ...  xn
n
2. Mediana: valor que ocupa a posição central quando os dados estão
ordenados.
50% dos valores são menores ou iguais a mediana, 50% dos valores são
maiores ou iguais a mediana.
3. Moda: valor com maior freqüência.
Thais Rotsen Correa
Departamento de Matemática/UFOP
Exemplo: Uma pesquisa sobre a remuneração mensal de um bacharel em
farmácia entrevistou 15 recém formados e anotou o salário de cada um deles.
Os valores estão em reais:
2720 2960 3180 3570 3790 3820 3000 2963 3240 3400 22460 15730 2800 2945 3156
Calcule o salário médio e o salário mediano. Comente as diferenças encontradas.
Qual deles você acha que representa melhor a remuneração mensal de um
farmaceutico?
Thais Rotsen Correa
Departamento de Matemática/UFOP
Percentil e Quartil
Percentil: o percentil a é um valor x tal que a% dos valores da amostra são
menores ou iguais a x. Por exemplo: quando dizemos que a altura 1,60 metros
é o percentil 37 da turma significa que 37% da turma mede 1,60 metros ou menos.
Os percentis 25, 50 e 75 dividem a amostra em 4 partes iguais, e por isso são
chamados de quartis. O primeiro quartil (Q1) é o percentil 25, o segundo quartil
(Q2) é o percentil 50 e o terceiro quartil (Q3) é o percentil 75.
Observe que Q2=mediana.
Thais Rotsen Correa
Departamento de Matemática/UFOP
- 25% dos valores da amostra são menores ou iguais a Q1.
- 50% dos valores da amostra são menores ou iguais a Q2.
- 75% dos valores da amostra são menores ou iguais a Q3.
Thais Rotsen Correa
Departamento de Matemática/UFOP
Box plot
Thais Rotsen Correa
Departamento de Matemática/UFOP
Notas dos alunos de duas turmas em uma prova de 30 pontos
30
Nota
25
20
15
10
Turma A
Thais Rotsen Correa
Departamento de Matemática/UFOP
Turma B
- O símbolo * representa um outlier (valor atípico/discrepante).
- DI: distancia interquartílica
DI = Q3 – Q1
- LS = menor valor entre maximo e Q3+(1,5*DI)
- LI = maior valor entre minimo e Q1-(1,5*DI)
Caso não exista nenhum outlier o limite superior LS é igual ao
máximo da amostra e o limite inferior LI é igual ao minimo da
amostra.
Thais Rotsen Correa
Departamento de Matemática/UFOP
Considere duas amostras de mesmo tamanho (n=5):
Amostra 1: 17 18 19 20 21
Amostra 2: 1 3 20 34 37
A média amostral das duas amostra é a mesma (19). A mediana também é
muito próxima (19 na amostra 1 e 20 na amostra 2). Porém, a dispersão
dos valores é extremamente diferente (na amostra 2 é muito maior).
Para descrever bem uma amostra não basta olharmos para as medidas de
tendência central. Precisamos também de medidas para a
dispersão/variabilidade.
Thais Rotsen Correa
Departamento de Matemática/UFOP
Medidas de Dispersão
1. Variância (medida adimensional)
x  x  ... x

2
s2
n x
1

2
n 1
2. Desvio-padrão: distância média entre cada valor e a média amostral.
x  x   ... x
2
s  s2 
1
Thais Rotsen Correa
Departamento de Matemática/UFOP
n 1
 x
2
n
3. Coeficiente de variação (medida adimensional)
CV  s / x
CV < 0,1: variabilidade baixa
0,1 < CV < 0,2: variabilidade intermediária
0,2 < CV < 0,3: variabilidade alta
CV > 0,3: variabilidade muito alta
Thais Rotsen Correa
Departamento de Matemática/UFOP
3. Escore padronizado
xi  x
zi 
s
Útil para comparar um valor da amostra com os demais. Fornece a
distancia entre o valor e a média amostral em desvios padrão.
Exemplo: Um aluno com nota 7 numa prova em que a média da
turma foi 5 teve melhor desempenho que um aluno com nota 8
quando a média da turma foi 9.
Thais Rotsen Correa
Departamento de Matemática/UFOP
Exemplo
Peso ao nascer para uma amostra de 11 bebes (em kg):
Peso (kg) 3,00 3,10 2,80 2,90 3,00 3,20 3,50 3,70 3,10 3,40 2,90
Sexo
F
F
F
F
F
M
M
M
M
M
M
a) Classifique a variável de interesse (peso ao nascer).
b)
Calcule média, mediana e desvio padrão do peso ao nascer.
c)
Calcule média, mediana, desvio padrão e CV do peso ao nascer para bebes do
sexo feminino.
d)
Calcule média, mediana, desvio padrão e CV do peso ao nascer para bebes do
sexo masculino.
e)
Faca um gráfico box-plot duplo para peso ao nascer feminino e masculino.
f)
Calcule o escore padronizado para um bebe do sexo feminino com peso ao nascer
igual a 3,5 kg.
g)
Calcule o escore padronizado para um bebe do sexo masculino com peso ao
nascer igual a 2,95 kg.
Thais Rotsen Correa
Departamento de Matemática/UFOP
Download

Estatística Descritiva