Representação gráfica e tabular
da distribuição dos dados
e
Medidas resumo
MAIO/2010
Paula Strassmann
PGS Medical Statistics
Tópicos abordados na última aula
 Definição e classificação de variáveis;
 Codificação de dados;
 Armazenamento dos dados (Exemplo de banco de dados);
 Construção de tabelas de frequências (Variáveis qualitativas).
Paula Strassmann
MAIO/2010
PGS Medical Statistics
Tópicos abordados nessa aula
 Construção e interpretação de gráficos para cada tipo de variável;
 Definição e Cálculo das medidas de posição: Média, Mediana,
Quartis e Moda;
 Medidas de dispersão.
Paula Strassmann
MAIO/2010
PGS Medical Statistics
Estatística descritiva - Definição
Conjunto de técnicas que resumem e descrevem
os dados simplificando as informações para
torná-las mais rapidamente compreensíveis.
Etapa inicial da análise dos dados
Tabelas
Gráficos
Medidas resumo
MAIO/2010
Paula Strassmann
PGS Medical Statistics
Representação gráfica para Variáveis qualitativas
(categóricas) ou quantitativas discretas
GRÁFICO DE BARRAS / COLUNAS: É utilizado para apresentar variáveis
categóricas ou numéricas discretas. Em geral, no eixo das abscissas
encontram-se as categorias e a altura das colunas correspondem às
freqüências (simples ou relativas) das categorias.
MAIO/2010
Paula Strassmann
PGS Medical Statistics
Exemplo de gráfico de colunas para variáveis quantitativas
discretas:
14
13
12
Nº de
filhos
1
2
3
4
Nº de funcionários
casados
9
13
7
3
10
9
8
7
6
4
3
2
0
1
MAIO/2010
2
3
4
Paula Strassmann
PGS Medical Statistics
Exemplo de gráfico de colunas para variáveis qualitativas:
Satisfação
Indivíduos
Insatisfeito
50
Pouco satisfeito
75
Muito satisfeito
120
MAIO/2010
140
120
100
80
60
40
20
0
120
75
50
Insatisfeito
Pouco
satisfeito
Muito
satisfeito
Paula Strassmann
PGS Medical Statistics
Exemplo de gráfico de barras para variáveis qualitativas:
Cidade
Nº de
casos
SÃO PAULO
São Paulo
52
OSASCO
Osasco
20
GUARULHOS
Guarulhos
17
CARAPICUIBA
Carapicuiba
16
CAIEIRAS
Caieiras
10
BARUERI
Barueri
8
Cotia
8
Taboão da Serra
5
Santana de Parnaíba
4
Outros
3
52
20
17
16
10
8
8
COTIA
TABOÃO DA SERRA
SANTANA DE PARNAIBA
OUTROS*
0
5
4
3
10
20
30
40
50
60
número de casos
MAIO/2010
Paula Strassmann
PGS Medical Statistics
Cruzamentos: Variáveis categóricas x Variáveis categóricas
Sexo \ Tabagismo
Masculino
Feminino
Total
Sim
175 (81%)
50
(83%)
225 (82%)
Não
40 (19%)
10 (17%)
50 (18%)
Total
215 (100%)
60 (100%)
275 (100%)
200
180
175
160
140
120
Sim
Não
100
80
60
40
50
40
10
20
0
Masculino
MAIO/2010
Feminino
Paula Strassmann
PGS Medical Statistics
Cruzamentos: Variáveis categóricas x Variáveis categóricas
(Continuação)
Sexo \ Tabagismo
Masculino
Feminino
Total
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
MAIO/2010
Sim
175 (81%)
50
(83%)
225 (82%)
Não
40 (19%)
10 (17%)
50 (18%)
Total
215 (100%)
60 (100%)
275 (100%)
83%
81%
Sim
Não
19%
Masculino
17%
Feminino
Paula Strassmann
PGS Medical Statistics
Cruzamentos: Variáveis categóricas x Variáveis categóricas
(Outro exemplo)
Faixa etária \ Estado
civil
Até 30 anos
30 a 50 anos
Mais de 50 anos
Total
80%
Solteiro
62
23
12
97
Casado
(73%)
(24%)
(14%)
(36%)
18
57
42
117
5
17
30
52
(6%)
(18%)
(36%)
(20%)
85
97
84
266
(100%)
(100%)
(100%)
(100%)
59%
60%
50%
50%
36%
40%
21%
20%
10%
(21%)
(59%)
(50%)
(44%)
Total
73%
70%
30%
Separado / viúvo
24%
18%
14%
Solteiro
Casado
Separado / viúvo
6%
0%
MAIO/2010
Até 30 anos
30 a 50
anos
Mais de 50
anos
Paula Strassmann
PGS Medical Statistics
Cruzamentos: Variáveis categóricas x Variáveis categóricas
(Outro exemplo – Continuação)
120%
100%
80%
6%
18%
21%
36%
60%
59%
40%
50%
73%
Separado / viúvo
Casado
Solteiro
20%
24%
14%
0%
Até 30 anos
MAIO/2010
30 a 50
anos
Mais de 50
anos
Paula Strassmann
PGS Medical Statistics
Representação gráfica para variáveis qualitativas
(categóricas)
GRÁFICO
DE
SETORES
(PIZZA):
Cada
“fatia”
corresponde
à
porcentagem de ocorrências em cada categoria de resposta da variável. É indicado
para variáveis qualitativas (preferencialmente nominais). Neste tipo de gráfico,
todas as observações da amostra estão classificadas em uma das categorias, ou
seja, a soma das porcentagens deve ser igual a 100%.
MAIO/2010
Paula Strassmann
PGS Medical Statistics
Exemplo de gráfico de setores (pizza) para variáveis
qualitativas:
MAIO/2010
Paula Strassmann
PGS Medical Statistics
Exemplo de gráfico de setores (pizza) para variáveis
qualitativas:
Sexo
Homens
Mulheres
Total
(%)
(75,0%)
(25,0%)
(100,0%)
Mulheres
25%
Mulheres
25%
Homens
75%
MAIO/2010
f
150
50
200
Homens
75%
Paula Strassmann
PGS Medical Statistics
Representação gráfica para Variáveis
quantitativas contínuas
Histograma: Gráfico de barras justapostas em que no eixo horizontal está
a variável de interesse, dividida em classes geralmente de mesmo
tamanho. No eixo vertical, constrói-se uma barra para cada classe com
altura igual à freqüência absoluta ou relativa correspondente. A barra é
centrada no ponto médio da classe.
Polígono de Freqüências: Construído a partir do histograma, onde se une
através de segmentos de reta as ordenadas correspondentes aos pontos
médios de cada classe.
MAIO/2010
Paula Strassmann
PGS Medical Statistics
Exemplo de histograma: Dados de registro pediátrico da concentração de
chumbo na urina de 140 crianças de uma determinada região.
Concentração de
chumbo umol/24 hrs
Nº de crianças
2
30
0.4 | 0.8
7
25
0.8 |1.2
10
1.2 |1.6
16
1.6 |2.0
23
2.0 |2.4
28
2.4 |2.8
19
2.8 |3.2
16
3.2 |3.6
11
3.6 |4.0
7
4.0 |4.4
1
Total
140
Number of children
0|0.4
n=140
20
15
10
5
0
0- 0.4- 0.8- 1.2- 1.6- 2.0- 2.4- 2.8- 3.2- 3.6- 4.0- 4.4Lead concentration
MAIO/2010
Paula Strassmann
PGS Medical Statistics
Construção do Histograma para os dados da Tabela 1
Tabela 1. Ácido úrico sérico em homens sadios (Finn et al. (1966)).
Ácido úrico Freqüência Freqüência Porcentagem
(mg/dl)
absoluta
relativa
(%)
MAIO/2010
3,0 | 3,5
2
0,008
0,8
3,5 | 4,0
15
0,056
5,6
4,0 | 4,5
33
0,124
12,4
4,5 | 5,0
40
0,150
15,0
5,0 | 5,5
54
0,202
20,2
5,5 | 6,0
47
0,176
17,6
6,0 | 6,5
38
0,142
14,2
6,5 | 7,0
16
0,060
6,0
7,0 | 7,5
15
0,056
5,6
7,5 | 8,0
3
0,011
1,1
8,0 | 8,5
1
0,004
0,4
8,5 | 9,0
3
0,011
1,1
Total
267
1,000
100,0
Paula Strassmann
PGS Medical Statistics
Histograma para os dados da Tabela 1
60
Porcentagem
50
40
30
20
10
0
3,25 3,75 4,25 4,75 5,25 5,75 6,25 6,75 7,25 7,75 8,25 8,75
Ácido úrico (mg/dl)
MAIO/2010
Paula Strassmann
PGS Medical Statistics
Polígono de frequência para os dados da Tabela 1
60
Porcentagem
50
40
30
20
10
0
3,25 3,75 4,25 4,75 5,25 5,75 6,25 6,75 7,25 7,75 8,25 8,75
Ácido úrico (mg/dl )
MAIO/2010
Paula Strassmann
PGS Medical Statistics
Estatística descritiva – Análise exploratória dos dados
Como resumir VARIÁVEIS NUMÉRICAS?
Medidas de posição ou
Medidas de tendência central
Medidas de
dispersão
 Moda
 Média
 Amplitude
 Mediana
 Variância
 Quartis, percentis
 Desvio padrão
Paula Strassmann
MAIO/2010
PGS Medical Statistics
Medidas de posição – Moda
 Valor que ocorre com maior freqüência. Exemplo: As idades dos alunos de
uma classe são: 19, 19, 20, 20, 20, 21, 22. Nesse caso, Moda = 20 anos;
 Pode existir mais de uma moda. Distribuição é bimodal, trimodal, ...
Exemplo: As idades dos alunos de uma classe são: 19, 19, 19, 20, 20, 20, 21,
22. Nesse caso, Moda = 19 e 20 anos (bimodal);
 Pode não existir moda (não ter um valor mais freqüente). Exemplo: As idades
dos alunos de uma classe são: 18, 19, 20, 21, 22. Nesse caso, Não existe Moda.
MAIO/2010
Paula Strassmann
PGS Medical Statistics
Medidas de posição – Média
É a medida de tendência central mais utilizada;
 Leva em conta todos os valores da variável;
 É afetada por valores extremos;
 É o “ponto de equilíbrio” da distribuição dos dados.
(Dados ordenados)
Média 1
(Dados ordenados)
MAIO/2010
Média 2
Paula Strassmann
PGS Medical Statistics
Medidas de posição – Cálculo da Média
n
X
X
i 1
i
n
X 1  X 2  X 3  ...  X n

n
Exemplo: Um estudante fez 5 provas e obteve notas 75, 90, 83, 77 e 92.
Então sua nota média é:
75  90  83  77  92
X
 83,4
5
MAIO/2010
Paula Strassmann
PGS Medical Statistics
Medidas de posição – Mediana
 Divide os dados ordenados ao meio;
 Medida resistente: pouco afetada por mudanças de valores
discrepantes (extremos).
50%
50%
(Dados ordenados)
mediana
MAIO/2010
Paula Strassmann
PGS Medical Statistics
Medidas de posição – Cálculo da Mediana
 Ordenam-se os dados;
 Seleciona-se a observação central.
 n ímpar: valor da observação central
Dados ordenados
75
77
83
90
92
posição
1
2
3
4
5
Posição da mediana = 3
Mediana = 83
 n par: média das duas observações centrais
Dados ordenados
75
77
83
90
92
97
posição
1
2
3
4
5
6
Posição da mediana = 3,4
MAIO/2010
Mediana = (83 + 90)/2 = 86,5
Paula Strassmann
PGS Medical Statistics
Medidas de posição central
São valores únicos representativos dos dados. Os mais usados são
média aritmética, moda e mediana.
Exemplo:
Paciente
1
2
3
4
5
6
7
8
9
10
11
Idade
39
50
60
70
39
72
33
37
80
49
46
MAIO/2010
Paciente
Idade
7
33
8
37
1
39
5
39
11
46
10
49
2
50
3
60
4
70
6
72
9
80
n = 11 Soma = 575
Moda = 39 anos (idade mais freqüente)
Mediana = 49 anos (posição central)
Média = (575/11) = 52,3 anos
Paula Strassmann
PGS Medical Statistics
Concluindo:
Média: É o “ponto de equilíbrio” da distribuição dos dados.
Moda: É o valor que ocorre com mais frequência.
Mediana: Divide os dados ordenados ao meio.
MAIO/2010
Paula Strassmann
PGS Medical Statistics
Exercício 1:
Com base nos dados da tabela abaixo, calcule:
Nº
Aluno
Turma Sexo Idade Altura Peso Fuma
a) Peso médio
1
A
M
17
1,6
69
Sim
b) Moda para Idade.
2
A
F
18
1,78
68
Não
c) Altura Mediana.
3
B
M
24
1,65
76
Sim
4
A
M
33
1,82
106
Não
5
A
F
35
1,7
78
Não
6
B
F
48
1,59
71
Não
7
B
F
24
1,72
70
Sim
8
B
M
21
1,66
80
Não
9
A
M
39
1,71
89
Não
10
A
M
24
1,55
68,5
Não
MAIO/2010
Paula Strassmann
PGS Medical Statistics
Resolução do Exercício 1:
a)
Peso médio:
Portanto, peso médio = 77,55 kg.
b)
Moda para a Idade: Observando todas as idades da tabela, vemos que a idade
que mais aparece é 24 anos (3 alunos têm 24 anos). As demais idades
aparecem uma única vez. Portanto, Moda = 24 anos.
MAIO/2010
Paula Strassmann
PGS Medical Statistics
Resolução do Exercício 1 (Continuação):
c)
Altura mediana:
Ordenação dos dados: 1,55; 1,59; 1,6; 1,65; 1,66; 1,7; 1,71; 1,72; 1,78; 1,82.
Nesse caso, n = 10 (número par de elementos) e então a mediana é a média
entre os 2 valores centrais. Posição da mediana: 5, 6.
Mediana =
Portanto, a altura mediana é 1,68 metros.
MAIO/2010
Paula Strassmann
PGS Medical Statistics
Medidas de posição – Quartis
Dados em ordem crescente
25%
Q1 25% Q2
25%
Q3
25%
 Dividem os dados ordenados em 4 partes iguais:
25% dos dados estão abaixo do 1º quartil (Q1)
50% dos dados estão abaixo do 2º quartil (Q2 ou mediana)
75% dos dados estão abaixo do 3º quartil (Q3)
Dados Resistentes
MAIO/2010
Paula Strassmann
PGS Medical Statistics
Box-plot
1200
*
3o quartil (Q3)
Ponto
discrepante
1,5 (Q3 - Q1)
1000
Valor máximo entre
os não discrepantes
800
Mediana
600
1o
Valor mínimo entre
os não discrepantes
400
quartil (Q1)
1,5 (Q3 - Q1)
200
0
MAIO/2010
N=
Paula Strassmann
60
PGS Medical Statistics
Exemplo: Gráfico de Box-Plot comparando dois tratamentos
Temp. (ºC)
Temp. (ºC)
40,0
38,2
39,7
39,5
39,1
Temperatura (ºC)
39,0
39,5
38,0
39,0
38,0
37,5
38,5
37,5
38,5
38,4
38,3
38,0
37,4
37,3
37,5
37,0
38,2
37,0
37,0
38,0
37,9
36,5
37,8
36,0
N=
36,5
Tratamento 1
MAIO/2010
37,0
36,9
12
12
Tratamento A
Tratamento B
36,8
Tratamento 2
Paula Strassmann
PGS Medical Statistics
Medidas de dispersão – Amplitude
 Distância entre os valores máximo e mínimo;
 Amplitude = valor máximo – valor mínimo;
 Ignora a distribuição dos dados;
Exemplo:
7
8
9
10
amplitude = 10 – 7 = 3
MAIO/2010
7
8
9
10
amplitude = 10 – 7 = 3
Paula Strassmann
PGS Medical Statistics
Medidas de dispersão – Cálculo da Amplitude
Exemplo 1: Duas amostras de 20 indivíduos.
Amostra 1: Estatura mínima: 140 cm
e
Amostra 2: Estatura mínima: 150 cm
e
Estatura máxima:
180 cm
Estatura máxima:
175 cm
Em qual das duas amostras os indivíduos variam mais em
relação à estatura ?
MAIO/2010
Paula Strassmann
PGS Medical Statistics
Medidas de dispersão – Cálculo da Amplitude (Continuação)
Resolução do Exemplo 1:
Amostra 1: Estatura mínima: 140 cm
Estatura máxima: 180 cm
Amostra 2: Estatura mínima: 150 cm
Estatura máxima: 175 cm
Máx – mín =
180 cm – 140 cm=
40 cm
Máx – mín =
175 cm – 150 cm=
25 cm
Os cálculos sugerem
que a Amostra 1 contém mais
estaturas diferentes, pois
abrange uma faixa maior
de valores
MAIO/2010
Paula Strassmann
PGS Medical Statistics
Medidas de dispersão – Cálculo da Amplitude (Continuação)
Exemplo 2: Duas amostras de estatura (cm) de 6 indivíduos.
Amostra 1: 150, 151, 153, 155, 158, 160
Amostra 2: 150, 155, 155, 155, 155, 160
A amplitude é a mesma nas duas amostras.
Em qual das duas amostras os indivíduos variam mais em
relação à estatura ?
Observando os valores um a um, percebemos que a Amostra 1
varia mais.
MAIO/2010
Paula Strassmann
PGS Medical Statistics
Medidas de dispersão (Continuação)
 No exemplo, vimos que amostras com a mesma média podem ter
variabilidades muito diferentes.
Como medir a variabilidade de um conjunto de dados?
 A forma mais comum de medir a variabilidade é quantificá-la pelas
distâncias das observações com relação á média.
MAIO/2010
Paula Strassmann
PGS Medical Statistics
Medidas de Dispersão – Variância amostral
n
 2  Var( X ) 
2
(
x

X
)
 i
i 1
n 1
A variância quantifica a variabilidade ou espalhamento ao redor da média das medidas.
Tende a ser um número grande e o seu valor sai dos limites dos valores observados em um
conjunto de dados. Além disso, sua unidade de medida corresponde a unidade de medida da
média elevada ao quadrado.
MAIO/2010
Paula Strassmann
PGS Medical Statistics
Medidas de Dispersão – Desvio padrão amostral
n
  DP ( X ) 
2
(
x

X
)
 i
i 1
n 1
O desvio padrão, que é a raiz quadrada da variância, tem a mesma
unidade de medida da média e pode ser usado para descrever a
quantidade de dispersão na distribuição da freqüência.
MAIO/2010
Paula Strassmann
PGS Medical Statistics
Medidas de Dispersão (Continuação)
O desvio padrão por si só não nos diz muita coisa. Um desvio padrão de 2
unidades pode ser considerado pequeno para um conjunto de dados cujo
valor médio é 200; no entanto, se a média for igual a 20, o mesmo não pode
ser dito. Além disso, o fato de o desvio padrão ser expresso na mesma unidade
dos dados limita o seu emprego quando desejamos comparar dois ou mais
conjuntos de dados, relativamente à sua dispersão ou variabilidade, quando
expressas em unidades diferentes. Para contornar essas dificuldades e
limitações, podemos caracterizar a dispersão ou variabilidade dos dados em
termos relativos ao seu valor médio, medida essa denominada coeficiente de
variação (CV).
MAIO/2010
Paula Strassmann
PGS Medical Statistics
Medidas de Dispersão – Coeficiente de correlação
 Indica a dispersão em relação à média;
 É uma medida de variabilidade relativa, definida como a razão entre
o desvio padrão e a média, sendo uma medida adimensional expressa
em percentual.
 Pode ser usado para comparar a dispersão de dois conjuntos de
dados, sem que eles estejam necessariamente na mesma unidade de
medida.

CV ( X ) 

MAIO/2010
S
 CV ( X ) 
X
Paula Strassmann
PGS Medical Statistics
Coeficiente de variação – Exemplo 1
Por exemplo, em uma amostra de
pacientes para determinação do
clearance de creatinina,
constatou-se que a média era
de 72 ml/min e o desviopadrão, de 13.
Como 13 representa
18% de 72, então
o CV é de 18%
MAIO/2010
Paula Strassmann
PGS Medical Statistics
Coeficiente de variação – Exemplo 2
Medidas as estaturas de 1017 indivíduos, obtivemos = 162,2 cm
e s = 8,01 cm. O peso médio desses mesmos indivíduos é 58 kg,
com um desvio padrão de 2,3 kg. Esses indivíduos apresentam
maior variabilidade em estatura ou em peso?
Coeficiente de variação para as estaturas:
CV = 8,01 = 0,0494 = 4,94%;
162,2
Coeficiente de variação para o peso:
CV = 2,3 = 0,0397 = 3,97%.
58,0
MAIO/2010
Paula Strassmann
PGS Medical Statistics
Bibliografias recomendadas
PAGANO, Marcello (1945) – Princípios de bioestatística / Marcello Pagano, Kimberlee
Gauvreau; tradução Luiz Sérgio de Castro Paiva; revisão técnica Lúcia Pereira
Barroso. – São Paulo: Pioneira Thomson Learning, 2004. (paginas 304-317).
Titulo original: Principles of bioestatistics
Bussab, W.O. e Morettin, P.A. (2005) - Estatística Básica. 5ª Edição. São Paulo:
Saraiva. 526p.
Dawson-Saunders, Beth e Trapp, Robert G. (1994) - Basic & Clinical Biostatistics – A
Lange medical book. Second Edition – Prentice-Hall Internationl Inc. 344p.
Riffenburgh, Robert H. (2006) – Statistics in Medicine – Second Edition – San Diego,
Caifornia – Elsevier Academic Press – 622p.
Del Giglio, Auro (2008) – Conselhos para um jovem médico – 1ª Ed. – Editora Manole
Ltda. – 118 p.
MAIO/2010
Paula Strassmann
PGS Medical Statistics
PGS Medical Statistics
Paula G. Strassmann
[email protected]
Paula Strassmann
MAIO/2010
PGS Medical Statistics
Download

MAIO/2010