Análise Descritiva ou Análise Exploratória de Dados
Conjunto de técnicas estatísticas e gráficas que
permite explorar grandes massas de dados para uma
primeira aproximação à realidade estudada, na procura
de algum padrão ou comportamento relevante que
esteja presente no conjunto de dados.
Os dados podem ser organizados:
• Em tabelas  quando é importante a apresentação
dos valores
• Em gráficos ou mapas apresentação de
distribuições, tendências ou relacionamentos entre
variáveis
• Resumidos com o uso de estatísticas.
Análise Exploratória de Dados
 Variável: é uma característica de interesse que se
pode medir e que apresenta distintos valores
 Cada medida, ítem de formulário ou pergunta
corresponde a uma variável que se deseja conhecer.
 Por exemplo: idade, sexo, pressão arterial são
variáveis que podem ser medidas ou observadas.
Sexo: M ou F / 0 ou 1 / 1 ou 3
Idade: qq valor fracionário a partir de 0.
Fisio 2001
REC
--1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
INICIAIS
-------PAMS
ACPP
LTK
JAC
LSS
PAGAC
KNL
VPR
WFC
PFS
RRS
ARP
AAN
PCCN
ALM
SM
RCF
TAG
AHM
ASC
MRBC
ARP
MRL
JACG
PLS
CCD
VP
PMAP
VRC
TSR
PVMHB
TUP
IAM
SEXO IDADE BAIRRORESI
ESCOLA2OGR ALTURA BRACO
---- ----- ------------------------- ---------- ------ ----F
19 JACAREPAGUA
PRIV
168 24.5
F
21 JACAREPAGUA
PUB
160 28.0
F
19 PIEDADE
PRIV
173 28.0
F
22 PIEDADE
PUB
174 32.0
F
19 MEIER
PRIV
158 24.0
M
20 TIJUCA
PRIV
177 29.0
F
20 TIJUCA
PRIV
162 22.5
F
19 ENGENHO NOVO
PRIV
168 27.0
F
21 WONA/BELFORD ROXO
PUB
170 33.0
F
19 ILHA DO GOVERNADOR
PRIV
161 26.5
F
19 CENTENARIO/DUQUE CAXIAS
PRIV
175 26.0
F
19 VILA DA PENHA
PUB
169 26.0
F
24 BAIRRO DE FATIMA/NITEROI PRIV
166 25.0
F
21 ICARAI/NITEROI
PRIV
171 25.0
F
22 PARAISO/SAO GONCALO
PUB
164 23.5
F
18 COPACABANA
PRIV
170 25.5
F
19 CATETE
PRIV
168 24.0
F
19 ICARAI/NITEROI
PRIV
163 26.5
F
21 FLAMENGO
PUB
168 21.0
F
18 CAMPO GRANDE
PRIV
155 26.0
F
18 TIJUCA
PRIV
166 25.0
F
17 JARDIM AMERICA
PRIV
160 27.5
F
17 VILA ISABEL
PRIV
163 26.0
M
21 ILHA DO GOVERNADOR
PRIV
170 30.0
M
20 BOTAFOGO
PRIV
182 32.5
F
19 DEL CASTILHO
PRIV
160 25.5
F
21 OLARIA
PUB
172 24.5
F
17 MEIER
PRIV
165 23.5
F
19 BRAS DE PINA
PUB
165 24.0
F
20 TIJUCA
PRIV
162 30.0
M
18 LARANJEIRAS
PRIV
174 30.0
M
19 ILHA DO GOVERNADOR
PRIV
170 30.5
F
19 .
PRIV
164 27.0
SEXO | Freq Percent
------+---------------F
|
28
84.8%
M
|
5
15.2%
------+---------------Total |
33 100.0%
ESCOLA2OGR | Freq Percent
Cum.
-----------+---------------------PRIV
|
25
75.8%
75.8%
PUB
|
8
24.2%
100.0%
-----------+---------------------Total |
33 100.0%
M
15%
80
%
60
40
20
0
F
85%
Privada
Pública
Tipo de escola
ALTURA | Freq Percent
Cum.
-------+---------------------155
|
1
3.0%
3.0%
158
|
1
3.0%
6.1%
160
|
3
9.1%
15.2%
161
|
1
3.0%
18.2%
162
|
2
6.1%
24.2%
163
|
2
6.1%
30.3%
164
|
2
6.1%
36.4%
165
|
2
6.1%
42.4%
166
|
2
6.1%
48.5%
168
|
4
12.1%
60.6%
169
|
1
3.0%
63.6%
170
|
4
12.1%
75.8%
171
|
1
3.0%
78.8%
172
|
1
3.0%
81.8%
173
|
1
3.0%
84.8%
174
|
2
6.1%
90.9%
175
|
1
3.0%
93.9%
177
|
1
3.0%
97.0%
182
|
1
3.0%
100.0%
-------+---------------------Total |
33 100.0%
Dificuldade de análise  esta tabela
não resumiu muito a informação
 §
 §
Variável quantitativa contínua
 §
Distribuição de freqüências
 §
Freqüência acumulada pode ser
utilizada
 §
 30% dos alunos têm 1,63m ou
menos
 §
 a metade possui 1,66m ou menos;
a outra metade, isso ou mais
 §
mais
 25% mais altos têm 1,70m ou
 §
3% têm 1,77m ou mais.
Análise Exploratória de Dados
Variáveis
Categóricas
Numéricas
• Sexo
• Idade
• Raça
• Peso
• Estado Civil
• Distância
• Gravidade de doença
• Salário
Análise Exploratória de Dados
Tipos de Variáveis
Variáveis Categóricas
Variáveis Numéricas
Nominais
Ordinais
Contínuas
Discretas
•Sexo
•Gravidade (L/M/S)
•Altura(cm)
•No de filhos
•Religião
•Classe social (A/M/B)
•Raça
•Incapacidade (I/lD/D)
•Temperatura
(oC)
•No de
gânglios
•ASA
Análise Exploratória de Dados
As técnicas estatísticas diferem em função do tipo de
variável que está sendo analisada.
As variáveis podem ser “medidas” em quatro escalas
básicas: nominal, ordinal, intervalar e de razão.
Existem dois grandes grupos de variáveis: as
categóricas ou qualitativas e as numéricas ou
quantitativas.
Basicamente, as variáveis categóricas são medidas
nas escalas nominal e ordinal, enquanto que as
variáveis quantitativas são mensuradas nas escalas
intervalar e de razão.
Escalas nominal e ordinal
 As variáveis nominais são representadas por categorias
que não mantêm necessariamente relação entre elas. Não é
possível realização de operações aritméticas, como soma
ou produto, sendo possível basicamente a contagem das
observações em cada categoria.
Exemplo: sexo, raça, diagnóstico
Na escala ordinal as categorias podem ser representadas
por nomes, símbolos ou números, porém há ordenação de
uma categoria em relação à outra. A distância entre uma
categoria e a outra não pode ser medida numericamente.
Além da operação de contagem, permitem operações que
envolvam ordenação (maior/menor).
Exemplo: gravidade da doença
Escalas intervalar e de razão
Na escala intervalar o valor nulo não corresponde à
ausência da característica medida. A escala possui um
zero arbitrário.
Exemplo: temperatura - o 0ºC não corresponde `a
ausência de temperatura, mas ao 0º da escala Celsius.
 A escala de razão é uma escala intervalar, onde o zero
corresponde à ausência da característica medida. Nesta
escala, é válido afirmarmos que uma pessoa com 70Kg
possui duas vezes o peso de uma criança com 35 Kg.
Exemplo: massa corporal, idade, tempo, pressão arterial
ou temperatura Kelvin.
Variáveis quantitativas
Discretas  valores inteiros.
Ex: número de leitos, números de casos, número de
procedimentos.
Contínuas  valores podem ser números fracionários e a
variável pode apresentar qualquer valor pertencente ao
conjunto dos números reais, só dependendo da precisão
da medida.
Ex: pressão arterial, peso.
• Geralmente, as variáveis contínuas são resultado de
medição e as discretas, de contagens.
Análise Univariada
• Um dos primeiros passos para análise de um conjunto
de dados consiste na exploração da informação
existente em cada variável separadamente, através da
síntese de cada variável análise univariada.
• Tabelas
•Gráficos
•Mapas
•Medidas de resumo ou Estatísticas
Apresentação tabular
 A apresentação tabular se faz mediante tabelas ou
quadros (apresentam as bordas laterais fechando o
conteúdo tabulado).
 Qualquer tipo de variável pode ser tabulada, porém
há uma diferenciação na construção de tabelas dos
diferentes tipos de variáveis.
Normas para elaboração de tabelas
Toda tabela deve ser auto-explicativa
Normas do IBGE para apresentação de tabelas
 As tabelas devem ser fechadas no alto e embaixo por linhas
horizontais, não sendo fechadas à direita nem à esquerda por
linhas verticais. É facultativo o emprego de traços verticais para a
separação de colunas no corpo da tabela.
 Em publicações que compreendem muitas tabelas, estas
devem ser numeradas em ordem crescente, conforme a ordem de
aparecimento.
Os totais e subtotais são destacados (negrito, itálico, caracteres
afastados etc).
O título deve conter a descrição básica do conteúdo, local e
época em que foram coletados os dados.
Deverá ser mantida uniformidade quanto ao número de casas
decimais.
Tabulação de variáveis nominais
Distribuição de sexo dos recém-nascidos
SEXO
Freqüência
absoluta
Freqüência
relativa
Freqüência
percentual
Masculino
207
0,4539
45,39
Feminino
249
0,5461
54,61
Total
456
1,0000
100,00
Gráficos de variáveis nominais
Gráfico de setores,
pizza, torta
Sexo dos RN
M
45%
F
55%
Gráfico de colunas
Gráfico de barras
60
cesárea
40
%
Tipo de parto
normal
pélvico
20
fórcipe
0
50
100
150
0
200
250
300
Nº de Gestantes
M
F
Elementos de percepção visual
Setores: % Somam 100%
6
5
4
3
2
1
0
1
2
3
4
5
Tabulação de variáveis:
Ordinais
Quantitativas Discretas com poucos valores
Assemelha-se à construção de tabelas de variáveis
categóricas nominais
Respeitar a ordem natural das categorias.
Permite acrescentar outro tipo de informação bastante
útil  freqüência percentual acumulada.
Recém-nascidos, segundo o grau de anóxia
Grau de
Anóxia
N
FP
FP
acumulada
Sem Anóxia
94
22,12
22,12
Moderada
157
36,94
59,06
Severa
174
40,94
100,00
Total
425
100,00
Tabulação de variáveis:
Ordinais
Quantitativas Discretas com poucos valores
Assemelha-se à construção
categóricas nominais
de
tabelas
de
variáveis
Respeitar a ordem natural das categorias.
Permite acrescentar outro tipo de informação bastante útil
 freqüência percentual acumulada.
Recém-nascidos, segundo o grau de anóxia
Grau de
anóxia
Nenhuma
Leve
Moderada
Severa
Total
N
%
55
84
152
174
465
11,82
18,06
36,69
37,42
100,00
F%
acumulada
11,82
29,88
62,57
100,00
Tabulação de variáveis:
Ordinais
Quantitativas Discretas com poucos valores
Número de consultas de pré-natal realizadas
durante a gestação dos recém-nascidos.
Consultas de
pré-natal
N
FP
FP
acumulada
0
106
33,12
33,12
1
15
4,69
37,81
2
34
10,62
48,44
3
4
50
47
15,62
14,69
64,06
78,75
5
23
7,19
85,94
6
32
10,00
95,94
7
8
9
1
2,81
0,31
98,75
99,06
9
0
0,00
99,06
10
3
0,94
100,00
320
100,00
Total
Gráfico de variáveis ordinais ou quantitativas discretas
com poucos valores
Grau de anóxia
sem anóxi a
22%
sever a
41 %
moder ada
No. de recém-nascidos
37%
120
100
80
60
40
20
0
0
1
2
3
4
5
6
No. de consultas
7
8
9
10
Tabulação de variáveis quantitativas
•Criação de intervalos de valores (classes).
•Permite acrescentar  freqüência percentual acumulada.
Distribuição dos pesos dos prematuros
pmi
ni
fpi
Fpi
Classes de
pesos
400 ├─ 600
500
9
1,94
1,94
600 ├─ 800
700
47
10,10
12,04
800 ├─ 1000
900
73
15,70
27,74
1000 ├─ 1200
1100
104
22,37
50,11
1200 ├─ 1400
1300
121
26,02
76,13
1400 ├─ 1600
1500
111
23,87
100,00
Total
465
100,00
Gráficos de variáveis quantitativas
Histograma
Recém-nascidos (%)
30
25
20
15
10
5
0
600
800
1000
peso (g)
1200
1400
1600
Gráficos de variáveis quantitativas
Polígono
(%)
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
300
500
700
900
1100
1300
1500 1700
Peso (g)
Gráficos de variáveis quantitativas
Polígono
Diferentes formatos de histogramas
simétrico
truncado
assimétrico à esquerda
multimodal
assimétrico à direita
Histogramas com classes de tamanhos diferentes
25%
20%
%
15%
10%
5%
0%
0
1
5
10 13 15 20 25 30 35 40 45 50 55 60 99
Idade (anos)
Pac/ano (%)
5.0%
4.0%
3.0%
2.0%
1.0%
0.0%
0
10
20
30
40
50
60
Idade (anos)
70
80
90
Medidas de resumo ou estatísticas
Síntese numérica: medidas de resumo
• Além das tabelas de freqüências, as variáveis podem
ser resumidas em medidas que informam o “centro dos
dados” e a variabilidade dos mesmos em relação a este
“centro”.
Medidas de Posição ou de Tendência Central - média,
mediana, moda
 Medidas de Dispersão ou de Variabilidade – amplitude,
distância interquartílica, desvio médio, variância, desvio
padrão e coeficiente de variação.
Faixa de renda
pessoas
% da PEA
% acumulado
<1*
25.901.841
37,2
37,2
1a2
14.204.236
20,4
57,7
2a3
8.425.061
12,1
69,8
3a5
8.425.061
12,1
81,9
5 a 10
7.032.489
10,1
92,0
10 a 20
3.202.915
4,6
96,6
20 ou +
1.531.829
2,2
98,8
835.543
1,2
100,0
Total da PEA
69.558.975
100
*inclui os sem
rendimento
10.513.919
15,1
Faixa de renda (PEA 1991)
40,0
35,0
30,0
25,0
%
sem declaração
Média estimada = 3,3 s.m.
20,0
15,0
10,0
5,0
0,0
1
3
5
7
9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39
salários mínimos
Medidas de tendência central
Média Aritmética
X=
x1  x 2 ... x n
n
n
 xi
=
i 1
n
0 1 2 3 4 5 6 7 8 9 10
x
Mediana
Valor xi
(metros):
1,20
1,22
1,23
1,25
1,26
1,27
1,28
1,29
1,30
1,80
X=1,31
Ordem:
1º
2º
3º
4º
5º
6º
7º
8º
9º
x n   x n 
 
 1
 


2
2

m 
d
2
Medidas de tendência central
A média aritmética é muito sensível à presença de
valores extremos enquanto que a mediana não. Podese dizer que a mediana é mais robusta que a média.
Em distribuições simétricas, a média e a mediana
possuem valores iguais.
simétrico
Média=mediana
assimétrico à esquerda
Média < mediana
assimétrico à direita
Média > mediana
Medidas de posição
Percentis - medidas que dividem um conjunto de
dados em diversas partes são úteis na apresentação
da distribuição de seus valores, principalmente se o
conjunto de dados é não simétrico.
Os percentis dividem um conjunto de dados em cem
partes de igual tamanho
A mediana representa o percentil 50.
Quartis – 1o. e 3o. Quartis (25% e 75%)
Quintis - 20% , 40%, 60% e 80%.
Gráficos de variáveis quantitativas
Box plot
Comprimento do RN
50
Observações Extremas
45
40
Q3 + 1,5 DQ = 39 + 6 = 45
Q3 = 3° Quartil = 39
Q2 = 2° Quartil = 38
35
30
Q1 = 1° Quartil = 35
Mínimo
DQ = 4
300
312
1036
817
302
246
593
634
957
911
812
1056
741
833
692
743
1253
871
513
200
1171
1247
851
92
122
151
329
50
1093
859
276
298
625
316
365
839
996
125
295
745
1233
300
1227
435
45
100
300
1171
1247
851
0
N=
563
704
1
2
92
1036
302
817
151
957
634
298
625
316
365
812
911
741
839
295
996
125
745
1233
300
435
1227
743
575
39
402
731
71
840
1248
1086
256
347
528
24
1164
964
1015
436
1027
137
884
293
680
335
558
1252
693
1235
69
364
200
122
246
1093
50
593
329
859
276
SEXO
100
1106
1000
523
SIST2
SIST2
312
0
N=
OB27
909
358
0
1
0.0
percentil 80
percentil 20
Med.
Distrito Federal
Mato Grosso
Rio Grande do Sul
Paraná
Rio de Janeiro
Minas Gerais
Sergipe
Pernambuco
Rio grande do Norte
Piauí
Tocantins
Pará
Amazonas
Rondônia
Salários Mínim os
Gráfico 1 - Distribuição da renda em relação à
mediana e aos percentis 80 e 20
6.5
6.0
5.5
5.0
4.5
4.0
3.5
3.0
2.5
2.0
1.5
1.0
0.5
Medidas de dispersão
Amplitude
Desvio médio
Variância
Desvio padrão
Coeficiente de variação
Distância interquartílica
Dispersão ou variabilidade
Medidas de dispersão
Notas
0 1 2 3 4 5 6 7 8 9 1
0
Aluno A: 5
-
5
-
5
-
5
Aluno B: 4
-
4
-
6
-
6
Aluno C: 3
-
5
-
7
-
--
Aluno D: 0
-
5
-
5
- 10
Aluno E: 0
-
0
- 10
- 10
Amplitude
A amplitude total (At) é apenas uma indicação aproximada
da dispersão ou variabilidade. É definida como a diferença
entre o maior e o menor valor do conjunto de dados .
At = valor máximo – valor mínimo
Ex: 5, 5, 5, 5
At=0
4, 4, 6, 6
At=2
0, 5, 5, 10 At=10
• Fácil de calcular, mas leva em conta apenas dois
valores, desprezando a informação das outras
observações do conjunto  muito sensível à presença
de valores extremos.
• É comum apresentar-se a medida de tendência central
acompanhada do valor mínimo e máximo entre
parênteses e não a amplitude.
Desvio médio
Nota (E)
xi
desvio
di = xi-x
desvio absoluto
desvio quadrático
dai = |xi-x|
dqi = (xi-x)2
x1 = 0
d1=0-5 = -5
5
25
x2 = 0
d2=0-5 = -5
5
25
x3 = 10
d3=10-5 = 5
5
25
x4 = 10
Total
x=20/4=5
d4=10-5 = 5
d i = (xi-x) = 0
5
da i = |xi-x| = 20
dma i = |xi-x| = 5
n
25
(xi-x)2 =100
dmq i = (xi-x)2 = 25
n
Variância
n
V ( x) 
 ( xi
_
 x)
2
x
 i 
2
i 1
n 1

( xi )
2
n
n 1
Exemplo: Notas do aluno C: 4, 4, 6, 6
(4  5) 2  (4  5) 2  (6  5) 2  (6  5) 2 4
V B ( x) 
  1,33
4 1
3
VA = 0
VB = 1,33
VC = 2
VD = 16,67
VE = 33,33
Desvio padrão
Variância
Desvio Padrão
S2 = (xi-x)2/n-1
S = (xi-x)2/n-1
Sendo a variância uma medida que expressa um
desvio quadrático médio, a unidade dela é o
quadrado da unidade dos dados, e isto pode causar
algumas dificuldades de interpretação. Para
contornar esta situação, costuma-se usar a raiz
quadrada da variância, o que é denominado de
desvio padrão. O desvio padrão é mais adequado
porque tem a mesma unidade dos dados.
A
1
3
5
6
7
93
94
95
96
100
B
1
44
46
47
48
52
53
54
55
100
C
1
9
23
39
46
54
67
76
85
100
A
1
3
5
6
7
93
94
95
96
100
B
1
44
46
47
48
52
53
54
55
100
C
1
9
23
39
46
54
67
76
85
100
500
50
50
45,66
91,31
500
50
50
22,41
44,81
500
50
50
31,07
62,14
somatório
média
mediana
desvio padrão
CV
0
A
B
C
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100
Coeficiente de variação
O desvio padrão, isoladamente, tem interpretação limitada sobre a variabilidade de
um conjunto de dados.
Medida de dispersão é nula  sabe-se imediatamente que o conjunto de dados é
composto por valores iguai.
Quando deseja-se comparar uma variável entre grupos que apresentam valores com
ordens de grandeza distintas.
Supondo a comparação de renda entre um grupo de indivíduos desprivilegiado
economicamente, com média de renda de 1 salário mínimo e desvio padrão de 1
salário mínimo, com outro grupo privilegiado economicamente, cuja média de renda
é de 30 salários mínimos e mesmo desvio padrão do primeiro grupo.
Grupo A
Renda (salários mínimos)
média (desvio padrão)
1 (1)
Grupo B
30 (1)
Supondo uma outra situação onde deseja-se comparar duas variáveis diferentes
para um grupo de indivíduos
CV ( x) 
s ( x)
_
x
x 100
Faixas de referência
 Faixa de normalidade, valores de referência ou
faixa de referência
 Variabilidade de determinada característica em
uma população.
 Auxilia na caracterização do que é típico em uma
determinada população.
 Empregado nos resultados de exames de
laboratório
 Não quer dizer que estar fora da faixa de
referência seja ser “doente”.
 Podemos usar média e desvio-padrão / percentis.
Faixas de referência
Média ± 2 x desvio-padrão  95%
Percentil 2,5 e percentil 97,5
140
180
220
concentração de colesterol
Análise Bivariada
Uma vez analisada e caracterizada cada variável do
conjunto de dados, pode-se prosseguir a análise
exploratória estudando a relação entre variáveis.
É importante a análise da variável desfecho (resposta
ou dependente), por exemplo, em relação aos fatores
de risco e confundimentos.
Esta é uma etapa importante, onde são levantadas
hipóteses a serem testadas posteriormente com os
métodos estatísticos específicos.
Tabelas de freqüência de dupla entrada  apresentação
das informações de uma variável distribuídas pelas
categorias de uma segunda variável
Duas variáveis categóricas
Óbito neonatal, segundo realização ou não de pré-natal
PréNatal
Nascido
Vivo
Óbito
Total
N
%
N
%
N
%
Sim
155
54,2
131
45,8
286
73,1
Não
30
28,6
75
71,4
105
26,9
(%) 80
70
60
50
40
30
20
10
0
pré-natal
Nascido vivo
Total
185
47,3
206
52,7
391
100,0
sem pré-natal
Óbito
Duas variáveis categóricas
Duas variáveis categóricas
Obeso*
Não
Não
871
% linha
78.7%
% coluna
91.4%
Sim
82
% linha
51.3%
% coluna
8.6%
Total
953
75.2%
* Obeso=sim: IMC  30 kg/m2
Sim
236
21.3%
75.2%
78
48.8%
24.8%
314
24.8%
Total
1107
90
87.4%
160
80
78.7
70
60
12.6%
1267
100.0%
51.3
48.8
50
%
Hipertensão
40
30
21.3
20
10
0
Não
Sim
Obeso
Normotenso
Hipertenso
Série histórica entre grupos
Relação entre variável quantitativa discreta e
categórica - análises de séries históricas, segundo
grupos ou categorias, etapa importante na análise
exploratória de séries de dados no tempo.
No de casos de Aids em homens e mulheres
de 1984 a 1996 no Brasil
16000
Nº de casos
12000
8000
4000
0
84 85 86 87 88 89 90 91 92 93 94 95 96
Homem
Mulher
Anos
Variáveis quantitativa e categórica
Relação entre variável categórica e variável
quantitativa contínua - apresentação tabular, onde a
variável quantitativa contínua é apresentada em
intervalos (classes) e as freqüências absolutas e
percentuais são apresentadas, segundo cada
código da variável categórica.
1600
60
50
40
30
20
10
0
1400
1200
1000
800
600
masc
fem
PESO
%
Categorias de peso, segundo o
sexo dos recém-nascidos
Sexo
400
200
N=
baixissimo
muito baixo
baixo
SEXO
207
249
1
2
Variáveis quantitativa e categórica
Outra maneira de apresentar variáveis
quantitativas contínuas segundo diferentes
códigos de uma variável categórica é através da
utilização de medidas resumo, para cada
categoria. Esta fase é fundamental no
levantamento de hipóteses para posterior teste
estatístico
Categorias de peso, segundo o sexo dos recém-nascidos
Sexo
Peso em g
Média
Desvio
Padrão
Masculino
1162,4
271,3
Feminino
1135,4
257,6
Duas variáveis quantitativas
Relação entre variáveis quantitativas
Diagrama de espalhamento ou scatter plot
Relação entre peso e comprimento
dos recém-nascidos.
1600
1400
1200
1000
800
PESO
600
400
20
COMPRIM
30
40
50
Duas variáveis quantitativas
Diagrama de espalhamento ou scatter plot
Relação entre IMC e pressão arterial sistólica – adultos I.Gov.
300
200
SIST2
100
0
10
BMI
20
30
40
50
Coeficiente de correlação de Pearson
r
x y

 xy 
n
2
2




(
x
)
(
y
)
  x2  
  y 2  





n
n



Mapas de pontos
Polígono ou estrela
Download

Apresentação do PowerPoint