Estatística
Estatística Descritiva
Prof. Helcio Rocha
Adaptado de Levine
3-1
Definições sumárias
Ao resumir e descrever variáveis numéricas,
precisamos considerar:



Tendência central: extensão na qual os valores de
dados se agrupam em torno de um valor central
Variação: dispersão em relação a um valor central
Formato: padrão da distribuição de valores, do mais
baixo para o mais alto
3-2
Medidas de tendência central:
A média

Obs: é afetada por valores extremos (outliers)
11 12 13 14 15 16 17 18 19 20
Média = 13
11  12  13  14  15 65

 13
5
5
11 12 13 14 15 16 17 18 19 20
Média = 14
11  12  13  14  20 70

 14
5
5
3-3
Medidas de tendência central:
A mediana

Obs: NÃO É afetada por valores extremos
(outliers)
11 12 13 14 15 16 17 18 19 20
Mediana = 13
11 12 13 14 15 16 17 18 19 20
Mediana = 13
3-4
Medidas de tendência central:
A moda





Observações:
NÃO É afetada por valores extremos
Aplicável também a dados categóricos
Pode não haver moda
Podem haver várias modas
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Moda = 9
0 1 2 3 4 5 6
Sem Moda
3-5
Medidas de tendência central:
Qual utilizar?



A média é geralmente utilizada, a não ser quando
existem outliers.
A mediana tem uso frequente, por não ser afetada
por outliers.
Em algumas situações, recomenda-se relatar ambas
medidas.
3-6
Medidas de variação
Variação
Amplitude
Variância
Desvio
padrão
Coeficiente
de variação
Mesmo centro,
diferentes dispersões
3-7
Medidas de variação:
A amplitude



A medida mais simples de variação
É afetada por outliers
Ignora o modo como os dados estão distribuídos
Exemplo:
0 1 2 3 4 5 6 7 8 9 10 11 12
13 14
Amplitude = 13 - 1 = 12
3-8
Medidas de variação:
A variância
Variância
populacional (é
um parâmetro)
Variância
amostral (é uma
estatística)
N
n
σ 
2
2
(X

μ)
 i
i1
N
S2 
 (X  X)
i1
2
i
n -1
3-9
Medidas de variação:
O desvio padrão



É a medida de variação mais empregada
É a raiz quadrada da variância
Possui a mesma unidade dos dados de origem
Desvio padrão
populacional (é
um parâmetro)
Desvio padrão
amostral (é uma
estatística)
N
n
σ
2
(X

μ)
 i
i1
N
S
 (X  X)
2
i
i1
n -1
3-10
Medidas de variação:
O desvio padrão da amostra (exemplo)
Dados da
amostra (Xi) 10
12
14
n=8
S
15
17
18
18
24
Média = X = 16
(10  X)2  (12  X)2  (14  X)2    (24  X)2
n 1

(10  16)2  (12  16)2  (14  16)2    (24  16)2
8 1

130
7

4.3095
3-11
Medidas de variação:
Comparando desvios padrão
Data A
11
12
13
14
15
16
17
18
19
20 21
Média = 15.5
S = 3.338
20
Média = 15.5
S = 0.926
Data B
11
21
12
13
14
15
16
17
18
19
Data C
11
12
13
Média = 15.5
S = 4.570
14
15
16
17
18
19
20 21
3-12
Medidas de variação:
Comparando desvios padrão
Menor desvio padrão
Maior desvio padrão
3-13
Medidas de variação:
O coeficiente de variação

É uma medida relativa de variação

Sempre em %

Apresenta a variação relativa à média

Permite comparar dois ou mais conjuntos de
dados que são mensurados em unidades
diferentes
 S
  100%
CV  

X 
3-14
Medidas de variação:
Comparando coeficientes de variação

Ação A:
 Preço médio do último ano = $50
 Desvio padrão = $5
S
$5
CVA     100% 
 100%  10%
$50
X

Ação B:


Preço médio do último ano = $100
Desvio padrão = $5
S
$5
CVB     100% 
 100%  5%
$100
X
Ambas ações
possuem o
mesmo DP,
mas a B é
menos variável
em relação a
seu preço
3-15
Medidas de variação:
Comparando coeficientes de variação

Stock A:
 Preço médio do último ano = $50
 Desvio padrão = $5
S
$5


CVA     100% 
 100%  10%
$50
X

Stock C:


Preço médio do último ano = $8
Desvio padrão = $2
 S
CVC  
X
A ação C
possui um DP
bem menor,
mas um CV
bem maior

$2
  100%   100%  25%

$8

3-16
Localizando valores extremos:
Uso do escore Z
XX
Z
S

(Número de desvios padrão)
Um valor é considerado outlier quando seu escore Z
é inferior a – 3,0 ou superior a + 3,0
3-17
Formato de uma distribuição:
Assimetria
Assimétrico à esquerda
Assimetria < 0
Média < Mediana
Simétrico
Assimetria = 0
Média = Mediana
Assimétrico à direita
Assimetria > 0
Média > Mediana
3-18
Formato de uma distribuição:
Curtose

É uma medida direta do afunilamento da curva
(ou inversa do seu achatamento)
Formato mais achatado
Curtose < 0
Distribuição normal
Curtose = 0
Formato mais afunilado
Curtose > 0
3-19
Estatística descritiva usando o Excel
3-20
Estatística descritiva usando o Excel
1.
Selecione Dados.
2.
Selecione Análise de
dados.
3.
Selecione Estatística
Descritiva. Clique OK.
3-21
Estatística descritiva usando o Excel
4. Registre o intervalo de
entrada.
5. Selecione a opção
Resumo estatístico.
6. Click OK
3-22
Quartis

Dividem os dados ordenados em 4 segmentos,
com igual No. de dados em cada segmento
25%
25%
Q1
25%
Q2
Localizando os quartis:
Q1 = (n+1)*(1/4)

Q2 = (n+1)*(1/2) (é a mediana)
25%
Q3
Os quartis não são
afetados por
outliers
Q3 = (n+1)*(3/4)
3-23
Localizando quartis – 1o. exemplo
Dados ordenados: 11 12 13 16 16 17 18 21 22
(n = 9)
Q1 na posição (9+1)*(1/4) = 2.5
então
Q1 = (12+13)/2 = 12.5
Q2 na posição (9+1)*(1/2) = 5
então
Q2 = mediana = 16
Q3 na posição (9+1)*(3/4) = 7.5
então
Q3 = (18+21)/2 = 19.5
3-24
Localizando quartis – 2o. exemplo
Dados ordenados: 29 31 35 39 39 40 43 44 44 52
(n = 10)
Q1 na posição (10+1)*(1/4) = 2.75 → arredonde para 3
então Q1 = 35
Q2 na posição (10+1)*(1/2) = 5.5
então Q2 = (39+40)/2 = 39.5
Q3 na posição (10+1)*(3/4) = 8.25 → arredonde para 8
então Q3 = 44
3-25
Os cinco números e o Boxplot

Os cinco números que proporcionam um método
para se determinar o formato de uma distribuição :
Xmenor -- Q1 -- Mediana -- Q3 -- Xmaior
Boxplot:
Xmenor
Q1
Mediana
Q3
Xmaior
3-26
Construindo o Boxplot no Excel
Resumo de Cinco Números
Mínimo
1o. quartil
Mediana
3o. quartil
Máximo
-7
-3
2
4
9
Box-Plot
-10
-5
0
5
10
3-27
A curva de distribuição e o Boxplot
Assimétrica à
esquerda
Q1
Q2 Q3
Simétrica
Q1 Q2 Q3
Assimétrica à
direita
Q1 Q 2 Q3
3-28
Amplitude interquartil (Q3 – Q1)

Também conhecida como dispersão média
X
Q1
mín
25%
12
Mediana
(Q2)
25%
30
25%
45
X
Q3
máx
25%
57
70
Amplitude interquartil
= 57 – 30 = 27

Obs: Assim como os quartis, também não é
afetada por outliers
3-29
Medindo a relação entre duas variáveis numéricas:
A covariância

Mede a força de uma relação linear entre duas
variáveis numéricas(X & Y)

Covariância da amostra
n
cov ( X , Y ) 

 ( X  X)(Y  Y )
i 1
i
i
n 1
Não implica numa relação causa-efeito
3-30
Interpretando a Covariância

Covariância entre duas variáveis
cov(X,Y) > 0
X e Y tendem a se mover na mesma direção
cov(X,Y) < 0
X e Y tendem a se mover em direções opostas
cov(X,Y) = 0
X e Y são independentes

Observar: cov pode assumir qualquer valor

Consequência: não é possível se determinar a força
relativa da relação a partir do valor da covariância
3-31
Coeficiente de Correlação


Mede a força relativa de uma relação linear
entre duas variáveis numéricas
É adimensional
Coeficiente de
correlação da amostra
cov(X , Y)
r
SX SY
Coeficiente de correlação
da população

cov(X , Y)
 X Y
3-32
Coeficientes de Correlação e gráficos
de dispersão
Y
Y
X
r = -1
Y
X
r = -.6
Y
Y
r = +1
X
X
r = +.3
X
r=0
3-33
Coeficiente de Correlação: função no
Excel
3-34
Coeficiente de Correlação: Análise de
Dados no Excel
1.
2.
3.
Selecione Dados
Escolha Análise de Dados
Selecione Correlação e clique
OK
3-35
Coeficiente de Correlação: Análise
de Dados no Excel (cont.)
4.
5.
Entre com os dados e selecione
as opções adequadas
Clique em OK
3-36
Interpretanto o Coeficiente de Correlação

r = 0.733
Há uma relação linear
positiva relativamente
forte entre as notas do
teste 1 e as do teste 2.
Scatter Plot of Test Scores
100
95
Test #2 Score

90
85
80
75
70
70
75
80
85
90
95
100
Test #1 Score
3-37
Download

01_Estatistica descritiva_Helcio