Universidade Federal de Alagoas
Centro de Tecnologia
Estatística
Aula 08
Prof. Marllus Gustavo Ferreira Passos das Neves
Adaptado do material elaborado pelo Prof. Wayne
Santos de Assis
Aula 08
 Medidas de Dispersão

Amplitude e Desvio médio

Variância e Desvio padrão

Coeficiente de variação
Medidas de Dispersão
Introdução

Se os gráficos abaixo representam duas séries temporais, qual das
duas séries possuem os dados mais dispersos?
Tendência Central (média,...)
Dados
Medidas de Dispersão
Introdução

Se os gráficos abaixo representam duas séries temporais, qual das
duas séries possuem os dados mais dispersos?
Os dados estão mais ou menos dispersos em torno da
tendência.
Medidas de Dispersão
Introdução

E agora, nos histogramas
ao lado?

Quase nunca uma única
medida é suficiente para
descrever de modo
satisfatório um conjunto de
dados
CVDOT
Medidas de Dispersão
Sejam as observações de temperaturas TA e TB indicadas:
TA
21
22
24
26
32
TB
10
20
26
31
38
(medidas em ºC)
Ambas têm a mesma média: 25ºC
Percebe-se, entretanto, que TB apresenta dispersão
muito maior que TA
São necessárias medidas que indiquem o grau
de dispersão, ou variabilidade, em relação ao valor central
Medidas de Dispersão
Acredite se quiser, mas estes 2 grupos de parafusos possuem a
mesma média!
x  2 in
Os parafusos
da segunda
marca
parecem ter
uma variação
maior
Medidas de Dispersão
Amplitude

Chama-se amplitude (At ou R) de um conjunto de dados, x1 , x´2, … ,
xi, … , xn , à diferença entre o máximo e o mínimo do conjunto de
dados
Ache a amplitude para o caso da amostra de medidas de níveis
de chumbo no ar (abaixo)
1,20 1,10 0,42 0,73 0,48 1,10
At = 1,20 – 0,42 = 0,78 mg/m3
Para o caso dos 2 grupos de parafusos
At (grupo 1) = 2,03 – 1,95 = 0,08 in
At (grupo 2) = 2,50 – 1,70 = 0,80 in
Medidas de Dispersão
Amplitude
Dados agrupados em classes  estimativa com a diferença entre o
limite superior da última classe e o limite inferior da primeira

30
HISTOGRAMA DE FREQUÊNCIAS
Frequência relativa (%)
25,51
23,46
25
19,75
20
13,17
15
10,29
10
5
4,94
2,06
0,00 0,82
0
1775 3550 5325 7100 8875 10650 12425 14200 15975
Classes (limites superiores em kg)
At = 15.975 – 0 = 15.975 kg
Amplitude


Para o conjunto abaixo, a amplitude é 71 – 49 = 22
Considerando os dados agrupados, a amplitude é 72 – 48 = 24
Amplitude
É muito simples indicar os valores extremos e, portanto, calcular a amplitude
de um conjunto de dados. No entanto, esta medida é muito pouco resistente
para avaliar bem a dispersão dos dados pelas seguintes razões:
A presença de uma única observação muito alta ou muito baixa tem uma
grande influência sobre o valor da amplitude
A amplitude é insensível a qualquer variação dos valores intermediários
Mesmo que não existam valores isolados muito altos ou muito baixos, a
amplitude não deve ser utilizada para comparar a variabilidade de várias
amostras, a não ser que tenham a mesma dimensão
É natural que à medida que a dimensão da amostra aumenta a amplitude
tende aumentar
Amplitude
Outliers influenciando na amplitude
Outliers
CVDOT
Amplitude
Observe os seguintes conjuntos de dados representados por diagramas
de pontos correspondentes a três conjuntos de observações:
CVDOT
Para qualquer uma das três distribuições a amplitude é 15 - 7 = 8
A amplitude é igual, mas as distribuições são muito diferentes
Amplitude Interquartil

Ao contrário da amplitude, a amplitude interquartil
(AI ou IQR) é uma medida resistente

A amplitude interquartil é definida a partir dos quartis,
e é representada pela diferença entre o 3° e o 1° quartil
AI = Q3 – Q1

ou ainda
AI = P75 – P25
Amplitude Interquartil
Exemplo
Determinar a amplitude interquartil para os resultados de resistência à
compressão (em MPa) apresentados abaixo:
AI = Q3 – Q1
Q3 deixa pelo menos 75% dos dados abaixo e pelo menos 25% dos dados
acima dele
75% de 40 são 30
25% de 40 são 10
Contando 30 do menor para o maior: 63
Contando 10 do maior para o menor: 64
Q3 =
63 + 64
2
= 63,5
Amplitude Interquartil
Exemplo
Q1 deixa pelo menos 25% dos dados abaixo e pelo menos 75% dos dados
acima dele
25% de 40 são 10
75% de 40 são 30
Contando 10 do menor para o maior: 53
Contando 30 do maior para o menor: 53
AI = Q3 – Q1 = 63,5 – 53
Q1 = 53
AI = 10,5
Diagrama de Caixa (Box-Plot)
Este tipo de diagrama é útil para revelar:
o centro
a dispersão (variação)
a distribuição dos dados
além da presença dos outliers
C
V
D
O
T
São necessários 5 números (Resumo dos 5 números):
Limite inferior, 1º quartil, Mediana (2º quartil), 3º quartil e Limite
superior
Diagrama de Caixa (Box-Plot)
1o quartil
2o quartil
Linha de whisker
Linha de whisker
Outlier extremo
Outlier
Outlier
3o quartil
AI = Q3 – Q1
Diagrama de Caixa (Box-Plot)
1o quartil
Linha de whisker
Outlier extremo
2o quartil
Linha de whisker
Outlier
Outlier
3o quartil
Os diagramas de caixa não dão informação tão detalhada como os
histogramas, de modo que podem não ser a melhor escolha ao lidar
com um único conjunto de dados.
Eles são, em geral, ótimos para comparar 2 ou mais conjuntos de dados.
Nestes casos, é importante utilizar a mesma escala para comparações
corretas
Diagrama de Caixa (Box-Plot)
Linha de
Whisker
Linha de Whisker
Linha que inicia-se nas extremidades da caixa e
prolonga-se até o último valor respeitado um
comprimento para a linha de no máximo 1,5 vezes a
amplitude interquartil
Outlier
Q3
Q2
Outlier
Ponto além da linha, porém a menos de 3 amplitudes
interquartis a partir da extremidade da caixa.
Q1
Outlier Extremo
Ponto além da linha, porém a mais de 3 amplitudes
interquartis a partir da extremidade da caixa.
Linha de
Whisker
Outlier
Limite inferior: Q1 – 1,5 (Q3 – Q1)
Limite superior: Q3 + 1,5 (Q3 – Q1)
Outlier
extremo
Diagrama de Caixa (Box-Plot)
Exemplo
Variação espacial e temporal da concentração de cloretos no Riacho do Silva
em Maceió
Exutório  lagoa Mundaú
Diagrama de Caixa (Box-Plot)
Exemplo
Variação espacial e temporal da concentração de cloretos no Riacho do Silva
em Maceió (mg/L)
O aumento considerável
pode estar relacionado
com a poluição? Ou
com a influência do mar
na lagoa?
Montante  jusante (em direção à lagoa Mundaú)
Diagrama de Caixa (Box-Plot)
Exemplo
Variação espacial e temporal da concentração de cloretos no Riacho do Silva
em Maceió (mg/L)
Há efeito sazonal?
Médias mensais de todos os pontos
Diagrama de Caixa (Box-Plot)
Exemplo
Variação espacial e temporal da concentração de cloretos no Riacho do Silva
em Maceió (mg/L)
Há efeito sazonal?
Médias mensais de todos os pontos
Diagrama de Caixa (Box-Plot)
Exemplo
Do livro Hidrologia estatística
Diagrama de Caixa (Box-Plot)
Exemplo
Desenhar o diagrama de caixa para os resultados de resistência à
compressão apresentados a seguir:
Q1 = 53
Q2 = 57,5
Q3 = 63,5
AI = 10,5
Limite inferior: Q1 – 1,5 (Q3 – Q1) = 53 – 1,5 (10,5) = 37,25
Limite superior: Q3 + 1,5 (Q3 – Q1) = 63,5 + 1,5 (10,5) = 79,25
Outliers extremos: xi < Q1 – 3 (Q3 – Q1) ou xi > Q3 + 3 (Q3 – Q1)
Outliers extremos: xi < 21,5 ou xi > 95
Diagrama de Caixa (Box-Plot)
100
90
80
70
Q1 = 53
Q2 = 57,5
Q3
60
50
Q2
Q1
Outliers
40
30
20
Q3 = 63,5
AI = 10,5
Medidas de Dispersão
Desvio médio amostral
Uma maneira natural de calcular a dispersão é o desvio
x-x
A dispersão total seria a média da soma destes desvios
d
n
 (x - x )
i1
i
n
Mas ...
n
d
n
n
 (x - x )  x  x
i1
i
n

i1
n
i

i1
n
nx
x x -x  0
n
Medidas de Dispersão
Desvio médio amostral absoluto
É uma maneira de contornar a incômoda propriedade do desvio médio
amostral
n
d
 x -x
i1
i
n
Esta maneira foi abandonada por que criou dificuldades nos métodos
de inferência estatística e não representa um estimativa de dispersão
populacional
Medidas de Dispersão
Variância
Se n observações de uma amostra
forem representadas por x1, x2,..., xn, a
variância da amostra será:
n
S 
2
 x i  x 
2
i 1
n 1
2
1 
2
S 
xi - n x 


n -1 i 1

n
ou
2
 
Variância
A variância não é geralmente utilizada como medida de
dispersão, mas é o suporte para o cálculo do desvio-padrão
A interpretação do significado da variância, em situações concretas,
levanta problemas
Por exemplo, se estivermos estudando a concentração de um
poluente num lago, em g/L, a média das concentrações é expressa em
g/L, mas a variância será expressa em (g/L)2
Varância para dados agrupados
Se as observações de uma amostra
estiverem agrupadas em classes, a
variância será:
k
1

2
2
2
S 
xi ni  n  x  


n  1  i 1

Onde:
k é o número de classes
ni é a freqüência da i-ésima classe
xi é o ponto médio da i-ésima classe
x é a média dos dados agrupados
n é a quantidade total de observações
Medidas de Dispersão
Desvio-padrão
Se n observações de uma amostra
forem representadas por x1, x2,..., xn, o
desvio padrão amostral será:
Note que:
S S
n
S
2


x

x
 i
i1
n 1
2
O desvio-padrão corresponde à raiz quadrada positiva
da variância
Desvio-Padrão
Propriedades do desvio-padrão
1. O desvio-padrão é sempre não negativo
2. Quanto maior for o desvio-padrão maior será a
dispersão dos dados em relação à média
3. Se o desvio-padrão é igual a zero é porque não
existe variabilidade, isto é, os dados são todos
iguais
4. O valor do desvio padrão pode crescer
dramaticamente com a inclusão de um ou mais
outliers
5. As unidades do desvio padrão são as mesmas
unidades dos dados originais
Desvio-Padrão
Como achar o desvio-padrão?
1. Calcule a média
x
2. Subtraia a média de cada valor individual para obter
a lista dos desvios da forma x - x
3. Eleve ao quadrado cada uma das diferenças obtidas
no passo 2. isto resulta em números da forma (x - x )2
4. Adicione todos os quadrados obtidos no passo 3.
2
Esse é o valor
(x - x )

5. Divida o total do passo 4 por n-1
6. Ache a raiz quadrada do resultado do passo 5
Medidas de Dispersão
Coeficiente de variação

É uma medida relativa de variabilidade, que compara o
desvio padrão com a média
cv =
S
x

Como o desvio-padrão e a média apresentam a mesma
unidade dos dados, o coeficiente de variação é adimensional
A grande utilidade do coeficiente de variação é permitir a comparação
das variabilidades de diferentes conjuntos de dados
Coeficiente de Variação
Exemplo
Os resultados de ensaios de tração de dois tipos de aço
forneceram os seguintes resultados:
Aço A
Aço B
x = 512 MPa
x = 590 MPa
s = 13 MPa
s = 18 MPa
Qual deles apresenta menor variabilidade relativa?
Coeficiente de Variação
A determinação da variabilidade relativa é feita a partir do
coeficiente de variação:
Para o aço A:
cv = 13 / 512 = 0,025 = 2,5%
Para o aço B:
cv = 18 / 592 = 0,031 = 3,1%
Desse modo, o aço A é o que apresenta
resultados com menor variabilidade relativa
Coeficiente de Variação
Exemplo
Determinar o coeficiente de variação para as observações de
temperaturas TA e TB indicadas abaixo:
TA
21
22
24
26
32
TB
10
20
26
31
38
(medidas em ºC)
Coeficiente de Variação
TA
21
22
24
26
32
TB
10
20
26
31
38
Passo 1: determinação das médias
Para TA: x = (21+23+...+32)/5 = 125/5 = 25
Para TB: x = (10+20+...+38)/5 = 125/5 = 25
Passo 2: determinação do desvio-padrão
(medidas em ºC)
n
S
2


x

x
 i
i1
n 1
Para TA: s = { [ (21-25)2 + (22-25)2 + (24-25)2 + (26-25)2 + (32-25)2 ] / (5-1) } 1/2
s = { 76 / 4 }1/2
s = 4,36 oC
Para TB: s = { [ (10-25)2 + (20-25)2 + (26-25)2 + (31-25)2 + (38-25)2 ] / (5-1) } 1/2
s = { 456 / 4 }1/2
s = 10,68 oC
Coeficiente de Variação
TA
21
22
24
26
32
TB
10
20
26
31
38
Passo 3: determinação do coeficiente de variação
Para TA: cv = 4,36 / 25 = 0,174 = 17,4 %
Para TB: cv = 10,68 / 25 = 0,427 = 42,7 %
(medidas em ºC)
Logo:
Para TA , cv = 17,4 % e para TB , cv = 42,7 %
Universidade Federal de Alagoas
Centro de Tecnologia
Estatística
Aula 08
Prof. Marllus Gustavo Ferreira Passos das Neves
Adaptado do material elaborado pelo Prof. Wayne
Santos de Assis
Download

Q 1 - Universidade Federal de Alagoas