Medidas de localização
Notação para representação da amostra:
O conjunto de dados ou observações que
constituem a amostra será representado por:
x1, x2, ..., xn
onde x1, x2, ..., xn, representam, respectivamente,
a 1ª observação, a 2ª observação e a n-ésima
observação, de uma amostra de dimensão n. Esta
notação não implica uma relação de ordem entre
os elementos da amostra.
A média aritmética amostral ou simplesmente média, é
uma medida de localização do centro da amostra, e
obtém-se a partir da seguinte expressão:
x

X
i

onde x1, x2, ..., xn representam os elementos da amostra
e n a sua dimensão
PROPRIEDADES DA MÉDIA
1. A soma algébrica dos desvio tomados em relação
à média é nula.
k
d
i 1
i
0
2. Somando-se ou subtraindo-se uma constante c de
todos os valores de uma variável, a média fica
aumentada (ou diminuída) dessa constante.
3. Multiplicando-se ou dividindo-se uma constante c de
todos os valores de uma variável, a média fica
aumentada (ou diminuída) dessa constante.
4. A média é sensível a todos os valores do conjunto.
Assim se um valor se modificar, a média também se
modifica.
Dados agrupados
1. Sem intervalos de classe
No de meninos
fi
0
2
1
6
2
10
3
12
4
4
∑ = 34
2. Com intervalos de classe
ESTATURA
fi
150 |― 154
4
154 |― 158
9
158 |― 162
11
162 |― 166
8
166 |― 170
5
170 |― 174
3
∑ = 40
A média será sempre uma medida
representativa dos dados ?
12,4
13,5
13,6
11,2
15,1
10,6
12,4
14,3
113,5
Ao determinar a média dos seguintes
dados obteve-se o valor 24.1
Embora todos os dados, menos um,
estejam no intervalo [10.6, 15.1], o valor
obtido para a média está "bem afastado"
daquele intervalo! O que aconteceu é que a
média é muito sensível a valores muito
grandes ou muito pequenos. No caso do
exemplo foi o valor 113.5 que inflacionou a
média. Além disso temos razões para
pensar que pode ter havido um erro ao
digitar o valor 113.5, digitando um 1 a mais
E se em vez de 113.5 o valor correto fosse 13.5,
qual o valor da média ?
O valor obtido seria = 13.0, significativamente
diferente do obtido no caso anterior !
Sendo a média uma medida tão sensível aos dados,
é preciso ter cuidado com a sua utilização, pois
pode dar uma imagem distorcida dos dados, que
pretende representar!
Para além do fato de ser uma medida muito
simples de calcular, existirá alguma outra razão,
que a torne uma medida tão "popular“ ?
Quando a distribuição dos dados é "normal",
então a melhor medida de localização do
centro, é a média.
Ora sendo a Distribuição Normal uma das
distribuições mais importantes e que surge
com mais frequência nas aplicações, esse fato
justifica a grande utilização da média.
Esquematicamente podemos posicionar a
média da forma seguinte, tendo em conta
a representação gráfica na forma de
histograma.
Figura
aproximadamente
simétrica, pelo que o
centro está bem
definido
O enviesamento para
a esquerda provoca
uma deslocação da
média para a
esquerda.
Um diagrama de barras (ou histograma)
comporta-se como um pêndulo em que o
ponto de apoio é a média. Ao contrário da
mediana, a percentagem de elementos
para um e outro lado da média não é
necessariamente igual a 50%.
Cuidado com as medidas de localização !
Suponha que numa região começaram a aparecer
pessoas com uma virose desconhecida. Os
médicos do Centro de Saúde dessa região
procuraram recolher alguma informação sobre as
pessoas atacadas por essa doença.
Foi recolhida uma amostra de 34 desses doentes
a quem se perguntou, entre outras
características, a idade. Depois de analisados os
dados os médicos foram informados que a idade
média dos doentes era de 32 anos. Um dos
médicos, mais curioso que os outros pediu que lhe
mostrassem a distribuição dos dados, tendo-lhe
sido apresentada a seguinte distribuição.
.
Perante a representação
(bimodal) o médico não teve
dúvidas em pôr de parte a
média, assim como qualquer
outra medida de localização do
centro da amostra.
Medidas de localização - Moda
Para um conjunto de dados, define-se moda como
sendo:
O
valor
que
surge
com
mais
frequência se os dados são discretos, ou,
o intervalo de classe com maior
frequência se os dados são contínuos.
Esta medida é especialmente útil para
reduzir a informação de um conjunto
de dados qualitativos, apresentados sob
a forma de nomes ou categorias, para
os quais não se pode calcular a média e
por vezes a mediana (se não forem
susceptíveis de ordenação).
Medidas de localização - Mediana
A mediana, m, é uma medida de localização do
centro da distribuição dos dados
Para a sua determinação utiliza-se a seguinte
regra, depois de ordenada a amostra de n
elementos:
Se n é ímpar, a mediana é o elemento médio.
Se n é par, a mediana é a semi-soma dos dois
elementos médios.
Variável contínua
a. Calcula-se a ordem n/2;
b. Pela frequência acumulada, identifica-se a classe que
contém a mediana. (classe Md)
x  lmd
n
  f
2

Fmd


h
onde:
lmd = limite inferior da classe Md
∑f = soma das frequências
anteriores à classe Md
h = amplitude da classe Md
Fmd = frequência da classe Md
Dado um histograma é fácil obter a
posição da mediana, pois esta está na
posição em que passando uma linha
vertical por esse ponto o histograma
fica dividido em duas partes com áreas
iguais
1- Quando a
distribuição é simétrica,
a média e a mediana
coincidem.
2- A mediana não é tão sensível, como a média, às
observações que são muito maiores ou muito
menores do que as restantes (outliers). Por outro
lado a média reflete o valor de todas as
observações.
Emprego da Mediana
• Deseja-se
obter o ponto que divide a
distribuição em duas partes iguais;
• Há valores extremos que afetam de uma
maneira acentuada a média;
• A variável em estudo é salário.
Posição relativa da média, mediana e
moda
• Quando a distribuição é simétrica, as três
medidas coincidem.
• Em distribuições assimétricas a diferença é
tanto maior quanto maior for a assimetria
Mo<Md<Media, no caso de curva assimétrica
positiva
Média<Md<Mo, no caso de curva assimétrica
negativa
Resumindo, como a média é influenciada
quer por valores muito grandes, quer por
valores muito pequenos, se a distribuição
dos dados:
1. for aproximadamente simétrica, a
média aproxima-se da mediana
2. for enviesada para a direita (alguns
valores grandes como "outliers"), a média
tende a ser maior que a mediana
3. for enviesada para a esquerda (alguns
valores pequenos como "outliers"), a
média
tende
a
ser
inferior
à
mediana.
As separatrizes
A mediana separa a série em dois
grupos que apresentam a mesmo
número de valores. As separatrizes
são utilizadas para indicar posições na
série.
1. Quartis: valores que dividem a série em
quatro partes iguais.
a) Primeiro quartil (Q1) – valor situado de
tal modo na série que uma quarta parte
(25%) dos dados é menor que ele.
b) Segundo quartil (Q2) – igual a mediana
c) Terceiro quartil - valor situado de tal
modo na série que as três quartas
partes (75%) dos dados são menores
que ele.
Download

Slide 1 - GEOCITIES.ws