Medidas de localização Notação para representação da amostra: O conjunto de dados ou observações que constituem a amostra será representado por: x1, x2, ..., xn onde x1, x2, ..., xn, representam, respectivamente, a 1ª observação, a 2ª observação e a n-ésima observação, de uma amostra de dimensão n. Esta notação não implica uma relação de ordem entre os elementos da amostra. A média aritmética amostral ou simplesmente média, é uma medida de localização do centro da amostra, e obtém-se a partir da seguinte expressão: x X i onde x1, x2, ..., xn representam os elementos da amostra e n a sua dimensão PROPRIEDADES DA MÉDIA 1. A soma algébrica dos desvio tomados em relação à média é nula. k d i 1 i 0 2. Somando-se ou subtraindo-se uma constante c de todos os valores de uma variável, a média fica aumentada (ou diminuída) dessa constante. 3. Multiplicando-se ou dividindo-se uma constante c de todos os valores de uma variável, a média fica aumentada (ou diminuída) dessa constante. 4. A média é sensível a todos os valores do conjunto. Assim se um valor se modificar, a média também se modifica. Dados agrupados 1. Sem intervalos de classe No de meninos fi 0 2 1 6 2 10 3 12 4 4 ∑ = 34 2. Com intervalos de classe ESTATURA fi 150 |― 154 4 154 |― 158 9 158 |― 162 11 162 |― 166 8 166 |― 170 5 170 |― 174 3 ∑ = 40 A média será sempre uma medida representativa dos dados ? 12,4 13,5 13,6 11,2 15,1 10,6 12,4 14,3 113,5 Ao determinar a média dos seguintes dados obteve-se o valor 24.1 Embora todos os dados, menos um, estejam no intervalo [10.6, 15.1], o valor obtido para a média está "bem afastado" daquele intervalo! O que aconteceu é que a média é muito sensível a valores muito grandes ou muito pequenos. No caso do exemplo foi o valor 113.5 que inflacionou a média. Além disso temos razões para pensar que pode ter havido um erro ao digitar o valor 113.5, digitando um 1 a mais E se em vez de 113.5 o valor correto fosse 13.5, qual o valor da média ? O valor obtido seria = 13.0, significativamente diferente do obtido no caso anterior ! Sendo a média uma medida tão sensível aos dados, é preciso ter cuidado com a sua utilização, pois pode dar uma imagem distorcida dos dados, que pretende representar! Para além do fato de ser uma medida muito simples de calcular, existirá alguma outra razão, que a torne uma medida tão "popular“ ? Quando a distribuição dos dados é "normal", então a melhor medida de localização do centro, é a média. Ora sendo a Distribuição Normal uma das distribuições mais importantes e que surge com mais frequência nas aplicações, esse fato justifica a grande utilização da média. Esquematicamente podemos posicionar a média da forma seguinte, tendo em conta a representação gráfica na forma de histograma. Figura aproximadamente simétrica, pelo que o centro está bem definido O enviesamento para a esquerda provoca uma deslocação da média para a esquerda. Um diagrama de barras (ou histograma) comporta-se como um pêndulo em que o ponto de apoio é a média. Ao contrário da mediana, a percentagem de elementos para um e outro lado da média não é necessariamente igual a 50%. Cuidado com as medidas de localização ! Suponha que numa região começaram a aparecer pessoas com uma virose desconhecida. Os médicos do Centro de Saúde dessa região procuraram recolher alguma informação sobre as pessoas atacadas por essa doença. Foi recolhida uma amostra de 34 desses doentes a quem se perguntou, entre outras características, a idade. Depois de analisados os dados os médicos foram informados que a idade média dos doentes era de 32 anos. Um dos médicos, mais curioso que os outros pediu que lhe mostrassem a distribuição dos dados, tendo-lhe sido apresentada a seguinte distribuição. . Perante a representação (bimodal) o médico não teve dúvidas em pôr de parte a média, assim como qualquer outra medida de localização do centro da amostra. Medidas de localização - Moda Para um conjunto de dados, define-se moda como sendo: O valor que surge com mais frequência se os dados são discretos, ou, o intervalo de classe com maior frequência se os dados são contínuos. Esta medida é especialmente útil para reduzir a informação de um conjunto de dados qualitativos, apresentados sob a forma de nomes ou categorias, para os quais não se pode calcular a média e por vezes a mediana (se não forem susceptíveis de ordenação). Medidas de localização - Mediana A mediana, m, é uma medida de localização do centro da distribuição dos dados Para a sua determinação utiliza-se a seguinte regra, depois de ordenada a amostra de n elementos: Se n é ímpar, a mediana é o elemento médio. Se n é par, a mediana é a semi-soma dos dois elementos médios. Variável contínua a. Calcula-se a ordem n/2; b. Pela frequência acumulada, identifica-se a classe que contém a mediana. (classe Md) x lmd n f 2 Fmd h onde: lmd = limite inferior da classe Md ∑f = soma das frequências anteriores à classe Md h = amplitude da classe Md Fmd = frequência da classe Md Dado um histograma é fácil obter a posição da mediana, pois esta está na posição em que passando uma linha vertical por esse ponto o histograma fica dividido em duas partes com áreas iguais 1- Quando a distribuição é simétrica, a média e a mediana coincidem. 2- A mediana não é tão sensível, como a média, às observações que são muito maiores ou muito menores do que as restantes (outliers). Por outro lado a média reflete o valor de todas as observações. Emprego da Mediana • Deseja-se obter o ponto que divide a distribuição em duas partes iguais; • Há valores extremos que afetam de uma maneira acentuada a média; • A variável em estudo é salário. Posição relativa da média, mediana e moda • Quando a distribuição é simétrica, as três medidas coincidem. • Em distribuições assimétricas a diferença é tanto maior quanto maior for a assimetria Mo<Md<Media, no caso de curva assimétrica positiva Média<Md<Mo, no caso de curva assimétrica negativa Resumindo, como a média é influenciada quer por valores muito grandes, quer por valores muito pequenos, se a distribuição dos dados: 1. for aproximadamente simétrica, a média aproxima-se da mediana 2. for enviesada para a direita (alguns valores grandes como "outliers"), a média tende a ser maior que a mediana 3. for enviesada para a esquerda (alguns valores pequenos como "outliers"), a média tende a ser inferior à mediana. As separatrizes A mediana separa a série em dois grupos que apresentam a mesmo número de valores. As separatrizes são utilizadas para indicar posições na série. 1. Quartis: valores que dividem a série em quatro partes iguais. a) Primeiro quartil (Q1) – valor situado de tal modo na série que uma quarta parte (25%) dos dados é menor que ele. b) Segundo quartil (Q2) – igual a mediana c) Terceiro quartil - valor situado de tal modo na série que as três quartas partes (75%) dos dados são menores que ele.