Universidade Federal de Alagoas Centro de Tecnologia Estatística Aula 08 Prof. Marllus Gustavo Ferreira Passos das Neves Adaptado do material elaborado pelo Prof. Wayne Santos de Assis Aula 08 Medidas de Dispersão Amplitude e Desvio médio Variância e Desvio padrão Coeficiente de variação Medidas de Dispersão Introdução Se os gráficos abaixo representam duas séries temporais, qual das duas séries possuem os dados mais dispersos? Tendência Central (média,...) Dados Medidas de Dispersão Introdução Se os gráficos abaixo representam duas séries temporais, qual das duas séries possuem os dados mais dispersos? Os dados estão mais ou menos dispersos em torno da tendência. Medidas de Dispersão Introdução E agora, nos histogramas ao lado? Quase nunca uma única medida é suficiente para descrever de modo satisfatório um conjunto de dados CVDOT Medidas de Dispersão Sejam as observações de temperaturas TA e TB indicadas: TA 21 22 24 26 32 TB 10 20 26 31 38 (medidas em ºC) Ambas têm a mesma média: 25ºC Percebe-se, entretanto, que TB apresenta dispersão muito maior que TA São necessárias medidas que indiquem o grau de dispersão, ou variabilidade, em relação ao valor central Medidas de Dispersão Acredite se quiser, mas estes 2 grupos de parafusos possuem a mesma média! x 2 in Os parafusos da segunda marca parecem ter uma variação maior Medidas de Dispersão Amplitude Chama-se amplitude (At ou R) de um conjunto de dados, x1 , x´2, … , xi, … , xn , à diferença entre o máximo e o mínimo do conjunto de dados Ache a amplitude para o caso da amostra de medidas de níveis de chumbo no ar (abaixo) 1,20 1,10 0,42 0,73 0,48 1,10 At = 1,20 – 0,42 = 0,78 mg/m3 Para o caso dos 2 grupos de parafusos At (grupo 1) = 2,03 – 1,95 = 0,08 in At (grupo 2) = 2,50 – 1,70 = 0,80 in Medidas de Dispersão Amplitude Dados agrupados em classes estimativa com a diferença entre o limite superior da última classe e o limite inferior da primeira 30 HISTOGRAMA DE FREQUÊNCIAS Frequência relativa (%) 25,51 23,46 25 19,75 20 13,17 15 10,29 10 5 4,94 2,06 0,00 0,82 0 1775 3550 5325 7100 8875 10650 12425 14200 15975 Classes (limites superiores em kg) At = 15.975 – 0 = 15.975 kg Amplitude Para o conjunto abaixo, a amplitude é 71 – 49 = 22 Considerando os dados agrupados, a amplitude é 72 – 48 = 24 Amplitude É muito simples indicar os valores extremos e, portanto, calcular a amplitude de um conjunto de dados. No entanto, esta medida é muito pouco resistente para avaliar bem a dispersão dos dados pelas seguintes razões: A presença de uma única observação muito alta ou muito baixa tem uma grande influência sobre o valor da amplitude A amplitude é insensível a qualquer variação dos valores intermediários Mesmo que não existam valores isolados muito altos ou muito baixos, a amplitude não deve ser utilizada para comparar a variabilidade de várias amostras, a não ser que tenham a mesma dimensão É natural que à medida que a dimensão da amostra aumenta a amplitude tende aumentar Amplitude Outliers influenciando na amplitude Outliers CVDOT Amplitude Observe os seguintes conjuntos de dados representados por diagramas de pontos correspondentes a três conjuntos de observações: CVDOT Para qualquer uma das três distribuições a amplitude é 15 - 7 = 8 A amplitude é igual, mas as distribuições são muito diferentes Amplitude Interquartil Ao contrário da amplitude, a amplitude interquartil (AI ou IQR) é uma medida resistente A amplitude interquartil é definida a partir dos quartis, e é representada pela diferença entre o 3° e o 1° quartil AI = Q3 – Q1 ou ainda AI = P75 – P25 Amplitude Interquartil Exemplo Determinar a amplitude interquartil para os resultados de resistência à compressão (em MPa) apresentados abaixo: AI = Q3 – Q1 Q3 deixa pelo menos 75% dos dados abaixo e pelo menos 25% dos dados acima dele 75% de 40 são 30 25% de 40 são 10 Contando 30 do menor para o maior: 63 Contando 10 do maior para o menor: 64 Q3 = 63 + 64 2 = 63,5 Amplitude Interquartil Exemplo Q1 deixa pelo menos 25% dos dados abaixo e pelo menos 75% dos dados acima dele 25% de 40 são 10 75% de 40 são 30 Contando 10 do menor para o maior: 53 Contando 30 do maior para o menor: 53 AI = Q3 – Q1 = 63,5 – 53 Q1 = 53 AI = 10,5 Diagrama de Caixa (Box-Plot) Este tipo de diagrama é útil para revelar: o centro a dispersão (variação) a distribuição dos dados além da presença dos outliers C V D O T São necessários 5 números (Resumo dos 5 números): Limite inferior, 1º quartil, Mediana (2º quartil), 3º quartil e Limite superior Diagrama de Caixa (Box-Plot) 1o quartil 2o quartil Linha de whisker Linha de whisker Outlier extremo Outlier Outlier 3o quartil AI = Q3 – Q1 Diagrama de Caixa (Box-Plot) 1o quartil Linha de whisker Outlier extremo 2o quartil Linha de whisker Outlier Outlier 3o quartil Os diagramas de caixa não dão informação tão detalhada como os histogramas, de modo que podem não ser a melhor escolha ao lidar com um único conjunto de dados. Eles são, em geral, ótimos para comparar 2 ou mais conjuntos de dados. Nestes casos, é importante utilizar a mesma escala para comparações corretas Diagrama de Caixa (Box-Plot) Linha de Whisker Linha de Whisker Linha que inicia-se nas extremidades da caixa e prolonga-se até o último valor respeitado um comprimento para a linha de no máximo 1,5 vezes a amplitude interquartil Outlier Q3 Q2 Outlier Ponto além da linha, porém a menos de 3 amplitudes interquartis a partir da extremidade da caixa. Q1 Outlier Extremo Ponto além da linha, porém a mais de 3 amplitudes interquartis a partir da extremidade da caixa. Linha de Whisker Outlier Limite inferior: Q1 – 1,5 (Q3 – Q1) Limite superior: Q3 + 1,5 (Q3 – Q1) Outlier extremo Diagrama de Caixa (Box-Plot) Exemplo Variação espacial e temporal da concentração de cloretos no Riacho do Silva em Maceió Exutório lagoa Mundaú Diagrama de Caixa (Box-Plot) Exemplo Variação espacial e temporal da concentração de cloretos no Riacho do Silva em Maceió (mg/L) O aumento considerável pode estar relacionado com a poluição? Ou com a influência do mar na lagoa? Montante jusante (em direção à lagoa Mundaú) Diagrama de Caixa (Box-Plot) Exemplo Variação espacial e temporal da concentração de cloretos no Riacho do Silva em Maceió (mg/L) Há efeito sazonal? Médias mensais de todos os pontos Diagrama de Caixa (Box-Plot) Exemplo Variação espacial e temporal da concentração de cloretos no Riacho do Silva em Maceió (mg/L) Há efeito sazonal? Médias mensais de todos os pontos Diagrama de Caixa (Box-Plot) Exemplo Do livro Hidrologia estatística Diagrama de Caixa (Box-Plot) Exemplo Desenhar o diagrama de caixa para os resultados de resistência à compressão apresentados a seguir: Q1 = 53 Q2 = 57,5 Q3 = 63,5 AI = 10,5 Limite inferior: Q1 – 1,5 (Q3 – Q1) = 53 – 1,5 (10,5) = 37,25 Limite superior: Q3 + 1,5 (Q3 – Q1) = 63,5 + 1,5 (10,5) = 79,25 Outliers extremos: xi < Q1 – 3 (Q3 – Q1) ou xi > Q3 + 3 (Q3 – Q1) Outliers extremos: xi < 21,5 ou xi > 95 Diagrama de Caixa (Box-Plot) 100 90 80 70 Q1 = 53 Q2 = 57,5 Q3 60 50 Q2 Q1 Outliers 40 30 20 Q3 = 63,5 AI = 10,5 Medidas de Dispersão Desvio médio amostral Uma maneira natural de calcular a dispersão é o desvio x-x A dispersão total seria a média da soma destes desvios d n (x - x ) i1 i n Mas ... n d n n (x - x ) x x i1 i n i1 n i i1 n nx x x -x 0 n Medidas de Dispersão Desvio médio amostral absoluto É uma maneira de contornar a incômoda propriedade do desvio médio amostral n d x -x i1 i n Esta maneira foi abandonada por que criou dificuldades nos métodos de inferência estatística e não representa um estimativa de dispersão populacional Medidas de Dispersão Variância Se n observações de uma amostra forem representadas por x1, x2,..., xn, a variância da amostra será: n S 2 x i x 2 i 1 n 1 2 1 2 S xi - n x n -1 i 1 n ou 2 Variância A variância não é geralmente utilizada como medida de dispersão, mas é o suporte para o cálculo do desvio-padrão A interpretação do significado da variância, em situações concretas, levanta problemas Por exemplo, se estivermos estudando a concentração de um poluente num lago, em g/L, a média das concentrações é expressa em g/L, mas a variância será expressa em (g/L)2 Varância para dados agrupados Se as observações de uma amostra estiverem agrupadas em classes, a variância será: k 1 2 2 2 S xi ni n x n 1 i 1 Onde: k é o número de classes ni é a freqüência da i-ésima classe xi é o ponto médio da i-ésima classe x é a média dos dados agrupados n é a quantidade total de observações Medidas de Dispersão Desvio-padrão Se n observações de uma amostra forem representadas por x1, x2,..., xn, o desvio padrão amostral será: Note que: S S n S 2 x x i i1 n 1 2 O desvio-padrão corresponde à raiz quadrada positiva da variância Desvio-Padrão Propriedades do desvio-padrão 1. O desvio-padrão é sempre não negativo 2. Quanto maior for o desvio-padrão maior será a dispersão dos dados em relação à média 3. Se o desvio-padrão é igual a zero é porque não existe variabilidade, isto é, os dados são todos iguais 4. O valor do desvio padrão pode crescer dramaticamente com a inclusão de um ou mais outliers 5. As unidades do desvio padrão são as mesmas unidades dos dados originais Desvio-Padrão Como achar o desvio-padrão? 1. Calcule a média x 2. Subtraia a média de cada valor individual para obter a lista dos desvios da forma x - x 3. Eleve ao quadrado cada uma das diferenças obtidas no passo 2. isto resulta em números da forma (x - x )2 4. Adicione todos os quadrados obtidos no passo 3. 2 Esse é o valor (x - x ) 5. Divida o total do passo 4 por n-1 6. Ache a raiz quadrada do resultado do passo 5 Medidas de Dispersão Coeficiente de variação É uma medida relativa de variabilidade, que compara o desvio padrão com a média cv = S x Como o desvio-padrão e a média apresentam a mesma unidade dos dados, o coeficiente de variação é adimensional A grande utilidade do coeficiente de variação é permitir a comparação das variabilidades de diferentes conjuntos de dados Coeficiente de Variação Exemplo Os resultados de ensaios de tração de dois tipos de aço forneceram os seguintes resultados: Aço A Aço B x = 512 MPa x = 590 MPa s = 13 MPa s = 18 MPa Qual deles apresenta menor variabilidade relativa? Coeficiente de Variação A determinação da variabilidade relativa é feita a partir do coeficiente de variação: Para o aço A: cv = 13 / 512 = 0,025 = 2,5% Para o aço B: cv = 18 / 592 = 0,031 = 3,1% Desse modo, o aço A é o que apresenta resultados com menor variabilidade relativa Coeficiente de Variação Exemplo Determinar o coeficiente de variação para as observações de temperaturas TA e TB indicadas abaixo: TA 21 22 24 26 32 TB 10 20 26 31 38 (medidas em ºC) Coeficiente de Variação TA 21 22 24 26 32 TB 10 20 26 31 38 Passo 1: determinação das médias Para TA: x = (21+23+...+32)/5 = 125/5 = 25 Para TB: x = (10+20+...+38)/5 = 125/5 = 25 Passo 2: determinação do desvio-padrão (medidas em ºC) n S 2 x x i i1 n 1 Para TA: s = { [ (21-25)2 + (22-25)2 + (24-25)2 + (26-25)2 + (32-25)2 ] / (5-1) } 1/2 s = { 76 / 4 }1/2 s = 4,36 oC Para TB: s = { [ (10-25)2 + (20-25)2 + (26-25)2 + (31-25)2 + (38-25)2 ] / (5-1) } 1/2 s = { 456 / 4 }1/2 s = 10,68 oC Coeficiente de Variação TA 21 22 24 26 32 TB 10 20 26 31 38 Passo 3: determinação do coeficiente de variação Para TA: cv = 4,36 / 25 = 0,174 = 17,4 % Para TB: cv = 10,68 / 25 = 0,427 = 42,7 % (medidas em ºC) Logo: Para TA , cv = 17,4 % e para TB , cv = 42,7 % Universidade Federal de Alagoas Centro de Tecnologia Estatística Aula 08 Prof. Marllus Gustavo Ferreira Passos das Neves Adaptado do material elaborado pelo Prof. Wayne Santos de Assis