Estatística I Aula 3 Prof.: Patricia Maria Bortolon, D. Sc. Estatística: Prof. André Carvalhal Dados quantitativos: medidas numéricas Propriedades Numéricas Tendência Central Dispersão Formato Média Amplitude Mediana Variância Moda Desvio Padrão Quantis Assimetria Coeficiente de Variação Estatística: Prof. Luis Araujo Propriedades Numéricas dos Dados Tendência Central (Localização) Variação (Dispersão) Forma Estatística: Prof. Luis Araujo Notação Medida Média Desvio Padrão Amostra População x µ S σ 2 Variância S Tamanho n σ 2 N Medidas de tendência central • Média Aritmética x= soma dos valores de x ∑x = número de observações n – Propriedades da média: • Centro de gravidade • Mais informativa no caso de distribuições aproximadamente simétricas • A soma dos desvios em relação a média é igual a zero ∑ (x − x) = 0 i • É influenciada por valores extremos. Medidas de tendência central Média Amostral ∑ x= n x i =1 i n x = estatística Média Populacional ∑ µ= N x i =1 i N µ = parâmetro Exemplo 1 • Se as lâmpadas de uma amostra duram 967, 949, 952, 940 e 922 horas de uso continuado, o que podemos concluir sobre a duração média das 40.000 lâmpadas do lote? • Solução: 967 + 949 + 952 + 940 + 922 x= = 946 horas 5 • Supondo que os dados são de uma amostra que represente a população de lâmpadas podemos estimar que a duração média das 40.000 lâmpadas é de µ = 946 horas • Para dados não-negativos, a média não só descreve o meio do conjunto de dados, mas impõe uma limitação ao seu tamanho. Se multiplicarmos por n ambos os lados da equação x = ∑n x , veremos que ∑ x = n.x e, portanto, que nenhuma parte, ou subconjunto dos dados, pode exceder n. x . Exemplo 2 • Se o salário anual médio pago a três jogadores de basquete nos EUA na temporada 2001-2002 foi de 3.650.000 dólares, pode – (a) algum deles ter recebido 6.000.000 dólares? – (b) dois deles terem recebido, cada um, 6.000.000 dólares? • Solução: – Como n * x = 3 * 3.650.000 = 10.950.000 – (a) se um deles recebeu seis milhões, restariam 10.950.000 – 6.000.000 = 4.950.000 para os outros dois, de modo que é possível. – (b) se dois deles receberam, cada um, seis milhões, isso necessitaria de 2(6.000.000)=12.000.000 dólares. Como isso necessitaria mais do que o total pago aos três jogadores, não teria sido possível. Exemplo 3 • A editora de um livro precisa de um número para a quantidade de calorias de uma fatia de pizza de calabresa grande. Solicitando a um laboratório que faça o serviço com um calorímetro, ela recebe os seguintes números para uma fatia de pizza de seis fornecedores diferentes: 265, 332, 340, 225, 238 e 346. – (a) calcule a média, que a editora irá utilizar em seu livro – (b) suponha que, ao calcular a média, a editora cometa o erro de digitar 832, em vez de 238, em sua calculadora. Qual será o tamanho do erro no número que ela utilizará em seu livro? Exemplo 3 • Solução: – (a) a média correta é 265 + 332 + 340 + 225 + 238 + 346 6 = 291 x= – (b) a média errada é 265 + 332 + 340 + 225 + 832 + 346 x= 6 = 390 – E o erro será um desastroso 390 – 291 = 99 calorias Medidas de Tendência Central • Média Ponderada – Útil quando as grandezas em jogo não têm a mesma importância w1.x1 + w2 .x2 + ... + wn .xn = xw = w1 + w2 + ... + wn – xi são as observações da amostra – wi são os pesos de cada observação ∑ ∑ n i =1 i i n i =1 i w .x w Exemplo 4 • Numa turma de psicologia, há 14 calouros, 25 alunos de segundo e 16 alunos de terceiro ano. Dado que num exame os calouros obtiveram a média 76, os alunos do segundo ano a média 83 e alunos de terceiro ano a média 89, qual é a grande média pra toda a classe? • Solução: 14 ⋅ 76 + 25 ⋅ 83 + 16 ⋅ 89 x= = 82,96 14 + 25 + 16 Medidas de tendência central • Mediana (Md) – Em um conjunto de observações ordenadas de forma crescente é o elemento que ocupa a posição central. – É o valor do elemento do meio se n é impar, e a média dos dois valores do meio se n é par. – Não é afetado por valores extremos. Dados de produção: Mês Produção: Dados ordenados: Jan 210 180 Fev 180 180 Mar 205 185 Abr 195 190 Mai 205 195 Jun 220 198 <== Mediana =(198 + 200) / 2 = 199 Jul 185 200 <== Ago 190 205 Set 200 205 Out 180 205 Nov 205 210 Dez 198 220 soma = média = 2.373 197,75 Medidas de tendência central • Mediana (Md) – Variável discreta em tabela de frequências xi fi Total de elementos = 23 2 1 5 4 Então o termo central ocupa a posição de no. 12 8 10 10 6 12 2 Como localizar o 12o. elemento? R: construindo a frequência acumulada Medidas de tendência central • Mediana (Md) – Variável discreta em tabela de frequências xi fi Fi Total de elementos = 23 2 1 1 5 4 5 Então o termo central ocupa a posição de no. 12 8 10 15 10 6 21 12 2 23 Como localizar o 12o. elemento? R: construindo a frequência acumulada O elemento que ocupa a 12a. posição vale 8, então, podemos afirmar que a mediana vale 8!! Medidas de tendência central - posição • Quartis – Dividem um conjunto de dados dispostos em ordem crescente em quatro partes com dimensões iguais. Mínimo 1o. Q 2o. Quartil = Mediana 3o. Q – 25% dos dados são inferiores ao 1o. Q – 50% dos dados são inferiores ao 2o. Q ou mediana – 75% dos dados são inferiores ao 3o. Q Máximo Medidas de tendência central - posição • Decis – Dividem um conjunto de dados dispostos em ordem crescente em dez partes com dimensões iguais. – 10% dos dados são inferiores ao 1o. Decil • Percentis – Dividem um conjunto de dados dispostos em ordem crescente em cem partes com dimensões iguais. – 1% dos dados são inferiores ao 1o. Percentil Medidas de tendência central • Média – valores agrupados xF ∑ x= i i n Amostra: 18 29 37 44 54 Média = 20 30 37 45 54 20 30 37 45 56 21 31 37 45 58 22 31 38 46 62 24 32 38 47 65 25 33 38 48 25 34 40 49 26 35 41 50 27 36 43 51 29 36 44 53 38,32 14 Intervalos das classes 18 - 25 25 - 32 32 - 39 39 - 46 46 - 53 53 - 60 60 - 67 Total Média = 12 Fi 6 10 13 8 6 5 2 50 38,50 xi 21,5 28,8 35,5 42,5 49,5 56,5 63,5 xiFi 129,0 288,0 461,5 340,0 297,0 282,5 127,0 1925,0 10 8 6 4 2 0 21,5 28,8 35,5 42,5 49,5 56,5 63,5 Medidas de tendência central • Moda (Mo) – É o valor mais frequente (a maior barra do histograma) Intervalos das classes 18 - 25 25 - 32 32 - 39 39 - 46 46 - 53 53 - 60 60 - 67 Total Fi 6 10 13 8 6 5 2 50 xi 21,5 28,8 35,5 42,5 49,5 56,5 63,5 xiFi 129,0 288,0 461,5 <== Classe Modal 340,0 297,0 282,5 14 127,0 12 1925,0 10 Média = 38,50 8 6 4 2 0 21,5 28,8 35,5 42,5 49,5 56,5 63,5 Medidas de tendência central 14 12 10 Moda Mediana (627) Média 8 6 4 2 Std. Dev = 114,73 Mean = 658,6 N = 100 0 500,0 550,0 600,0 650,0 700,0 750,0 800,0 850,0 900,0 525,0 575,0 625,0 675,0 725,0 775,0 825,0 875,0 925,0 Estatística: Prof. André Carvalhal Dados quantitativos: medidas numéricas Propriedades Numéricas Tendência Central Dispersão Formato Média Amplitude Mediana Variância Moda Desvio Padrão Quantis Assimetria Coeficiente de Variação Estatística: Prof. André Carvalhal Dados quantitativos: medidas numéricas Propriedades Numéricas Dispersão Amplitude Variância Desvio Padrão Coeficiente de Variação Por que avaliar medidas de dispersão? • Exemplo: um médico observa a variação nos batimentos cardíacos por minuto de dois pacientes. Veja os resultados: – Paciente A: – Paciente B: 72 72 76 91 74 59 – Os dois pacientes têm média de batimentos iguais a 74 mas a variação é muito diferente!! Amplitude • É a diferença entre o maior e o menor valor • Mede a dispersão total no conjunto de dados • Mas tem um problema.... 7 8 9 Balança A 10 11 12 13 7 8 9 Balança C 7 8 9 Balança B 10 11 12 10 11 12 13 Não é apropriada quando há observações extremas 13 Variância e Desvio Padrão • A amplitude não descreve como os valores se distribuem em torno da média, não mostra se há valores extremos... • ... poderíamos então avaliar os desvios em torno da média x1 − x , x2 − x , x3 − x ,..., xn − x • ... mas a soma destes desvios é sempre igual a zero!! • Como não nos interessa se as diferenças são positivas ou negativas trabalhamos com os quadrados das diferenças • Uma alternativa, pouco utilizada, é usar os desvios absolutos, calculando o Desvio Médio Absoluto 1 n DMA = ∑i =1 xi − x n Variância Amostral • É a soma das diferenças ao quadrado, em torno da média aritmética, dividindo-a pelo tamanho da amostra, menos um: ∑ (x n −x i S2 = ) 2 i =1 n −1 • E a variância da população é igual a: ∑ (x N i σ x2 = −µ i =1 N ) 2 Desvio Padrão Amostral • É a raiz quadrada da variância. • É a medida de dispersão mais utilizada. Está na mesma unidade dos dados originais. ∑ (x n i S= −x ) 2 i =1 n −1 • E desvio padrão da população é igual a: ∑ (x N i σx = −µ i =1 N ) 2 Desvio Padrão Amostral • Para calcular o desvio padrão de uma amostra devemos: – – – – – – Calcular a média da amostra Obter a diferença entre cada observação e a média Elevar ao quadrado essas diferenças Somar os quadrados das diferenças Dividir o somatório por (n-1) você aqui obteve a variância Extrair a raiz quadrada do somatório obtido Exemplo 5 • Calcule o desvio padrão da seguinte amostra: Amostra Dados (Xi) : 10 12 n=8 14 15 17 18 18 24 Média = x = 16 S= (10 − X ) 2 + (12 − X ) 2 + (14 − X ) 2 + L + (24 − X ) 2 n −1 = (10 − 16) 2 + (12 − 16) 2 + (14 − 16) 2 + L + (24 − 16) 2 8 −1 = 126 7 = 4.2426 É uma medida da dispersão “média” dos dados em torno de sua média Desvio Padrão Amostral • Organize seus cálculos: x= xi = (xi − x )2 xi − x total ∑ (x n i σx = −x i =1 n −1 ) 2 Desvio Padrão Amostrais Comparando Desvios - Padrão Dados A 11 12 13 14 15 16 17 18 19 20 21 Média = 15.5 S = 3.338 20 Média = 15.5 S = 0.926 Dados B 11 21 12 13 14 15 16 17 18 19 Dados C 11 12 13 14 Média = 15.5 S = 4.570 15 16 17 18 19 20 21 Desvio Padrão Amostrais Comparando Desvios - Padrão Pequeno desvio padrão Grande desvio padrão Fórmula alternativa • Fórmula alternativa para o Desvio Padrão Amostral S= σ xx n −1 ( x) ∑ − n onde σ xx = ∑ x n 2 i =1 i 2 i =1 i n • Vantagem desse cálculo: não é preciso calcular a média nem os desvios em relação a média Entendendo a Variação nos Dados • Quanto mais espalhados ou dispersos estiverem os dados, maiores serão a amplitude, a variância e o desvio padrão • Quanto mais concentrados, ou homogêneos, forem os dados, menores serão a variância e o desvio padrão • Se as observações forem todas iguais (de forma que não exista nenhuma variação nos dados), a amplitude, a variância e o desvio padrão serão todos iguais a zero • Nenhuma das medidas de variação pode ser negativa Entendendo a Variação nos Dados • Você é apresentado ao desvio padrão dos retornos mensais nos últimos três anos de três fundos de investimentos – S = 7,71 – S = 17,66 – S = 23,17 – O que você pode dizer sobre a variação dos retornos? – Você pode dizer qual o fundo com maior risco? Aplicações do Desvio Padrão • São usados nos problemas de inferência que veremos adiante • A dispersão, e o desvio padrão, são pequenos se os dados estão concentrados em torno da média e grandes se os mesmos são muito dispersos • O teorema de Tchebichev expressa formalmente essa idéia... Teorema de Tchebichev • Para qualquer conjunto de dados (população ou amostra) e qualquer constante k maior do que 1, a proporção dos dados que devem estar a menos de k desvios-padrão de qualquer um dos dois lados da média é pelo menos 1 1− 2 k Exemplo 6 • • Você está avaliando a rentabilidade das empresas do setor varejista. A média da rentabilidade sobre os ativos em 2009 foi de 10% com desvio padrão de 3%. Faça estimativas para a distribuição dos dados pelo Teorema de Tchebychev para k igual a 2 e 3. Solução: para k = 2 : 1 3 = = 75% ⇒ 2 2 4 10% − 2 ⋅ 3% ≤ pelo menos 75% das rentabilidades ≤ 10% + 2 ⋅ 3% 4% ≤ pelo menos 75% das rentabilidades ≤ 16% para k = 3 : 1 8 1 - 2 = = 88,9% ⇒ 3 9 10% − 3 ⋅ 3% ≤ pelo menos 88,9% das rentabilidades ≤ 10% + 3 ⋅ 3% 1% ≤ pelo menos 88,9% das rentabilidades ≤ 19% 1- Teorema de Tchebichev • O problema do Teorema de Tchebichev é que ele diz apenas “pelo menos qual proporção” dos dados deve estar entre certos limites. É um limite inferior para a verdadeira proporção, tem poucas aplicações práticas. • Para distribuições em forma de sino podemos fazer as seguintes afirmações muito mais fortes. Cerca de 68% dos valores estão a menos de um desvio-padrão da média, isto é, entre x − σ x e x + σ x Cerca de 95% dos valores estão a menos de dois desvios-padrão da média, isto é, entre x − 2σ x e x + 2σ x Cerca de 99,7% dos valores estão a menos de três desvios-padrão da média, isto é, entre x − 3σ x e x + 3σ x Fórmula de conversão para unidades padronizadas • Em um curso de francês um aluno obteve nota 66 em vocabulário e 80 em gramática. – 1a. Conclusão: melhor nota em gramática que vocabulário • E se você agora souber que a média e o desvio padrão da turma em vocabulário foram, respectivamente, 51 e 12. Em gramática média e desvio padrão das notas da turma foram, respectivamente, 72 e 16. Como sua resposta se altera? – Em vocabulário a nota do aluno está (66-51)/12 = 1,25 desvios padrão acima da média e em gramática (80-72)/16 = 0,50 desvios padrão acima da média da turma. – Comparado com o resto da turma o aluno está melhor em vocabulário do que em gramática. Fórmula de conversão para unidades padronizadas x−x z= S ou z= x−µ σ • z nos diz quantos desvios-padrão um valor está acima ou abaixo da média do conjunto de dados ao qual pertence. Exemplo 7 • A Sra. Santos pertence a uma faixa etária na qual o peso médio é de 56kg, com desvio-padrão de 6kg, e seu marido, o Sr. Santos, pertence a uma faixa etária na qual o peso médio é de 82kg, com desvio-padrão de 9kg. Se a Sra. Santos pesa 66kg e o Sr. Santos pesa 96kg, qual dos dois, relativamente ao peso médio de sua faixa etária, está com maior excesso de peso? Exemplo 7 • Solução: – O peso do Sr. Santos está 96 – 82 = 14kg acima da média e o peso da Sra. Santos está “somente” 66 – 56 = 10kg acima da média, mas em unidades padronizadas obtemos (96-82)/9=1,55 para o Sr. Santos e (66-56)/6=1,66 para a Sra. Santos. Assim, relativamente ao peso médio de sua faixa etária, a Sra. Santos está mais acima do peso do que o Sr. Santos. Coeficiente de Dispersão • O desvio padrão depende das unidades de medida • O Coeficiente de Dispersão é uma medida relativa de variação • Expresso na forma de percentagem e não em termos das unidades dos dados específicos • Permite comparações quando as variáveis têm unidades de medida diferentes σ S V = ⋅100% ou V = ⋅100% x µ Coeficiente de Dispersão • Exemplo: o gerente de um serviço de entregas está avaliando a compra de uma nova frota de caminhões. Quando as encomendas são carregadas nos caminhões, no preparo para entrega, dois importantes parâmetros são considerados: peso (em kg) e o volume (em m3) para cada item. Suponha que numa amostra de 200 encomendas, o peso médio seja de 26kg com um desvio padrão de 3,9kg, e o volume médio para cada encomenda seja 8,8m3 com um desvio padrão de 2,2m3. Como podem as variações de peso e volume ser comparadas? Coeficiente de Dispersão • Solução: – para o peso o coeficiente de variação V=3,9/26x100%=15%; – para o volume V=2,2/8,8x100%=25%. – logo, em relação à média aritmética, o volume de uma encomenda é muito mais variável do que seu peso. Formato Estatística: Prof. André Carvalhal • 1. Descreve como os dados estão distribuídos • 2. Medida: assimetria Assimétrica à esquerda Simétrica Assimétrica à direita MediaMediana Media Mediana Moda Media Media= = Mediana Mediana= = Moda Moda Mediana Media Negativamente Assimétrica Simétrica Positivamente Assimétrica Formato • Coeficiente de Assimetria de Pearson 3(média − mediana) SK = desvio − padrão MediaMediana Media Mediana Moda Media Media= = Mediana Mediana= = Moda Moda Mediana Media Negativamente Assimétrica Simétrica Positivamente Assimétrica