Estatística Estatística Descritiva Prof. Helcio Rocha Adaptado de Levine 3-1 Definições sumárias Ao resumir e descrever variáveis numéricas, precisamos considerar: Tendência central: extensão na qual os valores de dados se agrupam em torno de um valor central Variação: dispersão em relação a um valor central Formato: padrão da distribuição de valores, do mais baixo para o mais alto 3-2 Medidas de tendência central: A média Obs: é afetada por valores extremos (outliers) 11 12 13 14 15 16 17 18 19 20 Média = 13 11 12 13 14 15 65 13 5 5 11 12 13 14 15 16 17 18 19 20 Média = 14 11 12 13 14 20 70 14 5 5 3-3 Medidas de tendência central: A mediana Obs: NÃO É afetada por valores extremos (outliers) 11 12 13 14 15 16 17 18 19 20 Mediana = 13 11 12 13 14 15 16 17 18 19 20 Mediana = 13 3-4 Medidas de tendência central: A moda Observações: NÃO É afetada por valores extremos Aplicável também a dados categóricos Pode não haver moda Podem haver várias modas 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Moda = 9 0 1 2 3 4 5 6 Sem Moda 3-5 Medidas de tendência central: Qual utilizar? A média é geralmente utilizada, a não ser quando existem outliers. A mediana tem uso frequente, por não ser afetada por outliers. Em algumas situações, recomenda-se relatar ambas medidas. 3-6 Medidas de variação Variação Amplitude Variância Desvio padrão Coeficiente de variação Mesmo centro, diferentes dispersões 3-7 Medidas de variação: A amplitude A medida mais simples de variação É afetada por outliers Ignora o modo como os dados estão distribuídos Exemplo: 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Amplitude = 13 - 1 = 12 3-8 Medidas de variação: A variância Variância populacional (é um parâmetro) Variância amostral (é uma estatística) N n σ 2 2 (X μ) i i1 N S2 (X X) i1 2 i n -1 3-9 Medidas de variação: O desvio padrão É a medida de variação mais empregada É a raiz quadrada da variância Possui a mesma unidade dos dados de origem Desvio padrão populacional (é um parâmetro) Desvio padrão amostral (é uma estatística) N n σ 2 (X μ) i i1 N S (X X) 2 i i1 n -1 3-10 Medidas de variação: O desvio padrão da amostra (exemplo) Dados da amostra (Xi) 10 12 14 n=8 S 15 17 18 18 24 Média = X = 16 (10 X)2 (12 X)2 (14 X)2 (24 X)2 n 1 (10 16)2 (12 16)2 (14 16)2 (24 16)2 8 1 130 7 4.3095 3-11 Medidas de variação: Comparando desvios padrão Data A 11 12 13 14 15 16 17 18 19 20 21 Média = 15.5 S = 3.338 20 Média = 15.5 S = 0.926 Data B 11 21 12 13 14 15 16 17 18 19 Data C 11 12 13 Média = 15.5 S = 4.570 14 15 16 17 18 19 20 21 3-12 Medidas de variação: Comparando desvios padrão Menor desvio padrão Maior desvio padrão 3-13 Medidas de variação: O coeficiente de variação É uma medida relativa de variação Sempre em % Apresenta a variação relativa à média Permite comparar dois ou mais conjuntos de dados que são mensurados em unidades diferentes S 100% CV X 3-14 Medidas de variação: Comparando coeficientes de variação Ação A: Preço médio do último ano = $50 Desvio padrão = $5 S $5 CVA 100% 100% 10% $50 X Ação B: Preço médio do último ano = $100 Desvio padrão = $5 S $5 CVB 100% 100% 5% $100 X Ambas ações possuem o mesmo DP, mas a B é menos variável em relação a seu preço 3-15 Medidas de variação: Comparando coeficientes de variação Stock A: Preço médio do último ano = $50 Desvio padrão = $5 S $5 CVA 100% 100% 10% $50 X Stock C: Preço médio do último ano = $8 Desvio padrão = $2 S CVC X A ação C possui um DP bem menor, mas um CV bem maior $2 100% 100% 25% $8 3-16 Localizando valores extremos: Uso do escore Z XX Z S (Número de desvios padrão) Um valor é considerado outlier quando seu escore Z é inferior a – 3,0 ou superior a + 3,0 3-17 Formato de uma distribuição: Assimetria Assimétrico à esquerda Assimetria < 0 Média < Mediana Simétrico Assimetria = 0 Média = Mediana Assimétrico à direita Assimetria > 0 Média > Mediana 3-18 Formato de uma distribuição: Curtose É uma medida direta do afunilamento da curva (ou inversa do seu achatamento) Formato mais achatado Curtose < 0 Distribuição normal Curtose = 0 Formato mais afunilado Curtose > 0 3-19 Estatística descritiva usando o Excel 3-20 Estatística descritiva usando o Excel 1. Selecione Dados. 2. Selecione Análise de dados. 3. Selecione Estatística Descritiva. Clique OK. 3-21 Estatística descritiva usando o Excel 4. Registre o intervalo de entrada. 5. Selecione a opção Resumo estatístico. 6. Click OK 3-22 Quartis Dividem os dados ordenados em 4 segmentos, com igual No. de dados em cada segmento 25% 25% Q1 25% Q2 Localizando os quartis: Q1 = (n+1)*(1/4) Q2 = (n+1)*(1/2) (é a mediana) 25% Q3 Os quartis não são afetados por outliers Q3 = (n+1)*(3/4) 3-23 Localizando quartis – 1o. exemplo Dados ordenados: 11 12 13 16 16 17 18 21 22 (n = 9) Q1 na posição (9+1)*(1/4) = 2.5 então Q1 = (12+13)/2 = 12.5 Q2 na posição (9+1)*(1/2) = 5 então Q2 = mediana = 16 Q3 na posição (9+1)*(3/4) = 7.5 então Q3 = (18+21)/2 = 19.5 3-24 Localizando quartis – 2o. exemplo Dados ordenados: 29 31 35 39 39 40 43 44 44 52 (n = 10) Q1 na posição (10+1)*(1/4) = 2.75 → arredonde para 3 então Q1 = 35 Q2 na posição (10+1)*(1/2) = 5.5 então Q2 = (39+40)/2 = 39.5 Q3 na posição (10+1)*(3/4) = 8.25 → arredonde para 8 então Q3 = 44 3-25 Os cinco números e o Boxplot Os cinco números que proporcionam um método para se determinar o formato de uma distribuição : Xmenor -- Q1 -- Mediana -- Q3 -- Xmaior Boxplot: Xmenor Q1 Mediana Q3 Xmaior 3-26 Construindo o Boxplot no Excel Resumo de Cinco Números Mínimo 1o. quartil Mediana 3o. quartil Máximo -7 -3 2 4 9 Box-Plot -10 -5 0 5 10 3-27 A curva de distribuição e o Boxplot Assimétrica à esquerda Q1 Q2 Q3 Simétrica Q1 Q2 Q3 Assimétrica à direita Q1 Q 2 Q3 3-28 Amplitude interquartil (Q3 – Q1) Também conhecida como dispersão média X Q1 mín 25% 12 Mediana (Q2) 25% 30 25% 45 X Q3 máx 25% 57 70 Amplitude interquartil = 57 – 30 = 27 Obs: Assim como os quartis, também não é afetada por outliers 3-29 Medindo a relação entre duas variáveis numéricas: A covariância Mede a força de uma relação linear entre duas variáveis numéricas(X & Y) Covariância da amostra n cov ( X , Y ) ( X X)(Y Y ) i 1 i i n 1 Não implica numa relação causa-efeito 3-30 Interpretando a Covariância Covariância entre duas variáveis cov(X,Y) > 0 X e Y tendem a se mover na mesma direção cov(X,Y) < 0 X e Y tendem a se mover em direções opostas cov(X,Y) = 0 X e Y são independentes Observar: cov pode assumir qualquer valor Consequência: não é possível se determinar a força relativa da relação a partir do valor da covariância 3-31 Coeficiente de Correlação Mede a força relativa de uma relação linear entre duas variáveis numéricas É adimensional Coeficiente de correlação da amostra cov(X , Y) r SX SY Coeficiente de correlação da população cov(X , Y) X Y 3-32 Coeficientes de Correlação e gráficos de dispersão Y Y X r = -1 Y X r = -.6 Y Y r = +1 X X r = +.3 X r=0 3-33 Coeficiente de Correlação: função no Excel 3-34 Coeficiente de Correlação: Análise de Dados no Excel 1. 2. 3. Selecione Dados Escolha Análise de Dados Selecione Correlação e clique OK 3-35 Coeficiente de Correlação: Análise de Dados no Excel (cont.) 4. 5. Entre com os dados e selecione as opções adequadas Clique em OK 3-36 Interpretanto o Coeficiente de Correlação r = 0.733 Há uma relação linear positiva relativamente forte entre as notas do teste 1 e as do teste 2. Scatter Plot of Test Scores 100 95 Test #2 Score 90 85 80 75 70 70 75 80 85 90 95 100 Test #1 Score 3-37