Estatística Básica Utilizando o Excel Fernando Augusto Silva Marins 3a. Aula - Estatística Descritiva (medidas de posição e dispersão) Nevembro/2004 FEG & FOSJC 1 Tópicos Medidas de Tendência Central Média, Mediana, Moda Quartis Medidas de Dispersão Nevembro/2004 Amplitude, Variância coeficiente de Variação FEG & FOSJC e Desvio-Padrão e 2 Tópicos Formato Nevembro/2004 (continuação) Simétrica, assimétrica (Gráfico Boxand-whisker) Coeficiente de Correlação FEG & FOSJC 3 Sumário das Medidas Sumário das Medidas Tendência Central Média Variação Quartis Moda Mediana Amplitude Coeficiente de Variação Variância Desvio-Padrão Nevembro/2004 FEG & FOSJC 4 Medidas de Tendência Central Tendência Central Média Mediana Moda n X X i 1 i n N X Nevembro/2004 i 1 i N FEG & FOSJC 5 Média Média Amostra X Tamanho da Amostra n X i 1 i n X1 X 2 n População Tamanho da População N Nevembro/2004 X i 1 N Xn i X1 X 2 N FEG & FOSJC XN 6 Média Medida mais comum de tendência central Afetada por valores extremos (outliers) 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 12 14 Média = 5 Nevembro/2004 (continuação) Média = 6 FEG & FOSJC 7 Mediana Medida Robusta de Tendência Central Não é afetada por valores extremos 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 12 14 Mediana = 5 Mediana = 5 Numa disposição ordenada, a mediana é o valor do “meio” Nevembro/2004 se n, or N, é ímpar, a mediana é o número do meio da seqüência If n, or N, é par, a mediana é a média dos dois números centrais FEG & FOSJC 8 Moda Valor que ocorre mais freqüentemente Não é afetada por valores extremos Pode não haver Moda num conjunto de dados Pode haver várias Modas num conjunto de dados 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Moda = 9 Nevembro/2004 FEG & FOSJC 0 1 2 3 4 5 6 Não há Moda 9 Quartis Dividem os Dados já ordenados em 4 partes 25% 25% Q1 Posição i-th Quartil: Dados ordenados: Q1 Q2 Nevembro/2004 e 25% Q2 25% Q3 i n 1 Qi 4 11 12 13 16 16 17 18 21 22 Q3 são medidas de localização não-centrais = Mediana é medida de tendência central FEG & FOSJC 10 Medidas de Variação Variação Variância Amplitude Desvio Padrão Coeficiente de Variação Desvio Padrão População Variância População Desvio Padrão Amostra Variância Amostra Nevembro/2004 FEG & FOSJC 11 Amplitude (Range) Medida de variação Diferença entre o maior e o menor valor das observações: Range X maior X menor Ignora o tipo da distribuição dos dados Range = 12 - 7 = 5 Range = 12 - 7 = 5 7 Nevembro/2004 8 9 10 11 7 12 FEG & FOSJC 8 9 10 11 12 12 Variância Importante medida de variação Mostra variação média em torno da Média Variância Amostral: n S2 Variância Populacional: i 1 FEG & FOSJC X i n 1 N 2 Nevembro/2004 X 2 X i 1 i N 2 13 Desvio Padrão Importante medida de variação Mostra variação média em torno da Média Está na mesma unidade dos dados originais n Desvio padrão amostral: S X i 1 i X n 1 N Nevembro/2004 Desvio padrão populacional: FEG & FOSJC 2 X i 1 i 2 N 14 Comparação de Desvios Padrão Dados A 11 12 13 14 15 16 17 18 19 20 21 Média = 15,5 s = 3,338 Dados B 11 12 13 14 15 16 17 18 19 20 21 Média = 15,5 s = 0,9258 Dados C 11 12 13 14 15 16 17 18 19 20 21 Nevembro/2004 FEG & FOSJC Média = 15,5 s = 4,57 15 Coeficiente de Variação Mede variação relativa em relação à Média Sempre em percentages (%) Usado na comparação de 2 ou mais conjuntos de dados expressos em diferentes unidades de medidas S CV 100% X Nevembro/2004 FEG & FOSJC 16 Comparação com Coeficientes de Variação Ação A: Ação B: Preço médio último ano = $50, Desvio padrão = $5 Preço médio último ano = $100, Desvio padrão = $5 Coeficientes de variação: S Ação A: CV X Ação B: Nevembro/2004 $5 100% 100% 10% $50 S CV X $5 100% 100% 5% $100 FEG & FOSJC 17 Formato de uma Distribuição Descreve como os Dados estão distribuídos Medidas de formato Simétrica ou Assimétrica Assimétrica à esquerda Simétrica Assimétrica à direita Média < Mediana < Moda Média = Mediana =Moda Moda < Mediana < Média Nevembro/2004 FEG & FOSJC 18 Análise Exploratória de Dados Gráfico de Box-and-whisker Usa o “Esquema dos 5 Números” e constrói os Box Plots X menor 4 Nevembro/2004 Mediana(Q2 ) Q3 Q1 6 8 FEG & FOSJC 10 X maior 12 19 Formato da Distribuição e o Gráfico Box-and-Whisker Assimétrica à esquerda Q1 Nevembro/2004 Q2 Q3 Simétrica Assimétric a à direita Q1 Q2Q3 Q1 Q2 Q3 FEG & FOSJC 20 Coeficiente de Correlação Mede o grau da relação linear entre duas variáveis quantitativas (X e Y) n r X i 1 n X i 1 Nevembro/2004 i i X Yi Y X 2 n Y Y i 1 FEG & FOSJC 2 i 21 Aspectos do Coeficiente de Correlação Adimensional Varia entre –1 e 1 Mais perto de –1, mais forte a relação linear negativa Mais perto de 1, mais forte a relação linear positiva Nevembro/2004 Mais perto de 0, mais fraca é a relação linear FEG & FOSJC 22 Diagramas de Dispersão (Scatter Plots) Y Y Y X r = -1 X r = -.6 Y Nevembro/2004 X r=0 Y r = .6 X FEG & FOSJC r=1 X 23