ESTATÍSTICA APLICADA Capítulo 2 Descrição, Exploração e Comparação de Dados Prof. Paulo Renato de Morais Descrevendo Dados Qualitativos Tabela de Freqüências 1. Lista categorias e no. elementos na categoria 2. Obtida tabulando respostas na categoria 3. Pode mostrar freqüências, % ou ambas Classe Freqüência Freq. Relativa Curso No Estudantes Proporção Engenharia 130 Tabul.: 0,65 Economia 20 0,10 |||| |||| Administração 50 0,25 |||| |||| Total 200 1,00 Gráfico em Colunas Freqüência 150 Coluna mostra freqüência ou % Larguras iguais 100 50 0 Ponto Zero Eng. Econ. 1/2 a 1 largura da coluna Adm. Curso Gráfico em Setores 1. Mostra divisão da quantidade total em categorias 2. Útil para mostrar diferenças relativas Cursos Econ. 10% 36° 3. Valor do ângulo: (360°)(Porcentagem) (360°) (10%) = 36° Adm. 25% Eng. 65% Questão Você deseja analisar a divisão de mercado dos fabricantes de programas para Windows em 1992. Construa um gráfico em colunas e um gráfico em setores para descrever os dados. Marca Div. Merc. (%) Lotus 15 Microsoft 60 WordPerfect 10 Outros 15 Solução do Gráfico em Colunas Div. Mercado (%) 60% 40% 20% 0% Lotus Microsoft Wordperf Marca Outros Solução do Gráfico em Setores Divisão do Mercado Wordperfect 10% Microsoft 60% Outros 15% Lotus 15% Descrevendo Dados Quantitativos Histograma 1. Condensa dados agrupando valores similares em classes num gráfico 2. Pode mostrar freqüências (contagens) ou freqüências relativas (proporções) 3. Primeiro deve-se construir uma tabela de distribuição de freqüências Tabela de Distribuição de Freqüências 1. Determine amplitude total 2. Selecione número de classes Usualmente entre 5 e 20 inclusive 3. Calcule intervalos de classe (comprimento) 4. Determine limites das classes 5. Calcule pontos médios das classes 6. Conte observações e designe a classes Tabela de Distribuição de Freqüências Dados: 24, 26, 24, 21, 27, 27, 30, 41, 32, 38 Classe Amplit. = 10 P. médio Freqüência 15 |---- 25 20 3 25 |---- 35 30 5 35 |---- 45 40 2 Limites (Limite superior + inferior) / 2 Tabela de Distribuição de Freqüência Relativa e % Distribuição de Freqüência Relativa Classe Prop. Distribuição Percentual Classe % 15 |---- 25 0,3 15 |---- 25 30,0 25 |---- 35 0,5 25 |---- 35 50,0 35 |---- 45 0,2 35 |---- 45 20,0 Histograma Contagem 5 Freqüência Freqüência Relativa Porcentagem 4 3 Colunas se tocam 2 1 0 0 15 25 35 Limites 45 55 Métodos Numéricos para Dados Quantitativos Notação Medida Média Desvio padrão Amostra População `X m S s 2 s Variância S Tamanho n 2 N Propriedades de Dados Quantitativos Tendência Central (Localização) Variação (Dispersão) Forma Métodos Numéricos para Dados Quantitativos Propriedades Numéricas Tendência Central Variação Forma Média Amplitude Mediana Variância Moda Desvio Padrão Simetria Intervalo Interquartílico Medidas de Tendência Central Média 1. 2. 3. 4. Medida de tendência central Medida mais comum Funciona como ‘ponto de equilíbrio’ Afetada por valores extremos (‘outliers’) Média 1. 2. 3. 4. 5. Medida de tendência central Medida mais comum Funciona como ‘ponto de equilíbrio’ Afetada por valores extremos (‘outliers’) Fórmula (média amostral) n X= Xi i =1 n = X 1 + X 2 + ... + X n n Exemplo de Média Dados: 10,3 4,9 8,9 11,7 6,3 7,7 n X= = Xi i =1 n = X1 + X 2 + X 3 + X 4 + X 5 + X 6 6 10,3 + 4,9 + 8,9 + 117 , + 6,3 + 7,7 . = 8,30 6 Mediana 1. Medida de tendência central 2. Valor central numa seqüência ordenada Se n é ímpar, valor central da seqüência Se n é par, média dos 2 valores centrais Mediana 1. Medida de tendência central 2. Valor central numa seqüência ordenada Se n é ímpar, valor central da seqüência Se n é par, média dos 2 valores centrais 3. Posição da mediana na seqüência: n +1 Posição = 2 Mediana 1. Medida de tendência central 2. Valor central numa seqüência ordenada Se n é ímpar, valor central da seqüência Se n é par, média dos 2 valores centrais 3. Posição da mediana na seqüência n+ 1 Posição = 2 4. Não é afetada por valores extremos Exemplo de Mediana: Amostra Tamanho Ímpar Dados: 24,1 22,6 21,5 23,7 22,6 Ordenação:21,5 22,6 22,6 23,7 24,1 Posição: 1 2 3 4 5 n +1 5 +1 Posição = = =3 2 2 Mediana = 22,6 Exemplo de Mediana Amostra Tamanho Par Dados: 10,3 4,9 8,9 11,7 6,3 7,7 Ordenação: 4,9 6,3 7,7 8,9 10,3 11,7 Posição: 1 2 3 4 5 6 n +1 6 +1 Posição = = = 3,5 2 2 7,7 + 8,9 Mediana = = 8,3 2 Moda 1. 2. 3. 4. Medida de tendência central Valor que ocorre mais freqüentemente Não é afetada por valores extremos Pode haver nenhuma moda ou várias modas 5. Pode ser usada para dados quantitativos e qualitativos Exemplo de Moda Nenhuma Moda: Dados: 10,3 4,9 8,9 11,7 6,3 7,7 Uma Moda: Dados: 6,3 4,9 8,9 6,3 4,9 4,9 Mais de Uma Moda: Dados: 21 28 28 41 43 43 Questão Você deve analisar dados de um teste sobre um determinado parâmetro de vôo. Os dados são: 17, 16, 21, 18, 13, 16, 12, 11 Descreva estes dados em termos de tendência central. Solução da Tendência Central Média n X= = Xi i =1 n = X 1 + X 2 + ... + X 8 8 17 + 16 + 21 + 18 + 13 + 16 + 12 + 11 = 15,5 8 Solução da Tendência Central Mediana Dados: 17 16 21 18 13 16 12 11 Ordenados: 11 12 13 16 16 17 18 21 Posição: 1 2 3 4 5 6 7 8 n +1 8 +1 = = 4,5 Posição = 2 2 16 + 16 Mediana = = 16 2 Solução da Tendência Central Moda Dados: 17 16 21 18 13 16 12 11 Ordenados: 11 12 13 16 16 17 18 21 Moda = 16 Resumo das Medidas de Tendência Central Medida Média Mediana Moda Equação S Xi / n (n+1) Posição 2 Nenhuma Descrição Ponto de Equilíbrio Valor Central Quando Ordenados Mais Freqüente Medidas de Variação ou Dispersão Amplitude Total 1. Medida de dispersão 2. Diferença entre maior e menor observação Amplitude = X maior - X menor Amplitude Total 1. Medida de dispersão 2. Diferença entre maior e menor observação Amplitude = X maior - X menor 3. Ignora como os dados estão distribuídos 7 8 9 10 7 8 9 10 Variância e Desvio Padrão 1. Medidas de dispersão 2. Medidas mais comuns 3. Considera como os dados estão distribuídos Variância e Desvio Padrão 1. Medidas de dispersão 2. Medidas mais comuns 3. Considera como os dados estão distribuídos 4. Mostra variação ao redor da média (X ou m) `X = 8,3 4 6 8 10 12 Fórmula da Variância Amostral n S = 2 (X i - X) i =1 n -1 2 = 2 2 (X1 - X) + (X2 - X) + ... + (X n - X) n -1 2 Fórmula da Variância Amostral n S = 2 (Xi - X) i =1 n -1 2 = 2 n - 1 no denominador! (Use N se Variância Populacional) 2 (X1 - X) + (X2 - X) + L + (X n - X) n -1 2 Fórmula do Desvio Padrão Amostral S= S 2 n = (Xi - X) i =1 n -1 2 = 2 2 (X1 - X) + (X 2 - X) + ... + (Xn - X) n -1 2 Exemplo da Variância Dados: 10,3 4,9 8,9 11,7 6,3 7,7 n S = 2 (X i - X) i =1 n 2 onde X = n -1 2 S = 2 2 Xi i =1 n = 8,3 (10,3 - 8,3) + (4 ,9 - 8,3) + ... + (7,7 - 8,3) = 6,368 6 -1 2 Questão Você deve analisar dados de um teste sobre um determinado parâmetro de vôo. Os dados são: 17, 16, 21, 18, 13, 16, 12, 11 Quais são a variância e o desvio padrão dos dados? Solução Variância Amostral Dados: 17 16 21 18 13 16 12 11 n S = 2 (X i - X) n 2 i =1 n -1 onde X = 2 S = 2 2 Xi i =1 n = 15,5 (17- 15,5) + (16 - 15,5) + ... + (11 - 15, 5) , = 1114 8 -1 2 Solução Desvio Padrão Amostral n S= S = 2 (X i - X) i =1 n -1 2 , = 3,34 = 1114 Resumo das Medidas de Variabilidade Medida Equação Descrição Amplitude Total Xmaior - Xmenor Interv. Interquartílico Q3 - Q1 Desvio Padrão (Amostral) (X Desvio Padrão (Populacional) (X i Variância (Amostral) i Dispersão 50% Centrais - X) n -1 - m) Dispersão Total 2 2 Dispersão sobre Média Amostral Dispersão sobre Média Populacional N S(Xi -`X )2 n-1 Dispersão Quadrática sobre Média Amostral Forma Forma 1. Descreve como os dados estão distribuídos 2. Medida pela simetria Simétrica Média = Mediana = Moda Forma 1. Descreve como os dados estão distribuídos 2. Medida pela simetria Desvio à esquerda Simétrica Desvio à direita Méd. Median Moda Méd. = Median= Moda Moda Median Média Quartis Quartis 1. Medida de tendência não-central 2. Divide dados ordenados em 4 partes 25% 25% Q1 25% Q2 25% Q3 3. Posição do i-ésimo quartil i (n + 1) Posição de Qi = 4 Exemplo de Quartil (Q1) Dados: 10,3 4,9 8,9 11,7 6,3 7,7 Ordenados: 4,9 6,3 7,7 8,9 10,3 11,7 Posição: 1 2 3 4 5 6 Posição Q 1 Q 1 = 6,3 1 (n + 1) 1 (6 + 1) , @2 = = = 175 4 4 Exemplo de Quartil (Q2) Dados: 10,3 4,9 8,9 11,7 6,3 7,7 Ordenados: 4,9 6,3 7,7 8,9 10,3 11,7 Posição: 1 2 3 4 5 6 2 (n + 1) 2 (6 + 1) Posição Q = = = 3,5 4 4 2 7,7 + 8,9 Q2 = = 8,3 2 Exemplo de Quartil (Q3) Dados: 10,3 4,9 8,9 11,7 6,3 7,7 Ordenados: 4,9 6,3 7,7 8,9 10,3 11,7 Posição: 1 2 3 4 5 6 3 (n + 1) 3 (6 + 1) Posição Q3 = = = 5,25 @ 5 4 4 Q 3 = 10,3 Intervalo Interquartílico 1. Medida de dispersão 2. Também chamado dispersão central 3. Diferença entre terceiro e primeiro quartis Intervalo Interquartílico = Q3 - Q1 4. Dispersão dos 50% centrais 5. Não é afetado por valores extremos Questão Você deve analisar dados de um teste sobre um determinado parâmetro de vôo. Os dados são: 17, 16, 21, 18, 13, 16, 12, 11 Quais são os quartis Q1 e Q3 e o intervalo interquartílico? Solução do Quartil Q1 Dados: 17 16 21 18 13 16 12 11 Ordenados: 11 12 13 16 16 17 18 21 Posição: 1 2 3 4 5 6 7 8 1 (n + 1) 1 (8 + 1) Posição Q 1 = = = 2,25 @ 2 4 4 Q 1 = 12 Solução do Quartil Q3 Dados: 17 16 21 18 13 16 12 11 Ordenados: 11 12 13 16 16 17 18 21 Posição: 1 2 3 4 5 6 7 8 Posição Q 3 = Q 3 = 18 3 (n + 1) 4 = 3 (8 + 1) 4 = 6,75 @ 7 Solução do Intervalo Interquartílico Intervalo Interquartílico Dados: 17 16 21 18 13 16 12 11 Ordenados: 11 12 13 16 16 17 18 21 Posição: 1 2 3 4 5 6 7 8 Intervalo Interquart.= Q3 - Q1 = 18 - 12 = 6