Lista de Exercícios Cap. 2 1) Considere os dados de Sexo e Raça para os dados abaixo: Sexo F M M F M F F F M M M M M M F F F M F F F F M M F M M Raça B B B B B B B B B B B B B B B B B P B B B A B B B B N a) Construa a tabela de freqüências para cada uma das variáveis. Tabela de Freq. Da variável Sexo Sexo Fre. Abs. Freq. Rel. Freq. Perc. F 13 0,481481 48% M 14 0,518519 52% Total 27 1 100% Tabela de Freq. Da variável Sexo Sexo Fre. Abs. Freq. Rel. Freq. Perc. A 1 0,037037 4% B 24 0,888889 89% I 0 0 0% N 1 0,037037 4% P 1 0,037037 4% Total 27 1 1 b) Faça os gráficos de barras e de setores (pizza) para cada uma das variáveis. c) Qual é a moda (maior freqüência) de cada variável? Modas: Masculino, para Sexo; Brancos, para Raça. 2) Eis as notas de Pesquisa de Hábitos de Estudos e Atitudes (PHEA) para 18 alunas do primeiro ano de uma faculdade: 154 109 137 103 126 126 e para 20 alunos do primeiro ano 108 109 (a) 140 132 114 75 91 88 115 137 152 165 180 113 140 165 115 151 154 129 126 70 178 200 92 115 101 148 169 187 146 104 Faça um ramo-e-folhas face-a-face destes dados (faça um ramo único para meninos e meninas, coloque a folhas dos meninos de um lado e das meninas do outro). Escala: 100=10|0 Meninas Meninos 7 05 8 8 9 12 9 3 1 10 4 8 9 5 11 3 4 5 5 9 6 6 12 6 7 7 13 2 8 0 14 0 6 4 4 2 15 1 5 5 16 9 8 17 18 0 7 19 0 20 (b) Ache a média ( ) e a mediana ( ) para ambos os conjuntos de notas PHEA. Que característica da distribuição explica o fato de ser > ? Média Mediana Meninas Meninos 141 121 139 115 Comentário: Para os dois casos (masculino e feminino), pode-se perceber pelo gráfico de ramo-e-folhas uma concentração à esquerda dos dados. (c) Os dados da PHEA para mulheres contém um outlier alto. Calcule a média e a mediana para estes dados, com o outlier e sem ele. Como a remoção do outlier afeta ? Como afeta ? Seus resultados ilustram a maior robustez da mediana. Meninas com todas obs. sem obs. 200 Média 141 138 Mediana 139 137 Comentário: Percebemos que a média é mais afetada por pontos extremos (outliers) do que a mediana. A média foi alterada em 7 pontos, enquanto a mediana em 2. (d) Determine o desvio-padrão (s). Para você trabalhar com valores menores, em cada conjunto de dados, subtraia a média de todos os valores e então calcule a variância e o desvio-padrão. Porque seus cálculos manuais ficaram facilitados? Desvio-padrão (e) Meninas 26,436 Meninos 32,852 Determine o coeficiente de variação (cv) para ambos os conjuntos de notas PHEA. Compare os dois conjuntos de notas quanto à homogeneidade. Meninas Meninos CV 19% 27% Comentário: Pelo coeficiente de variação (CV), percebemos que as notas dos meninos variam do que as das meninas. Isso é refletido pelo gráfico de ramo-e-folhas, onde o gráfico dos meninos é “mais espalhado” que o das meninas. 3) É dado na Fig. 1 o histograma para um conjunto de dados. Qual dos box-plots é consistente com o histograma na descrição da distribuição dos dados. Justifique sua escolha. Fig. 1: Histograma e box-plots Comentário: O nº 3, pois tem uma cauda longa à esquerda (para baixo no Box-Plot vertical). 4) Considere o seguinte conjunto de dados de uma variável numérica: 21 21 21 22 22 23 23 23 24 25 25 25 25 26 26 26 28 30 31 32 33 33 33 34 34 35 35 24 31 36 a) Calcule as medidas de posição (média, moda, mediana, primeiro e terceiro quartil) e dispersão (amplitude, variância, desvio-padrão e CV) para os dados. Média Moda Q1 (1º quartil) Q2 (2º quartil) Q3 (3º quartil) 27,57 Amplitude 25,00 Variância 23,25 Desvio-padrão 26,00 CV 32,75 15,00 24,67 4,97 0,18 b) Faça o histograma, gráfico de ramo e folhas e Box-plot para os dados. Escala: 20=2|0 2 112233344 2 55556668 3 011233344 3 556 Limites 21,0|--23,5 23,5|--26,0 26,0|--28,5 28,5|--31,0 31,0|--33,5 33,5|--36,0 Total Freqüências Absolutas 8 6 4 1 6 5 30 Relativas 0,266667 0,2 0,133333 0,033333 0,2 0,166667 1 Freqüências Acumuladas Absolutas Relativas 8 0,266667 14 0,466667 18 0,6 19 0,633333 25 0,833333 30 1 --- Histograma da variável X 30% Freq. Percentuais 25% 20% 15% 10% 5% 0% 21,0|--23,5 23,5|--26,0 26,0|--28,5 28,5|--31,0 31,0|--33,5 33,5|--36,0 Classes Observação 1: Esse gráfico de Box-Plot foi construído no Excel através de uma rotina disponibilizada pelo Lapponi. Os extremos das linhas horizontais vermelhas indicam os limites de 150% e 300% à esquerda e à direita da caixa. Observação 1: A tabela de frequência para a construção do histograma pode resultar diferente, dependendo do nº de classes e do tamanho das classes. c) Comente também sobre os formatos dos dados (assimetria, posição, variabilidade, modalidade (modas)), além da presença ou não de outliers. Solução: Pelo Box-Plot, vemos que existe uma assimetria positiva (posição da mediana na caixa), com uma variabilidade mediana (vide CV). Pelo histograma, vemos que existem duas classes modais (duas ondas), entre 21 e 23.5 e entre 31 e 33,5. Como indicado no Box-Plot, não existem outliers. Vemos que para esses dados, o gráfico de ramo-e-folhas não foi informativo. d) Para os dados agrupados na tabela de freqüências do histograma, calcule média, moda, mediana, variância e desvio-padrão. Média, mediana, variância e desvio-padrão devem ser próximos das estatísticas dos dados não-agrupados (obtidas no item a)). Solução: Média Moda Mediana 27,75 23 26,63 Variância Desvio-padrão 23,02 4,80 5) Retornamos à questão das notas de Pesquisa de Hábitos de Estudos e Atitudes – PHEA. A Fig. 2 apresenta os Box-plots das notas dos conjuntos de dados referentes às alunas (F) e aos alunos (M) e a todos os estudantes (T). 200 180 Notas 160 140 120 100 80 60 Feminino Masculino Conjuntos Todos Fig. 2: Box-plots dos conjuntos de dados (a) Para cada um dos conjuntos de dados, estime graficamente a mediana, o primeiro e o terceiros quartis e uma medida de dispersão; Solução: Pegar uma régua e fazer uma paralela entre as medidas Q1, Q2 e Q3 com o eixo vertical. Anotar o valor onde a régua passa pelo eixo em cada medição. Quanto à dispersão, dizer apenas se a variabilidade é baixa, média ou alta, a partir da comparação entre comprimento das linhas e tamanho da caixa. Neste caso, a variabilidade do total é mediana, das meninas é mediana e dos meninos é alta. (b) Faça uma breve comparação dos grupos de alunos e alunas. As mulheres, como grupo, têm maiores notas do que os homens? Que grupo de notas se apresenta mais disperso? Solução: Obviamente, os meninos apresentam maior variabilidade (item a). Embora a caixa do Box-plot das meninas se apresente acima dos meninos, existe muita interseção entre elas. Logo, para saber se realmente existe predominância das notas das meninas, somente se fizer um teste estatístico (que veremos até o fim do semestre). 6) A Tabela 1 apresenta algumas informações adicionais sobre esses conjuntos de dados Conjunto (a) Tabela 1: Algumas medidas-resumo dos conjuntos de dados Quantidade. Média Desvio-padrão ( ) (n) (s) CV Alunas (F) 18 141,06 26,44 19% Alunos (M) 20 121,25 32,85 27% Todos os alunos (T) 38 130,63 31,24 24% Utilize o coeficiente de variação (cv) e compare os conjuntos em relação aos resultados obtidos. Qual grupo foi mais homogêneo? Solução: Primeiro, para calcular a média total, basta fazer Xm=(n1*Xm1+n2*Xm2 )/n, onde Xm1 é a média do grupo 1, Xm2 é a média do grupo 2, n1 é o nº de observações do grupo 1 e n2 é o nº de observações do grupo 2. Os resultados já estão na tabela. Assim, o grupo das alunas é mais homogêneo que o dos alunos. (b) Observe a variabilidade dos três conjuntos (F, M e T) e conjecture se o sexo é importante para ajudar a explicar a variação das notas. Solução: Comparando a diferença de médias entre os grupos (20 unidades) e o desviopadrão do total, podemos afirmar que não existe diferença significativa entre os grupos. Mas somente um teste de hipóteses estatístico poderá responder com certeza (estatística!!!). 7) Os dados da tabela abaixo são de Pesos (em Kg) de 50 Homens e 40 Mulheres. a) Construa as medidas-resumo de posição (média, quartis, mínimo e máximo) e de dispersão (distância interquartílica, amplitude, variância, desvio-padrão e coeficiente de variação) para os dados totais (Feminino e Masculino) e separadamente, por Sexo. Média Mínimo Máximo Q1 Q2 Q3 DIQ Amplitude Variância Desvio-padrão CV Masculino Feminino Total 69,94 66,865 68,57333 64 64,1 64 75,6 71,9 75,6 68,63 65,88 66,50 69,9 66,55 68,05 71,5 67,725 70,35 2,875 11,6 6,93 2,63 4% 1,85 7,8 2,36 1,54 2% 3,85 11,6 7,21 2,69 4% b) Faça os gráficos de histograma (freq. Relativa e de densidade), ramo-e-folhas e Boxplot para os dados totais (Feminino e Masculino) e separadamente, por Sexo. Fe minino 15 Masc ulino 12 Count Count 10 8 5 4 0 66 ,0 0 68 ,00 70,0 0 72 ,0 0 Pe so (em Kg) 0 66,00 68,00 70,00 72,00 74,00 66,00 Peso (em Kg) 68,00 70,00 72,00 74,00 Peso (em Kg) 75,00 75 ,0 0 Peso (em Kg) 72,50 Peso (em Kg) 72 ,5 0 70,00 67,50 70 ,0 0 65,00 67 ,5 0 65 ,0 0 Fe min in o Masc ul in o Se xo Escala: 70,5=70|5 Feminino Masculino 6 6 1 64 0 3 7 9 9 8 8 8 8 6 6 5 65 9 9 8 7 6 6 5 5 3 2 1 1 1 0 66 8 9 9 8 7 6 6 4 1 67 1 2 2 2 6 9 5 1 0 68 5 6 7 8 9 9 7 69 0 4 4 5 7 7 7 9 9 9 2 70 0 0 4 6 7 7 8 9 71 0 4 5 5 8 8 72 0 3 4 4 8 8 73 74 1 75 4 6 6 74 ,0 0 c) Interprete os dados, usando os resultados obtidos nos itens a) e b), explicando, se houver, diferenças atribuídas à variável Sexo. Comente também sobre os formatos dos dados (assimetria, posição, variabilidade, modalidade (modas)), além da presença ou não de outliers. Feminino Masculino Comentário: O comportamento da variável por grupos (sexo) é completamente diferente. Embora o grupo feminino apresente menor média, o grupo apresenta menor variabilidade, tem simetria, embora apresente um outlier superior. Já o grupo masculino apresenta assimetria e um outliers inferior. Porém, embora os gráficos sugiram alta variabilidade, o CV de variação tem valor baixo (4%). A variável, no total e por grupos, apresenta unimodalidade. 64,0 64,3 64,7 65,9 66,8 67,1 67,2 67,2 67,2 67,6 67,9 68,5 68,6 68,7 68,8 68,9 68,9 69,0 69,4 69,4 69,5 69,7 69,7 69,7 69,9 69,9 70,0 70,0 70,4 70,6 70,7 70,7 70,8 70,9 71,0 71,4 71,5 71,5 71,8 71,8 72,0 72,3 72,4 72,4 72,8 72,8 74,1 75,4 75,6 75,6 64,1 64,6 64,6 65,5 65,6 65,6 65,8 65,8 65,8 65,8 65,9 65,9 66,0 66,1 66,1 66,1 66,2 66,3 66,5 66,5 66,6 66,6 66,7 66,8 66,9 67,1 67,4 67,6 67,6 67,7 67,8 67,9 67,9 68,0 68,1 68,5 68,8 69,7 70,2 71,9 8) Dados sobre uma amostra de 20 funcionários de uma empresa indivíduo 1 2 Nº de filhos 0 2 Fonte: Dados fictícios 3 3 4 2 5 1 6 4 7 5 8 3 9 6 10 11 12 13 14 15 16 17 18 19 20 7 4 3 2 1 3 5 6 3 2 1 a) Calcule as medidas de posição (média, moda, mediana, primeiro e terceiro quartil) e dispersão (amplitude, variância, desvio-padrão) para os dados. Média Moda Mediana Q1 Q2 Q3 3,15 3 3 2 3 4,25 Amplitude Variância DP 7 3,61 1,90 b) Faça o diagrama de freqüências para os dados.