DISCIPLINA: ANÁLISE EXPLORATÓRIA DE DADOS PROF. LUIZ MEDEIROS DE ARAUJO LIMA FILHO 3ª LISTA DE EXERCÍCIOS QUESTÃO 01 A partir de uma amostra de 200 observações da idade das crianças de uma comunidade foi construída a Ogiva percentual decrescente a seguir apresentada. Obtenha a tabela de distribuição de frequências e faça um histograma e polígono de frequências da mesma. Calcule a média, moda, mediana, variância, desvio padrão, coeficiente de variação, assimetria, curtose, 2º quartil, 9º decil e 85º percentil. % Ogiva percentual decrescente 100 80 60 40 20 0 100 80 40 30 10 0 2 4 6 8 0 10 notas QUESTÃO 02 Considere que um hotel seleciona uma amostra de 200 turistas americanos e 100 turistas europeus, e pretende fazer um estudo referente ao gasto que os mesmos tiveram no hotel quando participaram de um evento no Brasil. Os resultados da pesquisa estão fornecidos na tabela a seguir. Gastos (R$1000,00) Americanos Europeus 1 | 3 10 30 3 | 5 40 50 5 | 7 80 15 7 | 9 50 5 9 | 11 20 0 200 100 Total a) Construa o histograma das duas distribuições; b) Com base nos histogramas e calculando pelo menos duas medidas de posição e duas medidas de dispersão, discuta e compare os dois tipos de turistas. c) Determine o 1º Quartil, o 7º Decil e o 40º Percentil. d) Calcule a assimetria e curtose. Classifique a distribuição baseado nesses valores. QUESTÃO 03 Escreva um texto analítico descritivo a partir dos três gráficos e da Tabela que estão a seguir inseridos. Os dados se referem a uma amostra de 391.868 pessoas da PNAD- Pesquisa Nacional por Amostra de Domicílio, realizada pelo IBGE no ano de 2008. Comente uma possível relação entre os dados apresentados. Com as informações da Tabela 1, refaça todas as letras da questão anterior. Tabela 1 - Valores da renda mensal, segundo estados da federação- Brasil, 2008 (Valores em R$)(1) Renda pessoal Renda domiciliar Renda per capita Estado Media Desvio padrão Media Desvio padrão Media Desvio padrão Rondônia 555 1059 1634 1911 459 634 Acre 517 1130 1541 2229 401 662 Amazonas 498 957 1779 1895 391 549 Roraima 592 1247 1788 2683 459 666 Pará 514 1026 1660 2087 415 604 Amapá 478 850 1442 1560 368 442 Tocantins 571 1289 1654 2352 464 783 Maranhão 369 775 1194 1543 292 450 Piauí 440 1137 1392 2363 361 666 Ceará 477 1161 1505 2425 399 702 Rio Grande do Norte 500 1125 1575 2360 419 791 Paraíba 480 1207 1415 2308 399 829 Pernambuco 498 1561 1482 2542 416 1220 Alagoas 402 990 1181 1944 318 610 Sergipe 474 958 1470 1876 390 606 Bahia 509 1259 1524 2571 427 800 Minas Gerais 697 1555 2036 2715 596 1017 Espírito Santo 685 1320 1952 2367 585 887 Rio de Janeiro 858 1650 2365 3026 759 1125 São Paulo 902 1813 2589 3223 779 1227 Paraná 846 1639 2387 2880 721 1023 Santa Catarina 887 1602 2527 2831 Rio Grande do Sul 885 1658 2359 2967 Mato Grosso do Sul 729 1502 2101 2739 Mato Grosso 752 2065 2241 4261 Goiás 706 1452 2009 2573 Distrito Federal 1461 3482 4274 6831 Brasil 691 1574 2003 2940 Fonte: IBGE/PNAD-2008 (1) O valor do salário mínimo no Brasil , na época, era de R$415,00 766 763 612 636 593 1235 581 1018 1144 917 1153 917 2265 1039 QUESTÃO 04 Classifique e faça uma representação gráfica adequada de cada uma das séries abaixo: a) Área(milhões de Km2) dos oceanos Oceano área Antártico 36,8 Ártico 23,2 Atlântico 199,4 Índico 137,0\9 Pacífico 342,7 b) Temperatura média em Garanhuns, PE , durante os meses do ano 2002 meses °C j 28 f 29 m 27 a 24 m 20 j 19 j 18 a 21 s 22 o 24 n 28 d 30 c) Distribuição dos estudantes da UFPB por turno e estado civil, 2003 ( valores em 1000) Turno Diurno Noturno solteiro 12,5 3,6 Estado civil casado 2,3 0,9 outro 0,2 0,5 QUESTÃO 05 Inicie uma pesquisa, por conta própria dos seguintes softwares: a) R b) SPSS Sugestão: A ideia desta questão é pesquisar apostilas, manuais, que ensinem como utilizar estes softwares. Comece um estudo sobre o uso destes softwares, pois os mesmos serão exigidos ao longo da disciplina. QUESTÃO 06 Complete as informações da distribuição de frequências abaixo sabendo que foram feitas 200 observações da idade das pessoas de uma comunidade, com intervalos que possuem amplitude igual a 8. Intervalos fi Total fri (%) Freq Acumulada Cresc. Decresc. 10 Freq Acumulada % Cresc. Decresc. 170 Ponto Médio 12 X X - - 80 30 - - - OBSERVAÇÃO: “X” indica que as freqüências nesses dois intervalos são iguais QUESTÃO 07: Considere seu banco de dados familiar. Considerando as variáveis PESO, ALTURA e IMC, responda o que se pede. a) b) c) d) e) f) g) h) i) j) k) Calcule as médias aritmética, harmônica e geométrica dessas variáveis. Calcule o desvio padrão dessas variáveis. Calcule o primeiro, segundo e terceiro quartil dessas variáveis. Considerando agora os grupos definidos pela variável SEXO, calcule as médias aritmética, geométrica e harmônica dessas variáveis. Com base no item (c), calcule o desvio padrão dessas variáveis. Calcule o primeiro, segundo e terceiro quartil das variáveis para cada grupo. Qual grupo é mais homogêneo em relação à variável ALTURA? Por quê? Qual grupo é mais homogêneo em relação à variável PESO? Por quê? Qual grupo é mais homogêneo em relação à variável IMC? Por quê? Qual a sua interpretação a respeito da representatividade das médias aritmética, geométrica e harmônica? Alguma destas é menos afetada pela dispersão dos dados? Por quê? Faça comentários gerais sobre todos os resultados que você obteu. QUESTÃO 08: Considere a distribuição de frequências relativas das notas de 50 alunos da disciplina Estatística Descritiva e Documentária no primeiro semestre de 2011: Notas % 0,0 ├ 2,0 20 2,0 ├ 4,0 15 4,0 ├ 6,0 50 6,0 ├ 8,0 10 8,0 ├ 10,0 5 Total 100 a) Faça a representação gráfica das Ogivas percentual decrescente e crescente. b) c) d) e) f) g) h) i) j) Calcule a nota média Calcule a nota mediana Calcule a nota modal através das 4 fórmulas apresentadas em sala. Calcule o quartil 3, o decil 10 e o percentil 57. Construa o histograma da distribuição de notas Calcule o desvio médio das notas Calcule a variância das notas Calcule o desvio padrão de notas Considerando APENAS o histograma obtido no item (d), encontre o valor da mediana. Compare com o valor que você encontrou no item (c). Qual é a sua conclusão? k) Como você poderia encontrar o valor da média harmônica e da média geométrica com os dados desta tabela? Explique. l) Faça uma interpretação geral de todos os resultados que você obteve nesta questão. QUESTÃO 09: Os dados a seguir representam o número de dias de radioterapia recebida por 24 pacientes o sexo do paciente (1, se masculino e 0, se feminino). A variável resposta representa a ausência (1) ou a presença (0) da doença após 3 anos. Dias 21 24 25 26 28 31 33 34 35 37 43 49 51 25 29 43 44 46 46 51 55 56 50 55 sexo 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 resposta 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 a) Faça uma completa análise descritiva deste conjunto de observações. b) Existe associação entre a variável sexo e a presença ou não da doença? Justifique sua resposta QUESTÃO 10: Considerando seu banco de dados familiares (Questão 8 – Lista 1), escolha duas variáveis quantitativas e faça o que se pede: a) Calcule média, mediana, moda, variância, desvio padrão e coeficiente de variação das variáveis escolhidas. Comente. b) Calcule os coeficientes de assimetria e curtose das variáveis escolhidas. Comente. c) Construa um gráfico do tipo BoxPlot para cada uma das variáveis escolhidas. Comente. d) Construa um gráfico de dispersão para as variáveis escolhidas. e) Ajuste um modelo de regressão linear simples. Comente os resultados obtidos. f) Qual a sua conclusão sobre o modelo ajustado? g) É possível associar a qualidade do ajuste ao valor obtido do coeficiente de correlação? Justifique todas as suas respostas. h) Refaça todos os itens anteriores considerando a distribuição de frequência construída na questão 8 da Lista 2. i) Construa um gráfico adequado para cada variável estudada. QUESTÃO 11 Sabe-se que um artigo de produção está sob controle se seu peso estiver dentro da faixa X − 1,64 × S e X + 1,64 × S , onde X é a média amostral, S é o desvio-padrão da n n amostra e n o tamanho da amostra. Sete artigos da produção foram selecionados para verificação do controle da produção quanto à variável peso. Desta amostra foram anotados os seguintes pesos (Kg): X i (Kg): 8,4 6,4 10,8 8,2 7,4 9,1 4,3 Quais os limites de controle para os dados acima? QUESTÃO 12 Considere que o aluno estude Estatística de forma suficiente se forem satisfeitas as duas seguintes condições: (i) tempo médio semanal de estudo superior a 10 horas; (ii) variabilidade relativa do tempo semanal de estudo inferior a 20%. Os dados a seguir representam o tempo gasto semanalmente por certo aluno com o estudo de Estatística durante 5 semanas consecutivas. X i : tempo de estudo (em 6 horas): 12 O aluno indicado estuda Estatística de forma suficiente? Por quê? 8 11 15 QUESTÃO 13 Foram realizadas 10 observações relativas ao tempo de fabricação de um produto por duas equipes, trabalhando em idênticas condições. Os valores obtidos foram(em minutos): Equipes A B Tempos observados 40 38 27 25 38 27 29 37 44 43 37 30 29 28 39 28 34 29 43 39 a) Qual equipe tem o melhor tempo de fabricação. Conclua baseado nas medidas de posição. b) Compare a regularidade (em termos de dispersão) nos tempos de fabricação do produto pelas duas equipes. c) Foi estabelecida uma remuneração extra para a equipe em que a frequência dos tempos observados superiores a 30 min seja, no máximo, 50%. Verifique se as duas equipes ganharam essa remuneração. Por quê? QUESTÃO 14: Analisando os dados de uma amostra de 10 profissionais de nível universitário quanto ao gasto mensal com telefonia X (em milhares de reais) e a remuneração mensal Y (em milhares de reais), obteve-se os seguintes valores: ∑Y= 29,6; ∑X=2,08; ∑X2 =0,6714; ∑XY=10,025. Ajuste um modelo de regressão linear e estime a renda para um profissional que gasta R$250,00 com telefonia. QUESTÃO 15: Ajuste um modelo de regressão linear para estimar o valor da produção de grãos na Paraíba no ano de 2011, a partir das informações do quadro abaixo. É possível apresentar algum gráfico com as informações apresentadas e com a estimativa calculada? O que é possível falar a respeito da variação da produção? Ano 2004 Produção(10000R$) 3,5 2005 4,5 2006 6,0 2007 6,8 2008 7,2 2009 7,0 2010 7,9 2012 8,3 QUESTÃO 16 Que interpretação você daria se soubesse que a correlação entre o número de acidentes de automóvel por ano e a idade do motorista é r = -0,60? QUESTÃO 17 Uma empresa através do departamento de Finanças informa o total das vendas e as despesas (abaixo) com propaganda. Supondo a existência de uma relação linear entre as variáveis: a) Determine o coeficiente de correlação entre as variáveis, interpretando-o. b) Estime a função que relaciona o total das vendas com as despesas. (Valores em R$1000,00) VENDAS (Y) DESPESAS (X) 109 2,6 181 6,4 230 10 130 5 170 8,1 265 13 141 7 107 5,5 206 11 QUESTÃO 18 A tabela abaixo indica o aluguel (Unidades Monetárias) e a idade (anos) de 5 Apartamentos.: Idade 10 13 5 7 20 Aluguel 4 3 6 5 2 a) Calcule o coeficiente de correlação linear de Pearson. b) Ajuste, pelo Método dos Mínimos Quadrados (MMQ), a reta de regressão do aluguel como função da idade. Interprete os coeficientes da regressão. QUESTÃO 19 Um administrador de uma grande sorveteria anotou por um longo período de tempo a temperatura média diária, em °C (X), e o volume de vendas diárias de sorvete, em kg (Y). Com os dados, foi ajustada a seguinte equação de regressão: Y = 0,5 + 1,8X, com R2 = 0,80. a) Qual é o consumo esperado de sorvete num dia de 27 °C? b) Qual é o incremento esperado nas vendas de sorvete a cada 1 °C de aumento da temperatura? QUESTÃO 20 O número de faltas e as notas de 7 alunos estão apresentados a seguir. Faltas Notas 1 10 2 7 3 9 4 5 6 6 8 3 10 2 a) Calcule o coeficiente de correlação linear. b) É possível verificar que as notas e as faltas tendem a variar inversamente? QUESTÃO 21 Verifique se existe associação entre a variável opinião sobre pena de morte e sexo. Considere o nível de significância de 5%. Pena de Morte A FAVOR CONTRA Masc. 25 7 Fem. 5 19 Sexo Fonte: Dados Fictícios QUESTÃO 22 É possível afirmar que os homens e mulheres possuem a mesma opinião em relação ao aborto? Considere α=0,01. Aborto A FAVOR CONTRA Masc. 28 68 Fem. 14 81 Sexo Fonte: Dados Fictícios QUESTÃO 23 Construa tabelas de contingência combinando as variáveis Fuma, Assiste novela e Pratica atividade física (Questão 8 – Lista 1). Verifique se existe associação entre essas variáveis a um nível de significância de 1% e 10%. Complemente a amostra para 30 pessoas.