Análise Exploratória de Dados Aula LiG #12 – 10 de junho de 2006. Objetivos da aula Resolver exercícios do livro-texto com o auxílio do R. 1) Exercício 29 Uma amostra de dez casais e seus respectivos salários anuais (em salários mínimos) foi colhida num certo bairro conforme a tabela a seguir Mulher (X) 5 10 10 5 10 10 15 10 10 15 Homem(Y) 10 10 10 15 15 15 15 20 20 20 1) Exercício 29 (a) Obtenha um sumário para os salários dos homens e das mulheres contendo, média, desvio-padrão, esquema dos cinco números. (b) Construa o diagrama de dispersão dos salários das mulheres versus salários dos homens. (c ) Calcule a correlação entre salários de mulheres e de homens. 1) Exercício 29 (d) Qual é o salário médio familiar? E a variância? (e) Se o homem é descontado 8% e a mulher 6%, qual é o salário líquido anual médio familiar? E a variância? 2) Exercício 26 Muitas vezes a determinação da capacidade de produção instalada para certo tipo de indústria em certas regiões é um processo difícil e custoso. Como alternativa, pode-se estimar a capacidade de produção através da escolha de uma outra variável de medida mais fácil e que esteja linearmente relacionada com ela. 2) Exercício 26 Suponha que foram observados os valores para as variáveis: capacidade de produção instalada, potência instalada e área construída. Com base num critério estatístico, qual das variáveis você escolheria para estimar a capacidade de produção instalada? Por que? 2) Exercício 26 Dados: capacidade (ton.) 4 5 4 5 8 9 10 11 12 12 potência (1000kW) 1 1 2 3 3 5 5 6 6 6 área (100m2) 6 7 10 10 11 9 12 10 11 14 3) Exercício 22 Uma pesquisa para verificar a tendência dos alunos a prosseguir os estudos, segundo a classe social do respondente, mostrou o seguinte quadro: Pretende continuar? sim não Total Alta Média Baixa Total 200 220 380 800 200 280 720 1200 400 500 1100 2000 3) Exercício 22 Pretende continuar? sim não Total Alta Média Baixa Total 200 220 380 800 200 280 720 1200 400 500 1100 2000 a) Você diria que a distribuição de respostas afirmativas é similar à de respostas negativas? b) Existe dependência entre as duas variáveis: classe social e resposta a “pretende continuar os estudos”? Determine uma medida quantitativa da dependência. c) Se dos 400 estudantes da classe alta, 160 escolhessem continuar os estudos e 240 não, você mudaria a sua conclusão? Justifique 4) Exercício 30 O departamento de vendas de certa companhia foi formado há um ano com a admissão de 15 vendedores. Nessa época foram observados para cada um dos vendedores os valores de três variáveis: teste: resultado em um teste apropriado para vendedores; exp: experiência de vendas; concger: conceito do gerente de venda, quanto ao currículo do candidato; 4) Exercício 30 O diretor da companhia resolveu agora ampliar o quadro de vendedores e pede sua colaboração para responder a algumas perguntas. Para isso, ele lhe dá informações adicionais sobre duas variáveis: vendas: volume médio mensal de vendas em salários mínimos; zona: zona da capital para a qual o vendedor foi designado. 4) Exercício 30 Os dados estão armazenas no arquivo exerc30.txt com os nomes das variáveis na primeira linha. Mais especificamente, o diretor pede que as seguintes tarefas sejam realizadas: a) Histograma das vendas em classes de amplitude 10, tendo por limite inferior da primeira classe o valor 15. 4) Exercício 30 b) Média e variância das vendas. c) Suponha que um vendedor seja considerado excepcional se sua venda está acima de dois desvios-padrões da média. Há vendedores excepcionais entre os 15 iniciais? d) O diretor de vendas anunciou que transferirá para outra praça todos os vendedores cujas vendas foram inferior ao primeiro quartil da distribuição. Qual o mínimo de vendas para não ser transferido? 4) Exercício 30 e) Os vendedores argumentam com o diretor que esse critério não é justo, pois há zonas de venda privilegiadas. A quem você daria razão? Justifique a sua resposta. f) Qual das três variáveis iniciais é mais importante para julgar o futuro candidato ao emprego? Justifique. 4) Exercício 30 g) Qual é o grau de associação entre o conceito do gerente e a zona a que o vendedor foi designado? Você tem alguma explicação para esse resultado? h) Qual é o grau de associação entre o conceito do gerente e o resultado no teste? E entre zona e vendas? 5) Exercício 20 Na tabela a seguir, você concluiria que o tipo de atividade está relacionado ao fato de as embarcações serem de propriedade estatal ou particular? Encontre uma medida de dependência entre as variáveis. propriedade estatal particular total ativ. costeira ativ. fluvial 5 92 97 ativ. internacional total 141 51 197 231 48 371 372 99 568 6) Exercício 11 (cap. 15) Deseja-se verificar o efeito do tipo de impermeabilização (i,ii,iii ou iv) em lajes de concreto. As quantidades de água que passaram pela laje, em cada tipo, foram medidas durante um mês, obtendose a seguinte tabela: i ii 56 55 62 59 60 iii 64 61 50 55 56 iv 45 46 45 39 43 42 39 45 43 41 6) Exercício 11 (cap. 15) Você diria que há alguma associação entre o tipo de impermeabilização e a quantidade de água que passa pela laje? Justifique a sua resposta. 7) Exercício 19 (cap. 16) Os dados a seguir correspondem às variáveis renda familiar e gasto com alimentação numa amostra de dez famílias. renda gasto 3 5 10 20 30 50 70 100 150 200 1.5 2 6 10 15 20 25 40 60 80 7) Exercício 19 (cap. 16) Construa o diagrama de dispersão de renda versus gasto com alimentação e calcule a correlação amostral. Obtenha a reta de mínimos quadrados. Estime o gasto com alimentação para uma família de renda 170. 8) Novo medicamento Num estágio do desenvolvimento de uma nova droga para uma alergia, um experimento foi conduzido para estudar o quanto diferentes dosagens do medicamento afeta a duração do alívio dos sintomas da alergia. Dez pacientes foram incluídos no experimento. Cada paciente recebe uma dosagem específica do medicamento e é monitorado. 8) Novo medicamento Os dados estão na tabela abaixo DOSE 3 3 4 5 6 6 7 8 8 9 DURAÇÃO 9 5 12 9 14 16 22 18 24 22 8) Novo medicamento Obtenha o diagrama de dispersão de dose versus duração do alívio. Calcule a correlação. Obtenha a reta de mínimos quadrados. Estime a duração do alívio para uma dose de 7,5. Faça o diagrama de dispersão dos valores ajustados versus resíduos do modelo ajustado. 9) Receitas de pão Três receitas de pão vão ser comparadas com respeito à densidade do pão. Cinco pães foram feitos segundo cada uma das receitas. Os resultados estão na tabela a seguir: receita I II III 0.95 0.71 0.69 observações 0.86 0.71 0.72 0.85 0.62 0.72 0.68 0.51 0.73 0.74 0.64 0.44 9) Receitas de pão Você diria que há alguma associação entre receita e densidade? Obtenha os boxplots das densidades segundos as receitas. Calcule o R2.