Universidade Estadual de Santa Cruz - UESC Departamento de Ciências Exatas e Tecnológicas - DCET CET083 - Probabilidade e Estatı́stica Curso de Ciência da Computação Prof. José Cláudio Faria Prova Prática Pontuação total: 10 Prazo: 21/05/2015 - 02/06/2015 Nome: Matrı́cula: Considere os dados gerados pela função geradora de dados (gerar.dados v6.R, disponı́vel na página da disciplina), como uma amostra aleatória estratificada dos usuários de determinado portal, coletada no banco de dados do sistema de controle de acesso e informações sobre os usuários. As variáveis aleatórias são: Tempo (h.mês−1 ), Renda (mil reais) e Sexo. Ou seja, o tempo médio (horas por mês) que os usuários utilizaram o portal ao longo de um ano, as respectivas rendas anuais (mil reais) e o sexo. Considere que os dados são fictı́cios e tem finalidades exclusivamente didáticas para fins de avaliação prática em análise de dados. Realizar a análise exploratória dos dados com respostas às seguintes questões: 1 Análise exploratória univariada dos dados: apresentações tabulares e gráficas (3.0) 1.1 Tempo e Renda (1.5) Observação1 1. (0.5) Diagrama de caixa (box plot) antes e após a eliminação de possı́veis outliers; 2. (0.5) Uma apresentação tabular contendo apenas as freqüências: absoluta (Fi), relativa (Fr, %) e acumulada (Fac, %), nessa ordem; 3. (0.5) Histograma e o polı́gono de freqüência acumulada dos dados. 1.2 Tempo e Renda (1.5) Observação2 : 1. (0.5) Diagrama de caixa (box plot); 2. (0.5) Uma apresentação tabular contendo apenas as freqüências: absoluta (Fi), relativa (Fr, %) e acumulada (Fac, %), nessa ordem; 3. (0.5) Histograma e o polı́gono de freqüência acumulada dos dados. 1 Não 2 Para distinguindo sexo cada sexo: M seguido de F 2 Análise exploratória univariada dos dados: medidas estatı́sticas (3.0) Para as variáveis Tempo e Renda elaborar3 apresentações tabulares contendo as seguintes estimativas: 1. (1.0) Tendência central: Média e mediana; 2. (1.0) Posição: Quartis e decis; 3. (1.0) Dispersão: Amplitude total, variância, desvio padrão e coeficiente de variação. 3 Análise exploratória bivariada dos dados: medidas estatı́sticas de associação (3.0) Observação4 . 1. (1.0) Estimativas: Covariância e correlação linear simples; 2. (1.0) Diagramas de dispersão dos dados5 ; 3. (1.0) Um estudo semelhante foi realizado em um outro site, por outras pessoas. Contudo, as unidades de medida usadas foram: Tempo (m.mês−1 ) e Renda (reais), ou seja, tempo total, em minutos, que os usuários utilizaram o portal em um mês e a renda em dolar. Para comparar associações entre as variáveis de ambos os estudos, qual seria a medida estatı́stica recomendada? Justifique. 4 Contextualização (1.0) Localize um artigo cientı́fico (periódico Qualis A ou B) em área de seu interesse no qual a análise exploratória de dados (AED) teve papel preponderante. Discuta o artigo com ^ enfase nos recursos da AED usados e na adequaç~ ao das normas básicas das apresentaç~ oes gráficas e tabulares adotada pelo periódico. Anexe uma cópia do artigo ao final da prova. Observações: • As normas para apresentações gráficas e tabulares são obrigatórias. Serão rigorosamente observadas e corrigidas. • Cada hora de atrazo na entrega da avaliação implica na perda de 25%. Portanto, após 4 horas não vale a pena entregar. • Sugere-se (mas não é obrigatório) o uso do ambiente R na resolução. • Para possibilitar a correção, anexe esta prova devidamente preenchida na primeira página das respostas. 3 Para cada sexo: M seguido de F cada sexo: M seguido de F 5 Considere Renda no eixo das ordenadas e Tempo no eixo das abscissas 4 Para