Análise Exploratória de
Dados
Aula LiG #12 – 10 de junho de 2006.
Objetivos da aula
Resolver exercícios do livro-texto com o
auxílio do R.
1) Exercício 29
 Uma amostra de dez casais e seus
respectivos salários anuais (em salários
mínimos) foi colhida num certo bairro
conforme a tabela a seguir
Mulher (X) 5 10 10 5 10 10 15 10 10 15
Homem(Y) 10 10 10 15 15 15 15 20 20 20
1) Exercício 29
 (a) Obtenha um sumário para os salários dos
homens e das mulheres contendo, média,
desvio-padrão, esquema dos cinco números.
 (b) Construa o diagrama de dispersão dos
salários das mulheres versus salários dos
homens.
 (c ) Calcule a correlação entre salários de
mulheres e de homens.
1) Exercício 29
 (d) Qual é o salário médio familiar? E a
variância?
 (e) Se o homem é descontado 8% e a mulher
6%, qual é o salário líquido anual médio
familiar? E a variância?
2) Exercício 26
 Muitas vezes a determinação da capacidade
de produção instalada para certo tipo de
indústria em certas regiões é um processo
difícil e custoso. Como alternativa, pode-se
estimar a capacidade de produção através da
escolha de uma outra variável de medida
mais fácil e que esteja linearmente
relacionada com ela.
2) Exercício 26
 Suponha que foram observados os valores
para as variáveis: capacidade de produção
instalada, potência instalada e área
construída. Com base num critério estatístico,
qual das variáveis você escolheria para
estimar a capacidade de produção instalada?
Por que?
2) Exercício 26
Dados:
capacidade (ton.) 4 5 4 5 8 9 10 11 12 12
potência (1000kW) 1 1 2 3 3 5 5 6 6 6
área (100m2)
6 7 10 10 11 9 12 10 11 14
3) Exercício 22
 Uma pesquisa para verificar a tendência dos
alunos a prosseguir os estudos, segundo a
classe social do respondente, mostrou o
seguinte quadro:
Pretende continuar?
sim
não
Total
Alta Média Baixa Total
200
220
380 800
200
280
720 1200
400
500 1100 2000
3) Exercício 22
Pretende continuar?
sim
não
Total
Alta Média Baixa Total
200
220
380 800
200
280
720 1200
400
500 1100 2000
a) Você diria que a distribuição de respostas afirmativas é
similar à de respostas negativas?
b) Existe dependência entre as duas variáveis: classe social e
resposta a “pretende continuar os estudos”? Determine uma
medida quantitativa da dependência.
c) Se dos 400 estudantes da classe alta, 160 escolhessem
continuar os estudos e 240 não, você mudaria a sua
conclusão? Justifique
4) Exercício 30
 O departamento de vendas de certa companhia foi




formado há um ano com a admissão de 15
vendedores.
Nessa época foram observados para cada um dos
vendedores os valores de três variáveis:
teste: resultado em um teste apropriado para
vendedores;
exp: experiência de vendas;
concger: conceito do gerente de venda, quanto ao
currículo do candidato;
4) Exercício 30
 O diretor da companhia resolveu agora
ampliar o quadro de vendedores e pede sua
colaboração para responder a algumas
perguntas.
 Para isso, ele lhe dá informações adicionais
sobre duas variáveis:
 vendas: volume médio mensal de vendas em
salários mínimos;
 zona: zona da capital para a qual o vendedor
foi designado.
4) Exercício 30
 Os dados estão armazenas no arquivo exerc30.txt
com os nomes das variáveis na primeira linha.
 Mais especificamente, o diretor pede que as
seguintes tarefas sejam realizadas:
 a) Histograma das vendas em classes de amplitude
10, tendo por limite inferior da primeira classe o valor
15.
4) Exercício 30
 b) Média e variância das vendas.
 c) Suponha que um vendedor seja
considerado excepcional se sua venda está
acima de dois desvios-padrões da média. Há
vendedores excepcionais entre os 15
iniciais?
 d) O diretor de vendas anunciou que
transferirá para outra praça todos os
vendedores cujas vendas foram inferior ao
primeiro quartil da distribuição. Qual o
mínimo de vendas para não ser transferido?
4) Exercício 30
 e) Os vendedores argumentam com o diretor que
esse critério não é justo, pois há zonas de venda
privilegiadas. A quem você daria razão? Justifique a
sua resposta.
 f) Qual das três variáveis iniciais é mais importante
para julgar o futuro candidato ao emprego?
Justifique.
4) Exercício 30
 g) Qual é o grau de associação entre o conceito do
gerente e a zona a que o vendedor foi designado?
Você tem alguma explicação para esse resultado?
 h) Qual é o grau de associação entre o conceito do
gerente e o resultado no teste? E entre zona e
vendas?
5) Exercício 20
 Na tabela a seguir, você concluiria que o tipo
de atividade está relacionado ao fato de as
embarcações serem de propriedade estatal
ou particular? Encontre uma medida de
dependência entre as variáveis.
propriedade
estatal
particular
total
ativ. costeira
ativ. fluvial
5
92
97
ativ. internacional total
141
51 197
231
48 371
372
99 568
6) Exercício 11 (cap. 15)
 Deseja-se verificar o efeito do tipo de
impermeabilização (i,ii,iii ou iv) em lajes de concreto.
As quantidades de água que passaram pela laje, em
cada tipo, foram medidas durante um mês, obtendose a seguinte tabela:
i
ii
56
55
62
59
60
iii
64
61
50
55
56
iv
45
46
45
39
43
42
39
45
43
41
6) Exercício 11 (cap. 15)
 Você diria que há alguma associação entre o tipo de
impermeabilização e a quantidade de água que
passa pela laje? Justifique a sua resposta.
7) Exercício 19 (cap. 16)
 Os dados a seguir correspondem às
variáveis renda familiar e gasto com
alimentação numa amostra de dez famílias.
renda
gasto
3
5
10
20
30
50
70
100
150
200
1.5
2
6
10
15
20
25
40
60
80
7) Exercício 19 (cap. 16)
 Construa o diagrama de dispersão de renda
versus gasto com alimentação e calcule a
correlação amostral.
 Obtenha a reta de mínimos quadrados.
 Estime o gasto com alimentação para uma
família de renda 170.
8) Novo medicamento
 Num estágio do desenvolvimento de uma
nova droga para uma alergia, um
experimento foi conduzido para estudar o
quanto diferentes dosagens do medicamento
afeta a duração do alívio dos sintomas da
alergia.
 Dez pacientes foram incluídos no
experimento. Cada paciente recebe uma
dosagem específica do medicamento e é
monitorado.
8) Novo medicamento
 Os dados estão na tabela abaixo
DOSE
3
3
4
5
6
6
7
8
8
9
DURAÇÃO
9
5
12
9
14
16
22
18
24
22
8) Novo medicamento
Obtenha o diagrama de dispersão de dose
versus duração do alívio.
Calcule a correlação.
Obtenha a reta de mínimos quadrados.
Estime a duração do alívio para uma
dose de 7,5.
Faça o diagrama de dispersão dos valores
ajustados versus resíduos do modelo ajustado.
9) Receitas de pão
 Três receitas de pão vão ser comparadas
com respeito à densidade do pão. Cinco
pães foram feitos segundo cada uma das
receitas. Os resultados estão na tabela a
seguir:
receita
I
II
III
0.95
0.71
0.69
observações
0.86 0.71 0.72
0.85 0.62 0.72
0.68 0.51 0.73
0.74
0.64
0.44
9) Receitas de pão
 Você diria que há alguma associação entre receita e
densidade?
Obtenha os boxplots das densidades
segundos as receitas.
Calcule o R2.
Download

Análise Exploratória de Dados