DISCIPLINA: ANÁLISE EXPLORATÓRIA DE DADOS
PROF. LUIZ MEDEIROS DE ARAUJO LIMA FILHO
3ª LISTA DE EXERCÍCIOS
QUESTÃO 01 A partir de uma amostra de 200 observações da idade das crianças de uma comunidade
foi construída a Ogiva percentual decrescente a seguir apresentada. Obtenha a tabela de distribuição
de frequências e faça um histograma e polígono de frequências da mesma. Calcule a média, moda,
mediana, variância, desvio padrão, coeficiente de variação, assimetria, curtose, 2º quartil, 9º decil e
85º percentil.
%
Ogiva percentual decrescente
100
80
60
40
20
0
100
80
40
30
10
0
2
4
6
8
0
10
notas
QUESTÃO 02 Considere que um hotel seleciona uma amostra de 200 turistas americanos e 100
turistas europeus, e pretende fazer um estudo referente ao gasto que os mesmos tiveram no hotel
quando participaram de um evento no Brasil. Os resultados da pesquisa estão fornecidos na tabela a
seguir.
Gastos (R$1000,00)
Americanos
Europeus
1 | 3
10
30
3 | 5
40
50
5 | 7
80
15
7 | 9
50
5
9 | 11
20
0
200
100
Total
a) Construa o histograma das duas distribuições;
b) Com base nos histogramas e calculando pelo menos duas medidas de posição e duas medidas
de dispersão, discuta e compare os dois tipos de turistas.
c) Determine o 1º Quartil, o 7º Decil e o 40º Percentil.
d) Calcule a assimetria e curtose. Classifique a distribuição baseado nesses valores.
QUESTÃO 03 Escreva um texto analítico descritivo a partir dos três gráficos e da Tabela que estão a
seguir inseridos. Os dados se referem a uma amostra de 391.868 pessoas da PNAD- Pesquisa Nacional
por Amostra de Domicílio, realizada pelo IBGE no ano de 2008. Comente uma possível relação entre
os dados apresentados. Com as informações da Tabela 1, refaça todas as letras da questão anterior.
Tabela 1 - Valores da renda mensal, segundo estados da federação- Brasil, 2008
(Valores em R$)(1)
Renda pessoal
Renda domiciliar
Renda per capita
Estado
Media Desvio padrão Media Desvio padrão Media Desvio padrão
Rondônia
555
1059
1634
1911
459
634
Acre
517
1130
1541
2229
401
662
Amazonas
498
957
1779
1895
391
549
Roraima
592
1247
1788
2683
459
666
Pará
514
1026
1660
2087
415
604
Amapá
478
850
1442
1560
368
442
Tocantins
571
1289
1654
2352
464
783
Maranhão
369
775
1194
1543
292
450
Piauí
440
1137
1392
2363
361
666
Ceará
477
1161
1505
2425
399
702
Rio Grande do Norte
500
1125
1575
2360
419
791
Paraíba
480
1207
1415
2308
399
829
Pernambuco
498
1561
1482
2542
416
1220
Alagoas
402
990
1181
1944
318
610
Sergipe
474
958
1470
1876
390
606
Bahia
509
1259
1524
2571
427
800
Minas Gerais
697
1555
2036
2715
596
1017
Espírito Santo
685
1320
1952
2367
585
887
Rio de Janeiro
858
1650
2365
3026
759
1125
São Paulo
902
1813
2589
3223
779
1227
Paraná
846
1639
2387
2880
721
1023
Santa Catarina
887
1602
2527
2831
Rio Grande do Sul
885
1658
2359
2967
Mato Grosso do Sul
729
1502
2101
2739
Mato Grosso
752
2065
2241
4261
Goiás
706
1452
2009
2573
Distrito Federal
1461
3482
4274
6831
Brasil
691
1574
2003
2940
Fonte: IBGE/PNAD-2008
(1) O valor do salário mínimo no Brasil , na época, era de R$415,00
766
763
612
636
593
1235
581
1018
1144
917
1153
917
2265
1039
QUESTÃO 04 Classifique e faça uma representação gráfica adequada de cada uma das séries abaixo:
a) Área(milhões de Km2) dos oceanos
Oceano
área
Antártico
36,8
Ártico
23,2
Atlântico
199,4
Índico
137,0\9
Pacífico
342,7
b) Temperatura média em Garanhuns, PE , durante os meses do ano 2002
meses
°C
j
28
f
29
m
27
a
24
m
20
j
19
j
18
a
21
s
22
o
24
n
28
d
30
c) Distribuição dos estudantes da UFPB por turno e estado civil, 2003
( valores em 1000)
Turno
Diurno
Noturno
solteiro
12,5
3,6
Estado civil
casado
2,3
0,9
outro
0,2
0,5
QUESTÃO 05 Inicie uma pesquisa, por conta própria dos seguintes softwares:
a) R
b) SPSS
Sugestão: A ideia desta questão é pesquisar apostilas, manuais, que ensinem como utilizar estes
softwares. Comece um estudo sobre o uso destes softwares, pois os mesmos serão exigidos ao longo
da disciplina.
QUESTÃO 06 Complete as informações da distribuição de frequências abaixo sabendo que foram
feitas 200 observações da idade das pessoas de uma comunidade, com intervalos que possuem
amplitude igual a 8.
Intervalos fi






Total
fri (%)
Freq Acumulada
Cresc.
Decresc.
10
Freq Acumulada %
Cresc.
Decresc.
170
Ponto
Médio
12
X
X
-
-
80
30
-
-
-
OBSERVAÇÃO: “X” indica que as freqüências nesses dois intervalos são iguais
QUESTÃO 07: Considere seu banco de dados familiar. Considerando as variáveis PESO, ALTURA e IMC,
responda o que se pede.
a)
b)
c)
d)
e)
f)
g)
h)
i)
j)
k)
Calcule as médias aritmética, harmônica e geométrica dessas variáveis.
Calcule o desvio padrão dessas variáveis.
Calcule o primeiro, segundo e terceiro quartil dessas variáveis.
Considerando agora os grupos definidos pela variável SEXO, calcule as médias aritmética,
geométrica e harmônica dessas variáveis.
Com base no item (c), calcule o desvio padrão dessas variáveis.
Calcule o primeiro, segundo e terceiro quartil das variáveis para cada grupo.
Qual grupo é mais homogêneo em relação à variável ALTURA? Por quê?
Qual grupo é mais homogêneo em relação à variável PESO? Por quê?
Qual grupo é mais homogêneo em relação à variável IMC? Por quê?
Qual a sua interpretação a respeito da representatividade das médias aritmética, geométrica e
harmônica? Alguma destas é menos afetada pela dispersão dos dados? Por quê?
Faça comentários gerais sobre todos os resultados que você obteu.
QUESTÃO 08: Considere a distribuição de frequências relativas das notas de 50 alunos da disciplina
Estatística Descritiva e Documentária no primeiro semestre de 2011:
Notas
%
0,0 ├ 2,0
20
2,0 ├ 4,0
15
4,0 ├ 6,0
50
6,0 ├ 8,0
10
8,0 ├ 10,0
5
Total
100
a) Faça a representação gráfica das Ogivas percentual decrescente e crescente.
b)
c)
d)
e)
f)
g)
h)
i)
j)
Calcule a nota média
Calcule a nota mediana
Calcule a nota modal através das 4 fórmulas apresentadas em sala.
Calcule o quartil 3, o decil 10 e o percentil 57.
Construa o histograma da distribuição de notas
Calcule o desvio médio das notas
Calcule a variância das notas
Calcule o desvio padrão de notas
Considerando APENAS o histograma obtido no item (d), encontre o valor da mediana.
Compare com o valor que você encontrou no item (c). Qual é a sua conclusão?
k) Como você poderia encontrar o valor da média harmônica e da média geométrica com os
dados desta tabela? Explique.
l) Faça uma interpretação geral de todos os resultados que você obteve nesta questão.
QUESTÃO 09: Os dados a seguir representam o número de dias de radioterapia recebida por 24
pacientes o sexo do paciente (1, se masculino e 0, se feminino). A variável resposta representa a
ausência (1) ou a presença (0) da doença após 3 anos.
Dias
21
24
25
26
28
31
33
34
35
37
43
49
51
25
29
43
44
46
46
51
55
56
50
55
sexo
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
resposta
1
1
1
1
1
1
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
a) Faça uma completa análise descritiva deste conjunto de observações.
b) Existe associação entre a variável sexo e a presença ou não da doença? Justifique sua resposta
QUESTÃO 10: Considerando seu banco de dados familiares (Questão 8 – Lista 1), escolha duas
variáveis quantitativas e faça o que se pede:
a) Calcule média, mediana, moda, variância, desvio padrão e coeficiente de variação das
variáveis escolhidas. Comente.
b) Calcule os coeficientes de assimetria e curtose das variáveis escolhidas. Comente.
c) Construa um gráfico do tipo BoxPlot para cada uma das variáveis escolhidas. Comente.
d) Construa um gráfico de dispersão para as variáveis escolhidas.
e) Ajuste um modelo de regressão linear simples. Comente os resultados obtidos.
f) Qual a sua conclusão sobre o modelo ajustado?
g) É possível associar a qualidade do ajuste ao valor obtido do coeficiente de correlação?
Justifique todas as suas respostas.
h) Refaça todos os itens anteriores considerando a distribuição de frequência construída na
questão 8 da Lista 2.
i) Construa um gráfico adequado para cada variável estudada.
QUESTÃO 11 Sabe-se que um artigo de produção está sob controle se seu peso estiver dentro da faixa
 X − 1,64 × S
 e  X + 1,64 × S
 , onde X é a média amostral, S é o desvio-padrão da




n
n


amostra e n o tamanho da amostra. Sete artigos da produção foram selecionados para verificação do
controle da produção quanto à variável peso. Desta amostra foram anotados os seguintes pesos (Kg):
X i (Kg):
8,4
6,4
10,8
8,2
7,4
9,1
4,3
Quais os limites de controle para os dados acima?
QUESTÃO 12 Considere que o aluno estude Estatística de forma suficiente se forem satisfeitas as duas
seguintes condições:
(i) tempo médio semanal de estudo superior a 10 horas;
(ii) variabilidade relativa do tempo semanal de estudo inferior a 20%.
Os dados a seguir representam o tempo gasto semanalmente por certo aluno com o estudo de
Estatística durante 5 semanas consecutivas.
X i : tempo de estudo (em 6
horas):
12
O aluno indicado estuda Estatística de forma suficiente? Por quê?
8
11
15
QUESTÃO 13 Foram realizadas 10 observações relativas ao tempo de fabricação de um produto por
duas equipes, trabalhando em idênticas condições. Os valores obtidos foram(em minutos):
Equipes
A
B
Tempos observados
40 38 27 25 38
27 29 37 44 43
37
30
29
28
39
28
34
29
43
39
a) Qual equipe tem o melhor tempo de fabricação. Conclua baseado nas medidas de posição.
b) Compare a regularidade (em termos de dispersão) nos tempos de fabricação do produto pelas
duas equipes.
c) Foi estabelecida uma remuneração extra para a equipe em que a frequência dos tempos
observados superiores a 30 min seja, no máximo, 50%. Verifique se as duas equipes ganharam essa
remuneração. Por quê?
QUESTÃO 14: Analisando os dados de uma amostra de 10 profissionais de nível universitário quanto
ao gasto mensal com telefonia X (em milhares de reais) e a remuneração mensal Y (em milhares de
reais), obteve-se os seguintes valores: ∑Y= 29,6; ∑X=2,08; ∑X2 =0,6714; ∑XY=10,025. Ajuste um
modelo de regressão linear e estime a renda para um profissional que gasta R$250,00 com telefonia.
QUESTÃO 15: Ajuste um modelo de regressão linear para estimar o valor da produção de grãos na
Paraíba no ano de 2011, a partir das informações do quadro abaixo. É possível apresentar algum
gráfico com as informações apresentadas e com a estimativa calculada? O que é possível falar a
respeito da variação da produção?
Ano
2004
Produção(10000R$) 3,5
2005
4,5
2006
6,0
2007
6,8
2008
7,2
2009
7,0
2010
7,9
2012
8,3
QUESTÃO 16 Que interpretação você daria se soubesse que a correlação entre o número de acidentes
de automóvel por ano e a idade do motorista é r = -0,60?
QUESTÃO 17 Uma empresa através do departamento de Finanças informa o total das vendas e as
despesas (abaixo) com propaganda. Supondo a existência de uma relação linear entre as variáveis:
a) Determine o coeficiente de correlação entre as variáveis, interpretando-o.
b) Estime a função que relaciona o total das vendas com as despesas. (Valores em R$1000,00)
VENDAS (Y)
DESPESAS (X)
109
2,6
181
6,4
230
10
130
5
170
8,1
265
13
141
7
107
5,5
206
11
QUESTÃO 18 A tabela abaixo indica o aluguel (Unidades Monetárias) e a idade (anos) de 5
Apartamentos.:
Idade
10
13
5
7
20
Aluguel
4
3
6
5
2
a) Calcule o coeficiente de correlação linear de Pearson.
b) Ajuste, pelo Método dos Mínimos Quadrados (MMQ), a reta de regressão do aluguel como
função da idade. Interprete os coeficientes da regressão.
QUESTÃO 19 Um administrador de uma grande sorveteria anotou por um longo período de tempo a
temperatura média diária, em °C (X), e o volume de vendas diárias de sorvete, em kg (Y). Com os
dados, foi ajustada a seguinte equação de regressão:
Y = 0,5 + 1,8X, com R2 = 0,80.
a) Qual é o consumo esperado de sorvete num dia de 27 °C?
b) Qual é o incremento esperado nas vendas de sorvete a cada 1 °C de aumento da
temperatura?
QUESTÃO 20 O número de faltas e as notas de 7 alunos estão apresentados a seguir.
Faltas
Notas
1
10
2
7
3
9
4
5
6
6
8
3
10
2
a) Calcule o coeficiente de correlação linear.
b) É possível verificar que as notas e as faltas tendem a variar inversamente?
QUESTÃO 21 Verifique se existe associação entre a variável opinião sobre pena de morte e sexo.
Considere o nível de significância de 5%.
Pena de Morte
A FAVOR
CONTRA
Masc.
25
7
Fem.
5
19
Sexo
Fonte: Dados Fictícios
QUESTÃO 22 É possível afirmar que os homens e mulheres possuem a mesma opinião em relação ao
aborto? Considere α=0,01.
Aborto
A FAVOR
CONTRA
Masc.
28
68
Fem.
14
81
Sexo
Fonte: Dados Fictícios
QUESTÃO 23 Construa tabelas de contingência combinando as variáveis Fuma, Assiste novela e
Pratica atividade física (Questão 8 – Lista 1). Verifique se existe associação entre essas variáveis a um
nível de significância de 1% e 10%. Complemente a amostra para 30 pessoas.
Download

Lista 3 - DE/UFPB