Lista de Exercícios Cap. 2
1) Considere os dados de Sexo e Raça para os dados abaixo:
Sexo F M M F M F F F M M M M M M F F F M F F F F M M F M M
Raça B B B B B B B B B B B B B B B B B P B B B A B B B B N
a) Construa a tabela de freqüências para cada uma das variáveis.
Tabela de Freq. Da variável Sexo
Sexo
Fre. Abs. Freq. Rel. Freq. Perc.
F
13 0,481481
48%
M
14 0,518519
52%
Total
27
1
100%
Tabela de Freq. Da variável Sexo
Sexo
Fre. Abs. Freq. Rel. Freq. Perc.
A
1 0,037037
4%
B
24 0,888889
89%
I
0
0
0%
N
1 0,037037
4%
P
1 0,037037
4%
Total
27
1
1
b) Faça os gráficos de barras e de setores (pizza) para cada uma das variáveis.
c) Qual é a moda (maior freqüência) de cada variável?
Modas: Masculino, para Sexo; Brancos, para Raça.
2) Eis as notas de Pesquisa de Hábitos de Estudos e Atitudes (PHEA) para 18 alunas do
primeiro ano de uma faculdade:
154
109
137
103
126
126
e para 20 alunos do primeiro ano
108
109
(a)
140
132
114
75
91
88
115
137
152
165
180
113
140
165
115
151
154
129
126
70
178
200
92
115
101
148
169
187
146
104
Faça um ramo-e-folhas face-a-face destes dados (faça um ramo único para meninos e
meninas, coloque a folhas dos meninos de um lado e das meninas do outro).
Escala: 100=10|0
Meninas
Meninos
7 05
8 8
9 12
9 3 1 10 4 8 9
5 11 3 4 5 5
9 6 6 12 6
7 7 13 2
8 0 14 0 6
4 4 2 15 1
5 5 16 9
8 17
18 0 7
19
0 20
(b)
Ache a média ( ) e a mediana ( ) para ambos os conjuntos de notas PHEA. Que
característica da distribuição explica o fato de ser > ?
Média
Mediana
Meninas Meninos
141
121
139
115
Comentário: Para os dois casos (masculino e feminino), pode-se perceber pelo gráfico de
ramo-e-folhas uma concentração à esquerda dos dados.
(c)
Os dados da PHEA para mulheres contém um outlier alto. Calcule a média e a mediana
para estes dados, com o outlier e sem ele. Como a remoção do outlier afeta ? Como afeta
? Seus resultados ilustram a maior robustez da mediana.
Meninas com todas obs. sem obs. 200
Média
141
138
Mediana
139
137
Comentário: Percebemos que a média é mais afetada por pontos extremos (outliers) do
que a mediana. A média foi alterada em 7 pontos, enquanto a mediana em 2.
(d)
Determine o desvio-padrão (s). Para você trabalhar com valores menores, em cada
conjunto de dados, subtraia a média de todos os valores e então calcule a variância e o
desvio-padrão. Porque seus cálculos manuais ficaram facilitados?
Desvio-padrão
(e)
Meninas
26,436
Meninos
32,852
Determine o coeficiente de variação (cv) para ambos os conjuntos de notas PHEA.
Compare os dois conjuntos de notas quanto à homogeneidade.
Meninas
Meninos
CV
19%
27%
Comentário: Pelo coeficiente de variação (CV), percebemos que as notas dos meninos
variam do que as das meninas. Isso é refletido pelo gráfico de ramo-e-folhas, onde o
gráfico dos meninos é “mais espalhado” que o das meninas.
3) É dado na Fig. 1 o histograma para um conjunto de dados. Qual dos box-plots é
consistente com o histograma na descrição da distribuição dos dados. Justifique sua
escolha.
Fig. 1: Histograma e box-plots
Comentário: O nº 3, pois tem uma cauda longa à esquerda (para baixo no Box-Plot vertical).
4) Considere o seguinte conjunto de dados de uma variável numérica:
21
21
21
22
22
23
23
23
24
25
25
25
25
26
26
26
28
30
31
32
33
33
33
34
34
35
35
24
31
36
a) Calcule as medidas de posição (média, moda, mediana, primeiro e terceiro
quartil) e dispersão (amplitude, variância, desvio-padrão e CV) para os dados.
Média
Moda
Q1 (1º quartil)
Q2 (2º quartil)
Q3 (3º quartil)
27,57 Amplitude
25,00 Variância
23,25 Desvio-padrão
26,00 CV
32,75
15,00
24,67
4,97
0,18
b) Faça o histograma, gráfico de ramo e folhas e Box-plot para os dados.
Escala: 20=2|0
2 112233344
2 55556668
3 011233344
3 556
Limites
21,0|--23,5
23,5|--26,0
26,0|--28,5
28,5|--31,0
31,0|--33,5
33,5|--36,0
Total
Freqüências
Absolutas
8
6
4
1
6
5
30
Relativas
0,266667
0,2
0,133333
0,033333
0,2
0,166667
1
Freqüências Acumuladas
Absolutas
Relativas
8 0,266667
14 0,466667
18
0,6
19 0,633333
25 0,833333
30
1
---
Histograma da variável X
30%
Freq. Percentuais
25%
20%
15%
10%
5%
0%
21,0|--23,5 23,5|--26,0 26,0|--28,5 28,5|--31,0 31,0|--33,5 33,5|--36,0
Classes
Observação 1: Esse gráfico de Box-Plot foi construído no Excel através de uma
rotina disponibilizada pelo Lapponi. Os extremos das linhas horizontais
vermelhas indicam os limites de 150% e 300% à esquerda e à direita da caixa.
Observação 1: A tabela de frequência para a construção do histograma pode
resultar diferente, dependendo do nº de classes e do tamanho das classes.
c) Comente também sobre os formatos dos dados (assimetria, posição, variabilidade,
modalidade (modas)), além da presença ou não de outliers.
Solução: Pelo Box-Plot, vemos que existe uma assimetria positiva (posição da
mediana na caixa), com uma variabilidade mediana (vide CV). Pelo histograma, vemos
que existem duas classes modais (duas ondas), entre 21 e 23.5 e entre 31 e 33,5.
Como indicado no Box-Plot, não existem outliers. Vemos que para esses dados, o
gráfico de ramo-e-folhas não foi informativo.
d) Para os dados agrupados na tabela de freqüências do histograma, calcule
média, moda, mediana, variância e desvio-padrão. Média, mediana, variância e
desvio-padrão devem ser próximos das estatísticas dos dados não-agrupados
(obtidas no item a)).
Solução:
Média
Moda
Mediana
27,75
23
26,63
Variância
Desvio-padrão
23,02
4,80
5) Retornamos à questão das notas de Pesquisa de Hábitos de Estudos e Atitudes – PHEA. A
Fig. 2 apresenta os Box-plots das notas dos conjuntos de dados referentes às alunas (F) e
aos alunos (M) e a todos os estudantes (T).
200
180
Notas
160
140
120
100
80
60
Feminino
Masculino
Conjuntos
Todos
Fig. 2: Box-plots dos conjuntos de dados
(a)
Para cada um dos conjuntos de dados, estime graficamente a mediana, o primeiro e o
terceiros quartis e uma medida de dispersão;
Solução: Pegar uma régua e fazer uma paralela entre as medidas Q1, Q2 e Q3 com o eixo
vertical. Anotar o valor onde a régua passa pelo eixo em cada medição. Quanto à
dispersão, dizer apenas se a variabilidade é baixa, média ou alta, a partir da comparação
entre comprimento das linhas e tamanho da caixa. Neste caso, a variabilidade do total é
mediana, das meninas é mediana e dos meninos é alta.
(b)
Faça uma breve comparação dos grupos de alunos e alunas. As mulheres, como grupo,
têm maiores notas do que os homens? Que grupo de notas se apresenta mais disperso?
Solução: Obviamente, os meninos apresentam maior variabilidade (item a). Embora a caixa
do Box-plot das meninas se apresente acima dos meninos, existe muita interseção entre
elas. Logo, para saber se realmente existe predominância das notas das meninas, somente
se fizer um teste estatístico (que veremos até o fim do semestre).
6) A Tabela 1 apresenta algumas informações adicionais sobre esses conjuntos de dados
Conjunto
(a)
Tabela 1: Algumas medidas-resumo dos conjuntos de dados
Quantidade.
Média
Desvio-padrão
( )
(n)
(s)
CV
Alunas (F)
18
141,06
26,44
19%
Alunos (M)
20
121,25
32,85
27%
Todos os
alunos (T)
38
130,63
31,24
24%
Utilize o coeficiente de variação (cv) e compare os conjuntos em relação aos resultados
obtidos. Qual grupo foi mais homogêneo?
Solução: Primeiro, para calcular a média total, basta fazer Xm=(n1*Xm1+n2*Xm2 )/n, onde Xm1
é a média do grupo 1, Xm2 é a média do grupo 2, n1 é o nº de observações do grupo 1 e n2 é
o nº de observações do grupo 2. Os resultados já estão na tabela. Assim, o grupo das
alunas é mais homogêneo que o dos alunos.
(b)
Observe a variabilidade dos três conjuntos (F, M e T) e conjecture se o sexo é importante
para ajudar a explicar a variação das notas.
Solução: Comparando a diferença de médias entre os grupos (20 unidades) e o desviopadrão do total, podemos afirmar que não existe diferença significativa entre os grupos.
Mas somente um teste de hipóteses estatístico poderá responder com certeza
(estatística!!!).
7) Os dados da tabela abaixo são de Pesos (em Kg) de 50 Homens e 40 Mulheres.
a) Construa as medidas-resumo de posição (média, quartis, mínimo e máximo) e de
dispersão (distância interquartílica, amplitude, variância, desvio-padrão e coeficiente
de variação) para os dados totais (Feminino e Masculino) e separadamente, por Sexo.
Média
Mínimo
Máximo
Q1
Q2
Q3
DIQ
Amplitude
Variância
Desvio-padrão
CV
Masculino Feminino Total
69,94
66,865 68,57333
64
64,1
64
75,6
71,9
75,6
68,63
65,88
66,50
69,9
66,55
68,05
71,5
67,725
70,35
2,875
11,6
6,93
2,63
4%
1,85
7,8
2,36
1,54
2%
3,85
11,6
7,21
2,69
4%
b) Faça os gráficos de histograma (freq. Relativa e de densidade), ramo-e-folhas e Boxplot para os dados totais (Feminino e Masculino) e separadamente, por Sexo.
Fe minino
15
Masc ulino
12
Count
Count
10
8
5
4
0
66 ,0 0
68 ,00
70,0 0
72 ,0 0
Pe so (em Kg)
0
66,00
68,00
70,00
72,00
74,00
66,00
Peso (em Kg)
68,00
70,00
72,00
74,00
Peso (em Kg)
75,00
75 ,0 0
Peso (em Kg)
72,50
Peso (em Kg)
72 ,5 0

70,00
67,50
70 ,0 0
65,00
67 ,5 0
65 ,0 0

Fe min in o
Masc ul in o
Se xo
Escala: 70,5=70|5
Feminino
Masculino
6 6 1 64 0 3 7
9 9 8 8 8 8 6 6 5 65 9
9 8 7 6 6 5 5 3 2 1 1 1 0 66 8
9 9 8 7 6 6 4 1 67 1 2 2 2 6 9
5 1 0 68 5 6 7 8 9 9
7 69 0 4 4 5 7 7 7 9 9
9 2 70 0 0 4 6 7 7 8 9
71 0 4 5 5 8 8
72 0 3 4 4 8 8
73
74 1
75 4 6 6
74 ,0 0
c) Interprete os dados, usando os resultados obtidos nos itens a) e b), explicando, se
houver, diferenças atribuídas à variável Sexo. Comente também sobre os formatos
dos dados (assimetria, posição, variabilidade, modalidade (modas)), além da presença
ou não de outliers.
Feminino
Masculino
Comentário: O comportamento da variável por grupos (sexo) é completamente
diferente. Embora o grupo feminino apresente menor média, o grupo apresenta
menor variabilidade, tem simetria, embora apresente um outlier superior. Já o grupo
masculino apresenta assimetria e um outliers inferior. Porém, embora os gráficos
sugiram alta variabilidade, o CV de variação tem valor baixo (4%). A variável, no total
e por grupos, apresenta unimodalidade.
64,0
64,3
64,7
65,9
66,8
67,1
67,2
67,2
67,2
67,6
67,9
68,5
68,6
68,7
68,8
68,9
68,9
69,0
69,4
69,4
69,5
69,7
69,7
69,7
69,9
69,9
70,0
70,0
70,4
70,6
70,7
70,7
70,8
70,9
71,0
71,4
71,5
71,5
71,8
71,8
72,0
72,3
72,4
72,4
72,8
72,8
74,1
75,4
75,6
75,6
64,1
64,6
64,6
65,5
65,6
65,6
65,8
65,8
65,8
65,8
65,9
65,9
66,0
66,1
66,1
66,1
66,2
66,3
66,5
66,5
66,6
66,6
66,7
66,8
66,9
67,1
67,4
67,6
67,6
67,7
67,8
67,9
67,9
68,0
68,1
68,5
68,8
69,7
70,2
71,9
8)
Dados sobre uma amostra de 20 funcionários de uma empresa
indivíduo
1 2
Nº de filhos 0 2
Fonte: Dados fictícios
3
3
4
2
5
1
6
4
7
5
8
3
9
6
10 11 12 13 14 15 16 17 18 19 20
7
4 3 2 1
3 5
6 3 2 1
a) Calcule as medidas de posição (média, moda, mediana, primeiro e terceiro
quartil) e dispersão (amplitude, variância, desvio-padrão) para os dados.
Média
Moda
Mediana
Q1
Q2
Q3
3,15
3
3
2
3
4,25
Amplitude
Variância
DP
7
3,61
1,90
b) Faça o diagrama de freqüências para os dados.
Download

Lista de Exercícios Cap. 2