Soluções do Conjunto de Problemas 3
Capítulo 9.
4. resposta: quase a mesma. Pense em dois gráficos de dispersão que foram sobrepostos e alterados um pouco.
Mova o gráfico de dispersão para o sudoeste (altura e peso menores) para refletir as diferenças nas médias de
altura e peso. Descobre-se que a alteração está grosso modo ao longo da "linha de desvio-padrão". Portanto, o
novo gráfico de dispersão resultante tem basicamente a mesma correlação que os outros dois anteriores.
7. Novamente, esta é uma correlação ecológica com base na porcentagem, que normalmente gera um
coeficiente de correlação superestimado. Além do mais, o coeficiente de correlação não necessariamente
significa causação. Certamente há uma associação um tanto alta entre a porcentagem da população de nativos e
os votos recebidos Johnson. Entretanto, pode ter havido outros fatores que ligam os votos dos nativos e de
Johnson, como o status sócio-econômico. Além disso, há uma possível falácia de agregação. Se a fração de
eleitores em uma região for um grupo muito pequeno e particular de toda a população, então os eleitores são
pessoas diferentes em comparação com a população.
Capítulo 10.
1. A – (i)
B – (iii)
C – (ii)
3. média de altura dos maridos = 68
média de altura das esposas = 63
DP de maridos = 2,7
DP de esposas = 2,5
r = 0,25
r = Cov(peso, altura) = 0,25
DPw x DPh
∃w = r x DPw
DPh
(a)
0,25x2,5 x 4
2,7
(b) ,25x2,5 x 4
2,7
(c)
= 0,25x2,5
2,7
1, altura prevista de uma esposa = 64
-1, altura prevista de uma esposa = 62
0,25x2,5 x 0 = 0, altura prevista de uma esposa = 63
2.7
(d) não temos nenhuma informação sobre a altura do marido, portanto, temos que prever a altura da esposa
com uma média, que é 63.
7.
Os dois médicos estão errados. Essa questão é sobre a falésia de regressão e efeito de regressão. Quando a
primeira medição for muito alta ou muito baixa, a segunda medição tende a regredir em direção à média.
Capítulo 11.
1. (v) (1-r2) x DP de y
2.
Sim, há algo errado. (1-r2) = 3,12, e 2xr.m.s. = 6,24, o que cobre 95% dos dados. Mesmo se a média for 0,
±6,24 é muito acima e abaixo. Como a média das notas normalmente é de 4,0, não faz sentido que o valor
mais alto dos dados possa ser 6,24.
6.
NÃO. Uma correlação não é uma causação. Podemos concluir que um aluno que faz a lição de casa tente a
ter uma média melhor, pois provavelmente ele é estudioso. Entretanto, não podemos afirmar que fazer a
lição de casa aumentará a média do aluno.
9.
NÃO. Esse é novamente um efeito de regressão. "Rookie of the year" é o jogador que mais se destaca no
ano, o que implica que ele é um caso altamente discrepante. No segundo ano, ele supostamente regride de
volta ao nível médio.
2
Capítulo 12.
4.
(a) cerca de 1. A linha representa a média dos dados. Todos os pontos dos dados estão localizados entre
zero e quatro, assim podemos supor que o DP de y é 1 (lembre-se, 2x DP normalmente cobre 95% dos
dados). E o DP de y é o r.m.s. por prever y por sua média. Portanto, ele deve ser por volta de 1.
(b) NÃO. A linha de regressão parece ser descendente para a esquerda.
11. Angular = r x DPy = 0,0000617
DPx
∴ 0,37 x DPy = 0,0000617
DPx
Quando x = 0, y = 8,1 anos.
8,1 = 13,1 - y, y = 5.
5 = 29300 x ano/$
ano/$ = 5/29300 = 0,00017065, que é diferente do coeficiente angular na equação (0,0000617). Entretanto,
não podemos descobrir qual é ele até sabermos os DPs.
3
Parte II.
A.1.
Esta regressão mostra um efeito positivo e estatisticamente significativo na
freqüência de igrejas sobre a liberação da lei do aborto. Observe o código reverso
em ambas as variáveis. A regressão explica apenas cerca de 14% da variância aqui,
assim há vários outros fatores ocorrendo, ou uma transformação se faz necessária.
A.2.
Os dados pareciam um pouco curvos para mim, então eu fiz uma transformação
polinomial. Esses são um pouco mais difíceis de interpretar, motivo pelo qual o
gráfico em A.3. é importante. A regressão é novamente altamente significativa e
positiva no universo de valores possíveis para attend (veja A.3., mas o modelo
transformado explica apenas um pouco mais da variância.
A.3.
Como você pode ver no gráfico, o modelo linear não prediz o efeito para a maior
parte da faixa de freqüência e supre-prevê nos extremos.
4
B.1.
Eu escolhi pegar o registro dos livros a fim de emudecer o efeito de alguns
discrepantes, como Iowa e Kansas. Você pode ver a diferença ao olhar nos gráficos
anexados PSet3graphB1 e PSet3graphB1ln.
B.2.
. preveja yhat
. gen resid= reading-yhat
veja gráfico anexo PSet3graphB2
Tente também:
. rvfplot, s([state]) yline(0)
A plotagem residual deve parecer com ruído em volta de uma linha reta, mas você
pode ver alguma curva nela entre 7,8 e 8. Pode haver alguma heteroscedasticidade
aqui (correlação entre a variável independente e os resíduos), mas mais importante
é a presença de discrepantes notáveis, especialmente Washington DC, que é muito
fracamente previsto. Além disso, o Havaí e Connecticut causam preocupações.
B.3.
A Equação de Regressão acima é:
reading=ln(books)*9.226+139.629
Como uma linha de regressão sempre corre em direção ao ponto (Xavg,Yavg), i STATA
calculou o valor de Xavg (a média de lnbooks) pode ser usado em vez de resolver
lnbooks. É 7.780, que traduz para 2392.275 livros.
Para calcular o número de livros que gera um aumento de 5 pontos na leitura, nós
podemos solucionar ao subtrair do número de livros necessários para criar um escore
de leitura de 215,85 a partir do número médio de livros.
Solução:
215.85=ln(books)*9.226+139.629
76.221=ln(books)*9.226
76.221/9.226=ln(books)
8.262=ln(books)
e8.262 =books
3873.834=books
5
So to increase reading scores by 5, we need an additional (3873.834 – 2392.275)
1481.559 books per hundred students.
Assim, para aumentar os escores de leitura em 5, precisamos de outros (3873.834–2392.275) livros para cada
centena de alunos.
6
C.1.
. gen lnchaspend = ln (chaspend)
(7 valores ausentes gerados)
. reg incvote lnchaspend
Novamente, eu escolhi usar um log natural da variável independente para linearizálo. ao usar renda ou gasto, o log natural é uma transformação comumente usada.
Neste caso, não havia uma grande vantagem ao fazê-lo (veja os gráficos PSet3GraphC1
e PSet3GraphC1ln). A regressão resultante parece indicar o resultado intuitivo do
contador de que o gasto do desafiante teve um efeito significativo e POSITIVO sobre
os votos incumbentes. O que está contra nós são os estados provavelmente grandes.
Estados maiores requerem que candidatos gastem mais, então o aumento no gasto geral
está sendo relacionado com o número de possíveis votos mais que o efeito que
estamos tentando medir. Além disso, tenha em mente que o gasto incumbente não está
sendo controlado.
C.2.
. gen twoptyvote=incvote/(incvote+chavote)
(4 valores ausentes gerados)
. reg twoptyvote lnchaspend
Assim é muito melhor. O coeficiente não é apenas significativo, é um sinal de que
agora ele está na direção esperada. Usando um voto de porcentagem para emudecer o
efeito do tamanho do estado como uma variável que causa confusão, estamos também
modelando os dados melhor. Este segundo modelo explica cerca de 66% da variância em
comparação com 20% do primeiro.
C.3.
Claramente, o modelo correto para usar é o segundo, que implica que quanto mais
dinheiro um desafiante gastar, menor será a parcela de voto do incumbente e,
portanto, sua probabilidade de vitória.
Download

Soluções do Conjunto de Problemas 3 Capítulo 9. 4. resposta