Soluções do Conjunto de Problemas 3 Capítulo 9. 4. resposta: quase a mesma. Pense em dois gráficos de dispersão que foram sobrepostos e alterados um pouco. Mova o gráfico de dispersão para o sudoeste (altura e peso menores) para refletir as diferenças nas médias de altura e peso. Descobre-se que a alteração está grosso modo ao longo da "linha de desvio-padrão". Portanto, o novo gráfico de dispersão resultante tem basicamente a mesma correlação que os outros dois anteriores. 7. Novamente, esta é uma correlação ecológica com base na porcentagem, que normalmente gera um coeficiente de correlação superestimado. Além do mais, o coeficiente de correlação não necessariamente significa causação. Certamente há uma associação um tanto alta entre a porcentagem da população de nativos e os votos recebidos Johnson. Entretanto, pode ter havido outros fatores que ligam os votos dos nativos e de Johnson, como o status sócio-econômico. Além disso, há uma possível falácia de agregação. Se a fração de eleitores em uma região for um grupo muito pequeno e particular de toda a população, então os eleitores são pessoas diferentes em comparação com a população. Capítulo 10. 1. A – (i) B – (iii) C – (ii) 3. média de altura dos maridos = 68 média de altura das esposas = 63 DP de maridos = 2,7 DP de esposas = 2,5 r = 0,25 r = Cov(peso, altura) = 0,25 DPw x DPh ∃w = r x DPw DPh (a) 0,25x2,5 x 4 2,7 (b) ,25x2,5 x 4 2,7 (c) = 0,25x2,5 2,7 1, altura prevista de uma esposa = 64 -1, altura prevista de uma esposa = 62 0,25x2,5 x 0 = 0, altura prevista de uma esposa = 63 2.7 (d) não temos nenhuma informação sobre a altura do marido, portanto, temos que prever a altura da esposa com uma média, que é 63. 7. Os dois médicos estão errados. Essa questão é sobre a falésia de regressão e efeito de regressão. Quando a primeira medição for muito alta ou muito baixa, a segunda medição tende a regredir em direção à média. Capítulo 11. 1. (v) (1-r2) x DP de y 2. Sim, há algo errado. (1-r2) = 3,12, e 2xr.m.s. = 6,24, o que cobre 95% dos dados. Mesmo se a média for 0, ±6,24 é muito acima e abaixo. Como a média das notas normalmente é de 4,0, não faz sentido que o valor mais alto dos dados possa ser 6,24. 6. NÃO. Uma correlação não é uma causação. Podemos concluir que um aluno que faz a lição de casa tente a ter uma média melhor, pois provavelmente ele é estudioso. Entretanto, não podemos afirmar que fazer a lição de casa aumentará a média do aluno. 9. NÃO. Esse é novamente um efeito de regressão. "Rookie of the year" é o jogador que mais se destaca no ano, o que implica que ele é um caso altamente discrepante. No segundo ano, ele supostamente regride de volta ao nível médio. 2 Capítulo 12. 4. (a) cerca de 1. A linha representa a média dos dados. Todos os pontos dos dados estão localizados entre zero e quatro, assim podemos supor que o DP de y é 1 (lembre-se, 2x DP normalmente cobre 95% dos dados). E o DP de y é o r.m.s. por prever y por sua média. Portanto, ele deve ser por volta de 1. (b) NÃO. A linha de regressão parece ser descendente para a esquerda. 11. Angular = r x DPy = 0,0000617 DPx ∴ 0,37 x DPy = 0,0000617 DPx Quando x = 0, y = 8,1 anos. 8,1 = 13,1 - y, y = 5. 5 = 29300 x ano/$ ano/$ = 5/29300 = 0,00017065, que é diferente do coeficiente angular na equação (0,0000617). Entretanto, não podemos descobrir qual é ele até sabermos os DPs. 3 Parte II. A.1. Esta regressão mostra um efeito positivo e estatisticamente significativo na freqüência de igrejas sobre a liberação da lei do aborto. Observe o código reverso em ambas as variáveis. A regressão explica apenas cerca de 14% da variância aqui, assim há vários outros fatores ocorrendo, ou uma transformação se faz necessária. A.2. Os dados pareciam um pouco curvos para mim, então eu fiz uma transformação polinomial. Esses são um pouco mais difíceis de interpretar, motivo pelo qual o gráfico em A.3. é importante. A regressão é novamente altamente significativa e positiva no universo de valores possíveis para attend (veja A.3., mas o modelo transformado explica apenas um pouco mais da variância. A.3. Como você pode ver no gráfico, o modelo linear não prediz o efeito para a maior parte da faixa de freqüência e supre-prevê nos extremos. 4 B.1. Eu escolhi pegar o registro dos livros a fim de emudecer o efeito de alguns discrepantes, como Iowa e Kansas. Você pode ver a diferença ao olhar nos gráficos anexados PSet3graphB1 e PSet3graphB1ln. B.2. . preveja yhat . gen resid= reading-yhat veja gráfico anexo PSet3graphB2 Tente também: . rvfplot, s([state]) yline(0) A plotagem residual deve parecer com ruído em volta de uma linha reta, mas você pode ver alguma curva nela entre 7,8 e 8. Pode haver alguma heteroscedasticidade aqui (correlação entre a variável independente e os resíduos), mas mais importante é a presença de discrepantes notáveis, especialmente Washington DC, que é muito fracamente previsto. Além disso, o Havaí e Connecticut causam preocupações. B.3. A Equação de Regressão acima é: reading=ln(books)*9.226+139.629 Como uma linha de regressão sempre corre em direção ao ponto (Xavg,Yavg), i STATA calculou o valor de Xavg (a média de lnbooks) pode ser usado em vez de resolver lnbooks. É 7.780, que traduz para 2392.275 livros. Para calcular o número de livros que gera um aumento de 5 pontos na leitura, nós podemos solucionar ao subtrair do número de livros necessários para criar um escore de leitura de 215,85 a partir do número médio de livros. Solução: 215.85=ln(books)*9.226+139.629 76.221=ln(books)*9.226 76.221/9.226=ln(books) 8.262=ln(books) e8.262 =books 3873.834=books 5 So to increase reading scores by 5, we need an additional (3873.834 – 2392.275) 1481.559 books per hundred students. Assim, para aumentar os escores de leitura em 5, precisamos de outros (3873.834–2392.275) livros para cada centena de alunos. 6 C.1. . gen lnchaspend = ln (chaspend) (7 valores ausentes gerados) . reg incvote lnchaspend Novamente, eu escolhi usar um log natural da variável independente para linearizálo. ao usar renda ou gasto, o log natural é uma transformação comumente usada. Neste caso, não havia uma grande vantagem ao fazê-lo (veja os gráficos PSet3GraphC1 e PSet3GraphC1ln). A regressão resultante parece indicar o resultado intuitivo do contador de que o gasto do desafiante teve um efeito significativo e POSITIVO sobre os votos incumbentes. O que está contra nós são os estados provavelmente grandes. Estados maiores requerem que candidatos gastem mais, então o aumento no gasto geral está sendo relacionado com o número de possíveis votos mais que o efeito que estamos tentando medir. Além disso, tenha em mente que o gasto incumbente não está sendo controlado. C.2. . gen twoptyvote=incvote/(incvote+chavote) (4 valores ausentes gerados) . reg twoptyvote lnchaspend Assim é muito melhor. O coeficiente não é apenas significativo, é um sinal de que agora ele está na direção esperada. Usando um voto de porcentagem para emudecer o efeito do tamanho do estado como uma variável que causa confusão, estamos também modelando os dados melhor. Este segundo modelo explica cerca de 66% da variância em comparação com 20% do primeiro. C.3. Claramente, o modelo correto para usar é o segundo, que implica que quanto mais dinheiro um desafiante gastar, menor será a parcela de voto do incumbente e, portanto, sua probabilidade de vitória.