Universidade da Beira Interior - Departamento de Matemática E STATÍSTICA A PLICADA À G ESTÃO Ficha de exercícios 2 – Regressão Linear Simples – 2012/2013 1. Considere os seguinte valores observados de duas variáveis quantitativas, X e Y : xi 7 4 6 2 1 1 3 yi 2 4 2 5 7 6 5 (a) Ajuste um modelo de regressão linear simples aos dados observados. (b) Determine os valores estimados pelo modelo encontrado na alínea anterior, os respectivos erros e o valor de SSE. (c) Determine o valor de SSE usando a recta ŷ = 10 − 2x. (d) Compare os resultados obtidos nas alíneas (b) e (c). 2. Considere os seguintes dados: X Y -0.5 1 2 1 1.5 3 (a) Sobre o diagrama de dispersão, esboce as rectas ŷ = 3 − x e ŷ = 1 + x. (b) Qual das rectas escolheria para caracterizar a relação entre X e Y . (c) Mostre que a soma dos erros para ambas as rectas é igual a zero. (d) Encontre a recta de regressão e compare-a com as rectas da alínea (a). 3. Num determinado período foi possível conhecer a taxa de desemprego (X) e o volume de vendas (Y ) do comércio em relação a cinco localidades: X 13 9 6.5 4.7 3 Y 3 4.5 5.8 6.6 8 (a) Ajuste um modelo de regressão linear simples aos dados observados. (b) Determine: cov(X, Y ), rXY e o coeficiente de determinação. (c) Calcule os valores de: SSE e variância residual. 4. Pretende-se avaliar se a variável receita bruta em vendas (em milhares de milhões de euros) depende linearmente da variável receitas em exportações (em milhares de milhões de euros). Para tal recolheram-se dados desde 2005 até 2012, obtendo-se: Anos 2005 2006 2007 2008 2009 2010 2011 2012 R. B. em Vendas 1,02 0,95 1,28 1,8 1,42 2,06 3,34 2,73 R. em Exportações 0,3 0,34 0,31 0,30 0,6 0,61 0,83 1,00 (a) Ajuste um modelo de regressão linear simples aos dados observados. (b) Qual o significado dos coeficientes de regressão? (c) Determine a variância residual e o coeficiente de determinação. (d) Quanto se espera obter em R.B. de vendas se as receitas em exportações forem 1,2 mil milhões de euros? 5. Os dados no quadro abaixo indicam a relação que existe entre a variável X, que representa o investimento em publicidade por um conjunto de empresas (em centenas de e), e Y que corresponde ao retorno (em milhares de e). X 7 4 3 1 2 5 6 Y 4.5 1 0.5 -1 -0.5 2.5 3 (a) Ajuste um modelo de regressão linear simples aos dados observados. (b) Interprete os valores dos coeficientes de regressão. (c) Determine o valor de SSE. (d) Estime o valor do retorno se o investimento em publicidade for de 690e. 2 (e) Calcule e interprete os valores de: rXY e rXY . 6. A tabela seguinte contém a idade (X, em anos) e a despesa diária (Y , em euros) de 10 pessoas: X Y 16 22 22 28 5 8 10 11 30 31 36 44 12 12 15 20 55 60 22 21 (a) Esboce o diagrama de dispersão e avalie o grau de relacionamento linear entre as variáveis X e Y . Será razoável aplicar um modelo de regressão linear? (b) Ajuste um modelo de regressão linear simples aos dados observados. (c) Interprete os valores dos coeficientes de regressão. (d) Qual a despesa diária estimada de uma pessoa com 24 anos? (e) Calcule o coeficiente de correlação e de determinação e interprete os seus valores. (f) Obtenha um intervalo de confiança de 95% para β1 . (g) Teste a hipótese nula do coeficiente de regressão associado à variável X ser nulo a um nível de significância de 10%. O que pode dizer acerca da significância da regressão? (h) Obtenha um intervalo de confiança de 99% para a despesa média de uma pessoa com 25 anos. (i) Averigúe se os resíduos do modelo encontrado em (b) possuem distribuição Normal. 7. Realizou-se uma pesquisa de mercado, visando estudar a relação entre o tempo necessário para um consumidor tomar uma decisão sobre o que comprar (Y , em segundos) e o número de embalagens alternativas do mesmo produto apresentadas a esse consumidor (X). Eliminaramse as marcas das embalagens, a fim de reduzir o efeito de preferência por uma ou outra marca. Os consumidores fizeram as suas escolhas somente com base na descrição do produto. A tabela seguinte contém os dados observados de 15 consumidores: Tempo de decisão (s) 5,8,8,7,9 7,9,8,9,10 10,11,10,12,9 Número de alternativas 2 3 4 (a) Ajuste um modelo de regressão linear simples aos dados observados. (b) Interprete os valores dos coeficientes de regressão. (c) Estime σ 2 . (d) Construa um intervalo de confiança de 90% para β1 . (e) Averigúe se existem evidências estatisticamente significativas para afirmar que o tempo de decisão se relaciona linearmente com o número de alternativas oferecidas, considerando α = 5%. (f) Construa um intervalo de confiança de 95% para β0 . (g) Teste a hipótese de β0 = 5, para α = 2, 5%. (h) Obtenha um intervalo de confiança de 90% para o tempo médio de decisão quando o número de alternativas é 2, 3 e 4. (i) Compare as amplitudes dos intervalos obtidos na alínea anterior. (j) Averigúe se os resíduos do modelo encontrado em (a) possuem distribuição Normal. 8. Será que o consumo per capita de um certo produto está a aumentar em Portugal? Um importador afirma que depende da variante (A ou B) desse produto. Os dados da tabela seguinte indicam o consumo per capita das duas variantes do produto de 1995 a 2006: Ano - 2000 (X) -5 -4 -3 -2 -1 0 1 2 3 4 5 6 A 0,73 0,8 0,81 0,92 0,85 0,9 0,96 1,08 1,09 1,21 1,12 1,27 B 0,07 0,1 0,1 0,15 0,1 0,12 0,1 0,11 0,12 0,11 0,11 0,11 (a) Seja Y o consumo per capita da variante A do produto. i. Ajuste um modelo de regressão linear simples aos dados observados ao longo do tempo. ii. Estime σ 2 . iii. Pode-se afirmar que o modelo estimado em (i) tem significado? Considere α = 5%. iv. Construa um intervalo de confiança de 90% para β1 . Relacione o intervalo obtido com o resultado da alínea anterior. v. Obtenha um intervalo de confiança de 95% para o consumo médio da variante A do produto nos anos 1996, 2000 e 2004. vi. Compare as amplitudes dos intervalos obtidos na alínea anterior. vii. Averigúe se os resíduos do modelo encontrado em (i) possuem distribuição Normal. (b) Que variação poderá esperar no consumo anual per capita da variante B do produto de 2008 relativamente a 2007? (c) A que variante do produto se deve o suposto aumento do consumo per capita? 9. Suponha que foi elaborado um estudo envolvendo 7 paíes relativamente aos anos 1992-2009, considerando-se: X: diferença (em percentagem) entre as emissões de um certo poluente em 2009 relativamente a 1992 Y : diferença (em percentagem) entre o índice de crescimento económico em 2009 relativamente a 1992 É de notar que se a emissão do poluente ultrapassar um certo valor tem inerente o pagamento de uma taxa. País X 1 -3 2 -2 3 0 4 1 5 4 6 3 7 -1 Y -1 4 -0.5 2 2 -2 0 (a) Esboce o diagrama de dispersão. Será razoável ajustar uma recta aos valores observados? (b) Ajuste um modelo de regressão linear simples aos dados observados. (c) Interprete os valores dos coeficientes de regressão. (d) Determine o valor de SSE. (e) Calcule o coeficiente de correlação linear de Pearson e o coeficiente de determinação. Interprete os valores obtidos. (f) Em média quanto se espera que seja o crescimento económico de um país se as suas emissões de poluente aumentarem 5% entre 1992 e 2009? (g) Pode-se inferir, com um nível de significância de 10%, que a diferença entre as emissões do poluente e a diferença entre índice de crescimento económico estão linearmente relacionadas? 10. Suponha que foi elaborado um estudo envolvendo 8 regiões em que se pretende relacionar o índice Y com as despesas X. A tabela seguinte contém alguns dados relevantes: X Y X2 Y2 XY soma 64 352 514 15550 2826 (a) Assumindo o modelo linear onde os erros ǫi são independentes e ǫi ∼ N(0, σ): i. ii. iii. iv. Determine os coeficientes de regressão e escreva a equação do modelo. Estime σ 2 . Em média quanto se espera que seja o índice se as despesas forem iguais a 2? Teste a hipótese β1 = 3, considerando α = 10%. (b) Assumindo o modelo ln − ln onde os erros ǫi são independentes e ǫi ∼ N(0, σ): i. Determine os coeficientes de regressão e escreva a equação do modelo. ii. Estime σ 2 . iii. Teste a hipótese β1 = −2, considerando α = 5%. 11. Pretende-se ajustar o modelo ln − ln aos seguintes dados: xi yi 1 2 0,4 0,8 3 4 5 3,6 6,4 5 (a) Esboce o diagrama de dispersão dos dados apresentados. (b) Calcule os parâmetros do modelo de regressão associado. (c) Determine rXY e o coeficiente de determinação. Interprete os valores obtidos. 12. Os dados seguintes estabelecem referem-se à procura e oferta de um dado produto em 10 locais distintos, representadas por X e Y respectivamente: X Y 1 2 3 4 5 6 7 8 9 10 1,1 4,56 6,59 8,03 9,14 10,05 10,83 11,50 12,08 12,61 (a) Esboce o diagrama de dispersão dos dados apresentados. (b) Calcule os parâmetros do modelo de regressão linear − ln associado. (c) Determine rXY e o coeficiente de determinação. Interprete os valores obtidos. 13. Considere a seguinte tabela que contém os dados referentes à evolução do índice de desemprego ao longo de 6 anos. Ano Índice de desemprego 1 120 2 130 3 140 4 155 5 170 6 200 (a) Esboce o diagrama de dispersão dos dados apresentados. (b) Calcule os parâmetros do modelo de regressão ln −linear associado. (c) Determine rXY e o coeficiente de determinação. Interprete os valores obtidos. 14. A seguinte tabela contém os dados referentes à evolução da taxa de variação da procura de um determinado bem ao longo de 12 anos: Ano Taxa de variação 1 4,2 2 3,5 3 3,4 4 3 5 3,3 6 2,8 Ano 7 8 9 10 11 12 Taxa de variação 2,8 3,6 4,3 5 6,1 6,7 (a) Esboce o diagrama de dispersão dos dados apresentados. (b) Calcule os parâmetros do modelo de regressão recíproco associado. (c) Determine rXY e o coeficiente de determinação. Interprete os valores obtidos.