MAE0328 - Análise de Regressão 1o semestre 2013 Prof. Gilberto A. Paula 3a Lista de Exercícios 1. Considere o seguinte modelo (modelo 1) passando pela origem: yi = xi1 β1 + xi2 β2 + ǫi , iid em que ǫi ∼ N(0, σ 2 ) para i = 1, . . . , n e supor que as variáveis y, x1 e x2 têm comprimento unitário. Considere agora o seguinte submodelo (modelo 2): yi = xi1 β1 + ǫi , iid em que ǫi ∼ N(0, σ 2 ). Supondo que o modelo 1 é o correto, mostre que as estimativas para β1 e σ 2 sob o modelo 2 são viesadas. Estude os vieses em função de r12 a correlação linear amostral entre x1 e x2 . Apresente um exemplo numérico em que r12 = 0. Supor n > 2, comente. Use os seguintes resultados: E(β̂ 1 ) = β 1 +(XT1 X1 )−1 XT1 X2 β 2 e E(σ̂ 2 ) = β XT {In −H1 }X2 β 2 σ 2 + 2 2 n−p , em que y = X1 β 1 + X2 β 2 + ǫ (modelo 1), 1 y = X1 β 1 + ǫ (modelo 2) e H1 = X1 (XT1 X1 )−1 XT1 . iid 2. Supor o modelo y1j = α+∆+ǫ1j e y2j = α−∆+ǫ2j , em que ǫi ∼ N(0, σ 2 ) para i = 1, 2 e j = 1, . . . , r. Expresse esse modelo na forma matricial ˆ Var(α̂) e y = Xβ + ǫ. Usando as formas matriciais encontre α̂, ∆, ˆ Var(∆). Mostre que a estatística F para testar H0 : ∆ = 0 contra H1 : ∆ 6= 0 pode ser expressa na forma simplificada F= 2r(r − 1)(ȳ1 − ȳ2 )2 P , 2 (yi − ȳ)2 − r(ȳ1 − ȳ2 )2 1 em que ȳ, ȳ1 , ȳ2 são as respectivas médias amostrais. 3. No arquivo reg4.dat estão os dados referentes à produção de gasolina numa determinada refinaria segundo três variáveis observadas durante o processo e uma quarta variável que é uma combinação das três primeiras. A resposta é o número de octanas do produto produzido. A octanagem é a propriedade que determina o limite máximo que a gasolina, junto com o ar, pode ser comprimida na câmara de combustão do veículo sem queimar antes de receber a centilha vinda das velas. As melhores gasolinas têm uma octanagem alta. Em grandes refinarias, o aumento de um octana na produção de gasolina pode representar um aumento de alguns milhões de dolares no custo final da produção. Assim, torna-se importante o controle dessa variável durante o processo de produção. Faça inicialmente uma análise descritiva dos dados. Selecione um submodelo através dos métodos de maior R2k , menor sk e menor Ck . Faça uma análise de diagnóstico com o modelo selecionado e interprete os coeficientes estimados. Para ler o arquivo no R use os comandos reg4 = scan("reg3.dat", list(x1=0, x2=0, x3=0, x4=0, octanas=0) attach(reg4). 4. No arquivo reg3.dat são descritas as seguintes variáveis referentes a 50 estados norte-americanos: (i) estado (nome do estado), (ii) pop (população estimada em julho de 1975), (iii) percap (renda percapita em 1974 em USD), (iv) analf (proporção de analfabetos em 1970), (v) expvida (expectativa de vida em anos 1969-70), (vi) crime (taxa de criminalidade por 100000 habitantes 1976), (vii) estud (porcentagem de estudantes que concluem o segundo grau 1970), (viii) ndias (número de dias do ano com temperatura abaixo de zero grau Celsus na cidade mais importante do estado) e (ix) area (área do estado em milhas quadradas). O objetivo do estudo é tentar explicar e variável expvida usando um modelo de regressão normal linear dadas as variáveis explicativas percap, analf, crime, estud, ndias e dens, em que dens=pop/area. Inicialmente faça uma análise descritiva dos dados, por exemplo com boxplots de cada uma das variáveis que serão consideradas no estudo e 2 com diagramas de dispersão com as respectivas tendências entre as variáveis explicativas e a variável resposta. Comente essa parte descritiva. Posteriormente, selecione um submodelo através do método stepwise com PE=PS=0,15. Uma vez selecionado o submodelo faça uma análise de diagnóstico e apresente as interpretações dos coeficientes estimados. Para ler o arquivo no R use os comandos reg3 = scan("reg3.dat", list(estado=” ”, pop=0, percap=0, analf=0, expvida=0, crime=0, estud=0, ndias=0, area=0)) attach(reg3) dens = pop/area. 5. Considere o modelo de regressão yi = β0 +β1 xi1 +β2 xi2 +β3 xi3 +β4 xi4 +ǫi , iid em que ǫi ∼ N(0, σ 2 ) para i = 1, . . . , 8 com os seguintes valores para as variáveis x1 , x2 , x3 e x4 : x1 -1 -1 -1 -1 1 1 1 1 x2 -1 -1 1 1 -1 -1 1 1 x3 -1 1 -1 1 -1 1 -1 1 x4 -3 -1 -1 1 -1 1 1 3 Responda às seguintes questões: (i) calcule as correlações lineares entre as variáveis explicativas, comente, (ii) calcule o fator de inflação da variância para cada variável explicativa, comente, e (iii) apresente uma solução para reduzir a multicolineridade entre as variáveis explicativas e (iv) recalcule o fator de inflação da variância. 3