Tópicos sobre regressão linear múltipla Soma de quadrados extra (testes de hipóteses) Multicolinearidade Modelos polinomiais 1. Soma de quadrados extra Nos textos de estatística em língua inglesa, este assunto aparece com a denominação de Soma de Quadrados Extra (Extra Sums fo Squares). A idéia básica é verificar a redução na soma de quadrados do erro quando uma ou mais variáveis preditoras são adicionadas no modelo de regressão, dado que outras variáveis preditoras já estão incluídas no modelo. De outro lado, podemos pensar no acréscimo na soma de quadrados da regressão quando uma ou mais variáveis explanatórias são adicionadas no modelo. * Utilização: verificar se certas variáveis X podem ser retiradas do modelo de regressão. (Construção de modelos). 1 Exemplo: foi realizado um estudo com 20 mulheres para estudar a relação da quantidade de gordura no corpo (Y) com as seguintes variáveis explanatórias:1) espessura do triceps (X1); 2) circunferência da coxa (X2) e 3) circunferência do meio do braço (X3). Os dados são apresentados na tabela a seguir: Xi1 Xi2 Xi3 Yi ------------------------------------------ 19.5 24.7 30.7 29.8 19.1 25.6 31.4 27.9 22.1 25.5 31.1 30.4 18.7 19.7 14.6 29.5 27.7 30.2 22.7 25.2 43.1 49.8 51.9 54.3 42.2 53.9 58.5 52.1 49.9 53.5 56.6 56.7 46.5 44.2 42.7 54.4 55.3 58.6 48.2 51.0 29.1 28.2 37.0 31.1 30.9 23.7 27.6 30.6 23.2 24.8 30.0 28.3 23.0 28.6 21.3 30.1 25.7 24.6 27.1 27.5 11.9 22.8 18.7 20.1 12.9 21.7 27.1 25.4 21.3 19.3 25.4 27.2 11.7 17.8 12.8 23.9 22.6 25.4 14.8 21.1 A quantidade de gordura no corpo das 20 mulheres foram obtidas por um método incômodo e dispendioso, pois envolve a imersão das pessoas na água. Portanto, seria muito útil se um modelo de regressão com algumas ou todas as variáveis preditoras fornecessem estimativas confiáveis da quantidade de gordura no corpo pois as mensurações das variáveis preditoras são fáceis de serem obtidas. 2 A seguir vamos apresentar os resultados da análise de variância da regressão para quatro modelos ajustados: Modelo 1) regressão da quantidade de gordura (Y) sobre espessura do triceps (X1); Modelo 2) regressão da quantidade de gordura (Y) sobre a circunferência da coxa (X2); Modelo 3) regressão da quantidade de gordura (Y) sobre espessura do triceps (X1) e sobre a circunferência da coxa (X2); Modelo 4) regressão da quantidade de gordura (Y) sobre espessura do triceps (X1), sobre a circunferência da coxa (X2) e circunferência do braço (X3) Modelo 1: 3 Modelo 2: Modelo 3: 4 Modelo 4: Notação: SQR(X1): soma de quadrados da regressão quando apenas X1 está no modelo. SQE(X1): soma de quadrados do erro quando apenas X1 está no modelo. SQR(X1,X2): soma de quadrados da regressão quando X1 e X2 estão incluías no modelo. SQE(X1,X2): soma de quadrados do erro quando X1 e X2 estão incluías no modelo. 5 Observe, no exemplo, que a SQE(X1,X2)=109,95, a qual é menor do que aquela que contém apenas X1 no modelo, SQE(X1)=143,12. A diferença é denominada de soma de quadrados extra e é representada por SQR(X2|X1): SQR( X 2 | X 1 ) SQE( X 1 ) SQE( X1 , X 2 ) SQR( X 2 | X 1 ) 143,12 109,95 33,17 Esta redução na soma de quadrados do erro é o resultado da adição de X2 no modelo dado que X1 já está incluída no modelo. Esta soma de quadrados extra dada por SQR(X2|X1), mede o efeito marginal da adição de X2 no modelo de regressão quando X1 já está incluída no modelo. Equivalentemente, podemos calcular a soma de quadrados extra como: SQR( X 2 | X 1 ) SQR( X 1 , X 2 ) SQR( X 1 ) SQR( X 2 | X 1 ) 385,44 352,27 33,17 Vamos considerar a soma de quadrados extra de X3 dado que X1 e X2 já estão incluídas no modelo: SQR( X 3 | X 1 , X 2 ) SQE( X 1 , X 2 ) SQE( X 1 , X 2 , X 3 ) SQR( X 3 | X 1 X 2 ) 109,95 98,41 11,54 6 Ou, de forma equivalente: SQR( X 3 | X 1 , X 2 ) SQR( X 1 , X 2 , X 3 ) SQR( X 1 , X 2 ) SQR( X 3 | X 1 , X 2 ) 396,98 385,44 11,54 Outra soma de quadrados extra: (efeito da adição de X2 e X3 ao modelo quando X1 já está no modelo). SQR( X 2 , X 3 | X 1 ) SQE( X 1 ) SQE( X 1 , X 2 , X 3 ) SQR( X 2 | X 1 ) 143,12 98,41 44,71 Ou, de forma equivalente: SQR( X 2 , X 3 | X 1 ) SQR( X 1 , X 2 , X 3 ) SQR( X 1 ) SQR( X 2 | X 1 ) 396,98 352,27 44,71 Decomposição da SQRegressão em soma de quadrados extra SQR( X1, X 2 , X 3 ) SQR( X1 ) SQR( X 2 | X1 ) SQR( X 3 | X1, X 2 ) 7 Tabela da ANOVA com a decomposição da soma de quadrados da regressão. A tabela da ANOVA abaixo contém a decomposição da SQR para o caso de três variáveis explanatórias (X), frequêntemente usadas nos programas estatísticos. Decomposição da soma de quadrados da regressão para 3 variáveis explanatórias Causas de Soma de Graus de Quadrados variação quadrados liberdade médios Regressão SQR(X1,X2,X3) 3 QMR(X1,X2,X3) X1 SQR(X1) 1 QMR(X1) X2|X1 SQR(X2|X1) 1 QMR(X2|X1) X3|X1,X2 SQR(X3|X1,X2) 1 QMR(X3|X1,X2) Erro SQE(X1,X2,X3) n-4 QME(X1,X2,X3) Total SQTO n-1 QMR( ) SQR( gl ) 8 Exemplo: para os dados de gordura do corpo, os resultados da decomposição indicada na tabela anterior, ficam: Decomposição da soma de quadrados da regressão para o exemplo de gordura do corpo Causas de Soma de Graus de Quadrados variação quadrados liberdade médios Regressão (396,98) (3) (132,33) X1 352,27 1 352,27 X2 |X1 33,17 1 33,17 X3 |X1,X2 11,54 1 11,54 Erro 98,41 16 6,15 Total 495,39 19 Observe que cada soma de quadrados de regressão extra, envolvendo uma única variável, está associado 1 grau de liberdade. Da mesma forma, a uma soma de quadrados de regressão extra, envolvendo duas variáveis explanatórias, como: SQR(X2, X3|X1), estão associados dois graus de liberdade, pois, SQR(X2, X3|X1)= SQR(X2|X1)+ SQR(X3|X1,X2) 9 Considerações sobre o programa estatístico: SAS (Statistical Analysis System). data gordura; input triceps coxa midarm gordura; datalines; 19.5 43.1 29.1 11.9 24.7 49.8 28.2 22.8 30.7 51.9 37.0 18.7 . . . . . . . . 30.2 58.6 24.6 25.4 22.7 48.2 27.1 14.8 25.2 51.0 27.5 21.1 ; proc glm; model gordura=triceps coxa midarm; run; Source DF Type I SS TRICEPS COXA MIDARM 1 1 1 352.27 33.17 11.55 X1 X2|X1 X3|X1,X2 Mean Square 352.279 33.17 11.55 F Value 57.28 5.39 1.88 Pr > F 0.0001 0.0337 0.1896 10 Por exemplo, se desejamos calcular a soma de quadrados extra, SQR(X1, X3 |X2), utilizando o SAS ou outro programa estatístico, que fornece soma de quadrados extra com 1 grau de liberdade, na ordem em que as variáveis entram no modelo, precisaríamos entrar com as variáveis na ordem X2, X1, X3 ou X2, X3, X1. Na primeira ordem temos: SQR(X2) SQR(X1|X2) SQR(X3|X1, X2) SQR(X1, X3 |X2) No SAS: proc glm; model gordura=coxa triceps midarm; run; Source DF Type I SS COXA (X2) 1 381.97 TRICEPS (X1|X2) 1 3.47 MIDARM (X3| X2, X1) 1 11.55 Mean Square 381.97 3.47 11.55 F Value 62.11 0.56 1.88 Pr > F 0.0001 0.4633 0.1896 11 Exemplo: para os dados de empresas de estúdio fotográfico, os resultados da decomposição da soma de quadrados da regressão em X1 e X2|X1, fica: Decomposição da soma de quadrados da regressão para o exemplo de empresas de estúdio fotográfico X1= população e X2=renda Causas de Soma de Graus de Quadrados F Valor p variação quadrados liberdade médios Regressão (24015,28) (2) (12007,64) 99,10 0,0000 X1 (População) 23371,81 1 23371,81 192,2 0,0000 X2|X1 643,47 1 643,47 5,31 0,0333 Erro 2180,93 18 121,16 Total 26196,21 20 Decomposição do modelo: X2 (renda) e X1|X2 (população|renda) Decomposição da soma de quadrados da regressão para o exemplo de empresas de estúdio fotográfico X1= população e X2=renda Causas de Soma de Graus de Quadrados F Valor p variação quadrados liberdade médios Regressão (24015,28) (2) (12007,64) 99,10 0,0000 X2 (renda) 18299,78 1 18299,78 151,04 0,0000 X1|X2 5715,5 1 5715,50 47,17 0,0001 Erro 2180,93 18 121,16 Total 26196,21 20 12 A importância do cálculo das somas de quadrados extra, é que podemos fazer uma variedade de testes de hipóteses sobre os coeficientes de regressão, onde, a questão de interesse, é saber se certas variáveis explanatórias podem ser retiradas do modelo de regressão. 2. Testes de hipóteses sobre os coeficientes de regressão usando as somas de quadrados extra. Teste se um único coeficiente k=0 Desejamos saber se o termo kXk pode ser retirado do modelo. As hipóteses são: H 0 : k 0 H a : k 0 O modelo completo: Vamos considerar um modelo de primeira ordem com 3 variáveis preditoras: Yi 0 1 X i1 2 X i 2 3 X i 3 i 13 Vamos considerar as hipóteses: H 0 : 3 0 H a : 3 0 Ajustamos o modelo completo e obtemos SQE(completo)=SQE(X1,X2,X3), com n-4 graus de liberdade, uma vez que há 4 parâmetros no modelo. O modelo reduzido: Sob a hipótese nula, o modelo fica: Yi 0 1 X i1 2 X i 2 i Ajustamos o modelo reduzido e obtemos SQE(reduzido)=SQE(X1,X2), com n-3 graus de liberdade. 14 O teste estatístico (como já foi visto) é dado por: F* SQE ( R ) SQE ( C ) gl R glC F* SQE ( X 1 , X 2 ) SQE ( X 1 , X 2 , X 3 ) ( n 3) ( n 4 ) SQEglC( C ) SQE ((Xn1,4X)2 , X 3 ) Observe que no numerador temos a soma de quadrados extra: SQE( X1, X 2 ) SQE( X1, X 2 , X 3 ) SQR( X 3 | X1, X 2 ) Assim, o teste estatístico é dado por: F* SQR ( X 3 | X 1 , X 2 ) (1) SQE ((Xn1,4X)2 , X 3 ) QMR ( X 3 | X 1 , X 2 ) QME ( X 1 , X 2 , X 3 ) Exemplo: com os dados de gordura do corpo, vamos verificar se podemos retirar a variável circunferência do meio do braço (X3) do modelo. As hipóteses são: H 0 : 3 0 H a : 3 0 15 Já obtivemos os resultados das somas de quadrados do erro do modelo completo e, também, da soma de quadrados extra, quando as variáveis entram no modelo na ordem X1, X2, X3.Assim, o teste estatístico vale: F* SQR ( X 3 | X 1 , X 2 ) (1) QMR ( X 3 | X 1 , X 2 ) SQE ((Xn1,4X)2 , X 3 ) QME ( X1 , X 2 , X 3 ) F * 111,54 9816,41 1,88 Com o auxílio de um programa estatístico encontramos P(F>1,88)=0,189261, portanto, não rejeitamos a hipótese nula e concluímos que podemos retirar a variável X3 do modelo que já contém X1, X2. O mesmo teste pode ser feito com o uso da estatística t* b3 s ( b3 ) 2 ,186 1,596 1,37 Com 1 grau de liberdade, sempre temos que: (t*)2=(-1,37)=1,88=F*, portanto, os dois testes produzem os mesmos resultados. 16 Nota: soma de quadrados parcial no SAS Soma de quadrados tipo III no SAS, também conhecida como soma de quadrados parcial. Este tipo produz somas de quadrados do tipo: SQR( X 1 | X 2 , X 3 ) SQR( X 2 | X 1 , X 3 ) SQR( X 3 | X 1 , X 2 ) Exemplo: para os dados de gordura do corpo, temos: Source TRICEPS (X1|X2,X3) COXA (X2|X1,X3) MIDARM (X3|X1,X2) DF Type III SS Mean Square 1 1 1 12.70 7.53 11.55 12.70 7.53 11.55 F Value Pr > F 2.07 1.22 1.88 0.1699 0.2849 0.1896 17 Teste se vários coeficientes k=0 Exemplo: para o modelo Yi 0 1 X i1 2 X i 2 3 X i 3 i Podemos querer saber se podemos retirar os termos 2X2 e 3X3 do modelo. As hipóteses são dadas por: H 0 : 2 3 0 H a : pelo m enosum k 0 O modelo reduzido: Sob a hipótese nula, o modelo fica: Yi 0 1 X i1 i A soma de quadrados do erro para este modelo é SSE(R)=SQE(X1), com n-2 graus de liberdade. 18 O teste estatístico é dado por: F* SQE ( R ) SQE ( C ) gl R glC F* SQE ( X 1 ) SQE ( X 1 , X 2 , X 3 ) ( n 2 ) ( n 4 ) SQEglC( C ) SQE ((Xn1,4X)2 , X 3 ) Observamos que: SQE( X1 ) SQE( X1, X 2 , X 3 ) SQR( X 2 , X 3 | X1 ) Substituindo, o teste F* fica: F* SQR ( X 2 , X 3 | X 1 ) ( 2) SQE ((Xn1,4X)2 , X 3 ) QMR ( X 2 , X 3 | X 1 ) QME ( X 1 , X 2 , X 3 ) Exemplo: desejamos saber se para os dados do problema de gordura do corpo, podemos retirar ambas as variáveis: circunferência da coxa (X2) e circunferência do meio do braço (X3). 19 Como já vimos anteriormente: SQR(X2, X3|X1)= SQR(X2|X1)+ SQR(X3|X1,X2) SQR(X2, X3|X1)= 33,17+11,54=44,71 resultados na tabela da ANOVA O valor da estatística de teste é: F * SQR ( X 2 , X 3 | X1 ) ( 2) SQE ( X1 , X 2 , X 3 ) ( n 4 ) 9844,,4171//162 3,63 A probabilidade de se encontrar um valor de F* mais extremo do que este é P(F>3,63)=0,050128. Para =0,05, estamos no ponto limitrófico, pode-se desejar fazer outras análises antes de se tomar uma decisão. 20 3. Outros tipos de testes Quando deseja-se fazer um teste sobre os coeficientes de regressão, que não se um (1) ou todos eles são iguais a zero, as somas de quadrados extra não podem mais serem utilizadas e o teste necessita que se faça ajustes separados dos modelos completo e reduzido. Caso 1) Exemplo, para o modelo completo Yi 0 1 X i1 2 X i 2 3 X i 3 i Desejamos testar: H 0 : 1 2 H a : 1 2 O procedimento é ajustar o modelo completo, e então ajustar o modelo reduzido: Yi 0 c ( X i1 X i 2 ) 3 X i 3 i Onde c representa um coeficiente comum para 1 e 2 sob H0 e (Xi1+Xi2) é a nova variável X. 21 Usamos o teste estatístico geral: F* SQE ( R ) SQE ( C ) gl R glC SQEglC(C ) Com 1 [p.e.dados gordura corpo (20-3)-(20-4)=17-16=1] e n-4 graus de liberdade. Caso 2) Exemplo: desejamos testar, H 0 : 1 3, 3 5 H a : 1 3, e/ou 3 5 De acordo com a hipótese nula, o modelo reduzido fica: Yi 3X i1 5X i 3 0 2 X i 2 i A variável resposta fica Yi-3Xi1-5Xi3. Usamos o teste estatístico geral dado anteriormente com 2 e n-4 graus de liberdade. 22 Exemplo: desejamos saber se para os dados do problema de gordura do corpo, podemos considerar um único coeficiente para ambas as variáveis circunferência da coxa (X2) e circunferência do meio do braço (X3), ou seja, 2=3. Para o modelo completo, a SQE(C)=98,41com 16 gl. O modelo reduzido fica: Yi 0 1 X i1 2 ( X i 2 X i 3 ) i A SQE(R)=101,11 com 17 graus de liberdade. F * 111,17111698,41 9816,41 12,7 6,15 2,06 A P(F>2,06)=0,170470, portanto, não devemos rejeitar a hipótese nula. Exercício: qual a interpretação: a taxa de variação em Y é a mesma para mudança de uma unidade em X2 e X3. 23 4. Multicolinearidade Questões de interesse na análise de regressão múltipla: qual é a importância relativa dos efeitos das diferentes variáveis preditoras? qual é a magnitude do efeito de uma dada variável preditora sobre a variável resposta? pode alguma variável preditora ser retirada do modelo porque ela tem pouco efeito sobre a variável resposta? alguma variável preditora ainda não incluída no modelo deveria ser considerada para inclusão? As respostas para estas questões são relativamente fácil se: 1. As variáveis preditoras incluídas no modelo não são correlacionadas entre si; 2. Além disso, não são correlacionadas com qualquer outra variável que é relacionada com a variável resposta, mas é omitida do modelo. 24 Ocorrência de multicolinearidade: exemplo Variável resposta: gasto com alimentação Variáveis regressoras: renda, poupança, idade do chefe do lar (Variáveis incluídas no modelo) Provavelmente estas variáveis são correlacionadas Provavelmente estas variáveis regressoras estão correlacionadas com outras variáveis que afetam o gasto com alimentação, por exemplo, tamanho da família (variável não incluída no modelo). 25 5. Modelos de Regressão Polinomial As variáveis explanatórias devem ser quantitativas. Servem para representar modelos com resposta curvilínea. São fáceis de serem ajustados, pois são um caso especial do modelo de regressão linear múltipla. Usos dos modelos polinomiais •Quando a função de resposta curvilínea verdadeira é realmente uma função polinomial. •Quando a função de resposta curvilínea verdadeira é desconhecida (ou complexa), porém, uma função polinomial é uma boa aproximação para a verdadeira função. Exemplo: produção em resposta a aplicação de adubação. O principal problema com o uso de modelos polinomiais é com a extrapolação. 26 Uma variável preditora - Modelo de segunda ordem Considere o modelo polinomial: Yi 0 1 xi 2 xi2 i Onde, xi X i X A variável preditora, xi, é centrada, ou seja, é dada como desvio em relação a sua média. A razão para usar uma variável preditora centrada no modelo de regressão polinomial é que X e X2 freqüentemente são altamente correlacionadas. Isto pode causar sérias dificuldades para inverter a matriz X’X para estimar os coeficientes de regressão. Trabalhando-se com variáveis centradas, reduz-se a multicolinearidade substancialmente e, isto, tende a diminuir as dificuldades computacionais. Geralmente, muda-se a notação para os modelos polinomiais: Yi 0 1xi 11 xi2 i cuja função de resposta (resposta média) é: E(Y ) 0 1x 11 x2 27 O gráfico desta função é uma parábola e denominada de função de resposta quadrática. E(Y ) 52 8x 2x 2 0 E(Y ) 52 8x 2x 2 0 28 O coeficiente de regressão 0 representa a resposta média de Y quando x=0, isto é, quando X=média de X. O coeficiente de regressão 1 é frequentemente chamado de coeficiente de efeito linear, e 11 é chamado de coeficiente de efeito quadrático. Duas variáveis preditoras - Modelo de segunda ordem linear Modelo: quadrático Yi 0 1xi1 2 xi 2 11 xi21 22 xi22 12 xi1xi 2 i Onde: xi1 X i1 X 1 xi 2 X i 2 X 2 Observe que o penúltimo termo do modelo representa a interação entre x1 e x2. O coeficiente 12 denomina-se coeficiente do efeito da interação. 29 Modelo usado: E(Y ) 1740 4 x12 3x22 3x1x2 Observe que o modelo apresenta ponto de máximo em x1=0 x2=0. Mostra as várias combinações dos níveis das 2 v. preditoras que resultam na mesma resposta 30 Implementação dos modelos de regressão polinomial Ajuste dos modelos de regressão polinomiais. Como já foi visto, os modelos de regressão polinomial são casos especiais do modelo de regressão linear múltipla geral, assim, todos os resultados vistos para o ajuste de modelos e para inferência estatística são válidos aqui. Uma abordagem hierárquica para o ajuste do modelo. Geralmente, ajusta-se um modelo de segunda ou terceira ordem e, então, procura-se estudar se um modelo de menor ordem é adequado. Exemplo: vamos considerar uma variável preditora e um modelo com efeito cúbico, Yi 0 1xi 11 xi2 111 xi3 i Provavelmente, desejaríamos testar: H 0 : 111 0 H 0 : 11 e 111 0 Podemos usar as somas de quadrados extra para realizar estes testes. 31 A decomposição da SQR é dada por: SQR ( x ) SQR ( x 2 | x ) SQR ( x 3 | x, x 2 ) Para testar 111=0, a soma de quadrados extra adequada é SQR(x3|x,x2). Se, ao invés, desejamos testar se 11= 111=0, a soma de quadrados apropriada é SQR(x2,x3|x)=SQR(x2|x)+SQR(x3|x,x2). Para manter a hierarquia do modelo, se, por exemplo, o termo cúbico é significativo, então o termo quadrático e linear devem ser mantidos no modelo. Por exemplo, para duas variáveis preditoras, x1 e x2 o termo da interação (x1x2 ) não deveria ser mantida no modelo, sem, também, manter as variáveis preditoras na primeira potência (termos lineares). A equação de regressão em termos das variáveis X. Depois que o modelo de regressão polinomial foi ajustado, freqüentemente, desejamos expressar o nosso modelo em termos das variáveis originais X.Isto é feito facilmente. 32 Suponha o seguinte modelo: Yˆ b0 b1x b11 x2 com x X - X (12) Em termos da variável original, X, o modelo fica: Yˆ b0' b1' X b11' X 2 Onde: b0' b0 b1 X b11 X 2 (14) b1' b1 2b11 X (15) b11' b11 (16) (13) Exercício: substitua x por ( X X ) em 12 e obtenha as expressões 14, 15 e 16. Os valores ajustados e os resíduos para a função de regressão em termos de X ou das variáveis centradas são os mesmos. 33 Os desvios padrões estimados dos coeficientes de regressão em termos das variáveis centradas x em (12) não valem para os coeficientes de regressão em termos das variáveis originais, X, em (13). Se os desvios padrões estimados para os coeficientes de regressão em termos de X são necessários, eles podem ser obtidos usando-se o teorema σ 2 (W) σ 2 (AY) Aσ 2 (Y)A' onde a matriz de transformação A é obtida de (14)-(16). Exercício: estruture a matriz A. Exercício: um analista de uma cadeia de cafeterias deseja investigar a relação entre o número de máquinas self service e as vendas de café. 14 cafeterias que são similares em termos de volume de negócios, tipo de clientela, e localização foram escolhidas para o experimento. O número de máquinas colocadas em teste variou de zero (o café é fornecido por um (a) atendente) até 6 e foi atribuído aleatoriamente para cada cafeteria. Os resultados do experimento foram: Dados para o exemplo de vendas de café Cafeteria Máquinas Vendas i Xi Yi 1 0 508,1 2 0 498,4 3 1 568,2 4 1 577,3 5 2 651,7 6 2 657,0 7 3 713,4 Cafeteria i 8 9 10 11 12 13 14 Máquinas Xi 3 4 4 5 5 6 6 Vendas Yi 697,5 755,3 758,9 787,6 792,1 841,4 831,8 34 Foi ajustado um modelo de efeito quadrático para os dados: Yˆi 705,47 54,89xi 4,25xi2 Com: xi X i X X i 3 A matriz de variância-covariância das estimativas dos parâmetros é: 0 1,470 10,291 s2 ( b) 0 1,103 0 0 0,368 1,470 Encontre as variâncias das estimativas dos coeficientes de regressão em termos das variáveis originais, X. Exemplo: um pesquisador está estudando os efeitos da taxa de carga e da temperatura sobre o tempo de vida de pilhas. A taxa de carga (X1) foi controlada em três níveis (0,6, 1,0 e 1,4) e a temperatura ambiente (X2)foi controlada em três níveis (10, 20 e 30oC). Os outros fatores que contribuem para a perda de carga foram controlados (fixos). A vida das pilhas (Y) foi medida em termos do número de ciclos de carga-descarga até falhar. Os resultados obtidos, foram: 35 Dados de vida de pilhas (1) (2) (3) Pilha Número Taxa Tempe de ciclos carga ratura i Yi Xi1 Xi2 1 150 0,6 10 2 86 1,0 10 3 49 1,4 10 4 288 0,6 20 5 157 1,0 20 6 131 1,0 20 7 184 1,0 20 8 109 1,4 20 9 279 0,6 30 10 235 1,0 30 11 224 30 X 1,4 1 1,0 X 2 20 (4) (5) Valores codificados xi1 xi2 -1 -1 0 -1 1 -1 -1 0 0 0 0 0 0 0 1 0 -1 1 0 1 1 1 (6) x i21 1 0 1 1 0 0 0 1 1 0 1 (7) x i22 1 1 1 0 0 0 0 0 1 1 1 (8) xi1xi2 1 0 -1 0 0 0 0 0 -1 0 1 O pesquisador não está seguro sobre a natureza da função de resposta na região de estudo. Assim, o pesquisador decidiu ajustar um modelo de regressão polinomial de segundo grau: 2 2 Yi 0 1xi1 2xi 2 11xi1 22xi 2 12xi1xi 2 i (17) 36 As variáveis foram codificadas da seguinte forma (considerando que os níveis são equidistantes) xi1 X i1 X 1 0, 4 xi 2 Xi2 X2 10 X i 1 1, 0 0, 4 X i 2 20 10 Aqui, 0,4 e 10 é a diferença entre os níveis adjacentes das variáveis. As correlações entre as variáveis valem: X 12 X 22 x12 x22 X1 0,991 X2 x1 x2 0,986 0,000 0,000 Ajuste do modelo. Os resultados, apresentados na página seguinte, foram obtidos com o uso do programa SAS. 37 Dependent Variable: NUMERO Analysis of Variance Source DF Sum of Squares Model Error C Total 5 5 10 55365.56140 5240.43860 60606.00000 Root MSE Dep Mean C.V. 32.37418 172.00000 18.82220 Mean Square 11073.11228 1048.08772 R-square Adj R-sq F Value Prob>F 10.565 0.0109 0.9135 0.8271 Parameter Estimates Variable DF Parameter Estimate INTERCEP COTAXA COTEMPE COTAXA2 COTEMPE2 TATE 1 1 1 1 1 1 162.842105 -55.833333 75.500000 27.394737 -10.605263 11.500000 Standard Error T for H0: Parameter=0 Prob > |T| Type I SS 16.60760542 13.21670483 13.21670483 20.34007956 20.34007956 16.18709146 9.805 -4.224 5.712 1.347 -0.521 0.710 0.0002 0.0083 0.0023 0.2359 0.6244 0.5092 325424 18704 34202 1645.966667 284.928070 529.000000 Modelo 2 2 ajustado: Yˆ 162,84 55,83x1 75,50 x2 27,39 x1 10,61x2 11,50 x1x2 38 Gráfico de resíduos: nenhum dos gráficos sugere que o modelo de regressão seja inadequado. 39 Teste do ajuste (Test of fit): como existem 3 repetições em x1=0, x2=0, podemos realizar o teste F para falta de ajuste (lack of fit) do modelo (17). A soma de quadrados do erro puro é dado por: c n j i SQEP (Yij Y j ) 2 (157 157,33) 2 (131 157,33) 2 (184 157,33) 2 1404,67 Como existem c=9 distintas combinações dos níveis de X, existem n-c=11-9=2 graus de liberdade associados com a soma de quadrados do erro puro. Além disso, no output do SAS, temos: SQE=5240,44, portanto, a soma de quadrados da falta de ajuste vale: SQFA SQE SQEP 5240,44 14040,67 3835,77 Com c-p=9-6=3 graus de liberdade, onde p é o número de parâmetros do modelo. O teste estatístico é dado por: SQEP 3835 , 77 1404 , 67 F * SQFA 2 1,82 c p n c 3 A P(F>1,82)=0,626153, portanto, não rejeitamos a hipótese nula, assim, o modelo está ajustado. 40 Coeficiente de determinação: no output do SAS temos: R2 0,9135 Assim, cerca de 91% da variabilidade do tempo de vida das pilhas é explicada pelo modelo (17). Observe que o coeficiente de determinação ajustado é bem menor: 0,8271(devido ao grande número de parâmetros no modelo). Teste F (Verificar se um modelo de 1a. ordem é suficiente) H 0 : 11 22 12 0 H a : pelo menosum difere de zero. O teste estatístico é dado por: F SQR ( X q ,...,X p 1 | X 1 ,...,X q 1 ) pq QMR ( X q ,...,X p 1 | X 1 ,...,X q 1 ) QME SQR ( x12 , x22 , x1 x2 |x1 , x2 ) 633 * SQE ( X 1 ,...,X p 1 ) n p QME 41 Na saída do SAS, temos as somas de quadrados tipo I (Type I SS). A ordem de entrada das variáveis explanatórias no modelo foi: x1, x2 , x12 , x22 , x1x2 Portanto, temos as seguintes somas de quadrados parciais: SQR( x1 ) 18.704, SQR( x2 | x1 ) 34.202, SQR( x12 | x1 , x2 ) 1645,97 SQR( x22 | x1 , x2 , x12 ) 284,93 SQR( x1 x2 | x1 , x2 , x12 , x22 ) 529,00 A soma de quadrados extra desejada é calculada por: 2 2 2 2 2 SQR ( x1 , x 2 , x1 x 2 | x1 , x 2 ) SQR ( x1 | x1 , x 2 ) SQR ( x 2 | x1 , x 2 , x1 ) 2 2 SQR ( x1 x 2 | x1 , x 2 , x1 , x 2 ) 42 O valor desta soma de quadrados é: 1646, 284,9 529 2459,9 O quadrado médio residual vale: QMR=1048,1. Assim, o teste estatístico vale: F * 24593 ,9 1048,1 0,78 A P(F>0,78)=,553749. Portanto, concluímos que os termos quadráticos e da interação podem ser retirados do modelo, assim, um modelo de primeira ordem é adequado na região de estudo. O modelo de primeira ordem Yi 0 1xi1 2 xi 2 i O modelo de primeira ordem ajustado é dado por: Yˆ 172,00 55,83x1 75,50x2 (18) Exercício: 1)faça uma análise de resíduos e verifique se o ajuste do modelo está realmente bom. 2) Reescreva o modelo (18) em termos das variáveis originais X. 3) Calcule os desvios padrões das estimativas dos parâmetros para este modelo. 43 A figura mostra a superfície de resposta para o modelo de primeira ordem com as variáveis originais. Usamos esta superfície para estudar o efeito da carga e temperatura sobre a vida das pilhas. Observamos que usando-se temperaturas mais altas e menores taxas, a vida das pilhas diminui. 44 Intervalo de confiança para k O pesquisador deseja encontrar os intervalos de confiança de 95% para os parâmetros do modelo (18). Sabemos que: bk t (1 / 2; n p)s(bk ) Para 1 o intervalo de confiança é dado por: 55,83 2,306(12,67) 55,83 29,217 85,047 1 26,613 Exercício: dado o s(b2)=12,67, encontre o intervalo de confiança para 2. 45 Modelos de regressão com interação Efeitos da interação EY 0 1 X1 2X2 3 X1 X 2 Termo da interação Interpretação dos modelos de regressão com interação de efeito linear Considere o modelo: Yi 0 1 X i1 2 X i 2 3 X i1 X i 2 i 46 Pode ser mostrado que a mudança na resposta média com o acréscimo de 1 unidade em X1 quando X2 é mantido constante é: 1 3 X i 2 Da mesma forma temos para X2: 2 3 X i1 Exemplo: EY 10 2 X1 5 X 2 0,5 X1 X 2 X 2 1 1 3 X 2 2 0,5(1) 2,5 X 2 3 1 3 X 2 2 0,5(3) 3,5 47 O aumento em Y com o acréscimo de 1 unidade em X1 é maior, quanto maior for o nível de X2. 48 Implementação dos modelos de regressão com interação I. Alta multicolinearidade pode existir entre algumas das variáveis explanatórias e algumas das interações, assim como entre algumas interações. Uma medida remediadora é usar: x X X Uma alternativa é usar a técnica conhecida como regressão polinomial, pois os polinômios ortogonais sempre serão não correlacionados. II. Com muitas variáveis regressoras implica num grande número de interações. Medida: usar um modelo aditivo e fazer o gráfico de resíduos versus interações; 49 Fazer a lista de exercícios número 7 50