Regressão Linear Múltipla Rejane Sobrino Pinheiro Tânia Guillén de Torres Regressão linear múltipla Introdução Pode ser vista como uma extensão da regressão simples Mais de uma variável independente é considerada. Lidar com mais de uma variável é mais difícil, pois: É mais difícil escolher o melhor modelo, uma vez que diversas variáveis candidatas podem existir É mais difícil visualizar a aparência do modelo ajustado, mais difícil a representação gráfica em mais de 3 dimensões Às vezes, é difícil interpretar o modelo ajustado Cálculos difíceis de serem executados sem auxílio de computador Exemplo: Supondo dados de peso, altura e idade de 12 crianças: Criança 1 2 3 4 5 6 7 8 9 10 11 12 Peso (Y) 64 71 53 67 55 58 77 57 56 51 76 68 Altura (X1) 57 59 49 62 51 50 55 48 42 42 61 57 Idade (X2) 8 10 6 11 8 7 10 9 10 6 12 9 A regressão múltipla pode ser usada para estudar o peso e sua variação em função da altura e idade das crianças. Modelo O modelo de Regressão Linear Múltipla é representado pela equação Y 0 1 X 1 2 X 2 ... k X k As constantes: 0, 1, 2, ...,k, são os parâmetros populacionais. ^ ^ ^ ^ Os estimadores são representadas por: 0, 1, 2,..., k Um exemplo de regressão linear múltipla pode ser dado a partir da inclusão de um termo de ordem mais elevada, como X2. Embora seja a mesma variável (X), esta pode ser interpretada como uma segunda variável (X2). Y 0 1 X 2 X 2 Y 0 1 X 1 2 X 2 Usos da Regressão Múltipla Ajustar dados: estudar o efeito de uma variável X, ajustando ou levando em conta outras variáveis independentes. Obter uma equação para predizer valores de Y a partir dos valores de várias variáveis X1, X2, ...,Xk . Explorar as relações entre múltiplas variáveis ( X1, X2, ..., Xk ) para determinar que variáveis influenciam Y. A solução dos mínimos quadrados é a que minimiza a soma dos quadrados dos desvios entre os valores observados e a superfície de regressão ajustada. ^ n (Y i Y i ) 2 I 1 ^ ^ ^ ^ ^ ^ n 2 (Yi ( X 1i X 2i ... X ki) 0 1 2 k i 1 ^ ^ ^ ^ i Y i Y i Y i ( 0 X 1i 2 X 2i ... k X ki) 1 Pressupostos da Regressão Linear Múltipla Os pressupostos da regressão linear simples podem ser estendidos para a regressão linear múltipla 1. Existência: Para uma combinação específica das variáveis independentes X1, X2, ...,Xk, Y é uma variável aleatória com uma certa distribuição de probabilidade, com média e variância finitas. 2. Independência: As observações de Y são estatisticamente independentes umas das outras. Este pressuposto é violado quando mais de uma observação é feita de um mesmo indivíduo. Pressupostos da Regressão Linear Múltipla (cont...) 3.Linearidade: O valor médio de Y para cada combinação específica de X1, X2, ...,Xk é uma função linear de X1, X2, ...,Xk. Y | X X X E (Y / X 1 X 2 X k ) 0 1 X 1 2 X 2 ... k X k 1 2 k Ou Y 0 1 X 1 2 X 2 ... k X k componente de erro do modelo, refletindo a diferença entre o valor observado para um indivíduo e a verdadeira resposta média Y | X X X para o conjunto de indivíduos de mesmas características. 1 2 k A relação entre Y e Xi é linear ou é bem aproximada por uma função linear. Pressupostos da Regressão Múltipla (cont...) 4. Homocedasticidade: A variância de Y é a mesma para qualquer combinação fixa de X1, X2, ...,Xk. 2 Y / X 1 X 2X k Var(Y / X 1 X 2 X k ) 2 Este pressuposto pode parecer muito restritivo. Heterocedasticidade deve ser considerada somente quando os dados apresentarem óbvia e significante não homogeneidade das variâncias. Em geral, não considerar a homocedasticidade não acarreta efeitos adversos nos resultados. 5. Amostra aleatória ou representativa da população. Pressupostos da Regressão Múltipla (cont...) 6. Normalidade: para uma combinação fixa de X1, X2, ..., Xk, a variável Y tem distribuição normal. Y~N( Y | X X X 1 2 k Ou de modo equivalente ~N (0, 2) , 2) Pressupostos da Regressão Múltipla 7. Normalidade de Y Este pressuposto não é necessário para o ajuste do modelo usando os mínimos quadrados, mas é importante para a realização da inferência. Os testes de hipóteses paramétricos usuais e os cálculos dos intervalos de confiança utilizados nas análises de regressão são bastante robustos, de modo que somente em casos em que a distribuição de Y se afaste muito da distribuição normal os resultados gerados serão inadequados. No caso de não normalidade, transformações matemáticas de Y podem gerar conjunto de dados com distribuição aproximadamente normal (Log Y, Y); no caso de variável Y categórica nominal ou ordinal, métodos de regressão alternativos são necessários (logística - dados binários, Poisson dados discretos) A Homocedasticidade e a Normalidade se aplicam à distribuição condicional de Y | X1, X2, ...,Xk Y / X 1 X 2 X k ~ N ( 2 , ) Y / X ,X ...,X 1 2 k Determinando a melhor estimativa para o modelo de regressão múltipla A abordagem dos mínimos quadrados Minimiza a soma dos quadrados dos erros ou as distâncias entre os valores observados (Yi) e os valores preditos Yˆ i pelo modelo ajustado. Yˆ ˆ ˆ 0 n 1 X ˆ X 1 2 n (Y i Yˆ i) (Y i ( ˆ ˆ I 1 2 I 1 0 1 2 ˆ X 1i ˆ 2 p X p X 2i ˆ p X 2 )) pi i (Y i Yˆ i) Y i (ˆ 0 ˆ 1 X 1i ˆ 2 X 2i ˆ p X pi) A solução de mínimos quadrados consiste nos valores de ˆ 0 , ˆ1, ˆ 2 ,..., ˆ k (chamados de estimadores de mínimos quadrados) para os quais a soma da equação anterior é mínima. Cada um dos estimadores linear dos valores de Y. ˆ 0 , ˆ1, ˆ 2 ,..., ˆ k é uma função Se os valores de Y são normalmente distribuídos e são independentes entre si, os estimadores terão distribuição normal, com desvios padrões facilmente computáveis. Exemplo: Supondo dados de peso, altura e idade de 12 crianças: Criança 1 2 3 4 5 6 7 8 9 10 11 12 Peso (Y) 64 71 53 67 55 58 77 57 56 51 76 68 Altura (X1) 57 59 49 62 51 50 55 48 42 42 61 57 Idade (X2) 8 10 6 11 8 7 10 9 10 6 12 9 2 PESO 0 1 ALTURA 2 IDADE 3 (IDADE ) ^ 2 PESO 3.438 0.724 ALTURA 2.777 IDADE 0.042( IDADE ) ^ ^ ^ 0 3.438 1 0.724 2 2.777 ^ 3 0.042 A velocidade do efeito da idade diminui com o passar da idade Apresentar o efeito da idade para determinadas faixas: Peso1 para crianças de X anos Peso2 para crianças de Z anos X – Z Peso1 - Peso2 Interpretação dos coeficientes O coeficiente apresentado na tabela refere-se ao coeficiente parcial da regressão e difere do da regressão simples considerando a relação de cada variável independente em separado. O coeficiente expressa o aumento médio em Y dado um aumento de 1 unidade de X, sem considerar o efeito de qualquer outra variável independente (mantendo todos os outros fatores constantes). Para um aumento de 1 unidade na altura, há um aumento médio de 0.724 no peso, para crianças de mesma idade. O coeficiente da regressão padronizado Interesse em ordenar os coeficientes por grau de importância na predição de Y. Difícil comparar os coeficientes da regressão para saber qual variável independente possui maior associação com a variável dependente Y, pois cada variável está em uma unidade diferente. O coeficiente padronizado permite comparação da importância de cada variável para a predição de Y. Se X aumenta em 1 desvio padrão (Sx), indo para x + Sx, então Y aumentaria .Sx unidades. Caso seja desejado que o aumento em Y seja dado em desvios padrões de Y, podemos dividir a expressão por SY, para saber quantos desvios padrões possui o termo .Sx .Sx/Sy O coeficiente padronizado da regressão (standard estimates) representa o aumento médio em Y (expresso em unidades de desvio padrão de Y) por um aumento de 1 desvio padrão em X, depois de ajustado por todas as outras variáveis do modelo Y1 0 1 X 1 2 X 2 Y2 0 1 ( X 1 S X 1 ) 2 X 2 Y2 Y1 0 1 ( X 1 S X 1 ) 2 X 2 ( 0 1 X 1 2 X 2 ) Y2 Y1 1 ( X 1 S X1 X 1 ) Y2 Y1 1S X1 Y2 Y1 1 S X1 SY padronizado Se fizermos gráficos separados entre as diversas variáveis, poderemos ter uma visão de pedaços ou projeções da superfície ajustada. Suponhamos que a superfície seja um plano (relação linear entre todos os fatores). A tabela ANOVA da Regressão Múltipla Como no modelo de Regressão Simples: Variação total não explicada = Variação devida à regressão + variação residual não explicada SSY= SSR + SSE n _ n ^ _ n ^ (Yi Y ) (Yi Y ) (Yi Yi ) i 1 2 i 1 2 2 i 1 R2 = (SSY-SSE)/SSY R2 sempre cresce à medida que mais variáveis são incluídas no modelo. Um acréscimo muito pequeno em R2 pode não apresentar importância prática ou importância estatística. ^ 2 3 . 438 0 . 724 ALTURA 2 . 777 IDADE 0 . 042 ( IDADE ) PESO Fonte g.l. F R2 231.02 9.47 0.7802 24.40 P = 0.0052 SS MS soma dos quadrados quadrados médios k=3 SSY-SSE=693.06 Resíduo n-k-1=8 SSE=195.19 Total n-1=11 SSY=888.25 de variação Regressão SSR R SSY 2 Fcrítico = Fk,n-k-1,1- MSR F MSE SSE SSR k (n k 1) REGREESSION OF PAS (Y) ON IDADE (X) Analysis of Variance Sum of Mean Squares Square F Value 6394.02269 6394.02269 21.330 8393.44398 299.76586 14787.46667 SSY-SSE Source Model Error C Total1 DF 1 28 29 SSY ^ ^ SSE _ ^ ^ ^ ^ ^ _ _ ^ ^ _ Y X Y X Yi X i n Prob > F 0.0001 ^ _ _ _ ^ SSY SSE (Y i Y) [ X i Y ] [ ( X i X )] 2 2 2 ^ 1 gl β i 1 n ^ ^ ^ _ ^ _ ^ SSE (Yi Yi ) [Yi ( X i )] [Yi (Y X X i )]2 2 2 i 1 n _ SSY (Y i Y) 2 i 1 _ n 1 gl Y Aqui, trabalha-se com os dados originais ^ ^ n 2 gl α e β Modelo 1: PESO = 0 + 1 ALTURA + Analysis of Variance Source Model Error C Total DF 1 10 11 Sum of Squares 588.9225231 299.3274768 888.2500000 SSR= SSY-SSE estatística F para o teste global F Value 19.67 Prob > F 0.0013 SSE Dep Mean 62.750000 SSY C.V. 8.718857 R-square 0.663014 R2 Parameter Estimates Variable Parameter Estimate INTERCEPT ALTURA 6.189848707 1.072230356 ^ 0 T for H0: Parameter=0 0.48 4.44 Prob > |T| 0.6404 0.0013 Standard Error OS Estimate 12.84874620 0.24173098 ^ 1 Modelo 1: PESOi = 6.1898 + 1.0722 ALTURA + i Modelo 2: PESO = 0 + 1 IDADE + Analysis of Variance Source Model Error C Total Dep Mean 62.750000 DF 1 10 11 Sum of Squares 526.39285714 361.85714286 888.25000000 F Value 14.55 C.V. 9.586385 Prob > F 0.0034 R-square 0.592618 Parameter Estimates Variable Parameter Estimate INTERCEPT IDADE 30.57142857 3.64285714 T for H0: Parameter=0 3.55 3.81 Prob > |T| 0.0053 0.0034 Standard Error OS Estimate 8.61370526 0.95511512 Modelo 3: PESO = 0 + 1 ALTURA + 2IDADE + Analysis of Variance Source Model Error C Total Dep Mean 62.75000000 DF 2 9 11 Sum of Squares 692.82260654 195.42739346 888.25000000 F Value 15.95 C.V. 7.426048 Prob > F 0.0011 R-square 0.779986 Parameter Estimates Variable Parameter Estimate INTERCEPT ALTURA IDADE 6.553048251 0.722037958 2.050126352 T for H0: Parameter=0 0.60 2.77 2.19 Prob > |T| 0.5641 0.0218 0.0565 Standard Error OS Estimate 10.94482708 0.26080506 0.93722561 O modelo 3 possui melhor ajuste dos 3 modelos apresentados (maior R2). Modelo 4: PESO = 0 + 1 ALTURA + 2IDADE + 3(IDADE)2 + Analysis of Variance Source Model Error C Total Dep Mean 62.75000000 DF 3 8 11 Sum of Squares 693.06046340 195.18953660 888.25000000 F Value 9.47 C.V. 7.871718 Prob > F 0.0052 R-square 0.780254 Parameter Estimates Variable Parameter Estimate INTERCEPT ALTURA IDADE (IDADE)2 3.438426001 0.723690241 2.776874563 -0.041706699 T for H0: Parameter=0 0.10 2.61 0.37 -0.10 Prob > |T| 0.9210 0.0310 0.7182 0.9238 Standard Error OS Estimate 33.61081984 0.27696316 7.42727877 0.42240715 R2 modelo 3 = 0.780 e R2 modelo 4 = 0.7803 ==> 0.7803 0.780? Efito da colinearidade – fx pequena de Modelo 3 mais parcimonioso. idade; e a relação deve ser uma reta Teste de hipótese em Regressão Múltipla Uma vez que o modelo está ajustado, algumas questões com respeito ao ajuste e sobre a contribuição de cada variável independente para a predição de Y são importantes. São 3 questões básicas a serem respondidas: 1. Teste sobre a contribuição global de todas as variáveis tratadas coletivamente, o conjunto completo das variáveis (ou, equivalentemente, o modelo ajustado propriamente dito) contribui significativamente para a predição de Y? 2. Teste da adição de uma variável a adição de uma variável independente em particular melhora significativamente a predição de Y (a predição que foi alcançada pelas variáveis já existentes no modelo)? 3. Teste sobre a inclusão de um grupo de variáveis a adição de um conjunto de variáveis independentes melhora significativamente a predição de Y obtida pelas outras variáveis já previamente incluídas no modelo? Estas perguntas são tipicamente respondidas com a realização de testes de hipóteses. Os testes podem ser expressos via o teste F. Em alguns casos, este teste pode ser equivalentemente realizado usando-se o teste t. ^ Todo teste F em regressão envolve uma razão de variâncias 02 estimadas H0 : 2 MS = SS/graus de liberdade Fcrítico=Fnumerador, denominador, 1-nível de significância do teste 1. Teste para o modelo global Um modelo contendo k variáveis independentes como a seguir: Y 0 1 X 1 2 X 2 ... k X k A hipótese nula para este teste: "Todas as k variáveis independentes consideradas conjuntamente não explicam significativa quantidade de variação de Y“ H0: 1 = 2 = ... = k = 0 H1: ao menos 1 0 (pelo menos 1 variável contribui significativamente para a predição de Y) Sob a hipótese H0, o modelo completo pode ser resumido ao intercepto 0 Se uma variável auxiliar na predição (determinado 0), H0 é rejeitada mesmo que os outros 's sejam = 0. Para realização do teste, usam-se os termos médios quadráticos do modelo e do resíduo, como na regressão simples, para cálculo da estatística F: Fontes de variação Soma dos quadrados Graus de liberdade SS n ^ _ 2 i 1 Resíduo SSE k MSR n-k-1 MSE ^ (Yi Yi ) 2 i 1 n Total SSY Estatística F Valor p MS Regressão SSR (Yi Y ) n Quadrados médios SSR k F MSR MSE P SSE n k 1 _ (Yi Y )2 n-1 i 1 n MS Regressão ( SSY SSE ) / k F MS Resíduo SSE /( n k 1) _ SSY (Yi Y )2 i 1 n ^ SSÊ (Yi Y i ) 2 i 1 O teste F calculado pode ser comparado com o ponto crítico da dstribuição F Fk,n-k-1,1- (n k 1) MSE SSE F k MSR ( SSY SSE) nível de significância. H0 é rejeitada se o valor calculado exceder o valor crítico. F pode ser escrito em função de R2. R2 SSY SSE SSY F R2 (1 R ) k 2 (n k 1) (n k 1) (n k 1) (n k 1) MSE SSE SSY R 2 .SSY (1 R 2 ) F k k k MSR R ( SSY SSE) 2 R 2 .SSY Se os erros têm distribuição normal e se H0 é verdadeira, a estatística F tem distribuição F com k e n-k-1 graus de liberdade. Para um nível de significância , temos que: F crítico: Fk,n-k-1,1- rejeita H0 para F calculado maior que F crítico. Interpretação de H0 rejeitada a amostra sugere que as variáveis independentes consideradas cojuntamente ajudam na predição da variável dependente Y. Não significa que todas as variáveios sejam necessárias para a predição de Y. Modelo mais parcimonioso pode ser adotado? 2. O teste F parcial A partir da tabela ANOVA, informação adicional pode ser obtida com respeito ao ganho na predição pela inclusão de variáveis independentes. X1 = ALTURA , X2 = IDADE , X3 = (IDADE)2 1. X1 = ALTURA sozinha prediz Y? 2. A inclusão de X2 = IDADE contribui significativamente para a predição de Y, após considerar (ou controlar por) X1? 3. A inclusão de X3 - (IDADE)2 - contribui significativamente para a predição de Y, após controlar por X1 e X2? SS(X1) soma dos quadrados explicada por somente X1 para predição de Y. SS(X2|X1) soma dos quadrados explicada extra pela inclusão de X2 em adição à X1 para predição de Y. SS(X3|X1,X2) soma dos quadrados explicada extra pela inclusão de X3 em adição à X1 e X2 para predição de Y Para responder à pergunta 1, basta ajustar um modelo linear simples (X1 = ALTURA). F = MSR extra MSE completo SSY = SSR + SSE FIXO Y ^ SSE2 ^ ^ ^ ^ ^ Y 0 1 X 1 2 X 2 ^ Y 0 1 X 1 SSY SSE1 SSR2 SSR1 Y Y SSR1,2 X x1 Fonte X1 X1 e X2 X1, X2 e X3 SSR 588.92 692.82 693.06 SSE 299.33 195.43 195.19 SSY 888.25 888.25 888.25 SS(X1) = 588.92 SS(X2|X1) = SSR (X2|X1) = 692.82 - 588.92 = 103.90 --- SSE (X2|X1) = 299.33-195.43 = 103.43 SS(X3|X1,X2) = SSR (X3|X1,X2) = 693.06 - 692.82 = 0.24 --- SSE (X3|X1,X2) = 195.43-195.19 = 0.24 588.92 SSR do modelo linear simples e SSE = 299.33 (103.90+0.24+195.19) 10 (8+1+1) g.l. 103.90+0.24+195.19 = 299.33 299.33 n-k-1 588/(299.33/10) d.f. SS MS F R2 X1 1 588.92 588.92 19.67 0.7802 X2|X1 1 103.90 103.90 4.78 (0.05<P<0.10) X3|X1,X2 1 0.24 0.24 0.01 Resíduo 8 195.19 24.40 Total 11 888.25 Source Regressão F=103.9/1 / (195.19+0.24)/9 12-k-1 Fonte X1 X1 e X2 X1, X2 e X3 SSR 588.92 692.82 693.06 SSE 299.33 195.43 195.19 SSY 888.25 888.25 888.25 588.92 1 19.67 F 299.33 / 10 n-k-1 588/(299.33/10) d.f. SS MS F R2 X1 1 588.92 588.92 19.67 0.7802 X2|X1 1 103.90 103.90 4.78 (0.05<P<0.10) X3|X1,X2 1 0.24 0.24 0.01 Resíduo 8 195.19 24.40 Total 11 888.25 Source Regressão Fonte X1 X1 e X2 X1, X2 e X3 SSR 588.92 692.82 693.06 SSE 299.33 195.43 195.19 SSY 888.25 888.25 888.25 Y = 0 + 1X1 + 2X2 +...+ pXp + *X* + SSR( copleto) SSR( reduzido ) F ( X 2 | X1) 1 SSE (com pleto) (n - p - 2) 103.90 103.90 103.90 4.78 (195.19 0.24) 195.43 21.71 9 (12 1 2) n- k-1 = p+1 n-(p+1)-1 9 g.l. 195.43 d.f. SS MS F R2 X1 1 588.92 588.92 19.67 0.7802 X2|X1 1 103.90 103.90 4.78 (0.05<P<0.10) X3|X1,X2 1 0.24 0.24 0.01 Resíduo 8 195.19 24.40 Total 11 888.25 Source Regressão F=103.9/1 / (195.19+0.24)/9 12-k-1 Fonte X1 X1 e X2 X1, X2 e X3 SSR 588.92 692.82 693.06 SSE 299.33 195.43 195.19 SSY 888.25 888.25 888.25 SS(X3|X1,X2) = SSR (X3|X1,X2) = 693.06 - 692.82 = 0.24 --- SSE (X3|X1,X2) = 195.43-195.19 = 0.24 SSR( copleto) SSR( reduzido ) F ( X 3 | X1, X 2 ) 1 SSE (com pleto) 0.24 195.19 (n - p - 2) (12 2 2) 0.24 0.0098 24.40 n-k-1 p+1 8 g.l. 195.19 d.f. SS MS F R2 X1 1 588.92 588.92 19.67 0.7802 X2|X1 1 103.90 103.90 4.78 (0.05<P<0.10) X3|X1,X2 1 0.24 0.24 0.01 Resíduo 8 195.19 24.40 Total 11 888.25 Source Regressão O teste F para testar se existe uma regressão linear significante quando usa-se apenas X1 = ALTURA para predição de Y é dada por: 588.92 1 19.67 F 299.33 / 10 Para responder às perguntas 2 e 3, devemos usar o teste F parcial. Este teste avalia se a inclusão de uma variável independente específica, mantendo as já existentes no modelo, contribui significativamente para a predição de Y. O teste auxilia na exclusão de variáveis que não auxiliam na modelagem, mantendo o modelo mais parcimonioso preditores "importantes". F ( X * | X 1 , X 2 ,..., X p ) Soma dos quadrados Extra pela adição de X *, dados X 1 , X 2 ,..., X p Quadrado médio dos resíduos para o modelo com todas as variáveis X 1 , X 2 ,..., X p , X * A hipótese nula - Teste parcial Incluir X* melhora significativamente a predição de Y (outros X's já estão no modelo)? H0: "X* NÃO melhora significativamente a predição de Y, dados X1, X2,...,Xp existentes no modelo” H0: * = 0 no modelo Y = 0 + 1X1 + 2X2 +...+ pXp + *X* + O teste essencialmente compara 2 modelos: o completo e o reduzido O objetivo é determinar qual modelo é mais apropriado, baseado na informação adicional que X* fornece para Y, além da já fornecida por X1, X2,...,Xp O procedimento do teste Para realizar o teste F parcial, deve-se computar a soma dos quadrados extra pela adiçao de X*, que aparece na tabela ANOVA como SSR X*| X1, X2,...,Xp reduzido completo Soma dos quadrados Extra pela inclusão de X*, dados X1, X2,...,Xp = Soma dos quadrados da Regressão pela inclusão de X*, dados X1, X2,...,Xp - Soma dos quadrados da Regressão dados X1, X2,...,Xp Ou mais compactadamente: SS (X*| X1, X2,...,Xp) = SS Regressão (X1, X2,...,Xp, X*) - SS Regressão (X1, X2,...,Xp) Como SSY = SSR + SSE, podemos também fazer: SS (X*| X1, X2,...,Xp) = SS Resíduo (X1, X2,...,Xp) - SS Resíduo (X1, X2,...,Xp, X*) Comparação de 2 modelos: completo e o reduzido Modelo completo: Y = 0 + 1X1 + 2X2 +...+ pXp + *X* + Modelo reduzido: Y = 0 + 1X1 + 2X2 +...+ pXp + H0: * = 0 F ( X * | X 1 , X 2 ,..., X p ) Soma dos quadrados Extra pela adição de X *, dados X 1 , X 2 ,..., X p Quadrado médio dos resíduos para o modelo com todas as variáveis X 1 , X 2 ,..., X p , X * SS ( X * | X 1 , X 2 ,..., X p ) F ( X * | X 1 , X 2 ,..., X p ) MSE( X 1 , X 2 ,..., X p , X *) SSR( copleto) SSR( reduzido ) F ( X * | X 1 , X 2 ,..., X p ) MSE( X 1 , X 2 ,..., X p , X *) SSR( copleto) SSR( reduzido ) 1 SSE (com pleto) (n - p - 2) n-k-1 Comparação de 2 modelos: completo e o reduzido H0: * = 0 SSR( copleto) SSR( reduzido ) F ( X * | X 1 , X 2 ,..., X p ) MSE( X 1 , X 2 ,..., X p , X *) SSR( copleto) SSR( reduzido ) 1 SSE (com pleto) (n - p - 2) SS(X2|X1) = SSR(X1,X2) - SSR (X1) = 692.82-588.92 = 103.90 SS(X3|X1, X2) = SSR(X1,X2, X3) - SSR (X1, X2) = 693,06-692.82 = 0.24 SSE(completo) = 195.19 SSR( copleto) SSR( reduzido ) F ( X 2 | X1) 1 SSE (com pleto) (n - p - 2) 103.90 103.90 103.90 4.78 (195.19 0.24) 195.43 21.71 9 (12 1 2) SSR( copleto) SSR( reduzido ) F ( X 3 | X1, X 2 ) SSE (com pleto) 1 (n - p - 2) Fcrítico=F1,n-p-2,1- = F1,9,0.95 = 5.12 F1,9,0.90 = 3.36 0.24 195.19 (12 2 2) 0.24 0.0098 24.40 não rejeita H0 rejeita H0 a um nível de 0.10 3. Teste F parcial múltiplo Testa a contribuição adicional de um conjunto de variáveis independentes na predição de Y. Testa a inclusão simultânea de 2 ou mais variáveis. Por exemplo, variáveis que tenham características em comum, e que seja importante testá-las em conjunto, como as variáveis de ordem superior a 1: (IDADE)2, ALTURA X IDADE, (ALTURA)2 Ou variáveis de termo de ordem superior, que correspondam ao produto de variáveis de 1a. ordem, como os termos de interação X1X2, X1,X3, X2X3. Muitas vezes é de interesse conhecer o efeito das interações em conjunto, antes de considerar cada termo individualmente. Este procedimento pode reduzir o trabalho de testes individuais, uma vez que variáveis podem ser retiradas do modelo em conjunto. Hipótese nula Modelo completo: Y = 0 + 1X1 + 2X2 +...+ pXp + *1X*1 + *2X*2 +...+ *kX*k + Modelo reduzido: Y = 0 + 1X1 + 2X2 +...+ pXp + H0: "X*1 , X*2 , ..., X*k NÃO melhoram significativamente a predição de Y.” H0: *1 = *2 = ... = *k = 0 O procedimento Necessitamos calcular a soma dos quadrados EXTRA devida à inclusão dos X*i do modelo completo. SS(X*1, X*2, ..., X*k|X1, X2, ..., Xp) = SS Regressão (X1, X2, ..., Xp, X*1, X*2, ..., X*k) - SS Regressão (X1, X2, ..., Xp) = SS Resíduo (X1, X2, ..., Xp) - SS Resíduo (X1, X2, ..., Xp, X*1, X*2, ..., X*k) p k parâmetros A estatística F: * * * SS ( X , X ,..., X | X 1 , X 2 ,..., X p )/k 1 2 k F ( X 1* , X 2* ,..., X k* | X 1 , X 2 ,..., X p ) MS Resíduo ( X 1 , X 2 ,..., X p , X 1* , X 2* ,..., X k* ) F ( X 1* , X 2* ,..., X k* | X 1 , X 2 ,..., X p ) F ( X 1* , X 2* ,..., X k* | X 1 , X 2 ,..., X p ) [SS Resíduo (reduzido) - SS Resíduo (completo)]/k MS Resíduo (completo) [SS Regressão (completo) - SS Regressão (reduzido) ]/k SS Resíduo (completo)/( n - p - k - 1) A estatística F: [SS Regressão (completo) - SS Regressão (reduzido) ]/k F ( X , X ,..., X | X 1 , X 2 ,..., X p ) SS Resíduo (completo)/( n - p - k - 1) * 1 * 2 * k Exemplo: Inclusão de idade no modelo que já tem ALTURA IDADE e IDADE2. [SS Regressão (ALTURA, IDADE, IDADE 2 ) SS Regressão (ALTURA)]/ k F (IDADE, IDADE | ALTURA) MS Resíduo (ALTUR, IDADE, IDADE 2 ) 2 F (IDADE, IDADE 2 | ALTURA) [(588.92 103.90 0.24) 588.92]/2 2.13 24.40 Fcrítico= Fk,(n-p-k-1),1- = F2,12-1-2-1),0.95 = F2,8,0.90 = 4.46 F calculado menor que o Fcrítico não rejeita H0 Testando a significância estatística do coeficiente parcial teste F parcial H0: rYX|Z1,...,Zp = 0 Exemplo: Para testar se rPESO,(IDADE)2|ALTURA, IDADE = 0, encontra-se F[(IDADE)2|ALTURA, IDADE] e compara-se com F1,12-2-2,0.90 = F1,8,0.90=3.46 F[(IDADE)2 | ALTURA, IDADE] SSR(X1, X2) - SSR(X1, X2, X3) MSE(X1, X2, X3) MSE = SSE(X3|X1,X2)/df = 195.19/(11-2-1) = 195.19/8=24.399 195.43 - 195.19 0.010 24.399 F calculado < F crítico --> NÃO rejeita H0 --> (IDADE)2 não contribui para a predição de PESO. Modelo A: PESO = 0 + 1 ALTURA + Analysis of Variance Source Model Error C Total R2 DF 1 10 11 Sum of Squares 588.9225231 299.3274768 888.2500000 0.663014 Mean Square 588.9225231 29.93274768 F Value Prob > F Modelo B: PESO = 0 + 1 ALTURA + 2IDADE + Analysis of Variance Source Model Error C Total R2 DF 2 9 11 rY2, X | X 1 2 Sum of Squares 692.82260654 195.42739346 888.25000000 0.77999 Mean Square 346.4113 21.714154 F Value SSE ( X 1 ) SSE ( X 1 , X 2 ) 299.3275 195.4274 0.347 SSE ( X 1 ) 299.3275 Prob > F Simples Y = 0 + 1X1 + H0: 1 = 0 H1: 1 0 Múltipla Parcial Parcial múltipla Modelo completo: Y=0 + 1X1 +...+ kXk + Modelo completo: Y=0 + Y=0 +1X1+...+kXk + *X* + Y=0 + 1X1 + ...+ kXk + *1X*1 + ...+ *pX*p + Modelo reduzido: Modelo reduzido: Y = 0 + 1X1 + ...+ kXk + Y=0 + 1X1 + ...+ kXk + H0: 1 = 2 = ... = k = 0 H1: pelo menos 1 0 SSR SSR MSR 1 MSR k F F MSE SSE MSE SSE ( n 2) (n k 1) Fk,n-2,1- Fk,n-k-1,1- H0: * = 0 H0: *1 = *2 = *p = 0 H1: pelo menos 1 * 0 H1: * 0 SSR ( copleto ) SSR ( reduzido) F 1 SSE (completo) (n - k - 2) [SSR(co mp leto ) - SSR(red u zid o )] F k SSE( co mp leto ) (n - p - k - 1) Fk,(n-k-2),1- Fk,(n-p-k-1),1-