Estatística para Cursos de Engenharia e Informática Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004 Cap. 11 – Complemento: Regressão Múltipla APOIO: Fundação de Ciência e Tecnologia de Santa Catarina (FUNCITEC) Departamento de Informática e Estatística (INE/CTC/UFSC) Regressão Múltipla • Predizer valores de uma variável dependente (Y) em função de variáveis independentes (X1, X2, ..., Xk). • Conhecer o quanto as variações (j = 1,...,k) podem afetar Y. de Xj Regressão Múltipla (X1, X2, ..., Xk) Y Aplicação na educação física: X1 = exercício aeróbico X2 = calorias ingeridas X3 = circunferência da cintura Y = perda de peso Regressão Múltipla (X1, X2, ..., Xk) Y Aplicação no Índice de Massa Corporal (IMC) : X1 = velocidade X2 = potência X3 = agilidade Y = IMC Modelo de Regressão Múltipla • E(y) = f(X1, X2, ..., Xk) • Linear: E(y) = 0 + 1X1 + 2X2 + ... + kXk – onde Y, X1, ..., Xk podem representar as variáveis originais ou transformadas. – Admite-se que Y, X1, ..., Xk são variáveis contínuas. Modelo de Regressão Múltipla E(y) = 0 + 1X1 + 2X2 + ... + kXk – O coeficiente k representa a variação esperada de Y para cada unidade de variação em Xk (k = 1, 2, ..., k), considerando as outras variáveis independentes fixas. Modelo de Regressão Múltipla AMOSTRA: obs. 1 2 ... n Y y1 y2 ... yk variáveis X1 X2 x11 x12 x21 x22 ... ... xn1 xn2 • E(y) = 0 + 1X1 + 2X2 + ... + kXk • yi = 0 + 1xi1 + 2xi2 + ... + kxik + ei ... ... ... ... ... Xk x1k x2k ... xnk termo aleatório (erro) Modelo de Regressão Múltipla Suposições • yi = 0 + 1xi1 + 2xi2 + ... + kxik + ei termo aleatório (erro) • Os erros (ei) são independentes e variam aleatoriamente segundo uma distribuição (normal) com média zero e variância constante. Regressão Múltipla Equação de regressão ajustada aos dados: yˆ b0 b1 X1 b2 X 2 ... bk X k Valores preditos: yˆi b0 b1xi1 b2 xi 2 ... bk xik Resíduos: eˆi yi yˆi Medida do Ajuste Coeficiente de determinação (R2) R2 = Variação explicada Variação total 0 R2 1 Regressão Múltipla: teste sobre o modelo ANOVA: através da Análise de variância, testa-se a hipótese H0 dada a seguir E(y) = 0 + 1X1 + 2X2 + ... + kXk H0: 1 = 2 = ... = k = 0 Regressão Múltipla: teste sobre um particular coeficiente E(y) = 0 + 1X1 + 2X2 + ... + kXk H0: j = 0 t bj se sendo se o erro padrão da estimativa bj Sob H0 e considerando as suposições do modelo, t tem distrib. t de student Ex. de regressão múltipla A academia de ginástica “Boa Forma” decidiu ilustrar uma abordagem teórica de como os exercícios aeróbicos e a ingestão de calorias podem afetar o peso. Doze dos membros estabelecidos na academia registraram cuidadosamente o número de minutos de exercícios aeróbicos que praticaram no decorrer de uma semana, juntamente com sua ingestão calórica semanal. Academia BOA FORMA Ex. aeróbico Cal. Ingerida(x1000) (X1) (X2) 1 112 11,216 2 190 7,552 3 171 10,101 4 148 9,560 5 193 8,338 6 235 7,252 7 237 7,631 8 176 8,097 9 185 8,300 10 186 8,121 11 228 7,212 12 100 10,202 Perda de peso (Y) 0,27 1,26 0,63 0,63 1,17 1,71 1,49 1,13 1,17 0,90 1,49 0,50 Regressão múltipla: com variáveis independentes qualitativas • Ex. (Qualitativa.sav) • Variável dependente: IMC; • Variáveis independentes: – TR (dobra cutânea triciptal); – SOMA_DC (soma da dobra cutânea); – SEXO (0 = feminino, 1= masculino) As variáveis qualitativas devem entrar no modelo na forma de variáveis indicadoras (0 - 1) Regressão múltipla: com variáveis independentes qualitativas E(y) = 0 + 1Sexo + 2TR + 3Soma_dc • O coeficiente de uma variável indicadora indica a variação esperada em Y quando a variável indicadora muda de 0 para 1, mantendo-se as demais variáveis constantes. – Ex: 1 é o incremento esperado no IMC pelo indivíduo ser do sexo masculino. Seleção de variáveis: -Ex. (seleção.sav) Variável dependente: IMC -Backward -Forward -Stepwise MÉTODO FORWARD (passo a frente) Considera-se inicialmente um modelo de regressão linear simples, usando como variável auxiliar (X), aquela de maior valor da estatística t (ou menor valor de p) quando ajustada a variável dependente Y. As etapas se sucedem quando uma variável por vez pode vir a ser incorporada; Se em uma outra etapa não houver inclusão, o processo é interrompido e as variáveis selecionadas até esta etapa definem o modelo final. PROCEDIMENTO Passo 1) ajustar todos os modelos com m variáveis (no modelo inicial m=1) e escolher a variável candidata com maior valor da estatística t para entrar no modelo, considerando que o valor de p ≤ (caso p> o modelo é interrompido); Passo 2) para cada variável não pertencente ao modelo do passo 1, ajustar um modelo de regressão considerando no modelo as variáveis que entraram no passo 1 e escolher a variável candidata que tiver o maior valor da estatística t, desde que p ≤ (caso p> o modelo é interrompido); Passo 3) Fazer o processo sucessivamente, até que todas as variáveis que não estão no modelo apresentem um valor de t, tal que o valor p>. MÉTODO BACKWARD (passo atrás) Neste método incorporam-se inicialmente todas as variáveis em um modelo de regressão linear múltipla; Percorrem-se etapas, nas quais uma variável por vez pode vir a ser eliminada; Se em cada etapa não houver eliminação de alguma variável, o processo é interrompido e as variáveis restante definem o modelo final. PROCEDIMENTO Passo 1) ajustar o modelo completo de k variáveis; Passo 2) retirar do modelo completo a variável com menor valor da estatística t (ou maior valor de p). Caso todas as variáveis apresentem p ≤ o processo é interrompido e o modelo final é selecionado; Passo 3) ajustar o modelo com k-1 variáveis e voltar ao passo 2. MÉTODO STEPWISE (passo a passo) Consiste em uma procedimento Forward; generalização do Após cada etapa de incorporação de uma variável, temos uma etapa em que uma das variáveis já selecionadas pode ser descartada; O procedimento chega ao final quando nenhuma variável é incluída ou descartada. PROCEDIMENTO Passo 1) ajustar todos os modelos com m variáveis (no modelo inicial m=1) e escolher a variável candidata com maior valor da estatística t para entrar no modelo, considerando que o valor de p ≤ (caso p> o modelo é interrompido); Passo 2) para cada variável não pertencente ao modelo do passo 1, ajustar um modelo de regressão considerando no modelo as variáveis que entraram no passo 1 e escolher a variável candidata que tiver o maior valor da estatística t, desde que p ≤ (caso p> o modelo é interrompido); Passo 3) verificar se o valor da estatística t das variáveis que estão no modelo apresentam p≤. Caso uma ou mais variáveis que já estão no modelo apresente p> , retira-se a variável do modelo que possua o maior valor de p. Passo 4) ajustar o modelo no passo 3, tal que p≤ para todas as variáveis. Voltar o passo 2 e repetir todo o processo até que todas as variáveis que estão fora do modelo tenham p>.