Estatística para Cursos de Engenharia e
Informática
Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia
São Paulo: Atlas, 2004
Cap. 11 – Complemento:
Regressão Múltipla
APOIO:
Fundação de Ciência e Tecnologia de Santa Catarina (FUNCITEC)
Departamento de Informática e Estatística (INE/CTC/UFSC)
Regressão Múltipla
• Predizer valores de uma variável dependente
(Y) em função de variáveis independentes (X1,
X2, ..., Xk).
• Conhecer o quanto as variações
(j = 1,...,k) podem afetar Y.
de
Xj
Regressão Múltipla
(X1, X2, ..., Xk)
Y
Aplicação na educação física:
X1 = exercício aeróbico
X2 = calorias ingeridas
X3 = circunferência da cintura
Y = perda de peso
Regressão Múltipla
(X1, X2, ..., Xk)
Y
Aplicação no Índice de Massa Corporal (IMC) :
X1 = velocidade
X2 = potência
X3 = agilidade
Y = IMC
Modelo de Regressão Múltipla
•
E(y) = f(X1, X2, ..., Xk)
• Linear:
E(y) = 0 + 1X1 + 2X2 + ... + kXk
– onde Y, X1, ..., Xk podem representar as variáveis
originais ou transformadas.
– Admite-se que Y, X1, ..., Xk são variáveis contínuas.
Modelo de Regressão Múltipla
E(y) = 0 + 1X1 + 2X2 + ... + kXk
– O coeficiente k representa a variação esperada de Y para
cada unidade de variação em Xk (k = 1, 2, ..., k),
considerando as outras variáveis independentes fixas.
Modelo de Regressão Múltipla
AMOSTRA:
obs.
1
2
...
n
Y
y1
y2
...
yk
variáveis
X1
X2
x11
x12
x21
x22
...
...
xn1
xn2
• E(y) = 0 + 1X1 + 2X2 + ... + kXk
• yi = 0 + 1xi1 + 2xi2 + ... + kxik + ei
...
...
...
...
...
Xk
x1k
x2k
...
xnk
termo
aleatório
(erro)
Modelo de Regressão Múltipla
Suposições
• yi = 0 + 1xi1 + 2xi2 + ... + kxik + ei
termo
aleatório
(erro)
• Os erros (ei) são independentes e variam
aleatoriamente
segundo
uma
distribuição
(normal) com média zero e variância constante.
Regressão Múltipla
Equação de
regressão
ajustada aos dados:
yˆ  b0  b1 X1  b2 X 2  ... bk X k
Valores preditos:
yˆi  b0  b1xi1  b2 xi 2  ... bk xik
Resíduos:
eˆi  yi  yˆi
Medida do Ajuste
Coeficiente de determinação (R2)
R2
=
Variação
explicada
Variação
total
0  R2  1
Regressão Múltipla: teste sobre o modelo
ANOVA: através da Análise de variância,
testa-se a hipótese H0 dada a seguir
E(y) = 0 + 1X1 + 2X2 + ... + kXk
H0: 1 = 2 = ... = k = 0
Regressão Múltipla:
teste sobre um particular coeficiente
E(y) = 0 + 1X1 + 2X2 + ... + kXk
H0: j = 0
t
bj
se
sendo se o erro padrão
da estimativa bj
Sob H0 e considerando as suposições do modelo,
t tem distrib. t de student
Ex. de regressão múltipla
A academia de ginástica “Boa Forma” decidiu
ilustrar uma abordagem teórica de como os
exercícios aeróbicos e a ingestão de calorias podem
afetar o peso. Doze dos membros estabelecidos na
academia registraram cuidadosamente o número de
minutos de exercícios aeróbicos que praticaram no
decorrer de uma semana, juntamente com sua
ingestão calórica semanal.
Academia BOA FORMA
Ex. aeróbico Cal. Ingerida(x1000)
(X1)
(X2)
1
112
11,216
2
190
7,552
3
171
10,101
4
148
9,560
5
193
8,338
6
235
7,252
7
237
7,631
8
176
8,097
9
185
8,300
10
186
8,121
11
228
7,212
12
100
10,202
Perda de peso
(Y)
0,27
1,26
0,63
0,63
1,17
1,71
1,49
1,13
1,17
0,90
1,49
0,50
Regressão múltipla:
com variáveis independentes qualitativas
• Ex. (Qualitativa.sav)
• Variável dependente: IMC;
• Variáveis independentes:
– TR (dobra cutânea triciptal);
– SOMA_DC
(soma da dobra cutânea);
– SEXO (0 = feminino, 1= masculino)
As variáveis qualitativas devem entrar no modelo na forma
de variáveis indicadoras (0 - 1)
Regressão múltipla:
com variáveis independentes qualitativas
E(y) = 0 + 1Sexo + 2TR + 3Soma_dc
• O coeficiente de uma variável indicadora indica a variação
esperada em Y quando a variável indicadora muda de 0
para 1, mantendo-se as demais variáveis constantes.
– Ex: 1 é o incremento esperado no IMC pelo indivíduo ser do sexo
masculino.
Seleção de variáveis:
-Ex. (seleção.sav)
Variável dependente: IMC
-Backward
-Forward
-Stepwise
MÉTODO FORWARD (passo a frente)
 Considera-se inicialmente um modelo de
regressão linear simples, usando como variável
auxiliar (X), aquela de maior valor da
estatística t (ou menor valor de p) quando
ajustada a variável dependente Y.
 As etapas se sucedem quando uma variável por
vez pode vir a ser incorporada;
 Se em uma outra etapa não houver inclusão, o
processo é interrompido e as variáveis selecionadas
até esta etapa definem o modelo final.
PROCEDIMENTO
Passo 1) ajustar todos os modelos com m variáveis
(no modelo inicial m=1) e escolher a variável
candidata com maior valor da estatística t para
entrar no modelo, considerando que o valor de p ≤
 (caso p> o modelo é interrompido);
Passo 2) para cada variável não pertencente ao
modelo do passo 1, ajustar um modelo de regressão
considerando no modelo as variáveis que entraram
no passo 1 e escolher a variável candidata que tiver
o maior valor da estatística t, desde que p ≤  (caso
p> o modelo é interrompido);
Passo 3) Fazer o processo sucessivamente, até
que todas as variáveis que não estão no modelo
apresentem um valor de t, tal que o valor p>.
MÉTODO BACKWARD (passo atrás)
 Neste método incorporam-se inicialmente
todas as variáveis em um modelo de regressão
linear múltipla;
 Percorrem-se etapas, nas quais uma variável
por vez pode vir a ser eliminada;
 Se em cada etapa não houver eliminação de
alguma variável, o processo é interrompido e as
variáveis restante definem o modelo final.
PROCEDIMENTO
Passo 1) ajustar o modelo completo de k
variáveis;
Passo 2) retirar do modelo completo a variável
com menor valor da estatística t (ou maior
valor de p). Caso todas as variáveis apresentem
p ≤  o processo é interrompido e o modelo
final é selecionado;
Passo 3) ajustar o modelo com k-1 variáveis e
voltar ao passo 2.
MÉTODO STEPWISE (passo a passo)
 Consiste em uma
procedimento Forward;
generalização
do
 Após cada etapa de incorporação de uma
variável, temos uma etapa em que uma das
variáveis já selecionadas pode ser descartada;
 O procedimento chega ao final quando
nenhuma variável é incluída ou descartada.
PROCEDIMENTO
Passo 1) ajustar todos os modelos com m variáveis
(no modelo inicial m=1) e escolher a variável
candidata com maior valor da estatística t para
entrar no modelo, considerando que o valor de p ≤
 (caso p> o modelo é interrompido);
Passo 2) para cada variável não pertencente ao
modelo do passo 1, ajustar um modelo de regressão
considerando no modelo as variáveis que entraram
no passo 1 e escolher a variável candidata que tiver
o maior valor da estatística t, desde que p ≤  (caso
p> o modelo é interrompido);
Passo 3) verificar se o valor da estatística t das
variáveis que estão no modelo apresentam p≤.
Caso uma ou mais variáveis que já estão no
modelo apresente p> , retira-se a variável do
modelo que possua o maior valor de p.
Passo 4) ajustar o modelo no passo 3, tal que
p≤ para todas as variáveis. Voltar o passo 2 e
repetir todo o processo até que todas as
variáveis que estão fora do modelo tenham
p>.
Download

Regressao Multipla - Departamento de Informática e Estatística