Construção de Modelos: Seleção
de Variáveis Regressoras
Etapas para construir modelos:
• Seleção das variáveis regressoras ou preditoras ;
• Diagnóstico para verificar se o modelo ajustado é
adequado, correto;
• Aplicar medidas remediadoras (corretivas) quando
as condições do modelo não são satisfeitas;
• Validação do modelo
1
Visão geral do processo de
construção de modelos
4 fases (veja figura no próximo slide)
• 1 - Coleta e preparação dos dados
• 2 - Redução das variáveis preditoras (para
estudos observacionais exploratórios)
• 3 - Refinamento e seleção do modelo
• 4 - Validação do modelo
2
Coleta de dados
Checagem preliminar da qualidade dos dados
Diagnóstico para relações e interações
Medidas
corretivas
Sim
Coleta e
preparação dos
dados
São necessárias
Medidas
Corretivas?
Não
Determinar subconjuntos de variáveis regressoras; incluir v. sabidas essenciais
Redução do
número de var. reg
Investigar efeitos de curvatura e interações
Análise de resíduos e diagnóstico
Medidas
corretivas
Sim
São
necessárias Medidas
Corretivas?
Refinamento e
seleção de
modelos
Não
Selecione modelos de pesquisa
Não
Checar
validade
Sim
Modelo final
De regressão
Validação do
modelo
3
1 - Coleta de dados
4 tipos de estudos:
• Dados experimentais
• Dados experimentais com variáveis
adicionais
• Estudos observacionais confirmatórios
• Estudos observacionais exploratórios
4
Dados experimentais
Neste caso, o pesquisador seleciona os níveis das variáveis regressoras e,
atribui os tratamentos, consistindo das combinações dos níveis das variáveis
preditoras, às unidades experimentais, e observa a variável resposta.
Exemplo: uma pesquisadora estudou o efeito do tamanho da cache (X1) e tipo
de pré-carregamento (X2). Utilizou três níveis para o fator tamanho da cache
(250.000, 300.000 e 350.000)e cinco níveis para o fator tipo de précarregamento (
). O primeiro fator é quantitativo e o segundo fator é
qualitativo. Têm-se um total de 3 x 5 = 15 tratamentos. As variáveis respostas
foram a porcentagem de acerto e bytes transferidos. A unidade experimental
foi..................
É necessário fazer algumas repetições dos tratamentos, ou seja, para cada
tratamento, obter resultados de várias unidades experimentais. A pesquisadora
usou três repetições.
5
Experimentos com variáveis
adicionais (Covariáveis)
Os projetos experimentais usam informações
adicionais, tais como características das unidades
experimentais, no planejamento do experimento, com o
objetivo de reduzir o termo do erro experimental. Por
exemplo, o pesquisador está usando diversas cpu’s no
experimento(Variáveis passíveis de controle). Entretanto,
existem variáveis sobre as quais o pesquisador não tem
controle. Assim, o pesquisador vai incluir estas variáveis no
modelo de regressão e, assim, reduzir a variância do erro.
Por exemplo, o tempo de experiência e a idade dos
programadores.
6
Estudos observacionais
confirmatórios
Esses estudos são planejados para testar (confirmar ou não)
hipóteses levantadas de estudos anteriores. Aqui, dados são
coletados para variáveis preditoras que estudos prévios
demostraram afetar a variável resposta,são chamadas de
variáveis controle e, como também variáveis envolvidas na
hipótese, são chamadas de variáveis primárias.
As variáveis controle são usadas para levar em consideração
influências conhecidas na variável resposta.
7
Exemplo
Num estudo observacional do efeito do tempo de experiência
em programação sobre a realização de uma tarefa dentro de um
determinado tempo (realizou ou não realizou), fatores como:
idade e sexo são incluídas como variáveis controle e, o tempo de
experiência, seria a variável primária. A variável resposta é uma
variável dicotômica: realizou ou não realizou a tarefa (regressão
logística).
8
Estudos observacionais
exploratórios
Nesses estudos o pesquisador busca variáveis regressoras
que podem estar relacionadas com a variável resposta.
Possivelmente, o número de variáveis regressoras é
grande.
Exemplo:
As vendas de uma empresa de microcomputadores numa
cidade pode estar relacionada com o tamanho populacional,
renda per capita, porcentagem da população na área urbana,
porcentagem da população com menos de 40 anos e outras.
9
Uma primeira seleção (eliminação) de variáveis
preditoras (num estudo observacional exploratório):
1) uma v. preditora pode não ser fundamental
para o estudo;
2) pode ser sujeita a grandes erros de medidas (baixa
precisão);
3) uma variável preditora pode estar muito
relacionada com outra (duplicação de informação)
Número de observações a serem coletadas
Regra geral: pelo menos 6 a 10 casos para cada variável
do conjunto.
10
Preparação dos dados
Coletados os dados
Organizar, resumir, explorar,
Verificar erros grosseiros,
outliers
Sempre que possível
o pesquisador deve
estar presente na
coleta dos dados
Os erros devem ser corrigidos
antes de iniciar a construção do
modelo (crítico em grandes bases
de dados)
11
Investigação preliminar do modelo
Dados fidedignos
Pensar na
construção
do modelo
Diagnósticos:
Diagrama de dispersão, gráficos de resíduos, ajuste
de funções de regressão para verificar
relacionamentos, interações, necessidade de
transformações. Usar a experiência do investigador.
1) a forma funcional
de como as variáveis
preditoras devem
entrar no modelo de
regressão;
2) interações
importantes que
devem ser incluídas
no modelo.
12
2 - Redução das Variáveis
Explanatórias
Dados experimentais
Nesses estudos, não é usual pensar em diminuir o
número de variáveis explanatórias.
13
Dados experimentais com variáveis
adicionais (covariáveis)
É possível diminuir o número de covariáveis, pois
nem todas elas diminuirão o erro experimental. Por
exemplo, o tempo de experiência e a idade dos
programadores. Se estas variáveis não estão
relacionadas com a variável resposta, elas podem ser
retiradas do modelo.
14
Estudos observacionais
confirmatórios
As variáveis controle deveriam ser mantidas no
modelo para se comparar com os estudos prévios,
mesmo que alguma(s) dela(s) não contribua para a
redução da variância do erro.
As variáveis primárias são aquelas que estamos
verificando o seu efeito na variável resposta, portanto,
devem ser mantidas no modelo.
15
Estudos observacionais
exploratórios
O número de variáveis
regressoras é grande e,
geralmente, são
correlacionadas.
Interesse em
reduzir o número
dessas variáveis.
16
Razões para seleção de variáveis regressoras
(estudos observacionais exploratórios)
• É difícil manter o modelo válido (verdadeiro)
• Um modelo com poucas variáveis é mais fácil de trabalhar
e entender
• A presença de variáveis correlacionadas implica num
acréscimo da variância amostral dos coeficientes de
regressão, diminuindo a capacidade preditiva e, piorando,
também o poder descritivo
• A capacidade preditiva do modelo diminui quando
variáveis explanatórias não relacionadas com a variável
resposta são mantidas no modelo, dado que as outras
variáveis explanatórias estão no modelo.
17
Problema na análise de regressão:
(estudos observacionais exploratórios)
A identificação de uns poucos subconjuntos de
variáveis explanatórias potenciais (alguns modelos)
para serem incluídos no modelo de regressão final, e
a determinação das adequadas funções relacionais e
termos da interação dessas variáveis.
Atenção: como os objetivos da análise de regressão
são diversos, então, não existe um subconjunto de
variáveis regressoras como sendo sempre o melhor.
Por exemplo: modelos para descrição, para predição.
18
Algumas considerações sobre construção
de modelos:
(estudos observacionais exploratórios)
A eliminação de variáveis preditoras imprescindíveis prejudica
o modelo: do poder descritivo até produzir um viés na
estimativa da variância do erro.
O modelo contiver mais variáveis do que o necessário
a variância das estimativas dos parâmetros será grande
em comparação com modelos mais simples.
Variáveis relevantes cujos resultados estão dentro de uma
pequena faixa
não apresenta significância estatística.
19
Parte computacional (abordagens): existem diversos para
variáveis correlacionadas.
Ser pragmático e usar julgamento subjetivo. Exemplo:
variáveis essenciais devem ser mantidas no modelo.
Comentário:
A estatística:
bk
t 
s( bk )
*
k
pode levar à retirada de variáveis regressoras intercorrelacionadas
importantes. Um bom procedimento de procura deve ser capaz de
lidar com variáveis regressoras intercorrelacionadas, de tal forma
que nem todas sejam retiradas do modelo.
20
3 - Seleção e refinamento do modelo
Gráficos de resíduos,
gráfico das variáveis
Nesta fase, o(s)
adicionadas, resíduos
possível(eis) modelo(s)
semistudentizados,
DFFITS, DFBETAS,
de regressão, deve(m)
Ferramentas VIF, teste para falta de
ser checado(s) para as
ajuste, diagnóstico para
relações funcionais e
observações influentes,
interações das variáveis
multicolinearidade etc.
regressoras.
(Capítulo 9 do livro
texto).
21
Gráfico de resíduos versus interações e/ou termos
quadráticos, cúbicos, etc. ainda não incluídos no
modelo, é útil para identificar termos que podem
melhorar o ajuste do modelo.
Aplica regressão stepwise
(processo automático de
seleção)
Verificar o
número de v.
regressoras
retidas no
modelo.
Encontrar outros
possíveis modelos
22
4 - Validação do modelo
Refere-se a qualidade (estabilidade e razoabilidade)
dos coeficientes de regressão; ao bom poder descritivo
(plausível, útil) da parte funcional do modelo.
1 - Coleta de novos dados (dados independentes) para checar
o modelo e seu poder preditivo;
2 - Comparar os resultados com valores teóricos esperados,
resultados empíricos anteriores ou resultados simulados;
3 - Usar uma parte da amostra para checar o modelo e o poder
preditivo do mesmo.
(Capítulo 10 do livro texto)
23
O item 3 refere-se a divisão da base de dados em
dois arquivos:
1. Arquivo de treinamento (construção)
2. Arquivo de validação ou predição
Com o arquivo de validação, os coeficientes de regressão
podem ser estimados para o modelo selecionado e, então,
verificado a sua consistência com os coeficientes obtidos
com o arquivo de treinamento.
Fazer predições para os dados do arquivo de validação,
com o modelo de regressão desenvolvido com os dados de
treinamento, para verificar a sua habilidade de predição.
24
Exemplo:
Temos um estudo observacional exploratório com
apenas 3 variáveis regressoras, quais sejam:
X1 acesso ao disco (number of disk I/O’s)
X2 memória (memory size)
X3 tamanho (data bytes)
Dezoito programas foram monitorados para observar
a demanda de recursos. A variável resposta
observada foi o tempo de CPU (milisegundos). Os
resultados foram:
25
26
27
Variáveis intercorrelacionadas
28
Inicialmente, foi ajustado um modelo de regressão
de primeira ordem, com todas as variáveis
explanatórias incluídas no modelo:
Yi  0  1Xi1  2 Xi 2  3 Xi 3   i
N
o
rm
a
lP
ro
b
a
b
y
ilt
P
lo
o
t
R
f
e
s
id
u
a
ls
2
5
,
Não
observamos
muita
discrepância
da
normalidade
1
5
,
ExpectedNormalValue
0
5
,
-0
5
,
-1
5
,
-2
5
,
-3
-2
-1
0
R
e
s
id
u
a
ls
1
2
3
4
29
Observando a matriz de gráficos de dispersão,
verificamos que o tempo de cpu está linearmente
relacionado com acesso, memória e tamanho.
Verificamos, também, que existe colinearidade entre as
variáveis regressoras, ou seja, tamanho está relacionada
com acesso e memória.
Transformação de variáveis (existe necessidade?)
Por exemplo: transformar acesso para maior simetria.
Devemos verificar se todas as variáveis regressoras
devem permanecer no modelo, se alguma interação deve
ser incluída, termos quadráticos.
30
Observa-se um efeito quadrático do tamanho da cache.
31
Seleção de alguns modelos
candidatos
A idéia é selecionar alguns modelos (de 3 a
6, por exemplo) que incluem,
possivelmente, um conjunto menor de
variáveis explanatórias (se o conjunto de
variáveis regressoras for grande) de acordo
com algum(s) critério(s), e assim selecionar
o modelo de regressão final a ser utilizado.
32
Critérios:
• Coeficiente de determinação múltiplo, R 2 ;
p
• Coeficiente de determinação múltiplo
ajustado, Ra2 ou QMEp ;
• Critério Cp;(Baseado no desvio quadrático
médio)
• Critério Pressp (Soma de quadrados da
predição)
33
Notação:
Número de variáveis X: P-1
Um modelo com todas as variáveis X,
possui P parâmetros (sempre incluído o
intercepto).
O número de um subconjunto de variáveis
regressoras no modelo é p-1.
Assume-se que n>P (quanto maior melhor). 34
1 - Coeficiente de determinação múltiplo, R
2
p
É o coef. de determinação
R
múltiplo para um modelo com p
parâmetros, ou p-1 variáveis
regressoras no modelo.
Objetivo: identificar os (vários) modelos
candidatos com maior valor de R 2 ou
p
menor valor de SQEp.
2
p
R  1
2
p
SQEp
SQTO
P é o número de parâmetros ou p-1 variáveis X.
35
Objetivo: a intenção com a utilização de R2p é
encontrar o ponto onde a adição de novas
variáveis X no modelo não é vantajoso, pois
isto conduz a um pequeno acréscimo em R2p.
Exemplo: Na tabela a seguir, as colunas 2, 3,
4 e 5 indicam, o número de parâmetros do
modelo, graus de liberdade do resíduo, soma
de quadrados do erro, e o coeficiente de
determinação.
36
Variáveis
X no
modelo
Nenhuma
X1
X2
X3
X1,X2
X1,X3
X2,X3
X1,X2,X3
p
gl
SQEp
1
2
2
2
3
3
3
4
17
16
16
16
15
15
15
14
702,10
390.80
381.34
58.78
85.02
57.98
53.87
41.78
R2P
QMEp
0
41,30
0.4434 24.42
0.4569 23.83
0.9163 3.67
0.8789 5.67
0.9174 3.87
0.9233 3.59
0.9405 2.98
Cp
PRESSP
219.27
116.95
113.78
5.70
16.49
7.43
6.05
4
787.13
457.09
453.94
70.30
133.27
80.21
71.09
64.80
Observação: SQTotal=SQE1=702,10
37
1,0
X2 X3
X3
R2p 0,9
X X
*
*
*X
X
*
1
1
*
X1 X2 X3
3
2
0,8
0,5
X2
0,4
0
*
*X
1
*
1
p
2
3
4
38
O gráfico mostra que existe pouco
acréscimo no R2p quando o modelo inclui a
variável X3 ou X2X3 . Apresenta um
pequeno acréscimo, com relação aos dois
modelos anteriores, quando inclui as 3
variáveis X1X2X3.
Desvantagem: R2p não leva em
consideração o número de parâmetros no
modelo de regressão, assim, ele nunca
diminui quando p aumenta.
39
2 - Coeficiente de determinação
2
múltiplo ajustado, Ra ou QMEp
QME
 n  1  SQE
R 1  
1 

SQTOTAL/(n  1)
 n  p  SQTOTAL
2
a
Leva em consideração o número de parâmetros no modelo
Observe que R2a aumenta se e apenas se o
quadrado médio do erro diminui, pois a
sqtotal/(n-1) é fixa dado os valores observados
de y.
40
Exemplo: Na tabela, a coluna 6 fornece os
valores dos quadrados médios do erro, para
todos os modelos de regressão possíveis, para
o dados do experimento sobre demanda de
recursos. Por exemplo, um modelo com X3:
SQE ( X 3 ) 58,78
QME 2 

 3,6737
n2
16
41
41
*
24
23
6
QME 5
4
3
2
1
0
X2
*
*
X1
*
X1 X2
X3
*
X
*
X *X
1
2
3
X3
*X
1
X2 X3
p
1
2
3
4
42
As conclusões são muito semelhantes
àquelas feita com o uso do coeficiente de
determinação múltiplo. Os quadrados
médios encontrados para os subconjuntos X3,
X2X3, X1X3 e X1X2X3 são praticamente iguais.
43
3 - Critério Cp
O critério Cp envolve o conceito de erro
quadrático médio total, o qual considera o erro
total em cada valor ajustado:
Yˆ   
i
i
Yˆi é o valorajustadopara umadadaamostra
i é a resposta m édiaesperadacom o
verdadeirom odelode regressão
44
Dois componentes do erro:
Yˆ     EYˆ    Yˆ  EYˆ 
i
i
i
Viés
i
i
i
Erro
aleatório
Desvio devido ao uso
de um modelo
incorreto.
45
Portanto, o quadrado do erro total para Yi(chapéu), fica:
Yˆ     E Yˆ    Yˆ  E Yˆ 
2
i
2
i
i
i
O valor esperado é dado por:

E Yˆi  i
 
2
 E (Yˆi )  i
i
 
2
i
2
(Yˆi )
Viés do modelo
(Veja demonstração na próxima página)
46
      
 E E Yˆ      2E Yˆ   Yˆ  E Yˆ   Yˆ  E Yˆ  


(1) E E Yˆ      E Yˆ   


(2) 2 E E Yˆ   Yˆ  E Yˆ  
 2E Yˆ   E (Yˆ )  E Yˆ   E Yˆ 

E Yˆi  i

2
 E E Yˆi  i  Yˆi  E Yˆi
2
2
i
2
i
i
i
i
2
i
i
0

i
i
 
(3) E Yˆi  E Yˆi
i
i
2
i
i
2
i
i
i
i
i
i
i
i
i
ˆ ) (definição)
  2 (Y
i
47
O erro quadrático médio do total, para todas os n
valores ajustados Yi(chapéu), é a soma de todos os
n erros quadráticos médios individuais:

n
ˆ 
E
Y
 i i
i 1

2

 
 


n
ˆ
E (Yi )  i
i 1
n
i 1
ˆ
E (Yi )  i
2
2
2

ˆ
(Yi ) 
n
ˆ
   (Yi )
2
i 1
48
Uma medida do critério, representado por p,
é o erro quadrático médio total dividido pela
variância do erro:


1 
2 ˆ 
ˆ
p  2  E (Yi )  i   (Yi )
  i 1
i 1

n
2
n
Um estimador de 2 é o QME(X1, X2,...,XP-1),
isto é, o quadrado médio do erro do modelo
com todas as potenciais variáveis explanatórias.
Isto é equivalente a assumir que o modelo é
correto (sem viés).
49
O estimador de p
Resultados:
n
1)
2 ˆ
2

(
Y
)

p

(Demonstração )
 i
i 1
n
2 ) E(SQEp )  
i 1

E (Yˆi )  i
  (n  p)
2
2
50
( Xi  X ) 
21
ˆ

 ( Yi )    
2 
 n ( X i  X ) 
2
2


1
(
X

X
)
i
ˆ


(
Y
)    

i
2 
i 1
i 1
 n ( X i  X ) 
n
2
n
2
2
 n .1  ( X i  X ) 

 

2 
 n ( X i  X ) 
2
2
2
2
p .
2
51
Assim, p é dado por:
p 

1

2
E (SQE )  (n  p)
p
E(SQEp )

2
2
 p
2

 (n  2 p )
Substituindo E(SQEp) pelo estimador SQEp, temos:
Cp 
SQEp
QME( X1 , X 2 ,...,X P 1 )
 (n  2 p )
SQEp é a soma de quadrados do erro para o modelo de
regressão com p parâmetros, ou seja, p-1 variáveis X.
52
Para um modelo com todas as P-1 variáveis
X modelo, o valor de Cp é dado por:
SQE( X 1 , X 2 ,..., X P 1 )
Cp 
 n  2 p   (n  P)  (n  2P)  P
SQE( X 1 , X 2 ,..., X P 1 )
nP
Quando o modelo de regressão com p-1
variáveis X não apresenta viés (o modelo é
correto)  E(Yˆi )  i . O valor esperado de Cp
é dado por:
E(Cp )  p
53
Portanto, num gráfico, Cp versus p, temos:
Modelos com pouco viés, os valores de
Cp tendem a se posicionarem próximos da
linha Cp=p.
Modelos com grande viés, os valores de
Cp tendem a se posicionarem bem acima
da linha Cp=p.
Modelos sem viés, os valores de Cp tendem
a se posicionarem abaixo da linha Cp=p.
Estão abaixo da linha devido ao erro de
54
amostragem (variação aleatória).
O critério Cp assume que o QME(X1,...,XP-1) é
um estimador não viesado de 2, o que é
equivalente a assumir que o modelo não
apresenta viés.
Com o critério Cp procuramos identificar
subconjuntos de variáveis X para os quais:
1. O valor de Cp é pequeno (o erro quadrático
médio total é pequeno);
2. O valor de Cp é próximo de p(o viés do
modelo de regressão é pequeno).
55
Exemplo: Na tabela, a coluna 7 fornece os
valores Cp, para todos os modelos de
regressão possíveis, para os dados do
experimento sobre demanda de recursos. Por
exemplo, um modelo com X3 apenas:
58,78
Cp 
 (18  2 (2 ))  5 ,70
2,98
Todos os valores de Cp estão na figura a
seguir:
56
Cp
219
116
115
114
17
16
7
6
5
4
3
2
1
0
*
X1
*
X2
*
X1 X2
*
X X
*X X
X
**
*X
3
1
3
2
3
1
X2 X3
p
1 2 34
57
O critério Cp, sugere os modelos com as
variáveis (X1, X2 e X3), X3 ou (X1 e X3). O
valor de Cp=4 não é muito melhor do que o
valor de Cp=5,70 para o modelo com apenas a
variável X3.
58
4 - Critério PRESSp
O critério PRESSp (soma de quadrados de
predição) é uma medida de quão bem os
valores ajustados através de um modelo
candidato (de pesquisa) podem predizer
as respostas observadas Yi.
59
Como funciona: cada valor ajustado
Yi(chapéu) para o critério PRESS é obtido
deletando-se o i-ésimo caso do conjunto de
dados, estimando a função de regressão para o
modelo candidato com as n-1 observações
restantes e, então, usando a equação de
regressão ajustada, obter o valor predito Yˆi ( i ) ,
para a i-ésima observação.
i-ésimo caso
omitido
i-ésimo valor
predito
60
O erro de predição PRESS para o i-ésimo
caso é dado por:
ˆ
Yi  Yi ( i )
O critério PRESSp é a soma de todos esses n
erros de predição quadráticos:
n

PRESS p   Yi  Yˆi ( i )
i 1

2
Modelos com valores pequenos de PRESSp
são os melhores modelos candidatos (tem
menor erro de predição).
61
Observação: os valores de PRESSp podem ser
calculados sem a necessidade de se fazer n
regressões separadas, cada vez deletando uma
das n observações. Ver seção 9.2, itens 9.21 e
9.21a.
Exemplo: Na tabela, a coluna 8 fornece os
valores PRESSp, para todos os modelos de
regressão possíveis, para os dados do
experimento sobre demanda de recursos.
Próximo slide cálculo do PRESS1.
62
o
s
o
a
d
O
c
s
r
n
i
b
p
o
i
h
t
s
u
s
a
o
o
1
2.0
14
70
6.0
-10.0471
2
2.0
10
210
6.5
-10.0471
3
5.0
16
75
12.5
-6.8706
4
5.0
10
250
14.0
-6.8706
5
7.0
27
144
14.0
-4.7529
6
7.0
15
350
15.0
-4.7529
7
9.0
42
190
20.0
-2.6353
8
9.1
15
415
20.5
-2.5294
9
10.0
39
210
30.0
-1.5765
10
10.3
12
380
31.0
-1.2588
11
13.0
50
235
25.0
1.6000
12
13.6
15
450
25.8
2.2353
13
15.0
60
310
32.0
3.7176
14
15.8
13
420
34.0
4.5647
15
20.0
83
400
60.0
9.0118
16
20.5
41
650
61.0
9.5412
17
21.0
90
200
63.0
10.0706
18
21.5
30
560
65.0
10.6000
63
787
457
456
455
454
133
PRESSp
80
70
60
5
4
3
2
1
0
*
X1
X2
*
*
X1 X2
X3
*
*
X X
*X X
*
1
3
2
3
*X
1
X2 X3
p
1
2
3
4
64
Observamos que os modelos com X3, X2X3 e
X1X2X3 apresentam os menores valores de
PRESSp. Na verdade, o modelo com X1X2X3
apresenta um valor de PRESSp levemente
inferior aos outros dois.
65
Regressão passo a passo à frente
(Forward Stepwise Regression)
Método:
• É feita uma sequência de modelos de
regressão, em cada passo adicionando ou
retirando uma variável preditora X do modelo.
66
Critério para adicionar ou retirar uma
variável preditora X do modelo:
• Redução na soma de quadrados do erro
• coeficiente de correlação parcial
• estatística t*
• estatística F*
Deficiência do método: termina com um único
modelo como sendo o melhor. A experiência
mostra que as vezes se chega a um modelo pobre.
67
Usar diagnóstico do modelo.
Recomendação:
Usar o subconjunto de variáveis encontrado pelo
método de regressão stepwise como sendo o ponto
de partida para encontrar outros “bons”
subconjuntos. Uma possibilidade é considerar o
número de variáveis preditoras encontrado pela
regressão stepwise como sendo aproximadamente o
número correto e, então, usar um procedimento que
realiza todas as regressões possíveis para
subconjuntos deste tamanho e vizinhança (R2p, R2a,
Cp, PRESSp).
68
Etapas
(Teste F parcial)
• Inicia-se ajustando-se um modelo de
regressão linear simples para cada uma das
P-1 variáveis explanatórias X. Para cada
modelo a estatística F* é calculada:
QMR( X k )
F 
QME( X k )
*
k
69
A variável X com o maior valor de F* é
candidata para a primeira adição. Se este
valor de F* ultrapassar determinado valor,
então, a variável é adicionada no modelo.
Caso contrário, o programa é concluído e
não são incluídas variáveis no modelo.
70
• Vamos assumir que a variável X3 (tamanho
da memória) entrou no modelo no passo 1.
A regressão stepwise ajusta todos os
modelos com duas variáveis X no modelo,
onde X3 é uma do par. Para cada modelo de
regressão calcula-se a estatística do teste F
parcial:
2
QMR( X k | X 3 )  bk
F 
 
QME( X k , X 3 )  s( bk
*
k


)
71
A variável X com o maior valor de F* é
candidata a entrar no modelo neste segundo
estágio. Se este valor de F* exceder um
determinado valor, a segunda variável X é
incluída no modelo, caso contrário, o
programa é finalizado.
72
• Suponha que X1 (acesso ao disco) é incluída
no modelo no segundo estágio. Neste passo,
a regressão stepwise examina se qualquer
das outras variáveis X já incluídas no
modelo devem ser retiradas. No nosso caso,
só temos uma outra variável no modelo, X3,
assim, só é feito um teste F parcial:
QMR( X 3 | X 1 )
*
F3 
73
QME( X 3 , X 1 )
Se este valor de F* for menor do que um
determinado valor, a variável X é deletada do
modelo, caso contrário, ela permanece.
• Suponha que ambas as variáveis, X3 e X1,
permanecem no modelo. A regressão stepwise
examina qual nova variável X é candidata a entrar
no modelo, então verifica se qualquer das
variáveis já incluídas no modelo deveriam ser
deletadas, e assim por diante, até que não se tenha
mais variáveis que podem ser adicionadas ou
retiradas do modelo. Neste ponto a regressão é
74
encerrada.
Exemplo: Saída do SAS, do método stepwise,
para os dados do experimento sobre demanda
de recursos.
Todas as variáveis no modelo são
significativas pelo menos ao nível de 0,15 ou
15% (valor definido pelo pesquisador) (valor
p 0,15).
As variáveis deixadas fora do modelo não
alcançaram o nível de significância de 0,15
(idem)(valor p > 0,15).
75
Para cada variável X a estatística F* é
calculada. Podemos ver estes valores F*k na
penúltima coluna da tabela. Vemos que
F*tamanho=175,11 é o mais alto valor. Como
o nível de significância é menor do que
0,15, o valor máximo para uma variável
entrar no modelo, a variável tamanho é a
primeira a entrar no modelo.
76
Neste estágio, o passo 1 foi completado. O
modelo de regressão contém a variável
tamanho, e a saída do SAS fornece as
estimativas dos coeficientes de regressão, a
análise de variância, e outras informações
sobre o presente modelo.
77
No próximo passo, todos os modelos de regressão
com a variável Tamanho e as outras variáveis,
acessos e memória, são ajustados e o valor da
estatística F* e o valor p são calculados.
Nenhuma das duas variáveis apresentaram valor p
menor ou igual a 0,15, portanto, nenhuma delas vai
entrar no modelo.
Assim, a regressão identificou a variável X3,
tamanho, como única variável preditora do modelo.
Parece ser coerente com a análise anterior
(procedimento de todos os modelos de regressão
78
possíveis).
The SAS System
The REG Procedure
Model: MODEL1
Dependent Variable: tempocpu
Stepwise Selection: Step 1
Variable
acessos
memoria
tamanho
Statistics for Entry
DF = 1,16
Model
Tolerance
R-Square
F Value
Pr > F
1.000000
0.4434
12.75
0.0026
1.000000
0.4569
13.46
0.0021
1.000000
0.9163
175.11
<.0001
79
Variable tamanho Entered: R-Square = 0.9163 and C(p) = 5.6949
Source
Model
Error
Corrected Total
Variable
Intercept
tamanho
Analysis of Variance
Sum of
Mean
DF Squares
Square
1
643.31837
643.31837
16
58.77941
3.67371
17
702.09778
F Value
Pr > F
175.11
<.0001
Parameter
Estimate
Standard
Error
Type II SS
F Value
Pr > F
2.20365
0.83453
25.61577
6.97
0.0178
0.31223
0.02359
643.31837
175.11
<.0001
Bounds on condition number: 1, 1
80
Stepwise Selection: Step 2
Variable
acessos
memoria
Statistics for Entry
DF = 1,15
Model
Tolerance
R-Square
F Value
Pr > F
0.551952
0.9174
0.21
0.6548
0.591907
0.9233
1.37
0.2599
All variables left in the model are significant at the 0.1500 level.
No other variable met the 0.1500 significance level for entry into the
model.
Step
1
Variable
Entered
tamanho
Summary of Stepwise Selection
Partial
Model
Variable
Number
RRRemoved Vars In Square Square
1
0.916
0.916
C(p)
5.69
F
Value
175.11
Pr > F
<.0001
81
Tolerância
Definição: é definida como:
1 R
2
k
Onde R2k é o coeficiente de determinação
quando é feita a regressão de Xk sobre as outras
variáveis X no modelo de regressão. Controla a
entrada de variáveis preditoras altamente
correlacionadas com as demais do modelo.
82
Download

Seleção das variáveis regressoras