• Rejane Sobrino Pinheiro
• Tania Guillén de Torres
Seleção do melhor modelo de regressão
Introdução
Temos 1 variável resposta Y e um conjunto de k variáveis
preditoras X1, X2, .., Xk.
O problema - Queremos determinar:
 O melhor (mais importante ou mais válido) subconjunto
dos k preditores
 O modelo de regressão melhor ajustado
Passos na seleção da melhor equação do modelo
 Abaixo, são apresentados passos que tornam a tarefa
menos nebulosa, em ações concretas.
 Especificar o modelo máximo a ser considerado
 Especificar o critério de seleção do modelo
 Especificar a estratégia de seleção das variáveis
 Estabelecer o modelo máximo, força o pesquisador a
estabelecer os objetivos da análise claramente, reconhecer
as limitações e o intervalo dos dados que possui.
 O pesquisador pode usar todo o conhecimento científico
disponível para definir o modelo máximo.
Passo 1: Especificação do modelo máximo
 É definido como o maior modelo, o que contém a maioria das
variáveis preditoras
 Qualquer outro modelo pode ser criado a partir da eliminação de
variáveis preditoras.
 Assume-se que o modelo máximo com k variáveis, ou alguma
restrição destas com p  k, é o modelo correto para a população.
Passo 1: Especificação do modelo máximo
(cont...)
 Incluir todos os preditores básicos concebíveis
 Incluir termos de maior ordem (IDADE2)
 Incluir outras transformações dos preditores (log IDADE,
1/ HGT)
 Incluir interações entre preditores (de 2a. ordem e maiores)
 Incluir todas as variáveis de controle possíveis.
Passo 1: Especificação do modelo máximo
(cont...)
 O super-ajuste de um modelo (incluindo variáveis no modelo que
tenham coeficientes da regressão verdadeiros nulos (população)
não introduzirá viés na estimativa dos coeficientes da população.
 Tem-se que se preocupar, entretanto, se o super-ajuste não irá
incluir colinearidade.
 Sub-ajustar, desconsiderando importantes preditores, introduzirá
viés nos coeficientes de regressão.
 Parcimônia  inclusão de coeficientes não importantes e não
estatisticamente significantes pode prejudicar a interpretação e
complicá-la
Passo 1: Especificação do modelo máximo (cont...)
 O tamanho da amostra traz restrições ao modelo máximo. Quanto
menor o tamanho da amostra, menor o tamanho (número de
variáveis) que o modelo máximo pode ter.
 A maior limitação está em que o número de graus de liberdade do
erro deve ser positivo
graus de liberdade = n - k -1 > 0
 O que é equivalente à limitação:
n>k+1
n  nº de observações
k  nº de preditores. (k + 1  inclui intercepto)
Passo 1: Especificação do modelo máximo
(cont...)
 Existem algumas regras básicas para o no. de preditores:

n - k - 1  10

n  5k

n  10k
 Outra limitação é introduzir variáveis com variância zero.
 Ex: supondo a inclusão da variável GÊNERO = 1
para todos os valores da amostra.
 A variância da variável na amostra é nula.
 Há perfeita colinearidade com o intercepto.
Passo 2: Especificar um critério para a seleção do modelo
 Diferenças numéricas podem ou não estar relacionadas com
diferenças significantes ou importantes:
 Estatisticamente significantes  em amostras grandes, as
diferenças podem ser significantes, porém podem ser ou não
importantes
 Cientificamente importantes  diferenças importantes
podem não ser estatísticamente significantes em amostras
pequenas, por exemplo.
Passo 2: Especificar um critério para a seleção do modelo
R2  desvantagem: adicionando preditores, R2 não decresce.
F  bastante usada.
Diversos critérios têm sido propostos. Alguns são:

R2p, Fp,

MSE(p) = SSE(p) / (n-p-1)  variância do erro

Cp  Mallow's Cp
SSE ( p )
Cp 
 [n  2( p  1)]
MSE (k )
cont.
Passo 2: Especificar um critério para a seleção do modelo
cont.
Supondo o modelo máximo com k preditores:
Y = 0 + 1 X1 + 2 X2 + ... + p Xp + p+1 Xp+1 + ... + k Xk + 
E o modelo reduzido com p preditores:
Y = 0 + 1 X1 + 2 X2 + ... + p Xp + 
[ SSE ( p)  SSE (k )]
Fp 
SSE (k )
(k  p)
(n  k  1)
[ SSE ( p)  SSE (k )]

MSE (k )
( Rk2  Rp2 )
(k  p)
Fp 
(1  R )
2
k
(k  p)
(n  k  1)
A estatística Fp pode ser comparada a uma distribuição F com
k - p (numerador) e n - k -1 (denominador) graus de liberdade
Fp testa se a diferença (SSE(p) - SSE(k)) entre a soma dos
quadrados dos resíduos do modelo máximo (com k variáveis)
e a soma dos quadrados dos resíduos do modelo reduzido (com
p variáveis)  difere significativamente de zero?
 Se Fp não é significante, podemos escolher o modelo
menor - com p variáveis
 Caso especial  p = k-1  Fp testa Ho: k = 0 no modelo
completo (máximo)
Passo 3: Especificar uma estratégia de seleção de
variáveis
A. Todas as regressões possíveis
 Embora não prática, esta estratégia deve ser preferida às
outras. É o único método que garante encontrar-se o
modelo com maior R2.
 Torna-se quase impraticável quando o nº k de variáveis é
grande
 Ajuste de todos os modelos que contenha a combinação das
k variáveis
 A estatística F parcial entre o modelo 4 (F(X2|X1) = 4.785 
contribuição de X2
 Modelo 7: F(X2|X1,X3) = 0.140
 Usando o teste F parcial múltiplo, compara-se um modelo
reduzido com o modelo completo (máximo).
( Rk2  Rp2 )
Fp 
(1  R )
2
k
(k  p)
(n  k  1)
(.7802  .7800)

(1  .7802)
(3  2)
 0.007
(12  3  1)
 O valor pequeno de Fp aponta que o modelo 4 não difere
significativamente do modelo máximo (modelo 7).
 O algoritmo de usar todas as regressões possíveis demanda que
sejam analisados 2k - 1 modelos(se k = 10 => 210-1 = 1023).
 Outros métodos podem mostrar-se factíveis
B. Procedimento de eliminação Backward
1. Ajusta-se o modelo contendo todas as variáveis (estimativa
do modelo máximo)
2. Calcula-se o teste F parcial para cada variável do modelo
como se fosse a última variável introduzida no modelo.
3. Observar o menor valor da estatística parcial F.
4. Comparar o valor p com um nível de significância preselecionado (exemplo 10%). Caso seja maior, decidir sobre a
exclusão da variável do modelo.
5. Caso a variável saia do modelo, ajuste novamente para as
variáveis remanescentes. Caso não saia, o processo termina.
B. Procedimento de eliminação Backward
C. Procedimento de seleção Foward
1. Selecionar a primeira variável a entrar no modelo como a
variável mais correlacionada com a variável dependente. Ajustar
o modelo.
2. Se o teste F global for não significante, parar e concluir que
nenhuma variável independente é importante preditora.
3. Se o teste F global for significante, incluir a variável no modelo
e seguir para o passo 4
4. Determinar o teste F parcial e os valores p associados a cada
variável remanescente, baseado no modelo contendo a variável
inicial e a variável em questão.
5. Observar qual modelo (de qual variável incluída) possui o maior
teste F parcial.
C. Procedimento de seleção Foward
6. Testar a significância do teste F parcial. Caso seja significante,
incluir esta variável no modelo. Caso não seja, usar no modelo
somente a variável incluída no item 1 (usar p < 0,10, por
exemplo).
7. Para cada passo seguinte, determinar o teste F parcial para as
variáveis não incluídas no modelo. Incluir a variável que tiver
o maior teste F parcial. Caso os testes F parciais não sejam
significantes, nenhuma variável mais deve ser incluída no
modelo.
inserir a saída da pg. 397
kleinbaum
•A variável com maior correlação é HGT (0,6630)
•Ajustar regressão para esta variável
•Calcular o teste F parcial pela inclusão separadamente de cada uma das variáveis
remanescentes (um p/ AGE e outro p/ AGE2)
•Qual o maior F parcial (menor p valor)? Como p < 0,10, incluir idade
D. Procedimento de regressão Stepwise
 É uma versão modificada do procedimento Foward.
 Permite o re-exame das variáveis já incluídas no modelo
 Uma variável já incluída no modelo pode tornar-se supérflua.
 A cada passo, um teste F parcial para cada variável é executado,
como se fosse a última variável incluída no modelo.
 A variável com o menor teste F parcial não significante é
removida (caso haja).
 O modelo é reajustado com as variável remanescentes.
 O procedimento é repetido até que nenhuma variável saia ou entre
mais no modelo.
Desvantagens:
 Não é controlada pelo usuário
 A ordem da inclusão pode afetar os resultados
Download

5 Estrategia Modelagem Reg Multipla 2005