• Rejane Sobrino Pinheiro • Tania Guillén de Torres Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis preditoras X1, X2, .., Xk. O problema - Queremos determinar: O melhor (mais importante ou mais válido) subconjunto dos k preditores O modelo de regressão melhor ajustado Passos na seleção da melhor equação do modelo Abaixo, são apresentados passos que tornam a tarefa menos nebulosa, em ações concretas. Especificar o modelo máximo a ser considerado Especificar o critério de seleção do modelo Especificar a estratégia de seleção das variáveis Estabelecer o modelo máximo, força o pesquisador a estabelecer os objetivos da análise claramente, reconhecer as limitações e o intervalo dos dados que possui. O pesquisador pode usar todo o conhecimento científico disponível para definir o modelo máximo. Passo 1: Especificação do modelo máximo É definido como o maior modelo, o que contém a maioria das variáveis preditoras Qualquer outro modelo pode ser criado a partir da eliminação de variáveis preditoras. Assume-se que o modelo máximo com k variáveis, ou alguma restrição destas com p k, é o modelo correto para a população. Passo 1: Especificação do modelo máximo (cont...) Incluir todos os preditores básicos concebíveis Incluir termos de maior ordem (IDADE2) Incluir outras transformações dos preditores (log IDADE, 1/ HGT) Incluir interações entre preditores (de 2a. ordem e maiores) Incluir todas as variáveis de controle possíveis. Passo 1: Especificação do modelo máximo (cont...) O super-ajuste de um modelo (incluindo variáveis no modelo que tenham coeficientes da regressão verdadeiros nulos (população) não introduzirá viés na estimativa dos coeficientes da população. Tem-se que se preocupar, entretanto, se o super-ajuste não irá incluir colinearidade. Sub-ajustar, desconsiderando importantes preditores, introduzirá viés nos coeficientes de regressão. Parcimônia inclusão de coeficientes não importantes e não estatisticamente significantes pode prejudicar a interpretação e complicá-la Passo 1: Especificação do modelo máximo (cont...) O tamanho da amostra traz restrições ao modelo máximo. Quanto menor o tamanho da amostra, menor o tamanho (número de variáveis) que o modelo máximo pode ter. A maior limitação está em que o número de graus de liberdade do erro deve ser positivo graus de liberdade = n - k -1 > 0 O que é equivalente à limitação: n>k+1 n nº de observações k nº de preditores. (k + 1 inclui intercepto) Passo 1: Especificação do modelo máximo (cont...) Existem algumas regras básicas para o no. de preditores: n - k - 1 10 n 5k n 10k Outra limitação é introduzir variáveis com variância zero. Ex: supondo a inclusão da variável GÊNERO = 1 para todos os valores da amostra. A variância da variável na amostra é nula. Há perfeita colinearidade com o intercepto. Passo 2: Especificar um critério para a seleção do modelo Diferenças numéricas podem ou não estar relacionadas com diferenças significantes ou importantes: Estatisticamente significantes em amostras grandes, as diferenças podem ser significantes, porém podem ser ou não importantes Cientificamente importantes diferenças importantes podem não ser estatísticamente significantes em amostras pequenas, por exemplo. Passo 2: Especificar um critério para a seleção do modelo R2 desvantagem: adicionando preditores, R2 não decresce. F bastante usada. Diversos critérios têm sido propostos. Alguns são: R2p, Fp, MSE(p) = SSE(p) / (n-p-1) variância do erro Cp Mallow's Cp SSE ( p ) Cp [n 2( p 1)] MSE (k ) cont. Passo 2: Especificar um critério para a seleção do modelo cont. Supondo o modelo máximo com k preditores: Y = 0 + 1 X1 + 2 X2 + ... + p Xp + p+1 Xp+1 + ... + k Xk + E o modelo reduzido com p preditores: Y = 0 + 1 X1 + 2 X2 + ... + p Xp + [ SSE ( p) SSE (k )] Fp SSE (k ) (k p) (n k 1) [ SSE ( p) SSE (k )] MSE (k ) ( Rk2 Rp2 ) (k p) Fp (1 R ) 2 k (k p) (n k 1) A estatística Fp pode ser comparada a uma distribuição F com k - p (numerador) e n - k -1 (denominador) graus de liberdade Fp testa se a diferença (SSE(p) - SSE(k)) entre a soma dos quadrados dos resíduos do modelo máximo (com k variáveis) e a soma dos quadrados dos resíduos do modelo reduzido (com p variáveis) difere significativamente de zero? Se Fp não é significante, podemos escolher o modelo menor - com p variáveis Caso especial p = k-1 Fp testa Ho: k = 0 no modelo completo (máximo) Passo 3: Especificar uma estratégia de seleção de variáveis A. Todas as regressões possíveis Embora não prática, esta estratégia deve ser preferida às outras. É o único método que garante encontrar-se o modelo com maior R2. Torna-se quase impraticável quando o nº k de variáveis é grande Ajuste de todos os modelos que contenha a combinação das k variáveis A estatística F parcial entre o modelo 4 (F(X2|X1) = 4.785 contribuição de X2 Modelo 7: F(X2|X1,X3) = 0.140 Usando o teste F parcial múltiplo, compara-se um modelo reduzido com o modelo completo (máximo). ( Rk2 Rp2 ) Fp (1 R ) 2 k (k p) (n k 1) (.7802 .7800) (1 .7802) (3 2) 0.007 (12 3 1) O valor pequeno de Fp aponta que o modelo 4 não difere significativamente do modelo máximo (modelo 7). O algoritmo de usar todas as regressões possíveis demanda que sejam analisados 2k - 1 modelos(se k = 10 => 210-1 = 1023). Outros métodos podem mostrar-se factíveis B. Procedimento de eliminação Backward 1. Ajusta-se o modelo contendo todas as variáveis (estimativa do modelo máximo) 2. Calcula-se o teste F parcial para cada variável do modelo como se fosse a última variável introduzida no modelo. 3. Observar o menor valor da estatística parcial F. 4. Comparar o valor p com um nível de significância preselecionado (exemplo 10%). Caso seja maior, decidir sobre a exclusão da variável do modelo. 5. Caso a variável saia do modelo, ajuste novamente para as variáveis remanescentes. Caso não saia, o processo termina. B. Procedimento de eliminação Backward C. Procedimento de seleção Foward 1. Selecionar a primeira variável a entrar no modelo como a variável mais correlacionada com a variável dependente. Ajustar o modelo. 2. Se o teste F global for não significante, parar e concluir que nenhuma variável independente é importante preditora. 3. Se o teste F global for significante, incluir a variável no modelo e seguir para o passo 4 4. Determinar o teste F parcial e os valores p associados a cada variável remanescente, baseado no modelo contendo a variável inicial e a variável em questão. 5. Observar qual modelo (de qual variável incluída) possui o maior teste F parcial. C. Procedimento de seleção Foward 6. Testar a significância do teste F parcial. Caso seja significante, incluir esta variável no modelo. Caso não seja, usar no modelo somente a variável incluída no item 1 (usar p < 0,10, por exemplo). 7. Para cada passo seguinte, determinar o teste F parcial para as variáveis não incluídas no modelo. Incluir a variável que tiver o maior teste F parcial. Caso os testes F parciais não sejam significantes, nenhuma variável mais deve ser incluída no modelo. inserir a saída da pg. 397 kleinbaum •A variável com maior correlação é HGT (0,6630) •Ajustar regressão para esta variável •Calcular o teste F parcial pela inclusão separadamente de cada uma das variáveis remanescentes (um p/ AGE e outro p/ AGE2) •Qual o maior F parcial (menor p valor)? Como p < 0,10, incluir idade D. Procedimento de regressão Stepwise É uma versão modificada do procedimento Foward. Permite o re-exame das variáveis já incluídas no modelo Uma variável já incluída no modelo pode tornar-se supérflua. A cada passo, um teste F parcial para cada variável é executado, como se fosse a última variável incluída no modelo. A variável com o menor teste F parcial não significante é removida (caso haja). O modelo é reajustado com as variável remanescentes. O procedimento é repetido até que nenhuma variável saia ou entre mais no modelo. Desvantagens: Não é controlada pelo usuário A ordem da inclusão pode afetar os resultados