Construção de Modelos: Seleção de Variáveis Regressoras Etapas para construir modelos: • Seleção das variáveis regressoras ou preditoras ; • Diagnóstico para verificar se o modelo ajustado é adequado, correto; • Aplicar medidas remediadoras (corretivas) quando as condições do modelo não são satisfeitas; • Validação do modelo 1 Visão geral do processo de construção de modelos 4 fases (veja figura no próximo slide) • 1 - Coleta e preparação dos dados • 2 - Redução das variáveis preditoras (para estudos observacionais exploratórios) • 3 - Refinamento e seleção do modelo • 4 - Validação do modelo 2 Coleta de dados Checagem preliminar da qualidade dos dados Diagnóstico para relações e interações Medidas corretivas Sim Coleta e preparação dos dados São necessárias Medidas Corretivas? Não Determinar subconjuntos de variáveis regressoras; incluir v. sabidas essenciais Redução do número de var. reg Investigar efeitos de curvatura e interações Análise de resíduos e diagnóstico Medidas corretivas Sim São necessárias Medidas Corretivas? Refinamento e seleção de modelos Não Selecione modelos de pesquisa Não Checar validade Sim Modelo final De regressão Validação do modelo 3 1 - Coleta de dados 4 tipos de estudos: • Dados experimentais • Dados experimentais com variáveis adicionais • Estudos observacionais confirmatórios • Estudos observacionais exploratórios 4 Dados experimentais Neste caso, o pesquisador seleciona os níveis das variáveis regressoras e, atribui os tratamentos, consistindo das combinações dos níveis das variáveis preditoras, às unidades experimentais, e observa a variável resposta. Exemplo: uma pesquisadora estudou o efeito do tamanho da cache (X1) e tipo de pré-carregamento (X2). Utilizou três níveis para o fator tamanho da cache (250.000, 300.000 e 350.000)e cinco níveis para o fator tipo de précarregamento ( ). O primeiro fator é quantitativo e o segundo fator é qualitativo. Têm-se um total de 3 x 5 = 15 tratamentos. As variáveis respostas foram a porcentagem de acerto e bytes transferidos. A unidade experimental foi.................. É necessário fazer algumas repetições dos tratamentos, ou seja, para cada tratamento, obter resultados de várias unidades experimentais. A pesquisadora usou três repetições. 5 Experimentos com variáveis adicionais (Covariáveis) Os projetos experimentais usam informações adicionais, tais como características das unidades experimentais, no planejamento do experimento, com o objetivo de reduzir o termo do erro experimental. Por exemplo, o pesquisador está usando diversas cpu’s no experimento(Variáveis passíveis de controle). Entretanto, existem variáveis sobre as quais o pesquisador não tem controle. Assim, o pesquisador vai incluir estas variáveis no modelo de regressão e, assim, reduzir a variância do erro. Por exemplo, o tempo de experiência e a idade dos programadores. 6 Estudos observacionais confirmatórios Esses estudos são planejados para testar (confirmar ou não) hipóteses levantadas de estudos anteriores. Aqui, dados são coletados para variáveis preditoras que estudos prévios demostraram afetar a variável resposta,são chamadas de variáveis controle e, como também variáveis envolvidas na hipótese, são chamadas de variáveis primárias. As variáveis controle são usadas para levar em consideração influências conhecidas na variável resposta. 7 Exemplo Num estudo observacional do efeito do tempo de experiência em programação sobre a realização de uma tarefa dentro de um determinado tempo (realizou ou não realizou), fatores como: idade e sexo são incluídas como variáveis controle e, o tempo de experiência, seria a variável primária. A variável resposta é uma variável dicotômica: realizou ou não realizou a tarefa (regressão logística). 8 Estudos observacionais exploratórios Nesses estudos o pesquisador busca variáveis regressoras que podem estar relacionadas com a variável resposta. Possivelmente, o número de variáveis regressoras é grande. Exemplo: As vendas de uma empresa de microcomputadores numa cidade pode estar relacionada com o tamanho populacional, renda per capita, porcentagem da população na área urbana, porcentagem da população com menos de 40 anos e outras. 9 Uma primeira seleção (eliminação) de variáveis preditoras (num estudo observacional exploratório): 1) uma v. preditora pode não ser fundamental para o estudo; 2) pode ser sujeita a grandes erros de medidas (baixa precisão); 3) uma variável preditora pode estar muito relacionada com outra (duplicação de informação) Número de observações a serem coletadas Regra geral: pelo menos 6 a 10 casos para cada variável do conjunto. 10 Preparação dos dados Coletados os dados Organizar, resumir, explorar, Verificar erros grosseiros, outliers Sempre que possível o pesquisador deve estar presente na coleta dos dados Os erros devem ser corrigidos antes de iniciar a construção do modelo (crítico em grandes bases de dados) 11 Investigação preliminar do modelo Dados fidedignos Pensar na construção do modelo Diagnósticos: Diagrama de dispersão, gráficos de resíduos, ajuste de funções de regressão para verificar relacionamentos, interações, necessidade de transformações. Usar a experiência do investigador. 1) a forma funcional de como as variáveis preditoras devem entrar no modelo de regressão; 2) interações importantes que devem ser incluídas no modelo. 12 2 - Redução das Variáveis Explanatórias Dados experimentais Nesses estudos, não é usual pensar em diminuir o número de variáveis explanatórias. 13 Dados experimentais com variáveis adicionais (covariáveis) É possível diminuir o número de covariáveis, pois nem todas elas diminuirão o erro experimental. Por exemplo, o tempo de experiência e a idade dos programadores. Se estas variáveis não estão relacionadas com a variável resposta, elas podem ser retiradas do modelo. 14 Estudos observacionais confirmatórios As variáveis controle deveriam ser mantidas no modelo para se comparar com os estudos prévios, mesmo que alguma(s) dela(s) não contribua para a redução da variância do erro. As variáveis primárias são aquelas que estamos verificando o seu efeito na variável resposta, portanto, devem ser mantidas no modelo. 15 Estudos observacionais exploratórios O número de variáveis regressoras é grande e, geralmente, são correlacionadas. Interesse em reduzir o número dessas variáveis. 16 Razões para seleção de variáveis regressoras (estudos observacionais exploratórios) • É difícil manter o modelo válido (verdadeiro) • Um modelo com poucas variáveis é mais fácil de trabalhar e entender • A presença de variáveis correlacionadas implica num acréscimo da variância amostral dos coeficientes de regressão, diminuindo a capacidade preditiva e, piorando, também o poder descritivo • A capacidade preditiva do modelo diminui quando variáveis explanatórias não relacionadas com a variável resposta são mantidas no modelo, dado que as outras variáveis explanatórias estão no modelo. 17 Problema na análise de regressão: (estudos observacionais exploratórios) A identificação de uns poucos subconjuntos de variáveis explanatórias potenciais (alguns modelos) para serem incluídos no modelo de regressão final, e a determinação das adequadas funções relacionais e termos da interação dessas variáveis. Atenção: como os objetivos da análise de regressão são diversos, então, não existe um subconjunto de variáveis regressoras como sendo sempre o melhor. Por exemplo: modelos para descrição, para predição. 18 Algumas considerações sobre construção de modelos: (estudos observacionais exploratórios) A eliminação de variáveis preditoras imprescindíveis prejudica o modelo: do poder descritivo até produzir um viés na estimativa da variância do erro. O modelo contiver mais variáveis do que o necessário a variância das estimativas dos parâmetros será grande em comparação com modelos mais simples. Variáveis relevantes cujos resultados estão dentro de uma pequena faixa não apresenta significância estatística. 19 Parte computacional (abordagens): existem diversos para variáveis correlacionadas. Ser pragmático e usar julgamento subjetivo. Exemplo: variáveis essenciais devem ser mantidas no modelo. Comentário: A estatística: bk t s( bk ) * k pode levar à retirada de variáveis regressoras intercorrelacionadas importantes. Um bom procedimento de procura deve ser capaz de lidar com variáveis regressoras intercorrelacionadas, de tal forma que nem todas sejam retiradas do modelo. 20 3 - Seleção e refinamento do modelo Gráficos de resíduos, gráfico das variáveis Nesta fase, o(s) adicionadas, resíduos possível(eis) modelo(s) semistudentizados, DFFITS, DFBETAS, de regressão, deve(m) Ferramentas VIF, teste para falta de ser checado(s) para as ajuste, diagnóstico para relações funcionais e observações influentes, interações das variáveis multicolinearidade etc. regressoras. (Capítulo 9 do livro texto). 21 Gráfico de resíduos versus interações e/ou termos quadráticos, cúbicos, etc. ainda não incluídos no modelo, é útil para identificar termos que podem melhorar o ajuste do modelo. Aplica regressão stepwise (processo automático de seleção) Verificar o número de v. regressoras retidas no modelo. Encontrar outros possíveis modelos 22 4 - Validação do modelo Refere-se a qualidade (estabilidade e razoabilidade) dos coeficientes de regressão; ao bom poder descritivo (plausível, útil) da parte funcional do modelo. 1 - Coleta de novos dados (dados independentes) para checar o modelo e seu poder preditivo; 2 - Comparar os resultados com valores teóricos esperados, resultados empíricos anteriores ou resultados simulados; 3 - Usar uma parte da amostra para checar o modelo e o poder preditivo do mesmo. (Capítulo 10 do livro texto) 23 O item 3 refere-se a divisão da base de dados em dois arquivos: 1. Arquivo de treinamento (construção) 2. Arquivo de validação ou predição Com o arquivo de validação, os coeficientes de regressão podem ser estimados para o modelo selecionado e, então, verificado a sua consistência com os coeficientes obtidos com o arquivo de treinamento. Fazer predições para os dados do arquivo de validação, com o modelo de regressão desenvolvido com os dados de treinamento, para verificar a sua habilidade de predição. 24 Exemplo: Temos um estudo observacional exploratório com apenas 3 variáveis regressoras, quais sejam: X1 acesso ao disco (number of disk I/O’s) X2 memória (memory size) X3 tamanho (data bytes) Dezoito programas foram monitorados para observar a demanda de recursos. A variável resposta observada foi o tempo de CPU (milisegundos). Os resultados foram: 25 26 27 Variáveis intercorrelacionadas 28 Inicialmente, foi ajustado um modelo de regressão de primeira ordem, com todas as variáveis explanatórias incluídas no modelo: Yi 0 1Xi1 2 Xi 2 3 Xi 3 i N o rm a lP ro b a b y ilt P lo o t R f e s id u a ls 2 5 , Não observamos muita discrepância da normalidade 1 5 , ExpectedNormalValue 0 5 , -0 5 , -1 5 , -2 5 , -3 -2 -1 0 R e s id u a ls 1 2 3 4 29 Observando a matriz de gráficos de dispersão, verificamos que o tempo de cpu está linearmente relacionado com acesso, memória e tamanho. Verificamos, também, que existe colinearidade entre as variáveis regressoras, ou seja, tamanho está relacionada com acesso e memória. Transformação de variáveis (existe necessidade?) Por exemplo: transformar acesso para maior simetria. Devemos verificar se todas as variáveis regressoras devem permanecer no modelo, se alguma interação deve ser incluída, termos quadráticos. 30 Observa-se um efeito quadrático do tamanho da cache. 31 Seleção de alguns modelos candidatos A idéia é selecionar alguns modelos (de 3 a 6, por exemplo) que incluem, possivelmente, um conjunto menor de variáveis explanatórias (se o conjunto de variáveis regressoras for grande) de acordo com algum(s) critério(s), e assim selecionar o modelo de regressão final a ser utilizado. 32 Critérios: • Coeficiente de determinação múltiplo, R 2 ; p • Coeficiente de determinação múltiplo ajustado, Ra2 ou QMEp ; • Critério Cp;(Baseado no desvio quadrático médio) • Critério Pressp (Soma de quadrados da predição) 33 Notação: Número de variáveis X: P-1 Um modelo com todas as variáveis X, possui P parâmetros (sempre incluído o intercepto). O número de um subconjunto de variáveis regressoras no modelo é p-1. Assume-se que n>P (quanto maior melhor). 34 1 - Coeficiente de determinação múltiplo, R 2 p É o coef. de determinação R múltiplo para um modelo com p parâmetros, ou p-1 variáveis regressoras no modelo. Objetivo: identificar os (vários) modelos candidatos com maior valor de R 2 ou p menor valor de SQEp. 2 p R 1 2 p SQEp SQTO P é o número de parâmetros ou p-1 variáveis X. 35 Objetivo: a intenção com a utilização de R2p é encontrar o ponto onde a adição de novas variáveis X no modelo não é vantajoso, pois isto conduz a um pequeno acréscimo em R2p. Exemplo: Na tabela a seguir, as colunas 2, 3, 4 e 5 indicam, o número de parâmetros do modelo, graus de liberdade do resíduo, soma de quadrados do erro, e o coeficiente de determinação. 36 Variáveis X no modelo Nenhuma X1 X2 X3 X1,X2 X1,X3 X2,X3 X1,X2,X3 p gl SQEp 1 2 2 2 3 3 3 4 17 16 16 16 15 15 15 14 702,10 390.80 381.34 58.78 85.02 57.98 53.87 41.78 R2P QMEp 0 41,30 0.4434 24.42 0.4569 23.83 0.9163 3.67 0.8789 5.67 0.9174 3.87 0.9233 3.59 0.9405 2.98 Cp PRESSP 219.27 116.95 113.78 5.70 16.49 7.43 6.05 4 787.13 457.09 453.94 70.30 133.27 80.21 71.09 64.80 Observação: SQTotal=SQE1=702,10 37 1,0 X2 X3 X3 R2p 0,9 X X * * *X X * 1 1 * X1 X2 X3 3 2 0,8 0,5 X2 0,4 0 * *X 1 * 1 p 2 3 4 38 O gráfico mostra que existe pouco acréscimo no R2p quando o modelo inclui a variável X3 ou X2X3 . Apresenta um pequeno acréscimo, com relação aos dois modelos anteriores, quando inclui as 3 variáveis X1X2X3. Desvantagem: R2p não leva em consideração o número de parâmetros no modelo de regressão, assim, ele nunca diminui quando p aumenta. 39 2 - Coeficiente de determinação 2 múltiplo ajustado, Ra ou QMEp QME n 1 SQE R 1 1 SQTOTAL/(n 1) n p SQTOTAL 2 a Leva em consideração o número de parâmetros no modelo Observe que R2a aumenta se e apenas se o quadrado médio do erro diminui, pois a sqtotal/(n-1) é fixa dado os valores observados de y. 40 Exemplo: Na tabela, a coluna 6 fornece os valores dos quadrados médios do erro, para todos os modelos de regressão possíveis, para o dados do experimento sobre demanda de recursos. Por exemplo, um modelo com X3: SQE ( X 3 ) 58,78 QME 2 3,6737 n2 16 41 41 * 24 23 6 QME 5 4 3 2 1 0 X2 * * X1 * X1 X2 X3 * X * X *X 1 2 3 X3 *X 1 X2 X3 p 1 2 3 4 42 As conclusões são muito semelhantes àquelas feita com o uso do coeficiente de determinação múltiplo. Os quadrados médios encontrados para os subconjuntos X3, X2X3, X1X3 e X1X2X3 são praticamente iguais. 43 3 - Critério Cp O critério Cp envolve o conceito de erro quadrático médio total, o qual considera o erro total em cada valor ajustado: Yˆ i i Yˆi é o valorajustadopara umadadaamostra i é a resposta m édiaesperadacom o verdadeirom odelode regressão 44 Dois componentes do erro: Yˆ EYˆ Yˆ EYˆ i i i Viés i i i Erro aleatório Desvio devido ao uso de um modelo incorreto. 45 Portanto, o quadrado do erro total para Yi(chapéu), fica: Yˆ E Yˆ Yˆ E Yˆ 2 i 2 i i i O valor esperado é dado por: E Yˆi i 2 E (Yˆi ) i i 2 i 2 (Yˆi ) Viés do modelo (Veja demonstração na próxima página) 46 E E Yˆ 2E Yˆ Yˆ E Yˆ Yˆ E Yˆ (1) E E Yˆ E Yˆ (2) 2 E E Yˆ Yˆ E Yˆ 2E Yˆ E (Yˆ ) E Yˆ E Yˆ E Yˆi i 2 E E Yˆi i Yˆi E Yˆi 2 2 i 2 i i i i 2 i i 0 i i (3) E Yˆi E Yˆi i i 2 i i 2 i i i i i i i i i ˆ ) (definição) 2 (Y i 47 O erro quadrático médio do total, para todas os n valores ajustados Yi(chapéu), é a soma de todos os n erros quadráticos médios individuais: n ˆ E Y i i i 1 2 n ˆ E (Yi ) i i 1 n i 1 ˆ E (Yi ) i 2 2 2 ˆ (Yi ) n ˆ (Yi ) 2 i 1 48 Uma medida do critério, representado por p, é o erro quadrático médio total dividido pela variância do erro: 1 2 ˆ ˆ p 2 E (Yi ) i (Yi ) i 1 i 1 n 2 n Um estimador de 2 é o QME(X1, X2,...,XP-1), isto é, o quadrado médio do erro do modelo com todas as potenciais variáveis explanatórias. Isto é equivalente a assumir que o modelo é correto (sem viés). 49 O estimador de p Resultados: n 1) 2 ˆ 2 ( Y ) p (Demonstração ) i i 1 n 2 ) E(SQEp ) i 1 E (Yˆi ) i (n p) 2 2 50 ( Xi X ) 21 ˆ ( Yi ) 2 n ( X i X ) 2 2 1 ( X X ) i ˆ ( Y ) i 2 i 1 i 1 n ( X i X ) n 2 n 2 2 n .1 ( X i X ) 2 n ( X i X ) 2 2 2 2 p . 2 51 Assim, p é dado por: p 1 2 E (SQE ) (n p) p E(SQEp ) 2 2 p 2 (n 2 p ) Substituindo E(SQEp) pelo estimador SQEp, temos: Cp SQEp QME( X1 , X 2 ,...,X P 1 ) (n 2 p ) SQEp é a soma de quadrados do erro para o modelo de regressão com p parâmetros, ou seja, p-1 variáveis X. 52 Para um modelo com todas as P-1 variáveis X modelo, o valor de Cp é dado por: SQE( X 1 , X 2 ,..., X P 1 ) Cp n 2 p (n P) (n 2P) P SQE( X 1 , X 2 ,..., X P 1 ) nP Quando o modelo de regressão com p-1 variáveis X não apresenta viés (o modelo é correto) E(Yˆi ) i . O valor esperado de Cp é dado por: E(Cp ) p 53 Portanto, num gráfico, Cp versus p, temos: Modelos com pouco viés, os valores de Cp tendem a se posicionarem próximos da linha Cp=p. Modelos com grande viés, os valores de Cp tendem a se posicionarem bem acima da linha Cp=p. Modelos sem viés, os valores de Cp tendem a se posicionarem abaixo da linha Cp=p. Estão abaixo da linha devido ao erro de 54 amostragem (variação aleatória). O critério Cp assume que o QME(X1,...,XP-1) é um estimador não viesado de 2, o que é equivalente a assumir que o modelo não apresenta viés. Com o critério Cp procuramos identificar subconjuntos de variáveis X para os quais: 1. O valor de Cp é pequeno (o erro quadrático médio total é pequeno); 2. O valor de Cp é próximo de p(o viés do modelo de regressão é pequeno). 55 Exemplo: Na tabela, a coluna 7 fornece os valores Cp, para todos os modelos de regressão possíveis, para os dados do experimento sobre demanda de recursos. Por exemplo, um modelo com X3 apenas: 58,78 Cp (18 2 (2 )) 5 ,70 2,98 Todos os valores de Cp estão na figura a seguir: 56 Cp 219 116 115 114 17 16 7 6 5 4 3 2 1 0 * X1 * X2 * X1 X2 * X X *X X X ** *X 3 1 3 2 3 1 X2 X3 p 1 2 34 57 O critério Cp, sugere os modelos com as variáveis (X1, X2 e X3), X3 ou (X1 e X3). O valor de Cp=4 não é muito melhor do que o valor de Cp=5,70 para o modelo com apenas a variável X3. 58 4 - Critério PRESSp O critério PRESSp (soma de quadrados de predição) é uma medida de quão bem os valores ajustados através de um modelo candidato (de pesquisa) podem predizer as respostas observadas Yi. 59 Como funciona: cada valor ajustado Yi(chapéu) para o critério PRESS é obtido deletando-se o i-ésimo caso do conjunto de dados, estimando a função de regressão para o modelo candidato com as n-1 observações restantes e, então, usando a equação de regressão ajustada, obter o valor predito Yˆi ( i ) , para a i-ésima observação. i-ésimo caso omitido i-ésimo valor predito 60 O erro de predição PRESS para o i-ésimo caso é dado por: ˆ Yi Yi ( i ) O critério PRESSp é a soma de todos esses n erros de predição quadráticos: n PRESS p Yi Yˆi ( i ) i 1 2 Modelos com valores pequenos de PRESSp são os melhores modelos candidatos (tem menor erro de predição). 61 Observação: os valores de PRESSp podem ser calculados sem a necessidade de se fazer n regressões separadas, cada vez deletando uma das n observações. Ver seção 9.2, itens 9.21 e 9.21a. Exemplo: Na tabela, a coluna 8 fornece os valores PRESSp, para todos os modelos de regressão possíveis, para os dados do experimento sobre demanda de recursos. Próximo slide cálculo do PRESS1. 62 o s o a d O c s r n i b p o i h t s u s a o o 1 2.0 14 70 6.0 -10.0471 2 2.0 10 210 6.5 -10.0471 3 5.0 16 75 12.5 -6.8706 4 5.0 10 250 14.0 -6.8706 5 7.0 27 144 14.0 -4.7529 6 7.0 15 350 15.0 -4.7529 7 9.0 42 190 20.0 -2.6353 8 9.1 15 415 20.5 -2.5294 9 10.0 39 210 30.0 -1.5765 10 10.3 12 380 31.0 -1.2588 11 13.0 50 235 25.0 1.6000 12 13.6 15 450 25.8 2.2353 13 15.0 60 310 32.0 3.7176 14 15.8 13 420 34.0 4.5647 15 20.0 83 400 60.0 9.0118 16 20.5 41 650 61.0 9.5412 17 21.0 90 200 63.0 10.0706 18 21.5 30 560 65.0 10.6000 63 787 457 456 455 454 133 PRESSp 80 70 60 5 4 3 2 1 0 * X1 X2 * * X1 X2 X3 * * X X *X X * 1 3 2 3 *X 1 X2 X3 p 1 2 3 4 64 Observamos que os modelos com X3, X2X3 e X1X2X3 apresentam os menores valores de PRESSp. Na verdade, o modelo com X1X2X3 apresenta um valor de PRESSp levemente inferior aos outros dois. 65 Regressão passo a passo à frente (Forward Stepwise Regression) Método: • É feita uma sequência de modelos de regressão, em cada passo adicionando ou retirando uma variável preditora X do modelo. 66 Critério para adicionar ou retirar uma variável preditora X do modelo: • Redução na soma de quadrados do erro • coeficiente de correlação parcial • estatística t* • estatística F* Deficiência do método: termina com um único modelo como sendo o melhor. A experiência mostra que as vezes se chega a um modelo pobre. 67 Usar diagnóstico do modelo. Recomendação: Usar o subconjunto de variáveis encontrado pelo método de regressão stepwise como sendo o ponto de partida para encontrar outros “bons” subconjuntos. Uma possibilidade é considerar o número de variáveis preditoras encontrado pela regressão stepwise como sendo aproximadamente o número correto e, então, usar um procedimento que realiza todas as regressões possíveis para subconjuntos deste tamanho e vizinhança (R2p, R2a, Cp, PRESSp). 68 Etapas (Teste F parcial) • Inicia-se ajustando-se um modelo de regressão linear simples para cada uma das P-1 variáveis explanatórias X. Para cada modelo a estatística F* é calculada: QMR( X k ) F QME( X k ) * k 69 A variável X com o maior valor de F* é candidata para a primeira adição. Se este valor de F* ultrapassar determinado valor, então, a variável é adicionada no modelo. Caso contrário, o programa é concluído e não são incluídas variáveis no modelo. 70 • Vamos assumir que a variável X3 (tamanho da memória) entrou no modelo no passo 1. A regressão stepwise ajusta todos os modelos com duas variáveis X no modelo, onde X3 é uma do par. Para cada modelo de regressão calcula-se a estatística do teste F parcial: 2 QMR( X k | X 3 ) bk F QME( X k , X 3 ) s( bk * k ) 71 A variável X com o maior valor de F* é candidata a entrar no modelo neste segundo estágio. Se este valor de F* exceder um determinado valor, a segunda variável X é incluída no modelo, caso contrário, o programa é finalizado. 72 • Suponha que X1 (acesso ao disco) é incluída no modelo no segundo estágio. Neste passo, a regressão stepwise examina se qualquer das outras variáveis X já incluídas no modelo devem ser retiradas. No nosso caso, só temos uma outra variável no modelo, X3, assim, só é feito um teste F parcial: QMR( X 3 | X 1 ) * F3 73 QME( X 3 , X 1 ) Se este valor de F* for menor do que um determinado valor, a variável X é deletada do modelo, caso contrário, ela permanece. • Suponha que ambas as variáveis, X3 e X1, permanecem no modelo. A regressão stepwise examina qual nova variável X é candidata a entrar no modelo, então verifica se qualquer das variáveis já incluídas no modelo deveriam ser deletadas, e assim por diante, até que não se tenha mais variáveis que podem ser adicionadas ou retiradas do modelo. Neste ponto a regressão é 74 encerrada. Exemplo: Saída do SAS, do método stepwise, para os dados do experimento sobre demanda de recursos. Todas as variáveis no modelo são significativas pelo menos ao nível de 0,15 ou 15% (valor definido pelo pesquisador) (valor p 0,15). As variáveis deixadas fora do modelo não alcançaram o nível de significância de 0,15 (idem)(valor p > 0,15). 75 Para cada variável X a estatística F* é calculada. Podemos ver estes valores F*k na penúltima coluna da tabela. Vemos que F*tamanho=175,11 é o mais alto valor. Como o nível de significância é menor do que 0,15, o valor máximo para uma variável entrar no modelo, a variável tamanho é a primeira a entrar no modelo. 76 Neste estágio, o passo 1 foi completado. O modelo de regressão contém a variável tamanho, e a saída do SAS fornece as estimativas dos coeficientes de regressão, a análise de variância, e outras informações sobre o presente modelo. 77 No próximo passo, todos os modelos de regressão com a variável Tamanho e as outras variáveis, acessos e memória, são ajustados e o valor da estatística F* e o valor p são calculados. Nenhuma das duas variáveis apresentaram valor p menor ou igual a 0,15, portanto, nenhuma delas vai entrar no modelo. Assim, a regressão identificou a variável X3, tamanho, como única variável preditora do modelo. Parece ser coerente com a análise anterior (procedimento de todos os modelos de regressão 78 possíveis). The SAS System The REG Procedure Model: MODEL1 Dependent Variable: tempocpu Stepwise Selection: Step 1 Variable acessos memoria tamanho Statistics for Entry DF = 1,16 Model Tolerance R-Square F Value Pr > F 1.000000 0.4434 12.75 0.0026 1.000000 0.4569 13.46 0.0021 1.000000 0.9163 175.11 <.0001 79 Variable tamanho Entered: R-Square = 0.9163 and C(p) = 5.6949 Source Model Error Corrected Total Variable Intercept tamanho Analysis of Variance Sum of Mean DF Squares Square 1 643.31837 643.31837 16 58.77941 3.67371 17 702.09778 F Value Pr > F 175.11 <.0001 Parameter Estimate Standard Error Type II SS F Value Pr > F 2.20365 0.83453 25.61577 6.97 0.0178 0.31223 0.02359 643.31837 175.11 <.0001 Bounds on condition number: 1, 1 80 Stepwise Selection: Step 2 Variable acessos memoria Statistics for Entry DF = 1,15 Model Tolerance R-Square F Value Pr > F 0.551952 0.9174 0.21 0.6548 0.591907 0.9233 1.37 0.2599 All variables left in the model are significant at the 0.1500 level. No other variable met the 0.1500 significance level for entry into the model. Step 1 Variable Entered tamanho Summary of Stepwise Selection Partial Model Variable Number RRRemoved Vars In Square Square 1 0.916 0.916 C(p) 5.69 F Value 175.11 Pr > F <.0001 81 Tolerância Definição: é definida como: 1 R 2 k Onde R2k é o coeficiente de determinação quando é feita a regressão de Xk sobre as outras variáveis X no modelo de regressão. Controla a entrada de variáveis preditoras altamente correlacionadas com as demais do modelo. 82