Regressão Linear Múltipla
Arquivo: seleção2_tarefa.sav
Base de dados
Variáveis independentes: X1, X2, X3, ..., X14
Variável dependente ou Resposta: Y
1428 observações
1º. Análise da Correlação entre as variáveis a partir
da Matriz de correlações
Analyze
Correlate
Bivariate
Matriz de correlações
• As correlações acima de 0,8 estão destacadas na Tabela 1.
• O ideal é que as correlações entre as variáveis independentes sejam baixas e entre
a variável dependente com as independentes sejam altas.
2º. Estudo das variáveis - Estatísticas descritivas
• Presença de outliers em praticamente todas as variáveis
(exceção: X4, X8 e Y)
• A presença de outliers pode ser um indicativo de violação das
suposições da regressão
Estatísticas descritivas
A assimetria em algumas variáveis através dos coeficientes destacadas na Tabela 2
Análise das distribuição de cada variável
através do Histograma e Box Plot
Variável X1
Presença de outliers
Variável X2
Presença de outliers
Variável X3
Presença de outliers
Variável X4
Não há outliers
Variável X5
Presença de outliers
Variável X6
Presença de outliers
Variável X7
Presença de outliers
Variável X8
Não há outliers
Variável X9
Presença de outliers
Variável X10
Presença de outliers
Variável X11
Presença de outliers
Variável X12
Presença de outliers
Variável X13
Presença de outliers
Variável X14
Presença de outliers
Variável Y
Não há outliers
Modelo de Regressão (completo)
Y  0  1.X1   2 .X 2  3. X 3  ...  14 . X14  
Qualidade do ajuste
76% da variabilidade de Y pode ser explicada pelas variáveis X1, X2, X3,
... X14 (todas juntas) – para saber qual explica “mais” ver p-valor (Sig.)
na tabela Coefficientsa
ANOVA da Regressão (Teste F)
Trata-se de um teste de hipótese, testando se:
H 0 : 1   2   3  ....  14  0

H1 :  i   j ; i  j i, j  1,2,...14
Rejeita H0. Pelo
menos um β é ≠ 0
Coeficientes estimados
Sig < 0,05 são significativas

y  29,099 0,00.X
1
 0,258. X 2  0,000X 3  ...  0,993. X14
Análise dos resíduos
3
-3
Observa-se valores
discrepantes fora
do intervalo -3 a 3
e uma tendência
nos resíduos
Modelo de Regressão - seleção de variáveis
Método backward
O método foi
executado em 6
etapas (Model)
ANOVA da Regressão (Teste F)
Coeficientes estimados

Y  28,676 0,253. X 2  0,001. X 5  0,081. X 6  17,270. X 8  0,491. X 9  0,974. X 10  0,225. X 11  0,526. X 13  0,676. X 14  
Análise dos resíduos
Modelo de Regressão - seleção de variáveis
Método forward
ANOVA da Regressão (Teste F)
Coeficientes estimados

Y  28,754 0,252. X 2  0,001. X 5  0,080. X 6  17,337. X 8  0,492. X 9  0,975. X 10  0,225. X 11  0,522. X 12  0,153X 14  
Análise dos resíduos
Comparativo entre os métodos
Suposições do Modelo
Verificação das Suposições do Modelo
(considerando as variáveis selecionadas pelo método backward)
Variáveis: X2, X5, X6, X8, X9, X10, X11, X13 e X14
Arquivo: selecao2_backward.sav
1º) salvar os valores preditos padronizados (ZPR_1) e os resíduos padronizados (ZRE_1)
Valores preditos não padronizados
2º) Criar duas variáveis:
• uma variável com os valores previstos elevados ao quadrado (ZPR_1)2
chamando de ZPRE_2
Transform
Compute variable
Target variable ...... ZPR_2
Numeric expression .... Standardized predicted x Standardized predicted
OK
2º) Criar duas variáveis:
• OUTRA variável com os resíduos padronizados elevados ao quadrado (ZRE_1)2 chamando de
ZRE_2
Transform
Compute variable
Target variable ...... ZRE_2
Numeric expression .... Standardized predicted x Standardized predicted
OK
Verificação das Suposições do Modelo no SPSS
• Multicolinearidade
Statistic .... Collinearity diagnostics
Saídas
Diagnóstico de multicolinearidade – VIF e Tolerance
Multicolineariade aceitável
Multicolineariade
problemática
Regra para o VIF (GUJARATI, 2000; HAIR, 2005)
• Até 1 – sem multicolinearidade
• De 1 até 10 – com multicolinearidade aceitável
• Acima de 10 – com multicolinearidade problemática
A medida condition index compara a magnitude das razões entre as variações
do eigenvalue; altos índices (maiores que 15) importam em alto
relacionamento entre variáveis, indicando a presença de multicolineariade.
Verificação das Suposições do Modelo no SPSS
• Ausência de autocorrelação serial
(independência dos erros)
Statistic .... Durbin-Watson
O teste de Durbin-Watson baseia-se em cálculo de medida conhecida como
estatística DW, tabelada para valores críticos segundo o nível de confiança
escolhido.
Regra para a estatística DW – valores próximos de 2 atendem ao pressuposto
(CORRAR, 2011, p.191)
Verificação das Suposições do Modelo no SPSS
• Normalidade
Teste de Kolmogorov-Smirnov
Através de uma estatística K-S que usa a distribuição D
(distância euclidiana máxima)
H0: a distribuição da série testada é normal.
H1: a distribuição não tem comportamento normal
Analyze
Nonparametric tests
1 – Sample K-S
Selecionar variável ... Standardized residual – ZRE_1
OK
p-valor < 0,05, Rejeita H0.
Conclusão:
A distribuição não é normal
Em amostras com número de observações menores do que
30 deve ser utilizado o teste de normalidade de Shapiro-Wilk
• Transformações nas variáveis;
• Aumentar tamanho da amostra;
• Retirada de outliers.
Verificação das Suposições do Modelo no SPSS
• Homocedasticidade
Teste de Pesarán-Pesarán – verifica se a variância dos resíduos
se mantém constante em todo o espectro das variáveis independentes.
H0: os resíduos são homocedásticos.
H1: os resíduos são heteroedásticos
Analyze
Regression ... linear
Selecionar variável dependente ... ZRE_2
Selecionar variável independente ... ZPR_2
OK
p-valor < 0,05, Rejeita H0.
Conclusão:
O pressuposto da
homocedasticidade foi violado.
• Transformações nas variáveis;
• Aumentar tamanho da amostra;
• Retirada de outliers.
Verificação das Suposições do Modelo no SPSS
Análise através de gráficos
• Linearidade
Graphs
Scatterplot
Define
Seleciona variáveis
OK
Independentes : X2, X5, X6, X8, X9, X10, X11, X13 e X14
Dependente: Y
A seleção deve ser feita entre uma variável independente de cada vez com a variável
dependente Y
baixa correlação linear com a variável dependente
Moderada (X9) e Forte (X10, X11, X13 e X14) correlação linear com a variável dependente
Transformação (?)
Transformação (?)
Transformação (?)
• Multicolinearidade
A Tabela 4 apresenta o coeficiente de correlação para as variáveis:
Resultados
X14 e X13 → alta correlação (0,955)
X2 e X8 → fraca correlação (-0,022)
Graficamente é observada através de diagrama de dispersão bidimensional
com as variáveis Independentes.
Confirmação de alta correlação
entre X13 e X14
r = 0,955
Confirmação de fraca correlação
entre X2 e X8
r = -0,022
Resumo da Validação
Ajustamento aos pressupostos
Estatísticas descritivas
• A presença de outliers pode ser um indicativo de violação das
suposições da regressão (normalidade, homodedasticidade)
Análise da influência de valores extremos através dos resíduos
Regression
Linear
Statistic
Casewise Diagnostics
Continue .... OK
Ajustamento aos pressupostos
• Transformações nas variáveis;
• Aumentar tamanho da amostra;
• Remoção de outliers (?)
Solução 1: Método de seleção forward
O método foi executado em 9 etapas
(Model) com R2 = 0,760
Independência
dos erros
ANOVA da Regressão (Teste F)
Coeficientes estimados (β)

Y  28,754 0,252. X 2  0,001. X 5  0,080. X 6  17,337. X 8  0,492. X 9  0,975. X 10  0,225. X 11  0,522. X 12  0,153X 14  
Análise dos resíduos
Selecionando SOMENTE as variáveis X12, X14, X6, X11, X9, X10, X8, X2 e X5 com método
ENTER salvando os valores preditos (não padronizados) x Resíduos (padronizados)
PLOTAR OS RESÍDUOS
Valores preditos em X Resíduos Padronizados (Y)
ZRE_1
PRE_1
Explorando a relação das variáveis independentes X12, X14, X6,
X11, X9, X10, X8, X2 e X5 com Y
Conforme já visto
anteriormente nos
gráfico de correlação,
as variáveis X12 e X14
apresentam uma
relação quadrática
com a variável
independente Y.
Assim, vamos incluir
no modelo X122 e X142
e analisar novamente
os resíduos.
Aparente relação quadrática entre X12 e X14 com Y.
Y = β0 + β1.X12 + β2.X14 + β3.X6 + β4.X11 + β5.X9 + β6.X10 + β7.X8 + β8.X2 + β9.X5 + β10.X122 + β11.X142 + Ɛ
Incluir no modelo a tendência quadrática
Transforme / Compute variable
O mesmo para X14
Observa-se distribuição aleatória
dos resíduos.
SAÍDAS após a Inclusão de X122 e X142
R2 = 0,982
Coeficientes estimados (β)
Y = β0 + β1.X12 + β2.X14 + β3.X6 + β4.X11 + β5.X9 + β6.X10 + β7.X8 + β8.X2 + β9.X5 + β10.X122 + β11.X142 + Ɛ

Y  1,619 + 0,129X12 + 1,373X14 - 0,044X6 + 0,002X11 - 0,026X9 - 0,054X10 -2,919X8 + 0,086X2 –
- 3,17.105 X5 -0,003X122 + -0,012X142 + Ɛ
Resposta:
Equação de regressão:

Y  1,619 + 0,129X12 + 1,373X14 - 0,044X6 + 0,002X11 - 0,026X9 - 0,054X10 -2,919X8 + 0,086X2 –
- 3,17.105 X5 -0,003X122 + -0,012X142
Download

Regressao Linear Multipla_tarefa