Regressão Linear
análise dos pressupostos
Examinando os resíduos
2
Análise de Resíduos

3
A análise dos resíduos revela:

se a presunção de normalidade da distribuição dos resíduos
se confirma;

pode revelar se a variância dos resíduos é realmente
constante, ou seja, se a dispersão dos dados em torno da
reta de regressão é uniforme;

se há ou não uma variável não identificada que deve ser
incluída no modelo;

se a ordem em que os dados foram coletados ( p. ex., tempo
da observação) tem algum efeito sobre os dados, ou se a
ordem deve ser incorporada como uma variável no modelo.

se a presunção de que os resíduos não são correlacionados
está satisfeita.
Premissas dos Testes
Estatísticos

Premissas em relação aos resíduos:





Premissas em relação aos dados:

4
São aleatórios com distribuição normal ?
São independentes entre si ?
Têm Valor Esperado = 0 ?
Possuem Variância Constante ?
Modelo linear nos parâmetros
Premissas dos Testes
Estatísticos


5
Os intervalos de confiança e os testes
estatísticos só serão válidos se essas
premissas forem verdadeiras para os dados
que estão sendo analisados
Portanto, é necessário verificar se essas
premissas estão presentes antes de
analisar a regressão
Checando as premissas
pelas ferramentas do Excel

Usar os gráficos:

Plotagem dos Resíduos
• Se os dados atendem às premissas, o gráfico
deve mostrar uma faixa horizontal centrada em
torno do 0, sem mostrar uma tendência positiva
ou negativa

Plotagem de Probabilidade Normal
• Se o gráfico é aproximadamente linear, podemos
assumir que os resíduos têm distribuição normal
6
Testando a adequação do modelo
Resíduos
Se o gráfico dos resíduos mostra
uma tendência sistemática positiva
ou negativa significa que uma outra
função (não linear) deve ser
escolhida.
0
X
7
Testando a Existência de
Variáveis Esquecidas
Resíduos
Os resíduos não estão
aleatoriamente distribuídos em
torno de zero
0
X
8
Se o gráfico dos resíduos
demonstra um padrão quando
plotado contra determinada
variável, esta variável deve ser
incluída no modelo ao lado do X
Checando Igualdade da
Variância dos Resíduos
 A variância dos resíduos é indicada pela largura da dispersão
dos resíduos, quando o valor de x aumenta
 Se essa largura aumenta ou diminui quando o valor de x
aumenta, a variância não é constante
 Este problema é denominado heterocedasticidade
 Quando existe heterocedasticidade o método dos mínimos
quadrados não pode ser usado para estimar a regressão,
devendo ser usado um método mais complexo chamado
mínimos quadrados geral.
9
Checando Heterocedasticidade
Resíduos
Resíduos
0
0
X
Resíduos parecem aleatórios, sem
padrão
10
X
A variância residual está crescendo
Examinando autocorrelação
•
m
m
•
•
•
•
•
•
•
11
•
•
0
•
•
0
x
•
•
•
•
x
Examinando autocorrelação
m
m
•
0
•
•
•
•
•
•
0
•
x
12
•
• • •
• •
•
•
• •
•
• x
Examinando autocorrelação
m
0
13
•
•
• •
••
•
•
•
•
• •
x
Checando as premissas por
Testes dos Pressupostos
Testes básicos para validação do modelo de
regressão simples
 Normalidade dos resíduos
 Homocedasticidade
 Ausência de autocorrelação dos resíduos
 Linearidade dos parâmetros
14
Normalidade dos resíduos
Os resíduos devem apresentar distribuição normal
 Identificação da Normalidade:
 Compara-se a distribuição dos resíduos com a
curva normal
 Testes:
 Kolmogorov-Smirnov (não paramétrico)
 Jarque-Bera (paramétrico assintótico)
15
Normalidade dos resíduos
Teste Kolmogorov-Smirnov
H0: distribuição normal
H1: distribuição não é normal
Testa a proximidade ou a diferença entre freqüência observada e esperada.
Geralmente, K-S menor que 0,3 indica que a distribuição está apropriada.

Estatística K-S usa a distribuição D.
D ≤ Dcrítico aceita a Hipótese Nula
i
D  max.  z i
n
16
Normalidade dos resíduos
Teste de Jarque-Bera
H0: distribuição normal
H1: distribuição não é normal
JB ≤ JBcrítico aceita a Hipótese Nula
Estatística JB qui-quadrado (‫א‬2) (com 2 gl)
JB = n . [ A2/6 + (C-3)2/24]
onde:
A = assimetria
17
C = curtose
Normalidade dos resíduos
Se a distribuição não for normal?
Estimativas não serão eficientes; maior erro padrão
Possíveis causas:
•Omissão de variáveis explicativas importantes
•Formulação matemática incorreta (forma funcional)
Solução:
•Incluir novas variáveis
•Formular corretamente a relação funcional
18
Homocedasticidade
19
Homocedasticidade
Os resíduos devem apresentar a mesma variância para
cada observação de X
Avalia-se o conteúdo informacional dos resíduos
Identificação da homocedasticidade
 Analisa-se a evolução da dispersão dos resíduos
em torno da sua média, à medida que X aumenta
 Examina-se a distribuição dos resíduos para cada
observação de X
 Testes: Pesarán-Pesarán; BPG; RESET de Ramsey;
White; etc.
20
Homocedasticidade
Teste de Pesarán-Pesarán:
m2 = f (Yc2)
 Regride-se o quadrado dos resíduos (m2) como
função do quadrado dos valores estimados (Yc2)
 Avalia-se o coeficiente de Yc2
 H0: resíduos homocedásticos
 H1: resíduos heterocedásticos
21
Homocedasticidade
Se a distribuição não for homocedástica?
Estimativas não serão eficientes; maior erro padrão
Possíveis causas:
• Diferenças entre os dados da amostra
a. modelo da aprendizagem
b. discricionariedade no uso da renda
c. diferenças em dados em corte (cross-section)
d. erro de especificação
22
Homocedasticidade
Solução:
 Mudar a forma funcional através de transformações
das variáveis
 Estimar a regressão via mínimos quadrados
ponderados
23
Ausência de autocorrelação
O modelo pressupõe que:
 correlação entre os resíduos é zero
 o efeito de uma observação é nulo sobre a outra
 não há causalidade entre os resíduos e a
variável X, e, por conseqüência, a variável Y
Identificação da autocorrelação
Analisa-se a dispersão dos resíduos em torno da sua
média
 Teste de Durbin-Watson
24
Ausência de autocorrelação
•Teste de Durbin-Watson
•H0: Não existe correlação serial dos resíduos
•H1: Existe correlação serial dos resíduos
•Estatística DW = S(mx - mx-1)2 / S mx2
25
Ausência de autocorrelação
•Análise da Estatística DW
Autocorrelação
positiva
0
Região não
conclusiva
dL
26
Ausência de
Autocorrelação
dU
Região não
conclusiva
4-dU
Autocorrelação
negativa
4-dL
4
Ausência de autocorrelação
Se os resíduos forem correlacionados?
•Estimativas não eficientes; maior erro padrão
Possíveis causas:
•Em séries temporais
•inércia
•viés de especificação
•falta de variáveis
•forma funcional incorreta
•defasagem nos efeitos das váriáveis
•manuseio dos dados (interpolação / extrapolação)
27
Ausência de autocorrelação
Solução:
 Formular corretamente a relação funcional
 Tornar a série estacionária
28
Regressão Linear Múltipla
Extensão do modelo de regressão linear
Valem as hipóteses de
Distribuição Normal dos Resíduos
Homocedasticidade
Ausência de autocorrelação
Linearidade nos parâmetros
Adicionalmente
Ausência de multicolinearidade
29
Multicolinearidade


Ocorre com duas ou mais variáveis
independentes do modelo explicando o
mesmo fenômeno
Variáveis contêm informações similares
• Exemplo

30
Explicar preço de uma casa com
regressão que tenha como variáveis
explicativas a área da casa e o
número de cômodos
Multicolinearidade
o Duas ou mais variáveis independentes
altamente correlacionadas
o Dificuldade na separação dos efeitos de
cada uma das variáveis
o A multicolinearidade tende a distorcer os
coeficientes (b) estimados
31
Multicolinearidade
Conseqüências
Erros padrão maiores
Menor eficiência
Estimativas mais imprecisas
Estimadores sensíveis a pequenas
variações dos dados
Dificuldade na separação dos efeitos de
cada uma das variáveis
32
Multicolinearidade
Identificação através dos Testes seguintes
FARRAR & GLAUBER
VIF (VARIANCE INFLATION FACTOR)
TOLERANCE
33
Multicolinearidade
Identificação
Teste de Farrar & Glauber
c2 crítico com g.l. = k . (k-1) / 2
c2 = -[n - 1 - 1/6 . (2.k+5)] . Ln(det
1 r12 ........r1k
r21 1 ........r2k
rk1
onde: n = número de observações
k = número de variáveis
Ln = logaritmo neperiano
det = determinante
rij = coeficiente de correlação parcial
34
rk2 ........ 1
)
Multicolinearidade
Teste de aceitação
Teste de Farrar & Glauber
H0: Ausência de Multicolinearidade
H1: Existe Multicolinearidade
c2 teste > c2 crítico → Rejeita a hipótese nula de ausência de
multicolinearidade (Há correlação entre as
variáveis)
35
Multicolinearidade
Identificação
VIF
VIFk = 1 / ( 1 - rk2)
Regra de bolso para o VIF
até 1 - sem multicolinearidade
de 1 até 10 - multicolinearidade aceitável
acima de 10 - multicolinearidade problemática
onde: rk = coeficiente de correlação da variável K com as demais variáveis
36
Multicolinearidade
Identificação
Tolerancek = ( 1 - rk2)
Regra de bolso para o índice Tolerance
até 1 - sem multicolinearidade
de 1 até 0,10 - multicolinearidade aceitável
abaixo de 0,10 - multicolinearidade problemática
onde: rk = coeficiente de correlação da variável K com as demais variáveis
37
Download

Regressão Linear - Erudito FEA-USP