Regressão Linear análise dos pressupostos Examinando os resíduos 2 Análise de Resíduos 3 A análise dos resíduos revela: se a presunção de normalidade da distribuição dos resíduos se confirma; pode revelar se a variância dos resíduos é realmente constante, ou seja, se a dispersão dos dados em torno da reta de regressão é uniforme; se há ou não uma variável não identificada que deve ser incluída no modelo; se a ordem em que os dados foram coletados ( p. ex., tempo da observação) tem algum efeito sobre os dados, ou se a ordem deve ser incorporada como uma variável no modelo. se a presunção de que os resíduos não são correlacionados está satisfeita. Premissas dos Testes Estatísticos Premissas em relação aos resíduos: Premissas em relação aos dados: 4 São aleatórios com distribuição normal ? São independentes entre si ? Têm Valor Esperado = 0 ? Possuem Variância Constante ? Modelo linear nos parâmetros Premissas dos Testes Estatísticos 5 Os intervalos de confiança e os testes estatísticos só serão válidos se essas premissas forem verdadeiras para os dados que estão sendo analisados Portanto, é necessário verificar se essas premissas estão presentes antes de analisar a regressão Checando as premissas pelas ferramentas do Excel Usar os gráficos: Plotagem dos Resíduos • Se os dados atendem às premissas, o gráfico deve mostrar uma faixa horizontal centrada em torno do 0, sem mostrar uma tendência positiva ou negativa Plotagem de Probabilidade Normal • Se o gráfico é aproximadamente linear, podemos assumir que os resíduos têm distribuição normal 6 Testando a adequação do modelo Resíduos Se o gráfico dos resíduos mostra uma tendência sistemática positiva ou negativa significa que uma outra função (não linear) deve ser escolhida. 0 X 7 Testando a Existência de Variáveis Esquecidas Resíduos Os resíduos não estão aleatoriamente distribuídos em torno de zero 0 X 8 Se o gráfico dos resíduos demonstra um padrão quando plotado contra determinada variável, esta variável deve ser incluída no modelo ao lado do X Checando Igualdade da Variância dos Resíduos A variância dos resíduos é indicada pela largura da dispersão dos resíduos, quando o valor de x aumenta Se essa largura aumenta ou diminui quando o valor de x aumenta, a variância não é constante Este problema é denominado heterocedasticidade Quando existe heterocedasticidade o método dos mínimos quadrados não pode ser usado para estimar a regressão, devendo ser usado um método mais complexo chamado mínimos quadrados geral. 9 Checando Heterocedasticidade Resíduos Resíduos 0 0 X Resíduos parecem aleatórios, sem padrão 10 X A variância residual está crescendo Examinando autocorrelação • m m • • • • • • • 11 • • 0 • • 0 x • • • • x Examinando autocorrelação m m • 0 • • • • • • 0 • x 12 • • • • • • • • • • • • x Examinando autocorrelação m 0 13 • • • • •• • • • • • • x Checando as premissas por Testes dos Pressupostos Testes básicos para validação do modelo de regressão simples Normalidade dos resíduos Homocedasticidade Ausência de autocorrelação dos resíduos Linearidade dos parâmetros 14 Normalidade dos resíduos Os resíduos devem apresentar distribuição normal Identificação da Normalidade: Compara-se a distribuição dos resíduos com a curva normal Testes: Kolmogorov-Smirnov (não paramétrico) Jarque-Bera (paramétrico assintótico) 15 Normalidade dos resíduos Teste Kolmogorov-Smirnov H0: distribuição normal H1: distribuição não é normal Testa a proximidade ou a diferença entre freqüência observada e esperada. Geralmente, K-S menor que 0,3 indica que a distribuição está apropriada. Estatística K-S usa a distribuição D. D ≤ Dcrítico aceita a Hipótese Nula i D max. z i n 16 Normalidade dos resíduos Teste de Jarque-Bera H0: distribuição normal H1: distribuição não é normal JB ≤ JBcrítico aceita a Hipótese Nula Estatística JB qui-quadrado (א2) (com 2 gl) JB = n . [ A2/6 + (C-3)2/24] onde: A = assimetria 17 C = curtose Normalidade dos resíduos Se a distribuição não for normal? Estimativas não serão eficientes; maior erro padrão Possíveis causas: •Omissão de variáveis explicativas importantes •Formulação matemática incorreta (forma funcional) Solução: •Incluir novas variáveis •Formular corretamente a relação funcional 18 Homocedasticidade 19 Homocedasticidade Os resíduos devem apresentar a mesma variância para cada observação de X Avalia-se o conteúdo informacional dos resíduos Identificação da homocedasticidade Analisa-se a evolução da dispersão dos resíduos em torno da sua média, à medida que X aumenta Examina-se a distribuição dos resíduos para cada observação de X Testes: Pesarán-Pesarán; BPG; RESET de Ramsey; White; etc. 20 Homocedasticidade Teste de Pesarán-Pesarán: m2 = f (Yc2) Regride-se o quadrado dos resíduos (m2) como função do quadrado dos valores estimados (Yc2) Avalia-se o coeficiente de Yc2 H0: resíduos homocedásticos H1: resíduos heterocedásticos 21 Homocedasticidade Se a distribuição não for homocedástica? Estimativas não serão eficientes; maior erro padrão Possíveis causas: • Diferenças entre os dados da amostra a. modelo da aprendizagem b. discricionariedade no uso da renda c. diferenças em dados em corte (cross-section) d. erro de especificação 22 Homocedasticidade Solução: Mudar a forma funcional através de transformações das variáveis Estimar a regressão via mínimos quadrados ponderados 23 Ausência de autocorrelação O modelo pressupõe que: correlação entre os resíduos é zero o efeito de uma observação é nulo sobre a outra não há causalidade entre os resíduos e a variável X, e, por conseqüência, a variável Y Identificação da autocorrelação Analisa-se a dispersão dos resíduos em torno da sua média Teste de Durbin-Watson 24 Ausência de autocorrelação •Teste de Durbin-Watson •H0: Não existe correlação serial dos resíduos •H1: Existe correlação serial dos resíduos •Estatística DW = S(mx - mx-1)2 / S mx2 25 Ausência de autocorrelação •Análise da Estatística DW Autocorrelação positiva 0 Região não conclusiva dL 26 Ausência de Autocorrelação dU Região não conclusiva 4-dU Autocorrelação negativa 4-dL 4 Ausência de autocorrelação Se os resíduos forem correlacionados? •Estimativas não eficientes; maior erro padrão Possíveis causas: •Em séries temporais •inércia •viés de especificação •falta de variáveis •forma funcional incorreta •defasagem nos efeitos das váriáveis •manuseio dos dados (interpolação / extrapolação) 27 Ausência de autocorrelação Solução: Formular corretamente a relação funcional Tornar a série estacionária 28 Regressão Linear Múltipla Extensão do modelo de regressão linear Valem as hipóteses de Distribuição Normal dos Resíduos Homocedasticidade Ausência de autocorrelação Linearidade nos parâmetros Adicionalmente Ausência de multicolinearidade 29 Multicolinearidade Ocorre com duas ou mais variáveis independentes do modelo explicando o mesmo fenômeno Variáveis contêm informações similares • Exemplo 30 Explicar preço de uma casa com regressão que tenha como variáveis explicativas a área da casa e o número de cômodos Multicolinearidade o Duas ou mais variáveis independentes altamente correlacionadas o Dificuldade na separação dos efeitos de cada uma das variáveis o A multicolinearidade tende a distorcer os coeficientes (b) estimados 31 Multicolinearidade Conseqüências Erros padrão maiores Menor eficiência Estimativas mais imprecisas Estimadores sensíveis a pequenas variações dos dados Dificuldade na separação dos efeitos de cada uma das variáveis 32 Multicolinearidade Identificação através dos Testes seguintes FARRAR & GLAUBER VIF (VARIANCE INFLATION FACTOR) TOLERANCE 33 Multicolinearidade Identificação Teste de Farrar & Glauber c2 crítico com g.l. = k . (k-1) / 2 c2 = -[n - 1 - 1/6 . (2.k+5)] . Ln(det 1 r12 ........r1k r21 1 ........r2k rk1 onde: n = número de observações k = número de variáveis Ln = logaritmo neperiano det = determinante rij = coeficiente de correlação parcial 34 rk2 ........ 1 ) Multicolinearidade Teste de aceitação Teste de Farrar & Glauber H0: Ausência de Multicolinearidade H1: Existe Multicolinearidade c2 teste > c2 crítico → Rejeita a hipótese nula de ausência de multicolinearidade (Há correlação entre as variáveis) 35 Multicolinearidade Identificação VIF VIFk = 1 / ( 1 - rk2) Regra de bolso para o VIF até 1 - sem multicolinearidade de 1 até 10 - multicolinearidade aceitável acima de 10 - multicolinearidade problemática onde: rk = coeficiente de correlação da variável K com as demais variáveis 36 Multicolinearidade Identificação Tolerancek = ( 1 - rk2) Regra de bolso para o índice Tolerance até 1 - sem multicolinearidade de 1 até 0,10 - multicolinearidade aceitável abaixo de 0,10 - multicolinearidade problemática onde: rk = coeficiente de correlação da variável K com as demais variáveis 37