Capítulo 15 Regressão com séries temporais 15.1 Introdução 15.2 Equação dinâmica de regressão com séries temporais 15.3 Estacionaridade. 15.4 Exemplo do capítulo 14 aumentado 15.5 Conclusões 15.6 Questões e exercícios 15.7 Referências 1 15.1 Introdução A regressão múltipla (capítulo 14) na forma estática apresentada no último capítulo não inclui algumas considerações teóricas necessárias quando a formulação utiliza variáveis de series temporais. Embora todos os conceitos aplicados a regressão múltipla na forma estática continuem válidos, análise estatística com as séries temporais traz novas considerações elaboradas neste capítulo para aprimorar a representatividade das estimativas frente aos parâmetros desconhecidos populacionais. 2 15.2 Equação dinâmica de regressão com séries temporais Yt = a + c1Yt-1 + c2Yt-2 + … +cpYt-p + b0Xt+ b1Xt-1 + … + bqXt-q + ... + etNID(0,σe) Teoricamente, não há nenhuma razão de trabalhar apenas com defasagens que expressam o passado como na equação acima, mas o caso de trabalhar com defasagens futuras é na realidade pouco utilizado na pratica. Imagine a dificuldade de se fazer previsões para Yt se forem necessários valores futuros de Xt. 3 15.3 Estacionaridade Aprendemos em capítulo 12 que o correlograma caracterizado como cheio significa que a variável sob investigação é não estacionária, e que esta condição atrapalha a representatividade das estimativas do coeficiente de correlação. O mesmo é verídico para regressão, pois a presença de não estacionaridade nas variáveis aumenta artificialmente o valor da estimativa dos coeficientes de regressão dando relevância às variáveis na realidade insignificantes. 4 Figura 15.1 – Correlogramas de vendas semanais e a soma acumulada de vendas semanais Vendas soma acumulada da estaçao 1 0,8 0,6 0,4 0,2 0 -0,2 -0,4 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 O resultado não é conclusivo Vendas semanais 0,8 0,6 0,4 0,2 0 -0,2 -0,4 -0,6 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 5 Dickey Fuller Não estacionaridade é uma característica de séries chamadas caminhadas aleatórias já discutidas na 12.6.2 no capítulo 12 sobre correlação. Yt+1 = Yt + et A equação se completa com coeficientes para o intercepto e tendência linear: Yt+1 = a + bt + Yt + et t = 1,2,3,... Ou em termos mais gerais, explicitando o coeficiente c = 1: Yt+1 = a + bt + cYt + et; (c = 1; t = 1,2,3,...) A equação é rearrumada na seguinte forma: ΔYt = (Yt+1 – Yt) = a + bt + (c – 1)Yt + et; (c – 1 = 0; t = 1,2,3,...) 6 Testes de hipótese O primeiro teste de hipótese é baseado na F: H0: b = (c – 1) = 0 H1: algum coeficiente significante O segundo teste segue a distribuição t de Gosset[1] H0: coeficiente individual (c – 1) = 0 H1: coeficiente individual (c – 1) ≠ 0 [1] Confesso que profissionais na área de séries temporais não gostam da maneira que estacionaridade se apresenta neste capítulo. É muito simples demais para a área extremamente fértil e em constante evolução. Peço desculpas, mas mantenho a crença de que, para o iniciante na área, este capítulo tem valor como introdução preliminar. 7 Tabela 15.1 – ANOVA Vamos voltar para a série de vendas semanas. Foi estimada a equação de teste de hipótese para estacionaridade da seguinte forma: (vendas semanais t+1 – vendas semanais t) = a + bt + (c – 1)vendas semanais t + et A análise ANOVA para calcular a estatística F ofereceu os seguintes resultados[1]: ANOVA gl 2 SQ 7114166 MQ 3557083 Resíduo 100 47278468 472784,7 Total 102 54392634 Regressão F valor-P 7,52 0,0009 [1] Uma análise mais rigorosa mostraria que a distribuição F e t de Gosset não são perfeitamente apropriadas neste caso, e assim nossa apresentação não agradaria os especialistas da área. Os conceitos apresentados aqui são uma espécie de aproximação útil para trabalhos preliminares e projetos pilotos. Trabalhos mais importantes para publicações ou para a tomada de decisões com repercussões financeiras devem usufruir do conhecimento de especialistas. 8 Tabela 15.2 – Teste de hipótese dos coeficientes individuais Precisamos agora da estatística t de Gosset para determinar a rejeição da hipótese nula do coeficiente individual, H0: coeficiente individual (c – 1) = 0. Coeficientes Erro padrão Stat t valor-P Interseção (a) -184,77 148,72 -1,24 0,217 t (b) -0,85 2,28 -0,37 0,710 vendas semanais (c-1) 0,26 0,07 3,86 0,000 Valor-p para o coeficiente (c - 1) obriga a rejeição da hipótese nula de não estacionaridade, a série não é uma caminhada aleatória. 9 15.4 Exemplo do capítulo 14 aumentado Vendas semanais = Yt = d1Yt-1 + d2Yt-2+ ... + d30Yt-30 + b1D2005 + b2D2006 + b3D2007 + b4D2008 + c1S + c2S2 + c3S3 + e O número de variáveis na equação aumentou consideravelmente. Alem das 4 variáveis dos anos e das 3 variáveis das semanas da estação, agora existem 30 variáveis Y em defasagem, um total de 37 variáveis independentes. 10 Tabela 15.3 – Resultado final do procedimento de estimação em regressão dinâmica Para começar os procedimentos de regressão dinâmica, é aconselhável estimar num primeiro passo a equação com todas as variáveis, quer dizer, iniciar o trabalho de estimação com a equação mais geral possível. É a metodologia em regressão do geral para o específico vendas semanais (t-1) vendas semanais (t-30) D2006 Coeficiente Erro padrão 0,545 0,079 6,860 0,000 0,416 141,455 0,081 125,068 5,149 1,131 0,000 0,262 estatística t valor-p Vendas semanais = Yt = 0,545Yt-1 + 0,416Yt-30 11 Tabela 15.4 – Previsões das vendas na segunda metade da estação de 2008. Fonte: tabela 14.16 e resultados do capítulo 15. Ano 2008 2008 2008 2008 2008 2008 2008 2008 2008 2008 2008 2008 2008 2008 2008 2008 Semana 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 reg. múlt. 20760 21394 21933 22381 22744 23027 23235 23372 23444 23455 23411 23316 23175 22994 22777 22529 reg. dinâm. 22130 22265 22339 22389 22443 22473 22495 22512 22535 22550 22560 22565 22578 22586 22624 22645 A equação oriunda de regressão dinâmica é operacionalmente melhor, e a sua estrutura é intuitiva, fácil explicar ao chefe de divisão ou qualquer leigo interessado. 12 15.5 Conclusões Embora seja comum nos meios empresariais fazer previsões de vendas e outras variáveis mercadológicas, o uso de previsão é importante na fábrica. No chão da fábrica, sessões de treinamento podem aumentar a eficiência dos operadores, mas também somente com a passagem de tempo para assimilar os conhecimentos e aplicá-los corretamente na linha. O desgaste de maquinas e ferramentas pode ser analisado com regressão dinâmica e manutenção preventiva melhorada. 13 15.6 Questões e exercícios 1. Faça a análise de estacionaridade da variável soma acumulada das vendas usando a metodologia de Dickey-Fuller. Resultado: Não é aconselhável a rejeição da hipótese nula de não estacionaridade. 2. A soma acumulada das vendas deve ser tratada como não estacionaria, pela análise do exercício anterior. Para estacionar a variável qual é a transformação mais apropriada? Resultado: É a primeira diferença. Poderia tentar também a primeira diferença do logaritmo da soma acumulada, mas o fato de ter valores zero nos dados originais dificulta o uso desta transformação muito popular na área de finanças. 3. No ato de reduzir o número de variáveis na equação de regressão, tirando uma variável com fraco desempenho em termos de valor-p da estatística t, o pesquisador notou que várias medidas estatísticas de desempenho na regressão piorou, queda de R2 ajustado, aumento do erro padrão dos erros, e coeficientes antes significantes agora se tornaram insignificantes. O que fazer? 14 15.7 Referências Said, S. E. e D. A. Dickey (1984): Testing for Unit Roots in Autoregressive-Moving Average Models of Unknown Order. Biometrika 71, 599–607. 15