Mineração e Previsão de Séries Temporais Tiago Alessandro Espínola Ferreira [email protected] Recife – 2o Semestre de 2001 Sumário Introdução Séries Temporais Modelos Automáticos Modelos de Box & Jenkins - ARIMA Aplicações do Modelo ARIMA Conclusões Introdução “Previsão é um elemento chave na tomada de decisão” Controle de Processo Planejamento de Produção Planejamento de Oportunidades Sistema de Previsão Planejamento Financeiro Escalonamento de Pessoal Gerenciamento de Estoque Previsão Predição de eventos futuros, com o intuito de diminuição de risco na tomada de decisão. Previsão Custo Total Custo da Previsão Erro Custo Vs Benefício Ponto Ótimo! Perdas Devido a Incerteza Decisão Baseando-se em sistemas de Previsão: Decisão = Previsão + Erro Algumas Definições Período da Previsão Unidade básica de tempo na previsão. Horizonte da Previsão No. de períodos cobertos. Intervalo de Previsão Freqüência de atualização Poderíamos requerer uma previsão para as próximas dez semanas, com uma análise semanal, assim o horizonte seria dez semanas e o período de uma semana Séries temporais Uma série temporal é uma seqüência de observações sobre uma variável de interesse. A variável é observada em pontos temporais discretos, usualmente eqüidistantes, e a análise de tal comportamento temporal envolve a descrição do processo ou fenômeno que gera a seqüência. Padrões de Séries Temporais Processamentos que permanecem constantes sobre um certo nível todo o tempo, com variações de período a período devido a causas aleatórias. Padrões que ilustram tendências no nível dos processos, de maneira que a variação de um período ao outro é atribuída a uma tendência mais uma variação aleatória. Processos que variam ciclicamente no tempo, como em processos sazonais (exemplo: o clima). Modelos de Previsão de Séries Temporais Os procedimentos de previsão de séries temporais podem ser divididos, grosseiramente, em duas categorias: a) Automáticos, que são aplicados diretamente, com a estilização de programas simples de computador; b) Não-Automáticos, que exigem a intervenção de pessoal especializado, para serem aplicados Modelos Automáticos Previsão de Séries Localmente Constantes Z t t at , t 1,, N 1 0,9 0,8 t é o nível da série 0,7 0,6 0,5 At é um ruído branco 0,4 0,3 0,2 0,1 0 0 10 20 30 40 50 60 70 80 90 100 Médias Móveis Simples (MMS) Cálculo da média aritmética das r últimas observações Previsão Z t Z t 1 Z t r 1 Mt r Z t h M t Principal Vantagem: Principal desvantagem: Simples Utilização Determinação de r Exemplo de MMS Período 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 EQM Valor real de Zt 1095,10 1067,10 1364,30 1510,90 1260,20 1229,50 1205,60 1237,60 1414,60 1299,30 1420,60 1360,30 1304,40 1213,20 1360,60 1587,60 1431,60 1267,50 1429,00 1517,00 1506,50 1627,30 1650,50 1606,00 r 2 Z t 1 1 Z tr13 1 r 4 Z t 1 1 1081,10 1215,70 1437,60 1385,55 1244,85 1217,55 1221,60 1326,10 1356,95 1359,95 1390,45 1332,35 1258,80 1286,90 1474,10 1509,60 1349,55 1348,25 1473,00 1511,75 1566,90 1638,90 24091,94 1175,50 1314,10 1378,47 1333,53 1231,77 1224,23 1285,93 1317,17 1378,17 1360,07 1361,77 1292,63 1292,73 1387,13 1459,93 1428,90 1376,03 1404,50 1484,17 1550,27 1594,77 19869,50 1259,35 1300,63 1341,23 1301,55 1233,23 1271,83 1289,28 1343,03 1373,70 1346,15 1324,63 1309,63 1366,45 1398,25 1411,83 1428,93 1411,28 1430,00 1519,95 1575,33 13763,68 Z tr15 1 1259,52 1286,40 1314,10 1288,76 1269,50 1277,32 1315,54 1346,48 1359,84 1319,56 1331,82 1365,22 1379,48 1372,10 1415,26 1446,54 1430,32 1469,46 1546,06 14534,43 Exemplo de MMS Período Valor real de Zt Previsão 25 1696,40 1597,57 26 1767,50 1645,05 27 1554,80 1680,10 28 1727,50 1656,17 29 2231,80 1686,55 30 2111,70 1800,40 Alisamento Exponencial Simples (AES) Z t Z t 1 Z t 1 Z 0 Z1 , t 1,, N Com 0 < <1, constante de alisamento Previsão Z t h Z t h 1,2,3, Principal Vantagem: Principal desvantagem: Fácil Entendimento Determinação de Exemplo do AES Preços Médio da Saca de Feijão 1200 1000 800 600 400 200 0 0 20 40 60 80 100 120 140 Exemplo do AES Período Valor real de Zt Previsão 121 1228,90 944,70 122 1316,90 1226,06 123 1735,20 1315,99 124 1978,20 1731,01 125 2116,30 1975,73 126 2191,80 2114,89 127 2436,10 2191,03 128 2946,40 2433,65 129 3002,10 2941,27 130 4708,20 3001,49 131 4500,80 4691,13 132 4262,40 4502,70 Modelos Automáticos Previsão de Séries com Tendência Z t t T1 at t 1,, N 0,3 t é o nível da série 0,25 0,2 T1 é a tendência (linear em t) 0,15 0,1 At é um ruído branco 0,05 0 0 -0,05 20 40 60 80 100 120 Alisamento Exponencial Linaer de Brown Z t Z t 1 Z t 1 , Z1 Z1 Z t h a1,t b2,t h Previsão onde a1,t 2 Z t Z t b2,t Zt Zt 1 Exemplo do AELB Série do ICV - São Paulo de 1970 a 1980 1600 1400 1200 1000 800 600 400 200 0 0 20 40 60 80 100 120 140 Exemplo do AELB Modelos Automáticos Previsão de Séries Sazonais Sazonalidade Multiplicativa Z t t Ft Tt at , t 1,, N Sazonalidade Aditiva Z t t Tt Ft at Gera-se três equações de alisamento, uma para a sazonalidade, uma para a tendência e outra para a série Este método é chamado de Alisamento Exponencial Sazonal de Holt-Winters Método HW Multiplicativo Forma Multiplicativa: Equações de Alisamento: Zt Ft D 1 D Ft s , 0 D 1, t s 1,, N Zt Zt Z t A 1 A Z t 1 Tt 1 0 A 1, t s 1,, N Ft s Tt CZ t Z t 1 1 C Tt 1 , 0 C 1, t s 1,, N Equação de Previsão: Z t h Z t hTt Ft hs , h 1,2,, s Exemplo do HW Multiplicativo Índice do Produto Industrial do Brasil – 1969 até 1980 25000 20000 15000 10000 5000 0 0 20 40 60 80 100 120 140 160 Exemplo do HW Multiplicativo Período T 128 Previsão para IPI Valor Real Previsão Zt Z t 1 1, t 128,,139 21614,00 21418,04 23000 129 19717,00 20787,00 130 22133,00 21540,37 131 20503,00 20480,11 132 18800,00 19715,21 133 19577,00 18921,75 134 18992,00 18276,10 135 21022,00 20676,11 136 19064,00 20034,13 137 21067,00 20861,99 16000 138 21553,00 21133,07 15000 22000 Valor do IPV 21000 20000 Valor Real 19000 Previsão 18000 17000 139 21513,00 21919,51 1 2 3 4 5 6 7 8 Observações Futuras 9 10 11 12 Filtragem Adaptativa Esta é uma técnica baseada em uma média ponderada da observações passadas da séries temporal Z 1 t Z P i t k 1 i i t k São ponderados os k períodos mais recentes porque: São considerados os mais relevantes; Se considerarmos todos os t valores da série temporal, seria necessário t pesos, que poderiam ser determinados de modo a obter exatamente o termo de ordem (t + 1), o que não é desejável porque estaríamos fazendo com que eles se adaptassem não só ao padrão de comportamento da série, mas também à componente aleatória. Pesos Iniciais A determinação dos pesos inicias pode ser feita de duas maeiras: •Método de Makridaski •Método Silva Método Makridakis Primeiramente são especificados valores iniciais todos iguais a 1,0, isto é, Pi = 1,0, i = 1, ... k. A seguir é calculada a previsão para Zt+1, , utilizando-se a equação de previsão, que é comparada com o valor observado Zt+1 e sendo calculado o erro de previsão. Os pesos são então ajustados de modo a reduzir o erro na próxima previsão. Este processo é repetido até que se encontre o melhor conjunto de pesos. Método Silva Neste método quer minimizar o erro: N k E S i 1 i k 1 2 i Ei Z i k Zˆ i k 1 1 Z i k Pj i 1 Z j onde j 1 O problema resume-se a resolver o sistema: Z P Z Z P Z Z P Z Z Z Z P Z P Z Z P Z Z 2 i 1 i 1 i i 1 i 1 2 2 i 1 2 i i k 1 i 1 k i k 1 i k ik i 1 ik Z i k 1 Z i P1 Z i k 1 Z i 1 P2 Z i2 k 1 Pk Z i k 1 Z i k Atualização dos Pesos Depois de se gerar os pesos iniciais, este método de Filtragem adaptativa pode passar a atualiza os pesos dinamicamente, segundo a expressão: Pi Pi Onde et Z t k i 2 Z t k i 0 1 Exemplo do Método de Filtragem Adaptativa - Makridakis Exemplo do Método de Filtragem Adaptativa - Makridakis Para = 0,36 – Calculado tal que minimize os erros Z t 1 0,3923Z t 11 0,2205Z t 10 0,0917Z t 9 0,0203Z t 8 0,0532Z t 7 0,0531Z t 6 0,0635Z t 5 0,0097Z t 4 0,1142Z t 3 0,0032Z t 2 0,0711Z t 1 0,4839Z t Exemplo do Método de Filtragem Adaptativa - Makridakis Período T 131 Valor Real Zt 432,90 Previsão Zˆ t 1 1, 0 388,35 Previsão Zˆ t 1 1, 0,36 388,35 132 455,10 413,58 430,32 133 432,30 437,16 463,91 134 465,30 452,81 468,66 135 620,07 494,06 509,22 136 677,80 573,66 632,32 137 633,60 577,62 657,48 138 539,70 564,07 639,28 139 613,50 562,68 603,65 140 653,40 625,21 671,80 141 635,70 629,12 670,53 142 715,50 618,08 648,08 Modelos de Box & Jenkins Box & Jenkins propuseram um método iterativo para a identificação do modelo de uma série temporal – Modelo ARIMA. Este método envolve investigações sobre os dados da série, sem a necessidade de se ter informações prévias sobre a série Este é um procedimento muito poderoso, porém necessita de um conhecimento muito apurado Modelos De Box & Jenkins Estagio 1: Identificação Escolhe um ou mais modelos candidatos ARIMA Estágio 2: Estimação Estima os parâmetros dos modelos escolhidos Estágio 3: Verificação Checagem dos modelos quando à adequação Sim Previsão Modelo é satisfatório? Não Modelos Auto-Regressivos – AR(p) O modelo AR(p) pode ser escrito por: ~ BZ t at Onde (B) é o operador Auto-Regressivo: (B) = 1-1B - 2B2 - ... - pBp E B é o operador translação para o passado: BZt Z t 1 B m Z t Z t m Pode-se mostrar que a Função de AutoCorrelação para um modelo AR(p) é: j 1 j 1 2 j 2 p j p FAC – AR(p) Podemos provar que a fac pode ser escrita de forma geral: j A1G1j A2G2j Ap G pj Onde para que o modelo convirja temos que |Gi| < 1, logo. 1. Se Gi for real, o termo AiGij decai geometricamente para zero (amortecimento exponencial); 2. Um par de raízes complexas conjugadas contribui com um termo da forma AdjSen(2fj+F) (senoide amortecida), onde f é uma freqüência, F é uma fase, e o termo Adj é a amplitude que decresce com o incremento de j, uma vez que |d|<1. FAC – AR(p) Função de Auto-Correlação Função De Auto-Correlação 1 1 0,8 0,5 0,6 0,4 -0,5 j 19 17 15 13 11 9 7 5 3 1 0 -1 j 19 17 15 13 11 9 7 5 3 1 0 0,2 Modelo de Médias Móveis – MA(q) O modelo MA(q) pode ser escrito por: ~ Z 1 1 B 2 B 2 q B q at B at Onde (B) é o Operador Médias Móveis: B 1 1 B 2 B 2 q B q Pode-se mostrar que a Função de Auto-Correlação para um modelo MA(q) é: j 1 j 1 2 j 2 q q j , 2 2 1 1 q j 0, j 1, , q jq Vemos que a fac para um MA(q) é finita de extensão q. FAC – MA(1) Para um modelo MA(1), q = 1, e supondo que = -0,8 (para o modelo ser estável, | | < 1): Funçõa de Auto-Corre lação 1 0,8 0,6 0,4 0,2 0 1 2 3 4 5 6 7 8 9 10 11 -0,2 -0,4 -0,6 -0,8 -1 j 12 13 14 15 16 17 18 19 20 Modelos Mistos – ARMA(p,q) O modelo ARMA(p,q) pode ser escrito por: ~ ~ ~ Z t 1 Z t 1 p Z t p at 1at 1 q at q ou ~ BZ t Bat Pode-se mostrar que a Função de Auto-Correlação para um modelo ARMA(p,q) é: j 1 j 1 2 j 2 p j p a j 1 za j 1 q za j q onde Mas que para j > q: ~ za j E at Z t j j 1 j 1 2 j 2 p j p , jq do que se deduz que as Auto-Correlações de “lags” 1, 2, ..., q serão afetadas pelos parâmetros de médias móveis, mas para j > q as mesmas comportam-se como no modelos auto-regressivos. FAC – ARMA(1, 1) Para um Modelo ARMA(1, 1), pode-se mostrar que: 0 1 1 2 2 1 2 j j 1 E para j > q 2 a 1 2 1 2 Função de Auto-Correlação a 1,00 0,90 0,80 0,70 Assim, se temos = 0,8 e = -0,3, o gráfico da fac será: 0,60 0,50 0,40 0,30 0,20 0,10 0,00 1 2 3 4 5 6 7 8 9 10 11 j 12 13 14 15 16 17 18 19 20 FACP Box & Jenkins proporam um segundo método de análise: A Função de AutoCorrelação Parcial: kk As facp podem ser calculadas a partir das eqs. de Yule-Walke: 1 1 k 1 1 1 k 2 k 1 k1 1 k 2 k 2 2 1 kk k FACP – AR, MA, ARMA i. Um processo AR(p) tem facp kk 0 para k menor ou igual a p, e kk = 0 para k maior que p; ii. Um processo MA(q) tem facp que se comportam de maneira similar às fac de um processo AR(p): são dominadas por exponenciais e/ou senoides amortecidas; iii. Um processo ARMA(p,q) tem facp que se comportam como a facp de um processo MA puro. FACP – AR, MA e ARMA F u n ç ã o d e A u t o - C o r r e la ç ã o P a r c ia l p a r a M A ( 1 ) F u n ç ã o d e A u t o - C o r r e la ç ã o P a r c ia l p a r a A R M A ( 1 , 1 ) 1 1 0,8 0,8 0,6 0,6 0,4 0,4 0,2 0,2 0 0 -0, 2 1 2 3 4 5 6 7 8 9 2 3 4 5 6 10 -0, 4 -0, 4 -0, 6 -0, 6 -0, 8 -0, 8 -1 -1 1 -0, 2 AR(1) MA(1) j j F u n ç a õ d e A u t o - C o r r e la ç ã o P a r c ia l p a r a A R ( 1 ) 1 0,8 0,6 0,4 0,2 0 -0, 2 1 2 3 4 5 6 7 -0, 4 -0, 6 -0, 8 -1 ARMA(1, 1) j 8 9 10 7 8 9 10 Modelos ARIMA As séries que podem ser representados pelos modelos já vistos tem que ser estacionária. Assim um procedimento de torna-las estacionárias é tiramos diferenças: Wt Z t Z t 1 1 BZ t Z t Ou tirando d diferenças: Wt d Z t ou Bd Z t Bat Que é o modelo ARIMA(p, q, d). Identificação De forma geral, o modelo ARIMA é parcimonioso, logo em geral d = 0, 1 ou 2 é suficiente para obtermos a identificação dos modelos Faz as diferenças Calcula-se as fac e facp para os dados Analisa-se As funções obtidas com as dos modelos vistos. Identifica-se um conjunto de possíveis modelos Estimação Existem basicamente dois procedimentos de estimação: 1)Procedimento Condicional 2)Procedimento Não Condicional ou Incondicional Todos dos métodos realizam a minimização da função de verossimilhança(condicional e não condiciona) n S* n W ,W * , a * at2 n W ,W * , a * t 1 n S n W ,W * , a* at2 n W ,W * , a* t 1 Exemplo de Estimação Supondo Um Modelo ARIMA (0, 1,1) Wt = Zt = (1-B) at E suponha = 0,8 , termos At = Wt + 0,8 at-1 Assim, supondo o método condicional , S* 0,8 a 0,8 a0 0 Wt 0,8at 1 801,26 9 t 1 9 2 t 2 t 1 O menor valor de S* é para = -0,4 Verivicação Existem vários métodos de verificação, contudo exibiremos o método do Periodogram acumulado: 2 n n I a f1 at cos2f i t at sen2f i t n t 1 t 1 2 E o espectro aculumado é: E o periodograma Acumulado é uma estimativa do espectro acumulado: 2 0, f 0 f 1 Pa f p a g dg 2 a2 f , 0 f 2 0 1 2 , f a 2 j C f j I f i 1 a n a2 i Ruído Branco Aplicação do método ARIMA FAC e FACP F u n ç ã o d e A u t o - C o r r e la ç ã o P a r c ia l, d = 0 d=0 1 0,8 0,6 0,4 0,2 0 -0, 2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 -0, 4 -0, 6 -0, 8 -1 La gs d=1 F u n ç ã o d e A u t o - C o r r e la ç ã o P a r c ia l, d = 1 1 0,8 0,6 0,4 0,2 0 -0, 2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 13 14 15 16 17 18 19 20 -0, 4 -0, 6 -0, 8 -1 La gs F u n ç ã o d e A u t o - C o r r e la ç ã o P a r c ia l, d = 2 d=2 1 0,8 0,6 0,4 0,2 0 -0, 2 1 2 3 4 5 6 7 8 9 10 11 12 -0, 4 -0, 6 -0, 8 -1 FAC FACP La gs Estimativa Modelos escolhido: ARIMA (1, 1, 0) e ARIMA (0, 2, 2) Número de Observações Modelo Fitados Variância Residual S , n 226 226 Z t 0,82(0,04)Z t 1 at 2 Z t at 0,13(0,07)at 1 0,0,12(0,07)at 2 0,018 0,019 Verificação ARIMA(1, 1, 0) ARIMA(0, 2, 2) Conclusões Os modelos Automáticos são bem mais fáceis de serem utilizados, porem requer um conhecimento prévio sobre a série. O Modelo ARIMA é bem mais preciso do que os modelos automáticos mencionados, porém requer mão de obrar super qualificada.