Mineração e Previsão de Séries
Temporais
Tiago Alessandro Espínola Ferreira
[email protected]
Recife – 2o Semestre de 2001
Sumário
 Introdução
 Séries Temporais
 Modelos Automáticos
 Modelos de Box & Jenkins - ARIMA
 Aplicações do Modelo ARIMA
 Conclusões
Introdução
“Previsão é um elemento chave na tomada de decisão”
Controle de
Processo
Planejamento
de Produção
Planejamento de
Oportunidades
Sistema de
Previsão
Planejamento
Financeiro
Escalonamento
de Pessoal
Gerenciamento
de Estoque
Previsão
Predição de eventos futuros, com o
intuito de diminuição de risco na
tomada de decisão.
Previsão
Custo Total
Custo da
Previsão
Erro
Custo Vs Benefício
Ponto Ótimo!
Perdas Devido
a Incerteza
Decisão
Baseando-se em sistemas de Previsão:
Decisão
=
Previsão
+
Erro
Algumas Definições
Período da Previsão  Unidade básica de tempo
na previsão.
Horizonte da Previsão No. de períodos cobertos.
Intervalo de Previsão Freqüência de atualização
Poderíamos requerer uma previsão para as próximas dez
semanas, com uma análise semanal, assim o horizonte seria
dez semanas e o período de uma semana
Séries temporais
Uma série temporal é uma seqüência de
observações sobre uma variável de interesse. A
variável é observada em pontos temporais discretos,
usualmente eqüidistantes, e a análise de tal
comportamento temporal envolve a descrição do
processo ou fenômeno que gera a seqüência.
Padrões de Séries Temporais
 Processamentos que permanecem constantes sobre
um certo nível todo o tempo, com variações de
período a período devido a causas aleatórias.
 Padrões que ilustram tendências no nível dos
processos, de maneira que a variação de um período
ao outro é atribuída a uma tendência mais uma
variação aleatória.
 Processos que variam ciclicamente no tempo,
como em processos sazonais (exemplo: o clima).
Modelos de Previsão de Séries
Temporais
Os procedimentos de previsão de séries
temporais podem ser divididos, grosseiramente, em
duas categorias:
a) Automáticos, que são aplicados diretamente, com
a estilização de programas simples de computador;
b) Não-Automáticos, que exigem a intervenção de
pessoal especializado, para serem aplicados
Modelos Automáticos
Previsão de Séries Localmente Constantes
Z t  t  at ,  t  1,, N
1
0,9
0,8
t é o nível da série
0,7
0,6
0,5
At é um ruído branco
0,4
0,3
0,2
0,1
0
0
10
20
30
40
50
60
70
80
90
100
Médias Móveis Simples
(MMS)
Cálculo da média aritmética
das r últimas observações
Previsão
Z t  Z t 1    Z t r 1
Mt 
r

Z t h  M t
Principal Vantagem:
Principal desvantagem:
 Simples Utilização
 Determinação de r
Exemplo de MMS
Período
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
EQM
Valor real de Zt
1095,10
1067,10
1364,30
1510,90
1260,20
1229,50
1205,60
1237,60
1414,60
1299,30
1420,60
1360,30
1304,40
1213,20
1360,60
1587,60
1431,60
1267,50
1429,00
1517,00
1506,50
1627,30
1650,50
1606,00
 r 2
Z t 1 1

Z tr13 1
 r 4
Z t 1 1
1081,10
1215,70
1437,60
1385,55
1244,85
1217,55
1221,60
1326,10
1356,95
1359,95
1390,45
1332,35
1258,80
1286,90
1474,10
1509,60
1349,55
1348,25
1473,00
1511,75
1566,90
1638,90
24091,94
1175,50
1314,10
1378,47
1333,53
1231,77
1224,23
1285,93
1317,17
1378,17
1360,07
1361,77
1292,63
1292,73
1387,13
1459,93
1428,90
1376,03
1404,50
1484,17
1550,27
1594,77
19869,50
1259,35
1300,63
1341,23
1301,55
1233,23
1271,83
1289,28
1343,03
1373,70
1346,15
1324,63
1309,63
1366,45
1398,25
1411,83
1428,93
1411,28
1430,00
1519,95
1575,33
13763,68

Z tr15 1
1259,52
1286,40
1314,10
1288,76
1269,50
1277,32
1315,54
1346,48
1359,84
1319,56
1331,82
1365,22
1379,48
1372,10
1415,26
1446,54
1430,32
1469,46
1546,06
14534,43
Exemplo de MMS
Período
Valor real de
Zt
Previsão
25
1696,40
1597,57
26
1767,50
1645,05
27
1554,80
1680,10
28
1727,50
1656,17
29
2231,80
1686,55
30
2111,70
1800,40
Alisamento Exponencial
Simples (AES)
Z t  Z t  1   Z t 1  Z 0  Z1 , t  1,, N
Com 0 <  <1, constante de alisamento
Previsão

Z t h  Z t  h  1,2,3,
Principal Vantagem:
Principal desvantagem:
 Fácil Entendimento
 Determinação de 
Exemplo do AES
Preços Médio da Saca de Feijão
1200
1000
800
600
400
200
0
0
20
40
60
80
100
120
140
Exemplo do AES
Período
Valor real de Zt
Previsão
121
1228,90
944,70
122
1316,90
1226,06
123
1735,20
1315,99
124
1978,20
1731,01
125
2116,30
1975,73
126
2191,80
2114,89
127
2436,10
2191,03
128
2946,40
2433,65
129
3002,10
2941,27
130
4708,20
3001,49
131
4500,80
4691,13
132
4262,40
4502,70
Modelos Automáticos
Previsão de Séries com Tendência
Z t   t  T1  at  t  1,, N
0,3
t é o nível da série
0,25
0,2
T1 é a tendência (linear em t)
0,15
0,1
At é um ruído branco
0,05
0
0
-0,05
20
40
60
80
100
120
Alisamento Exponencial Linaer
de Brown
Z t  Z t  1   Z t 1 , Z1  Z1



Z t h  a1,t  b2,t h
Previsão
onde

a1,t  2 Z t  Z t



b2,t 
Zt  Zt
1

Exemplo do AELB
Série do ICV - São Paulo de 1970 a 1980
1600
1400
1200
1000
800
600
400
200
0
0
20
40
60
80
100
120
140
Exemplo do AELB
Modelos Automáticos
Previsão de Séries Sazonais
Sazonalidade Multiplicativa
Z t   t Ft  Tt  at , t  1,, N
Sazonalidade Aditiva
Z t   t  Tt  Ft  at
Gera-se três equações de alisamento, uma para a
sazonalidade, uma para a tendência e outra para a série
Este método é chamado de Alisamento Exponencial
Sazonal de Holt-Winters
Método HW Multiplicativo
Forma Multiplicativa:
Equações de Alisamento:


 Zt 
Ft  D   1  D Ft  s ,  0  D  1, t  s  1,, N
 Zt 

 Zt 
Z t  A    1  A Z t 1  Tt 1  0  A  1, t  s  1,, N
 Ft  s 




Tt  CZ t  Z t 1   1  C Tt 1 ,  0  C  1, t  s  1,, N
Equação de Previsão:



 
Z t h  Z t  hTt Ft hs ,  h  1,2,, s
Exemplo do HW Multiplicativo
Índice do Produto Industrial do Brasil – 1969 até 1980
25000
20000
15000
10000
5000
0
0
20
40
60
80
100
120
140
160
Exemplo do HW Multiplicativo
Período
T
128
Previsão para IPI
Valor Real
Previsão

Zt
Z t 1 1, t  128,,139
21614,00
21418,04
23000
129
19717,00
20787,00
130
22133,00
21540,37
131
20503,00
20480,11
132
18800,00
19715,21
133
19577,00
18921,75
134
18992,00
18276,10
135
21022,00
20676,11
136
19064,00
20034,13
137
21067,00
20861,99
16000
138
21553,00
21133,07
15000
22000
Valor do IPV
21000
20000
Valor Real
19000
Previsão
18000
17000
139
21513,00
21919,51
1
2
3
4
5
6
7
8
Observações Futuras
9
10
11
12
Filtragem Adaptativa
Esta é uma técnica baseada em uma média ponderada da
observações passadas da séries temporal

Z 1 
t
Z P
i t  k 1
i
i t  k
São ponderados os k períodos mais recentes porque:
São considerados os mais relevantes;
Se considerarmos todos os t valores da série temporal, seria
necessário t pesos, que poderiam ser determinados de modo a obter
exatamente o termo de ordem (t + 1), o que não é desejável porque
estaríamos fazendo com que eles se adaptassem não só ao padrão de
comportamento da série, mas também à componente aleatória.
Pesos Iniciais
A determinação dos pesos inicias pode ser feita de
duas maeiras:
•Método de Makridaski
•Método Silva
Método Makridakis
Primeiramente são especificados valores iniciais
todos iguais a 1,0, isto é, Pi = 1,0, i = 1, ... k. A seguir é
calculada a previsão para Zt+1, , utilizando-se a equação de
previsão, que é comparada com o valor observado Zt+1 e
sendo calculado o erro de previsão. Os pesos são então
ajustados de modo a reduzir o erro na próxima previsão.
Este processo é repetido até que se encontre o melhor
conjunto de pesos.
Método Silva
Neste método quer minimizar o erro:
N k
E
S
i 1
i  k 1
2
i
Ei Z i  k Zˆ i  k 1 1 Z i  k   Pj i 1 Z j
onde
j 1
O problema resume-se a resolver o sistema:
 Z P   Z Z P     Z Z P   Z Z 
 Z Z P   Z P     Z Z P   Z Z 
2
i 1
i 1
i
i
1
i 1
2
2
i 1 2
i
i  k 1
i 1
k
i  k 1
i
k
ik
i 1
ik

 Z
i  k 1
Z i P1   Z i  k 1 Z i 1 P2     Z i2 k 1 Pk   Z i  k 1 Z i  k 
Atualização dos Pesos
Depois de se gerar os pesos iniciais, este método de Filtragem
adaptativa pode passar a atualiza os pesos dinamicamente,
segundo a expressão:
Pi  Pi  
Onde
et Z t k i
2
Z
 t  k i
0  1
Exemplo do Método de Filtragem
Adaptativa - Makridakis
Exemplo do Método de Filtragem
Adaptativa - Makridakis
Para  = 0,36 – Calculado tal que minimize os erros

Z t 1  0,3923Z t 11  0,2205Z t 10  0,0917Z t 9  0,0203Z t 8 
 0,0532Z t 7  0,0531Z t 6  0,0635Z t 5  0,0097Z t  4 
 0,1142Z t 3  0,0032Z t  2  0,0711Z t 1  0,4839Z t
Exemplo do Método de Filtragem
Adaptativa - Makridakis
Período
T
131
Valor Real
Zt
432,90
Previsão
Zˆ t 1 1,   0
388,35
Previsão
Zˆ t 1 1,   0,36
388,35
132
455,10
413,58
430,32
133
432,30
437,16
463,91
134
465,30
452,81
468,66
135
620,07
494,06
509,22
136
677,80
573,66
632,32
137
633,60
577,62
657,48
138
539,70
564,07
639,28
139
613,50
562,68
603,65
140
653,40
625,21
671,80
141
635,70
629,12
670,53
142
715,50
618,08
648,08
Modelos de Box & Jenkins
 Box & Jenkins propuseram um método
iterativo para a identificação do modelo de
uma série temporal – Modelo ARIMA.
 Este método envolve investigações sobre os
dados da série, sem a necessidade de se ter
informações prévias sobre a série
 Este é um procedimento muito poderoso,
porém necessita de um conhecimento muito
apurado
Modelos De Box & Jenkins
Estagio 1: Identificação
Escolhe um ou mais modelos candidatos
ARIMA
Estágio 2: Estimação
Estima os parâmetros dos modelos
escolhidos
Estágio 3: Verificação
Checagem dos modelos quando à
adequação
Sim
Previsão
Modelo é
satisfatório?
Não
Modelos Auto-Regressivos –
AR(p)
O modelo AR(p) pode ser escrito por:
~
BZ t  at
Onde (B) é o operador Auto-Regressivo: (B) = 1-1B - 2B2 - ... - pBp
E B é o operador translação para o passado: BZt  Z t 1  B m Z t  Z t m
Pode-se mostrar que a Função de AutoCorrelação para um modelo AR(p) é:
 j  1  j 1  2  j 2     p  j  p
FAC – AR(p)
Podemos provar que a fac pode ser escrita de forma geral:
 j  A1G1j  A2G2j    Ap G pj
Onde para que o modelo convirja temos que |Gi| < 1, logo.
1. Se Gi for real, o termo AiGij decai geometricamente para
zero (amortecimento exponencial);
2. Um par de raízes complexas conjugadas contribui com
um termo da forma AdjSen(2fj+F) (senoide amortecida),
onde f é uma freqüência, F é uma fase, e o termo Adj é a
amplitude que decresce com o incremento de j, uma vez que
|d|<1.
FAC – AR(p)
Função de Auto-Correlação
Função De Auto-Correlação
1
1
0,8
0,5
0,6
0,4
-0,5
j
19
17
15
13
11
9
7
5
3
1
0
-1
j
19
17
15
13
11
9
7
5
3
1
0
0,2
Modelo de Médias Móveis –
MA(q)
O modelo MA(q) pode ser escrito por:


~
Z  1  1 B   2 B 2     q B q at  B at
Onde (B) é o Operador Médias Móveis:
B  1  1 B   2 B 2    q B q
Pode-se mostrar que a Função de Auto-Correlação para um modelo MA(q) é:
   j   1 j 1   2 j  2     q q  j
,

2
2
1  1     q
j  
0,

j  1, , q
jq
Vemos que a fac para um MA(q) é finita de extensão q.
FAC – MA(1)
Para um modelo MA(1), q = 1, e supondo que  = -0,8 (para o modelo ser
estável, |  | < 1):
Funçõa de Auto-Corre lação
1
0,8
0,6
0,4
0,2
0
1
2
3
4
5
6
7
8
9
10
11
-0,2
-0,4
-0,6
-0,8
-1
j
12
13
14
15
16
17
18
19
20
Modelos Mistos – ARMA(p,q)
O modelo ARMA(p,q) pode ser escrito por:
~
~
~
Z t  1 Z t 1     p Z t  p  at  1at 1     q at q
ou
~
BZ t  Bat
Pode-se mostrar que a Função de Auto-Correlação para um modelo ARMA(p,q) é:
 j  1 j 1   2 j 2     p j  p   a  j   1 za  j  1     q za  j  q
onde
Mas que para j > q:

~
 za  j   E at Z t  j

 j  1 j 1  2 j 2     p j  p ,
jq
do que se deduz que as Auto-Correlações de “lags” 1, 2, ..., q serão afetadas
pelos parâmetros de médias móveis, mas para j > q as mesmas comportam-se
como no modelos auto-regressivos.
FAC – ARMA(1, 1)
Para um Modelo ARMA(1, 1), pode-se mostrar que:
0
1  

1 
2
 2
1 2

 j   j 1
E para j > q
2
a
1        2
1
2
Função de Auto-Correlação
a
1,00
0,90
0,80
0,70
Assim, se temos  = 0,8 e
 = -0,3, o gráfico da fac
será:
0,60
0,50
0,40
0,30
0,20
0,10
0,00
1
2
3
4
5
6
7
8
9
10
11
j
12
13
14
15
16
17
18
19
20
FACP
Box & Jenkins proporam um segundo método de análise: A Função de AutoCorrelação Parcial:
kk
As facp podem ser calculadas a partir das eqs. de Yule-Walke:
 1
 
 1
 

  k 1
1
1
 k 2
  k 1   k1   1 
  k  2   k 2    2 

     
   

1   kk    k 
FACP – AR, MA, ARMA
i. Um processo AR(p) tem facp kk  0 para k menor ou
igual a p, e kk = 0 para k maior que p;
ii. Um processo MA(q) tem facp que se comportam de
maneira similar às fac de um processo AR(p): são
dominadas por exponenciais e/ou senoides amortecidas;
iii. Um processo ARMA(p,q) tem facp que se comportam
como a facp de um processo MA puro.
FACP – AR, MA e ARMA
F u n ç ã o d e A u t o - C o r r e la ç ã o P a r c ia l p a r a M A ( 1 )
F u n ç ã o d e A u t o - C o r r e la ç ã o P a r c ia l p a r a A R M A ( 1 , 1 )
1
1
0,8
0,8
0,6
0,6
0,4
0,4
0,2
0,2
0
0
-0, 2
1
2
3
4
5
6
7
8
9
2
3
4
5
6
10
-0, 4
-0, 4
-0, 6
-0, 6
-0, 8
-0, 8
-1
-1
1
-0, 2
AR(1)
MA(1)
j
j
F u n ç a õ d e A u t o - C o r r e la ç ã o P a r c ia l p a r a A R ( 1 )
1
0,8
0,6
0,4
0,2
0
-0, 2
1
2
3
4
5
6
7
-0, 4
-0, 6
-0, 8
-1
ARMA(1, 1)
j
8
9
10
7
8
9
10
Modelos ARIMA
As séries que podem ser representados pelos modelos já vistos tem que
ser estacionária. Assim um procedimento de torna-las estacionárias é
tiramos diferenças:
Wt  Z t  Z t 1  1  BZ t  Z t
Ou tirando d
diferenças:
Wt  d Z t
ou
Bd Z t   Bat
Que é o modelo ARIMA(p, q, d).
Identificação
 De forma geral, o modelo ARIMA é parcimonioso, logo em
geral d = 0, 1 ou 2 é suficiente para obtermos a identificação
dos modelos
 Faz as diferenças
 Calcula-se as fac e facp para os dados
 Analisa-se As funções obtidas com as dos modelos vistos.
 Identifica-se um conjunto de possíveis modelos
Estimação
Existem basicamente dois procedimentos de estimação:
1)Procedimento Condicional
2)Procedimento Não Condicional ou Incondicional
Todos dos métodos realizam a minimização da função de
verossimilhança(condicional e não condiciona)



n
S* n W ,W * , a *   at2 n W ,W * , a *


t 1
n

S n W ,W * , a*   at2 n W ,W * , a*
t 1


Exemplo de Estimação
Supondo Um Modelo ARIMA (0, 1,1)
Wt = Zt = (1-B) at
E suponha  = 0,8 , termos At = Wt + 0,8 at-1
Assim, supondo o método condicional ,
S* 0,8   a 0,8 a0  0   Wt  0,8at 1   801,26
9
t 1
9
2
t
2
t 1
O menor valor de S* é para  = -0,4
Verivicação
Existem vários métodos de verificação, contudo exibiremos o método do
Periodogram acumulado:
2  n
  n

I a  f1     at cos2f i t     at sen2f i t 
n  t 1
  t 1

2
E o espectro aculumado é:
E o periodograma Acumulado
é uma estimativa do espectro
acumulado:
2




0,
f 0

f
1

Pa  f    p a g dg  2 a2 f , 0  f 
2
0

1
 2

,
f

a

2
j
C f j  
I f 
i 1
a
n a2
i
Ruído Branco
Aplicação do método ARIMA
FAC e FACP
F u n ç ã o d e A u t o - C o r r e la ç ã o P a r c ia l, d = 0
d=0
1
0,8
0,6
0,4
0,2
0
-0, 2
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
-0, 4
-0, 6
-0, 8
-1
La gs
d=1
F u n ç ã o d e A u t o - C o r r e la ç ã o P a r c ia l, d = 1
1
0,8
0,6
0,4
0,2
0
-0, 2
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
13
14
15
16
17
18
19
20
-0, 4
-0, 6
-0, 8
-1
La gs
F u n ç ã o d e A u t o - C o r r e la ç ã o P a r c ia l, d = 2
d=2
1
0,8
0,6
0,4
0,2
0
-0, 2
1
2
3
4
5
6
7
8
9
10
11
12
-0, 4
-0, 6
-0, 8
-1
FAC
FACP
La gs
Estimativa
Modelos escolhido: ARIMA (1, 1, 0) e ARIMA (0, 2, 2)
Número de
Observações
Modelo Fitados
Variância
Residual
S ,  n
226
226
Z t  0,82(0,04)Z t 1  at
2 Z t  at  0,13(0,07)at 1  0,0,12(0,07)at 2
0,018
0,019
Verificação
ARIMA(1, 1, 0)
ARIMA(0, 2, 2)
Conclusões
 Os modelos Automáticos são bem mais
fáceis de serem utilizados, porem requer um
conhecimento prévio sobre a série.
 O Modelo ARIMA é bem mais preciso do
que os modelos automáticos mencionados,
porém requer mão de obrar super qualificada.
Download

Modelos Estatísticos para Previsão de Séries Temporais