Universidade de São Paulo
Disciplina: Climatologia II – ACA 0226
Introdução à Estatística Aplicada à Climatologia
Parte III – Análise de Séries Temporais
Projeto PAE
Bolsista: Michelle S. Reboita
São Paulo, 2005.
2
Sumário
1
Introdução................................................................................................................................ 3
1.1
Objetivos da Análise de Séries Temporais .............................................................. 3
2 Conceitos Importantes ......................................................................................................... 4
2.1
Séries Temporais e Espaciais ...................................................................................... 4
2.2
Séries Contínuas e Discretas ....................................................................................... 4
3 Representação Matemática................................................................................................. 4
4 Elementos das Séries Temporais...................................................................................... 5
5 Modelo Clássico ...................................................................................................................... 6
5.1
Modelos Multiplicativos e Aditivos ............................................................................. 6
6 Decomposição dos Elementos das Séries Temporais .................................................. 6
6.1
Tendência.......................................................................................................................... 6
6.2
Variações Sazonais ........................................................................................................12
6.3
Variações Cíclicas...........................................................................................................19
7 Técnicas Exploratórias para Dados Emparelhados ................................................... 20
7.1
Gráficos de Dispersão (Scatterplots) ..................................................................... 20
7.2
Covariância e Correlação ..............................................................................................21
7.3
Autocorrelação .............................................................................................................. 23
8 Referências ............................................................................................................................ 33
9 Apêndices................................................................................................................................ 34
9.1
Rotina rlinear ................................................................................................................. 34
9.2
Rotina filtro ................................................................................................................... 36
10
Exercícios ........................................................................................................................... 37
Projeto PAE – Bolsista: Michelle S. Reboita
3
1
Introdução
Uma série temporal é um conjunto cronológico (ordenado no tempo) de
observações. Como exemplos de séries temporais podemos citar os registros de
temperatura diária de uma cidade, as vendas diárias de uma loja, a temperatura de um
paciente a cada hora, entre outros.
A análise de tais dados tem por objetivo determinar se eles apresentam algum
padrão não-aleatório. Por vezes, o que se deseja é, realmente localizar esses padrões
não-aleatórios, que podem então ser usados para predições quanto ao futuro. Por
exemplo, a previsão de vendas é uma área onde os dados passados são explorados na
esperança de se encontrar algo útil para a previsão da demanda futura. Outras vezes,
o objetivo é constatar a ausência de padrões não aleatórios. Nesses casos, os padrões
não-aleatórios são encarados como um sinal de que determinado sistema ou processo
está fora de controle.
De acordo com o exposto, nota-se que a análise de séries temporais tem grande
importância como informação para a previsão do futuro. O estudo do comportamento
das variações ocorridas no passado em dados de interesse permite-nos prever as
variações que poderão ocorrer no futuro, e assim, prever os próprios valores futuros
dos dados (Góis, 1980).
1.1
Objetivos da Análise de Séries Temporais
De acordo com Chatfield (1999), há vários motivos para se realizar a análise de
séries temporais. Esses podem ser classificados como: descrição, explicação, previsão
e controle.
Descrição: consiste basicamente em conhecermos o comportamento de uma série
temporal. Portanto, o primeiro passo na análise é elaborar o gráfico da série temporal
com o objetivo de observar as principais propriedades da série como: tendência, ciclo
sazonal e outliers (valores que não parecem consistentes com os demais – pontos
aberrantes).
Explicação: quando as observações são tomadas de duas ou mais variáveis, podemos
estar interessados em saber se a variação de uma série pode explicar a variação das
outras.
Previsão: dada uma série temporal observada, pode-se querer prever os valores
futuros desta.
Controle: implica na geração de séries temporais para medir a qualidade de um
processo. Exemplo: medir o peso de um determinado produto após ser embalado para o
consumo. Isto tem como objetivo saber se está sendo embalado com excesso ou falta.
Projeto PAE – Bolsista: Michelle S. Reboita
4
2
2.1
Conceitos Importantes
Séries Temporais e Espaciais
Quando medidas são tomadas em um ponto fixo sobre um período de tempo, a
série resultante é chamada de série temporal. Similarmente, medidas em um tempo
fixo sobre uma série de localidades no espaço originam uma série espacial. Ambas as
séries fornecem medidas de uma variável dependente tal como a temperatura ou
umidade como função de uma variável independente, tal como o tempo, t, ou local, x.
2.2
Séries Contínuas e Discretas
Uma série temporal é dita contínua quando as observações são feitas
continuamente no tempo. A série temporal constituída por medidas tomadas em
intervalos de tempo espaçados regularmente, até um número finito de N dados é
denominada série discreta.
O período total de medidas em uma série discreta é P = N ∆ t, ou seja, o número
total de dados multiplicado pelo intervalo de tempo em que os dados são medidos.
3
Representação Matemática
Uma série temporal é matematicamente definida por uma função cuja forma
geral é:
Y = f(t)
onde y é o valor da variável em estudo, t é o tempo a que ela se refere e f é a regra
que relaciona o valor da variável em estudo com a data a que ela se refere.
O gráfico de uma série temporal é uma linha que relaciona os valores da variável
em estudo (posicionada no eixo y) com o tempo (posicionado no eixo x). Veja o gráfico
da temperatura do ar média diária da estação do IAG (São Paulo), no mês de
dezembro de 2004.
Figura 1. Série temporal da
temperatura
média
diária
na
estação do IAG (São Paulo) no mês
de dezembro de 2004.
Projeto PAE – Bolsista: Michelle S. Reboita
5
4
Elementos das Séries Temporais
As séries temporais são compostas de quatro
padrões, ou elementos, básicos:
Tendência: o termo tendência descreve um movimento
suave, a longo prazo, dos dados, para cima ou para baixo.
As tendências podem estar relacionadas ao crescimento
populacional de uma região, ao aumento das temperaturas
devido ao efeito do aquecimento global, entre outros.
Figura
2.
Representação
gráfica da tendência.
Variações cíclicas: existe um padrão cíclico quando as
variações apresentam certo grau de regularidade,
entretanto com período diferente de um ano. São
exemplos de ciclos: as manchas solares, a demanda de
bens duráveis, etc.
Figura 3. Representação gráfica
da tendência e dos ciclos.
Variações sazonais: os fenômenos sazonais estão
associados às estações do ano. São semelhantes aos
fenômenos cíclicos, mas a diferença fundamental entre
eles é o tempo entre duas cristas consecutivas; no caso
dos ciclos, esse tempo é diferente de um ano; no caso da
sazonalidade, ele é de um ano. O ciclo sazonal também
pode receber a denominação de ciclo anual. Como exemplo
de eventos sazonais pode-se citar a variação da
temperatura ao longo do ano, os artigos de estação, como,
sorvetes e ovos de páscoa, entre outros.
Variações irregulares: são variações aleatórias, que não
apresentam regularidade. Como por exemplo, nas medidas
horárias de temperatura do ar sabemos que ao longo de 24
horas teremos a influência do ciclo diário de insolação
(componente conhecida), entretanto, vários outros fatores
(componentes desconhecidas) estarão influenciando as
medidas, como nebulosidade e ventos, sem que possamos
saber a contribuição efetiva destes.
Figura 4. Representação gráfica da
tendência,
dos
ciclos
e
da
sazonalidade.
Figura 5. Representação gráfica da
tendência,
dos
ciclos,
da
sazonalidade e das irregularidades.
Projeto PAE – Bolsista: Michelle S. Reboita
6
5
Modelo Clássico
O modelo clássico considera as séries temporais como uma composição da
tendência, das variações cíclicas, da variação sazonal e das variações irregulares.
O modelo clássico consiste em decompor uma série temporal em cada uma
dessas componentes básicas de variação, analisar cada componente separadamente e,
então, recombinar a série, a fim de descrever as variações observadas na variável de
interesse. O processo de decomposição envolve a remoção sistemática de cada
componente dos dados, a começar pela tendência.
5.1
Modelos Multiplicativos e Aditivos
Há duas variantes do modelo clássico. Uma é chamada multiplicativa e a outra
aditiva. A primeira considera uma série temporal como se fosse resultante do produto
das componentes individuais, enquanto que a última considera a série temporal como
resultante de uma soma das componentes individuais. Assim o modelo multiplicativo
tem a forma:
y = TxCxSxI
e o modelo aditivo:
y = T+C+S+I
onde: T = componente tendência
C = componente cíclica
S = componente sazonal
I = componente irregular
O modelo aditivo pode parecer um tanto mais fácil de lidar do que o modelo
multiplicativo, mas este segundo é mais usado, uma vez que melhor retrata a
experiência. Entretanto, o critério final para uma determinada situação é usar o
modelo que melhor convém aos dados.
6
Decomposição dos Elementos das Séries Temporais
6.1
Tendência: A tendência se refere ao movimento dos dados a longo prazo,
para cima ou para baixo. Há duas finalidades ao isolar a tendência numa série
temporal. Uma é identificar a tendência e usá-la, digamos, em previsões. A outra é
remover a tendência, de modo a permitir o estudo das outras componentes das séries.
A tendência pode ser isolada de uma série através da análise de regressão linear
simples ou da análise de regressão não linear simples, dependendo do conjunto de
dados.
Projeto PAE – Bolsista: Michelle S. Reboita
7
Regressão Linear Simples
Sob a denominação de regressão linear simples escondem-se dois conceitos. Um
que estamos lidando com funções do primeiro grau e, outro, que o fenômeno é
razoavelmente bem explicado por uma única variável independente. Este é o tipo de
regressão mais usado na prática. Para tanto, uma reta é ajustada ao conjunto de dados
e, após, subtraída do mesmo. No exemplo abaixo são mostradas as equações
necessárias para a determinação da reta de tendência, bem como, os cálculos em
detalhes.
A tabela 1 possui dados de média anual de umidade específica para um
determinado município. No gráfico desta série percebe-se que há uma tendência, ou
seja, um crescimento. Portanto, é de interesse obter os valores que constituem a reta
de tendência para que esta seja isolada dos dados.
Tabela 1. Média anual da umidade
específica.
Ano
Umidade Específica (g/kg)
1954
1955
1956
1957
1958
1959
1960
1961
1962
1963
1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
10
11
9
11
12
15
13
17
16
13
14
10
18
16
20
22
14
21
17
21
Figura 6. Série temporal da média anual da
umidade específica para o município X. É visível
a presença da tendência.
As equações de regressão linear são as seguintes:
Yt = a + bt
onde: Yt = valor predito da série temporal
a = coeficiente linear da reta
b = coeficiente angular da reta
Projeto PAE – Bolsista: Michelle S. Reboita
(1)
8
t = tempo
As equações para a e b são escritas como:
b=
n∑ ty − ∑ t∑ y
(2)
n∑ t2 − ( ∑ t)2
∑ y − b∑ t
a=
(3)
n
onde n é o número de observações.
Tabela 2. Cálculos para a obtenção de uma equação de tendência linear.
Ano
Período (t)
Dados (y)
ty
t2
1954
1955
1956
1957
1958
1959
1960
1961
1962
1963
1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
10
11
9
11
12
15
13
17
16
13
14
10
18
16
20
22
14
21
17
21
10
22
27
44
60
90
91
136
144
130
154
120
234
224
300
352
238
378
323
420
1
4
9
16
25
36
49
64
81
100
121
144
169
196
225
256
289
324
361
400
∑t= 210
∑y =300
∑ty =
3497
∑t2=2870
Então, substituindo nas equações dadas os valores obtidos na tabela, tem-se:
b=
20(3497 ) − 210(300)
= 0,52
20(2870) − (210)2
a=
300 − 0,52(210)
= 9,52
20
Yt = 9,52 + 0,52 t
Projeto PAE – Bolsista: Michelle S. Reboita
9
Nota-se que os anos estão codificados. Isto é 1954, 1953, etc, foram
substituídos por 1, 2, 3, etc. Isso simplifica os cálculos.
A equação da reta permite fazer uma inferência sobre valores futuros da média
anual de umidade específica, por exemplo deseja-se saber o valor provável de umidade
em 1974. Como 1973 era representado por 20, 1974 será representado por 21, então
substitui-se t por 21 e calcula-se o valor que corresponde a y.
Yt = 9,52 +0,52 * 21
Yt = 20,44 g/kg
A equação da reta permite também que a tendência seja subtraída da série
original. Para tanto, se pega a equação da reta e substitui-se t pelos respectivos
valores de 1 a 20. Encontra-se para cada t um valor de y que dará origem a uma nova
série, que é a série da tendência. Por fim subtraí-se a série de tendência da série de
dados originais. O resultado é uma série livre da tendência (figura 7).
Tabela 3. Cálculo para eliminar a tendência.
t
Dados (y)
Yt = 9,52 + 0,52 t
y - Yt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
10
11
9
11
12
15
13
17
16
13
14
10
18
16
20
22
14
21
17
21
10.04
10.56
11.08
11.6
12.12
12.64
13.16
13.68
14.2
14.72
15.24
15.76
16.28
16.8
17.32
17.84
18.36
18.88
19.4
19.92
-0.04
0.44
-2.08
-0.6
-0.12
2.36
-0.16
3.32
1.8
-1.72
-1.24
-5.76
1.72
-0.8
2.68
4.16
-4.36
2.12
-2.4
1.08
Figura 7. Série temporal da média anual
da umidade específica no município X.
Série sem a presença da tendência.
Projeto PAE – Bolsista: Michelle S. Reboita
10
Em suma:
-
=
Figura 8. Representação da série com a presença da tendência (figura a esquerda),
reta de tendência (figura central) e série sem a presença de tendência (figura a
direita).
Regressão Não-Linear Simples
Uma reta pode ser usada para ajustar qualquer conjunto de dados. Mas nem
sempre o ajustamento por uma reta é bom. Quando isso ocorre, devemos tentar
outros tipos de funções, genericamente chamadas de funções não lineares.
Ao longo do tempo, grandes matemáticos dedicaram-se ao estudo das funções
não lineares, obtendo suas equações, propriedades e curvas características. Portanto,
quando o ajuste por uma reta não é representativo do conjunto de dados, podemos
utilizar uma função polinomial, exponencial, logarítmica, entre outras, para ajustar
uma curva. Destas funções são obtidas curvas onde algumas delas já têm aplicação
clara e definida em vários ramos do conhecimento humano. Como por exemplo: a curva
de crescimento biológico, a curva de Gompertz e a curva logística que são utilizadas na
biologia.
a. Curva de Crescimento Biológico: relaciona o número de indivíduos de determinada
população com o tempo de existência dela. É matematicamente representada por uma
função exponencial. N é o número de indivíduos da população num instante t qualquer.
Admite-se que o número inicial de indivíduos, que na data ‘zero’ (início da contagem
dos tempos) era N0, tenha crescido à taxa R. A equação também pressupõe que cada
indivíduo produz R-1 membros adicionais e que nenhum morre no período de estudo.
Em função disso, ela só é apropriada para curtos períodos de tempo. Neste caso,
enquanto o aumento de R torce a curva para cima, o aumento de N0 simplesmente a
empurra para cima.
Figura 9. Curva de crescimento biológico.
Projeto PAE – Bolsista: Michelle S. Reboita
11
b. Curva de Gompertz: também relaciona o número de indivíduos de uma população
com o tempo de existência dela. É matematicamente representada por uma função
exponencial. N é o número de indivíduos da população num instante t qualquer. Admitese que o número inicial de indivíduos, que na data zero era ab, tenha crescido à taxa R,
com 0 < R < 1. E mais, enquanto ab indica a proporção de crescimento inicial da
população, a mostra o limite de crescimento, ou o ponto em que ela será dita madura. É
aplicável a vários aspectos do crescimento e desenvolvimento humano (inclusive alguns
relacionados com a aprendizagem), sendo muito usada para a construção de tábuas
biométricas na demografia. Também se aplica à descrição dos ciclos de vida dos
produtos e a várias funções de receita e produção (y) ao longo de um certo tempo (x).
Figura 10. Curva de Gompertz.
c. Curva Logística: É outra curva usada no estudo das formas de crescimento de
populações de vários seres vivos, animais ou vegetais, sob condições específicas.
Também é aplicável à análise de crescimento de certas variáveis econômicas. As
curvas Logística e de Gompertz têm algumas propriedades semelhantes. Por exemplo,
as duas são curvas assintóticas que apresentam os chamados “fator de momento” e
“fator de contenção”. O primeiro deles faz com que elas cresçam com taxas
crescentes no início do processo; o segundo determina que, a partir de um ponto,
chamado de “ponto de inflexão”, tal taxa de crescimento passe a cair continuamente,
tendendo a zero (com isso, as curvas vão tornando-se assintóticas à reta y = a,
paralela ao eixo das abscissas). Outra característica comum é que ambas descrevem
séries de dados cujo logaritmo decresce a taxas constantes.
Figura 11. Curva logística.
Projeto PAE – Bolsista: Michelle S. Reboita
12
6.2
Variações Sazonais: As variações sazonais são aquelas que ocorrem
regularmente no período de um ano. Há duas finalidades para o fato de isolarmos a
componente sazonal de uma série temporal. Uma é remover aquele padrão (após já ter
removido a tendência) a fim de estudar as variações cíclicas e irregulares. A outra é
identificar os fatores sazonais de forma que eles possam ser levados em conta na
tomada de decisões. Por exemplo, se um fabricante constata variações sazonais na
demanda de certo produto, ele poderá querer ajustar seu orçamento, seu esquema de
produção e de mão-de-obra levando em conta este fato. Nas séries meteorológicas de
temperatura do ar normalmente a temperatura é maior no verão e menor no inverno o
que mostra claramente uma variação de período anual. Nos estudos climatológicos é
interessante remover a componente sazonal das séries temporais, pois ela é muito
intensa, principalmente nas regiões extratropicais, o que acaba mascarando as outras
componentes das séries.
Existem diferentes métodos para descontar a componente sazonal. Entre eles
temos: (a) o método trigonométrico de três termos (Reboita et al., 2002) que consiste
em ajustar uma função de co-senos a série centrada na média (a série centrada na
média é aquele em que a média da série é descontada dos dados); (b) o método da
subtração das normais climatológicas (Reboita et al, 2002) que consiste apenas em
subtrair dos valores da série a respectiva normal climatológica, ou seja, dos valores
correspondentes ao mês de janeiro subtrai-se a normal climatológica de janeiro, dos
de fevereiro a normal climatológica de fevereiro e, assim, sucessivamente; no caso de
séries que não possuam tamanho suficiente para o cálculo das normais climatológicas o
ciclo anual pode ser removido apenas pela subtração dos valores médios encontrados
para cada mês do ano; (c) o método da média móvel centrada de 12 meses (Góis, 1980;
Reboita et al, 2002) e (d) através das funções harmônicas (Wilks, 1995). Além destes,
podem existir outros em bibliografias que tratam do assunto.
Aqui serão apresentados apenas dois métodos para remoção da sazonalidade: o
primeiro é aquele que subtraímos a média determinada para cada mês do ano, dos
dados da série. No caso de dados diários poderíamos ter uma média anual diária que
compreende-se todo os N anos em análise e, assim, subtraíamos esta média dos
valores da série original. O segundo diz respeito à média móvel centrada de 12 meses.
No material que corresponde a Parte IV serão apresentadas as funções harmônicas e,
assim, será mostrado como a sazonalidade pode ser removida através deste método.
Método da Subtração de Médias
No exemplo a seguir, estamos utilizando uma série de médias mensais, mas na
prática, muitas vezes, nos deparamos com dados horários ou dados diários. Portanto,
nestes casos, o procedimento é o mesmo, só que ao invés de obtermos uma média
mensal para todos os N anos em estudo, obteremos médias horárias ou diárias. O
processo de remoção da sazonalidade através da subtração de médias está explicado
abaixo.
Projeto PAE – Bolsista: Michelle S. Reboita
13
De posse dos dados (tabela 4), devemos primeiro calcular a média para todo o
período em estudo. Neste caso, determinamos a média mensal do período de quatro
anos. Esta se encontra na última coluna da tabela 4.
Tabela 4. Médias mensais da temperatura do ar em Rio Grande, RS, no período de
1991 a 1994.
1991
Média
1992
Média
1993
Média
1994
Média
Média dos 4
Anos
Jan
Fev
Mar
Abr
Mai
Jun
Jul
Ago
Set
Out
Nov
Dez
22.43
22.77
22.89
19.42
18.05
13.22
11.36
14.56
16.26
17.45
19.39
23.30
Jan
Fev
Mar
Abr
Mai
Jun
Jul
Ago
Set
Out
Nov
Dez
23.17
24.59
23.29
19.91
15.33
14.62
10.44
12.46
15.26
17.44
18.52
21.35
Jan
Fev
Mar
Abr
Mai
Jun
Jul
Ago
Set
Out
Nov
Dez
23.93
23.47
22.59
20.85
15.80
12.69
10.93
12.65
13.96
17.83
20.09
21.43
Jan
Fev
Mar
Abr
Mai
Jun
Jul
Ago
Set
Out
Nov
Dez
21.85
22.03
21.53
18.47
18.07
13.37
12.23
13.08
15.92
17.66
19.67
23.63
22.84
23.21
22.57
19.66
16.81
13.47
11.24
13.19
15.35
17.59
19.42
22.43
Ao elaborarmos o gráfico da série temporal do período de 1991 a 1994 (figura
12) podemos notar uma forte variação sazonal, com máximos no verão e mínimos no
inverno. Observe:
Figura 12. Médias mensais da temperatura do ar em Rio Grande, RS, no período de
1991 a 1994.
Na tabela 4 (última coluna) foi calculada uma média mensal incluindo os quatro
anos de dados. Então, o procedimento indicado para remover a sazonalidade é subtrair
Projeto PAE – Bolsista: Michelle S. Reboita
14
as médias obtidas do período de quatro anos das médias mensais de cada ano. Observe
o exemplo:
Tabela 5. Média mensal calculada para o período de 1991 a 1994 subtraída do ano de
1991.
1991
Média
Média dos 4 Anos
Média – Média dos 4 Anos
Jan
Fev
Mar
Abr
Mai
Jun
Jul
Ago
Set
Out
Nov
Dez
22.43
22.77
22.89
19.42
18.05
13.22
11.36
14.56
16.26
17.45
19.39
23.30
22.84
23.21
22.57
19.66
16.81
13.47
11.24
13.19
15.35
17.59
19.42
22.43
-0.41
-0.44
0.32
-0.24
1.24
-0.25
0.12
1.37
0.91
-0.14
-0.03
0.87
A quarta coluna da tabela acima indica que os dados do ano de 1991 estão livres
da sazonalidade. Agora vamos observar os resultados graficamente.
a)
b)
Figura 13. a) Série da temperatura do ar média mensal do período de 1991 a 1994
(linha cheia), juntamente com a média mensal calculada para o período de quatro anos
(linha pontilhada) e b) série da temperatura do ar mensal do período de 1991 a 1994
dessazonalizada.
Na figura 13 a foi plotada a série da temperatura do ar média mensal do
período de 1991 a 1994, juntamente com a série da média mensal calculada para os
quatro anos. Porém, surge uma dúvida: como obtemos para a série das médias
Projeto PAE – Bolsista: Michelle S. Reboita
15
calculadas tamanho igual ao da série de dados originais? Simples, basta montar um
vetor com a série das médias calculadas para os quatro anos, repetindo-as tantas
vezes fizerem-se necessárias, ou seja, conforme o número de anos em estudo. Já a
figura 13 b expressa o resultado da subtração da média calculada para os quatro anos
pela série de dados originais. Como resultado temos uma série dessazonalizada.
Em resumo, ao descontarmos a variação sazonal, de uma série de dados
originais, obtemos uma nova série que é denominada de dessazonalizada.
Ressalta-se, novamente, que para eliminar a variação sazonal não é necessário
ter exclusivamente dados mensais. Neste tópico, trabalhou-se com uma série temporal
mensal para diminuir o volume de dados nas explicações.
Para uma série temporal de dados diários, representada por Xt,y, onde t=1,365
dias e y=1,total, onde total é o número de anos da série, por exemplo 20 anos, devemos
calcular a média para cada um dos 365 dias do total de anos em análise e, após,
subtraí-la da série original. Quando consideramos o ano com t=1,365 dias estamos
fazendo uma aproximação que em anos bissextos o valor da variável no dia 28 de
fevereiro é uma média entre 28 e 29 de fevereiro.
Em geral, quando o número de anos para o cálculo das médias não for muito
grande, a série temporal média apresentará pequenas oscilações que são o resultado
de variabilidades interanuais. Então, Hartmann e Michelsen (1989) recomendam que a
série das médias deve ser alisada usando um filtro com pesos do tipo 1-2-1, o qual
deve ser passado 300 vezes na série. Mas o número correto de vezes que se deve
passar o filtro é decidido investigando-se o comportamento da série alisada.
O filtro 1-2-1 converte uma série temporal Xt em outra Yt através de uma
operação linear. Matematicamente é representado como:
Yt =
+s
∑a x
r= −q
r t +r
(4)
onde ar é o conjunto de pesos. Para alisar flutuações locais e estimar a média local,
devemos escolher pesos tais que ∑ ar = 1 . Essa operação é normalmente chamada de
média móvel (Moving Average). As médias móveis são freqüentemente simétricas com
1
s=q e aj = a-j. O exemplo mais simples de um filtro simétrico é do tipo: ar =
para
2q + 1
r=-q, ..., +q. O valor alisado de Xt é dado por:
Sm (xt ) =
+q
1
∑ xt +r
2q + 1 r = − q
(5)
Note, que nesse caso, o peso em cada elemento é igual a 1. O filtro conhecido
como 1-2-1 considera uma média móvel de três elementos, porém com pesos ar na
equação 4 iguais a 0,25; 0,5 e 0,25. Em ambas as bordas, devemos calcular a média
entre t0 e t0+1 (borda inferior) e entre tf e tf-1 (borda superior), pois no cálculo das
Projeto PAE – Bolsista: Michelle S. Reboita
16
médias móveis sempre perdemos informação e com o procedimento descrito não
haverá este problema.
Para um melhor entendimento do cálculo das médias diárias vamos analisar duas
séries temporais de radiação de onda longa emergente (ROL) do período de 1º de
janeiro de 1979 a 31 de dezembro de 2000. A primeira série corresponde a latitude
de 32,5ºS e a segunda a latitude de 5ºS e ambas têm longitude de 50ºW. Na variável
ROL valores baixos indicam que há presença de nuvens, pois a radiação não consegue
escapar da atmosfera terrestre, já valores elevados indicam a supressão de
convecção. Calculou-se a média diária de ROL para as duas latitudes citadas a fim de
observar o comportamento do ciclo anual (variação sazonal), para tanto as mesmas
foram plotadas e podem ser observadas na figura 14. Verificou-se nas duas séries uma
característica sazonal bem definida. Na latitude de 32ºS os maiores valores de ROL
ocorrem nos meses de verão e os menores nos meses de inverno. Entretanto, nos
dados da latitude de 5ºS nota-se uma inversão na ocorrência dos valores máximos e
mínimos, onde os maiores valores de ROL aparecem no inverno e os menores no verão.
Uma possível explicação para a ocorrência de valores mínimos de ROL no inverno na
latitude de 32,5º pode ser a sua localização geográfica, que é na região subtropical e,
portanto, recebe menos energia solar do que as latitudes situadas em zonas tropicais.
Além disso, no inverno a latitude de 32,5º é muito influenciada por nebulosidade
associada a massas de ar frio e frentes que podem bloquear a passagem de ROL para
fora da atmosfera. Já na latitude de 5ºS a menor ocorrência de ROL nos meses de
verão pode estar relacionada à Zona de Convergência Intertropical.
Figura 14. Média diária da radiação de onda longa emergente medida em 32,5ºS e
50ºW (linha contínua) e em 5ºS e 50ºW (linha pontilhada) no período de 1979 a 2000.
Projeto PAE – Bolsista: Michelle S. Reboita
17
O passo seguinte seria criar um vetor com 22 vezes a série da média diária para
cada latitude em análise. Caso o vetor das médias seja muito ruídoso deve-se aplicar o
filtro 1-2-1 tantas vezes quanto necessário, até eliminar os ruídos. Após basta
subtrair este vetor dos dados originais e, assim, obtemos uma série livre das
variações sazonais.
Média Móvel Centrada de 12 Meses
A expressão para cálculo da média móvel centrada de 12 meses é:
yt=
1
[xt-6+2(xt-5+xt-4+... +xt+ xt+1+ ...+xt+5)+ xt+6]
24
(6)
onde x são as observações.
Neste cálculo pegamos os 13 primeiros valores da série e calculamos a média
conforme expressão acima. O valor encontrado é colocado na sétima posição. Após
pegamos os valores que correspondem ao intervalo do segundo dado da série até o
décimo quarto e aplicamos novamente a fórmula, o resultado será colocado na oitava
posição e, assim sucessivamente. É válido ressaltar que haverá perda de seis
informações no início da série e de seis no final da mesma porque estamos trabalhando
com uma média centrada de 12 meses.
Observe a baixo o gráfico da série de temperatura máxima de Rio grande, RS,
no período de 1991 a 2000, juntamente com a média móvel centrada de 12 meses.
Figura 15. Série temporal das médias mensais da temperatura máxima em Rio
Grande, RS, no período de 1991 a 2000, juntamente com a média móvel centrada de 12
meses.
Projeto PAE – Bolsista: Michelle S. Reboita
18
É evidente na figura 15 que a média móvel subtraiu a variação sazonal.
Para entendermos melhor a metodologia da média móvel vamos calculá-la apenas
para a série das médias mensais de temperatura máxima de 36 meses
correspondentes aos anos de 1991 a 1993.
Tabela 6. Cálculo da média móvel.
Data
t
Dados
(xt)
Média
Móvel
Jan/91
Fev/91
Mar/91
Abr/91
Mai/91
Jun/91
Jul/91
Ago/91
Set/91
Out/91
Nov/91
Dez/91
Jan/92
Fev/92
Mar/92
Abr/92
Mai/92
Jun/92
Jul/92
Ago/92
Set/92
Out/92
Nov/92
Dez/92
Jan/93
Fev/93
Mar/93
Abr/93
Mai/93
Jun/93
Jul/93
Ago/93
Set/93
Out/93
Nov/93
Dez/93
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
26.5
28.05
27.52
23.54
23.48
17.77
15.8
18.31
20.52
21.41
22.97
27.17
27.33
28.8
27.37
23.47
19.37
18.34
14.26
17.06
19.01
22.28
23.21
25.77
28.69
28.28
27.71
26.24
20.32
16.99
15.4
18.3
17.71
21.9
24.55
25.59
22.78
22.85
22.87
22.86
22.69
22.54
22.5
22.39
22.28
22.25
22.3
22.25
22.25
22.28
22.27
22.4
22.56
22.54
22.53
22.63
22.63
22.6
22.6
22.65
-
Exemplo do cálculo:
1
[xt-6+2(xt-5+xt-4+... +xt+ xt+1+ ...+xt+5)+ xt+6]
24
1
yt=
[26,5 + 2(28,05 + 27,52 + 23,54 + 23,48 + 17,77 +
24
yt=
15,8 + 18,31 + 20,52 + 21,41 + 22,97+ 27,17)+27,33]
yt= 22,78
Figura 16. Série temporal das médias
mensais da temperatura máxima em Rio
Grande, RS, no período de 1991 a 1993,
juntamente com a média móvel centrada de
12 meses.
Projeto PAE – Bolsista: Michelle S. Reboita
19
Observação: A média móvel centrada de 12 meses permite eliminar todas os fatores
que influenciam a série com período inferior a 12 meses. Com isso, a média móvel
centrada de 12 meses pode retirar, além das influências sazonais, as irregularidades e
alguns ciclos. De acordo com o exposto, se a finalidade é só extrair a variação sazonal
(ciclo anual), a média móvel não é a metodologia mais indicada.
6.3
Variações Cíclicas: As variações cíclicas são aquelas que apresentam
períodos diferentes de um ano.
As séries temporais também podem ser representadas em termos de
contribuições feitas por fenômenos em diferentes escalas de tempo (variações com
períodos diferentes). Por exemplo, uma série temporal de dados de temperatura do ar
horária de uma região situada nas latitudes médias irá, em geral, exibir fortes
variações tanto na escala de tempo diária, quanto na escala anual, bem como variações
menos acentuadas em outras escalas. Portanto, o que se deseja mostrar neste tópico é
que uma série temporal é formada pela soma de várias outras séries que possuem
padrões cíclicos ou não.
A figura abaixo é um exemplo didático para mostrar claramente o que foi
mencionado. A figura 17 a foi elaborada a partir de um seno com período de 10 dias.
Já a figura 17 b corresponde a um seno com período de 20 dias. A soma destas duas
séries (figuras 17 a e 17 b) origina uma nova série temporal (figura 17 c). E, é
realmente isto que ocorre na natureza, vários fenômenos com períodos diferentes
influenciam uma determinada variável atmosférica. Através de observações feitas a
esta variável obtemos uma série temporal e com uma metodologia apropriada podemos
separar os vários fenômenos cíclicos que a influenciam. Para este propósito pode ser
empregada a análise harmônica. Entretanto, esta será abordada no material que
corresponde a parte 4.
a)
b)
c)
Figura 17. a) Série temporal formada através de um seno com período de 10 dias, b)
série formada através de um seno com período de 20 dias e c) série que corresponde
a soma das duas anteriores.
Projeto PAE – Bolsista: Michelle S. Reboita
20
7
Técnicas Exploratórias para Dados Emparelhados
Até o item 6, falou-se sobre as componentes de uma série temporal e os
procedimentos necessários para extraí-las da mesma. Neste item, serão abordadas
algumas técnicas estatísticas de grande importância para a comparação de duas séries
de mesmo comprimento (dados emparelhados).
7.1
Gráficos de Dispersão (Scatterplots)
O formato universal para mostrar graficamente dados emparelhados é o familiar
gráfico de dispersão (scatterplot). Geometricamente, um scatterplot é simplesmente
uma coleção de pontos no plano cujas coordenadas Cartesianas representam os valores
de cada membro dos pares de dados. O scatterplot permite examinar de maneira fácil
se os dados possuem tendência, agrupamento de uma variável ou de ambas, mudança na
dispersão de uma variável como uma função de outra e outliers (pontos aberrantes).
A figura 18 é um scatterplot da temperatura máxima e mínima de Ithaca durante
janeiro de 1987 (exemplo extraído de Wilks (1995), pg 45). É imediatamente aparente
que as temperaturas máximas menos elevadas estão associadas com temperaturas
mínimas mais frias e há uma tendência das temperaturas máximas mais elevadas
estarem associadas com temperaturas mínimas mais quentes.
No scatterplot podem ser usados símbolos diferentes, na figura 18 os círculos
preenchidos representam os dias em que a precipitação excedeu um certo limiar (0,01
polegadas). Nota-se que os dias em que ocorreu precipitação tendem a estarem
associados com temperaturas mínimas mais quentes.
Tabela 7. Precipitação diária (polegadas) e temperatura (ºF) em Ithaca, Nova York,
no período de janeiro de 1987.
Data
Precipitação
Tmáx
Tmín
Data
Precipitação
Tmáx
Tmín
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
0.00
0.07
1.11
0.00
0.00
0.00
0.00
0.04
0.02
0.05
0.34
0.06
0.18
0.02
0.02
33
32
30
29
25
30
37
37
29
30
36
32
33
34
53
19
25
22
-1
4
14
21
22
23
27
29
25
29
15
29
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
0.00
0.00
0.00
0.45
0.00
0.00
0.70
0.00
0.00
0.00
0.00
0.00
0.01
0.03
0.05
25
28
32
27
26
28
24
26
9
22
17
26
27
30
34
0
2
26
17
19
9
20
-6
-13
-13
-11
-4
-4
11
23
16
0.00
45
24
Projeto PAE – Bolsista: Michelle S. Reboita
21
Figura 18. Scatterplot dos dados de temperatura mínima e máxima de Ithaca, Nova
Yorque, em janeiro de 1987. Os círculos preenchidos representam os dias com no
mínimo 0,01 polegadas de precipitação.
7.2
Covariância e Correlação
A covariância indica o grau de relação comum entre duas variáveis x e y. Por
exemplo, x representa a temperatura do ar (T) e y a velocidade vertical do vento (w).
Num dia quente de verão sobre a terra, devemos esperar um aquecimento do ar acima
da média o que induz a um aumento da convecção e, portanto, um aumento de w. Assim
o produto de wT será positivo na média indicando que as duas séries variam juntos. Já
num dia muito frio a temperatura é baixa e os movimentos verticais também são
menos intensos, conseqüentemente w e T estão variando juntos.
Às vezes, podemos estar interessados numa covariância normalizada. Está
recebe a denominação de coeficiente de correlação linear (r) ou de coeficiente de
correlação momento-produto de Pearson, em homenagem a Karl Pearson (1857-1936),
que o estabeleceu.
O coeficiente de correlação linear varia de -1 a +1, por definição. Quando duas
variáveis são perfeitamente relacionadas (que variam juntas) r=1, já quando estão
correlacionadas negativamente (uma cresce e outra decresce) r=-1. As variáveis que
não possuem correlação têm r=0.
A expressão para o cálculo da covariância é (Wilks, 1995):
cov (x, y ) =
1 N
∑ (xi − x ) (yi − y )
N − 1 i =1
onde N corresponde ao comprimento das séries.
Projeto PAE – Bolsista: Michelle S. Reboita
(7)
22
Já a expressão para obtenção do coeficiente de correlação linear é:
cov(x, y )
sx sy
rxy =
(8)
sendo sx e sy o desvio-padrão da série temporal x e da série temporal y,
respectivamente. Também é possível escrever a expressão do coeficiente de
correlação linear como (Chatfield, 1996):
r=
∑ (x − x ) (y − y )
∑ (x − x ) ∑ (y − y )
i
i
2
i
(9)
2
i
Exemplo extraído de Stull (1988), pg 45.
Foram realizadas medições das componentes do vento U e W num determinado
local a cada 6 minutos através de anemômetros, resultando nos seguintes 10 pares de
observações:
U (m/s)
5
6
5
4
7
5
3
5
4
6
W (m/s)
0
-1
1
0
-2
1
2
-1
1
-1
Encontre a média, a variância, o desvio-padrão para cada componente do vento.
Também encontre a covariância e o coeficiente de correlação linear entre U e W.
Como na Parte I foi mostrado detalhadamente o processo para o cálculo da
média, da variância e do desvio-padrão, neste exemplo só iremos demonstrar o cálculo
da covariância e do coeficiente de correlação.
Tabela 8. Procedimentos para determinação da covariância e do coeficiente de
correlação linear.
Índice
U
U' = U − U
W
W' = W − W
U' × W'
1
2
3
4
5
6
7
8
9
10
5
6
5
4
7
5
3
5
4
6
0
1
0
-1
2
0
-2
0
-1
1
0
-1
1
0
-2
1
2
-1
1
-1
0
-1
1
0
-2
1
2
-1
1
-1
0
-1
0
0
-4
0
-4
0
-1
-1
∑
-
-
-
-
-11
Projeto PAE – Bolsista: Michelle S. Reboita
23
Calculado a covariância:
1 N
∑ (xi − x ) (yi − y )
N − 1 i =1
− 11
= −1,22 m2s −2
cov (x, y ) =
9
cov (x, y ) =
e o coeficiente de correlação:
rxy =
rxy =
cov(x, y )
sx sy
− 1,22
= −0,85
1,15 × 1,25
Observação: Calcule o coeficiente de correlação linear através da expressão 9, a fim
de mostrar que o valor obtido é igual ao calculado pela expressão 8.
Tabela 9. Síntese dos resultados.
Estatísticas
Média
Variância
Desvio-Padrão
Covariância
Coeficiente de Correlação Linear
U
W
5 ms-1
0
2 -2
1.33 m s
1.55 m2s-2
-1
1.15 ms
1.25 ms-1
-1,22 m2s-2
-0,85 (sem dimensão)
Interpretação dos Resultados
As variações turbulentas de W são mais intensas do que as de U, mesmo sendo a
média da velocidade do vento para W igual a zero, neste exemplo. Isto é notado
através do valor do desvio-padrão. U e W tendem a variar em direções opostas na
média, como indicado pelo valor negativo na covariância e no coeficiente de correlação.
A magnitude do coeficiente de correlação é alta (próxima a um em módulo),
significando que há poucas observações onde U e W variam na mesma direção, sendo
que na maioria dos casos eles variam opostamente.
7.3
Autocorrelação
Existem duas aproximações fundamentais para a análise de séries temporais: a
análise no domínio do tempo e a análise no domínio de freqüência. Estas duas
aproximações são processadas de forma bem diferente e podem ser vistas como
Projeto PAE – Bolsista: Michelle S. Reboita
24
bastante distintas. Contudo, não são independentes. Ao contrário, são métodos
complementares que são ligados matematicamente.
Os métodos de domínio temporal procuram caracterizar as séries de dados nos
mesmos termos em que são observados e reportados. A ferramenta primária para a
caracterização de relações entre valores de dados na aproximação do domínio
temporal é a função de autocorrelação.
As análises no domínio de freqüência representam as séries de dados em termos
de contribuições ocorrendo em diferentes escalas temporais, ou freqüências
características. Cada escala temporal é representada por um par de funções seno e
co-seno. A série completa é considerada como resultante de efeitos combinados de
uma coleção de ondas senoidais e co-senoidais oscilando em diferentes taxas. A soma
destas ondas reproduz os dados originais, mas comumente é a intensidade relativa das
componentes individuais das ondas que são de interesse primário.
A autocorrelação pode ser definida como o grau de variação comum entre uma
variável (x) medida no tempo t com ela mesma medida num tempo posterior t+L, onde L
é o tempo do intervalo de medição (Stull, 1988). A autocorrelação mede a persistência
de uma onda dentro de uma série temporal. Quando a autocorrelação é próxima de
zero ela nos informa que há um processo randômico (aleatório) ocorrendo sem
nenhuma persistência ou regularidade. Um exemplo é a turbulência.
A autocorrelação é normalmente calculada para um lag (intervalo) de variação e
o resultado é plotado num gráfico que inclui os valores obtidos versus L que são os
intervalos de medição da variável. Para o caso especial do lag zero, que corresponde o
cálculo da autocorrelação do primeiro dado da série com ele mesmo o resultado é 1. A
autocorrelação de um sinal irregular como a turbulência tem resultado próximo a zero.
Nos dois últimos parágrafos foi fornecida uma definição teórica da
autocorrelação. Agora segue uma explanação para mostrar como é calculada a mesma.
Partindo do princípio que o leitor já está familiarizado com o cálculo do
coeficiente de correlação linear:
r=
∑ (x − x ) (y − y )
∑ (x − x ) ∑ (y − y )
i
i
i
2
i
2
(9)
uma idéia similar pode ser aplicada às séries temporais com o objetivo de verificar se
as observações sucessivas são correlacionadas.
Dado N observações x1, ..., xN, de uma série temporal discreta é possível formar
N - 1 pares de observações, denominadas (x1, x2), (x2, x3), ..., (xN-1, xN). Considerando a
primeira observação de cada par como uma variável e a segunda observação como uma
segunda variável, o coeficiente de correlação entre xt e xt+1 é dado por (Chatfield,
1996):
Projeto PAE – Bolsista: Michelle S. Reboita
25
N −1
r1 =
∑ (x
t =1
t
)(
− x(1 ) xt +1 − x(2 )
⎡N − 1
⎢∑ xt − x(1 )
⎣ t =1
(
N −1
) ∑ (x
2
t =1
t +1
)
− x(2 )
)
2
⎤
⎥
⎦
(10)
em analogia com a equação (9), onde:
x(1 ) =
N −1
∑ x /(N − 1)
t =1
t
é a média das primeiras N – 1 observações e
x(2 ) =
N
∑ x /(N − 1)
t =2
t
é a média das últimas N – 1 observações. Como o coeficiente dado na expressão 10
mede a correlação entre observações sucessivas, este é denominado de coeficiente de
autocorrelação ou coeficiente de correlação serial.
A expressão 10 é um tanto complicada e como x(1 ) ≅ x(2 ) , esta pode ser
aproximada por:
N −1
r1 =
onde x =
∑
N
t =1
− x )(xt +1 − x )
∑ (x
t
t =1
N
(N − 1)∑ (xt − x )
2
/N
(11)
xt / N é a média de toda a série. Alguns autores também utilizam o
fator N/(N - 1), que é aproximado para um N grande e o qual fornece uma expressão
mais simples para o coeficiente de autocorrelação:
N −1
r1 =
∑ (x
t =1
t
− x )(xt +1 − x )
N
∑ (x
t =1
t
2
− x)
(12)
Portanto, esta é a expressão aconselhável para o cálculo do coeficiente de
autocorrelação.
Um jeito similar para encontrar a correlação entre observações a uma distância
k é dado por:
Projeto PAE – Bolsista: Michelle S. Reboita
26
N −k
rk =
∑ (x
t =1
t
− x )(xt +k − x )
N
∑ (x
t =1
t
2
− x)
(13)
A expressão (13) é chamada de coeficiente de autocorrelação de lag k.
Na prática o coeficiente de autocorrelação é normalmente calculado quando
determinamos os coeficientes de autocovariância da série {ck}, que pode ser definido
por analogia à fórmula da covariância como:
ck =
1 N −k
∑ (xt − x )(xt +k − x )
N t =1
(14)
A expressão (14) representa o coeficiente de autocovariância com lag k.
Quando calcula-se:
rk =
ck
c0
(15)
obtemos os coeficientes de autocorrelação. Se possuirmos um lag igual a 3, por
exemplo, k vai variar de 0 até 3 (k = 0 : 3). O algarismo 3 pode ser representado pela
letra m, onde m < N. Há freqüentemente poucos pontos no cálculo de rk para valores de
k maiores do que cerca de N/4.
Muitos autores, inclusive Mitchell et al. (1996), recomendam o cálculo do
coeficiente da autocovariância como:
ck =
1 N −k
∑ (xt − x )(xt +k − x )
N − k t =1
(16)
pois não calculamos os coeficientes para N pontos e, sim, para N-K.
O gráfico de rk versus k é conhecido como correlograma. A função de
autocorrelação é útil em algumas situações porque fornece uma visão do jeito como a
dependência da série cai com o “lag” ou separação k entre pontos da série. Entretanto,
a função de autocorrelação é, às vezes, muito difícil de interpretar como veremos na
parte referente à interpretação dos correlogramas.
Observações:
1. Note que existe pouco significado em se calcular rk para valores de k maiores que
N/4;
Projeto PAE – Bolsista: Michelle S. Reboita
27
2. Os valores obtidos para os coeficientes de autocorrelação através das expressões
(13) e (14 e 15) são iguais, entretanto apresentam pequenas diferenças quando
determinados pelas expressões (16 e 15).
3. A WMO (Mitchel et al., 1966) recomenda calcular os coeficientes de
autocovariância através da expressão (16), conseqüentemente é preferível determinar
os coeficientes de autocorrelação através das expressões (16 e 15).
Exemplo da determinação dos coeficientes de autocorrelação:
Sendo o conjunto de dados {3, 4, 5, 6, 3, 2, 5, 4}, utilize a equação 13 para
calcular o coeficiente de autocorrelação com lag igual a 3.
N −k
rk =
∑ (x
t
t =1
− x )(xt +k − x )
∑ (x
t =1
(13)
2
N
t
− x)
1. Primeiro vamos calcular a expressão que está no denominador da equação (13).
Tabela 10. Procedimento para o cálculo do coeficiente de autocorrelação.
t
x' = xt − x
(x')2
1
2
3
4
5
6
7
8
Soma
3-4=-1
4-4=0
5-4=1
6-4=2
3-4=-1
2-4=-2
5-4=1
4-4=0
-
1
0
1
4
1
4
1
0
12
2. Agora vamos calcular a expressão que está no numerador da equação (13). Lembrese que a variação do k, neste exercício, é k=0 até 3.
Projeto PAE – Bolsista: Michelle S. Reboita
28
Para k=0 ⇒
Para k=1 ⇒
N −k
8
t =1
t =1
∑ =∑
N −k
7
t =1
t =1
t=1:8
∑ =∑
t
(xt − x )(xt +k − x )
1
2
3
4
5
6
7
8
Soma
(3-4) (3-4) = 1
(4-4) (4-4) = 0
(5-4) (5-4) = 1
(6-4) (6-4) = 4
(3-4) (3-4) = 1
(2-4) (2-4) = 4
(5-4) (5-4) = 1
(4-4) (4-4) = 0
12
t
(xt − x )(xt +k − x )
1
2
3
4
5
6
7
Soma
(3-4) (4-4) = 0
(4-4) (5-4) = 0
(5-4) (6-4) = 2
(6-4) (3-4) = -2
(3-4) (2-4) = 2
(2-4) (5-4) = -2
(5-4) (4-4) = 10
0
t=1:7
O processo é análogo para k=2 e k=3. O
6
∑ = −7 e
t =1
5
∑ = −2 .
t =1
3. Nesta etapa divide-se os valores obtidos no numerador pelo obtido no numerador:
r0 =
12
=1
12
r1 =
0
=0
12
r2 =
−7
= −0,583
12
r3 =
−2
= −0,166
12
com isso obtivemos os coeficientes de autocorrlação.
Interpretação do Correlograma
De acordo com Chatfield (1996), segue alguns exemplos de correlogramas:
a) Séries aleatórias: Se uma série é completamente aleatória, então para N grande,
rk ≅ 0 para todos os valores diferentes de zero de k. Em outras palavras, a série
aleatória tem pouca memória e, portanto, tem um decaimento rápido no correlograma
e oscila próximo a zero.
Projeto PAE – Bolsista: Michelle S. Reboita
29
b) Correlação de curto-termo. Séries estacionárias freqüentemente exibem
correlação de curto-termo caracterizada por um valor de r1 razoavelmente alto,
seguido por uns poucos coeficientes os quais, embora maiores do que zero, tendem a
ficar sucessivamente menores. Valores de rk para “lags” maiores (intervalos de tempo
maior) tendem a ser aproximadamente iguais a zero. As séries que produzem esse tipo
de correlograma são aquelas que uma observação a cima da média tende a ser seguida
por uma ou mais observações acima da média, e analogamente, para observações
abaixo da média.
a)
b)
Figura 19. Série temporal mostrando a correlação de curto-termo (a) junto com sua
correlação (b).
c) Séries com alternâncias: Se uma série temporal tem tendência a alternar, com
sucessivas observações em diferentes lados da média geral, então o correlograma
também tende a alternar. O valor de r1 será negativo. Contudo, o valor de r2 será
positivo uma vez que as observações no lag 2 tenderão a estar do mesmo lado da
média.
Projeto PAE – Bolsista: Michelle S. Reboita
30
a)
b)
Figura 20. Série temporal com alternância (a) e seu correlograma (b).
d) Séries não-estacionárias: Se a série contém uma tendência, então os valores de rk
não caem para zero exceto para valores de “lag” (intervalo de tempo) muito altos. Isto
ocorre porque uma observação de um lado da média geral tende a ser seguida por um
grande número de observações do mesmo lado da média por causa da tendência. Note
que pouco pode ser inferido por um correlograma desse tipo porque a tendência
domina todas as outras características. Por essa razão, note que a função de
autocorrelação só é útil para séries temporais estacionárias. Por isso as tendências
nas séries temporais devem ser removidas antes de proceder à análise de
autocorrelação.
Projeto PAE – Bolsista: Michelle S. Reboita
31
a)
b)
Figura 21. Série temporal não-estacionária (a) e seu correlograma (b).
e) Flutuações sazonais: Se a série temporal contém uma flutuação sazonal, então o
correlograma também exibirá uma oscilação na mesma freqüência. Por exemplo, com
observações mensais, r6 será grande e negativo enquanto r12 será grande e positivo.
Em particular, se xt segue um padrão senoidal então rk também seguirá o mesmo
padrão. Por exemplo, se:
xt = a cos tω
(17)
onde a é uma constante e a freqüência ω é tal que 0 < ω < p. Pode ser demonstrado
que:
rk ≅ cos kω
para N grande
(18)
Geralmente, um correlograma desse tipo tem pouca utilidade prática. Se a
variação sazonal for removida, então o correlograma pode fornecer alguma informação
útil.
Projeto PAE – Bolsista: Michelle S. Reboita
32
a)
b)
Figura 22. Correlograma das observações mensais de temperatura do ar em Recife:
(a) para os dados brutos; (b) para os dados após a remoção do ciclo anual
(sazonalizadade). As linhas pontilhadas em (b) correspondem a ± 2 /
exteriores a essas linhas são significantemente diferentes de zero.
N . Os valores
f) Pontos Aberrantes (“outliers”): Se a série contém um ou mais pontos aberrantes, o
correlograma pode ser seriamente afetado. Neste caso, é recomendável que os pontos
aberrantes sejam ajustados de alguma forma antes de começar uma análise formal.
Por exemplo, se existe um ponto aberrante na série temporal e este não é ajustado,
então o gráfico de xt contra xt+k conterá dois pontos extremos os quais irão fazer com
que os coeficientes de correlação amostral caiam para zero. Se existirem dois pontos
aberrantes este efeito é ainda mais notável, exceto quando o “lag” iguala-se à
distância entre os pontos aberrantes. Quando isso acontece, para esse lag pode
ocorrer um alto coeficiente de autocorrelação.
Projeto PAE – Bolsista: Michelle S. Reboita
33
8
Referências
CHATFIELD, C., 1996: The Analysis on Time Series – An Introduction. Chapman &
Hall, fifth edition, New York.
GÓIS, L. A. C., 1980: Estatística uma Abordagem Decisória. Ed. Saraiva, São Paulo,
SP.
HARTMANN, D. L. e MICHELSEN, M. L., 1989: Intraseasonal Periodicities in Indian
Rainfall. J. Atmos. Sc., 46 (18), 2838-2862.
MILONE, G. e ANGELINE, F., 1995: Estatística Aplicada. Ed. Atlas S/A, São Paulo,
SP.
MITCHELL ET AL., 1966: Climate Change – Technical Note nº 79, WMO nº 195 TP
100.
REBOITA, M. S., PINTO, S. S. e KRUSCHE, N., 2002: Variação Climatológica NãoSazonal através da Análise de Componentes Principais. In: Congresso Brasileiro de
Meteorologia, 12, 2002, Foz do Iguaçu. Anais...Foz do Iguaçu, PR, 2002.
STEVENSON, W. J., 1981: Estatística Aplicada à Administração. Ed. Harper & Row do
Brasil, São Paulo, SP.
STULL, R. B., 1988: An Introduction to Boundary Layer Meteorology. Kluwer
Academic Publishers.
WILKS, D. S., 1995: Statistical Methods in the Atmospheric Sciences – An
Introduction. Academic Press, New York.
Projeto PAE – Bolsista: Michelle S. Reboita
34
9
Apêndices
Nesta seção estão inclusas duas rotinas desenvolvidas no Matalab. A primeira
denominada de rlinear é para a remoção de tendência linear das séries temporais e a
segunda, chamada filtro, corresponde a uma média móvel cujo nome é filtro 1-2-1.
9.1
Rotina rlinear
Projeto PAE – Bolsista: Michelle S. Reboita
35
function [b,a,Yt,Dif]=rlinear(y)
% Inputs
% y = serie temporal
% Outpus
% a = coeficiente linear da reta
% b = coeficiente angular da reta
% Yt = valor predito da série temporal
% Dif = série temporal – série da reta (y-Yt)
n=length(y);
% t=tempo
t=1:1:n;
t=t';
ty=t.*y;
sty=sum(ty);
t2=t.^2;
st2=sum(t2);
% Calculo de b
b=((n*sty)-(sum(t)*sum(y)))/((n*st2)-((sum(t)).^2));
% Calculo de a
a=(sum(y)-(b.*sum(t)))/n;
% Calculo de Yt que é a reta de regressão
Yt=a+(b.*t);
% Calculo para eliminar a tendência
Dif=y-Yt;
% Plotando os gráficos
plot(y,'LineWidth',2)
hold
plot(Yt,'r-','LineWidth',2)
grid
xlabel('Tempo','FontSize',16)
ylabel('Variável','FontSize',16)
title('Variável','FontSize',16)
legend('Variável','Reta da Tendência')
figure
subplot(2,3,1)
plot(Dif,'LineWidth',2)
xlabel('Tempo','FontSize',14)
ylabel('Variável sem Tendência','FontSize',14)
title('Variável','FontSize',14)
grid
Projeto PAE – Bolsista: Michelle S. Reboita
36
9.2
Rotina filtro
%filtro 1-2-1
function mat=filtro(var)
%Input
%var = serie temporal em estudo
%Output
% mat = série filtrada
n=length(var);
mat(1)=(var(1)+var(2))/2;
mat(n)=(var(n)+var(n-1))/2;
for t=2:length(var)-1
mat(t)=(var(t-1)*.25+ var(t)*.5 +var(t+1)*.25);
end
mat=mat';
Projeto PAE – Bolsista: Michelle S. Reboita
37
10 Exercícios
1. Usando a equação de tendência linear abaixo, prediga o que era esperado para a
variável em estudo no ano de 1980 e 1984. Use 1974 como ano base (t=0).
Y = 0,15 + 0,01 t
onde Y é o valor esperado e t é o ano.
Variável
2. Através do gráfico abaixo, estime os valores de a e b para a equação de tendência
linear. Use 1991 como ano-base (t=1).
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
1991
1992
1993
1994
1995
1996
Anos
1997
1998
1999
2000
3. Calcule as médias móveis de terceira ordem do conjunto de dados abaixo e faça o
gráfico dos dados originais juntamente com o resultado da média móvel:
X = {1, 2, 3, 1, 4, 2, 5, 4, 2, 4, 3, 6, 7, 1, 9}
4. Extraia a tendência do conjunto de dados fornecido no exercício 3. Mostre os
gráficos dos dados originais, da reta de tendência e dos dados sem a presença da
tendência.
5. Utilize a série temporal da tabela 6, que corresponde as temperaturas máximas em
Rio Grande, RS, no período de 1990 a 1993 e utilize o método da subtração da média
(página 12) para eliminar a sazonalidade. Compare os resultados com o da média móvel
centrada de 12 meses que foi mostrada no material.
Projeto PAE – Bolsista: Michelle S. Reboita
38
6. Dado o conjunto de dados abaixo extraia a tendência e a sazonalidade. Para a
sazonalidade use o método da subtração da média e o da média móvel centrada de 12
meses, como explicado neste material.
Período
Observação
Período
Observação
Período
Observação
Jan/71
Fev/71
Mar/71
Abr/71
Mai/71
Jun/71
Jul/71
Ago/71
Set/71
Out/71
Nov/71
Dez/71
2.2
2.5
3.1
3.0
3.0
3.3
4.0
4.0
4.4
4.9
4.0
5.1
Jan/74
Fev/74
Mar/74
Abr/74
Mai/74
Jun/74
Jul/74
Ago/74
Set/74
Out/74
Nov/74
Dez/74
9.8
7.3
8.3
10.9
12.5
5.9
12.1
11.0
10.2
15.3
12.7
12.9
Jan/77
Fev/77
Mar/77
Abr/77
Mai/77
Jun/77
Jul/77
Ago/77
Set/77
Out/77
Nov/77
Dez/77
32.6
25.1
22.6
24.1
42.8
40.0
43.7
62.2
74.0
67.5
88.9
36.4
Jan/72
Fev/72
Mar/72
Abr/72
Mai/72
Jun/72
Jul/72
Ago/72
Set/72
Out/72
Nov/72
Dez/72
4.5
4.5
4.8
3.9
4.9
4.0
4.9
5.4
4.2
5.8
4.2
6.6
Jan/75
Fev/75
Mar/75
Abr/75
Mai/75
Jun/75
Jul/75
Ago/75
Set/75
Out/75
Nov/75
Dez/75
13.1
8.9
10.5
14.6
12.6
9.9
14.3
16.2
14.8
17.1
16.0
15.8
Jan/73
Fev/73
Mar/73
Abr/73
Mai/73
Jun/73
Jul/73
Ago/73
Set/73
Out/73
Nov/73
Dez/73
4.5
5.2
5.2
5.2
5.2
5.3
6.1
8.6
5.3
7.0
8.2
5.8
Jan/76
Fev/76
Mar/76
Abr/76
Mai/76
Jun/76
Jul/76
Ago/76
Set/76
Out/76
Nov/76
Dez/76
14.4
12.9
20.5
26.1
22.2
34.4
34.0
36.0
38.7
33.3
52.4
33.6
7. Dadas as seguintes medidas instantâneas da temperatura potencial (θ) e da
velocidade vertical (w), na tabela abaixo:
a. preencha as colunas em branco (lembresse que: x' = xi − x ),
Projeto PAE – Bolsista: Michelle S. Reboita
39
b. calcule o desvio-padrão para w e θ e encontre o coeficiente de correlação linear
entre as duas variáveis e
c. interprete os resultados.
Índice
Medidas
w
Cálculos
θ
w'
θ’
(w')2
(θ’)2
wθ
w'θ’
1
2
3
4
5
6
7
8
9
10
8. No conjunto de dados: {3, 4, 5, 6, 3, 2, 5, 4}, utilize as expressões (14 e 15) e (16 e
15) para calcular os coeficientes de autocorrelação com lag igual a 3. Após plote o
correlograma para os dados obtidos em ambas expressões. Compare os resultados
deste exercício com o do exemplo mostrado no material.
Projeto PAE – Bolsista: Michelle S. Reboita