UNIVERSIDADE FEDERAL DE RONDÔNIA
CAMPUS DE JI-PARANÁ
DEPARTAMENTO DE MATEMÁTICA E ESTATÍSTICA
ÉRICA VIEIRA NOGUEIRA
AJUSTE DE UM MODELO DE SÉRIES TEMPORAIS UTILIZANDO A
METODOLOGIA DE BOX E JENKINS PARA A TEMPERATURA DO AR
.
JI-PARANÁ
RONDÔNIA – BRASIL
2014
ÉRICA VIEIRA NOGUEIRA
AJUSTE DE UM MODELO DE SÉRIES TEMPORAIS UTILIZANDO A
MEDOTOLOGIA DE BOX E JENKINS PARA A TEMPERATURA DO AR
Trabalho de Conclusão de Curso
apresentado
ao
Departamento
de
Matemática
e
Estatística,
Fundação
Universidade Federal de Rondônia, Campus
de Ji-Paraná, como parte dos requisitos para
obtenção do título de Bacharel em
Estatística.
Orientadora: ROZIANE SOBREIRA DOS SANTOS
JI-PARANÁ
RONDÔNIA – BRASIL
2014
Nogueira, Érica Vieira
N778a
2014
Ajuste de um modelo de séries temporais utilizando a metodologia
de Box e Jenkins para temperatura do ar / Érica Vieira; orientadora,
Roziane Sobreira dos Santos. -- Ji-Paraná, 2014
37 f. : 30cm
Trabalho de conclusão do curso de Bacharelado em Estatística. –
Universidade Federal de Rondônia, 2014
Inclui referências
1. Estatística. 2. Mudanças climáticas. 3 Climatologia. 4. Análise de
séries temporais. I. Santos, Roziane Sobreira dos. II. Universidade
Federal de Rondônia. III. Titulo
CDU 519.246.8
Bibliotecária: Marlene da Silva Modesto Deguchi CRB 11/ 601
ii
A Deus
A minha mãe Marina Nogueira
Ao meu esposo Leilson
DEDICO
ii
AGRADECIMENTOS
A Deus por sempre ter me dado forças nos momentos que para mim
eram impossíveis, mas ele me sustentou e me guiou.
A minha professora orientadora, Roziane Sobreira dos Santos, que
muito me ajudou e incentivou em todas as etapas deste trabalho e por sua
atenção e dedicação.
A minha família, pela confiança, motivação e compreensão.
A minha mãe que sempre me motivou a buscar pelos meus objetivos.
Ao meu esposo que vem me ajudado e me apoiando desde o começo
da faculdade, por ter me compreendido nos momentos de tensão, e por todo
carinho e amor.
A minha irmã Fernanda que sempre acreditou em mim.
A minha tia Marta que sempre vem me motivando até aqui.
Aos amigos, colegas e irmãos da igreja, pela força e pela torcida com
o meu sucesso em relação a esta jornada.
Aos professores e colegas de curso, pois juntos construímos mais
uma etapa de nossas vidas.
Ao professor Dilson por suas aulas sempre bem humoradas e pelo
exelente professor que é.
A professora Cristiane por ser tão gentil e compreensiva e por ter
aceitado fazer parte de minha banca examinadora mesmo estando
estudando fora do Estado.
Ao meu colega de classe Bruno por sempre ter me ajudado sempre
que precisei e por suas valiosas dicas.
Ás minha colegas Dhaianny, Elizangela e Rosana por nossas
conversas e risadas.
Ao INMET por ceder dados para que este trabalho fosse realizado.
A Universidade Federal de Rondônia por ter me proporcionado a
oportunidade de ter um nível superior.
iii
SUMÁRIO
LISTA DE ABREVEATURAS E SÍMBOLOS .................................................. V
LISTA DE FIGURAS ..................................................................................... VI
LISTA DE TABELAS .................................................................................... VII
RESUMO .................................................................................................... VIII
ABSTRACT .................................................................................................. IIX
1. INTRODUÇÃO ......................................................................................... 10
2. OBJETIVOS GERAIS .............................................................................. 12
3. OBJETIVOS ESPECÍFICOS .................................................................... 12
4. MATERIAIS E METODOS ....................................................................... 13
4.1. Séries temporais e a metodologia de Box e Jenkins ............................ 13
4.2. Estatísticas Descritivas ......................................................................... 14
4.3 Identificação e estimação do modelo ..................................................... 15
4.4. Validação e diagnósticos do modelo final ............................................. 17
5. RESULTADOS E DISCUSSÕES ............................................................. 20
6. CONCLUSÕES ........................................................................................ 34
7.REFERÊNCIA BIBLIOGRÁFICA .............................................................. 35
8. APÊNDICE............................................................................................... 37
iv
LISTA DE ABREVEATURAS E SÍMBOLOS
ARFIMA
Autoregressivo Fracionado Integrado Médias Móveis
d
Índice de concordância de Willmott
FAC
Função de autocorrelação
FACP
Função de autocorrelação parcial
INMET
Instituto Nacional de Meteorologia
EAM
Erro absoluto médio
MBE
Viés médio
r2
Coeficiente de determinação
REQM
Raiz do erro quadrático médio
SARIMA
Autorregressivo Integrado Médias Móveis Sazonal
v
LISTA DE FIGURAS
Figura 1 – Organograma dos passos para encontrar uma estrutura dos
modelos de Box e Jenkins. .............................. Erro! Indicador não definido.
Figura 2 – Histogramas de temperaturas mensais, mínima (A) e máxima (B)..
..................................................................................................................... 21
Figura 3 – Série temporal de temperatura máxima num período mensal de
1997 a 2008 na cidade de Rio Branco no ACRE. ........................................ 22
Figura 4 – Série temporal de temperatura mínima cidade de Rio Branco no
ACRE, num período mensal de 1993 à 2008 .............................................. 22
Figura 5 – Série de temperatura mínima decomposta em quatro
componentes: série observada, tendência, sazonalidade e ruído branco. 2w3
Figura 6 – Série de temperatura máxima decomposta em quatro
componentes: série observada, tendência, sazonalidade e ruído branco ... 23
Figura 7 – Boxplot mensal das séries de temperatura mínima (A) e
temperatura máxima (B).. ............................................................................ 24
Figura 8 –. FAC e FACP original e diferenciada de temperatura mínima .... 26
Figura 9 – FAC e FACP original e diferenciada de temperatura máxima. ... 27
Figura 10 –Histograma dos modelos de previsão propostos para a
temperatura mínima ..................................................................................... 30
Figura 11 – Valores preditos de temperatura mínima do ar em negrito e a
linha mais clara são os valores observados ................................................ 32
Figura 12 – Valores preditos de temperatura máxima do ar em negrito e a
linha mais clara são os valores onservados. ............................................... 33
vi
LISTA DE TABELAS
Tabela 1 – Estatísticas descritivas das séries de temperatura mínima e
máxima do ar da cidade de Rio Branco ....................................................... 20
Tabela 2 – Modelos ajustados para temperatura mínima e máxima do ar .. 28
Tabela 3 – Modelos ajustados de temperatura máxima e seus respectivos
valores do teste de Kolmogorov-Smirnov .................................................... 28
Tabela 4 – Medidas de adequabilidade dos modelos propostos ................. 31
vii
RESUMO
NOGUEIRA, Érica Vieira, Discente, Universidade Federal de Rondônia,
Março de 2014. Ajuste de um modelo de séries temporais utilizando a
medologia de Box e Jenkins para a temperatura do ar. Orientador:
Roziane Sobreira dos Santos.
Dados climatológicos são de grande importância para a humanidade
principalmente quando se pode acompanhar suas mudanças. Desta forma
séries temporais de dados históricos podem fornecer informações relevantes
sobre o que pode ocorrer futuramente e avaliar os impactos que podem
causar para o ambiente.
Neste estudo aplicou-se a metodologia Box e Jenkins com o ajuste
SARIMA para as temperaturas mínimas (de 1993 a 2008) e temperatura
máxima do ar (de 1997 a 2008) com períodos mensais. E assim é ajustado
um modelo de previsão para cada uma das variáveis.
O
modelo
para
a
temperatura
mínima
ajustou-se
com
SARIMA(1,0,1)(1,1,0)12, mas este não passou no teste de normalidade dos
resíduos, e este modelo foi criado apenas para se ter uma noção de
comportamento da temperatura. Para o modelo de temperatura máxima foi
ajustado um SARIMA(1,0,0)(0,1,1)12, este passou em todos os requisitos da
metodologia Box e Jenkins. No entanto nenhum dos modelos mostrou-se
com ajustes precisos podendo apenas ser usados como uma ferramenta
auxiliar de informações.
A não adequabilidade da modelagem SARIMA para as temperaturas
máximas e mínimas do ar podem indicar que este tipo de modelo pode não
ser indicado para dados de temperatura usados no presente trabalho.
viii
ABSTRACT
NOGUEIRA, Erica Vieira, Student, Federal University of Rondônia, March
2014. Set a time series model using the Box-Jenkins methodology to the air
temperature. Advisor: Roziane Sobreira dos Santos.
Climatological data are of great importance to mankind especially
when it can track its changes. Thus temporal historical data series can
provide relevant information about what may occur in the future and assess
the impacts that can cause to the environment.
This study applied the Box-Jenkins methodology SARIMA adjustment
for minimum temperatures (1993-2008) and maximum air temperature (19972008) with monthly periods. And so it is set a forecasting model for each
variable.
The model for the minimum temperature set
with SARIMA
(1,0,1)(1,1,0)12, but this did not pass the normality of residuals test, and this
model was made just to get a sense of temperature behavior. To model the
maximum temperature was adjusted one SARIMA (1,0,0)(0,1,1)12 , this
passed all the requirements of Box and Jenkins methodology . However
none of the models showed up with precise adjustments can only be used as
an auxiliary tool information.
The non- suitability of SARIMA modeling for the maximum and
minimum air temperatures may indicate that this type of model may not be
suitable for temperature data used in this study.
ix
1. INTRODUÇÃO
Utilizar dados climáticos históricos como meio de fornecer informações
relevantes para estudos futuros são de grande importância, tendo em vista que
conhecer o ambiente e as mudanças é de grande relevância, principalmente para a
Região Norte que vem se destacando na agricultura e pecuária de acordo com
Valentim e Andrade 2009.
Muitos estudos abordam a temperatura do ar e este trabalho visa contribuir
como impulso para diversos outros estudos sobre o clima utilizando técnicas
estatísticas como uma ferramenta auxiliar.
A análise de séries temporais é uma ferramenta muito útil na tomada de
decisões e uma das técnicas usadas é a metodologia de Box-Jenkins. Para Morettin
e Toloi (2006) os modelos são criados a partir de valores anteriores da série e
partem do princípio que os dados são correlacionados, ou seja, faz o uso da
estrutura de correlação temporal que há entre os valores da série.
Muitos trabalhos de previsão estão sendo realizados em diversas áreas como
forma de ajudar no planejamento de decisões. Silva et. al. (2008), utilizam uma série
de temperatura média mensal da cidade de Uberlândia para identificar e estimar
modelos, para fins de previsão.
Usando o banco de dados dengue de Porto Rico, Schreiber (2001)
desenvolveu um modelo para prever casos de dengue pela metodologia Box e
Jenkins. O modelo ainda faz uma relação quantificada entre casos de dengue e as
temperaturas diárias, precipitação e balanço hídrico para fazer previsões.
Gharbi et. al. (2011), usando análise de séries temporais, fez um modelo de
previsões para casos de dengue como maneira de implementar programas de
prevenção mais adequados. Este estudo demonstrou uma correlação positiva entre
a incidência de dengue e variáveis climáticas, como umidade relativa do ar,
temperatura mínima e temperatura média.
10
Souza et. al. (2009) fez um estudo sobre precipitação e temperatura na
cidade de Santa Maria no Rio Grande do Sul e obtiveram bons resultados nas
previsões usando a metodologia Box e Jenkins com o modelo SARIMA, este foi
capaz de prever valores bem próximos dos reais o que é bastante útil para que se
possa planejar e tomar decisões.
Por meio da metodologia Box e Jenkins um modelo SARIMA será proposto
para prever séries de temperatura máxima e mínima de Rio Branco no estado do
ACRE.
11
2. OBJETIVOS GERAIS
O presente estudo visa propor um método de previsão de séries temporais de
temperatura máxima e mínima do ar, utilizando a metodologia de Box e Jenkins por
meio de um modelo SARIMA.
3. OBJETIVOS ESPECÍFICOS
Avaliar a variação temporal da temperatura de ar, explorar e analisar o
comportamento das séries.
Desenvolver uma rotina com os métodos de séries temporais utilizados no
Software livre R, de uma forma clara e de fácil compreensão para futuras análises.
12
4. MATERIAIS E MÉTODOS
4.1. Séries temporais e a metodologia de Box e Jenkins
Neste estudo foram utilizadas séries mensais de temperatura máxima e
mínima do ar em de uma estação meteorológica convencional, latitude -9.97°,
longitude -67.8° e altitude de 160m entre o período de 1993 a 2010 em Rio Branco
no estado do Acre. Os dados são disponibilizados pelo Instituto Nacional de
Meteorologia (INMET). A estação é composta de vários sensores isolados que
registram continuamente os parâmetros meteorológicos (pressão atmosférica,
temperatura do ar e umidade relativa do ar, precipitação, radiação solar, direção e
velocidade do vento, entre outros).
Para a escolha do modelo de temperatura mínima do ar será utilizado dados
mensais de 1993 a 2008, para a temperatura máxima do ar serão usados dados
mensais compreendidos no período de 1997 a 2008, para a validação dos modelos
serão deixados os dois últimos anos, 2009 e 2010.
A série usada neste estudo não contém falhas, pois um dos pressupostos da
metodologia de Box e Jenkins é que os dados sejam completos.
De acordo com Chatfield (2004) uma série temporal é uma coleção de dados
ordenados sequencialmente no tempo. Para Morettin e Toloi (2006) uma das
características principais de uma série temporal, é a autocorrelação entre as
observações vizinhas e é a partir dessa dependência é que se analisa e modela a
série. Uma análise de séries temporais é um método para tentar entender as
estruturas que geram a série, tais como, ciclos, tendências e sazonalidades.
13
4.2. Estatísticas Descritivas
Inicialmente, as séries de temperatura do ar serão estudadas por meio de
análises estatísticas descritivas como medidas de posição e de dispersão para
detectar variabilidades existentes e, análises gráficas a fim de se conhecer e
compreender o comportamento dos dados.
As técnicas de estatística descritiva permite resumir os dados de forma que
possam ser apresentados em tabelas e gráficos. Elas também possibilitam verificar a
presença de valores atípicos e o grau de dispersão dos dados.
A média aritmética é calculada tendo em vista que todas as observações
tenham o mesmo peso, é uma medida de tendência central que pode orientar ao
direcionamento de ideias. É definida por
̅
∑
(1)
Sendo n número de observações e
o conjunto da amostra.
A mediana é uma medida de tendência central que divide os dados
ordenados em duas partes, 50% abaixo da mediana e 50% acima da mediana, ou
seja, é o valor central numa sequência. Outra medida também é a moda que é o
número de elementos que ocorre com maior frequência.
As medidas de variação e dispersão também serão usadas neste trabalho
como forma de sintetizar as variabilidades da distribuição das séries. A amplitude
total é uma medida mais simples que usa apenas os valores extremos da série:
, ou seja, o extremo superior menos o extremo inferior.
A variância é a média dos quadrados dos desvios em relação à média
aritmética. Coeficientes de variação e desvio padrão são medidas que mostram a
variabilidade das variáveis em relação à média. Chechi e Bayer (2012) utilizam
essas medidas como forma de melhor conhecer as variáveis de temperatura máxima
e mínima do ar na cidade de Erechim, RS, antes de fazer uma análise de séries
temporais.
14
4.3. Identificação e estimação do modelo
Para avaliar o comportamento da temperatura do ar será utilizada a análise
de séries temporais. Através dessa análise podem-se detectar padrões de
tendência, variações sazonais, cíclicas e irregularidades.
O modelo utilizado pelo método Box e Jenkins (Box et. Al. 1976, 1994), será o
Sazonal Autoregressivo Integrado a Médias Móveis (SARIMA). Neste modelo a série
contém uma componente periódica sazonal que se repete a cada s período de
tempo e que cada observação está correlacionada com as anteriores. Em geral
busca-se utilizar um modelo parcimonioso, ou seja, modelar uma estrutura com um
número pequeno de parâmetros.
Analisar visualmente o gráfico da série torna possível identificar tendências e
sazonalidade. Com um modelo de decomposição da série também é possível
descrever esses comportamentos, onde este divide a série em sazonalidade, ruído
branco (erro aleatório) e tendência separadamente. Essa técnica permite melhor
observar o comportamento dos dados.
Para ajustar um modelo SARIMA, não basta apenas um software, requer um
pouco de conhecimento e experiência do pesquisador para a escolha dos
parâmetros. Desta forma Box e Jenkins formularam seus modelos para séries
temporais com componentes sazonais.
O modelo SARIMA é denotado por:
yt 
 q B Q B S  t
 p B  P B S 1  B d 1  B S 
D
(2)
em que, p(BS) é o operador sazonal Auto Regressivo (AR); p(B) é o operador AR
não sazonal; θq(B) o operador média móvel (MA); ϴQ(BS) operador sazonal (MA); (1B)d e (1-B)D os componentes de diferenciação simples e sazonal (que é a
diferenciação na defasagem s), respectivamente; t é o ruído branco e yt é a série
temporal.
15
Este modelo é denominado SARIMA multiplicativo de ordem (p,d,q)×(P,D,Q)s.
Ao ajustar um modelo sazonal aos dados a primeira tarefa é especificar quantidade
de diferenciações d e/ou D necessárias que tornam a série estacionária e remove a
sazonalidade. Para tanto, a partir da serie original toma-se diferenças simples para
remover a tendência e diferenças sazonais para remover a sazonalidade. Os valores
de d e D raramente serão maiores do que 1. Posteriormente os valores de p, P, q e
Q são especificados com base nas funções de autocorrelação, que mede a
correlação entre as observações de uma variável em diferentes defasagens no
tempo e autocorrelação parcial que mede a dependência linear entre Yt e Yt+k, após
remover os efeitos das demais (Morettin e Toloi 2009).
A existência de tendência na série é testada por meio do teste de DickeyFuller (1979), que é um teste de raiz unitária que avalia a estacionariedade em
séries temporais. Para tanto, testa-se a hipótese nula de que a série não é
estacionária, ou seja, possui raiz unitária, contra a alternativa de que a série é
estacionária. O teste foi utilizado antes e depois da diferenciação da série para
assim verificar a condição de estacionariedade.
A Figura 1 apresenta os passos utilizados para encontrar a estrutura da série
pela metodologia de Box e Jenkins.
Dados
Identificação
•Obtenção dos dados;
•plotar a série com os dados originais para ver se existe tendência óbvia, outliers (valor atípico), ciclos e
variações sazonais.
•Caso exista grande variação nos dados é necessário estabilizá-la, utilizando, por exemplo, um logarítmico ou
transformação Box-Cox;
•há a identificação de um modelo, com base na análise gráfica das autocorrelações e autocorrelaçãoes parciais;
•os parâmetros do modelo identificados são estimados;
Estimação
Verificação ou
diagnóstico
•faz-se uma análise dos resíduos e outros critérios de avaliação para saber se este é adequado. Caso o modelo
não seja adequado, volta-se à fase de identificação.
Figura 1 – Organograma dos passos para encontrar uma estrutura dos modelos de
Box e Jenkins.
16
Na fase de identificação é necessário fazer a análise gráfica da função de
Autocorrelação (FAC) e Autocorrelação Parcial (FACP) dos dados para identificar a
ordem dos parâmetros Médias Móveis (MA) e Autoregressivo (AR). Se a série
apresentar tendências e sazonalidades o primeiro passo é diferenciar “d” vezes a
série original para remover tendência e diferenciá-la “d” vezes na defasagem
sazonal para remover sazonalidade. Após esse procedimento é analisado
novamente os correlogramas das FAC e FACP da série diferenciada para indicar a
ordem dos parâmetros. Chechi e Bayer (2012) também usaram esse método para
identificar a ordem em séries de temperatura máxima e mínima do ar. Será
selecionado um modelo baseado no princípio da parcimonia.
4.4. Validação e diagnósticos do modelo final
Para validar o modelo final os resíduos são analisados pelo teste de LjungBox para testar independência dos erros. O teste Kolmogorov-Smirnov usado para
testar a normalidade dos resíduos. Silva et. al. (2008) ajustam seu modelo SARIMA
com base nestes testes.
Os erros tem que ser equivalente a um “ruído branco”, ou seja, eles devem
ser independentes e identicamente distribuidos (iid). Evidência de correlação serial
nos resíduos é uma indicação de que uma ou mais características da série não foi
adequadamente descrita pelo modelo (Souza, 2006). Se o modelo tiver bom ajuste
espera-se que os resíduos tenham média zero com variância aproximadamente
constante.
Após o modelo ter satisfeito a todos os pressupostos ele pode ser usado para
fazer previsões de valores futuros. Mas apenas uma percepção gráfica das
previsões não é o bastante para decisão do modelo mais adequado. Assim previstos
os dados é feita a avaliação do desempenho dos modelos. Desta forma para avaliar
a adequabilidade das previsões serão usados às seguintes medidas estatísticas:
coeficiente de determinação (r²), raiz do erro quadrático médio (REQM), o erro
17
absoluto médio (EAM), viés médio (MBE) e o índice de concordância (d) de Willmott
(1982).
O coeficiente de determinação (r²) também é um indicador da qualidade do
ajuste, seu valor varia de 0 a 1, em que quanto mais próximo de 1 indica que os
valores estimados se aproximam dos valores reais da série.
(
(
√∑
onde
(
(∑
̅ )(
̅) ∑
̅))
(
̅)
)
(3)
são os valores observados,
são os estimados , ̅
e ̅ a média dos
observados e estimados respectivamente.
O erro médio pode ser calculado utilizando o REQM (Raíz do Erro Quadrático
Médio). Esta é uma medida útil para a comparação de modelos, aquele que
apresentar menor valor provavelmente fornecerá melhores previsões.
Para Willmott (1981) somente o índice de correlação (r) ou o coeficiente de
determinação (r²), não são suficientes para a validação de um modelo. O REQM,
expressando a fórmula em palavras é a diferença entre os valores observados e os
estimados, cada diferença ao quadrado, em seguida, divide sobre o número da
amostra. Finalmente, a raiz quadrada é tirada e se divide pelo valor da média
amostral e multiplica-se esse valor por 100. Desta forma o REQM dá um peso
relativamente elevado para grandes erros, assim sendo valores mais baixos de
REQM apresentam melhores resultados. Esse método é muito usado para a
validação dos modelos. O REQM segundo Willmott (1981) tem se mostrado muito
eficiente e de boa significância estatística.
Outras medidas de desempenho usadas são MBE e EAM. Estes representam
os desvios das médias. O MBE tendo um valor negativo significa subestimação e
positivos superestimação dos valores observados. Já o EAM significa o erro máximo.
Os modelos são os seguintes:
( )
(∑
(
) ⁄ )
⁄
(4)
̅
18
(∑
(
) ⁄ )
∑
(
)
∑
|
|
em que
⁄
(5)
(6)
(7)
são os valores estimados e
os observados, n é o numero de
observações e ̅ é a média dos valores observados.
O índice “d” de Willmott também será uma estatística de desempenho usado,
este mostra o grau de proximidade entre os valores preditos ( ) e os observados
( ). Esse índice varia de 0 a 1. Onde 0 indica a não concordância e 1 evidencia
concordância acurada. Sua formula é
∑
∑
(|
(
)
̅| |
(8)
̅ |)
Através dessas medidas de desempenho é que se chega à escolha do melhor
modelo, ou seja, do modelo final.
As análises foram realizadas pelos softwares R (versão R i386 3.0.1
Development Core Team, 2009) e Excel.
19
5. RESULTADOS E DISCUSSÕES
Com o intuito de descrever as séries de uma forma geral, inicialmente será
apresentado as medidas descritivas das duas séries analisadas neste trabalho
(Tabela 1). A temperatura mínina do ar variou entre 16,50°C (Julho de 2005) e 24°C
(Novembro de 2001), a média e a mediana tem valores muito próximos, 21,13°C e
21,90°C. Apresentou desvio padrão e variância amostral relativamente pequenos, o
que pode indicar que os dados tendem a estar próximos da média, com o coeficiente
de variação de 8,56% reforça a ideia de que a série tem pouca variação em relação
à média.
Para a temperatura máxima do ar foi registrado a menor temperatura em
Junho de 2008 apresentando 27,8°C e máximo de 34,60°C em agosto de 2005, tem
média de 31,50°C e mediana 31,40°C. O desvio padrão (1,33), a variância amostral
(1,77) e o coeficiente de variação (6,29%), apresentaram valores pequenos e indica
pouca dispersão em relação à média.
Tabela 1. Estatísticas descritivas das séries de temperatura mínima e máxima do ar
da cidade de Rio Branco
Medidas
Temperatura Temperatura
Mínima
Máxima
Mínimo
16,50
27,80
Máximo
24,00
34,60
Média
21,13
31,50
Moda
22,3
30,50
Mediana
21,90
31,40
Desvio Padrão Amostral
1,81
1,33
Variancia Amostral
3,27
1,77
Coeficiente de Variação %
8,56%
6,29%
20
A Figura 2 apresenta o histograma para as duas séries de temperatura. A
temperatura mínima do ar tem clara assimetria negativa com valor de -0,64 com
curtose de -0,40 e, a temperatura máxima tem distribuição assimétrica positiva
assumindo valor de 0,75 com curtose de -0,42. A medida de curtose com valor
negativo aponta um pico mais suave, um corpo mais grosso e uma cauda mais fina.
B
A
Figura 2. Histogramas de temperaturas mensais, mínima (A) e máxima (B).
A distribuição temporal da temperatura máxima e mínima do ar são
apresentadas nas Figuras 3 e 4, respectivamente. Na análise visual é possível inferir
que ao longo do tempo as variáveis não apresentaram tendência, com o teste de
Dickey-Fuller (p-valor<0,01) a hipótese nula de raiz unitária (ou seja, série não
estacionária) foi rejeitada, isto é, para um nível de significância de 1% as séries são
estacionárias. Entretanto a sazonalidade ou a periodicidade estão presentes em
ambas.
21
Figura 3. Série temporal de temperatura máxima num período mensal de 1997 a
2008 na cidade de Rio Branco no ACRE.
Figura 4. Série temporal de temperatura mínima cidade de Rio Branco no ACRE,
num período mensal de 1993 a 2008.
Cowpertwait e Metcalfe (2009) apresentam uma função em que decompõe a
série original mostrando suas propriedades, que são a sazonalidade, tendência e o
erro aleatório. As Figuras 5 e 6 apresentam a decomposição das séries de
temperatura mínima e máxima do ar, pode-se notar com mais clareza que as duas
séries não tem tendência ao longo do tempo, mas há efeitos de variações sazonais
bem definidos em ambas.
22
Figura 5. Série de temperatura mínima decomposta em quatro componentes: série
observada, tendência, sazonalidade e ruído branco.
Figura 6. Série de temperatura máxima decomposta em quatro componentes: série
observada, tendência, sazonalidade e ruído branco.
Como há mudanças sazonais, estas séries são denominadas modelos
sazonais autorregressivo integrado média móvel (SARIMA), assim para as duas
séries foi realizada uma diferenciação na defasagem sazonal nas observações
originais a fim de retirar a sazonalidade pelo fato de as funções de autocorrelação só
ter significado conciso para séries estacionárias e sem componente sazonal, assim
qualquer dessas influencias devem ser removidas antes do cálculo das
autocorrelações.
23
Um resumo dos valores para cada mês do ano pode ser visto quando se
analisa as características das temperaturas mínima e máxima do ar usando um
boxplot. Na Figura 7 pode-se ver que as temperaturas mais baixas são registradas
no mês de Julho, onde ocorre a friagem que são variações esporádicas, podendo
ocorrer anualmente, de maio a julho, resultando numa queda de temperatura esse
fenômeno não dura mais que duas semanas na região estudada (Moura 2002).
Nesses meses ocorre uma maior variabilidade nos dados, ou seja, a amplitude de
temperatura nesses são maiores. Já as temperaturas máximas atingem maior valor
em Agosto e Setembro. Uma maior variação é encontrada de Junho a Setembro.
Essas mesmas análises foram observadas do trabalho de Duarte (2006) onde ele
observou os aspectos climatológicos do Acre num período de 1971-2000.
Figura 7. Boxplot mensal das séries de temperatura mínima (A) e temperatura
máxima (B).
24
Apenas uma diferenciação sazonal nas séries originais foi o bastante para
que se removessem os efeitos de sazonalidade, desta forma analisando os gráficos
da FAC e da FACP podemos ver a necessidade de uma diferença na defasagem 12,
já que este se apresenta bastante significativo para as duas séries. Logo o modelo
SARIMA(p,0,q)x(P,1,Q)12 pode ser ajustado.
Os correlogramas das séries de temperatura mínima e máxima são
apresentados nas Figuras 8 e 9.
25
Figura 8. FAC e FACP original e diferenciada de temperatura mínima.
26
Figura 9. FAC e FACP original e diferenciada de temperatura máxima.
27
Na tabela 2 são apresentados os modelos propostos para as séries
de temperatura estão com 95% de confiança e, nas estatísticas de LjungBox os resíduos se mostraram i.i.d, ou seja, são independentes e
identicamentes distribuídos.
Tabela 2. Modelos ajustados para temperatura mínima e máxima do ar.
Temperatura Mínima
Temperatura Máxima
MOD.1 SARIMA(1,0,1)(1,1,1)12
MOD.7 SARIMA(1,0,1)(0,1,1)12
MOD.2 SARIMA(1,0,1)(0,1,1)12
MOD.8 SARIMA(1,0,1)(1,1,0)12
MOD.3 SARIMA(1,0,1)(1,1,0)12
MOD.9 SARIMA(0,0,1)(1,1,0)12
MOD.4 SARIMA(0,0,1)(0,1,1)12
MOD.10 SARIMA(1,0,0)(0,1,1)12
MOD.5 SARIMA(0,0,1)(0,1,0)12
MOD.11 SARIMA(1,0,0)(0,1,0)12
MOD.6 SARIMA(1,0,0)(0,1,1)12
MOD.12 SARIMA(1,0,0)(1,1,0)12
Os modelos de previsão propostos só podem ser usados se os
resíduos dos modelos ajustados forem normalmente distribuídos. Para isso o
teste de Kolmogorov-Smirnov foi usado. Ao nível de 5% significância estes
testes foram aplicados. Para a temperatura mínima do ar nenhum dos
modelos se mostrou normalmente distribuídos. Para temperatura máxima do
ar todos os resíduos dos modelos apresentaram distribuição normal. Segue
na Tabela 3 os p-valores do teste para a temperatura máxima:
28
Tabela 3. Modelos ajustados de temperatura máxima e seus respectivos
valores do teste de Kolmogorov-Smirnov.
Modelos
P-valor para
KolmogorovSmirnov
0,69
MOD.7 SARIMA(1,0,1)(0,1,1)12
0,16
MOD.8 SARIMA(1,0,1)(1,1,0)12
0,15
MOD.9 SARIMA(0,0,1)(1,1,0)12
0,42
MOD.10 SARIMA(1,0,0)(0,1,1)12
0,17
MOD.11 SARIMA(1,0,0)(0,1,0)12
0,15
MOD.12 SARIMA(1,0,0)(1,1,0)12
Deste modo os modelos SARIMA de temperatura mínima propostos
neste trabalho não podem ser usados para fazer previsões precisas e nem
para a tomada de decisões, uma vez que os resíduos não se mostraram
normalmente distribuídos de acordo com o teste proposto. No entanto estes
modelos podem servir como base e se ter uma noção de previsão.
O
histograma dos resíduos mostram sua dispersão e distribuição, desta forma
estes gráficos para os modelos de temperatura mínima é observado na
Figura 10 e, pela análise visual os resíduos parecem estar bem próximos de
uma distribuição normal, pois as frequências dos resíduos estão seguindo a
curva
de
normalidade.
29
Figura 10. Histograma dos modelos de previsão propostos para a
temperatura mínima.
30
Os modelos propostos para temperatura máxima do ar podem
assumir previsões mais precisas e confiáveis uma vez que para esta variável
todos os pressupostos para a previsão da metodologia de Box-Jenkins foram
seguidos. Desta forma foram feitas previsões para todos os modelos de
temperatura mínima e temperatura máxima.
Na Tabela 4 podemos ver as estatísticas de desempenho dos
modelos. Foi usado o REQM, onde esse fornece um valor sobre a dispersão
dos dados em relação aos valores estimados. O MBE é o viés médio e
mostra o quanto os valores preditos subestimam ou superestimam os
valores observados.
O erro médio absoluto (EAM) é uma medida que
representa o erro máximo entre os valores preditos e os observados. Além
do coeficiente de determinação r2 e o índice d de Wilmott.
Tabela 4. Medidas de adequabilidade dos modelos propostos.
Modelos
Temperatura Mínima
Propostos r2
REQM(%)
REQM
EAM
MBE
d
MOD.1
0,59
5,75
1,22
0,97
-0,14*
0,87
MOD.2
0,59
5,72
1,21
0,95
-0,17
0,87
MOD.3
0,72*
4,77*
1,01*
0,79*
-0,20
0,92*
MOD.4
0,60
5,68
1,20
0,93
-0,19
0,87
MOD.5
0,71
4,96
1,05
0,79*
-0,35
0,91
MOD.6
0,60
5,71
1,21
0,93
-0,20
0,87
Modelos
Temperatura Máxima
Propostos r2
REQM(%)
REQM
EAM
MBE
d
MOD.7
0,51
3,31
1,04
1,80
-0,09
0,75
MOD.8
0,54
3,69
1,16
1,79
-0,36
0,77
MOD.9
0,53
3,63
1,14
1,83
-0,28
0,77
MOD.10
0,50
2,02*
0,63*
1,81
-0,05*
0,83
MOD.11
0,57*
4,43
1,39
1,80
-0,68
0,84
MOD.12
0,54
3,60
1,13
1,78*
-0,28
0,86*
31
Desta forma, para a temperatura mínima foi escolhido o modelo 3,
SARIMA(1,0,1)(1,1,0)12, onde das seis medidas de desempenho propostas
esta apresentou o melhor ajuste. Seu coeficiente de determinação r 2 foi de
0,72. Em relação à dispersão entre os dados observados e os preditos o
REQM foi de 4,77% de espalhamento. O erro máximo EAM foi de 0,79, já o
índice de concordância d foi de 0,92.
Para
a
temperatura
máxima
foi
escolhido
o
modelo10
SARIMA(1,0,0)(0,1,1)12 com menor REQM de 2,02 e apresentou uma menor
subestimação dos valores preditos como também um erro máximo menor
(MBE de -0,05), além do índice de Wilmott ser bom com valor de 0,83 já que
este dá a estatística quanto à proximidade entre os observados e os
preditos. Porém os modelo 11 apresentou melhor r² (0,57), e o modelo 12
teve menor viés médio (EAM de 1,78) e maior índice de concordância d com
0,86. O que não impede de também poder usá-los para previsão, porém
neste trabalho fica escolhido apenas o modelo 10.
A figura 11 mostra o gráfico dos valores preditos e os obsevados num
período de Janeiro de 2009 à Setembro de 2010 para a temperatura míníma
para SARIMA(1,0,1)(1,1,0)12. Lembrando que este modelo não passou no
teste de normalidade dos resíduos, porém sua utilização pode ser usada
para uma percepção de temperaturas futuras e um prévio conhecimento de
como a temperatura poderá se comportar meses a frente.
Figura 11. Valores preditos de temperatura mínima do ar em negrito e a linha
mais clara são os valores observados.
32
A figura 12 mostra o grafico da previsão com o modelo
SARIMA(1,0,0)(0,1,1)12 para temperatura máxima também num período de
Janeiro de 2009 à Setembro de 2010, num total de 21 passos a frente. A
Linha em negrito mostra as estimativas, dá para se perceber que o modelo
não foi tão preciso diante dos obsverdos, pois as previsões se mostraram
bastantes suavizadas. Mas para pode ser um modelo útil para observar o
comportamento de temperaturas meses a frente pois as previsões mesmo
que não muito precisas estão seguindo os valores observados.
Figura 12. Valores preditos de temperatura máxima do ar em negrito e a
linha mais clara são os valores observados.
A não adequacidade dos modelos SARIMA são encontrados em
outros trabalhos como em Leite 2011, que indica a utilização dos modelos
ARFIMA para a análise de estudos climáticos.
33
6. CONCLUSÕES
Para fins de previsão na tomada de decisões os modelos de Box &
Jenkins propostos neste trabalho tem que ser melhorados. A modelagem de
temperatura
mínima SARIMA(1,0,1)(1,1,0)12 não passou no teste de
normalidade Kolmogorov-Smirnov para os resíduos dos modelos, o que a
impede de ser uma previsão segura e precisa, porém sua predição pode ser
usada para servir como base de informações futuras.
O modelo de temperatura máxima SARIMA(1,0,0)(0,1,1)12 passou em
todos os requisitos da metodologia Box & Jenkins, todavia o modelo não
apresentou uma previsão precisa, isto indica que este tipo de modelagem
pode não ser indicada para dados de temperatura.
Desta forma fica indicação para futuros trabalhos uma transformação
Box-Cox às observações que é usada quando a distribuição normal não se
adequa aos dados, isto posto este artificio muitas vezes traz a normalidade.
Outra dica é utilizar o modelo ARFIMA (ou ARIMA fracionário) onde o
parâmetro da diferença assume valores fracionários.
34
7. REFERÊNCIA BIBLIOGRÁFICA
BOX, G. E. P.; JENKINS, G. M.; REINSEL, G. C. Time Series Analysis:
Forecasting and Control. 4th ed. Hoboken, N.J.: John Wiley & Sons, 2008.
BOX, G. E. P.; JENKINS, G. M.; REINSEL, G. Time Series Analysis:
Forecasting and Control. Third Edition. Englewood: Prentice Hall, 1994.
BOX, G. E. P. AND G. M. JENKINS. Time Series Analysis: Forecasting
and Control. Holden Day. San Francisco. 576 pp. 1976.
CHATFIELD, Chris. The analysis of time series: an introduction. CRC
press, 2003.
CHECHI, Leonardo; BAYER, Fábio M. Modelos univariados de séries
temporais para previsão das temperaturas médias mensais de Erechim,
RS.R. Bras. Eng. Agríc. Ambiental, v. 16, n. 12, p. 1321-1329, 2012.
COWPERTWAIT, P. S.P.; METCALFE, A. V. Introductory Time Series with
R. Springer Dordrecht Heidelberg London New York. . DOI 10.1007/978-0387-88698-5. 2009.
DE MOURA PINHEIRO, Francisco. Impactos de veículos de Comunicação
de Massa numa Reserva Extrativista no Estado do Acre
DICKEY, David A.; FULLER, Wayne A. Distribution of the estimators for
autoregressive time series with a unit root. Journal of the American
statistical association, v. 74, n. 366a, p. 427-431, 1979.
FONSECA DUARTE, AlejAndRo. Aspectos da climatologia do Acre, Brasil,
com base no intervalo 1971-2000. Revista Brasileira de Meteorologia, v.
21, n. 3b, p. 308-317, 2006.
GHARBI, Myriam et al. Time series analysis of dengue incidence in
Guadeloupe, French West Indies: Forecasting models using climate
variables as predictors. BMC infectious diseases, v. 11, n. 1, p. 166, 2011.
LEITE, Gustavo Correa. Estimação em modelos de volatilidade estocástica
com memória longa. 2011..
MORETTIN, Pedro A.; TOLOI, Clélia. Análise de séries temporais; Time
series analysis. Blucher, 2006.
35
SCHREIBER, Kathleen V. An investigation of relationships between climate
and dengue using a water budgeting technique. International Journal of
Biometeorology, v. 45, n. 2, p. 81-89, 2001.
SILVA, M. I. S.; GUIMARÃES, E. C.; TAVARES, M. Previsão da temperatura
média mensal de Uberlândia, MG, com modelos de séries temporais.
Revista Brasileira de Engenharia Agrícola e Ambiental. v. 12, n. 5,
p.480–485. 2008..
SOUZA, A. M; GEORGEN, R.; FERRAZ, S. E. T. Previsão de precipitação e
temperatura em Santa Maria por meio de um modelo estatístico. Ciência e
Natura. v. 31 (1), p. 49 - 64, 2009.
SOUZA, F. M. Modelos Box e Jenkins Aplicados a Demanda de Leitos
Hospitalares Monografia (Especialização em Estatística e Modelagem
Quantitativa) – Departamento de Estatística. Santa Maria: Universidade
Federal de Santa Maria, 2006.
TEAM, RDevelopment Core et al. R: A language and environment for
statistical computing. 2005.
VALENTIM,
Judson
Ferreira;
ANDRADE,
CMS
de.
Tendências
e
perspectivas da pecuária bovina na Amazônia brasileira. Amazônia: Ciência
& Desenvolvimento, Belém, v. 4, n. 8, p. 9-32, 2009.
WILLMOTT, Cort J. On the validation of models. Physical geography, v. 2,
n. 2, p. 184-194, 1981..
WILLMOTT, C. J. Some comments on the evaluation of model performance.
Bulletin of the American Meteorological Society, Lancaster, v.63, n.11, p.
1309–1313. 1982.
36
8.APÊNDICE
tmin <- read.table("tmin.txt") #entrando com os dados
class(tmin)#classificar os dados
tmin.ts<-ts(tmin, start = c(1993, 1),end=c(2008,12), freq = 12)#classificar a
sequencia da série
hist(tmin.ts,xlab="Temperatura
")#histograma da série
Mínina",
ylab="Frequência",main="
plot(tmin.ts,xlab="Ano",ylab="Temperatura Mínima",main="Série Temporal
de Temperatura Mínima",type="o",sub="Rio Branco/Acre (série mensal de
1993 a 2008)",lwd=3)#plota a série
adf.test(tmin.ts)# teste de Dickey–Fuller, raíz unitária
mean(tmin.ts)# média da série
median(tmin.ts)# mediana da série, não precisa ordená-la.
var(tmin.ts)#obtendo o variancia amostral
sd(tmin.ts)#obtendo o desvio padrão amostral
max(tmin.ts)-min(tmin.ts)#obtendo amplitude total
range(tmin.ts)# obtendo o minino e o máximo da série
sd(tmin.ts)/sqrt(length(tmin.ts))# erro padrão da média
sd(tmin.ts)/mean(tmin.ts)*100# coeficiente de variação em %
basicStats(tmin.ts, ci = 0.95)# calcula estatisticas descritivas
histPlot(as.timeSeries(tmin.ts))# histograma com assimetria e curtose
plot(aggregate(tmin.ts))# mostrar graficamente a tendência
plot(tmin.ts); abline(reg=lm(tmin.ts ~ tmin.ts))# coloca uma linha de
regressão no gráfico que ajuda ver tendencia
37
boxplot(tmin.ts ~ cycle(tmin.ts))# colocar box plot de todos os meses em um
único gráfico
plot(decompose(tmin.ts))# decomposição estimas as tendecias e efeitos
sazonais
#Decomposição da série
tmin.decom <- decompose(tmin.ts, type = "mult")
plot(tmin.decom)
Trend <- tmax.decom$trend #tendência
Seasonal <- tmax.decom$seasonal #sazonalidaded
ts.plot(cbind(Trend, Trend * Seasonal), lty = 1:2)
s
=
acf(tmin.ts,
plot=F);
s$lag
=
s$lag*12;
xlab='Defasagem',ylab='ACF', main='')# FAC de temperatura mínima
plot(s,
s1
=
pacf(tmin.ts,
plot=F);
s1$lag
=
s1$lag*12;
plot(s1,
xlab='Defasagem',ylab='PACF', main='')FACP de temeperatura mínima
# como verificado a série não tem tendencia não é preciso diferenciar, mas
como tem sazonalidade é preciso diferença sazonal
tmin.diffs = diff(tmin.ts,lag = 12)#diferença sazonal na defasagem 12
#Modelo proposto
prev1 = arima(tmin.ts, order = c(1, 0, 1), seasonal = list(order =
c(1,1,1)))#escolha dos parâmetros
t( confint(prev1) )# intevalos de confiança para os parâmetros
names(prev1)#mostra o que tem no modelo, exemplo, prev1$residuals vê os
residuos
tsdiag(prev1)#Análise dos Resíduos dos modelos propostos teste de ljungbox
AIC(prevx7)#critério de akaike
#teste de normalidade para os resíduos kolmogorov-smirnov
p1=prev1$residuals
ks.test(p1,"pnorm",mean(p1),sd(p1))
#verificar graficamente os resíduos
z=prev1$residuals
qqnorm(z)# se os residuos são Normais
qqline(z)# linha de normalidade
#Previsão
38
pacc<- predict(prev1, n.ahead =21)# prevê 21 meses a frente
#Graficos da previsão com os valores observados
#temperatura mínina
previstos=c(23.01,22.62,22.7,22.06,19.65,18.33,18.54,18.84,20.66,22.45,22.
6,22.81,22.7,22.49,22.46,21.96,19.62,17.78,18.75,19.82,20.39)
observados=c(22.70,22.38,22.1,21.90,19.12,18.89,19.69,21.07,22.30,22.91,
22.87,22.76,22.97,23.30,22.20,20.09,19.56,17.02,17.41,21.21,21.94)
observados<-ts(ob, start = c(2009, 1),end=c(2010,9), freq = 12)
previstos<-ts(pr, start = c(2009, 1),end=c(2010,9), freq = 12)
par(cex=1.5)
ts.plot(observados, previstos, lwd = c(1,3),xlab="Janeiro de 2009 a Setembro
de 2010",ylab="Temperatura Mínima")
39
Download

Érica Vieira Nogueira - Departamento de Matemática e Estatística