UNIVERSIDADE FEDERAL DE RONDÔNIA CAMPUS DE JI-PARANÁ DEPARTAMENTO DE MATEMÁTICA E ESTATÍSTICA ÉRICA VIEIRA NOGUEIRA AJUSTE DE UM MODELO DE SÉRIES TEMPORAIS UTILIZANDO A METODOLOGIA DE BOX E JENKINS PARA A TEMPERATURA DO AR . JI-PARANÁ RONDÔNIA – BRASIL 2014 ÉRICA VIEIRA NOGUEIRA AJUSTE DE UM MODELO DE SÉRIES TEMPORAIS UTILIZANDO A MEDOTOLOGIA DE BOX E JENKINS PARA A TEMPERATURA DO AR Trabalho de Conclusão de Curso apresentado ao Departamento de Matemática e Estatística, Fundação Universidade Federal de Rondônia, Campus de Ji-Paraná, como parte dos requisitos para obtenção do título de Bacharel em Estatística. Orientadora: ROZIANE SOBREIRA DOS SANTOS JI-PARANÁ RONDÔNIA – BRASIL 2014 Nogueira, Érica Vieira N778a 2014 Ajuste de um modelo de séries temporais utilizando a metodologia de Box e Jenkins para temperatura do ar / Érica Vieira; orientadora, Roziane Sobreira dos Santos. -- Ji-Paraná, 2014 37 f. : 30cm Trabalho de conclusão do curso de Bacharelado em Estatística. – Universidade Federal de Rondônia, 2014 Inclui referências 1. Estatística. 2. Mudanças climáticas. 3 Climatologia. 4. Análise de séries temporais. I. Santos, Roziane Sobreira dos. II. Universidade Federal de Rondônia. III. Titulo CDU 519.246.8 Bibliotecária: Marlene da Silva Modesto Deguchi CRB 11/ 601 ii A Deus A minha mãe Marina Nogueira Ao meu esposo Leilson DEDICO ii AGRADECIMENTOS A Deus por sempre ter me dado forças nos momentos que para mim eram impossíveis, mas ele me sustentou e me guiou. A minha professora orientadora, Roziane Sobreira dos Santos, que muito me ajudou e incentivou em todas as etapas deste trabalho e por sua atenção e dedicação. A minha família, pela confiança, motivação e compreensão. A minha mãe que sempre me motivou a buscar pelos meus objetivos. Ao meu esposo que vem me ajudado e me apoiando desde o começo da faculdade, por ter me compreendido nos momentos de tensão, e por todo carinho e amor. A minha irmã Fernanda que sempre acreditou em mim. A minha tia Marta que sempre vem me motivando até aqui. Aos amigos, colegas e irmãos da igreja, pela força e pela torcida com o meu sucesso em relação a esta jornada. Aos professores e colegas de curso, pois juntos construímos mais uma etapa de nossas vidas. Ao professor Dilson por suas aulas sempre bem humoradas e pelo exelente professor que é. A professora Cristiane por ser tão gentil e compreensiva e por ter aceitado fazer parte de minha banca examinadora mesmo estando estudando fora do Estado. Ao meu colega de classe Bruno por sempre ter me ajudado sempre que precisei e por suas valiosas dicas. Ás minha colegas Dhaianny, Elizangela e Rosana por nossas conversas e risadas. Ao INMET por ceder dados para que este trabalho fosse realizado. A Universidade Federal de Rondônia por ter me proporcionado a oportunidade de ter um nível superior. iii SUMÁRIO LISTA DE ABREVEATURAS E SÍMBOLOS .................................................. V LISTA DE FIGURAS ..................................................................................... VI LISTA DE TABELAS .................................................................................... VII RESUMO .................................................................................................... VIII ABSTRACT .................................................................................................. IIX 1. INTRODUÇÃO ......................................................................................... 10 2. OBJETIVOS GERAIS .............................................................................. 12 3. OBJETIVOS ESPECÍFICOS .................................................................... 12 4. MATERIAIS E METODOS ....................................................................... 13 4.1. Séries temporais e a metodologia de Box e Jenkins ............................ 13 4.2. Estatísticas Descritivas ......................................................................... 14 4.3 Identificação e estimação do modelo ..................................................... 15 4.4. Validação e diagnósticos do modelo final ............................................. 17 5. RESULTADOS E DISCUSSÕES ............................................................. 20 6. CONCLUSÕES ........................................................................................ 34 7.REFERÊNCIA BIBLIOGRÁFICA .............................................................. 35 8. APÊNDICE............................................................................................... 37 iv LISTA DE ABREVEATURAS E SÍMBOLOS ARFIMA Autoregressivo Fracionado Integrado Médias Móveis d Índice de concordância de Willmott FAC Função de autocorrelação FACP Função de autocorrelação parcial INMET Instituto Nacional de Meteorologia EAM Erro absoluto médio MBE Viés médio r2 Coeficiente de determinação REQM Raiz do erro quadrático médio SARIMA Autorregressivo Integrado Médias Móveis Sazonal v LISTA DE FIGURAS Figura 1 – Organograma dos passos para encontrar uma estrutura dos modelos de Box e Jenkins. .............................. Erro! Indicador não definido. Figura 2 – Histogramas de temperaturas mensais, mínima (A) e máxima (B).. ..................................................................................................................... 21 Figura 3 – Série temporal de temperatura máxima num período mensal de 1997 a 2008 na cidade de Rio Branco no ACRE. ........................................ 22 Figura 4 – Série temporal de temperatura mínima cidade de Rio Branco no ACRE, num período mensal de 1993 à 2008 .............................................. 22 Figura 5 – Série de temperatura mínima decomposta em quatro componentes: série observada, tendência, sazonalidade e ruído branco. 2w3 Figura 6 – Série de temperatura máxima decomposta em quatro componentes: série observada, tendência, sazonalidade e ruído branco ... 23 Figura 7 – Boxplot mensal das séries de temperatura mínima (A) e temperatura máxima (B).. ............................................................................ 24 Figura 8 –. FAC e FACP original e diferenciada de temperatura mínima .... 26 Figura 9 – FAC e FACP original e diferenciada de temperatura máxima. ... 27 Figura 10 –Histograma dos modelos de previsão propostos para a temperatura mínima ..................................................................................... 30 Figura 11 – Valores preditos de temperatura mínima do ar em negrito e a linha mais clara são os valores observados ................................................ 32 Figura 12 – Valores preditos de temperatura máxima do ar em negrito e a linha mais clara são os valores onservados. ............................................... 33 vi LISTA DE TABELAS Tabela 1 – Estatísticas descritivas das séries de temperatura mínima e máxima do ar da cidade de Rio Branco ....................................................... 20 Tabela 2 – Modelos ajustados para temperatura mínima e máxima do ar .. 28 Tabela 3 – Modelos ajustados de temperatura máxima e seus respectivos valores do teste de Kolmogorov-Smirnov .................................................... 28 Tabela 4 – Medidas de adequabilidade dos modelos propostos ................. 31 vii RESUMO NOGUEIRA, Érica Vieira, Discente, Universidade Federal de Rondônia, Março de 2014. Ajuste de um modelo de séries temporais utilizando a medologia de Box e Jenkins para a temperatura do ar. Orientador: Roziane Sobreira dos Santos. Dados climatológicos são de grande importância para a humanidade principalmente quando se pode acompanhar suas mudanças. Desta forma séries temporais de dados históricos podem fornecer informações relevantes sobre o que pode ocorrer futuramente e avaliar os impactos que podem causar para o ambiente. Neste estudo aplicou-se a metodologia Box e Jenkins com o ajuste SARIMA para as temperaturas mínimas (de 1993 a 2008) e temperatura máxima do ar (de 1997 a 2008) com períodos mensais. E assim é ajustado um modelo de previsão para cada uma das variáveis. O modelo para a temperatura mínima ajustou-se com SARIMA(1,0,1)(1,1,0)12, mas este não passou no teste de normalidade dos resíduos, e este modelo foi criado apenas para se ter uma noção de comportamento da temperatura. Para o modelo de temperatura máxima foi ajustado um SARIMA(1,0,0)(0,1,1)12, este passou em todos os requisitos da metodologia Box e Jenkins. No entanto nenhum dos modelos mostrou-se com ajustes precisos podendo apenas ser usados como uma ferramenta auxiliar de informações. A não adequabilidade da modelagem SARIMA para as temperaturas máximas e mínimas do ar podem indicar que este tipo de modelo pode não ser indicado para dados de temperatura usados no presente trabalho. viii ABSTRACT NOGUEIRA, Erica Vieira, Student, Federal University of Rondônia, March 2014. Set a time series model using the Box-Jenkins methodology to the air temperature. Advisor: Roziane Sobreira dos Santos. Climatological data are of great importance to mankind especially when it can track its changes. Thus temporal historical data series can provide relevant information about what may occur in the future and assess the impacts that can cause to the environment. This study applied the Box-Jenkins methodology SARIMA adjustment for minimum temperatures (1993-2008) and maximum air temperature (19972008) with monthly periods. And so it is set a forecasting model for each variable. The model for the minimum temperature set with SARIMA (1,0,1)(1,1,0)12, but this did not pass the normality of residuals test, and this model was made just to get a sense of temperature behavior. To model the maximum temperature was adjusted one SARIMA (1,0,0)(0,1,1)12 , this passed all the requirements of Box and Jenkins methodology . However none of the models showed up with precise adjustments can only be used as an auxiliary tool information. The non- suitability of SARIMA modeling for the maximum and minimum air temperatures may indicate that this type of model may not be suitable for temperature data used in this study. ix 1. INTRODUÇÃO Utilizar dados climáticos históricos como meio de fornecer informações relevantes para estudos futuros são de grande importância, tendo em vista que conhecer o ambiente e as mudanças é de grande relevância, principalmente para a Região Norte que vem se destacando na agricultura e pecuária de acordo com Valentim e Andrade 2009. Muitos estudos abordam a temperatura do ar e este trabalho visa contribuir como impulso para diversos outros estudos sobre o clima utilizando técnicas estatísticas como uma ferramenta auxiliar. A análise de séries temporais é uma ferramenta muito útil na tomada de decisões e uma das técnicas usadas é a metodologia de Box-Jenkins. Para Morettin e Toloi (2006) os modelos são criados a partir de valores anteriores da série e partem do princípio que os dados são correlacionados, ou seja, faz o uso da estrutura de correlação temporal que há entre os valores da série. Muitos trabalhos de previsão estão sendo realizados em diversas áreas como forma de ajudar no planejamento de decisões. Silva et. al. (2008), utilizam uma série de temperatura média mensal da cidade de Uberlândia para identificar e estimar modelos, para fins de previsão. Usando o banco de dados dengue de Porto Rico, Schreiber (2001) desenvolveu um modelo para prever casos de dengue pela metodologia Box e Jenkins. O modelo ainda faz uma relação quantificada entre casos de dengue e as temperaturas diárias, precipitação e balanço hídrico para fazer previsões. Gharbi et. al. (2011), usando análise de séries temporais, fez um modelo de previsões para casos de dengue como maneira de implementar programas de prevenção mais adequados. Este estudo demonstrou uma correlação positiva entre a incidência de dengue e variáveis climáticas, como umidade relativa do ar, temperatura mínima e temperatura média. 10 Souza et. al. (2009) fez um estudo sobre precipitação e temperatura na cidade de Santa Maria no Rio Grande do Sul e obtiveram bons resultados nas previsões usando a metodologia Box e Jenkins com o modelo SARIMA, este foi capaz de prever valores bem próximos dos reais o que é bastante útil para que se possa planejar e tomar decisões. Por meio da metodologia Box e Jenkins um modelo SARIMA será proposto para prever séries de temperatura máxima e mínima de Rio Branco no estado do ACRE. 11 2. OBJETIVOS GERAIS O presente estudo visa propor um método de previsão de séries temporais de temperatura máxima e mínima do ar, utilizando a metodologia de Box e Jenkins por meio de um modelo SARIMA. 3. OBJETIVOS ESPECÍFICOS Avaliar a variação temporal da temperatura de ar, explorar e analisar o comportamento das séries. Desenvolver uma rotina com os métodos de séries temporais utilizados no Software livre R, de uma forma clara e de fácil compreensão para futuras análises. 12 4. MATERIAIS E MÉTODOS 4.1. Séries temporais e a metodologia de Box e Jenkins Neste estudo foram utilizadas séries mensais de temperatura máxima e mínima do ar em de uma estação meteorológica convencional, latitude -9.97°, longitude -67.8° e altitude de 160m entre o período de 1993 a 2010 em Rio Branco no estado do Acre. Os dados são disponibilizados pelo Instituto Nacional de Meteorologia (INMET). A estação é composta de vários sensores isolados que registram continuamente os parâmetros meteorológicos (pressão atmosférica, temperatura do ar e umidade relativa do ar, precipitação, radiação solar, direção e velocidade do vento, entre outros). Para a escolha do modelo de temperatura mínima do ar será utilizado dados mensais de 1993 a 2008, para a temperatura máxima do ar serão usados dados mensais compreendidos no período de 1997 a 2008, para a validação dos modelos serão deixados os dois últimos anos, 2009 e 2010. A série usada neste estudo não contém falhas, pois um dos pressupostos da metodologia de Box e Jenkins é que os dados sejam completos. De acordo com Chatfield (2004) uma série temporal é uma coleção de dados ordenados sequencialmente no tempo. Para Morettin e Toloi (2006) uma das características principais de uma série temporal, é a autocorrelação entre as observações vizinhas e é a partir dessa dependência é que se analisa e modela a série. Uma análise de séries temporais é um método para tentar entender as estruturas que geram a série, tais como, ciclos, tendências e sazonalidades. 13 4.2. Estatísticas Descritivas Inicialmente, as séries de temperatura do ar serão estudadas por meio de análises estatísticas descritivas como medidas de posição e de dispersão para detectar variabilidades existentes e, análises gráficas a fim de se conhecer e compreender o comportamento dos dados. As técnicas de estatística descritiva permite resumir os dados de forma que possam ser apresentados em tabelas e gráficos. Elas também possibilitam verificar a presença de valores atípicos e o grau de dispersão dos dados. A média aritmética é calculada tendo em vista que todas as observações tenham o mesmo peso, é uma medida de tendência central que pode orientar ao direcionamento de ideias. É definida por ̅ ∑ (1) Sendo n número de observações e o conjunto da amostra. A mediana é uma medida de tendência central que divide os dados ordenados em duas partes, 50% abaixo da mediana e 50% acima da mediana, ou seja, é o valor central numa sequência. Outra medida também é a moda que é o número de elementos que ocorre com maior frequência. As medidas de variação e dispersão também serão usadas neste trabalho como forma de sintetizar as variabilidades da distribuição das séries. A amplitude total é uma medida mais simples que usa apenas os valores extremos da série: , ou seja, o extremo superior menos o extremo inferior. A variância é a média dos quadrados dos desvios em relação à média aritmética. Coeficientes de variação e desvio padrão são medidas que mostram a variabilidade das variáveis em relação à média. Chechi e Bayer (2012) utilizam essas medidas como forma de melhor conhecer as variáveis de temperatura máxima e mínima do ar na cidade de Erechim, RS, antes de fazer uma análise de séries temporais. 14 4.3. Identificação e estimação do modelo Para avaliar o comportamento da temperatura do ar será utilizada a análise de séries temporais. Através dessa análise podem-se detectar padrões de tendência, variações sazonais, cíclicas e irregularidades. O modelo utilizado pelo método Box e Jenkins (Box et. Al. 1976, 1994), será o Sazonal Autoregressivo Integrado a Médias Móveis (SARIMA). Neste modelo a série contém uma componente periódica sazonal que se repete a cada s período de tempo e que cada observação está correlacionada com as anteriores. Em geral busca-se utilizar um modelo parcimonioso, ou seja, modelar uma estrutura com um número pequeno de parâmetros. Analisar visualmente o gráfico da série torna possível identificar tendências e sazonalidade. Com um modelo de decomposição da série também é possível descrever esses comportamentos, onde este divide a série em sazonalidade, ruído branco (erro aleatório) e tendência separadamente. Essa técnica permite melhor observar o comportamento dos dados. Para ajustar um modelo SARIMA, não basta apenas um software, requer um pouco de conhecimento e experiência do pesquisador para a escolha dos parâmetros. Desta forma Box e Jenkins formularam seus modelos para séries temporais com componentes sazonais. O modelo SARIMA é denotado por: yt q B Q B S t p B P B S 1 B d 1 B S D (2) em que, p(BS) é o operador sazonal Auto Regressivo (AR); p(B) é o operador AR não sazonal; θq(B) o operador média móvel (MA); ϴQ(BS) operador sazonal (MA); (1B)d e (1-B)D os componentes de diferenciação simples e sazonal (que é a diferenciação na defasagem s), respectivamente; t é o ruído branco e yt é a série temporal. 15 Este modelo é denominado SARIMA multiplicativo de ordem (p,d,q)×(P,D,Q)s. Ao ajustar um modelo sazonal aos dados a primeira tarefa é especificar quantidade de diferenciações d e/ou D necessárias que tornam a série estacionária e remove a sazonalidade. Para tanto, a partir da serie original toma-se diferenças simples para remover a tendência e diferenças sazonais para remover a sazonalidade. Os valores de d e D raramente serão maiores do que 1. Posteriormente os valores de p, P, q e Q são especificados com base nas funções de autocorrelação, que mede a correlação entre as observações de uma variável em diferentes defasagens no tempo e autocorrelação parcial que mede a dependência linear entre Yt e Yt+k, após remover os efeitos das demais (Morettin e Toloi 2009). A existência de tendência na série é testada por meio do teste de DickeyFuller (1979), que é um teste de raiz unitária que avalia a estacionariedade em séries temporais. Para tanto, testa-se a hipótese nula de que a série não é estacionária, ou seja, possui raiz unitária, contra a alternativa de que a série é estacionária. O teste foi utilizado antes e depois da diferenciação da série para assim verificar a condição de estacionariedade. A Figura 1 apresenta os passos utilizados para encontrar a estrutura da série pela metodologia de Box e Jenkins. Dados Identificação •Obtenção dos dados; •plotar a série com os dados originais para ver se existe tendência óbvia, outliers (valor atípico), ciclos e variações sazonais. •Caso exista grande variação nos dados é necessário estabilizá-la, utilizando, por exemplo, um logarítmico ou transformação Box-Cox; •há a identificação de um modelo, com base na análise gráfica das autocorrelações e autocorrelaçãoes parciais; •os parâmetros do modelo identificados são estimados; Estimação Verificação ou diagnóstico •faz-se uma análise dos resíduos e outros critérios de avaliação para saber se este é adequado. Caso o modelo não seja adequado, volta-se à fase de identificação. Figura 1 – Organograma dos passos para encontrar uma estrutura dos modelos de Box e Jenkins. 16 Na fase de identificação é necessário fazer a análise gráfica da função de Autocorrelação (FAC) e Autocorrelação Parcial (FACP) dos dados para identificar a ordem dos parâmetros Médias Móveis (MA) e Autoregressivo (AR). Se a série apresentar tendências e sazonalidades o primeiro passo é diferenciar “d” vezes a série original para remover tendência e diferenciá-la “d” vezes na defasagem sazonal para remover sazonalidade. Após esse procedimento é analisado novamente os correlogramas das FAC e FACP da série diferenciada para indicar a ordem dos parâmetros. Chechi e Bayer (2012) também usaram esse método para identificar a ordem em séries de temperatura máxima e mínima do ar. Será selecionado um modelo baseado no princípio da parcimonia. 4.4. Validação e diagnósticos do modelo final Para validar o modelo final os resíduos são analisados pelo teste de LjungBox para testar independência dos erros. O teste Kolmogorov-Smirnov usado para testar a normalidade dos resíduos. Silva et. al. (2008) ajustam seu modelo SARIMA com base nestes testes. Os erros tem que ser equivalente a um “ruído branco”, ou seja, eles devem ser independentes e identicamente distribuidos (iid). Evidência de correlação serial nos resíduos é uma indicação de que uma ou mais características da série não foi adequadamente descrita pelo modelo (Souza, 2006). Se o modelo tiver bom ajuste espera-se que os resíduos tenham média zero com variância aproximadamente constante. Após o modelo ter satisfeito a todos os pressupostos ele pode ser usado para fazer previsões de valores futuros. Mas apenas uma percepção gráfica das previsões não é o bastante para decisão do modelo mais adequado. Assim previstos os dados é feita a avaliação do desempenho dos modelos. Desta forma para avaliar a adequabilidade das previsões serão usados às seguintes medidas estatísticas: coeficiente de determinação (r²), raiz do erro quadrático médio (REQM), o erro 17 absoluto médio (EAM), viés médio (MBE) e o índice de concordância (d) de Willmott (1982). O coeficiente de determinação (r²) também é um indicador da qualidade do ajuste, seu valor varia de 0 a 1, em que quanto mais próximo de 1 indica que os valores estimados se aproximam dos valores reais da série. ( ( √∑ onde ( (∑ ̅ )( ̅) ∑ ̅)) ( ̅) ) (3) são os valores observados, são os estimados , ̅ e ̅ a média dos observados e estimados respectivamente. O erro médio pode ser calculado utilizando o REQM (Raíz do Erro Quadrático Médio). Esta é uma medida útil para a comparação de modelos, aquele que apresentar menor valor provavelmente fornecerá melhores previsões. Para Willmott (1981) somente o índice de correlação (r) ou o coeficiente de determinação (r²), não são suficientes para a validação de um modelo. O REQM, expressando a fórmula em palavras é a diferença entre os valores observados e os estimados, cada diferença ao quadrado, em seguida, divide sobre o número da amostra. Finalmente, a raiz quadrada é tirada e se divide pelo valor da média amostral e multiplica-se esse valor por 100. Desta forma o REQM dá um peso relativamente elevado para grandes erros, assim sendo valores mais baixos de REQM apresentam melhores resultados. Esse método é muito usado para a validação dos modelos. O REQM segundo Willmott (1981) tem se mostrado muito eficiente e de boa significância estatística. Outras medidas de desempenho usadas são MBE e EAM. Estes representam os desvios das médias. O MBE tendo um valor negativo significa subestimação e positivos superestimação dos valores observados. Já o EAM significa o erro máximo. Os modelos são os seguintes: ( ) (∑ ( ) ⁄ ) ⁄ (4) ̅ 18 (∑ ( ) ⁄ ) ∑ ( ) ∑ | | em que ⁄ (5) (6) (7) são os valores estimados e os observados, n é o numero de observações e ̅ é a média dos valores observados. O índice “d” de Willmott também será uma estatística de desempenho usado, este mostra o grau de proximidade entre os valores preditos ( ) e os observados ( ). Esse índice varia de 0 a 1. Onde 0 indica a não concordância e 1 evidencia concordância acurada. Sua formula é ∑ ∑ (| ( ) ̅| | (8) ̅ |) Através dessas medidas de desempenho é que se chega à escolha do melhor modelo, ou seja, do modelo final. As análises foram realizadas pelos softwares R (versão R i386 3.0.1 Development Core Team, 2009) e Excel. 19 5. RESULTADOS E DISCUSSÕES Com o intuito de descrever as séries de uma forma geral, inicialmente será apresentado as medidas descritivas das duas séries analisadas neste trabalho (Tabela 1). A temperatura mínina do ar variou entre 16,50°C (Julho de 2005) e 24°C (Novembro de 2001), a média e a mediana tem valores muito próximos, 21,13°C e 21,90°C. Apresentou desvio padrão e variância amostral relativamente pequenos, o que pode indicar que os dados tendem a estar próximos da média, com o coeficiente de variação de 8,56% reforça a ideia de que a série tem pouca variação em relação à média. Para a temperatura máxima do ar foi registrado a menor temperatura em Junho de 2008 apresentando 27,8°C e máximo de 34,60°C em agosto de 2005, tem média de 31,50°C e mediana 31,40°C. O desvio padrão (1,33), a variância amostral (1,77) e o coeficiente de variação (6,29%), apresentaram valores pequenos e indica pouca dispersão em relação à média. Tabela 1. Estatísticas descritivas das séries de temperatura mínima e máxima do ar da cidade de Rio Branco Medidas Temperatura Temperatura Mínima Máxima Mínimo 16,50 27,80 Máximo 24,00 34,60 Média 21,13 31,50 Moda 22,3 30,50 Mediana 21,90 31,40 Desvio Padrão Amostral 1,81 1,33 Variancia Amostral 3,27 1,77 Coeficiente de Variação % 8,56% 6,29% 20 A Figura 2 apresenta o histograma para as duas séries de temperatura. A temperatura mínima do ar tem clara assimetria negativa com valor de -0,64 com curtose de -0,40 e, a temperatura máxima tem distribuição assimétrica positiva assumindo valor de 0,75 com curtose de -0,42. A medida de curtose com valor negativo aponta um pico mais suave, um corpo mais grosso e uma cauda mais fina. B A Figura 2. Histogramas de temperaturas mensais, mínima (A) e máxima (B). A distribuição temporal da temperatura máxima e mínima do ar são apresentadas nas Figuras 3 e 4, respectivamente. Na análise visual é possível inferir que ao longo do tempo as variáveis não apresentaram tendência, com o teste de Dickey-Fuller (p-valor<0,01) a hipótese nula de raiz unitária (ou seja, série não estacionária) foi rejeitada, isto é, para um nível de significância de 1% as séries são estacionárias. Entretanto a sazonalidade ou a periodicidade estão presentes em ambas. 21 Figura 3. Série temporal de temperatura máxima num período mensal de 1997 a 2008 na cidade de Rio Branco no ACRE. Figura 4. Série temporal de temperatura mínima cidade de Rio Branco no ACRE, num período mensal de 1993 a 2008. Cowpertwait e Metcalfe (2009) apresentam uma função em que decompõe a série original mostrando suas propriedades, que são a sazonalidade, tendência e o erro aleatório. As Figuras 5 e 6 apresentam a decomposição das séries de temperatura mínima e máxima do ar, pode-se notar com mais clareza que as duas séries não tem tendência ao longo do tempo, mas há efeitos de variações sazonais bem definidos em ambas. 22 Figura 5. Série de temperatura mínima decomposta em quatro componentes: série observada, tendência, sazonalidade e ruído branco. Figura 6. Série de temperatura máxima decomposta em quatro componentes: série observada, tendência, sazonalidade e ruído branco. Como há mudanças sazonais, estas séries são denominadas modelos sazonais autorregressivo integrado média móvel (SARIMA), assim para as duas séries foi realizada uma diferenciação na defasagem sazonal nas observações originais a fim de retirar a sazonalidade pelo fato de as funções de autocorrelação só ter significado conciso para séries estacionárias e sem componente sazonal, assim qualquer dessas influencias devem ser removidas antes do cálculo das autocorrelações. 23 Um resumo dos valores para cada mês do ano pode ser visto quando se analisa as características das temperaturas mínima e máxima do ar usando um boxplot. Na Figura 7 pode-se ver que as temperaturas mais baixas são registradas no mês de Julho, onde ocorre a friagem que são variações esporádicas, podendo ocorrer anualmente, de maio a julho, resultando numa queda de temperatura esse fenômeno não dura mais que duas semanas na região estudada (Moura 2002). Nesses meses ocorre uma maior variabilidade nos dados, ou seja, a amplitude de temperatura nesses são maiores. Já as temperaturas máximas atingem maior valor em Agosto e Setembro. Uma maior variação é encontrada de Junho a Setembro. Essas mesmas análises foram observadas do trabalho de Duarte (2006) onde ele observou os aspectos climatológicos do Acre num período de 1971-2000. Figura 7. Boxplot mensal das séries de temperatura mínima (A) e temperatura máxima (B). 24 Apenas uma diferenciação sazonal nas séries originais foi o bastante para que se removessem os efeitos de sazonalidade, desta forma analisando os gráficos da FAC e da FACP podemos ver a necessidade de uma diferença na defasagem 12, já que este se apresenta bastante significativo para as duas séries. Logo o modelo SARIMA(p,0,q)x(P,1,Q)12 pode ser ajustado. Os correlogramas das séries de temperatura mínima e máxima são apresentados nas Figuras 8 e 9. 25 Figura 8. FAC e FACP original e diferenciada de temperatura mínima. 26 Figura 9. FAC e FACP original e diferenciada de temperatura máxima. 27 Na tabela 2 são apresentados os modelos propostos para as séries de temperatura estão com 95% de confiança e, nas estatísticas de LjungBox os resíduos se mostraram i.i.d, ou seja, são independentes e identicamentes distribuídos. Tabela 2. Modelos ajustados para temperatura mínima e máxima do ar. Temperatura Mínima Temperatura Máxima MOD.1 SARIMA(1,0,1)(1,1,1)12 MOD.7 SARIMA(1,0,1)(0,1,1)12 MOD.2 SARIMA(1,0,1)(0,1,1)12 MOD.8 SARIMA(1,0,1)(1,1,0)12 MOD.3 SARIMA(1,0,1)(1,1,0)12 MOD.9 SARIMA(0,0,1)(1,1,0)12 MOD.4 SARIMA(0,0,1)(0,1,1)12 MOD.10 SARIMA(1,0,0)(0,1,1)12 MOD.5 SARIMA(0,0,1)(0,1,0)12 MOD.11 SARIMA(1,0,0)(0,1,0)12 MOD.6 SARIMA(1,0,0)(0,1,1)12 MOD.12 SARIMA(1,0,0)(1,1,0)12 Os modelos de previsão propostos só podem ser usados se os resíduos dos modelos ajustados forem normalmente distribuídos. Para isso o teste de Kolmogorov-Smirnov foi usado. Ao nível de 5% significância estes testes foram aplicados. Para a temperatura mínima do ar nenhum dos modelos se mostrou normalmente distribuídos. Para temperatura máxima do ar todos os resíduos dos modelos apresentaram distribuição normal. Segue na Tabela 3 os p-valores do teste para a temperatura máxima: 28 Tabela 3. Modelos ajustados de temperatura máxima e seus respectivos valores do teste de Kolmogorov-Smirnov. Modelos P-valor para KolmogorovSmirnov 0,69 MOD.7 SARIMA(1,0,1)(0,1,1)12 0,16 MOD.8 SARIMA(1,0,1)(1,1,0)12 0,15 MOD.9 SARIMA(0,0,1)(1,1,0)12 0,42 MOD.10 SARIMA(1,0,0)(0,1,1)12 0,17 MOD.11 SARIMA(1,0,0)(0,1,0)12 0,15 MOD.12 SARIMA(1,0,0)(1,1,0)12 Deste modo os modelos SARIMA de temperatura mínima propostos neste trabalho não podem ser usados para fazer previsões precisas e nem para a tomada de decisões, uma vez que os resíduos não se mostraram normalmente distribuídos de acordo com o teste proposto. No entanto estes modelos podem servir como base e se ter uma noção de previsão. O histograma dos resíduos mostram sua dispersão e distribuição, desta forma estes gráficos para os modelos de temperatura mínima é observado na Figura 10 e, pela análise visual os resíduos parecem estar bem próximos de uma distribuição normal, pois as frequências dos resíduos estão seguindo a curva de normalidade. 29 Figura 10. Histograma dos modelos de previsão propostos para a temperatura mínima. 30 Os modelos propostos para temperatura máxima do ar podem assumir previsões mais precisas e confiáveis uma vez que para esta variável todos os pressupostos para a previsão da metodologia de Box-Jenkins foram seguidos. Desta forma foram feitas previsões para todos os modelos de temperatura mínima e temperatura máxima. Na Tabela 4 podemos ver as estatísticas de desempenho dos modelos. Foi usado o REQM, onde esse fornece um valor sobre a dispersão dos dados em relação aos valores estimados. O MBE é o viés médio e mostra o quanto os valores preditos subestimam ou superestimam os valores observados. O erro médio absoluto (EAM) é uma medida que representa o erro máximo entre os valores preditos e os observados. Além do coeficiente de determinação r2 e o índice d de Wilmott. Tabela 4. Medidas de adequabilidade dos modelos propostos. Modelos Temperatura Mínima Propostos r2 REQM(%) REQM EAM MBE d MOD.1 0,59 5,75 1,22 0,97 -0,14* 0,87 MOD.2 0,59 5,72 1,21 0,95 -0,17 0,87 MOD.3 0,72* 4,77* 1,01* 0,79* -0,20 0,92* MOD.4 0,60 5,68 1,20 0,93 -0,19 0,87 MOD.5 0,71 4,96 1,05 0,79* -0,35 0,91 MOD.6 0,60 5,71 1,21 0,93 -0,20 0,87 Modelos Temperatura Máxima Propostos r2 REQM(%) REQM EAM MBE d MOD.7 0,51 3,31 1,04 1,80 -0,09 0,75 MOD.8 0,54 3,69 1,16 1,79 -0,36 0,77 MOD.9 0,53 3,63 1,14 1,83 -0,28 0,77 MOD.10 0,50 2,02* 0,63* 1,81 -0,05* 0,83 MOD.11 0,57* 4,43 1,39 1,80 -0,68 0,84 MOD.12 0,54 3,60 1,13 1,78* -0,28 0,86* 31 Desta forma, para a temperatura mínima foi escolhido o modelo 3, SARIMA(1,0,1)(1,1,0)12, onde das seis medidas de desempenho propostas esta apresentou o melhor ajuste. Seu coeficiente de determinação r 2 foi de 0,72. Em relação à dispersão entre os dados observados e os preditos o REQM foi de 4,77% de espalhamento. O erro máximo EAM foi de 0,79, já o índice de concordância d foi de 0,92. Para a temperatura máxima foi escolhido o modelo10 SARIMA(1,0,0)(0,1,1)12 com menor REQM de 2,02 e apresentou uma menor subestimação dos valores preditos como também um erro máximo menor (MBE de -0,05), além do índice de Wilmott ser bom com valor de 0,83 já que este dá a estatística quanto à proximidade entre os observados e os preditos. Porém os modelo 11 apresentou melhor r² (0,57), e o modelo 12 teve menor viés médio (EAM de 1,78) e maior índice de concordância d com 0,86. O que não impede de também poder usá-los para previsão, porém neste trabalho fica escolhido apenas o modelo 10. A figura 11 mostra o gráfico dos valores preditos e os obsevados num período de Janeiro de 2009 à Setembro de 2010 para a temperatura míníma para SARIMA(1,0,1)(1,1,0)12. Lembrando que este modelo não passou no teste de normalidade dos resíduos, porém sua utilização pode ser usada para uma percepção de temperaturas futuras e um prévio conhecimento de como a temperatura poderá se comportar meses a frente. Figura 11. Valores preditos de temperatura mínima do ar em negrito e a linha mais clara são os valores observados. 32 A figura 12 mostra o grafico da previsão com o modelo SARIMA(1,0,0)(0,1,1)12 para temperatura máxima também num período de Janeiro de 2009 à Setembro de 2010, num total de 21 passos a frente. A Linha em negrito mostra as estimativas, dá para se perceber que o modelo não foi tão preciso diante dos obsverdos, pois as previsões se mostraram bastantes suavizadas. Mas para pode ser um modelo útil para observar o comportamento de temperaturas meses a frente pois as previsões mesmo que não muito precisas estão seguindo os valores observados. Figura 12. Valores preditos de temperatura máxima do ar em negrito e a linha mais clara são os valores observados. A não adequacidade dos modelos SARIMA são encontrados em outros trabalhos como em Leite 2011, que indica a utilização dos modelos ARFIMA para a análise de estudos climáticos. 33 6. CONCLUSÕES Para fins de previsão na tomada de decisões os modelos de Box & Jenkins propostos neste trabalho tem que ser melhorados. A modelagem de temperatura mínima SARIMA(1,0,1)(1,1,0)12 não passou no teste de normalidade Kolmogorov-Smirnov para os resíduos dos modelos, o que a impede de ser uma previsão segura e precisa, porém sua predição pode ser usada para servir como base de informações futuras. O modelo de temperatura máxima SARIMA(1,0,0)(0,1,1)12 passou em todos os requisitos da metodologia Box & Jenkins, todavia o modelo não apresentou uma previsão precisa, isto indica que este tipo de modelagem pode não ser indicada para dados de temperatura. Desta forma fica indicação para futuros trabalhos uma transformação Box-Cox às observações que é usada quando a distribuição normal não se adequa aos dados, isto posto este artificio muitas vezes traz a normalidade. Outra dica é utilizar o modelo ARFIMA (ou ARIMA fracionário) onde o parâmetro da diferença assume valores fracionários. 34 7. REFERÊNCIA BIBLIOGRÁFICA BOX, G. E. P.; JENKINS, G. M.; REINSEL, G. C. Time Series Analysis: Forecasting and Control. 4th ed. Hoboken, N.J.: John Wiley & Sons, 2008. BOX, G. E. P.; JENKINS, G. M.; REINSEL, G. Time Series Analysis: Forecasting and Control. Third Edition. Englewood: Prentice Hall, 1994. BOX, G. E. P. AND G. M. JENKINS. Time Series Analysis: Forecasting and Control. Holden Day. San Francisco. 576 pp. 1976. CHATFIELD, Chris. The analysis of time series: an introduction. CRC press, 2003. CHECHI, Leonardo; BAYER, Fábio M. Modelos univariados de séries temporais para previsão das temperaturas médias mensais de Erechim, RS.R. Bras. Eng. Agríc. Ambiental, v. 16, n. 12, p. 1321-1329, 2012. COWPERTWAIT, P. S.P.; METCALFE, A. V. Introductory Time Series with R. Springer Dordrecht Heidelberg London New York. . DOI 10.1007/978-0387-88698-5. 2009. DE MOURA PINHEIRO, Francisco. Impactos de veículos de Comunicação de Massa numa Reserva Extrativista no Estado do Acre DICKEY, David A.; FULLER, Wayne A. Distribution of the estimators for autoregressive time series with a unit root. Journal of the American statistical association, v. 74, n. 366a, p. 427-431, 1979. FONSECA DUARTE, AlejAndRo. Aspectos da climatologia do Acre, Brasil, com base no intervalo 1971-2000. Revista Brasileira de Meteorologia, v. 21, n. 3b, p. 308-317, 2006. GHARBI, Myriam et al. Time series analysis of dengue incidence in Guadeloupe, French West Indies: Forecasting models using climate variables as predictors. BMC infectious diseases, v. 11, n. 1, p. 166, 2011. LEITE, Gustavo Correa. Estimação em modelos de volatilidade estocástica com memória longa. 2011.. MORETTIN, Pedro A.; TOLOI, Clélia. Análise de séries temporais; Time series analysis. Blucher, 2006. 35 SCHREIBER, Kathleen V. An investigation of relationships between climate and dengue using a water budgeting technique. International Journal of Biometeorology, v. 45, n. 2, p. 81-89, 2001. SILVA, M. I. S.; GUIMARÃES, E. C.; TAVARES, M. Previsão da temperatura média mensal de Uberlândia, MG, com modelos de séries temporais. Revista Brasileira de Engenharia Agrícola e Ambiental. v. 12, n. 5, p.480–485. 2008.. SOUZA, A. M; GEORGEN, R.; FERRAZ, S. E. T. Previsão de precipitação e temperatura em Santa Maria por meio de um modelo estatístico. Ciência e Natura. v. 31 (1), p. 49 - 64, 2009. SOUZA, F. M. Modelos Box e Jenkins Aplicados a Demanda de Leitos Hospitalares Monografia (Especialização em Estatística e Modelagem Quantitativa) – Departamento de Estatística. Santa Maria: Universidade Federal de Santa Maria, 2006. TEAM, RDevelopment Core et al. R: A language and environment for statistical computing. 2005. VALENTIM, Judson Ferreira; ANDRADE, CMS de. Tendências e perspectivas da pecuária bovina na Amazônia brasileira. Amazônia: Ciência & Desenvolvimento, Belém, v. 4, n. 8, p. 9-32, 2009. WILLMOTT, Cort J. On the validation of models. Physical geography, v. 2, n. 2, p. 184-194, 1981.. WILLMOTT, C. J. Some comments on the evaluation of model performance. Bulletin of the American Meteorological Society, Lancaster, v.63, n.11, p. 1309–1313. 1982. 36 8.APÊNDICE tmin <- read.table("tmin.txt") #entrando com os dados class(tmin)#classificar os dados tmin.ts<-ts(tmin, start = c(1993, 1),end=c(2008,12), freq = 12)#classificar a sequencia da série hist(tmin.ts,xlab="Temperatura ")#histograma da série Mínina", ylab="Frequência",main=" plot(tmin.ts,xlab="Ano",ylab="Temperatura Mínima",main="Série Temporal de Temperatura Mínima",type="o",sub="Rio Branco/Acre (série mensal de 1993 a 2008)",lwd=3)#plota a série adf.test(tmin.ts)# teste de Dickey–Fuller, raíz unitária mean(tmin.ts)# média da série median(tmin.ts)# mediana da série, não precisa ordená-la. var(tmin.ts)#obtendo o variancia amostral sd(tmin.ts)#obtendo o desvio padrão amostral max(tmin.ts)-min(tmin.ts)#obtendo amplitude total range(tmin.ts)# obtendo o minino e o máximo da série sd(tmin.ts)/sqrt(length(tmin.ts))# erro padrão da média sd(tmin.ts)/mean(tmin.ts)*100# coeficiente de variação em % basicStats(tmin.ts, ci = 0.95)# calcula estatisticas descritivas histPlot(as.timeSeries(tmin.ts))# histograma com assimetria e curtose plot(aggregate(tmin.ts))# mostrar graficamente a tendência plot(tmin.ts); abline(reg=lm(tmin.ts ~ tmin.ts))# coloca uma linha de regressão no gráfico que ajuda ver tendencia 37 boxplot(tmin.ts ~ cycle(tmin.ts))# colocar box plot de todos os meses em um único gráfico plot(decompose(tmin.ts))# decomposição estimas as tendecias e efeitos sazonais #Decomposição da série tmin.decom <- decompose(tmin.ts, type = "mult") plot(tmin.decom) Trend <- tmax.decom$trend #tendência Seasonal <- tmax.decom$seasonal #sazonalidaded ts.plot(cbind(Trend, Trend * Seasonal), lty = 1:2) s = acf(tmin.ts, plot=F); s$lag = s$lag*12; xlab='Defasagem',ylab='ACF', main='')# FAC de temperatura mínima plot(s, s1 = pacf(tmin.ts, plot=F); s1$lag = s1$lag*12; plot(s1, xlab='Defasagem',ylab='PACF', main='')FACP de temeperatura mínima # como verificado a série não tem tendencia não é preciso diferenciar, mas como tem sazonalidade é preciso diferença sazonal tmin.diffs = diff(tmin.ts,lag = 12)#diferença sazonal na defasagem 12 #Modelo proposto prev1 = arima(tmin.ts, order = c(1, 0, 1), seasonal = list(order = c(1,1,1)))#escolha dos parâmetros t( confint(prev1) )# intevalos de confiança para os parâmetros names(prev1)#mostra o que tem no modelo, exemplo, prev1$residuals vê os residuos tsdiag(prev1)#Análise dos Resíduos dos modelos propostos teste de ljungbox AIC(prevx7)#critério de akaike #teste de normalidade para os resíduos kolmogorov-smirnov p1=prev1$residuals ks.test(p1,"pnorm",mean(p1),sd(p1)) #verificar graficamente os resíduos z=prev1$residuals qqnorm(z)# se os residuos são Normais qqline(z)# linha de normalidade #Previsão 38 pacc<- predict(prev1, n.ahead =21)# prevê 21 meses a frente #Graficos da previsão com os valores observados #temperatura mínina previstos=c(23.01,22.62,22.7,22.06,19.65,18.33,18.54,18.84,20.66,22.45,22. 6,22.81,22.7,22.49,22.46,21.96,19.62,17.78,18.75,19.82,20.39) observados=c(22.70,22.38,22.1,21.90,19.12,18.89,19.69,21.07,22.30,22.91, 22.87,22.76,22.97,23.30,22.20,20.09,19.56,17.02,17.41,21.21,21.94) observados<-ts(ob, start = c(2009, 1),end=c(2010,9), freq = 12) previstos<-ts(pr, start = c(2009, 1),end=c(2010,9), freq = 12) par(cex=1.5) ts.plot(observados, previstos, lwd = c(1,3),xlab="Janeiro de 2009 a Setembro de 2010",ylab="Temperatura Mínima") 39