ANÁLISE DA DISTRIBUIÇÃO TEMPORAL DE DADOS HORÁRIOS DE TEMPERATURA EM CURITIBA Miriam Pittigliani Instituto Tecnológico Simepar Centro Politécnico da UFPR – Cx. Postal 19.100, Curitiba-PR, 81.531-990 e-mail: [email protected] Nelson Luís C. Dias Instituto Tecnológico Simepar Centro Politécnico da UFPR – Cx. Postal 19.100, Curitiba-PR, 81.531-990 e-mail: [email protected] ABSTRACT The objective of this paper is to analyse the temporal disposition of hourly temperature data measured by telemetric stations of Simepar in Curitiba, Parana. Temperature differences between consecutive hourly measurements are an important item in automated data quality control. Because failure to trasmit data may introduce gaps of several hours, it is also important to analyse temperature differences over spans of several hours. A probablity density function was found for temperature differences over several time steps (2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22 hours). A gamma distribution function was found to be flexible enough to describe the data behavior for all intervals studied. Quantiles from the distribution were then used to establish maximum possible temperature differences in data quality control. INTRODUÇÃO Modelos de controle de qualidade de dados meteorológicos muitas vezes requerem o conhecimento da distribuição temporal destes, para que testes temporais possam ser aplicados no estabelecimento de limites climatológicos e na identificação de dados com possível erro. Além disso, o conhecimento da distribuição temporal de dados é também importante para complementar estudos climatológicos. Este trabalho possui como objetivo a análise da disposição temporal de dados horários de temperatura medidos em Curitiba, Paraná, e a definição de uma equação que represente a função densidade de distribuição da série de dados. DADOS UTILIZADOS O estudo foi realizado com uma amostra de dados horários de temperatura provenientes da estação telemétrica de Curitiba, pertencente ao SIMEPAR. Estes dados foram submetidos previamente a um modelo de controle de qualidade, garantindo que não haveria em seu meio dados fora dos limites climatológicos. O valor mínimo admissível para a temperatura é de -14C, e o máximo, 45C. Os dados foram obtidos do período compreendido entre junho de 1997 e maio de 2000, totalizando 24.753 registros horários. Para o cálculo de “steps” de temperatura foram estabelecidos 11 intervalos de tempo, compreendendo 2, 4, 6, 8,10,12,14,16,18, 20 e 22 horas. Para cada um destes intervalos foi realizada uma varredura no banco de dados abrangendo todo o período da amostra, na qual era calculada a diferença entre cada combinação de dois registros separados entre si pelo número de horas definido no intervalo pré-fixado. Assim, se o intervalo estabelecido era igual a 4, fazia-se uma varredura no banco de dados calculando-se a diferença entre cada conjunto de dois dados espaçados entre si de 4 horas. O mesmo processo foi repetido para os demais intervalos. Calculados os valores absolutos das diferenças entre os dados (em graus Celsius) e denominando-se tais diferenças de “steps” de temperatura, calculou-se então a freqüência destes “steps”. Assim, se a diferença entre dois dados era igual a 7,6ºC, somava-se uma ocorrência ao “step” de temperatura compreendido entre 7 e 8 graus daquele intervalo. 1173 METODOLOGIA A partir de uma base de dados composta pelo valor absoluto dos “steps” e pela sua correspondente freqüência, procurou-se encontrar uma equação que representasse a densidade da série. Adotou-se inicialmente a função exponencial, definida por: f ( x) = (1) 1 − xλ e , λ na qual f(x) é a densidade da amostra, λ é o parâmetro da distribuição e x é o valor absoluto do ”step” de temperatura em graus Celsius. A tabela 1 mostra os valores de λ obtidos para cada intervalo horário, após o ajuste da função exponencial à base de dados. Intervalo entre os λ dados (em horas) 02 1.47085 04 2.87560 06 4.19582 08 5.25821 10 5.91283 12 6.03729 14 6.11595 16 5.71692 18 4.93205 20 3.96565 22 2.94811 Tabela 1 – Valores de λ obtidos do ajuste da exponencial No entanto, os resultados provenientes do ajuste da exponencial mostraram que esta não era a equação mais adequada para a representar a densidade dos dados, pois gerava uma grande distorção. Tal distorção pode ser vista claramente no gráfico 1. Ajuste da Exponencial 0.16 Freqüência dos Steps 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 0 5 10 15 Step (diferença entre dois dados) 20 25 Gráfico 1 – Ajuste da exponencial para intervalo igual a 10 horas 1174 Na busca de outra equação que melhor se ajustasse aos dados, adotou-se a seguinte equação probabilística: k −1 (2) −x 1x e λ λ λ f ( x) = Γ (k ) onde (3) Γ(k ) = ∫ ∞ 0 x k −1 − x dx e λ λ λ é a função gama (Abramowitz & Stegun, Handbook of Mathematical Functions). A probabilidade de que um “step” de temperatura exceda um valor u será então fornecida por (4). ∫ ∞ u (4) ε= x k −1 − x dx e λ . λ λ Γ( k ) O denominador de (4) é a função gama incompleta. Note que arbitrando-se valores de ε , (4) pode ser resolvida numericamente para a obtenção dos quantis u correspondentes. RESULTADOS A tabela 2 mostra os valores de k e λ para cada intervalo, obtidos a partir do ajuste da curva f(x) à base de dados. Intervalo entre os k λ dados (em horas) 02 1.42482 1.03821 04 2.77881 1.02892 06 3.55002 1.13363 08 3.90032 1.24179 10 3.99086 1.32594 12 4.17216 1.30306 14 4.04747 1.34413 16 3.88109 1.32048 18 3.39914 1.31055 20 2.74101 1.31715 22 2.06654 1.32267 Tabela 2 – Valores de λ e k obtidos do ajuste da equação f(x) Conhecidos os parâmetros k e λ e resolvendo (4) numericamente para um dado ε , podemos encontrar os quantis ut, os quais multiplicados por λ fornecem os valores de x correspondentes, de acordo com x = u t λ . Ou seja, fixando p = 1/1.000 e o substituindo na equação acima, encontraremos valores de “steps” de temperatura x cuja probabilidade de excedência é de 1/1.000. A tabela 3 mostra os valores absolutos de x obtidos para cada intervalo, para probabilidades de excedência iguais a 1/100, 1/1.000 e 1/10.000. 1175 Intervalos entre os dados (em horas) 02 04 06 08 10 12 14 16 18 20 22 Tabela 3 – Valores de Valores encontrados para os “steps” x em graus Celsius p = 1/100 p = 1/1.000 p = 1/10.000 6.7 10.0 13.3 13.0 19.4 25.8 17.4 25.8 34.0 20.0 29.3 38.5 21.2 30.1 39.4 22.0 32.0 41.9 21.7 31.4 41.1 20.6 29.9 39.2 18 26.1 34.2 14.5 21.1 27.6 11.0 15.9 20.9 λ obtidos do ajuste da exponencial Os gráficos 2, 3, 4 e 5 mostram a curva f(x) ajustada à base de dados para os intervalos iguais a 2, 4, 10 e 20 horas, respectivamente. Ajuste da Função de Densidade Gama 0.5 Freqüência dos Steps 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 0 5 10 15 Step (diferença entre dois dados) 20 25 Gráfico 2 - Ajuste da curva f(x) para intervalo igual a 2 horas Ajuste da Função de Densidade Gama Freqüência dos Steps 0.3 0.25 0.2 0.15 0.1 0.05 0 0 5 10 15 Step (diferença entre dois dados) 20 25 Gráfico 3 - Ajuste da curva f(x) para intervalo igual a 4 horas 1176 Ajuste da Função de Densidade Gama 0.16 Freqüência dos Steps 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 0 5 10 15 Step (diferença entre dois dados) 20 25 Gráfico 4 - Ajuste da curva f(x) para intervalo igual a 10 horas Ajuste da Função de Densidade Gama 0.25 Freqüência dos Steps 0.2 0.15 0.1 0.05 0 0 5 10 15 20 Step (diferença entre dois dados) 25 Gráfico 5 - Ajuste da curva f(x) para intervalo igual a 20 horas CONSIDERAÇÕES Neste estudo, de caráter preliminar, foram utilizados dados de apenas uma estação meteorológica. Posteriormente, o mesmo estudo deverá ser refeito para as demais estações meteorológicas telemétricas do Simepar, possibilitando assim uma melhor caracterização da distribuição temporal de temperaturas no Estado do Paraná. Além disso, o estudo também será expandido para dados de radiação solar, pressão atmosférica e umidade relativa. CONCLUSÃO A função de densidade gama mostrou-se adequada para representar a densidade dos dados horários de temperatura. Através dela foi possível também estimar quantis de temperatura para probabilidades iguais a 1/100, 1/1.000 e 1/10.000. Tais resultados serão importantes para avaliações de séries temporais de dados horários de temperatura e poderão servir como parâmetros para modelos de controle de qualidade de dados. 1177 REFERÊNCIAS BIBLIOGRÁFICAS ABRAMOWITZ, M., STEGUN, I.A. Handbook of Mathematical Functions. Dover Publications, Inc., New York, 1972, p.255-93. BENJAMIN, J.R., CORNELL,C.A. Probability, Statistics and Decision for Civil Engineers. Mc Graw-Hill, 1970, p.242-9. GREENBERG, M.D. Advanced Engineering Mathematics, New Jersey, 1988, p549-51 1178