ANÁLISE DA DISTRIBUIÇÃO TEMPORAL DE DADOS HORÁRIOS DE TEMPERATURA EM
CURITIBA
Miriam Pittigliani
Instituto Tecnológico Simepar
Centro Politécnico da UFPR – Cx. Postal 19.100, Curitiba-PR, 81.531-990
e-mail: [email protected]
Nelson Luís C. Dias
Instituto Tecnológico Simepar
Centro Politécnico da UFPR – Cx. Postal 19.100, Curitiba-PR, 81.531-990
e-mail: [email protected]
ABSTRACT
The objective of this paper is to analyse the temporal disposition of hourly temperature data measured by
telemetric stations of Simepar in Curitiba, Parana. Temperature differences between consecutive hourly
measurements are an important item in automated data quality control. Because failure to trasmit data may
introduce gaps of several hours, it is also important to analyse temperature differences over spans of several hours.
A probablity density function was found for temperature differences over several time steps (2, 4, 6, 8, 10, 12, 14,
16, 18, 20, 22 hours). A gamma distribution function was found to be flexible enough to describe the data behavior
for all intervals studied. Quantiles from the distribution were then used to establish maximum possible temperature
differences in data quality control.
INTRODUÇÃO
Modelos de controle de qualidade de dados meteorológicos muitas vezes requerem o conhecimento da
distribuição temporal destes, para que testes temporais possam ser aplicados no estabelecimento de limites
climatológicos e na identificação de dados com possível erro. Além disso, o conhecimento da distribuição temporal
de dados é também importante para complementar estudos climatológicos.
Este trabalho possui como objetivo a análise da disposição temporal de dados horários de temperatura
medidos em Curitiba, Paraná, e a definição de uma equação que represente a função densidade de distribuição da
série de dados.
DADOS UTILIZADOS
O estudo foi realizado com uma amostra de dados horários de temperatura provenientes da estação
telemétrica de Curitiba, pertencente ao SIMEPAR. Estes dados foram submetidos previamente a um modelo de
controle de qualidade, garantindo que não haveria em seu meio dados fora dos limites climatológicos. O valor
mínimo admissível para a temperatura é de -14C, e o máximo, 45C. Os dados foram obtidos do período
compreendido entre junho de 1997 e maio de 2000, totalizando 24.753 registros horários.
Para o cálculo de “steps” de temperatura foram estabelecidos 11 intervalos de tempo, compreendendo 2, 4,
6, 8,10,12,14,16,18, 20 e 22 horas. Para cada um destes intervalos foi realizada uma varredura no banco de dados
abrangendo todo o período da amostra, na qual era calculada a diferença entre cada combinação de dois registros
separados entre si pelo número de horas definido no intervalo pré-fixado. Assim, se o intervalo estabelecido era
igual a 4, fazia-se uma varredura no banco de dados calculando-se a diferença entre cada conjunto de dois dados
espaçados entre si de 4 horas. O mesmo processo foi repetido para os demais intervalos.
Calculados os valores absolutos das diferenças entre os dados (em graus Celsius) e denominando-se tais
diferenças de “steps” de temperatura, calculou-se então a freqüência destes “steps”. Assim, se a diferença entre dois
dados era igual a 7,6ºC, somava-se uma ocorrência ao “step” de temperatura compreendido entre 7 e 8 graus
daquele intervalo.
1173
METODOLOGIA
A partir de uma base de dados composta pelo valor absoluto dos “steps” e pela sua correspondente
freqüência, procurou-se encontrar uma equação que representasse a densidade da série. Adotou-se inicialmente a
função exponencial, definida por:
f ( x) =
(1)
1 − xλ
e ,
λ
na qual f(x) é a densidade da amostra, λ é o parâmetro da distribuição e x é o valor absoluto do ”step” de
temperatura em graus Celsius.
A tabela 1 mostra os valores de λ obtidos para cada intervalo horário, após o ajuste da função exponencial
à base de dados.
Intervalo entre os
λ
dados (em horas)
02
1.47085
04
2.87560
06
4.19582
08
5.25821
10
5.91283
12
6.03729
14
6.11595
16
5.71692
18
4.93205
20
3.96565
22
2.94811
Tabela 1 – Valores de λ obtidos do ajuste da exponencial
No entanto, os resultados provenientes do ajuste da exponencial mostraram que esta não era a equação mais
adequada para a representar a densidade dos dados, pois gerava uma grande distorção. Tal distorção pode ser vista
claramente no gráfico 1.
Ajuste da Exponencial
0.16
Freqüência dos Steps
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
0
5
10
15
Step (diferença entre dois dados)
20
25
Gráfico 1 – Ajuste da exponencial para intervalo igual a 10 horas
1174
Na busca de outra equação que melhor se ajustasse aos dados, adotou-se a seguinte equação probabilística:
k −1
(2)
−x
1x
  e λ
λ λ
f ( x) =  
Γ (k )
onde
(3)
Γ(k ) =
∫
∞
0
 x  k −1 − x  dx
  e λ 
 λ
 λ 
é a função gama (Abramowitz & Stegun, Handbook of Mathematical Functions). A probabilidade de que um “step”
de temperatura exceda um valor u será então fornecida por (4).
∫
∞
u
(4)
ε=
 x  k −1 − x  dx
  e λ .
 λ
 λ 
Γ( k )
O denominador de (4) é a função gama incompleta. Note que arbitrando-se valores de ε , (4) pode ser resolvida
numericamente para a obtenção dos quantis u correspondentes.
RESULTADOS
A tabela 2 mostra os valores de k e λ para cada intervalo, obtidos a partir do ajuste da curva f(x) à base de
dados.
Intervalo entre os
k
λ
dados (em horas)
02
1.42482
1.03821
04
2.77881
1.02892
06
3.55002
1.13363
08
3.90032
1.24179
10
3.99086
1.32594
12
4.17216
1.30306
14
4.04747
1.34413
16
3.88109
1.32048
18
3.39914
1.31055
20
2.74101
1.31715
22
2.06654
1.32267
Tabela 2 – Valores de λ e k obtidos do ajuste da equação f(x)
Conhecidos os parâmetros k e λ e resolvendo (4) numericamente para um dado ε , podemos encontrar os
quantis ut, os quais multiplicados por λ fornecem os valores de x correspondentes, de acordo com x = u t λ . Ou
seja, fixando p = 1/1.000 e o substituindo na equação acima, encontraremos valores de “steps” de temperatura x
cuja probabilidade de excedência é de 1/1.000.
A tabela 3 mostra os valores absolutos de x obtidos para cada intervalo, para probabilidades de excedência
iguais a 1/100, 1/1.000 e 1/10.000.
1175
Intervalos entre os
dados (em horas)
02
04
06
08
10
12
14
16
18
20
22
Tabela 3 – Valores de
Valores encontrados para os “steps” x em graus Celsius
p = 1/100
p = 1/1.000
p = 1/10.000
6.7
10.0
13.3
13.0
19.4
25.8
17.4
25.8
34.0
20.0
29.3
38.5
21.2
30.1
39.4
22.0
32.0
41.9
21.7
31.4
41.1
20.6
29.9
39.2
18
26.1
34.2
14.5
21.1
27.6
11.0
15.9
20.9
λ obtidos do ajuste da exponencial
Os gráficos 2, 3, 4 e 5 mostram a curva f(x) ajustada à base de dados para os intervalos iguais a 2, 4, 10 e
20 horas, respectivamente.
Ajuste da Função de Densidade Gama
0.5
Freqüência dos Steps
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0
5
10
15
Step (diferença entre dois dados)
20
25
Gráfico 2 - Ajuste da curva f(x) para intervalo igual a 2 horas
Ajuste da Função de Densidade Gama
Freqüência dos Steps
0.3
0.25
0.2
0.15
0.1
0.05
0
0
5
10
15
Step (diferença entre dois dados)
20
25
Gráfico 3 - Ajuste da curva f(x) para intervalo igual a 4 horas
1176
Ajuste da Função de Densidade Gama
0.16
Freqüência dos Steps
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
0
5
10
15
Step (diferença entre dois dados)
20
25
Gráfico 4 - Ajuste da curva f(x) para intervalo igual a 10 horas
Ajuste da Função de Densidade Gama
0.25
Freqüência dos Steps
0.2
0.15
0.1
0.05
0
0
5
10
15
20
Step (diferença entre dois dados)
25
Gráfico 5 - Ajuste da curva f(x) para intervalo igual a 20 horas
CONSIDERAÇÕES
Neste estudo, de caráter preliminar, foram utilizados dados de apenas uma estação meteorológica.
Posteriormente, o mesmo estudo deverá ser refeito para as demais estações meteorológicas telemétricas do
Simepar, possibilitando assim uma melhor caracterização da distribuição temporal de temperaturas no Estado do
Paraná. Além disso, o estudo também será expandido para dados de radiação solar, pressão atmosférica e umidade
relativa.
CONCLUSÃO
A função de densidade gama mostrou-se adequada para representar a densidade dos dados horários de
temperatura. Através dela foi possível também estimar quantis de temperatura para probabilidades iguais a 1/100,
1/1.000 e 1/10.000. Tais resultados serão importantes para avaliações de séries temporais de dados horários de
temperatura e poderão servir como parâmetros para modelos de controle de qualidade de dados.
1177
REFERÊNCIAS BIBLIOGRÁFICAS
ABRAMOWITZ, M., STEGUN, I.A. Handbook of Mathematical Functions. Dover Publications, Inc., New York,
1972, p.255-93.
BENJAMIN, J.R., CORNELL,C.A. Probability, Statistics and Decision for Civil Engineers. Mc Graw-Hill, 1970,
p.242-9.
GREENBERG, M.D. Advanced Engineering Mathematics, New Jersey, 1988, p549-51
1178
Download

dados foram