Funções densidade de probabilidade para estimativa da intensidade de seca em Cascavel, Paraná Jailson de Araujo Rodrigues 1 4 Ana Paula Coelho Madeira Silva 2 Jaime dos Santos Filho3 Joel Augusto Muniz 3 1 Introdução Medir dados de seca é muito importante em diversos contextos, tais como produtividade de culturas agrı́colas, manejo dos recursos hı́dricos e avaliação ambiental. A obtenção da correta distribuição para intensidade de seca é relevante no planejamento agrı́cola, no que diz respeito à instalação de culturas. Além da influência na agricultura, secas muito intensas afetam o nı́vel de água dos mananciais e dos reservatórios das usinas hidrelétricas, trazendo problemas para a geração de energia elétrica e no abastecimento urbano. Dessa forma, diferentes modelos probabilı́sticos têm sido propostos para descrever intensidade, perı́odo e magnitude de seca. Por exemplo, uma generalização do modelo gama foi introduzida por [3] para estudar dados de secas ocorridas nas oito regiões climaticas do Estado norte-americano de Nebraska, os resultados indicaram que a nova distribuição fornecia um ajuste melhor que o obtido com o modelo gama usual. A severidade de secas ocorridas em Yellow River no Norte da China foi analisada por [7] utilizando a distribuição gama, os resultados obtidos indicaram o bom ajuste do modelo. A distribuição gama também foi empregada com sucesso por [6] para descrever a severidade de secas ocorridas em Taiwan e [5] utilizaram a distribuição exponencial para descrever o perı́odo de seca e as distribuições Weibull e log-normal para descrever sua intensidade, com isso foi possı́vel analisar a magnitude da seca, obtida pelo produto, perı́odo de seca × intensidade. O objetivo deste trabalho foi avaliar as distribuições exponencial, gama e Weibull na modelagem da intensidade de secas ocorridas em Cascavel no Estado do Paraná. A estimação dos parâmetros foi feita via método da máxima verossimilhança. As respectivas aderências dos modelos foi verificada por meio do teste de Kolmogorov-Smirnov ao nı́vel de 5% de probabilidade. A escolha do modelo que apresentou melhor ajuste foi feita via Critério de Informação de Akaike corrigido. 1 DEPEN-IFBA. 4 Agradecimento 2 CSL 3 DEX e-mail: [email protected] ao IFBA pelo apoio financeiro. - UFSJ. - UFLA. 1 2 Materiais e métodos 2.1 Índice Padronizado de Precipitação (SPI) Na literatura, é possı́vel encontrar vários ı́ndices que permitem determinar o grau de intensidade da seca. O mais utilizado no Brasil é o Índice Padronizado de Precipitação (SPI), ver [4]. Esse ı́ndice quantifica o déficit ou o excesso de precipitação em diferentes escalas de tempo. Essa caracterı́stica torna o SPI uma valiosa ferramenta para todos os estudos de disponibilidade hı́drica. A escala temporal mais analisada é a mensal (SPI-1 mês). O evento seca começa quando o SPI torna-se negativo e termina quando este volta a apresentar valores positivos. Dentro de sua escala, magnitudes menores ou iguais a -2 indicam seca extrema. Na Tabela 1 é apresentada essa classificação que foi desenvolvida por [4]. Tabela 1. Classificação da severidade da seca. Valores do SPI 0, 00 a −0, 99 −1, 00 a −1, 49 −1, 50 a −1, 99 ≤ −2, 00 Categoria de seca Seca ligeira Seca moderada Seca severa Seca extrema Considerando que a seca ocorre quando o valor do SPI é menor que zero, o perı́odo de seca é a somatoria dos meses consecutivos em que o SPI é negativo. Dessa forma, se P representa o perı́odo de seca, a intensidade da seca, denotada por S, é a soma do valores do SPI no perı́odo de seca. Por conveniência, assumiremos a intensidade da seca como uma grandeza positiva e assim, pode-se escrever: P S = − ∑ SPIi (1) i=0 Os dados de SPI explorados neste trabalho foram coletados na estação meteorológica X2453023 com coordenadas geográficas −24, 93333 de latitude, −53, 43333 de longitude e 760m de altitude, localizada na cidade de Cascavel no Estado do Paraná. A base de dados corresponde a uma série histórica de medições mensais do SPI no perı́odo de janeiro de 1976 até dezembro de 2005. 2.2 Modelos Modelo exponencial: Uma variável aleatória tem distribuição exponencial quando sua função densidade de probabilidade (fdp) para x > 0 é dada por: f (x) = β exp (−βx) 2 (2) sendo que β > 0 é um parâmetro de escala. Se X1 , . . . , Xn é uma amostra aleatória de (2), a estimativa de máxima verossimilhança β̂ para o parâmetro β é dada por: n b β= n . (3) ∑ xi i=0 Modelo gama: Uma variável aleatória tem distribuição gama quando sua fdp para x > 0 é dada por: βα xα−1 f (x) = exp (−βx) (4) Γ (α) sendo que α > 0 é um parâmetro de forma, β > 0 é um parâmetro de escala e Γ(·) representa a função gama, ∫ ∞ Γ (α) = t α−1 exp (−t) dt. (5) 0 O modelo exponencial apresentado anteriormente e um caso particular da distribuição gama quando α = 1. be Se X1 , . . . , Xn é uma amostra aleatória de (4), as estimativas de máxima verossimilhança α b β para os parâmetros α e β podem ser obtidas resolvendo o sistema de equações não lineares, n b nα − ∑ xi = 0 b β i=0 ( b − n log n log n + n log α ) n (6) n ∑ xi − nψ (αb) + ∑ log xi = 0 i=0 (7) i=0 sendo que ψ (·) é a função digama, ψ (x) = dΓ(x) . dx (8) Modelo Weibull: Uma variável aleatória tem distribuição Weibull quando sua fdp para x > 0 é dada por: [ ] f (x) = αβ (βx)α−1 exp − (βx)α (9) sendo que α > 0 é um parâmetro de escala e β > 0 é um parâmetro de forma. be Se X1 , . . . , Xn é uma amostra aleatória de (9), as estimativas de máxima verossimilhança α b β para os parâmetros α e β podem ser obtidas resolvendo o sistema de equações não lineares, ( b β= 1 n αb ∑ xi n i=0 )−1/αb −1 ( )( )−1 n n n 1 b = ∑ xiαb log xi α ∑ xiαb − n ∑ log xi . i=0 i=0 i=0 3 (10) (11) 2.3 Teste de aderência de Kolmogorov-Smirnov O teste estatı́stico de Kolmogorov-Smirnov (KS-teste) é um dos dispositivos mais utlizados para verificar aderência de distribuições, além de não depender do número de classes do agrupamento dos dados, esse teste oferece mais vantagens computacionais. O referido teste, utilizado para avaliar a aderência das distribuições estudadas, baseia-se na discrepância entre as √ distribuições, Dn = n supx |Fn (x) − F0 (x)| em que Fn (x) denota a distribuição teórica e F0 (x) a distribuição ajustada. Essa estatı́stica é usada para testar a hipótese nula H0 : F = F0 versus hipótese alternativa H1 : F ̸= F0 . O p-valor correspondente é dado por P (K > dn ) sendo que dn representa o valor observado de Dn e K é a variável aleatória especificada pela fd √ ( 2) 2 2 P (K ≤ x) = 2π/x ∑∞ i=1 exp{−(2i − 1) π / 8x }. 2.4 Critério de informação de Akaike Dentre as metodologias empregadas para seleção de modelos probabilı́sticos, uma das mais utilizadas é o critério de informação de Akaike (AIC). Neste trabalho, utilizaremos como mecanismo de escolha o critério de informação de Akaike corrigido (AICc), ver [1], baseado na teoria de decisão o AICc é definido como a quantidade: AICc = −2L + 2p + 2 p (p + 1) n− p−1 (12) em que L representa o logaritmo do máximo da função de verossimilhança e p denota o número de parâmetros. De acordo com esse critério, o melhor dentre os modelos considerados na construção do problema é aquele que apresenta o menor valor de AICc. 3 Resultados e discussão Na Tabela 2 podem ser observadas as estimativas de máxima verossimilhança encontradas nos ajustes das distribuições exponencial, gama, e Weibull. Tabela 2. Estimativas dos parâmetros. α ... 1, 073 1, 033 Modelos Probabilı́sticos Exponencial Gama Weibull β 0, 597 0, 640 0, 589 A aderência das distribuições foi verificada segundo o KS-teste. Todas as distribuições apresentaram p-valores superiores a 0, 05 indicando que essas distribuições descrevem satisfatoriamente os dados observados de intensidade de seca, Tabela 3. 4 Tabela 3. p-valores do KS-teste e AICc. Modelos Probabilı́sticos Exponencial Gama Weibull p-valores 0, 892 0, 918 0, 904 AICc 259, 790 261, 625 261, 740 Para selecionar a distribuição com melhor ajuste foi utilizado o AICc. Na Tabela 3 pode-se observar que a distribuição exponencial apresentou um ajuste melhor, seguida pela distribuição gama e o pior ajuste foi obtido pela distribuição Weibull. 4 Conclusões Através dos teste de Kolmogorov-Smirnov a nı́vel de 0, 05 de significância, observou-se que as distribuições exponencial, gama e Weibull apresentaram aderência em relação aos dados de intensidade de seca. O AICc indicou que a distribuição exponencial obteve melhor ajuste dos dados de seca, seguida pela distribuição gama e o pior ajuste foi obtido pela distribuição Weibull. Referências [1] BOZDOGAN, H. Model selection and Akaike´s information criterion (AIC): The general theory and its analytical extensions. Psychometrica, v.52, p.345-370, 1987. [2] CHAMBERS, J.; CLEVELAND, W.; KLEINER, B.; TUKEY, P. Graphical Methods for Data Analisys, Boston: Duxbury Press, 1983, 395p. [3] NADARAJAH, S.; GUPTA, A. K. A generalized gamma distribution with application to drought data. Mathematics and Computers in Simulation, v.74, p. 1-7, 2007. [4] McKEE, T. B.; DOESKEN, N. J.; KLEIST, J. Drought monitoring with multiple time scales. 9th Conference on Applied Climatology, Preprints, American Meteorological Society, Boston, p. 233-236, 1995. [5] YANG, D. W.; NADARAJAH, S. Drought modeling and products of random variables with exponential kernel. Stoch Environ Res Risk Assess, v. 21, p. 123-129, 2006. [6] SHIAU, J. T. Fitting drougth duration and severity with two-dimensional copulas. Water Resources Management, v.20, p. 795-815, 2006. [7] SHIAU, J. T.; FENG, S.; NADARAJAH, S. Assessment of hydrological droughts for the Yellow River, China, using copulas. Hydrological Processes, v.21, p. 2157-2163, 2007. 5