Utilização da Análise de componentes Principais para verificação da variabilidade das chuvas em Pernambuco Richelle Kehrle de Paula1, José Ivaldo Barbosa de Brito2, Célia Campos Braga2 1 Bolsista CNPq/UFCG, Programa de Pós-graduação em Meteorologia, DCA/UFCG, Campina Grande, PB, e-mail: [email protected] 2 Prof. Doutor, Unidade Acadêmica de Ciências Atmosféricas, DCA/ UFCG, Campina Grande, PB, e-mail: [email protected] ABSTRACT: In this work the variability of the rains in the state of Pernambuco is studied using monthly data of precipitation from 1975 to 2005, as well as, the technique of multivariate statistical analysis, more precisely, the principal components analysis (PCA). The results of the explained total variance showed that the first two principal components explain 96% of the total variance of the data. For this reason, it was just analyzed the behavior of the first two components and, if possible, relating them with the rain systems that occur at that time and study area. It was observed that the first component presents positive phase in the months of April to October. This time is period of the rainy station on the Pernambuco that is produced by easterly waves and ZCIT, and the beginning of the dry station. Period in that ZCIT migrates for the north and the trade winds of southeast intensify. The second component presents positive phase in the months December to April. From December to April is the period of occurrence of VCANs, ZCIT and squall lines that are related with the rains in this time. Key Words: principal component analysis (PCA), variability, precipitation. Palavras-Chave: Análise de componentes principais (ACP), variabilidade, precipitação. 1. INTRODUÇÃO A Em região semi-árida como o Nordeste do Brasil o monitoramento da precipitação, principalmente, durante o período chuvoso é muito importante para tomada de decisões que tragam benefício para população. Nos dias atuais, um bom monitoramento da precipitação pluviométrica é uma ferramenta indispensável na mitigação de secas e enchentes. A análise climatológica de uma região específica sem conhecer um único ponto de observação, a estação meteorológica, representa estimar características de determinada área envolvendo dados de outros pontos. As estimativas, que representam regiões, podem ser obtidas através de técnicas estatísticas (ARAÚJO 2005). A técnica estatística mais utilizada em diversas áreas do conhecimento é análise multivariada e uma das técnicas mais utilizadas dentro da análise multivariada é análise de componentes Principais (ACP). O objetivo da análise em componentes principais é encontrar uma transformação mais representativa e geralmente mais compacta das observações. O método de ACP transforma um vetor aleatório x ∈ Rm, em outro vetor y ∈ Rn (para n ≤ m) projetando x nas n direções ortogonais de maior variância - as componentes principais. Estas componentes são individualmente responsáveis pela variância das observações. Geralmente grande parte da variância dos dados é explicada por um número reduzido de componentes, sendo possível descartar as restantes sem grande perca de informação. A análise de componentes principais consiste em transformar um conjunto de variáveis, em um conjunto menor não correlacionado. Essas novas variáveis são combinações lineares das variáveis originais e derivadas em ordem decrescente de importância tal que, a primeira componente principal é combinação linear normalizada com variância máxima (JOHNSON & WICHERN, 1998). De fato, é possível demonstrar que o método de ACP é uma técnica ótima de redução linear de dimensão, relativa ao erro quadrático médio. Portanto, este trabalho tem como objetivo realizar uma abordagem estatística que será desenvolvida utilizando a técnica multivariada de componentes principais. O método será aplicado aos dados de precipitação avaliando a distribuição espacial e temporal da chuva no Estado da Pernambuco e redimensionando o número de variáveis a serem discutidas relacionando com os sistemas atuantes para o período e a área estudados. 2. METODOLOGIA Foram utilizadas séries pluviométricas mensais de 116 estações espacialmente distribuídas no estado de Pernambuco (Figura 3.1) para o período de 1975 a 2005, obtidas do Laboratório de Meteorologia do Estado de Pernambuco (LAMAPE). A análise de componentes principais foi feita a partir das médias mensais da precipitação que foram organizadas num arquivo de trabalho disposto sobre a forma de matriz Xnxp, onde os xji representam a i-ésima observação da j-ésima estação. Assim obteve-se uma matriz N(116x12), onde n é o numero de linhas correspondentes as 116 estações e p o número de colunas corresponde aos 12 meses do ano para a análise temporal. A matriz obtida foi os dados de entrada para software estatístico específico em microcomputador para o cálculo da Análise de Componentes Principais e a partir das informações obtidas foram gerados mapas para visualização espacial dos resultados. 3. RESULTADOS O coeficiente de correlação linear, normalmente representado pela letra ρ, assume valores entre +1 e -1. Assim quando ρ = 1 significa uma correlação perfeita positiva entre as duas variáveis, quando ρ = − 1 significa uma correlação negativa perfeita entre as duas variáveis, isto é, se uma variável aumenta, a outra sempre diminui, e se ρ = 0 significa que as duas variáveis não dependem linearmente uma da outra. A Tabela 4.1 ilustra a matriz de correlação dos dados mensais de precipitação, nela pode-se observar que na diagonal principal todos os elementos são iguais a 1 e que a matriz é simétrica, características de uma matriz de correlações. Os coeficientes da matriz revelam uma correlação forte e positiva entre os meses de novembro a março, correlação fraca e positiva de abril a outubro. 55 95 37 60 633 104 53 61115 112 6444 109 18 45 31100 27 1 51 9 110 10319592228 38 90 94 66 106 72 50 114 99 113 101 98 56 40 96 108 71433297 868763 70 36 116 82 21 79 78 107 46 29 17 24 16 92 91 47 880 11 57489 12 7 93 3583 25 73 49 41 102 39 65 48 23 15 58 5768 3067 8485 111 14 52 26 81 62 4 13 69 42 54 88 2034 75105 10 -8 2 3 77 -9 76 -41 -40 -39 -38 -37 -36 -35 Figura 3.1- Distribuição espacial dos 116 postos pluviométricos do estado de Pernambuco A Tabela 4.2 ilustra a Variância Explicada por cada componente, a coluna dos Autovalores Iniciais mostra a variância do autovalor de cada componente, a porcentagem da variância explicada e da variância explicada acumulada, nela é possível perceber que as primeiras componentes explica as maiores proporções. Na coluna soma do quadrado das extrações têm-se apenas as duas primeiras componentes mais significativas com os respectivos valores encontrados na coluna anterior. A coluna seguinte mostra a somas dos quadrados das extrações após a rotação dos dados, nela pode-se observar de maneira geral, que o valor da variância e variância explicada da primeira componente diminui, e o da segunda componente aumenta após a rotação. Assim, analisando apenas as duas primeiras componentes percebe-se que a porcentagem da variância explicada da primeira componente antes da rotação é de 87,32% e após a rotação de 84,82%, já a segunda componente apresenta 9,253% antes da rotação e 11,754% depois da rotação, assim a variância acumulada das duas componentes explica 96,574% antes e depois da rotação. Tabela 4.1 - Distribuição da Matriz de correlações. Correlação JAN FEV MAR ABR MAI JUL JUL AGO SET OUT NOV DEZ JAN 1,000 ,889 ,824 ,454 ,158 FEV ,889 1,000 ,885 ,573 ,258 MAR ,824 ,885 1,000 ,737 ,478 ABR ,454 ,573 ,737 1,000 ,872 MAI ,158 ,258 ,478 ,872 1,000 ,108 ,187 ,404 ,845 ,974 ,093 ,128 ,158 ,317 ,691 ,823 ,164 ,196 ,215 ,383 ,629 ,744 ,379 ,398 ,408 ,523 ,544 ,675 ,806 ,825 ,812 ,817 ,391 ,358 ,955 ,965 ,942 ,894 ,286 ,156 JUN ,108 ,187 ,404 ,845 ,974 1,00 0 ,982 ,985 ,967 ,890 ,247 ,127 JUL ,093 ,164 ,379 ,806 ,955 AGO ,128 ,196 ,398 ,825 ,965 SET ,158 ,215 ,408 ,812 ,942 OUT ,317 ,383 ,523 ,817 ,894 NOV ,691 ,629 ,544 ,391 ,286 DEZ ,823 ,744 ,675 ,358 ,156 ,982 ,985 ,967 ,890 ,247 ,127 1,000 ,984 ,979 ,882 ,239 ,127 ,984 1,000 ,981 ,903 ,296 ,155 ,979 ,981 1,000 ,910 ,313 ,205 ,882 ,903 ,910 1,000 ,533 ,409 ,239 ,296 ,313 ,533 1,000 ,808 ,127 ,155 ,205 ,409 ,808 1,000 Tabela 4.2 - Mostra o valor dos autovalores, a porcentagem explicada e acumulada para cada componente, e a rotação das variáveis pelo método VARIMAX. Total Variance Explained a Raw Rescaled Component 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 Total 35463,030 3758,058 535,696 255,426 203,151 110,209 89,302 62,912 59,292 35,677 24,243 15,563 35463,030 3758,058 535,696 255,426 203,151 110,209 89,302 62,912 59,292 35,677 24,243 15,563 Initial Eigenvalues % of Variance Cumulative % 87,320 87,320 9,253 96,574 1,319 97,893 ,629 98,522 ,500 99,022 ,271 99,293 ,220 99,513 ,155 99,668 ,146 99,814 ,088 99,902 ,060 99,962 ,038 100,000 87,320 87,320 9,253 96,574 1,319 97,893 ,629 98,522 ,500 99,022 ,271 99,293 ,220 99,513 ,155 99,668 ,146 99,814 ,088 99,902 ,060 99,962 ,038 100,000 Extraction Sums of Squared Loadings Total % of Variance Cumulative % 35463,030 87,320 87,320 3758,058 9,253 96,574 6,914 3,412 57,614 28,434 57,614 86,048 Extraction Method: Principal Component Analysis. a. When analyzing a covariance matrix, the initial eigenvalues are the same across the raw and rescaled solution. Rotation Sums of Squared Loadings Total % of Variance Cumulative % 34447,627 84,820 84,820 4773,460 11,754 96,574 6,363 3,962 53,028 33,020 53,028 86,048 A primeira componente principal Figura 4.2 (a e b) apresenta forte correlação positiva de 0,98 nos meses de abril a outubro, período concentrado na estação chuvosa e o início da estação seca. A distribuição espacial correspondente a este fator, (Fig. 4.3 a) tem cargas fatoriais positivas maiores que 1 no litoral leste do estado e cargas fatoriais menores que 1 da parte central até o sertão do estado. Este primeiro fator pode estar relacionado com as precipitações oriundas das Ondas de Leste e ZCIT (Zona de convergência Intertropical). Esta compreende uma banda de nuvens que circunda a faixa equatorial do globo terrestre, formada principalmente pela confluência dos ventos alísios do hemisfério norte com os ventos alísios do hemisfério sul, pode-se dizer que a convergência dos ventos faz com que o ar, quente e úmido ascenda, carregando umidade do oceano para os altos níveis da atmosfera acarretando a formação das nuvens, atuando mais ao sul nos meses de março e abril. Onda de Leste é um fenômeno que se formam no campo de pressão atmosférica, na faixa tropical do globo terrestre, na área de influência dos ventos alísios, e se deslocam de oeste para leste, ou seja, desde a costa da África até o litoral leste do Brasil e atuam no nordeste brasileiro no período de maio á agosto (HASTENRATH & GREISCHAR, 1993). O primeiro fator além de está relacionado com as chuvas está relacionado com a falta de chuvas no estado, Hastenrath (1987) sugeriu as seguintes variáveis para serem empregadas no prognóstico da variabilidade da precipitação no Nordeste do Brasil: baixa pressão do ar sobre o Atlântico Norte, alta pressão do ar sobre o Atlântico Sul, aumento da componente meridional do vento de superfície nas baixas latitudes, diminuição da componente zonal do vento de superfície sobre o Atlântico Norte, anomalia positiva (aquecimento) da temperatura da superfície do mar (SST) ao norte do equador e anomalia negativa (esfriamento) da temperatura da superfície do mar ao sul do equador, bem como da posição ao norte da zona de convergência intertropical (ZCIT). A segunda componente principal Figura 4.2.(1 e 2) apresenta forte correlação positiva de 0,9 nos meses de dezembro a março. O gráfico de distribuição espacial correspondente a este fator, (Fig. 4.3 b) tem cargas fatoriais positivas maiores que 1 na parte leste do litoral e no alto sertão do estado de Pernambuco, que também podem está associados a ao sistema meteorológico ZCIT e aos VCAN’s e as linhas de instabilidade. Os Vórtices Ciclônicos de Altos Níveis são sistemas que influenciam todo o Nordeste, atuando no final da primavera, verão e início do outono, ou seja, entre outubro e março. Estão associados com volumes de chuva substanciais registrados principalmente no mês de janeiro caracterizado como o período de maior ocorrência destes sistemas (PAULA, 2009). As Linhas de Instabilidade são bandas de nuvens causadoras de chuva, normalmente do tipo cumulus, organizadas em forma de linha, daí o seu nome. Sua formação se dá basicamente pelo fato de que com a grande quantidade de radiação solar incidente sobre a região tropical ocorre o desenvolvimento das nuvens cumulus, que atingem um número maior à tarde, quando a convecção é máxima, com conseqüentes chuvas. Outro fator que contribui para o incremento das Linhas de Instabilidade, principalmente nos meses de fevereiro e março, é a proximidade da ZCIT. 4. CONCLUSÕES • • • A variância acumulada das duas componentes explica 96,574% antes e depois da rotação. A primeira componente principal apresenta forte correlação positiva de 0,98 nos meses de Abril a outubro, concentrado estação chuvosa e o início da estação seca. O primeiro fator pode estar relacionado com as precipitações oriundas das Ondas de Leste e ZCIT (Zona de convergência Intertropical), para estação chuvosa e baixa pressão do ar sobre o Atlântico Norte, alta pressão do ar sobre o Atlântico Sul para estação seca. A segunda componente apresentou forte correlação positiva de 0,9 nos meses de dezembro a março, meses que apresentam início das chuvas no estado de Pernambuco e que também podem está associados ao sistema meteorológico ZCIT e aos VCAN’s e as linhas de instabilidade. • (a) Sem rotação (b) 1 1 0,8 Correlações 0,6 0,4 0,2 0,6 0,4 0,2 0 JA N FE V M A R A BR M A I DEZ OUT NOV SET JUL AG O JU MAI ABR FEV MAR JAN 0 Meses Primeira componente JU JU L A G O SE T O U T N O V D EZ Correlações 0,8 -0,2 Com rotação Meses segunda componente Primeira Componente Segunda Componente Figura 4.2- Correlações dos dois primeiros fatores comuns temporais de precipitação. 2.2 2 (a) (b) 1.8 1.6 1.4 1.2 1 0.8 -8 -8 0.6 0.4 0.2 0 -9 -9 -0.2 -0.4 -0.6 -41 -40 -39 -38 -37 -36 -35 -34 -41 -40 -39 -38 -37 -36 -35 -34 -0.8 -1 -1.2 -1.4 Figura 4.3- (a) Distribuição espacial do primeiro fator comum temporal de precipitação dos dados médios mensais para o Estado da Pernambuco. (b) Distribuição espacial do segundo fator comum temporal dos dados mensais. 5. REFERÊNCIAS BIBLIOGRÁFICAS ARAÚJO S.M.B; Estudo da Variabilidade Climática em Regiões Homogêneas de Temperaturas Médias no Rio Grande do Sul. Dissertação de mestrado, Universidade Federal de Pelotas, 2005. HASTENRATH, S.; GREISCHAR, L. Further Work on the Prediction of Northeast Brazil Rainfall Anomalies, Journal of Climate, v. 6, p. 753-758, 1993: HASTENRATH, S. The Droughts of Northeast Brazil and their Prediction. In: D.A. Wilhite and W.E. Easterling (ed.) Planning for Drought, Toward a Reduction of Societal Vulnerability, Westview Press/UNEP, Boulder, 1987. 2.8 2.6 2.4 2.2 2 1.8 1.6 1.4 1.2 1 0.8 0.6 0.4 0.2 0 -0.2 -0.4 -0.6 -0.8 -1 -1.2 -1.4 -1.6 JOHNSON, R.A.; WICHERN, D.W. Applied Multivariate Statistical Analysis. 4 ed. Upper Saddle River: Prentice Hall, 1998. PAULA, R.K.; Índices De Mudanças Climáticas, Vegetação da Superfície, Seca e Desertificação: Um Estudo de Caso Para O Estado de Pernambuco. Trabalho de conclusão de curso, Universidade Federal de Campina Grande, 2009