Utilização da Análise de componentes Principais para verificação da
variabilidade das chuvas em Pernambuco
Richelle Kehrle de Paula1, José Ivaldo Barbosa de Brito2, Célia Campos Braga2
1
Bolsista CNPq/UFCG, Programa de Pós-graduação em Meteorologia, DCA/UFCG, Campina Grande, PB,
e-mail: [email protected]
2
Prof. Doutor, Unidade Acadêmica de Ciências Atmosféricas, DCA/ UFCG, Campina Grande, PB,
e-mail: [email protected]
ABSTRACT:
In this work the variability of the rains in the state of Pernambuco is studied using monthly
data of precipitation from 1975 to 2005, as well as, the technique of multivariate statistical
analysis, more precisely, the principal components analysis (PCA). The results of the
explained total variance showed that the first two principal components explain 96% of the
total variance of the data. For this reason, it was just analyzed the behavior of the first two
components and, if possible, relating them with the rain systems that occur at that time and
study area. It was observed that the first component presents positive phase in the months of
April to October. This time is period of the rainy station on the Pernambuco that is produced
by easterly waves and ZCIT, and the beginning of the dry station. Period in that ZCIT
migrates for the north and the trade winds of southeast intensify. The second component
presents positive phase in the months December to April. From December to April is the
period of occurrence of VCANs, ZCIT and squall lines that are related with the rains in this
time.
Key Words: principal component analysis (PCA), variability, precipitation.
Palavras-Chave: Análise de componentes principais (ACP), variabilidade, precipitação.
1. INTRODUÇÃO
A Em região semi-árida como o Nordeste do Brasil o monitoramento da precipitação,
principalmente, durante o período chuvoso é muito importante para tomada de decisões que
tragam benefício para população. Nos dias atuais, um bom monitoramento da precipitação
pluviométrica é uma ferramenta indispensável na mitigação de secas e enchentes.
A análise climatológica de uma região específica sem conhecer um único ponto de
observação, a estação meteorológica, representa estimar características de determinada área
envolvendo dados de outros pontos. As estimativas, que representam regiões, podem ser
obtidas através de técnicas estatísticas (ARAÚJO 2005).
A técnica estatística mais utilizada em diversas áreas do conhecimento é análise
multivariada e uma das técnicas mais utilizadas dentro da análise multivariada é análise de
componentes Principais (ACP).
O objetivo da análise em componentes principais é encontrar uma transformação
mais representativa e geralmente mais compacta das observações. O método de ACP
transforma um vetor aleatório x ∈ Rm, em outro vetor y ∈ Rn (para n ≤ m) projetando x nas n
direções ortogonais de maior variância - as componentes principais. Estas componentes são
individualmente responsáveis pela variância das observações. Geralmente grande parte da
variância dos dados é explicada por um número reduzido de componentes, sendo possível
descartar as restantes sem grande perca de informação.
A análise de componentes principais consiste em transformar um conjunto de
variáveis, em um conjunto menor não correlacionado. Essas novas variáveis são combinações
lineares das variáveis originais e derivadas em ordem decrescente de importância tal que, a
primeira componente principal é combinação linear normalizada com variância máxima
(JOHNSON & WICHERN, 1998). De fato, é possível demonstrar que o método de ACP é
uma técnica ótima de redução linear de dimensão, relativa ao erro quadrático médio.
Portanto, este trabalho tem como objetivo realizar uma abordagem estatística que
será desenvolvida utilizando a técnica multivariada de componentes principais. O método será
aplicado aos dados de precipitação avaliando a distribuição espacial e temporal da chuva no
Estado da Pernambuco e redimensionando o número de variáveis a serem discutidas
relacionando com os sistemas atuantes para o período e a área estudados.
2. METODOLOGIA
Foram utilizadas séries pluviométricas mensais de 116 estações espacialmente
distribuídas no estado de Pernambuco (Figura 3.1) para o período de 1975 a 2005, obtidas do
Laboratório de Meteorologia do Estado de Pernambuco (LAMAPE).
A análise de componentes principais foi feita a partir das médias mensais da
precipitação que foram organizadas num arquivo de trabalho disposto sobre a forma de matriz
Xnxp, onde os xji representam a i-ésima observação da j-ésima estação. Assim obteve-se uma
matriz N(116x12), onde n é o numero de linhas correspondentes as 116 estações e p o número
de colunas corresponde aos 12 meses do ano para a análise temporal.
A matriz obtida foi os dados de entrada para software estatístico específico em
microcomputador para o cálculo da Análise de Componentes Principais e a partir das
informações obtidas foram gerados mapas para visualização espacial dos resultados.
3. RESULTADOS
O coeficiente de correlação linear, normalmente representado pela letra ρ, assume
valores entre +1 e -1. Assim quando ρ = 1 significa uma correlação perfeita positiva entre as
duas variáveis, quando ρ = − 1 significa uma correlação negativa perfeita entre as duas
variáveis, isto é, se uma variável aumenta, a outra sempre diminui, e se ρ = 0 significa que as
duas variáveis não dependem linearmente uma da outra.
A Tabela 4.1 ilustra a matriz de correlação dos dados mensais de precipitação, nela
pode-se observar que na diagonal principal todos os elementos são iguais a 1 e que a matriz é
simétrica, características de uma matriz de correlações. Os coeficientes da matriz revelam
uma correlação forte e positiva entre os meses de novembro a março, correlação fraca e
positiva de abril a outubro.
55
95
37
60 633
104
53
61115
112
6444
109 18 45 31100
27 1 51
9
110
10319592228
38
90
94
66
106
72 50
114
99 113 101 98
56
40
96
108
71433297
868763
70
36
116 82
21
79
78
107
46
29
17
24
16 92
91
47
880
11 57489
12
7 93 3583
25
73
49
41
102
39
65
48 23
15
58 5768 3067 8485
111
14
52
26
81 62 4
13
69 42
54
88
2034
75105
10
-8
2
3
77
-9
76
-41
-40
-39
-38
-37
-36
-35
Figura 3.1- Distribuição espacial dos 116 postos pluviométricos do estado de Pernambuco
A Tabela 4.2 ilustra a Variância Explicada por cada componente, a coluna dos
Autovalores Iniciais mostra a variância do autovalor de cada componente, a porcentagem da
variância explicada e da variância explicada acumulada, nela é possível perceber que as
primeiras componentes explica as maiores proporções. Na coluna soma do quadrado das
extrações têm-se apenas as duas primeiras componentes mais significativas com os
respectivos valores encontrados na coluna anterior. A coluna seguinte mostra a somas dos
quadrados das extrações após a rotação dos dados, nela pode-se observar de maneira geral,
que o valor da variância e variância explicada da primeira componente diminui, e o da
segunda componente aumenta após a rotação. Assim, analisando apenas as duas primeiras
componentes percebe-se que a porcentagem da variância explicada da primeira componente
antes da rotação é de 87,32% e após a rotação de 84,82%, já a segunda componente apresenta
9,253% antes da rotação e 11,754% depois da rotação, assim a variância acumulada das duas
componentes explica 96,574% antes e depois da rotação.
Tabela 4.1 - Distribuição da Matriz de correlações.
Correlação
JAN
FEV
MAR
ABR
MAI
JUL
JUL
AGO
SET
OUT
NOV
DEZ
JAN
1,000
,889
,824
,454
,158
FEV
,889
1,000
,885
,573
,258
MAR
,824
,885
1,000
,737
,478
ABR
,454
,573
,737
1,000
,872
MAI
,158
,258
,478
,872
1,000
,108
,187
,404
,845
,974
,093
,128
,158
,317
,691
,823
,164
,196
,215
,383
,629
,744
,379
,398
,408
,523
,544
,675
,806
,825
,812
,817
,391
,358
,955
,965
,942
,894
,286
,156
JUN
,108
,187
,404
,845
,974
1,00
0
,982
,985
,967
,890
,247
,127
JUL
,093
,164
,379
,806
,955
AGO
,128
,196
,398
,825
,965
SET
,158
,215
,408
,812
,942
OUT
,317
,383
,523
,817
,894
NOV
,691
,629
,544
,391
,286
DEZ
,823
,744
,675
,358
,156
,982
,985
,967
,890
,247
,127
1,000
,984
,979
,882
,239
,127
,984
1,000
,981
,903
,296
,155
,979
,981
1,000
,910
,313
,205
,882
,903
,910
1,000
,533
,409
,239
,296
,313
,533
1,000
,808
,127
,155
,205
,409
,808
1,000
Tabela 4.2 - Mostra o valor dos autovalores, a porcentagem explicada e acumulada para cada
componente, e a rotação das variáveis pelo método VARIMAX.
Total Variance Explained
a
Raw
Rescaled
Component
1
2
3
4
5
6
7
8
9
10
11
12
1
2
3
4
5
6
7
8
9
10
11
12
Total
35463,030
3758,058
535,696
255,426
203,151
110,209
89,302
62,912
59,292
35,677
24,243
15,563
35463,030
3758,058
535,696
255,426
203,151
110,209
89,302
62,912
59,292
35,677
24,243
15,563
Initial Eigenvalues
% of Variance Cumulative %
87,320
87,320
9,253
96,574
1,319
97,893
,629
98,522
,500
99,022
,271
99,293
,220
99,513
,155
99,668
,146
99,814
,088
99,902
,060
99,962
,038
100,000
87,320
87,320
9,253
96,574
1,319
97,893
,629
98,522
,500
99,022
,271
99,293
,220
99,513
,155
99,668
,146
99,814
,088
99,902
,060
99,962
,038
100,000
Extraction Sums of Squared Loadings
Total
% of Variance Cumulative %
35463,030
87,320
87,320
3758,058
9,253
96,574
6,914
3,412
57,614
28,434
57,614
86,048
Extraction Method: Principal Component Analysis.
a. When analyzing a covariance matrix, the initial eigenvalues are the same across the raw and rescaled solution.
Rotation Sums of Squared Loadings
Total
% of Variance Cumulative %
34447,627
84,820
84,820
4773,460
11,754
96,574
6,363
3,962
53,028
33,020
53,028
86,048
A primeira componente principal Figura 4.2 (a e b) apresenta forte correlação positiva
de 0,98 nos meses de abril a outubro, período concentrado na estação chuvosa e o início da
estação seca. A distribuição espacial correspondente a este fator, (Fig. 4.3 a) tem cargas
fatoriais positivas maiores que 1 no litoral leste do estado e cargas fatoriais menores que 1 da
parte central até o sertão do estado. Este primeiro fator pode estar relacionado com as
precipitações oriundas das Ondas de Leste e ZCIT (Zona de convergência Intertropical). Esta
compreende uma banda de nuvens que circunda a faixa equatorial do globo terrestre, formada
principalmente pela confluência dos ventos alísios do hemisfério norte com os ventos alísios
do hemisfério sul, pode-se dizer que a convergência dos ventos faz com que o ar, quente e
úmido ascenda, carregando umidade do oceano para os altos níveis da atmosfera acarretando
a formação das nuvens, atuando mais ao sul nos meses de março e abril. Onda de Leste é um
fenômeno que se formam no campo de pressão atmosférica, na faixa tropical do globo
terrestre, na área de influência dos ventos alísios, e se deslocam de oeste para leste, ou seja,
desde a costa da África até o litoral leste do Brasil e atuam no nordeste brasileiro no período
de maio á agosto (HASTENRATH & GREISCHAR, 1993).
O primeiro fator além de está relacionado com as chuvas está relacionado com a falta
de chuvas no estado, Hastenrath (1987) sugeriu as seguintes variáveis para serem empregadas
no prognóstico da variabilidade da precipitação no Nordeste do Brasil: baixa pressão do ar
sobre o Atlântico Norte, alta pressão do ar sobre o Atlântico Sul, aumento da componente
meridional do vento de superfície nas baixas latitudes, diminuição da componente zonal do
vento de superfície sobre o Atlântico Norte, anomalia positiva (aquecimento) da temperatura
da superfície do mar (SST) ao norte do equador e anomalia negativa (esfriamento) da
temperatura da superfície do mar ao sul do equador, bem como da posição ao norte da zona de
convergência intertropical (ZCIT).
A segunda componente principal Figura 4.2.(1 e 2) apresenta forte correlação positiva
de 0,9 nos meses de dezembro a março. O gráfico de distribuição espacial correspondente a
este fator, (Fig. 4.3 b) tem cargas fatoriais positivas maiores que 1 na parte leste do litoral e no
alto sertão do estado de Pernambuco, que também podem está associados a ao sistema
meteorológico ZCIT e aos VCAN’s e as linhas de instabilidade.
Os Vórtices Ciclônicos de Altos Níveis são sistemas que influenciam todo o Nordeste,
atuando no final da primavera, verão e início do outono, ou seja, entre outubro e março. Estão
associados com volumes de chuva substanciais registrados principalmente no mês de janeiro
caracterizado como o período de maior ocorrência destes sistemas (PAULA, 2009).
As Linhas de Instabilidade são bandas de nuvens causadoras de chuva, normalmente
do tipo cumulus, organizadas em forma de linha, daí o seu nome. Sua formação se dá
basicamente pelo fato de que com a grande quantidade de radiação solar incidente sobre a
região tropical ocorre o desenvolvimento das nuvens cumulus, que atingem um número maior
à tarde, quando a convecção é máxima, com conseqüentes chuvas. Outro fator que contribui
para o incremento das Linhas de Instabilidade, principalmente nos meses de fevereiro e
março, é a proximidade da ZCIT.
4. CONCLUSÕES
•
•
•
A variância acumulada das duas componentes explica 96,574% antes e depois da
rotação.
A primeira componente principal apresenta forte correlação positiva de 0,98 nos
meses de Abril a outubro, concentrado estação chuvosa e o início da estação seca.
O primeiro fator pode estar relacionado com as precipitações oriundas das Ondas de
Leste e ZCIT (Zona de convergência Intertropical), para estação chuvosa e baixa
pressão do ar sobre o Atlântico Norte, alta pressão do ar sobre o Atlântico Sul para
estação seca.
A segunda componente apresentou forte correlação positiva de 0,9 nos meses de
dezembro a março, meses que apresentam início das chuvas no estado de Pernambuco
e que também podem está associados ao sistema meteorológico ZCIT e aos VCAN’s
e as linhas de instabilidade.
•
(a) Sem rotação
(b)
1
1
0,8
Correlações
0,6
0,4
0,2
0,6
0,4
0,2
0
JA
N
FE
V
M
A
R
A
BR
M
A
I
DEZ
OUT
NOV
SET
JUL
AG O
JU
MAI
ABR
FEV
MAR
JAN
0
Meses
Primeira componente
JU
JU
L
A
G
O
SE
T
O
U
T
N
O
V
D
EZ
Correlações
0,8
-0,2
Com rotação
Meses
segunda componente
Primeira Componente
Segunda Componente
Figura 4.2- Correlações dos dois primeiros fatores comuns temporais de precipitação.
2.2
2
(a)
(b)
1.8
1.6
1.4
1.2
1
0.8
-8
-8
0.6
0.4
0.2
0
-9
-9
-0.2
-0.4
-0.6
-41
-40
-39
-38
-37
-36
-35
-34
-41
-40
-39
-38
-37
-36
-35
-34
-0.8
-1
-1.2
-1.4
Figura 4.3- (a) Distribuição espacial do primeiro fator comum temporal de precipitação dos dados
médios mensais para o Estado da Pernambuco. (b) Distribuição espacial do segundo fator comum
temporal dos dados mensais.
5. REFERÊNCIAS BIBLIOGRÁFICAS
ARAÚJO S.M.B; Estudo da Variabilidade Climática em Regiões Homogêneas de
Temperaturas Médias no Rio Grande do Sul. Dissertação de mestrado, Universidade
Federal de Pelotas, 2005.
HASTENRATH, S.; GREISCHAR, L. Further Work on the Prediction of Northeast Brazil
Rainfall Anomalies, Journal of Climate, v. 6, p. 753-758, 1993:
HASTENRATH, S. The Droughts of Northeast Brazil and their Prediction. In: D.A.
Wilhite and W.E. Easterling (ed.) Planning for Drought, Toward a Reduction of Societal
Vulnerability, Westview Press/UNEP, Boulder, 1987.
2.8
2.6
2.4
2.2
2
1.8
1.6
1.4
1.2
1
0.8
0.6
0.4
0.2
0
-0.2
-0.4
-0.6
-0.8
-1
-1.2
-1.4
-1.6
JOHNSON, R.A.; WICHERN, D.W. Applied Multivariate Statistical Analysis. 4 ed. Upper
Saddle River: Prentice Hall, 1998.
PAULA, R.K.; Índices De Mudanças Climáticas, Vegetação da Superfície, Seca e
Desertificação: Um Estudo de Caso Para O Estado de Pernambuco. Trabalho de
conclusão de curso, Universidade Federal de Campina Grande, 2009
Download

Utilização da Análise de componentes Principais para