USO DE TÉCNICAS DE AGRUPAMENTOS PARA GRUPOS HOMOGENEOS COM CARACTERISITÍCAS SEMELHANTES UTILIZANDO DADOS PLUVIOMÉTRICOS DO ESTADO DA PARAÍBA 1 Roberto Alan Ferreira de Araújo; 2 Renilson Targino Dantas; 3 Genival da Silva;4 Edivania de Araújo Lima RESUMO - Este trabalho tem a finalidade de classificar as estações pluviométricas de uma nuvem de dados, que são conhecidos por suas características em comum de precipitação. Tal identificação desses grupos será feita através de técnica estatística conhecida como “Cluster Analysis”, ou Análise de Agrupamento. Esta análise foi feita com dados referentes à precipitação do Estado da Paraíba, sendo que os resultados obtidos estão em conformidade com valores anteriormente obtidos, através da formatação do Dendrograma. Palavras Chave: Precipitação, Análise de Agrupamento, Dendrograma. ABSTRACT: This work has the purpose to classify the pluviométricas stations of a cloud of data, that are known by its precipitation characteristics in common. Such identification of these groups will be made through technique known statistics as “Cluster Analysis”, or Analysis of Grouping. This analysis was made with referring data to the precipitation of the State of the Paraíba, being that the gotten results are in compliance with values previously gotten, through the formatting of the Dendrograma. Key Words: Precipitation, Cluster Analysis, Dendrograma. 1 INTRODUÇÃO Análise de agrupamento foi aplicada a pesquisa geofísica desde 1960. Foi durante esta década que esta técnica se proliferou. Uma pesquisa detalhada da literatura de análise de agrupamento usada nos campos da geofísica foi realizada dando conta que vários métodos de análise de agrupamento foram extensamente usados em tipos diferentes de problemas em pesquisa atmosféricas, (Gong e Richman, 1995). 1 Aluno de Mestrado em Meteorologia – UFCG, Av. Aprígio Veloso, 882, Bodocongó – 58109-970. Fone: (83) 3310-1054; email:[email protected]; 2 Professor Dr. UACA/CTRN/UFCG. e – mail: [email protected] ; 3 Aluno de Mestrado em Meteorologia – UFCG, e-mail: [email protected] . 4 Aluna Doutorando em Meteorologia – UFCG, Av. Aprígio Veloso, 882, Bodocongó – 58109-970. Fone: (83) 3310-1054; email:[email protected]; Esta técnica estatística de análise multivariada tem como objetivo principal classificar os indivíduos de uma população que são conhecidos por suas características, em grupos que sejam homogêneos intragrupos e heterogêneos intergrupos. As técnicas objetivas de agrupamentos diminuem a subjetividade, pois quantificam a similaridade ou dissimilaridade entre indivíduos. Dentre os vários métodos ou algoritmos de classificação de grupos estão aqueles que utilizam as técnicas hierárquicas. Neste a partição se dá a partir de um número de grupo não definido inicialmente, onde os grupos majoritários são divididos em subgrupos minoritários agrupando aqueles indivíduos que apresentam características semelhantes. A classificação dos indivíduos em grupos distintos é feita a partir de uma função de agrupamento denominada distancia ou similaridade e de um critério matemático de agrupamento (Bouroche e Saporta, 1982). Assim este trabalho tem como objetivo principal, a classificação de grupos homogêneos de precipitação usando para isto a análise de componentes principais com os dados de precipitação do estado da Paraíba. MATERIAIS E METÓDOS Para este trabalho usou-se dados referentes a análise de componentes principais de dados cedidos pelo Laboratório de Meteorologia e Recursos Hídricos do Estado da Paraíba . Foram analisados dados de pluviosidade mensal utilizando um conjunto de 90 das 256 do Estado usando o critério, para cada estação, de dados igual ou maior que 20 anos, distribuídos no período de 1960 – 1990 no estado da Paraíba. Abaixo segue a distribuição espacial das estações pluviométricas. 1 2 -6.5 5 6 -7 -7.5 15 8 9 10 11 7 12 13 14 37 39 3 4 23 16 1718 19 45 50 46 47 38 41 40 48 52 42 44 43 75 76 72 20 21 49 29 25 54 55 51 22 26 53 56 59 61 60 58 80 35 34 30 32 31 33 63 64 65 67 62 57 36 68 69 66 70 71 89 82 83 84 78 77 73 74 24 27 28 85 86 81 79 88 -8 -38.5 -38 -37.5 -37 87 -36.5 -36 -35.5 -35 Fig.1-Distribuição espacial das estações meteorológicas Foram usados primeiramente a análise de componentes principais, de posse com as observações feitas, faremos uso para estas observações de Análise de Agrupamento, mais conhecida como “Cluster Analysis”. No caso deste trabalho através critério da inércia, que observa o maior salto que é a média dos quadrados das distâncias entre os centros de gravidade de cada classe e o centro de gravidade total, chegamos ao número de grupos por ligação completa do grupo vizinho mais distantes (Lance e Williams, 1967). Este método procede em muito na mesma forma da ligação única, com uma exceção importante. Em cada estágio, a distancia entre grupos é determinada pela a distancia entre as duas entidades, uma para cada grupo, que estão mais distantes. Assim a ligação completa assegura que todas as entidades em um grupo estão dentro de alguma distância máxima de cada grupo. A distancia entre o grupo K, unido pelo i e j, e um outro grupo m é computada por: d KM = max(dim , d jm ) Onde dim , d jm são as distâncias entre os membros mais distantes dos grupos i e m e grupos j e m, respectivamente, (Gong e Richman, 1995). Para obtermos o dendrograma temos que definir uma distancia entre classes, o critério que iremos usar será o da inércia levando em consideração o método de Warde, ,(Bouroche e Saporta, 1982). RESULTADOS O agrupamento das 90 estações observadas em grupos homogêneos foi realizado através do método de ligação completa, sendo que a distancia Euclidiana simples foi usada como função de agrupamento para medir a similaridade ou dissimilaridade entre as estações. Através do gráfico da inércia foi possível chegar a um número de grupos concretamente: Curva de Inércia Distancia Entre Grupos 2000 1750 1500 1250 1000 750 500 250 Núm ero de Grupos Figura 2: Curva de Inércia 91 85 79 73 67 61 55 49 43 37 31 25 19 7 13 1 0 É observado que no grupo 6 há um salto nos valores sendo escolhido neste ponto para que se possa obter o dendrograma apropriado para tal trabalho. Desta forma o a árvore encontrada com seis grupos homogêneos. Usando este método chegamos a um dendograma resultante do agrupamento da componente de precipitação das 90 estações analisadas. Ao lado observa-se o corte dos grupos homogêneos utilizando a distancia Euclidiana simples e o método de Ward. A Figura abaixo mostra a distribuição espacial dos grupos homogêneos encontrados. 1 3 3 2 3 -6.5 3 4 4 3 -7 3 4 3 3 4 4 3 3 3 3 4 4 3 5 3 4 3 3 2 3 2 3 2 3 3 3 2 2 2 2 44 5 1 1 5 6 2 3 1 1 2 3 2 1 2 2 3 3 2 1 2 1 4 4 4 5 3 4 1 6 3 3 4 3 4 3 3 4 4 -7.5 3 3 3 3 3 6 2 2 2 3 3 2 -8 -38.5 -38 -37.5 -37 3 -36.5 -36 -35.5 -35 Fig. 4: Distribuição espacial dos grupos de precipitação homogenias. Logo temos as seguintes denominações para os grupos: CORTE Fig. 3: Dendrograma mostrando grupos homogêneos de precipitação das 90 estações. Método : hierárquico (vizinho mais distante). Função de agrupamento: Distancia Euclidiana critério da inércia. Com estes resultados podemos observar que de acordo com estudos feitos anteriormente mostram que cerca de 97% do grupo 2 e aproximadamente 75 % do grupo um se encontra dentro da faixa que compreende o cariri e curimataú, tendo os grupos 5 com 75% e o 6 com 100% de da faixa que compreende o litoral brejo e agreste, ficando o grupo 3 com 71.05% dentro da faixa que compreende o sertão bem como o grupo 4 teve 66,66% dentro desta área. Sendo assim para este estudo da variabilidade interanual da precipitação pluviométrica no Estado da Paraíba, através do método de Ward, geraram-se 6 áreas homogenias sendo que o corte do dendrograma foi feito de maneira subjetiva, observando as características pluviométricas do estado. CONCLUSÕES 1- Este trabalho teve como objetivo encontrar grupos homogêneos, ou seja, com características semelhantes de precipitação, através de análise de agrupamento técnica esta que consiste em não considerar um número de grupos, porém sim a dissimilaridade e similaridade entre os grupos; 2- Através do Método : hierárquico (vizinho mais distante), e tendo como função de agrupamento a distancia Euclidiana com o critério da inércia foi encontrado o número de grupos subjetivamente, fazendo com que o corte no dendrograma evidenciasse 6 grupos. 3- É observado que o grupo 4 está mais constante no Sertão mais também se apresenta entre o litoral norte e o brejo, bem como o grupo 3, que mostra a ocorrência de similaridade neste dois casos. REFERENCIAS BIBLIOGRAFICAS GONG, XIAFENG ; RICHMAN, MCHAEL B.; On the application of analysis to growing seaso precipitation data in Northe Easte of the Rockies, Journal of Climate, 24 de agosto de 1994. BOUROCHE; J- M; SAPORTA, G.; “Análise de Dados”, Zahar editores, 1982, Rio de janeiro, Brasil. CORMA. R. M.. 19971: A review of classification. J. Roy. Stat. Soc. (Ser.A). 134. 321 – 367. Duran. B. S.. and P. L. Odell, 1974: Cluster analydis : Asurvey Springer.-Velarg. 137 pp. Blashfield. R. K.. 1976?: Mixture model tests of cluster analysis: Acuracy of agglomerative hierarchical methods.Psychol Bull., 83, 377 - 388 .