TÉCNICAS DE MINERAÇÃO DE DADOS NO ESTUDO DE DESASTRES NATURAIS E PLANEJAMENTO URBANO Fabio Teodoro de Souza(1) Engenheiro Civil pela Universidade Estadual de Ponta Grossa. Mestre em Recursos Hídricos pela COPPE/UFRJ Universidade Federal do Rio de Janeiro. Doutor em Sistemas Computacionais pela COPPE/UFRJ. Pósdoutorado em Mineração de Dados pela Universidade de Tsinghua (China). Professor dos cursos de Engenharia Civil e Engenharia Ambiental da Pontifícia Universidade Católica do Paraná (PUCPR). Professor Colaborador do Programa de Pós-Graduação em Gestão Urbana (PPGTU/PUCPR). Harry Alberto Bollmann(2) Engenheiro Civil pela Pontifícia Universidade Católica do Paraná (PUCPR). Mestre em Hidráulica e Saneamento pela Universidade de São Paulo (USP). Doutor em Engenharia Civil (Recursos Hídricos e Saneamento Ambiental) pela Universidade Federal do Rio Grande do Sul. Membro do LEAD International Institute em Estudos de Sustentabilidade. Professor Titular da Pontifícia Universidade Católica do Paraná (PUCPR) e Professor Permanente do Programa de Pós-Graduação em Gestão Urbana (PPGTU/PUCPR). Joel Krüger(1) Engenheiro Civil pela Universidade Federal do Paraná (UFPR). Mestre em Educação pela Pontifícia Universidade Católica do Paraná (PUCPR). Possui dois Cursos de Especialização: Didática no Ensino Superior e Gestão Técnica do Meio Urbano, promovidos pela Pontifícia Universidade Católica do Paraná e pela Universite de Technologie de Compiegne. Professor Adjunto e Coordenador do Curso de Engenharia Civil da Pontifícia Universidade Católica do Paraná (PUCPR). Giovani Rezende de Souza(3) Licenciado em Educação Física pela Universidade Estadual de Londrina (UEL). Pós graduado em Fisiologia do Exercício pela Faculdade Internacional de Curitiba (FACINTER). Participante do Programa de Desenvolvimento Educacional do Paraná (PDE). Professor de Educação Física da Rede Pública do Estado do Paraná. Endereço(1): Rua Imaculada Conceição, 1155 – Prado Velho - Curitiba - PR - CEP: 80215-901 - Brasil - Tel: (41) 3271-1568 / 3271-1728 - e-mail: [email protected] / [email protected]. Endereço(2): Rua Imaculada Conceição, 1155 – Prado Velho - Curitiba - PR - CEP: 80215-901 - Brasil - Tel: (41) 3271-1647 - e-mail: [email protected]. Endereço(3): Rua Plínio Costa, 240 – Centro - Cafelândia - PR - CEP: 85415-000 - Brasil - Tel: (45) 3241-1778 - e-mail: [email protected] 1 XX-00 – TÉCNICAS DE MINERAÇÃO DE DADOS NO ESTUDO DE DESASTRES NATURAIS E PLANEJAMENTO URBANO INTRODUÇÃO A área de gestão urbana exerce função importante na harmonização do crescimento populacional e das relações antropogênicas associadas ao meio local. A ocupação desordenada e mal planejada dos grandes centros urbanos é um problema mundial que altera as características físicas do ambiente natural, provocando impactos negativos na vegetação, destino de resíduos, e pricipalmente agredindo os recursos hídricos. A gestão do uso e ocupação das bacias hidrográficas é um processo complexo e envolve um grande número de variáveis em diferentes escalas espaciais e temporais. As técnicas de mineração de dados (data mining) aliadas aos Sistemas de Informações Geográficas (SIG’s) podem contribuir de forma significativa para elucidar padrões relevantes no estudo da ocupação das bacias hidrográficas e os impactos relacionados, tais como movimentos de massa, enchentes, degradação da qualidade das águas, do solo e do ar. Este artigo descreve uma metodologia que utiliza técnicas computacionais para a previsão de desastres naturais e para o estudo do impacto causado nos corpos hídricos decorrente do crescimento urbano. Para tanto, são apresentados três estudos científicos: duas pesquisas em que foram construídos modelos preditivos de movimentos de massa e uma prospecção de pesquisa que abrange tem como principal objetivo o entendimento da dinâmica espaço-temporal da qualidade das águas em bacias hidrográficas do Alto Iguaçú. Os efeitos causados pelas chuvas intensas são de grande proporção nas áreas sujeitas à ocorrência de escorregamentos, e estes desastres acontecem principalmente devido às agressões ambientais. O trabalho de Souza (2004) consistiu na construção de modelos computacionais, usando técnicas de Mineração de Dados e SIG’s, capazes de predizer a ocorrência desses acidentes nas encostas do município do Rio de Janeiro. O conhecimento dos padrões existentes entre os diversos fenômenos relacionados aos escorregamentos permite o estabelecimento de critérios determinantes para a emissão dos alertas e a conseqüente mobilização das instituições responsáveis para o auxílio à população habitante das regiões das encostas. Os terremotos associados com os abalos sísmicos secundários (aftershocks) também causam muitos movimentos de massa (avalanches e deslizamentos) induzindo consequências catastróficas. A distribuição espacial dos movimentos de massa é um espalhamento aleatório com eventos localizados a grandes distâncias, ou seja, a mais de 50 km distante do epicentro mais próximo. Como existe um período decisivo de 72 horas para a realização das operações de resgate e maximizar a segurança das vidas, a rápida localização dos movimentos de massa seria uma importante ferramenta para as autoridades responsáveis na mobilização das operações de resgate, na avaliação da estabilidade das encostas, e no planejamento de questões ambientais. A pesquisa de Souza & Wang (2010) propôs a construção de modelos baseados em técnicas de Inteligência Artificial para prever ou localizar os Movimentos de Massa e possibilitando a localização imediata desses eventos. O efeito da urbanização na degradação da qualidade das águas em bacias hidrográficas da região metropolitana de Curitiba vem sido estudado pela Secretaria de Estado do Meio Ambiente e Recursos Hídricos em colaboração com Instituto Ambiental do Paraná (SEMA-PR & IAP, 2005). Um programa de monitoramento, que foi implementado em 1992, coleta e processa dados de parâmetros físicoquímicos, bacteriológicos e ecotoxicológicos em sete subsistemas. O presente artigo prospecta uma pesquisa em fase inicial que deve utilizar as técnicas de mineração de dados e SIG’s para potencialmente contribuir na descoberta de padrões relevantes associados à ocupação das bacias hidrográficas. MATERIAIS E MÉTODOS Qualquer projeto envolvendo mineração de dados consiste de três tarefas: a) Obtenção dos Dados; b) Preparação dos Dados; e c) Modelagem. Na primeira tarefa deve ser agregado o máximo de informação possível relacionada ao tema proposto. A segunda tarefa ou preparação de dados é a parte mais 2 importante de qualquer projeto, Pyle (1999), e os dados preparados cuidadosamente expõem melhor a informação contida para as ferramentas de modelagem. Na terceira tarefa, três principais abordagens de modelos podem ser desenvolvidas com as técnicas de mineração de dados: previsão (classificação e regressão), regras de associação e agrupamento de dados (clustering). As ferramentas de agrupamento de dados permitem a identificação de grupos ou classes similares. Essas técnicas são bastante úteis na geração de mapas e permitem uma visualização clara da distribuição espacial das variáveis analisadas. No estudo dos deslizamentos induzidos por fortes chuvas no Rio de Janeiro, o banco de dados de chuva é composto de registros de chuva a cada 15 minutos, de 30 pluviômetros da rede automática, e a partir de seis dias antecedentes e inclusive aos dias dos acidentes. Esta base de dados apresentava-se com registros ausentes de chuva. Para que se pudesse alcançar uma melhor estimativa dos padrões de chuvas causadores dos escorregamentos, foi preciso preencher essas falhas. O preenchimento pôde ser feito com auxílio da técnica de redes neurais artificiais (RNA’s), e os dados usados para o treinamento, teste e verificação das RNA’s, foram agrupados regionalizando os dados de chuva, Souza & Ebecken (2003; 2004). As quatro diferentes técnicas de agrupamento de dados utilizadas foram: Foram adotadas quatro técnicas para a regionalização: Análise de Componente Principal (ACP), Matriz de Auto Correlação ou Correlação de Pearson, Árvore de Agrupamento ou Dendrograma e o Método k-Médio. As regras de associação são modelos extremamente simples de causa/efeito (SE, ENTÃO) que não somente explicam qualitativamente a inter-relação entre as variáveis, mas também quantificam a probabilidade dessas relações, conforme descrito no trabalho de Liu et al. (1998, 2000). Esta abordagem ilustra, por exemplo, um modelo de predição de escorregamento através de uma associação da probabilidade da ocorrência de um determinado índice pluviométrico ou de chuva acumulada. Os modelos de previsão consistem da predição de uma categoria (classificação) ou valor numérico (regressão), a partir de um padrão da entrada de variáveis que explicam o fenômeno. As técnicas de Redes Neurais Artificiais (RNA’s) e o Método dos Vizinhos Mais Próximos (k-NN) foram usados na construção de modelos para prever os movimentos de massa induzidos por fortes chuvas nas encostas do município do Rio de Janeiro. Ambas as aproximações envolvem aprendizagem através de dados históricos e possuem excelente capacidade de generalização (Souza & Ebecken, 2004). Modelos híbridos integrando as duas técnicas aumentam significativamente a acurácia dos modelos (Souza & Wang, 2010 a,b) e tais modelos foram desenvolvidos para a previsão de movimentos de massa induzidos por abalos sísmicos na Província de Sichuan, na China. Similarmente, todas as técnicas decritas devem ser utilizadas para avaliar o uso e ocupação do solo, a qualidade das águas (parâmetros físicos, químicos e biológicos), a permeabilidade natural dos solos, Áreas de Proteção Permanente (APP’s), entre outros atributos importantes em bacias hidrográficas da região metropolitana de Curitiba-PR. Pretende-se explorar os dados obtidos em 67 trechos monitorados em 40 diferentes rios localizados na região metropolitana. O histórico compreende o período de 1991 a 2010, sendo realizadas em média três campanhas anuais para o intervalo de 1992 a 2004, e seis campanhas anuais para o intervalo de 2005 a 2007. Todos os dados foram inseridos em um SIG. A metodologia deve ser validada e comparada com outras bacias hidrográficas, portanto, também devem ser obtidos dados de outras diferentes bacias. Esta pesquisa em fase inicial também prospecta além da identificação de informações relevantes do atual cenário, a previsão de padrões futuros nas bacias hidrográficas consideradas através dos modelos híbridos que integram as técnicas de RNA’s e o Método k-NN. Espera-se com este projeto o desenvolvimento de uma metodologia consolidada, e validada em dados reais, para ser aplicada em diversos outros estudos de gestão do uso e ocupação das bacias hidrográficas. RESULTADOS E DISCUSSÃO A predição dos valores ausentes de chuva do estudo do Rio de Janeiro foi realizada através das técnicas de RNA’s depois da regionalização da chuva. Uma vez identificado o pluviômetro com dado ausente (camada de saída da RNA), então é necessário utilizar as técnicas de regionalização, que selecionam os pluviômetros para o treinamento das RNA’s (camada de entrada da RNA). Foram adotadas quatro técnicas para a regionalização: Análise de Componente Principal (ACP), Correlação de Pearson, dendrograma e o Método k-médio. A tabela 1 apresenta um resumo estatístico da parcela de validação dos modelos de RNA, com resultados de dois parâmetros determinantes na escolha da melhor predição (razão de desvio padrão e correlação de pearson-r2). Os resultados da regionalização para um exemplo de pluviômetro com dado ausente são descritos a seguir. 3 Tabela 1 – Resumo estatístico das predições (validação). Métodos ACP Correlação (r2) Árvore k-Médio r2 0,94 0,95 0,83 0,89 Razão de Desvio Padrão 0,34 0,34 0,55 0,48 As simulações foram realizadas com os dados medidos dos 30 pluviômetros durante o período de 31/dez/98 a 13/jan/99. Foi escolhido o pluviômetro instalado em Santa Tereza, polígono em branco na figura 2 (a), por apresentar valores elevados de precipitação (pico de 26.8 mm / 15min). Na abordagem que considera ACP, foram agrupados os pluviômetros (polígonos de Thiessen em cinza escuro) com o mesmo fator do pluviômetro de Santa Tereza (polígono em branco). A figura 1 (b) ilustra o resultado da predição do valor ausente na amostra de validação do modelo. Pode-se observar na figura 1 (b) que a linha de predição (pontilhada) apresenta boa aderência com a linha dos dados medidos (linha cheia). A linha de predição consegue aproximar os valores máximos registrados e as variações bruscas no tempo com resultados satisfatórios. 30 Precipitação (mm / 15 min) 25 20 15 Dados Me didos Pre dição 10 5 0 740 742 744 746 748 750 752 C asos (a) (b) Figura 1: (a) regionalização da chuva pelo Método ACP; (b) predição do valor ausente (amostra de validação). A seguir é apresentada uma regra de associação interessante que pode ser acionável e contribuir com o sistema alerta existente no Rio de Janeiro: Rule 9: SE h_6_>_43.7mm ENTÃO-> DESLIZAMENTO (9.2% 90.6% 117 106) 9.2% - é o valor suporte da regra (porcentagem das vezes em que a chuva acumulada em 6 horas ultrapassa 43.7mm ou que ocorre deslizamento ou escorregamento), ou seja, do total de 1266 registros da base de dados, 117 registros apresentam um dos dois itens: h_6_>_43.7 mm ou DESLIZAMENTO. 90.6% - é a confiança da regra, ou seja, dado que o primeiro item aconteça (h_6_>_43.7mm), existe uma probabilidade de 90.6% (ou 106 vezes em 117) que aconteça o segundo item (DESLIZAMENTO). Este modelo bastante simples poderia servir como uma informação adicional na mobilização das instituições responsáveis para o auxílio à população habitante das regiões das encostas durante as fortes chuvas. Também foram construídos modelos para predição de escorregamentos com as técnicas de RNA’s e Regras de Classificação. Durante uma forte chuva, tais modelos consistem em prever três diferentes taxonomias: a Tipologia dos Acidentes (Não Ocorrência, Pânico ou Acidente), Volume (Volume=0 ou Volume>0) e Danos Causados (Sem Danos ou Com Danos). A tabela 2 ilustra os resultados da classificação para as duas técnicas utilizadas. Os valores são referentes à taxa correta de classificação. É importante ressaltar que a acurácia e precisão de tais resultados foram obtidos com um banco de dados relacionado aos registros de escorregamentos entre 1998 e 2001, incluindo parâmetros do solo e meteorológicos. Contudo, se os mesmos modelos fossem construídos novamente considerando o histórico de deslizamentos até a atualidade (2011), a acurácia e precisão dos modelos seriam muito 4 maiores com um conjunto de treinamento maior, pois tais técnicas dependem de grande número de exemplos para a “aprendizagem”. A previsão destas catástrofes e a possível implementação dos modelos são de grande importância para a mobilização das instituições responsáveis em prestar auxílio à população habitante das regiões das encostas. Tabela 2 - Resultados da classificação para Deslizamentos induzidos por fortes chuvas. Taxonomias Tipologia Volume (Euclidian) Volume (Manhattan) Consequência Classes Taxa correta de classificação (%) RNA Regras de classificação 94.1 80.7 93.6 89.4 72.4 79.0 87.1 89.3 75.9 88.1 90.4 87.3 74.6 91.3 80.2 91.5 70.8 88.1 Não Ocorrência Pânico Deslizamento V=0 m3 V>0 m3 V=0 m3 V>0 m3 Com Danos Sem Danos Muitos movimentos de massa (avalanches e deslizamentos) também são induzidos por terremotos associados com os abalos sísmicos secundários (aftershocks) causando consequências catastróficas. Em 12 de maio de 2008, um terremoto com magnitude 7.9 na escala Richter ocorreu na área de Wenchuan, na Província de Sichuan, na China, causando muitos deslizamentos, avalanches, desmoronamentos ou colapsos, corrida de detritos ou debris flow, quake lakes, e estimulando a instabilidade de muitas encostas de Sichuan. A distribuição espacial dos movimentos de massa é um espalhamento aleatório com eventos localizado s a grandes distâncias, ou seja, a mais de 50 km distante do epicentro mais próximo. Como existe um período decisivo de 72 horas para a realização das operações de resgate e maximizar a segurança das vidas, a rápida localização dos movimentos de massa seria uma importante ferramenta para as autoridades responsáveis na mobilização das operações de resgate, na avaliação da estabilidade das encostas, e no planejamento de questões ambientais. Dessa forma, foram construídos modelos de regressão baseados em técnicas de Mineração de Dados para prever ou localizar os Movimentos de Massa, e possibilitando assim a localização imediata desses eventos. A novidade deste trabalho científico em relação ao estudo do Rio de Janeiro é a integração de duas técnicas em um modelo híbrido. Através do método do k-NN foi construído um modelo primário para gerar um primeiro resultado, e subsequentemente, este resultado primário foi utilizado também como uma variável de entrada para o treinamento de um RNA. Para a construção dos modelos, foram utilizados os dados de mais de 3880 registros de movimentos de massa, das coordenadas dos abalos sísmicos, proximidade de rios, falhas geológicas e da topografia. Para a localização do movimento de massa foram considerados três sub modelos, e a saída ou resultado de cada sub modelo é a latitude, longitude e altitude. Com estas três coordenadas seria possível identificar a região do movimento de massa simplesmente através da leitura do epicentro do abalo sísmico. A tabela 3 resume os resultados dos três sub-modelos na validação para quatro diferentes métricas: Correlação de Pearson (r2), Nash-Sutcliffe, erro relativo, e erro absoluto. A amostra de validação compreende 10% dos registros do banco de dados, ou 380 registros. Tabela 3 - Resultados da regressão para Movimentos de Massa induzidos por abalos sísmicos. Métrica Correlação de Pearson (r2) Nash-Sutcliffe Erro relativo Erro absoluto Previsão Longitude 0,997 0,993 0,02% ~ 2.0km Latitude 0,995 0,989 0,07% ~ 1.7km Altitude 0,935 0,851 12,82% ~ 0.2km O modelo híbrido adotado como solução para melhorar o desempenho preditivo pode ser considerado como uma boa estratégia em estudos envolvendo padrões lineares e não-lineares. A estrutura do modelo integra com sucesso as técnicas de k-NN e RNA. Conforme se pode observar na tabela 3, os modelos apresentam boa acurácia e poderiam ser utilizados em eventos de terremotos futuros para 5 auxiliar as autoridades responsáveis na mobilização das operações de resgate, na avaliação da estabilidade das encostas, e no planejamento de questões ambientais. Correlação de Pearson A metodologia utilizada nos estudos de Movimentos de Massa induzidos por fortes chuvas (Rio de Janeiro) e induzidos por abalos sísmicos (Sichuan, na China) está sendo adaptada para o estudo da ocupação das bacias hidrográficas e qualidade das águas na região metropolitana de Curitiba. Este estudo encontra-se na fase inicial de obtenção e preparação dos dados. O primeiro passo desta metodologia foi a criação de uma matriz em que cada linha corresponde a uma estação de monitoramento e cada linha está associado aos valores de parâmetros físico-químicos (FQ), bacteriológicos (CF) e ecotoxicológicos (ECOT), e integrados e normalizados conforme estudos propostos por Hawkes, 1979; Hellawell, 1986; USEPA, 1994; Barbour et al.,1995; Bollmann et al., 2005. A figura 2 mostra a variação da correlação de Pearson entre os parâmetros considerados e ao longo de períodos definidos. 1.00 ECOT_ECOT CF_CF CF_ECOT FQ_FQ 0.80 FQ_CF FQ_ECOT 0.60 0.40 0.20 0.00 -0.20 1992________1997 1995________1999 1997________2001 1999________2005 Período Figura 2 - Variação da correlação de Pearson entre os parâmetros considerados e ao longo do tempo. Percebe-se de forma clara que o coeficiente de correlação linear tem decrescido significativamente, muito provável que tenha sido devido ao desenvolvimento acelerado da região metropolitana nas duas últimas décadas. Esse fato realça a necessidade da integração de múltiplas ferramentas que capturem padrões lineares e não-lineares do estudo proposto. CONCLUSÕES E TRABALHOS SUBSEQÜENTES Os modelos computacionais para a predição de movimentos de massa induzidos por fortes chuvas (no município do Rio de Janeiro) e induzidos por abalos sísmicos (na Província de Sichuan na China) apresentaram grande acurácia e poderiam ser utilizados pelas instituições responsáveis. Os resultados comprovam que tal metodologia poderia ser também utilizada para a previsao de enchentes nas grandes cidades brasileiras e para o estudo de desenvolvimento urbano, considerando as diversas disciplinas envolvidas. Todas as técnicas decritas devem ser utilizadas para avaliar o uso e ocupação do solo, a qualidade das águas (parâmetros físicos, químicos e biológicos), a permeabilidade natural dos solos, Áreas de Proteção Permanente (APP’s), entre outros atributos importantes em bacias hidrográficas da região metropolitana de Curitiba-PR. REFERÊNCIAS BIBLIOGRÁFICAS BARBOUR, M.T.; STRIBLING, J.B. e KARR, J.R. Multimetric approach for establishing multicriteria and measuring biological condition. In: Biological Assessment and Criteria (Org. Davis, W.S.), Cap. 6, Lewis Publishers, Boca Raton, Florida/USA, 2005, p(63-77); BOLLMANN, H. A. et al., Monitoramento da qualidade das águas dos reservatórios. do estado do Paraná, no período de 1999 a 2004. Curitiba, 2005. HAWKES, H.A. Invertebrates as indicators of river water quality. In: Biological Indicators of Water Quality (James, A. e Evison, L. Editores). John Willey and Sons Ltda., 1979, p(2-1 a 2-45); HELLAWELL, J.M. Biological indicators of freshwater pollution and environmental management. Elsevier Applied Science, London/Great Britain, 1986, 546p.; USEPA (1994) – Summary of State Biological Assessment Programs for Streams and Small Rivers. United States Environmental Protection Agency, 68kb (13/09/1999). 6