TÉCNICAS DE MINERAÇÃO DE DADOS NO ESTUDO DE DESASTRES
NATURAIS E PLANEJAMENTO URBANO
Fabio Teodoro de Souza(1)
Engenheiro Civil pela Universidade Estadual de Ponta Grossa. Mestre em Recursos Hídricos pela COPPE/UFRJ Universidade Federal do Rio de Janeiro. Doutor em Sistemas Computacionais pela COPPE/UFRJ. Pósdoutorado em Mineração de Dados pela Universidade de Tsinghua (China). Professor dos cursos de Engenharia
Civil e Engenharia Ambiental da Pontifícia Universidade Católica do Paraná (PUCPR). Professor
Colaborador do Programa de Pós-Graduação em Gestão Urbana (PPGTU/PUCPR).
Harry Alberto Bollmann(2)
Engenheiro Civil pela Pontifícia Universidade Católica do Paraná (PUCPR). Mestre em Hidráulica e
Saneamento pela Universidade de São Paulo (USP). Doutor em Engenharia Civil (Recursos Hídricos e
Saneamento Ambiental) pela Universidade Federal do Rio Grande do Sul. Membro do LEAD International
Institute em Estudos de Sustentabilidade. Professor Titular da Pontifícia Universidade Católica do Paraná
(PUCPR) e Professor Permanente do Programa de Pós-Graduação em Gestão Urbana (PPGTU/PUCPR).
Joel Krüger(1)
Engenheiro Civil pela Universidade Federal do Paraná (UFPR). Mestre em Educação pela Pontifícia
Universidade Católica do Paraná (PUCPR). Possui dois Cursos de Especialização: Didática no Ensino
Superior e Gestão Técnica do Meio Urbano, promovidos pela Pontifícia Universidade Católica do Paraná e
pela Universite de Technologie de Compiegne. Professor Adjunto e Coordenador do Curso de Engenharia
Civil da Pontifícia Universidade Católica do Paraná (PUCPR).
Giovani Rezende de Souza(3)
Licenciado em Educação Física pela Universidade Estadual de Londrina (UEL). Pós graduado em Fisiologia
do Exercício pela Faculdade Internacional de Curitiba (FACINTER). Participante do Programa de
Desenvolvimento Educacional do Paraná (PDE). Professor de Educação Física da Rede Pública do Estado do
Paraná.
Endereço(1): Rua Imaculada Conceição, 1155 – Prado Velho - Curitiba - PR - CEP: 80215-901 - Brasil - Tel: (41)
3271-1568 / 3271-1728 - e-mail: [email protected] / [email protected].
Endereço(2): Rua Imaculada Conceição, 1155 – Prado Velho - Curitiba - PR - CEP: 80215-901 - Brasil - Tel: (41)
3271-1647 - e-mail: [email protected].
Endereço(3): Rua Plínio Costa, 240 – Centro - Cafelândia - PR - CEP: 85415-000 - Brasil - Tel: (45) 3241-1778 - e-mail:
[email protected]
1
XX-00 – TÉCNICAS DE MINERAÇÃO DE DADOS NO ESTUDO DE
DESASTRES NATURAIS E PLANEJAMENTO URBANO
INTRODUÇÃO
A área de gestão urbana exerce função importante na harmonização do crescimento populacional e das
relações antropogênicas associadas ao meio local. A ocupação desordenada e mal planejada dos grandes
centros urbanos é um problema mundial que altera as características físicas do ambiente natural,
provocando impactos negativos na vegetação, destino de resíduos, e pricipalmente agredindo os
recursos hídricos. A gestão do uso e ocupação das bacias hidrográficas é um processo complexo e
envolve um grande número de variáveis em diferentes escalas espaciais e temporais. As técnicas de
mineração de dados (data mining) aliadas aos Sistemas de Informações Geográficas (SIG’s) podem
contribuir de forma significativa para elucidar padrões relevantes no estudo da ocupação das bacias
hidrográficas e os impactos relacionados, tais como movimentos de massa, enchentes, degradação da
qualidade das águas, do solo e do ar.
Este artigo descreve uma metodologia que utiliza técnicas computacionais para a previsão de desastres
naturais e para o estudo do impacto causado nos corpos hídricos decorrente do crescimento urbano.
Para tanto, são apresentados três estudos científicos: duas pesquisas em que foram construídos modelos
preditivos de movimentos de massa e uma prospecção de pesquisa que abrange tem como principal
objetivo o entendimento da dinâmica espaço-temporal da qualidade das águas em bacias hidrográficas
do Alto Iguaçú.
Os efeitos causados pelas chuvas intensas são de grande proporção nas áreas sujeitas à ocorrência de
escorregamentos, e estes desastres acontecem principalmente devido às agressões ambientais. O
trabalho de Souza (2004) consistiu na construção de modelos computacionais, usando técnicas de
Mineração de Dados e SIG’s, capazes de predizer a ocorrência desses acidentes nas encostas do
município do Rio de Janeiro. O conhecimento dos padrões existentes entre os diversos fenômenos
relacionados aos escorregamentos permite o estabelecimento de critérios determinantes para a emissão
dos alertas e a conseqüente mobilização das instituições responsáveis para o auxílio à população
habitante das regiões das encostas.
Os terremotos associados com os abalos sísmicos secundários (aftershocks) também causam muitos
movimentos de massa (avalanches e deslizamentos) induzindo consequências catastróficas. A
distribuição espacial dos movimentos de massa é um espalhamento aleatório com eventos localizados a
grandes distâncias, ou seja, a mais de 50 km distante do epicentro mais próximo. Como existe um
período decisivo de 72 horas para a realização das operações de resgate e maximizar a segurança das
vidas, a rápida localização dos movimentos de massa seria uma importante ferramenta para as
autoridades responsáveis na mobilização das operações de resgate, na avaliação da estabilidade das
encostas, e no planejamento de questões ambientais. A pesquisa de Souza & Wang (2010) propôs a
construção de modelos baseados em técnicas de Inteligência Artificial para prever ou localizar os
Movimentos de Massa e possibilitando a localização imediata desses eventos.
O efeito da urbanização na degradação da qualidade das águas em bacias hidrográficas da região
metropolitana de Curitiba vem sido estudado pela Secretaria de Estado do Meio Ambiente e Recursos
Hídricos em colaboração com Instituto Ambiental do Paraná (SEMA-PR & IAP, 2005). Um programa
de monitoramento, que foi implementado em 1992, coleta e processa dados de parâmetros físicoquímicos, bacteriológicos e ecotoxicológicos em sete subsistemas. O presente artigo prospecta uma
pesquisa em fase inicial que deve utilizar as técnicas de mineração de dados e SIG’s para
potencialmente contribuir na descoberta de padrões relevantes associados à ocupação das bacias
hidrográficas.
MATERIAIS E MÉTODOS
Qualquer projeto envolvendo mineração de dados consiste de três tarefas: a) Obtenção dos Dados; b)
Preparação dos Dados; e c) Modelagem. Na primeira tarefa deve ser agregado o máximo de informação
possível relacionada ao tema proposto. A segunda tarefa ou preparação de dados é a parte mais
2
importante de qualquer projeto, Pyle (1999), e os dados preparados cuidadosamente expõem melhor a
informação contida para as ferramentas de modelagem. Na terceira tarefa, três principais abordagens de
modelos podem ser desenvolvidas com as técnicas de mineração de dados: previsão (classificação e
regressão), regras de associação e agrupamento de dados (clustering).
As ferramentas de agrupamento de dados permitem a identificação de grupos ou classes similares.
Essas técnicas são bastante úteis na geração de mapas e permitem uma visualização clara da
distribuição espacial das variáveis analisadas. No estudo dos deslizamentos induzidos por fortes chuvas
no Rio de Janeiro, o banco de dados de chuva é composto de registros de chuva a cada 15 minutos, de
30 pluviômetros da rede automática, e a partir de seis dias antecedentes e inclusive aos dias dos
acidentes. Esta base de dados apresentava-se com registros ausentes de chuva. Para que se pudesse
alcançar uma melhor estimativa dos padrões de chuvas causadores dos escorregamentos, foi preciso
preencher essas falhas. O preenchimento pôde ser feito com auxílio da técnica de redes neurais
artificiais (RNA’s), e os dados usados para o treinamento, teste e verificação das RNA’s, foram
agrupados regionalizando os dados de chuva, Souza & Ebecken (2003; 2004). As quatro diferentes
técnicas de agrupamento de dados utilizadas foram: Foram adotadas quatro técnicas para a
regionalização: Análise de Componente Principal (ACP), Matriz de Auto Correlação ou Correlação de
Pearson, Árvore de Agrupamento ou Dendrograma e o Método k-Médio.
As regras de associação são modelos extremamente simples de causa/efeito (SE, ENTÃO) que não
somente explicam qualitativamente a inter-relação entre as variáveis, mas também quantificam a
probabilidade dessas relações, conforme descrito no trabalho de Liu et al. (1998, 2000). Esta abordagem
ilustra, por exemplo, um modelo de predição de escorregamento através de uma associação da
probabilidade da ocorrência de um determinado índice pluviométrico ou de chuva acumulada.
Os modelos de previsão consistem da predição de uma categoria (classificação) ou valor numérico
(regressão), a partir de um padrão da entrada de variáveis que explicam o fenômeno. As técnicas de
Redes Neurais Artificiais (RNA’s) e o Método dos Vizinhos Mais Próximos (k-NN) foram usados na
construção de modelos para prever os movimentos de massa induzidos por fortes chuvas nas encostas
do município do Rio de Janeiro. Ambas as aproximações envolvem aprendizagem através de dados
históricos e possuem excelente capacidade de generalização (Souza & Ebecken, 2004). Modelos
híbridos integrando as duas técnicas aumentam significativamente a acurácia dos modelos (Souza &
Wang, 2010 a,b) e tais modelos foram desenvolvidos para a previsão de movimentos de massa
induzidos por abalos sísmicos na Província de Sichuan, na China.
Similarmente, todas as técnicas decritas devem ser utilizadas para avaliar o uso e ocupação do solo, a
qualidade das águas (parâmetros físicos, químicos e biológicos), a permeabilidade natural dos solos,
Áreas de Proteção Permanente (APP’s), entre outros atributos importantes em bacias hidrográficas da
região metropolitana de Curitiba-PR. Pretende-se explorar os dados obtidos em 67 trechos monitorados
em 40 diferentes rios localizados na região metropolitana. O histórico compreende o período de 1991 a
2010, sendo realizadas em média três campanhas anuais para o intervalo de 1992 a 2004, e seis
campanhas anuais para o intervalo de 2005 a 2007. Todos os dados foram inseridos em um SIG. A
metodologia deve ser validada e comparada com outras bacias hidrográficas, portanto, também devem
ser obtidos dados de outras diferentes bacias. Esta pesquisa em fase inicial também prospecta além da
identificação de informações relevantes do atual cenário, a previsão de padrões futuros nas bacias
hidrográficas consideradas através dos modelos híbridos que integram as técnicas de RNA’s e o Método
k-NN. Espera-se com este projeto o desenvolvimento de uma metodologia consolidada, e validada em
dados reais, para ser aplicada em diversos outros estudos de gestão do uso e ocupação das bacias
hidrográficas.
RESULTADOS E DISCUSSÃO
A predição dos valores ausentes de chuva do estudo do Rio de Janeiro foi realizada através das técnicas
de RNA’s depois da regionalização da chuva. Uma vez identificado o pluviômetro com dado ausente
(camada de saída da RNA), então é necessário utilizar as técnicas de regionalização, que selecionam os
pluviômetros para o treinamento das RNA’s (camada de entrada da RNA). Foram adotadas quatro
técnicas para a regionalização: Análise de Componente Principal (ACP), Correlação de Pearson,
dendrograma e o Método k-médio. A tabela 1 apresenta um resumo estatístico da parcela de validação
dos modelos de RNA, com resultados de dois parâmetros determinantes na escolha da melhor predição
(razão de desvio padrão e correlação de pearson-r2). Os resultados da regionalização para um exemplo
de pluviômetro com dado ausente são descritos a seguir.
3
Tabela 1 – Resumo estatístico das predições (validação).
Métodos
ACP
Correlação (r2)
Árvore
k-Médio
r2
0,94
0,95
0,83
0,89
Razão de Desvio Padrão
0,34
0,34
0,55
0,48
As simulações foram realizadas com os dados medidos dos 30 pluviômetros durante o período de
31/dez/98 a 13/jan/99. Foi escolhido o pluviômetro instalado em Santa Tereza, polígono em branco na
figura 2 (a), por apresentar valores elevados de precipitação (pico de 26.8 mm / 15min).
Na abordagem que considera ACP, foram agrupados os pluviômetros (polígonos de Thiessen em cinza
escuro) com o mesmo fator do pluviômetro de Santa Tereza (polígono em branco). A figura 1 (b) ilustra
o resultado da predição do valor ausente na amostra de validação do modelo. Pode-se observar na figura
1 (b) que a linha de predição (pontilhada) apresenta boa aderência com a linha dos dados medidos
(linha cheia). A linha de predição consegue aproximar os valores máximos registrados e as variações
bruscas no tempo com resultados satisfatórios.
30
Precipitação (mm / 15 min)
25
20
15
Dados Me didos
Pre dição
10
5
0
740
742
744
746
748
750
752
C asos
(a)
(b)
Figura 1: (a) regionalização da chuva pelo Método ACP; (b) predição do valor ausente (amostra de
validação).
A seguir é apresentada uma regra de associação interessante que pode ser acionável e contribuir com o
sistema alerta existente no Rio de Janeiro:
Rule 9:
SE h_6_>_43.7mm
ENTÃO-> DESLIZAMENTO
(9.2% 90.6% 117 106)
9.2% - é o valor suporte da regra (porcentagem das vezes em que a chuva acumulada em 6 horas
ultrapassa 43.7mm ou que ocorre deslizamento ou escorregamento), ou seja, do total de 1266 registros
da base de dados, 117 registros apresentam um dos dois itens: h_6_>_43.7 mm ou DESLIZAMENTO.
90.6% - é a confiança da regra, ou seja, dado que o primeiro item aconteça (h_6_>_43.7mm), existe
uma probabilidade de 90.6% (ou 106 vezes em 117) que aconteça o segundo item (DESLIZAMENTO).
Este modelo bastante simples poderia servir como uma informação adicional na mobilização das
instituições responsáveis para o auxílio à população habitante das regiões das encostas durante as fortes
chuvas.
Também foram construídos modelos para predição de escorregamentos com as técnicas de RNA’s e
Regras de Classificação. Durante uma forte chuva, tais modelos consistem em prever três diferentes
taxonomias: a Tipologia dos Acidentes (Não Ocorrência, Pânico ou Acidente), Volume (Volume=0 ou
Volume>0) e Danos Causados (Sem Danos ou Com Danos). A tabela 2 ilustra os resultados da
classificação para as duas técnicas utilizadas. Os valores são referentes à taxa correta de classificação. É
importante ressaltar que a acurácia e precisão de tais resultados foram obtidos com um banco de dados
relacionado aos registros de escorregamentos entre 1998 e 2001, incluindo parâmetros do solo e
meteorológicos. Contudo, se os mesmos modelos fossem construídos novamente considerando o
histórico de deslizamentos até a atualidade (2011), a acurácia e precisão dos modelos seriam muito
4
maiores com um conjunto de treinamento maior, pois tais técnicas dependem de grande número de
exemplos para a “aprendizagem”. A previsão destas catástrofes e a possível implementação dos
modelos são de grande importância para a mobilização das instituições responsáveis em prestar auxílio
à população habitante das regiões das encostas.
Tabela 2 - Resultados da classificação para Deslizamentos induzidos por fortes chuvas.
Taxonomias
Tipologia
Volume (Euclidian)
Volume (Manhattan)
Consequência
Classes
Taxa correta de classificação (%)
RNA
Regras de classificação
94.1
80.7
93.6
89.4
72.4
79.0
87.1
89.3
75.9
88.1
90.4
87.3
74.6
91.3
80.2
91.5
70.8
88.1
Não Ocorrência
Pânico
Deslizamento
V=0 m3
V>0 m3
V=0 m3
V>0 m3
Com Danos
Sem Danos
Muitos movimentos de massa (avalanches e deslizamentos) também são induzidos por terremotos
associados com os abalos sísmicos secundários (aftershocks) causando consequências catastróficas. Em
12 de maio de 2008, um terremoto com magnitude 7.9 na escala Richter ocorreu na área de Wenchuan,
na Província de Sichuan, na China, causando muitos deslizamentos, avalanches, desmoronamentos ou
colapsos, corrida de detritos ou debris flow, quake lakes, e estimulando a instabilidade de muitas
encostas de Sichuan.
A distribuição espacial dos movimentos de massa é um espalhamento aleatório com eventos localizado s
a grandes distâncias, ou seja, a mais de 50 km distante do epicentro mais próximo. Como existe um
período decisivo de 72 horas para a realização das operações de resgate e maximizar a segurança das
vidas, a rápida localização dos movimentos de massa seria uma importante ferramenta para as
autoridades responsáveis na mobilização das operações de resgate, na avaliação da estabilidade das
encostas, e no planejamento de questões ambientais. Dessa forma, foram construídos modelos de
regressão baseados em técnicas de Mineração de Dados para prever ou localizar os Movimentos de
Massa, e possibilitando assim a localização imediata desses eventos.
A novidade deste trabalho científico em relação ao estudo do Rio de Janeiro é a integração de duas
técnicas em um modelo híbrido. Através do método do k-NN foi construído um modelo primário para
gerar um primeiro resultado, e subsequentemente, este resultado primário foi utilizado também como
uma variável de entrada para o treinamento de um RNA.
Para a construção dos modelos, foram utilizados os dados de mais de 3880 registros de movimentos de
massa, das coordenadas dos abalos sísmicos, proximidade de rios, falhas geológicas e da topografia.
Para a localização do movimento de massa foram considerados três sub modelos, e a saída ou resultado
de cada sub modelo é a latitude, longitude e altitude. Com estas três coordenadas seria possível
identificar a região do movimento de massa simplesmente através da leitura do epicentro do abalo
sísmico.
A tabela 3 resume os resultados dos três sub-modelos na validação para quatro diferentes métricas:
Correlação de Pearson (r2), Nash-Sutcliffe, erro relativo, e erro absoluto. A amostra de validação
compreende 10% dos registros do banco de dados, ou 380 registros.
Tabela 3 - Resultados da regressão para Movimentos de Massa induzidos por abalos sísmicos.
Métrica
Correlação de Pearson (r2)
Nash-Sutcliffe
Erro relativo
Erro absoluto
Previsão
Longitude
0,997
0,993
0,02%
~ 2.0km
Latitude
0,995
0,989
0,07%
~ 1.7km
Altitude
0,935
0,851
12,82%
~ 0.2km
O modelo híbrido adotado como solução para melhorar o desempenho preditivo pode ser considerado
como uma boa estratégia em estudos envolvendo padrões lineares e não-lineares. A estrutura do
modelo integra com sucesso as técnicas de k-NN e RNA. Conforme se pode observar na tabela 3, os
modelos apresentam boa acurácia e poderiam ser utilizados em eventos de terremotos futuros para
5
auxiliar as autoridades responsáveis na mobilização das operações de resgate, na avaliação da
estabilidade das encostas, e no planejamento de questões ambientais.
Correlação de Pearson
A metodologia utilizada nos estudos de Movimentos de Massa induzidos por fortes chuvas (Rio de
Janeiro) e induzidos por abalos sísmicos (Sichuan, na China) está sendo adaptada para o estudo da
ocupação das bacias hidrográficas e qualidade das águas na região metropolitana de Curitiba. Este
estudo encontra-se na fase inicial de obtenção e preparação dos dados. O primeiro passo desta
metodologia foi a criação de uma matriz em que cada linha corresponde a uma estação de
monitoramento e cada linha está associado aos valores de parâmetros físico-químicos (FQ),
bacteriológicos (CF) e ecotoxicológicos (ECOT), e integrados e normalizados conforme estudos
propostos por Hawkes, 1979; Hellawell, 1986; USEPA, 1994; Barbour et al.,1995; Bollmann et al.,
2005. A figura 2 mostra a variação da correlação de Pearson entre os parâmetros considerados e ao
longo de períodos definidos.
1.00
ECOT_ECOT
CF_CF
CF_ECOT
FQ_FQ
0.80
FQ_CF
FQ_ECOT
0.60
0.40
0.20
0.00
-0.20
1992________1997
1995________1999
1997________2001
1999________2005
Período
Figura 2 - Variação da correlação de Pearson entre os parâmetros considerados e ao longo do tempo.
Percebe-se de forma clara que o coeficiente de correlação linear tem decrescido significativamente,
muito provável que tenha sido devido ao desenvolvimento acelerado da região metropolitana nas duas
últimas décadas. Esse fato realça a necessidade da integração de múltiplas ferramentas que capturem
padrões lineares e não-lineares do estudo proposto.
CONCLUSÕES E TRABALHOS SUBSEQÜENTES
Os modelos computacionais para a predição de movimentos de massa induzidos por fortes chuvas (no
município do Rio de Janeiro) e induzidos por abalos sísmicos (na Província de Sichuan na China)
apresentaram grande acurácia e poderiam ser utilizados pelas instituições responsáveis. Os resultados
comprovam que tal metodologia poderia ser também utilizada para a previsao de enchentes nas grandes
cidades brasileiras e para o estudo de desenvolvimento urbano, considerando as diversas disciplinas
envolvidas. Todas as técnicas decritas devem ser utilizadas para avaliar o uso e ocupação do solo, a
qualidade das águas (parâmetros físicos, químicos e biológicos), a permeabilidade natural dos solos,
Áreas de Proteção Permanente (APP’s), entre outros atributos importantes em bacias hidrográficas da
região metropolitana de Curitiba-PR.
REFERÊNCIAS BIBLIOGRÁFICAS
BARBOUR, M.T.; STRIBLING, J.B. e KARR, J.R. Multimetric approach for establishing multicriteria
and measuring biological condition. In: Biological Assessment and Criteria (Org. Davis, W.S.),
Cap. 6, Lewis Publishers, Boca Raton, Florida/USA, 2005, p(63-77);
BOLLMANN, H. A. et al., Monitoramento da qualidade das águas dos reservatórios. do estado do
Paraná, no período de 1999 a 2004. Curitiba, 2005.
HAWKES, H.A. Invertebrates as indicators of river water quality. In: Biological Indicators of Water
Quality (James, A. e Evison, L. Editores). John Willey and Sons Ltda., 1979, p(2-1 a 2-45);
HELLAWELL, J.M. Biological indicators of freshwater pollution and environmental management.
Elsevier Applied Science, London/Great Britain, 1986, 546p.;
USEPA (1994) – Summary of State Biological Assessment Programs for Streams and Small Rivers.
United States Environmental Protection Agency, 68kb (13/09/1999).
6
Download

II-265 – ESTUDO DA APTIDÃO AO DESAGUAMENTO DE