DETECÇÃO DE CONGESTIONAMENTOS A PARTIR DA MINERAÇÃO DE DADOS RASTREADOS COM GPS Pedro Reis Gomes da Silva1 1 - Instituto Militar de Engenharia - Seção de Engenharia Cartográfica- ([email protected]) RESUMO A mineração de dados de dados é uma das etapas de descoberta do conhecimento em grande bases de dados que procura encontrar padrões implícitos nas bases de dados. Este trabalho apresenta uma proposta de identificação de locais de trânsito constantemente congestionados a partir de trajetórias rastreadas com GPS, empregando estimadores de intensidade kernel. Foi analisada uma base de dados oriundas de uma frota de táxis na cidade do Porto, Portugal. Palavra-chave: Mineração de dados espaciais, Mapas de Calor, Estimador Kernel. INTRODUÇÃO O crescente avanço tecnológico na área de posicionamento propiciou a grande quantidade de receptores GPS instalados nos veículos, gerando um grande volume de dados contendo, basicamente, a posição do veículo e o horário em que o dado foi rastreado. A partir desses bancos de dados podem ser identificados padrões de trânsito, tais como a distribuição espaço-temporal das velocidades desenvolvidas pelos veículos. A análise desses padrões pode auxiliar as companhias de tráfego urbano das cidades a elaborar planos para evitar ou minimizar esses congestionamentos. Segundo Bogorny (2003), o processo de descoberta de conhecimento em bancos de dados pode ser subdividido em em algumas fases: eliminação dos dados inconsistentes (limpeza dos dados), integração dos dados de diferentes fontes para um único banco de dados, seleção dos dados importantes para análise em questão, a transformação dos dados para outros formatos (se for necessário), a mineração de dados propriamente dita, a avaliação dos padrões encontrados e, por fim, a apresentação do conhecimento adquirido ao longo do processo. Neste trabalho, o objetivo principal é a identificação de locais de trânsito constantemente congestionados a partir da distribuição espaçotemporal dos valores de velocidade de veículos, cujas trajetórias foram rastreadas com GPS. METODOLOGIA Antes de executar as fases do processo de descoberta de conhecimento mencionadas na seção anterior, é necessário calcular a velocidade do automóvel a partir das posições e do intervalo de tempo entre pares de pontos consecutivos. Na fase de mineração de dados espaciais foram empregadas algumas técnicas expostas nos trabalhos de Bogorny (2003), Santos (2001), Dias (2002) e Neves, Freitas e Câmara (2001). A primeira foi a classificação, que consiste no enquadramento dos dados em classes pré-definidas. Os objetos podem ser classificados pelas características espaciais e pelos seus atributos descritivos ou por funções espaciais. Para fins de análise da distribuição espaço-temporal das velocidades dos veículos, a classificação deve considerar os níveis de serviço das vias e os intervalos de tempo (Figura 1). A segunda técnica é denominada agrupamento ou clusterização, que consiste em identificar coleções de objetos semelhantes, agrupando-os em subconjuntos de acordo com critérios apropriados (inclusive espaço temporais). Esses subconjuntos agrupam elementos com alto grau de semelhança. Figura 1. Classificação quanto a intervalos de tempo A avaliação dos padrões encontrados baseou-se no cálculo do estimador de intensidade kernel, que observa a influência de um ponto sobre os demais, dentro de uma região de interesse, a partir da análise estatística dos dados. Essa técnica gera uma superfície de densidades para identificação de áreas com uma concentração de eventos que indicam a aglomeração em uma distribuição espacial. No contexto analisado neste trabalho, foi empregado o aplicativo Quantum GIS 1.8.0 e o complemento Mapa de Calor para executar essa análise. ESTUDO DE CASO A metodologia proposta foi empregada para identificar áreas de congestionamento na cidade do Porto no período de janeiro de 2012 a partir de pontos rastreados por 435 táxis da cooperativa monitorada pela empresa Geolink, sediada naquela cidade. Foram realizadas consultas SQL para selecionar pontos cujas velocidades estavam abaixo de 36,5 km/h – o nível de serviço na categoria E (HCM, 2010), posteriormente classificados de acordo com o dia da semana e com a hora do dia. Para realizar a análise dos pontos empregando o estimador kernel, foram inseridos os valores para os parâmetros raio (40), tamanho da célula (10) e a razão de decaimento (1). Com os mapas gerados, foi padronizada a escala de cores para exibição dos resultados. RESULTADOS Com bases nos mapas de calor gerados, pôde-se identificar duas regiões de particular interesse, que possuíam grande quantidade de pontos ao longo de todo intervalo compreendido entre as seis e as vinte horas das segundas-feiras (figura 2). Figura 2. Mapa da cidade do Porto com mapa de calor relativo a veículos com velocidades abaixo de 36,5 km/h às segundas-feiras. As figuras 3 e 4 apresentam essas regiões em destaque para o período das 11h às 12h e das 19h às 20h. Os pontos em vermelho representam os locais de maior concentração de pontos com baixa velocidade seguidos dos pontos em amarelo e azul. Figura 3. Mapa detalhado da região de interesse às 11h Figura 4. Mapa detalhado da região de interesse às 19h CONCLUSÕES Nesse trabalho, foram empregadas técnicas de Mineração de Dados Espaciais para identificar padrões de trânsito a partir de trajetórias rastreadas com GPS. Para isso, os dados foram classificados conforme o nível de serviço da via e quanto ao horário e, em seguida, empregou-se o estimador de intensidade kernel para identificar os locais de maior ocorrência de congestionamentos ao longo do tempo. Dentre esses locais, duas regiões se destacaram por apresentar índices de congestionamento ao longo de todo período analisado. REFERÊNCIAS BIBLIOGRÁFICAS BOGORNY, V. Algoritmos e Ferramentas de Descoberta de Conhecimento em Bancos de Dados Geográficos. Porto Alegre, 2003. Programa de Pós-Graduação em Computação, Universidade Federal do Rio Grande do Sul. Porto Alegre, 2003. DIAS, M. Parâmetros na escolha de técnicas e ferramentas de mineração de dados. Maringá, 2002. Departamento de Informática da Universidade Estadual de Maringá. HIGWAY CAPACITY MANUAL (HCM) 2010. Transportation Research Board of the National Academies – Volume 2: Uninterrupted Flow. Washington,DC,2010. NEVES, M. C.; FREITAS, C. C.; CÂMARA, G. Mineração de Dados em Grandes Bancos de Dados. Instituto Nacional de Pesquisas Espaciais. [S.l.]. 2001. SANTOS,M. Padrão: um sistema de descoberta de conhecimento em bases de dados georreferenciadas. 2001. Tese de doutorado - Universidade do Minho, 2001.