Centro de Investigação ALGORITMI Universidade do Minho Escola de Engenharia Carlos Costa e Maribel Yasmina Santos Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente Dossiê de Candidatura Urban Analytics 2015 Março 2015 Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente |2 “Carlos é um estudante de mestrado com 22 anos, em Sistemas de Informação na Universidade do Minho. Previamente, a sua formação académica passou pela Licenciatura de Tecnologias e Sistemas de Informação na Universidade do Minho e pelo Nível de Técnico Profissional na Escola Secundária Francisco de Holanda. A sua experiência até à data envolve: presidente na Association for Information Systems Student Chapter UMinho; administrador WEB, designer e programador; freelancer em desenvolvimento Mobile, Java e C#; Gestor de Projeto e Administrador de Base de Dados; Técnico de Computadores. Durante o seu percurso como estudante ele acumulou alguns reconhecimentos & prémios, devido essencialmente às suas notas ou participações em concursos de IT: Microsoft Power BI Top 5; vencedor Deloitte ChallengeIT@Braga; semifinalista 2015 Hilti Big Data Analytics Competition; Prémio Sociedade Martins Sarmento. Considera que tem algumas competências que espelham as suas principais áreas de interesse e experiência: Business Analytics (Business Intelligence, Big Data, Data Mining, Text Mining, WEB Mining, Data Analysis and Discovery); Software Development; Business Process Management; Infrastructure and Service Management. Para além disso, detém outras competências, que embora reconheça que não são a sua área de maior experiência, ainda retém algum conhecimento: Business Strategic Management; Computer Networks; Mathematics and statistics; Financial Assessment and Management. Contudo, um bom profissional não é apenas feito de hard skills , portanto ele destaca algumas competências pessoais, tais como: bom espírito de equipa; atento e empenhado; troca de ideias e a excelente comunicação; gosta de liderar, mas sabe como ser liderado.” Carlos Costa, Estudante de Mestrado Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente |3 “Maribel Yasmina Santos é Professora Associada com Agregação do Departamento de Sistemas de Informação da Escola de Engenharia da Universidade do Minho. É Licenciada em Engenharia de Sistemas e Informática (1991), Mestre em Informática – Especialização em Informática de Gestão (1996), Doutorada em Tecnologias e Sistemas de Informação (2001) e Agregada em Tecnologias e Sistemas de Informação (2012), pela Universidade do Minho. É membro integrado do Centro de Investigação ALGORITMI (http://algoritmi.uminho.pt/), enquadrada no grupo SEMAG (Software Engineering and Management Group, http://semag.algoritmi.uminho.pt), no qual lidera a linha de investigação “business and location-enhanced database systems”. Os seus interesses científicos incluem Business Intelligence and Analytics, Big Data Analytics, (Spatial) Data Warehousing, (Spatial) On-Line Analytical Processing e (Spatial) Data Mining. Atualmente orienta (ou co-orienta) 2 estudantes de doutoramento e 6 estudantes de mestrado, tendo já concluído a orientação (ou co-orientação) de 3 estudantes de doutoramento e 25 estudantes de mestrado. É autora ou co-autora de mais de 90 publicações internacionais, incluindo livros, capítulos de livros e artigos publicados em revistas ou em atas de conferências. Fez parte da comissão de programa ou comissão científica de mais de 70 conferências nacionais e internacionais. É também membro da comissão editorial do International Journal of Data Mining, Modelling and Management e do International Journal on Advances in Intelligent Systems. É coinventora de duas patentes, uma nacional e uma internacional. Foi diretora-adjunta do Departamento de Sistemas de Informação da Universidade do Minho (2010-2014) e é membro da comissão diretiva da AGILE (Association of Geographic Information Laboratories for Europe, http://www.agile-onlie.org) desde Abril de 2011, sendo Secretáriageral da AGILE desde Maio de 2013. É membro do grupo de trabalho permanente “Sistemas de Informação Geográfica” e do grupo de trabalho “Geo-Competitivo II: Arquiteturas organizacionais suportadas em Informação Espacial” ambos da Associação para a Promoção e Desenvolvimento da Sociedade da Informação (APDSI). ” Maribel Yasmina Santos, Professora Associada Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente |4 “O Centro de Investigação ALGORITMI detém uma longa e orgulhosa história como unidade de investigação portuguesa no domínio de ICT&E (ICT&E), desde setembro de 1978. O ALGORITMI é uma unidade de investigação da Escola de Engenharia - Universidade do Minho, que desenvolve atividade de R&D em Information and Communications Technology & Electronics, atuando em quatro grandes domínios: (1) Information Systems, Computing Technologies; (2) Electronics, Energy, Robotics; (3) Computer Networks, Pervasive Computing; (4) Operational Research, Industrial Engineering & Management. A maioria dos investigadores do ALGORITMI com grau PhD são também membros do corpo docente de quatro departamentos de ensino da Escola de Engenharia, nomeadamente: Engenharia Electrónica (DEI); Sistemas de Informação (DSI); Produção e Sistemas (DPS); Informática (DI). Além disso, os projetos MSc e PhD orientados por esses mesmos membros do corpo docente são desenvolvidos no ALGORITMI.” Centro de Investigação ALGORITMI “A UMinho pretende ser uma Universidade sem muros, focando-se no desenvolvimento socioeconómico regional, nacional e internacional. Atividades internacionais são significativamente intensas, com um grupo variado de países de todos os continentes, incluindo os de idioma português. A UMinho é uma Universidade de Investigação, empenhada na valorização da cadeia Conhecimento-Investigação, Desenvolvimento e Inovação - como evidenciam uma série de indicadores: O rácio entre estudantes PhD e staff académico é superior a 1; a fração de estudantes pós-graduados e total da população estudantil é maior que 20%; o rácio entre projetos de investigação e PhDs é superior a 0.5; cerca de 150 PhDs são premiados a cada ano; a produção média anual de papers referenciados em journals científicos é impressionante para uma Universidade eclética; mais de 2/FTE/ano; as citações estão a aumentar a cada ano; são assinados anualmente 250 contratos R&D com companhias. Entre as 28 unidades de investigação avaliadas pela FCT em 2014, 1 foi considerada excecional, 10 excelentes e 11 muito boas. Sob FP7, a CE premiou a UMinho com 2 ERC Advanced Grants. A UMinho está envolvida no graphene FET flagship e coordena muitos outros projetos de vasta dimensão, incluindo um REGPOT em nano medicina. O Times Higher Education (THE) 100 under 50 University Ranking 2014 colocou a UMinho na 75ª posição e o 2014 THE World University Rankings entre as posições 350 e 400 (apenas presentes dois Institutos de Ensino Superior português, sendo que a UMinho foi a melhor). No CWTS Leiden bibliometric Ranking 2014, a UMinho é a melhor universidade portuguesa.“ Universidade do Minho Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente |5 Resumo Atualmente, as cidades consomem cada vez mais energia para sustentar as suas atividades do quotidiano. Com a crescente utilização de dispositivos elétricos enfrentamos desafios associados à distribuição e controlo de energia. Para além disso, tendemos a despender bastante energia para aquecer ou arrefecer as nossas habitações. Este trabalho ilustra a arquitetura de uma infraestrutura tecnológica para extração, carregamento, transformação, mining e forecasting de Big Data associado a consumos de energia. Esta arquitetura tecnológica faz uso de um conjunto de dados que contém o consumo de eletricidade e de gás de casas distribuídas por múltiplas cidades dos Estados Unidos da América, devido à disponibilização destes dados de forma aberta. Convém mencionar que a utilização de todo o trabalho aqui proposto e desenvolvido é adequada a Portugal (ou às cidades portuguesas), desde que os consumos energéticos sejam disponibilizados pelas entidades responsáveis. O objetivo principal deste trabalho consiste em disponibilizar aos cidadãos uma nova forma de monitorizarem o seu consumo de eletricidade e gás, permitindo que comparem o consumo da sua habitação com outras pertencentes ao mesmo cluster ou estado/cidade e prevendo consumos de energia futuros. Para além disso, a arquitetura também providencia à gestão das cidades e aos fornecedores de energia uma forma mais inteligente de monitorizarem o panorama do consumo de energia. O trabalho faz uso de dados simulados, provenientes dos Estados Unidos da América, em conjunto com tecnologias como o Hadoop, Talend Open Studio for Big Data, WEKA e Tableau, para armazenar e processar Big Data, produzir clusters e time series forecasts e visualizar informação, respetivamente. Os resultados alcançados revelam que usando esta arquitetura tecnológica é possível identificar, com significativa precisão, clusters de habitações a partir do seu consumo energético. É também possível prever futuros consumos de eletricidade com uma reduzida margem de erro. As principais vantagens da abordagem proposta são o facto de qualquer cidadão poder monitorizar periodicamente o seu consumo de energia, comparar-se com outras casas do mesmo cluster ou cidade e prever quanta energia irá gastar se mantiver o seu padrão de consumo. Isto conduz os cidadãos a um processo de tomada de decisão mais rico, informando-os sobre possíveis divergências em relação a consumos de energia usuais, tornando-os mais conscientes em termos ambientais, ou pelo menos, conscientes em termos económicos. Os governos das cidades e os fornecedores de energia podem também adotar a abordagem aqui proposta, com vista a gerir de forma mais eficiente o consumo energético das cidades, usar os dados processados em iniciativas de marketing ambiental e prever necessidades energéticas. Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente |6 Capítulo 1 Introdução Os centros urbanos estão a crescer e parecem ser a primeira escolha para a habitação moderna, baseado no facto de que metade da população encontra-se a viver em ambientes urbanos [1]. Com este fenómeno, advêm vários problemas e as cidades necessitam de adaptar-se a esta tendência. Nos últimos anos começamos a observar o surgimento de um novo conceito, o conceito de Smart Cities. Os governos estão a enfrentar mais custos de empregabilidade, transportes, infraestruturas, energia, entre outras necessidades básicas. Para além disso, os cidadãos comportam-se como natos consumidores de serviços do governo e exigem mais, independentemente das restrições existentes [2]. É neste ponto que Big Data pode ajudar. As cidades e cidadãos geram um vasto volume de dados, com múltiplos graus de complexidade, a diferentes velocidades, provenientes de várias fontes, que não se adequam às tradicionais tecnologias. Isto remete-nos para a definição geral de Big Data [3]–[5]. A necessidade emergente de tornar as cidades mais inteligentes, associada ao conceito, relativamente recente, de Big Data e às possibilidades que este permite, constituem a base motivacional para o desenvolvimento desta arquitetura analítica de Big Data. A mesma é capaz de processar dados de uma cidade e, como demonstraremos, providenciar serviços inteligentes, quer para os cidadãos quer para o governo ou outros stakeholders, através do uso de técnicas de Data Mining, como clustering e time series forecasting [6]. Clustering é usado para identificar grupos homogéneos de casas, com padrões de consumo energético similares, permitindo a comparação e ranking, enquanto que time series forecasting é usado para prever futuros consumos. O conjunto de dados usado para validar a arquitetura é o “EPLUS TMY2 residential base” [7], contendo 238 ficheiros. Cada ficheiro representa um ano de consumo horário de eletricidade e gás, proveniente de uma casa simulada numa determinada cidade dos USA. Foi também extraída informação acerca de todos os estados dos USA, contendo as abreviações, nomes, população e área terrestre de cada estado. É esperado que a arquitetura proposta suporte adequadamente o serviço inteligente de monitorização e previsão, providenciando refinadas análises visuais de dados. De modo a validar os resultados obtidos, foi considerada a similaridade intra-cluster, além da variedade de clusters, bem como uma taxa de erro reduzida na técnica de time series forecasting. Este documento é estruturado da seguinte forma: o capítulo II sumariza o trabalho relacionado e descreve de que modo este trabalho contribuí para o estado da arte nesta área. O capítulo III descreve o que é esperado de uma Smart City e de um Smart Citizen. O capítulo IV ilustra a arquitetura tecnológica proposta e fornece uma visão geral do conjunto de dados usado. O capítulo V descreve o processo de preparação e mining dos dados, incluindo clustering e time series forecasting. O capítulo VI apresenta a análise e visualização de dados, de modo a redefinir a fatura de energia e melhorar a monitorização do consumo energético. Finalmente, capítulo VII concluí com algumas observações acerca do trabalho realizado e diretrizes de trabalho futuro. Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente |7 Capítulo 2 Trabalho Relacionado Entre a comunidade científica já se encontram disponíveis algumas abordagens de previsão de consumos energéticos. Alguns dos trabalhos estão sobretudo relacionados com o preço da energia [8]–[10], enquanto que outros endereçam a investigação em torno da carga de energia [11], [12]. A prática comum nestes trabalhos relacionados parece ser o mining de clusters antes da aplicação de modelos de forecasting. De acordo com Alzate and Sinn [11], os autores alcançaram uma melhoria de 20% na precisão das previsões, usando clustering antes de aplicar um modelo de forecasting. Independentemente das técnicas de clustering usadas, bem como as técnicas de forecasting, parece haver, geralmente, uma abordagem comum: usar clustering com vista a melhorar a eficiência do modelo de forecasting, quer através da adaptação do modelo para cada cluster, quer através do uso de clustering como técnica de extração de novos atributos no conjunto de dados. Estes trabalhos relacionados focam os seus resultados na melhoria da eficiência do Data Mining, recorrendo a técnicas inovadoras, e em geral os resultados mostram uma conclusão satisfatória. Contudo, estes são primariamente focados no processo de Data Mining e nos resultados, descartando não só a natureza dos dados do mundo real, que requerem novas tecnologias de armazenamento e processamento, mas também a importância da possível implementação tecnológica, com vista à disponibilização de novos serviços ao cidadão. Outros trabalhos relacionados descrevem os dados dos Smart Meters como sendo Big Data, apresentando alguns métodos para a visualização da informação e extração de conhecimento [13], [14]. Além disso, existem alguns trabalhos que estão a ser desenvolvidos com o objetivo de estudar a importância da infraestrutura de armazenamento e processamento [14]–[16], destacando as bases de dados não relacionais e o Hadoop. Este trabalho pretende demonstrar como podemos processar os dados de energia registados, através de uma arquitetura tecnológica analítica de Big Data, usando técnicas de clustering e time series forecasting, não só para selecionar os modelos de forecasting adequados para cada cluster, mas também para enriquecer a análise visual e serviço inteligente final, disponibilizando aos cidadãos uma fatura de energia reinventada e providenciando aos governos e fornecedores de energia uma nova forma de monitorizarem e segmentarem o consumo energético. Consequentemente, os resultados apresentados são focados não só no sucesso do Data Mining, mas também na forma de mudar a experiência de consumidor e fornecedor de energia, tornando acessível métodos reinventados de apresentação do consumo energético. Como também pretendemos alcançar um erro reduzido nas técnicas de clustering e forecasting, este trabalho faz uso de tecnologias de Big Data para validar a possível implementação num cenário de aplicação real, e apresenta os resultados finais numa análise visual rica, de modo a ultrapassar o gap entre uma aplicação de Data Mining bem sucedida e um serviço de uma Smart City. Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente |8 Capítulo 3 O que é esperado de uma Smart City e de um Smart Citizen? Atualmente, podemos observar a crescente diversidade de dispositivos inteligentes que integram as atividades do nosso dia a dia. Estes dispositivos são considerados inteligentes, pois demonstram comportamento autónomo e inteligente. É o caso de Smartphones, Tablets e sensores, entre outros. Os efeitos causados pela crescente urbanização, em conjunto com o avanço nas Tecnologias da Informação e Comunicação (TIC), estão a levar ao aparecimento de iniciativas de desenvolvimento urbano em múltiplas áreas, tais como saúde, inclusão social, ambiente e negócio [17]. Isto remete para o conceito de Smart City, onde a tecnologia é integrada numa abordagem estratégica de sustentabilidade, comportamento cívico e desenvolvimento económico. Nestas cidades, o investimento em capital humano e social, em conjunto com o investimento em transportes e TIC, alimentam um desenvolvimento económico sustentável e uma confortável qualidade de vida, gerindo eficientemente os recursos naturais através de um governo participativo [1], [18]. Entre as principais diferenças entre uma Smart City e uma cidade tradicional destacam-se vários aspetos tecnológicos e humanos, como o investimento inteligente em TIC, a natureza ágil dos serviços disponibilizados, a qualidade dos dados, o foco no cidadão e a gestão eficiente de recursos humanos [2]. A Fig. 1 ilustra, através de uma perspetiva tecnológica, os principais inputs para uma Smart City e um Smart Citizen. Além disso, outras características que distinguem uma Smart City das demais tradicionais é o foco no cidadão como elemento-chave no sistema, transformando a forma como a cidade o serve. Um Smart Citizen comporta-se como um consumidor exigente de serviços públicos, apesar das atuais restrições económicas [2]. As cidades podem criar valor para os cidadãos através da oferta de serviços eficientes, melhorando não só o uso dos seus recursos, mas assegurando também sustentabilidade e atratividade a longo prazo. Todos estes benefícios conduzem a um modo de vida apelativo, liderado pela harmonia perfeita entre pessoas e tecnologia. Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente |9 Capítulo 4 Visão Geral da Arquitetura e Dados Todos os passos e tecnologias propostos neste trabalho podem ser abstraídos numa arquitetura tecnológica, vista na Fig. 2, de modo a compreender o que pode ser um ponto de partida para futuras implementações de serviços similares. A arquitetura faz uso de múltiplos componentes do Hadoop, tais como: Hadoop Distributed File System (HDFS) para armazenar os ficheiros não estruturados; PIG para processar scripts de agregação de dados; HBase para armazenar temporariamente os resultados do PIG; HIVE para atuar como um Data Warehouse, contendo o conjunto de dados final de modo a originar a análise visual. O Talend Open Studio for Big Data é responsável por todos os processos de fluxo de dados, direcionando os mesmos do HDFS e HBase para o sistema de ficheiros local e vice-versa. Posteriormente, o WEKA é usado para a construção de modelos de clustering e forecasting. O Talend Open Studio for Big Data usa a biblioteca Java do WEKA de modo a integrar os modelos em tempo real e armazenar os resultados no HIVE. Finalmente, podemos desenvolver uma análise visual de dados, usando o Tableau. De modo a perceber o conjunto de dados usado neste trabalho, o seu modelo de dados será apresentado, além da forma como todos os 238 ficheiros foram verificados, extraídos e armazenados no Hadoop. Cada ficheiro neste conjunto contém dados de uma casa simulada, com características médias, como 3 quartos e 1 ou 2 casas de banho, tendo em consideração o ambiente e clima em que a casa é inserida. Existe um ficheiro por cada cidade dos USA, representando o consumo horário médio de uma casa enquadrada na respetiva cidade. A Fig. 3 ajuda na Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente |10 compreensão do modelo e conteúdo dos ficheiros, além das classes de atributos. HVAC significa “aquecimento, ventilação e ar condicionado”, APPL significa eletrodomésticos e MISC significa variados. Como pode ser visto na Fig. 3, a informação do estado e cidade encontra-se no nome do ficheiro, requerendo um esforço de processamento adicional para extrai-los e armazená-los dentro do ficheiro, com vista a uma análise futura. Lidar com Big Data implica a verificação de certas características que os dados possam ter: volume, variedade, velocidade, veracidade e valor [19]. No nosso caso de demonstração, tendo em consideração que é uma prova de conceito a ser executada em apenas uma máquina, os dados detinham um volume considerável (238 ficheiros como mencionado, contendo mais de 8760 linhas cada um, totalizando mais de 550 megabytes). Além disso, num cenário real, estes dados virão de vários sensores e serão atualizados numa base horária. Este conjunto de dados foi usado com vista a testar a arquitetura e serviço inteligente, porque traz consigo a veracidade do processo de simulação [7] e a informação valiosa que pode ser extraída usando Data Mining e visualização. Assim que existam dados de livre acesso em Portugal, por exemplo com a implementação de iniciativas Smart Cities, a arquitetura proposta e implementada será capaz de processar dados reais e beneficiar as cidades e cidadãos portugueses. Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente |11 Capítulo 5 Preparação dos Dados e Data Mining A análise da qualidade dos dados em contexto de Big Data é uma das fases mais desafiantes, devido sobretudo ao seu volume. Neste caso de demonstração, armazenamos todos os 238 ficheiros no Hadoop, e analisamos a qualidade dos dados usando o Talend Open Studio for Data Quality. Os dados não apresentaram falhas a considerar em futuras fases de transformação, muito devido ao facto de serem simulados e não influenciados por problemas de inserção manual. Numa aplicação em contexto real é também expectável que os dados não apresentem grandes falhas, devido a serem extraídos de sensores, usando métodos autónomos. Neste caso, alguns ficheiros apresentaram o valor 0 no consumo de gás. Mais à frente neste documento é explicado como isto afetará o processo de desenvolvimento. A tarefa de Data Mining integrou um exercício de clustering de modo a segmentar as casas pelo seu consumo de eletricidade e gás, e um exercício de time series forecasting para prever futuros consumos de eletricidade. Combinando estas duas técnicas, disponibilizamos um método para comparar o consumo histórico e previsto de uma casa com outras casas no mesmo cluster e para comparar consumos entre clusters. 5.1 Clustering Com vista a identificar clusters a partir do conjunto de dados original, era necessário um conjunto de dados menos detalhado, nomeadamente, dados agrupados por estado e cidade. Para alcançar isso, foi realizada uma operação de agregação em PIG, uma linguagem de alto nível incorporada no Hadoop e designada para realizar análise de dados. Os passos envolvidos na script PIG são demonstrados na Fig. 4. Os resultados consistem no consumo de energia anual por estado e cidade e foram armazenados no HBase, que atuou como a nossa área de estágio dos dados. Quanto à limpeza dos dados, os zeros foram substituídos pela média global por estado deste conjunto de dados utilizados no processo de clustering. De forma a construir novos dados, os atributos mais detalhados de consumo de energia foram agregados em três categorias: aquecimento/arrefecimento, luzes e equipamento de interior. Todos os outros atributos permaneceram iguais. Contudo, após analisar a dispersão e correlação de todos os atributos, escolhemos remover estes atributos detalhados do processo de clustering, pois detinham baixa dispersão e alta Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente |12 correlação com os atributos gerais de eletricidade e gás. Atributos altamente correlacionados tendem a influenciar algumas técnicas de clustering [20]. Para formatar os dados, os valores com casas decimais foram arredondados para o inteiro mais próximo, devido a propósitos de apresentação dos dados. O processo de limpeza e construção dos dados é mostrado na Fig. 5. Neste estudo, o processo de clustering é conduzido usando o algoritmo K-means, que requere a especificação de um parâmetro de entrada, k, representando o número de clusters. Uma vez que não existe indicação do número apropriado de clusters para este conjunto de dados, todos os dados foram iterativamente usados para produzir clusters, incrementando o número de clusters de modo a produzir e registar cada erro na similaridade intra-cluster. O K-means é um algoritmo de clustering bastante reconhecido, que particiona um conjunto de dados em k grupos, selecionando o centro dos clusters e refinando-os iterativamente [21]. Este foi o único modelo escolhido devido à simplicidade em avaliar os resultados, usando a similaridade intra-cluster. A Fig. 6 mostra a similaridade intra-cluster para cada tentativa de clustering, cada uma com diferente número de clusters. Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente |13 Usando o método L, em que o “joelho é encontrado num gráfico com o número de clusters vs. métrica de avaliação de clustering” [22], fomos capazes de identificar que 5 aparenta ser o número ideal de clusters para este conjunto de dados. A síntese do modelo é mostrada na Fig. 7, apontando os centroides (kw/h) dos clusters identificados e o número de cidades em cada um deles. O modelo de clustering é construído usando o consumo de eletricidade e gás, agrupado por estado e cidade, como previamente explicado. 5.2 Time Series Forecasting No processo de time series forecasting, os resultados do processo de clustering são usados como input para um ficheiro contendo o número do cluster a que cada cidade pertence. Este ficheiro foi juntado com o conjunto de dados original (Fig. 3), usando outra script PIG, que também agrupou o resultado por número de cluster e timestamp (dia e hora). Isto fornece-nos o consumo horário de cada cluster durante todo o ano. No que respeita a granularidade do tempo, e como o conjunto de dados continha um ano de consumo de energia, não permitindo qualquer análise sazonal, a granularidade temporal escolhida foi por semana, permitindo prever as próximas semanas de consumo de energia, oferecendo elevado valor de monitorização e planeamento. Finalizado este processo, o conjunto de dados a usar no processo de forecasting inclui os seguintes atributos: 1. Número de cluster; 2. Semana; 3. Consumo de eletricidade e gás. Antes de iniciar o processo de forecasting, como as primeira e última semanas do conjunto de dados não ofereciam todos os 7 dias, escolhemos não as considerar, melhorando assim a variância da série temporal. Além disso, porque estamos agora a lidar com séries temporais, temos que relembrar que alguns valores do consumo de gás eram zero, fazendo com que um dos clusters obtivesse zero como centro. Para além desta questão, observamos que outro cluster apresentava sérias descidas no consumo de gás. Devido a estes dois factores, este trabalho, numa das suas componentes, apenas fará previsões de consumo de eletricidade. Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente |14 Testar time series forecasting usando o WEKA é muito semelhante a outras técnicas de Data Mining. De modo a avaliar os modelos, foi usado o método holdout, reservando 80% dos dados para treino e os restantes 20% para propósitos de teste. Foram utilizadas 3 métricas diferentes (Fig. 8): Mean Absolute Error (MAE); Root Mean Squared Error (RMSE); Direction Accuracy. Quatro modelos state-of-the-art foram construídos e avaliados, para cada um dos cinco clusters. Estes modelos observarão principalmente as 12 semanas anteriores para prever as futuras 8. A Fig. 9 demonstra os resultados obtidos para cada modelo e cluster. Os resultados obtidos indicam que os modelos selecionados comportam-se bastante bem, tendo em consideração que os erros são medidos em kilowatts/hora (kw/h). Isto significa que para cada cluster, existe pelo menos um modelo que consegue prever as próximas 8 semanas de consumo elétrico com um Mean Absolute Error (MAE) inferior a 16.8 kw/h, excepto para o cluster 2, cujo MAE observado mais reduzido é cerca de 46. Além disso, existem modelos capazes de prever com um MAE de 6.7 kw/h (Fig. 10). Tendo em consideração que os valores variam entre 120 e 412 kw/h, estes testes revelam resultados satisfatórios. Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente |15 O conjunto de dados segmentado foi testado com todos os 4 modelos, com o objetivo de encontrar o melhor forecaster para cada cluster e as suas correspondentes cidades. O modelo subjacente ao 2º, 3º, 4º e 5º clusters é a Decision tree, enquanto que para o 1º cluster é a Neural Network, como pode ser visto na Fig. 9. Consequentemente, uma casa herdará o forecaster do seu cluster. Por exemplo, se uma casa de New York pertence ao cluster 3, o forecaster que será usado para prever o consumo de eletricidade será a Decision tree. O próximo capítulo apresenta a análise e visualização dos modelos de previsão num contexto de Smart City. Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente |16 Capítulo 6 Análise e Visualização de Dados: Reinventando a Fatura de Energia para um Consumo de Energia mais Inteligente Este capítulo demonstra como os modelos que serviram como forecasters para cada cluster são usados para prever dados provenientes das casas pertencentes ao cluster correspondente. Isto é alcançado através da integração da biblioteca Java do WEKA com o Talend Open Studio for Big Data, permitindo que cada casa tenha não só dados históricos, mas também previsões de consumo. Em termos de infraestrutura, todos os dados históricos, segmentados e previstos encontravam-se no HDFS, e era necessário devolver alguma estrutura aos mesmos, formando um conjunto de dados perfeitamente adequado para análise e visualização. Todos os atributos relevantes foram integrados numa tabela HIVE (Fig. 11), destinada a armazenar dados de forma estruturada, apropriados para análise visual. A descrição de cada atributo é também apresentada na Fig. 11. Uma vez que o sistema é capaz de processar dados de consumo energético e também é capaz de segmentalos e prevê-los, novas perspetivas de como fornecer feedback às casas podem emergir. A Fig. 12 mostra uma análise visual de dados de uma casa em New York. A análise começa por comparar a casa em New York com o cluster em que Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente |17 é inserida, apresentando os consumos médios de energia. Posteriormente, o gráfico de linhas sobrepõe o consumo de eletricidade da casa (linha azul escuro) com o consumo do cluster (linha azul claro), contendo não só dados históricos mas também valores previstos (linha laranja escuro para a casa e linha laranja claro para o cluster), resultantes da aplicação do modelo de time series forecasting. Além disso, é também possível fazer o ranking das casas pelo seu consumo de energia, comparando uma certa casa com outras dentro do seu cluster. Esse ranking pode ser ilustrado num mapa geográfico. O último gráfico na Fig. 12 mostra um mapa de calor, com o objetivo de comparar a casa em New York com outras casas dentro do mesmo estado dos USA. Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente |18 A análise acima descrita exemplifica o quão inovadores e inteligentes podem ser os serviços de uma Smart City, e neste caso particular, como o clustering e time series forecasting podem ser combinados de modo a formar uma análise visual que contribui significativamente para que os cidadãos tenham uma experiência de consumo mais controlada, monitorizando dados históricos e previstos e comparando a sua casa com outras dentro do seu cluster ou estado. A Fig. 13 descreve um exemplo da experiência associada ao serviço de Smart City proposto, baseado nos dados demonstrativos da Fig. 12. As tradicionais faturas de energia não fornecem uma visão clara do nosso consumo energético. Elas, obviamente, mostram-nos quanta energia gastamos em certo período, mas se queremos tornar as nossas cidades mais inteligentes e colocar arquiteturas como esta em aplicações de contexto real, a fatura de energia pode: 1. Mostrar como a nossa casa se compara com a média no nosso cluster e como se comparará no futuro se continuarmos a gastar energia da forma como gastamos; 2. Ilustrar num mapa geográfico qual o ranking da nossa casa, usando dados históricos e previstos; 3. Mostrar-nos como nos comparamos a casas do mesmo estado ou região, numa base semanal. Estes são apenas alguns dos possíveis exemplos. Outra perspetiva acerca dos dados que este estudo providencia é útil para fornecedores de energia e para o governo. Atualmente, os governos enfrentam dificuldades na gestão de recursos, e a energia é um deles. A Fig. 12 mostrou uma fatura de energia reinventada, enquanto que na Fig. 14 pode ser vista uma nova forma de monitorizar e segmentar energia, com a capacidade de comparar valores médios dos clusters e observar mudanças previstas no ranking de energia desses mesmos clusters. Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente |19 Para além disso, a tendência de consumo de eletricidade e gás pode também ser analisada numa base semanal e uma comparação inter-cluster pode ser estabelecida, comparando o consumo de cada um dos clusters e a respetiva evolução em relação às semanas anteriores. O governo das Smart Cities pode gerir os seus recursos muito mais facilmente, e os fornecedores de energia podem segmentar e distribuir a energia, baseando-se numa visão mais panorâmica, como a agregação por cluster. Além disso, estes podem prever quanta energia será necessária durante os próximos dois meses e como o ranking dos clusters irá mudar. Todas estas técnicas conduzem a um processo de tomada de decisão mais rico. Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente |20 Capítulo 7 Conclusão Este trabalho apresentou uma arquitetura analítica de Big Data, contemplando o armazenamento, processamento, mining e visualização de dados. A arquitetura apresentada neste trabalho é adequada para suportar o armazenamento e processamento de todos os dados. Contudo, esta é uma representação alto nível da mesma, e alguns componentes ainda não se encontram implementados, como a infraestrutura para executar o cluster Hadoop, as formas de extração de dados para outras aplicações como mobile apps e plataformas Open Data, e questões de segurança. Os componentes de Data Mining da arquitetura mostraram resultados interessantes, dado que foi alcançada uma significativa variedade de clusters, como os diferentes consumos médios de eletricidade e gás de cada cluster demonstraram. Também o algoritmo K-means foi capaz de alcançar uma similaridade intra-cluster reduzida. Além disso, uma taxa de erro tão baixa em quase todos os forecasters testados revelou-se um resultado bem sucedido. Finalmente, a análise visual de dados fundiu todos os resultados numa experiência de utilização refinada, com vista a validar, com sucesso, a arquitetura e o seu subjacente serviço de monitorização de energia. Se iniciativas de Smart Cities começarem a ter lugar em Portugal, iremos ser capazes de recolher dados dos Smart Meters e disponibilizar aos cidadãos uma nova forma de auto-monitorizarem o seu consumo de eletricidade e gás, comparando-se com outras casas dentro do seu cluster ou cidade e prevendo consumos de energia futuros. Além disso, os fornecedores de energia e as cidades terão uma melhor visão do panorama da energia, comparando clusters e observando previsões. É importante mencionar que na perspetiva do Urban Analytics, este trabalho inclui a dimensão de participação, porque informa os cidadãos e integra-os, com vista a alcançar uma melhor sustentabilidade e eficiência da cidade. Contudo, este trabalho também detém a dimensão de gestão, devido ao facto de disponibilizar uma abordagem tecnológica reinventada para a gestão da cidade, de modo a melhorar a eficiência dos sistemas energéticos. Além disso, convém salientar que o grau de implementação já alcançado serve como prova de conceito para a infraestrutura tecnológica proposta, que providencia serviços inovadores aos cidadãos e cidades. Que tenhamos conhecimento, nenhum outro trabalho providencia tal ambiente integrado, capaz de disponibilizar informação útil que conduza ao comportamento pró-ativo na população. Para trabalho futuro é de salientar os componentes que ainda não se encontram implementados nesta arquitetura tecnológica, como a infraestrutura necessária para correr o cluster Hadoop, a integração com mobile apps e plataformas Open Data, e questões de segurança. Também o facto que este trabalho não considera a sazonalidade do consumo e que deve ser integrado em trabalhos futuros. De modo a alcançar isto, deve ser utilizado um conjunto de dados com múltiplos anos de consumos. Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente Referências |21