Centro de Investigação ALGORITMI
Universidade do Minho
Escola de Engenharia
Carlos Costa e Maribel Yasmina Santos
Melhorando a Sustentabilidade das Cidades
com uma Infraestrutura Analítica para um
Consumo de Energia mais Inteligente
Dossiê de Candidatura
Urban Analytics 2015
Março 2015
Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente
|2
“Carlos é um estudante de mestrado com 22 anos, em Sistemas de
Informação na Universidade do Minho. Previamente, a sua formação
académica passou pela Licenciatura de Tecnologias e Sistemas de
Informação na Universidade do Minho e pelo Nível de Técnico Profissional na
Escola Secundária Francisco de Holanda. A sua experiência até à data
envolve: presidente na Association for Information Systems Student Chapter
UMinho; administrador WEB, designer e programador; freelancer em
desenvolvimento Mobile, Java e C#; Gestor de Projeto e Administrador de
Base de Dados; Técnico de Computadores. Durante o seu percurso como
estudante ele acumulou alguns reconhecimentos & prémios, devido
essencialmente às suas notas ou participações em concursos de IT: Microsoft
Power BI Top 5; vencedor Deloitte ChallengeIT@Braga; semifinalista 2015 Hilti
Big Data Analytics Competition; Prémio Sociedade Martins Sarmento.
Considera que tem algumas competências que espelham as suas principais
áreas de interesse e experiência: Business Analytics (Business Intelligence, Big
Data, Data Mining, Text Mining, WEB Mining, Data Analysis and Discovery);
Software Development; Business Process Management; Infrastructure and
Service Management. Para além disso, detém outras competências, que
embora reconheça que não são a sua área de maior experiência, ainda retém
algum conhecimento: Business Strategic Management; Computer Networks;
Mathematics and statistics; Financial Assessment and Management. Contudo,
um bom profissional não é apenas feito de hard skills , portanto ele destaca
algumas competências pessoais, tais como: bom espírito de equipa; atento e
empenhado; troca de ideias e a excelente comunicação; gosta de liderar, mas
sabe como ser liderado.”
Carlos Costa, Estudante de Mestrado
Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente
|3
“Maribel Yasmina Santos é Professora Associada com Agregação do
Departamento de Sistemas de Informação da Escola de Engenharia da
Universidade do Minho. É Licenciada em Engenharia de Sistemas e
Informática (1991), Mestre em Informática – Especialização em Informática
de Gestão (1996), Doutorada em Tecnologias e Sistemas de Informação
(2001) e Agregada em Tecnologias e Sistemas de Informação (2012), pela
Universidade do Minho. É membro integrado do Centro de Investigação
ALGORITMI (http://algoritmi.uminho.pt/), enquadrada no grupo SEMAG
(Software
Engineering
and
Management
Group,
http://semag.algoritmi.uminho.pt), no qual lidera a linha de investigação
“business and location-enhanced database systems”. Os seus interesses
científicos incluem Business Intelligence and Analytics, Big Data Analytics,
(Spatial) Data Warehousing, (Spatial) On-Line Analytical Processing e (Spatial)
Data Mining. Atualmente orienta (ou co-orienta) 2 estudantes de
doutoramento e 6 estudantes de mestrado, tendo já concluído a orientação
(ou co-orientação) de 3 estudantes de doutoramento e 25 estudantes de
mestrado. É autora ou co-autora de mais de 90 publicações internacionais,
incluindo livros, capítulos de livros e artigos publicados em revistas ou em
atas de conferências. Fez parte da comissão de programa ou comissão
científica de mais de 70 conferências nacionais e internacionais. É também
membro da comissão editorial do International Journal of Data Mining,
Modelling and Management e do International Journal on Advances in
Intelligent Systems. É coinventora de duas patentes, uma nacional e uma
internacional. Foi diretora-adjunta do Departamento de Sistemas de
Informação da Universidade do Minho (2010-2014) e é membro da comissão
diretiva da AGILE (Association of Geographic Information Laboratories for
Europe, http://www.agile-onlie.org) desde Abril de 2011, sendo Secretáriageral da AGILE desde Maio de 2013. É membro do grupo de trabalho
permanente “Sistemas de Informação Geográfica” e do grupo de trabalho
“Geo-Competitivo II: Arquiteturas organizacionais suportadas em Informação
Espacial” ambos da Associação para a Promoção e Desenvolvimento da
Sociedade da Informação (APDSI). ”
Maribel Yasmina Santos, Professora Associada
Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente
|4
“O Centro de Investigação ALGORITMI detém uma longa e orgulhosa história
como unidade de investigação portuguesa no domínio de ICT&E (ICT&E),
desde setembro de 1978. O ALGORITMI é uma unidade de investigação da
Escola de Engenharia - Universidade do Minho, que desenvolve atividade de
R&D em Information and Communications Technology & Electronics, atuando
em quatro grandes domínios: (1) Information Systems, Computing
Technologies; (2) Electronics, Energy, Robotics; (3) Computer Networks,
Pervasive Computing; (4) Operational Research, Industrial Engineering &
Management. A maioria dos investigadores do ALGORITMI com grau PhD são
também membros do corpo docente de quatro departamentos de ensino da
Escola de Engenharia, nomeadamente: Engenharia Electrónica (DEI);
Sistemas de Informação (DSI); Produção e Sistemas (DPS); Informática (DI).
Além disso, os projetos MSc e PhD orientados por esses mesmos membros
do corpo docente são desenvolvidos no ALGORITMI.”
Centro de Investigação ALGORITMI
“A UMinho pretende ser uma Universidade sem muros, focando-se no
desenvolvimento socioeconómico regional, nacional e internacional. Atividades
internacionais são significativamente intensas, com um grupo variado de
países de todos os continentes, incluindo os de idioma português. A UMinho é
uma Universidade de Investigação, empenhada na valorização da cadeia
Conhecimento-Investigação, Desenvolvimento e Inovação - como evidenciam
uma série de indicadores: O rácio entre estudantes PhD e staff académico é
superior a 1; a fração de estudantes pós-graduados e total da população
estudantil é maior que 20%; o rácio entre projetos de investigação e PhDs é
superior a 0.5; cerca de 150 PhDs são premiados a cada ano; a produção
média anual de papers referenciados em journals científicos é impressionante
para uma Universidade eclética; mais de 2/FTE/ano; as citações estão a
aumentar a cada ano; são assinados anualmente 250 contratos R&D com
companhias. Entre as 28 unidades de investigação avaliadas pela FCT em
2014, 1 foi considerada excecional, 10 excelentes e 11 muito boas. Sob FP7,
a CE premiou a UMinho com 2 ERC Advanced Grants. A UMinho está
envolvida no graphene FET flagship e coordena muitos outros projetos de
vasta dimensão, incluindo um REGPOT em nano medicina. O Times Higher
Education (THE) 100 under 50 University Ranking 2014 colocou a UMinho na
75ª posição e o 2014 THE World University Rankings entre as posições 350 e
400 (apenas presentes dois Institutos de Ensino Superior português, sendo
que a UMinho foi a melhor). No CWTS Leiden bibliometric Ranking 2014, a
UMinho é a melhor universidade portuguesa.“
Universidade do Minho
Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente
|5
Resumo
Atualmente, as cidades consomem cada vez mais energia para sustentar as suas atividades do quotidiano.
Com a crescente utilização de dispositivos elétricos enfrentamos desafios associados à distribuição e controlo de
energia. Para além disso, tendemos a despender bastante energia para aquecer ou arrefecer as nossas habitações.
Este trabalho ilustra a arquitetura de uma infraestrutura tecnológica para extração, carregamento, transformação,
mining e forecasting de Big Data associado a consumos de energia. Esta arquitetura tecnológica faz uso de um
conjunto de dados que contém o consumo de eletricidade e de gás de casas distribuídas por múltiplas cidades dos
Estados Unidos da América, devido à disponibilização destes dados de forma aberta. Convém mencionar que a
utilização de todo o trabalho aqui proposto e desenvolvido é adequada a Portugal (ou às cidades portuguesas), desde
que os consumos energéticos sejam disponibilizados pelas entidades responsáveis. O objetivo principal deste trabalho
consiste em disponibilizar aos cidadãos uma nova forma de monitorizarem o seu consumo de eletricidade e gás,
permitindo que comparem o consumo da sua habitação com outras pertencentes ao mesmo cluster ou estado/cidade
e prevendo consumos de energia futuros. Para além disso, a arquitetura também providencia à gestão das cidades e
aos fornecedores de energia uma forma mais inteligente de monitorizarem o panorama do consumo de energia. O
trabalho faz uso de dados simulados, provenientes dos Estados Unidos da América, em conjunto com tecnologias
como o Hadoop, Talend Open Studio for Big Data, WEKA e Tableau, para armazenar e processar Big Data, produzir
clusters e time series forecasts e visualizar informação, respetivamente. Os resultados alcançados revelam que usando
esta arquitetura tecnológica é possível identificar, com significativa precisão, clusters de habitações a partir do seu
consumo energético. É também possível prever futuros consumos de eletricidade com uma reduzida margem de erro.
As principais vantagens da abordagem proposta são o facto de qualquer cidadão poder monitorizar periodicamente o
seu consumo de energia, comparar-se com outras casas do mesmo cluster ou cidade e prever quanta energia irá gastar
se mantiver o seu padrão de consumo. Isto conduz os cidadãos a um processo de tomada de decisão mais rico,
informando-os sobre possíveis divergências em relação a consumos de energia usuais, tornando-os mais conscientes
em termos ambientais, ou pelo menos, conscientes em termos económicos. Os governos das cidades e os
fornecedores de energia podem também adotar a abordagem aqui proposta, com vista a gerir de forma mais eficiente o
consumo energético das cidades, usar os dados processados em iniciativas de marketing ambiental e prever
necessidades energéticas.
Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente
|6
Capítulo 1 Introdução
Os centros urbanos estão a crescer e parecem ser a primeira escolha para a habitação moderna, baseado no
facto de que metade da população encontra-se a viver em ambientes urbanos [1]. Com este fenómeno, advêm vários
problemas e as cidades necessitam de adaptar-se a esta tendência. Nos últimos anos começamos a observar o
surgimento de um novo conceito, o conceito de Smart Cities. Os governos estão a enfrentar mais custos de
empregabilidade, transportes, infraestruturas, energia, entre outras necessidades básicas. Para além disso, os cidadãos
comportam-se como natos consumidores de serviços do governo e exigem mais, independentemente das restrições
existentes [2]. É neste ponto que Big Data pode ajudar. As cidades e cidadãos geram um vasto volume de dados, com
múltiplos graus de complexidade, a diferentes velocidades, provenientes de várias fontes, que não se adequam às
tradicionais tecnologias. Isto remete-nos para a definição geral de Big Data [3]–[5]. A necessidade emergente de tornar
as cidades mais inteligentes, associada ao conceito, relativamente recente, de Big Data e às possibilidades que este
permite, constituem a base motivacional para o desenvolvimento desta arquitetura analítica de Big Data. A mesma é
capaz de processar dados de uma cidade e, como demonstraremos, providenciar serviços inteligentes, quer para os
cidadãos quer para o governo ou outros stakeholders, através do uso de técnicas de Data Mining, como clustering e
time series forecasting [6]. Clustering é usado para identificar grupos homogéneos de casas, com padrões de consumo
energético similares, permitindo a comparação e ranking, enquanto que time series forecasting é usado para prever
futuros consumos.
O conjunto de dados usado para validar a arquitetura é o “EPLUS TMY2 residential base” [7], contendo 238
ficheiros. Cada ficheiro representa um ano de consumo horário de eletricidade e gás, proveniente de uma casa
simulada numa determinada cidade dos USA. Foi também extraída informação acerca de todos os estados dos USA,
contendo as abreviações, nomes, população e área terrestre de cada estado. É esperado que a arquitetura proposta
suporte adequadamente o serviço inteligente de monitorização e previsão, providenciando refinadas análises visuais de
dados. De modo a validar os resultados obtidos, foi considerada a similaridade intra-cluster, além da variedade de
clusters, bem como uma taxa de erro reduzida na técnica de time series forecasting.
Este documento é estruturado da seguinte forma: o capítulo II sumariza o trabalho relacionado e descreve de
que modo este trabalho contribuí para o estado da arte nesta área. O capítulo III descreve o que é esperado de uma
Smart City e de um Smart Citizen. O capítulo IV ilustra a arquitetura tecnológica proposta e fornece uma visão geral do
conjunto de dados usado. O capítulo V descreve o processo de preparação e mining dos dados, incluindo clustering e
time series forecasting. O capítulo VI apresenta a análise e visualização de dados, de modo a redefinir a fatura de
energia e melhorar a monitorização do consumo energético. Finalmente, capítulo VII concluí com algumas observações
acerca do trabalho realizado e diretrizes de trabalho futuro.
Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente
|7
Capítulo 2 Trabalho Relacionado
Entre a comunidade científica já se encontram disponíveis algumas abordagens de previsão de consumos
energéticos. Alguns dos trabalhos estão sobretudo relacionados com o preço da energia [8]–[10], enquanto que outros
endereçam a investigação em torno da carga de energia [11], [12]. A prática comum nestes trabalhos relacionados
parece ser o mining de clusters antes da aplicação de modelos de forecasting. De acordo com Alzate and Sinn [11], os
autores alcançaram uma melhoria de 20% na precisão das previsões, usando clustering antes de aplicar um modelo de
forecasting.
Independentemente das técnicas de clustering usadas, bem como as técnicas de forecasting, parece haver,
geralmente, uma abordagem comum: usar clustering com vista a melhorar a eficiência do modelo de forecasting, quer
através da adaptação do modelo para cada cluster, quer através do uso de clustering como técnica de extração de
novos atributos no conjunto de dados. Estes trabalhos relacionados focam os seus resultados na melhoria da eficiência
do Data Mining, recorrendo a técnicas inovadoras, e em geral os resultados mostram uma conclusão satisfatória.
Contudo, estes são primariamente focados no processo de Data Mining e nos resultados, descartando não só a
natureza dos dados do mundo real, que requerem novas tecnologias de armazenamento e processamento, mas
também a importância da possível implementação tecnológica, com vista à disponibilização de novos serviços ao
cidadão.
Outros trabalhos relacionados descrevem os dados dos Smart Meters como sendo Big Data, apresentando
alguns métodos para a visualização da informação e extração de conhecimento [13], [14]. Além disso, existem alguns
trabalhos que estão a ser desenvolvidos com o objetivo de estudar a importância da infraestrutura de armazenamento e
processamento [14]–[16], destacando as bases de dados não relacionais e o Hadoop.
Este trabalho pretende demonstrar como podemos processar os dados de energia registados, através de uma
arquitetura tecnológica analítica de Big Data, usando técnicas de clustering e time series forecasting, não só para
selecionar os modelos de forecasting adequados para cada cluster, mas também para enriquecer a análise visual e
serviço inteligente final, disponibilizando aos cidadãos uma fatura de energia reinventada e providenciando aos
governos e fornecedores de energia uma nova forma de monitorizarem e segmentarem o consumo energético.
Consequentemente, os resultados apresentados são focados não só no sucesso do Data Mining, mas também na
forma de mudar a experiência de consumidor e fornecedor de energia, tornando acessível métodos reinventados de
apresentação do consumo energético. Como também pretendemos alcançar um erro reduzido nas técnicas de
clustering e forecasting, este trabalho faz uso de tecnologias de Big Data para validar a possível implementação num
cenário de aplicação real, e apresenta os resultados finais numa análise visual rica, de modo a ultrapassar o gap entre
uma aplicação de Data Mining bem sucedida e um serviço de uma Smart City.
Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente
|8
Capítulo 3 O que é esperado de uma Smart City e de um Smart Citizen?
Atualmente, podemos observar a crescente diversidade de dispositivos inteligentes que integram as atividades
do nosso dia a dia. Estes dispositivos são considerados inteligentes, pois demonstram comportamento autónomo e
inteligente. É o caso de Smartphones, Tablets e sensores, entre outros. Os efeitos causados pela crescente
urbanização, em conjunto com o avanço nas Tecnologias da Informação e Comunicação (TIC), estão a levar ao
aparecimento de iniciativas de desenvolvimento urbano em múltiplas áreas, tais como saúde, inclusão social, ambiente
e negócio [17].
Isto remete para o conceito de Smart City, onde a tecnologia é integrada numa abordagem estratégica de
sustentabilidade, comportamento cívico e desenvolvimento económico. Nestas cidades, o investimento em capital
humano e social, em conjunto com o investimento em transportes e TIC, alimentam um desenvolvimento económico
sustentável e uma confortável qualidade de vida, gerindo eficientemente os recursos naturais através de um governo
participativo [1], [18].
Entre as principais diferenças entre uma Smart City e uma cidade tradicional destacam-se vários aspetos
tecnológicos e humanos, como o investimento inteligente em TIC, a natureza ágil dos serviços disponibilizados, a
qualidade dos dados, o foco no cidadão e a gestão eficiente de recursos humanos [2]. A Fig. 1 ilustra, através de uma
perspetiva tecnológica, os principais inputs para uma Smart City e um Smart Citizen. Além disso, outras características
que distinguem uma Smart City das demais tradicionais é o foco no cidadão como elemento-chave no sistema,
transformando a forma como a cidade o serve. Um Smart Citizen comporta-se como um consumidor exigente de
serviços públicos, apesar das atuais restrições económicas [2]. As cidades podem criar valor para os cidadãos através
da oferta de serviços eficientes, melhorando não só o uso dos seus recursos, mas assegurando também
sustentabilidade e atratividade a longo prazo. Todos estes benefícios conduzem a um modo de vida apelativo, liderado
pela harmonia perfeita entre pessoas e tecnologia.
Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente
|9
Capítulo 4 Visão Geral da Arquitetura e Dados
Todos os passos e tecnologias propostos neste trabalho podem ser abstraídos numa arquitetura tecnológica,
vista na Fig. 2, de modo a compreender o que pode ser um ponto de partida para futuras implementações de serviços
similares.
A arquitetura faz uso de múltiplos componentes do Hadoop, tais como: Hadoop Distributed File System
(HDFS) para armazenar os ficheiros não estruturados; PIG para processar scripts de agregação de dados; HBase para
armazenar temporariamente os resultados do PIG; HIVE para atuar como um Data Warehouse, contendo o conjunto de
dados final de modo a originar a análise visual. O Talend Open Studio for Big Data é responsável por todos os
processos de fluxo de dados, direcionando os mesmos do HDFS e HBase para o sistema de ficheiros local e vice-versa.
Posteriormente, o WEKA é usado para a construção de modelos de clustering e forecasting. O Talend Open Studio for
Big Data usa a biblioteca Java do WEKA de modo a integrar os modelos em tempo real e armazenar os resultados no
HIVE. Finalmente, podemos desenvolver uma análise visual de dados, usando o Tableau.
De modo a perceber o conjunto de dados usado neste trabalho, o seu modelo de dados será apresentado,
além da forma como todos os 238 ficheiros foram verificados, extraídos e armazenados no Hadoop. Cada ficheiro
neste conjunto contém dados de uma casa simulada, com características médias, como 3 quartos e 1 ou 2 casas de
banho, tendo em consideração o ambiente e clima em que a casa é inserida. Existe um ficheiro por cada cidade dos
USA, representando o consumo horário médio de uma casa enquadrada na respetiva cidade. A Fig. 3 ajuda na
Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente
|10
compreensão do modelo e conteúdo dos ficheiros, além das classes de atributos. HVAC significa “aquecimento,
ventilação e ar condicionado”, APPL significa eletrodomésticos e MISC significa variados.
Como pode ser visto na Fig. 3, a informação do estado e cidade encontra-se no nome do ficheiro, requerendo
um esforço de processamento adicional para extrai-los e armazená-los dentro do ficheiro, com vista a uma análise
futura.
Lidar com Big Data implica a verificação de certas características que os dados possam ter: volume,
variedade, velocidade, veracidade e valor [19]. No nosso caso de demonstração, tendo em consideração que é uma
prova de conceito a ser executada em apenas uma máquina, os dados detinham um volume considerável (238
ficheiros como mencionado, contendo mais de 8760 linhas cada um, totalizando mais de 550 megabytes). Além disso,
num cenário real, estes dados virão de vários sensores e serão atualizados numa base horária. Este conjunto de dados
foi usado com vista a testar a arquitetura e serviço inteligente, porque traz consigo a veracidade do processo de
simulação [7] e a informação valiosa que pode ser extraída usando Data Mining e visualização. Assim que existam
dados de livre acesso em Portugal, por exemplo com a implementação de iniciativas Smart Cities, a arquitetura
proposta e implementada será capaz de processar dados reais e beneficiar as cidades e cidadãos portugueses.
Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente
|11
Capítulo 5 Preparação dos Dados e Data Mining
A análise da qualidade dos dados em contexto de Big Data é uma das fases mais desafiantes, devido
sobretudo ao seu volume. Neste caso de demonstração, armazenamos todos os 238 ficheiros no Hadoop, e
analisamos a qualidade dos dados usando o Talend Open Studio for Data Quality. Os dados não apresentaram falhas a
considerar em futuras fases de transformação, muito devido ao facto de serem simulados e não influenciados por
problemas de inserção manual. Numa aplicação em contexto real é também expectável que os dados não apresentem
grandes falhas, devido a serem extraídos de sensores, usando métodos autónomos. Neste caso, alguns ficheiros
apresentaram o valor 0 no consumo de gás. Mais à frente neste documento é explicado como isto afetará o processo
de desenvolvimento.
A tarefa de Data Mining integrou um exercício de clustering de modo a segmentar as casas pelo seu consumo
de eletricidade e gás, e um exercício de time series forecasting para prever futuros consumos de eletricidade.
Combinando estas duas técnicas, disponibilizamos um método para comparar o consumo histórico e previsto de uma
casa com outras casas no mesmo cluster e para comparar consumos entre clusters.
5.1 Clustering
Com vista a identificar clusters a partir do conjunto de dados original, era necessário um conjunto de dados
menos detalhado, nomeadamente, dados agrupados por estado e cidade. Para alcançar isso, foi realizada uma
operação de agregação em PIG, uma linguagem de alto nível incorporada no Hadoop e designada para realizar análise
de dados. Os passos envolvidos na script PIG são demonstrados na Fig. 4. Os resultados consistem no consumo de
energia anual por estado e cidade e foram armazenados no HBase, que atuou como a nossa área de estágio dos
dados.
Quanto à limpeza dos dados, os zeros foram substituídos pela média global por estado deste conjunto de
dados utilizados no processo de clustering. De forma a construir novos dados, os atributos mais detalhados de
consumo de energia foram agregados em três categorias: aquecimento/arrefecimento, luzes e equipamento de interior.
Todos os outros atributos permaneceram iguais. Contudo, após analisar a dispersão e correlação de todos os atributos,
escolhemos remover estes atributos detalhados do processo de clustering, pois detinham baixa dispersão e alta
Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente
|12
correlação com os atributos gerais de eletricidade e gás. Atributos altamente correlacionados tendem a influenciar
algumas técnicas de clustering [20]. Para formatar os dados, os valores com casas decimais foram arredondados para
o inteiro mais próximo, devido a propósitos de apresentação dos dados. O processo de limpeza e construção dos dados
é mostrado na Fig. 5.
Neste estudo, o processo de clustering é conduzido usando o algoritmo K-means, que requere a especificação
de um parâmetro de entrada, k, representando o número de clusters. Uma vez que não existe indicação do número
apropriado de clusters para este conjunto de dados, todos os dados foram iterativamente usados para produzir clusters,
incrementando o número de clusters de modo a produzir e registar cada erro na similaridade intra-cluster. O K-means é
um algoritmo de clustering bastante reconhecido, que particiona um conjunto de dados em k grupos, selecionando o
centro dos clusters e refinando-os iterativamente [21]. Este foi o único modelo escolhido devido à simplicidade em
avaliar os resultados, usando a similaridade intra-cluster. A Fig. 6 mostra a similaridade intra-cluster para cada tentativa
de clustering, cada uma com diferente número de clusters.
Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente
|13
Usando o método L, em que o “joelho é encontrado num gráfico com o número de clusters vs. métrica de
avaliação de clustering” [22], fomos capazes de identificar que 5 aparenta ser o número ideal de clusters para este
conjunto de dados.
A síntese do modelo é mostrada na Fig. 7, apontando os centroides (kw/h) dos clusters identificados e o
número de cidades em cada um deles. O modelo de clustering é construído usando o consumo de eletricidade e gás,
agrupado por estado e cidade, como previamente explicado.
5.2 Time Series Forecasting
No processo de time series forecasting, os resultados do processo de clustering são usados como input para
um ficheiro contendo o número do cluster a que cada cidade pertence. Este ficheiro foi juntado com o conjunto de
dados original (Fig. 3), usando outra script PIG, que também agrupou o resultado por número de cluster e timestamp
(dia e hora). Isto fornece-nos o consumo horário de cada cluster durante todo o ano.
No que respeita a granularidade do tempo, e como o conjunto de dados continha um ano de consumo de
energia, não permitindo qualquer análise sazonal, a granularidade temporal escolhida foi por semana, permitindo
prever as próximas semanas de consumo de energia, oferecendo elevado valor de monitorização e planeamento.
Finalizado este processo, o conjunto de dados a usar no processo de forecasting inclui os seguintes atributos:
1. Número de cluster;
2. Semana;
3. Consumo de eletricidade e gás.
Antes de iniciar o processo de forecasting, como as primeira e última semanas do conjunto de dados não
ofereciam todos os 7 dias, escolhemos não as considerar, melhorando assim a variância da série temporal. Além disso,
porque estamos agora a lidar com séries temporais, temos que relembrar que alguns valores do consumo de gás eram
zero, fazendo com que um dos clusters obtivesse zero como centro. Para além desta questão, observamos que outro
cluster apresentava sérias descidas no consumo de gás. Devido a estes dois factores, este trabalho, numa das suas
componentes, apenas fará previsões de consumo de eletricidade.
Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente
|14
Testar time series forecasting usando o WEKA é muito semelhante a outras técnicas de Data Mining. De modo
a avaliar os modelos, foi usado o método holdout, reservando 80% dos dados para treino e os restantes 20% para
propósitos de teste. Foram utilizadas 3 métricas diferentes (Fig. 8): Mean Absolute Error (MAE); Root Mean Squared
Error (RMSE); Direction Accuracy.
Quatro modelos state-of-the-art foram construídos e avaliados, para cada um dos cinco clusters. Estes modelos
observarão principalmente as 12 semanas anteriores para prever as futuras 8. A Fig. 9 demonstra os resultados obtidos
para cada modelo e cluster.
Os resultados obtidos indicam que os modelos selecionados comportam-se bastante bem, tendo em
consideração que os erros são medidos em kilowatts/hora (kw/h). Isto significa que para cada cluster, existe pelo
menos um modelo que consegue prever as próximas 8 semanas de consumo elétrico com um Mean Absolute Error
(MAE) inferior a 16.8 kw/h, excepto para o cluster 2, cujo MAE observado mais reduzido é cerca de 46. Além disso,
existem modelos capazes de prever com um MAE de 6.7 kw/h (Fig. 10). Tendo em consideração que os valores variam
entre 120 e 412 kw/h, estes testes revelam resultados satisfatórios.
Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente
|15
O conjunto de dados segmentado foi testado com todos os 4 modelos, com o objetivo de encontrar o melhor
forecaster para cada cluster e as suas correspondentes cidades. O modelo subjacente ao 2º, 3º, 4º e 5º clusters é a
Decision tree, enquanto que para o 1º cluster é a Neural Network, como pode ser visto na Fig. 9. Consequentemente,
uma casa herdará o forecaster do seu cluster. Por exemplo, se uma casa de New York pertence ao cluster 3, o
forecaster que será usado para prever o consumo de eletricidade será a Decision tree.
O próximo capítulo apresenta a análise e visualização dos modelos de previsão num contexto de Smart City.
Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente
|16
Capítulo 6 Análise e Visualização de Dados: Reinventando a Fatura de Energia
para um Consumo de Energia mais Inteligente
Este capítulo demonstra como os modelos que serviram como forecasters para cada cluster são usados para
prever dados provenientes das casas pertencentes ao cluster correspondente. Isto é alcançado através da integração da
biblioteca Java do WEKA com o Talend Open Studio for Big Data, permitindo que cada casa tenha não só dados
históricos, mas também previsões de consumo.
Em termos de infraestrutura, todos os dados históricos, segmentados e previstos encontravam-se no HDFS, e
era necessário devolver alguma estrutura aos mesmos, formando um conjunto de dados perfeitamente adequado para
análise e visualização. Todos os atributos relevantes foram integrados numa tabela HIVE (Fig. 11), destinada a
armazenar dados de forma estruturada, apropriados para análise visual. A descrição de cada atributo é também
apresentada na Fig. 11.
Uma vez que o sistema é capaz de processar dados de consumo energético e também é capaz de segmentalos e prevê-los, novas perspetivas de como fornecer feedback às casas podem emergir. A Fig. 12 mostra uma análise
visual de dados de uma casa em New York. A análise começa por comparar a casa em New York com o cluster em que
Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente
|17
é inserida, apresentando os consumos médios de energia. Posteriormente, o gráfico de linhas sobrepõe o consumo de
eletricidade da casa (linha azul escuro) com o consumo do cluster (linha azul claro), contendo não só dados históricos
mas também valores previstos (linha laranja escuro para a casa e linha laranja claro para o cluster), resultantes da
aplicação do modelo de time series forecasting. Além disso, é também possível fazer o ranking das casas pelo seu
consumo de energia, comparando uma certa casa com outras dentro do seu cluster. Esse ranking pode ser ilustrado
num mapa geográfico. O último gráfico na Fig. 12 mostra um mapa de calor, com o objetivo de comparar a casa em
New York com outras casas dentro do mesmo estado dos USA.
Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente
|18
A análise acima descrita exemplifica o quão inovadores e inteligentes podem ser os serviços de uma Smart
City, e neste caso particular, como o clustering e time series forecasting podem ser combinados de modo a formar uma
análise visual que contribui significativamente para que os cidadãos tenham uma experiência de consumo mais
controlada, monitorizando dados históricos e previstos e comparando a sua casa com outras dentro do seu cluster ou
estado. A Fig. 13 descreve um exemplo da experiência associada ao serviço de Smart City proposto, baseado nos
dados demonstrativos da Fig. 12.
As tradicionais faturas de energia não fornecem uma visão clara do nosso consumo energético. Elas,
obviamente, mostram-nos quanta energia gastamos em certo período, mas se queremos tornar as nossas cidades mais
inteligentes e colocar arquiteturas como esta em aplicações de contexto real, a fatura de energia pode:
1. Mostrar como a nossa casa se compara com a média no nosso cluster e como se comparará no
futuro se continuarmos a gastar energia da forma como gastamos;
2. Ilustrar num mapa geográfico qual o ranking da nossa casa, usando dados históricos e previstos;
3. Mostrar-nos como nos comparamos a casas do mesmo estado ou região, numa base semanal.
Estes são apenas alguns dos possíveis exemplos.
Outra perspetiva acerca dos dados que este estudo providencia é útil para fornecedores de energia e para o
governo. Atualmente, os governos enfrentam dificuldades na gestão de recursos, e a energia é um deles. A Fig. 12
mostrou uma fatura de energia reinventada, enquanto que na Fig. 14 pode ser vista uma nova forma de monitorizar e
segmentar energia, com a capacidade de comparar valores médios dos clusters e observar mudanças previstas no
ranking de energia desses mesmos clusters.
Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente
|19
Para além disso, a tendência de consumo de eletricidade e gás pode também ser analisada numa base
semanal e uma comparação inter-cluster pode ser estabelecida, comparando o consumo de cada um dos clusters e a
respetiva evolução em relação às semanas anteriores. O governo das Smart Cities pode gerir os seus recursos muito
mais facilmente, e os fornecedores de energia podem segmentar e distribuir a energia, baseando-se numa visão mais
panorâmica, como a agregação por cluster. Além disso, estes podem prever quanta energia será necessária durante os
próximos dois meses e como o ranking dos clusters irá mudar. Todas estas técnicas conduzem a um processo de
tomada de decisão mais rico.
Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente
|20
Capítulo 7 Conclusão
Este trabalho apresentou uma arquitetura analítica de Big Data, contemplando o armazenamento,
processamento, mining e visualização de dados. A arquitetura apresentada neste trabalho é adequada para suportar o
armazenamento e processamento de todos os dados. Contudo, esta é uma representação alto nível da mesma, e
alguns componentes ainda não se encontram implementados, como a infraestrutura para executar o cluster Hadoop,
as formas de extração de dados para outras aplicações como mobile apps e plataformas Open Data, e questões de
segurança.
Os componentes de Data Mining da arquitetura mostraram resultados interessantes, dado que foi alcançada
uma significativa variedade de clusters, como os diferentes consumos médios de eletricidade e gás de cada cluster
demonstraram. Também o algoritmo K-means foi capaz de alcançar uma similaridade intra-cluster reduzida. Além
disso, uma taxa de erro tão baixa em quase todos os forecasters testados revelou-se um resultado bem sucedido.
Finalmente, a análise visual de dados fundiu todos os resultados numa experiência de utilização refinada, com vista a
validar, com sucesso, a arquitetura e o seu subjacente serviço de monitorização de energia.
Se iniciativas de Smart Cities começarem a ter lugar em Portugal, iremos ser capazes de recolher dados dos
Smart Meters e disponibilizar aos cidadãos uma nova forma de auto-monitorizarem o seu consumo de eletricidade e
gás, comparando-se com outras casas dentro do seu cluster ou cidade e prevendo consumos de energia futuros. Além
disso, os fornecedores de energia e as cidades terão uma melhor visão do panorama da energia, comparando clusters
e observando previsões.
É importante mencionar que na perspetiva do Urban Analytics, este trabalho inclui a dimensão de
participação, porque informa os cidadãos e integra-os, com vista a alcançar uma melhor sustentabilidade e eficiência
da cidade. Contudo, este trabalho também detém a dimensão de gestão, devido ao facto de disponibilizar uma
abordagem tecnológica reinventada para a gestão da cidade, de modo a melhorar a eficiência dos sistemas
energéticos. Além disso, convém salientar que o grau de implementação já alcançado serve como prova de conceito
para a infraestrutura tecnológica proposta, que providencia serviços inovadores aos cidadãos e cidades. Que tenhamos
conhecimento, nenhum outro trabalho providencia tal ambiente integrado, capaz de disponibilizar informação útil que
conduza ao comportamento pró-ativo na população.
Para trabalho futuro é de salientar os componentes que ainda não se encontram implementados nesta
arquitetura tecnológica, como a infraestrutura necessária para correr o cluster Hadoop, a integração com mobile apps e
plataformas Open Data, e questões de segurança. Também o facto que este trabalho não considera a sazonalidade do
consumo e que deve ser integrado em trabalhos futuros. De modo a alcançar isto, deve ser utilizado um conjunto de
dados com múltiplos anos de consumos.
Melhorando a Sustentabilidade das Cidades com uma Infraestrutura Analítica para um Consumo de Energia mais Inteligente
Referências
|21
Download

Carlos Costa e Maribel Yasmina Santos