SOLUCIONANDO DESAFIOS EM BIG DATA Guilherme Yamamoto [email protected] National Instruments Resumo Em 2011 mais de 1,8 zetabytes de dados foram criados. Apenas para efeitos comparativos, se todas as sete bilhões de pessoas na Terra postassem no twitter por um século, seriam gerados apenas um zetabyte de dados. Esse é um desafio encontrado em Big data. Com a proliferação de dispositivos embarcados, cada qual gerando potencialmente centenas de megabytes, se não terabytes de dados diariamente, gerenciar e extrair informações relevantes de todos esses Big data, dentro da indústria pode ser um grande desafio. As fontes de dados, técnicas para adquirir e armazenar dados eficientemente e tecnologias para prospecção de dados (mining data), para tomar decisões de negócios melhor fundamentadas são alguns dos tópicos abordados neste artigo técnico. Palavras chaves: Big Data; gerenciamento de dados; mineração de dados; prógnóstico; 1. INTRODUÇÃO A empresa de pesquisa de tecnologia IDC realizou recentemente um estudo de dados digitais, incluindo arquivos de medição (como gravações de formas de onda ao longo do tempo), vídeo (como imagens térmicas), sons (como ultra-sônicos), relatórios solicitados e por aí vai. O estudo estima que o montante de dados disponíveis dobra a cada dois anos. Em 2011 apenas, 1.8 zettabytes (1E21 bytes) de dados foram criados, veja a figura [1]. Enquanto nosso sistema de monitoramento de ativos pode não produzir a quantidade de dados suficiente, apenas considere o tamanho dos arquivos de dados que nós coletamos a partir do diagnóstico de nossos ativos. A próxima consideração de impacto é que sistemas de aquisição de dados automáticos de baixo custo e sensores podem e possuem nossa capacidade para monitorar e gravar continuamente os dados de nossos ativos. Mesmo dentro das funções de prognósticos e monitoramento de ativos, as tendências são similares: a quantidade de dados disponíveis para análise preditiva dobra a cada dois anos. Figura 1: Os dados são coletados uma faixa parecida com a lei de Moore Alterações, incluindo menor custo de armazenamento e menor custo de dispositivos de gravação de dados, sem dúvida, ajudam o fenômeno Big Data e levantam a questão, “Como podemos extrair os significados dos dados com tanta informação”. Outra questão pode ser “Qual é o valor de Big Data”. Um valor com mais e mais dados simplesmente aumenta o significado estatístico. Esse é certamente o caso em análises prognósticas. Sim, cuidado é requerido. Considere a metáfora mina de ouro, onde na mina, apenas 20 por cento do ouro é visível. Os 80 por cento remanescente é a sujeira que não permite ver o ouro. Mineração é necessária para entender o completo valor do conteúdo da mina. Isso nos traz outro termo, “Sujeira digital”, em que os dados digitais podem ter valores ocultados. Por isso, a mineração de dados e a análise de Big Analog Data™ são necessárias para alcançar novos conhecimentos que nunca foram atingidos antes [2]. 2. INSTRUMENTAÇÃO INDUSTRIAL, BIG DATA E PROGNÓSTICOS As fontes de Big Analog Data™ gravadas em um sistema de monitoramento de ativos industriais são muitos. As gravações mais interessantes são a partir dos dados do mundo físico. Em outras palavras, os dados analógicos que é capturado pelos instrumentos da National Instruments (NI) e de outros fornecedores. Assim nós podemos usar a frase “Big Analog Data™” (BAD) para descrever essas gravações. BAD são medições de formas de onda derivadas no tempo, incluindo vibração, pressão, imagens térmicas, scaneamento ultra-sônico, assinatura de corrente no motor, e até mesmo medições na frequências de rádio é usada na detecção de descargas parciais ou falhas elétricas de terra. Engenheiros, cientistas, e nossos mantenedores de plantas publicam esses tipos de dados (BAD) em alto volume, em uma variedade de formas, e em muitas vezes em alta velocidade. Esses gravadores de Big Analog Data™ oferecem conhecimento na condição da máquina ou ativos desde o local onde o dado é obtido no sensor. Quando engenheiros e cientistas trabalham para resolver os desafios de Big Analog Data™, precisamos de uma abordagem que engloba sensores e atuadores, aquisição e análise de nós distribuídos (DAANs), e infraestrutura de TI para análise, mineração e armazenamento de Big Analog Data™. Considere uma solução de 3 camadas, veja a figura 2. Aqui, é possível distribuir a tarefa de encontrar o valor em nossos dados sensoriais. Dois novos termos são introduzidos: análise “On-line” e “Off-line”. Com a análise online, dados é analisados o valor em uma forma de informação indicativa, na memória, e os mais próximo da fonte de dados quanto possível. Na análise off-line, os dados são analisados em um lugar armazenado frequentemente incorporando similaridades e diferenças com a fonte de dados colaborativa. Figura 2: A solução em 3 camadas para o desafio de Big Analog Data™ Por exemplo, adicionar um chip inteligente como FPGA ou um processador para o sensor permite o sensor reduzir os dados analógicos não processados para indicar a condição das características da forma de onda no tempo. Entretanto, também é possível adicionar “inteligência” aos gravadores de dados para simples sensores analógicos, que nós temos instalados hoje. Tanto os sensores inteligentes quanto os gravadores inteligentes são capazes de implementar uma decisão baseada em técnicas de gravação de dados, veja figura 3. Aqui, os dados analógicos da forma de onda no tempo é continuamente analisados pelas modificações. Apenas quando uma indicação de mudança dentro do ativo está presente nos dados sensoriais (ou baseada em uma periodicidade) os dados gravados e arquitetura em três camadas. Além disso, os dados sensoriais podem ser reduzidos usando análise on- line para ajustar os indicadores ou características de condição, deixando a forma de onda no tempo não processada armazenada localmente ou descartada. Figura 3: Diagrama de estado com decisão baseada nos dados gravados Se, nós temos a capacidade para realizar análise on-line em um sensor, no DAAN ou off-line em uma infraestrutura de TI, nós somos favoráveis em ter um número de ferramentas analíticas a nossa disposição para encontrar ouro nos dados. Os campos ciêntificos de monitoramento de condição e prognóstico oferece um número de ferramentas analíticas para reduzir os dados de indicadores de condição e para encontrar padrões e tendências em resultados analíticos, veja figura 4. Condição indicando análise varia de medições de nível de vibração, tendências de temperatura, espectro para rolo degradação rolamento e assim por diante. Análise prognóstica incluem reconhecimento estatístico padrão, regressão logística, máquinas de vetores de suporte, redes neurais e assim por diante. Juntas, essas duas classes de análise fornecem a base para a geração de consultoria de manutenção automática. Figura 4: Análise prognóstica e diagnóstica para encontrar padrões e tendências. Tecnologia da informação: Para suportar o armazenamento e análises de Big Analog Data™ junto com uma variedade de documentos textuais, a consideração de colaboração com os nossos colegas em Tecnologia da Informação (TI) é uma necessidade. Com centenas de DAANs implantados entre uma frota de ativos, o volume e a velocidade dos dados sensoriais de forma de onda crescem rapidamente. Adicionando cálculos de indicadores de condição "on-line", como os dados se movendo a partir do mundo físico para o mundo digital acrescenta dados adicionais para o volume crescente de dados. Parte de nosso desafio com o BAD (Big Analog Data™) e a variedade de formatos de documentação, é que os dados não se encaixam facilmente dentro dos padrões de bancos de dados relacionais ou bancos de dados temporal. Como comparação, nem a vasta informação disponível na World Wide Web. Fora do trabalho do Google para "index" da web, veio um sistema de arquivos subjacente, Apache Hadoop, que oferece suporte a dados não estruturados ou dados que são armazenados em arquivos, em vez de um banco de dados relacional, Figura 5. Esses arquivos podem incluir formatos binários e ASCII de indicadores de condição e formas de onda. Na National Instruments, uma estrutura de arquivo chamado de TDMS (Technical Data Management Streaming) é usada para armazenar formas de onda e indicadores de condição. Nossos arquivos de dados não estruturados também incluem documentação de exame técnico, e os relatórios de ordem de serviço de manutenção. O sistema de arquivos Apache Hadoop nos ajuda a gerenciar esses itens de banco de dados não relacionais. O Hadoop é um sistema de armazenamento altamente escalável e de processamento de dados em lote. Ele fornece uma estrutura de armazenamento e processamento integrado que escala horizontalmente, com hardware de commodity e oferece tolerância a falhas através de software. O Hadoop inclui também conceitos para a distribuição de análise para os dados, para evitar problemas de largura de banda de mover os dados offline [3]. Figura 5: Visão de alto nível do sistema de arquivo Hadoop dentro da estrutura de TI (Fonte: Cloudera) Diversos fornecedores de tecnologia da informação levam o conceito adiante, industrializando o Hadoop e melhorando as ferramentas de programação utilizadas para extrair e analisar os dados em uma combinação de Hadoop e armazenamento relacionais. A IBM (International Business Machines), por exemplo, não só reforça a infra-estrutura de TI com os seus sistemas de computação empresarial PureSystems™, a IBM também adiciona InfoSphere Streams para análise on-line e BigInsights InfoSphere para análise off-line, a Figura 6. Essas arquiteturas e ferramentas analíticas prometem uma capacidade de reunir rapidamente o valor de nossa variedade, velocidade e volume de armazenamentos de Big Analog Data™ e documentos não-estruturados [4]. Figura 6: Plataforma da IBM e visão para Big Data (Fonte: IBM DeveloperWorks) Portanto, se você combinar análises Big Analog Data, on-line e em off-line de indicação de condição e tipo prognóstico, com tecnologia da informação expandida; Se torna possível criar plataforma de diagnóstico e monitormaneto inteligente, e ainda prognósticos baseados em rede. Um exemplo de tal plataforma de computação é o servidor IBM PureSystem™ [5].A plataforma PureSystems combina a flexibilidade da computação de propósito geral, a elasticidade da computação na nuvem, solução de armazenamento flexível, com a habilidade de criar pacotes de aplicações para aplicações de monitoramento de ativos, diagnóstico, e prognósticos. A IBM adiciona a plataforma de hardware, e sua infraestrutura Hadoop, “BigIndex”. Os BigInsights aliam análise estatística, cálculos gerais, análise de texto, tudo o que promete um melhor solução para monitoramento da capacitação, diagnóstico, aprendizagem de padrões de máquina e prognósticos. Agora, através da combinação de tecnologia da informação com centenas de DAANs (aquisição e análise de nós distribuidos), podemos construir uma solução integrada de monitoramento de ativos da frota, usando tanto análises on-line e off-line, com a análise em on-line que residem no DAAN ou na infra-estrutura de TI, e análise off-line executando dentro de um estilo de armazenamento de dados Hadoop. Similar a Figura 2, nós podemos conceder uma arquitetura que atende a dados desafio grande, Figura 7, [7]. Figura 7, Monitoramento de ativos Big Data e arquitetura de sistema prognóstico. Na Figura 7, o DAAN é rotulado como um dispositivo inteligente de campo para datalog. Este realiza análises on-line para extrair características ou indicadores de condição de sensores. Se não houver uma mudança na condição de funcionamento ou no valor calculado, o novo dado é considerado valioso e encaminhado para a arquitetura de computação de TI. Uma vez na plataforma de TI, novos e recentes dados são analisados em tempo real ainda on-line e comparado com assinaturas existentes normal e em falha para determinar o nível atual de degradação e desempenho do ativo. Uma ou ambas as análiseson-line e análise off-line continuam o processo de análise com a revisão de ordens de serviço históricos e registros de desempenho de ativos. Com a adição de análise off-line, são desenvolvidos novos padrões e a predizer o futuro do desempenho e a degradação tornam-se possíveis. Estudo de caso: A Duke Energy tem instalado mais de 3000 sensores com mais de 300 dispositivos de aquisição e logging de dados automáticos (DAANs). Estes sensores e sistema de aquisição de dados são co-localizados com o equipamento e com frequentemente conectado a rede de negócio usando o padrão de rede wireless 802.11g. Dados de vibração e de temperatura são armazenados seletivamente, transferidos para uma planta de calculo de agregação de dados, e usando comunicação OPC para carregar as características de vibração dentro do histórico da planta. No DAAN, dado de sensor é continuamente digitalizado e analisado. A análise embarcada calcula a velocidade de rotação do equipamento, níveis de vibração e temperatura global, e mais importante força dinâmica central levando a degradação no rolamento e engrenagens. Esta força dinâmica, desalinhamento e desbalanceamento, são conhecidos por ser a principal causa de degradação em rolamentos e engrenagem. Ao monitorar estes cálculos e medições do sensor para mudanças, o DAAN é inteligente quanto aos dados que registra em seu disco local. Mudanças no valor medido, característica calculada, mudanças no tempo, ou até mesmo um pedido de registro de um usuário remoto pode desencadear uma gravação dentro do dispositivo inteligente. Para permitir amplas comparações e análise, todas as gravações de dados até o nível do sensor são rotuladas com a hierarquia de equipamentos, bem como a descrição, incluindo marca e modelo do componente individual, Figura 8. Com a hierarquia no local, é possível encontrar e comparar os sensores de vibração e as características extraídas de rolamentos, como em máquinas dentro da mesma planta ou em várias plantas. Através da utilização de equipamento de hierarquia, torna-se possível desenvolver as comparações entre as plantas, bem como para contribuir para melhorar uma base de dados de assinatura de falha. Esta hierarquia permite que especialistas no assunto, familiarizados com as máquinas, investigar máquinas específicas e recuperar dados tanto crus quanto processados a partir de sensores na máquina específica. Além disso, quando a hierarquia é o mesmo que o utilizado no sistema de controle, os valores de processo podem ser correlacionados com os dados de gravações feitas pelo dispositivo de datalloging inteligente. Valores de processo correlacionados podem incluir fluxos de fluidos, a carga de geração de energia, temperatura ambiente, e assim por diante. •Enterprise •Plant Location •Description •Reliability Team •Etc. Data Set (File) Property 1 Property n Channel Group(s) Property 1 Property 2 Property n Channel(s) Property 1 Property n •Plant •Line •Asset •Machine Component •Etc. •Sensor •Time stamp •Trend •Time Waveform •Spectrum •Etc. Figura 8: A rede DAAN da Duke Energy e a hierarquia do formato de gravação Conforme os dados chegam ao nó da planta computa e entra na infra-estrutura de computação de TI, este é armazenado e indexado para recuperação usando tags de metadados. Além disso, as características extraídas e cálculos feitos dentro dos nós de aquisição de dados são disponibilizados à histórico da planta. O histórico da planta subscreve as características deste sinal útil para a tendência estatística e detecção de anomalias. Características subscritas incluem os níveis de vibração globais em RMS, e as forças indutoras de degradação que são a primeira e segunda harmônicas de vibração da velocidade de rotação. Uma vez que os dados são mantidos dentro do histórico da planta, uma ferramenta de aplicação para modelagem e detecção de anomalias analisa as tendências de vibração, temperatura e outras variáveis de processo realizado no histórico. O software de detecção de anomalia Instep PRiSM funciona através do desenvolvimento e utilização de dados impulsionando modelos de prognósticos. Usando todos os dados disponíveis sobre um determinado ativo ou componente mecânico, a ferramenta Instep PRiSM desenvolve uma série de perfis normais de operação para uma determinada instância do tipo de equipamento. Os perfis operacionais normais incluem temperatura, valores de processo, bem como as medidas de vibração relatadas pelos dispositivos de registro de dados robustos. Além disso, vários perfis normais de operação são criados, um para cada regime de funcionamento tais como a alta carga ou baixa carga. Por fim, os perfis normais são normalizados entre um equipamento similar e perfis operacionais [9]. Se os novos dados sensoriais que chegam do DAAN não correspondem a um padrão normal, um alerta é enviado para o engenheiro de equipamentos responsáveis por uma investigação mais aprofundada. Na Duke Energy, o monitoramento de ativos e aplicação de diagnóstico está começando a se desenvolver. Muitas das máquinas foram equipadas com sensores de vibração e de temperatura e dispositivos de gravação de dados inteligentes. Os fluxos de dados a partir do dispositivo de gravação de dados, juntamente com metadados e recursos extraídos ou calculados. Uma vez que os dados e as características calculadas chegarem ao computador nó da planta, estes parâmetros são postados para subscrição pelo servidor da planta. O software de detecção de anomalias, incluindo software PRiSM, está sendo treinado para alertar os funcionários da planta de desvios de desempenho esperados da máquina. 3. CONCLUSÃO Com sistemas de aquisição de dados de baixo custo, melhor conectividade de sensores de controle, e um sistema de rede da planta mais amplo, mais dados irão fluir pelo sistema de monitoramento de ativos do que antes. O gerenciamento de dados e as ferramentas de mineração de dados (mining tools) são necessárias em todos os níveis do processo de fluxo de dados. As ferramentas incluem técnicas de pontuação para redução de dados em dispositivos de aquisição de dados, ferramentas de conversão de dados para transformar dispositivos de aquisição de dados de uma variedade de fornecedores, com um dispositivo de análise on-line, o qual os dados se movem do dispositivo para o primeiro computador da rede, e tecnologia de informação (TI) mais ampla da rede. Uma vez em off-line, plataformas para mineração dos dados combinam dados de alto valores em um sistema de diagnóstico e prognósticos. A colaboração entre os fornecedores de instrumentação, especialistas em equipamentos envolvidos na manutenção preditiva, pesquisadores em prognóstico e empresas de tecnologia da informação, está produzindo novas soluções para o monitoramento inteligente e aplicações de diagnóstico. 4. REFERÊNCIAS BIBLIOGRÁFICAS [1] A Hadhazy, “Zettabytes Now Needed to Describe Global Data Overhead”. Live Science. 4 May 2010 Web. 31 Aug 2012. [2] P Johnson, T Bradicich, and S Orci MFPT Newsletter, December 2012. Web. http://www.mfpt.org/newsletters/1212/Johnson.htm [3] C Bisciglia. “5 Common Questions About Apache Hadoop”. Cloudera Blog. 14 May 2009 http://blog.cloudera.com/blog/2009/05/5-common-questions-about-hadoop/ [4] C Franklin. “Big Data as part of an enterprise data strategy”. Tamgroup Blog. 19 March, 2012 http://www.tamgroup.com/blog/bid/118927/Big-Data-as-part-of-an-enterprise-data-strategy [5] D Watts, R Davis, R French, L Han, D Ridley, C Rojas. “IBM PureFlex System and IBM Flex System Products and Technology”. IBM Redbooks. July 2012 [6] C Eaton, D Deroos, T Deutsch, G Lapis, P Zikopoulos. “Understanding Big Data, Analytics for Enterprise Class Hadoop and Streaming Data”.. ISBN 978-0-07-179053-6. Pgs: 81-121. McGraw Hill, 2012, New York [7] Y Lei, D Djurdjanovic, G Workman, G Xiao, and J Lee, “Basic prognostics in industrial automation systems”, Proceedings of the 6th International Conference on Frontiers of Design and Manufacturing. June 21-23, Xi'an, China, 2004 [8] B Cook. “Smart monitoring and diagnostics for power generation” National Instruments NIWeek conference, August 7-9, Austin, Texas, 2012 [9] L Billingsly. “Reducing Downtime and Manhours”, M2M Magazine, http://www.instepsoftware.com/pdf/Exelon_Case-Study.pdf, October, USA, 2009 Guilherme Yamamoto é formado em Engenharia Elétrica pela Universidade São Judas Tadeu desde 2010. Com experiência de dois anos na empresa National Instruments, onde iniciou como Engenheiro de Aplicações, função a qual ministrou diversos treinamentos relacionados ao ambiente gráfico de programação LabVIEW. É certificado CLAD (Certified LabVIEW Associate Developer). Rapidamente assumiu a função de Engenheiro em Marketing Técnico nos segmentos relacionados a monitoramento & controle embarcado e acadêmico.