SOLUCIONANDO DESAFIOS EM BIG DATA
Guilherme Yamamoto
[email protected]
National Instruments
Resumo
Em 2011 mais de 1,8 zetabytes de dados foram criados. Apenas para efeitos comparativos, se todas as
sete bilhões de pessoas na Terra postassem no twitter por um século, seriam gerados apenas um
zetabyte de dados. Esse é um desafio encontrado em Big data.
Com a proliferação de dispositivos embarcados, cada qual gerando potencialmente centenas de
megabytes, se não terabytes de dados diariamente, gerenciar e extrair informações relevantes de todos
esses Big data, dentro da indústria pode ser um grande desafio.
As fontes de dados, técnicas para adquirir e armazenar dados eficientemente e tecnologias para
prospecção de dados (mining data), para tomar decisões de negócios melhor fundamentadas são alguns
dos tópicos abordados neste artigo técnico.
Palavras chaves:
Big Data; gerenciamento de dados; mineração de dados; prógnóstico;
1. INTRODUÇÃO
A empresa de pesquisa de tecnologia IDC realizou recentemente um estudo de dados digitais, incluindo
arquivos de medição (como gravações de formas de onda ao longo do tempo), vídeo (como imagens
térmicas), sons (como ultra-sônicos), relatórios solicitados e por aí vai. O estudo estima que o montante
de dados disponíveis dobra a cada dois anos. Em 2011 apenas, 1.8 zettabytes (1E21 bytes) de dados
foram criados, veja a figura [1]. Enquanto nosso sistema de monitoramento de ativos pode não produzir a
quantidade de dados suficiente, apenas considere o tamanho dos arquivos de dados que nós coletamos
a partir do diagnóstico de nossos ativos. A próxima consideração de impacto é que sistemas de
aquisição de dados automáticos de baixo custo e sensores podem e possuem nossa capacidade para
monitorar e gravar continuamente os dados de nossos ativos. Mesmo dentro das funções de
prognósticos e monitoramento de ativos, as tendências são similares: a quantidade de dados disponíveis
para análise preditiva dobra a cada dois anos.
Figura 1: Os dados são coletados uma faixa parecida com a lei de Moore
Alterações, incluindo menor custo de armazenamento e menor custo de dispositivos de gravação de
dados, sem dúvida, ajudam o fenômeno Big Data e levantam a questão, “Como podemos extrair os
significados dos dados com tanta informação”. Outra questão pode ser “Qual é o valor de Big Data”. Um
valor com mais e mais dados simplesmente aumenta o significado estatístico. Esse é certamente o caso
em análises prognósticas. Sim, cuidado é requerido. Considere a metáfora mina de ouro, onde na mina,
apenas 20 por cento do ouro é visível. Os 80 por cento remanescente é a sujeira que não permite ver o
ouro. Mineração é necessária para entender o completo valor do conteúdo da mina. Isso nos traz outro
termo, “Sujeira digital”, em que os dados digitais podem ter valores ocultados. Por isso, a mineração de
dados e a análise de Big Analog Data™ são necessárias para alcançar novos conhecimentos que nunca
foram atingidos antes [2].
2. INSTRUMENTAÇÃO INDUSTRIAL, BIG DATA E PROGNÓSTICOS
As fontes de Big Analog Data™ gravadas em um sistema de monitoramento de ativos industriais são
muitos. As gravações mais interessantes são a partir dos dados do mundo físico. Em outras palavras, os
dados analógicos que é capturado pelos instrumentos da National Instruments (NI) e de outros
fornecedores. Assim nós podemos usar a frase “Big Analog Data™” (BAD) para descrever essas
gravações. BAD são medições de formas de onda derivadas no tempo, incluindo vibração, pressão,
imagens térmicas, scaneamento ultra-sônico, assinatura de corrente no motor, e até mesmo medições
na frequências de rádio é usada na detecção de descargas parciais ou falhas elétricas de terra.
Engenheiros, cientistas, e nossos mantenedores de plantas publicam esses tipos de dados (BAD) em
alto volume, em uma variedade de formas, e em muitas vezes em alta velocidade. Esses gravadores de
Big Analog Data™ oferecem
conhecimento na condição da máquina ou ativos desde o local onde o
dado é obtido no sensor.
Quando engenheiros e cientistas trabalham para resolver os desafios de Big Analog Data™, precisamos
de uma abordagem que engloba sensores e atuadores, aquisição e análise de nós distribuídos (DAANs),
e infraestrutura de TI para análise, mineração e armazenamento de Big Analog Data™. Considere uma
solução de 3 camadas, veja a figura 2. Aqui, é possível distribuir a tarefa de encontrar o valor em nossos
dados sensoriais. Dois novos termos são introduzidos: análise “On-line” e “Off-line”. Com a análise online, dados é analisados o valor em uma forma de informação indicativa, na memória, e os mais próximo
da fonte de dados quanto possível. Na análise off-line, os dados são analisados em um lugar
armazenado frequentemente incorporando similaridades e diferenças com a fonte de dados colaborativa.
Figura 2: A solução em 3 camadas para o desafio de Big Analog Data™
Por exemplo, adicionar um chip inteligente como FPGA ou um processador para o sensor permite o
sensor reduzir os dados analógicos não processados para indicar a condição das características da
forma de onda no tempo. Entretanto, também é possível adicionar “inteligência” aos gravadores de
dados para simples sensores analógicos, que nós temos instalados hoje. Tanto os sensores inteligentes
quanto os gravadores inteligentes são capazes de implementar uma decisão baseada em técnicas de
gravação de dados, veja figura 3. Aqui, os dados analógicos da forma de onda no tempo é
continuamente analisados pelas modificações. Apenas quando uma indicação de mudança dentro do
ativo está presente nos dados sensoriais (ou baseada em uma periodicidade) os dados gravados e
arquitetura em três camadas. Além disso, os dados sensoriais podem ser reduzidos usando análise on-
line para ajustar os indicadores ou características de condição, deixando a forma de onda no tempo não
processada armazenada localmente ou descartada.
Figura 3: Diagrama de estado com decisão baseada nos dados gravados
Se, nós temos a capacidade para realizar análise on-line em um sensor, no DAAN ou off-line em uma
infraestrutura de TI, nós somos favoráveis em ter um número de ferramentas analíticas a nossa
disposição para encontrar ouro nos dados. Os campos ciêntificos de monitoramento de condição e
prognóstico oferece um número de ferramentas analíticas para reduzir os dados de indicadores de
condição e para encontrar padrões e tendências em resultados analíticos, veja figura 4. Condição
indicando análise varia de medições de nível de vibração, tendências de temperatura, espectro para rolo
degradação rolamento e assim por diante. Análise prognóstica incluem reconhecimento estatístico
padrão, regressão logística, máquinas de vetores de suporte, redes neurais e assim por diante. Juntas,
essas duas classes de análise fornecem a base para a geração de consultoria de manutenção
automática.
Figura 4: Análise prognóstica e diagnóstica para encontrar padrões e tendências.
Tecnologia da informação: Para suportar o armazenamento e análises de Big Analog Data™ junto com
uma variedade de documentos textuais, a consideração de colaboração com os nossos colegas em
Tecnologia da Informação (TI) é uma necessidade. Com centenas de DAANs implantados entre uma
frota de ativos, o volume e a velocidade dos dados sensoriais de forma de onda crescem rapidamente.
Adicionando cálculos de indicadores de condição "on-line", como os dados se movendo a partir do
mundo físico para o mundo digital acrescenta dados adicionais para o volume crescente de dados. Parte
de nosso desafio com o BAD (Big Analog Data™) e a variedade de formatos de documentação, é que os
dados não se encaixam facilmente dentro dos padrões de bancos de dados relacionais ou bancos de
dados temporal. Como comparação, nem a vasta informação disponível na World Wide Web. Fora do
trabalho do Google para "index" da web, veio um sistema de arquivos subjacente, Apache Hadoop, que
oferece suporte a dados não estruturados ou dados que são armazenados em arquivos, em vez de um
banco de dados relacional, Figura 5. Esses arquivos podem incluir formatos binários e ASCII de
indicadores de condição e formas de onda. Na National Instruments, uma estrutura de arquivo chamado
de TDMS (Technical Data Management Streaming) é usada para armazenar formas de onda e
indicadores de condição. Nossos arquivos de dados não estruturados também incluem documentação de
exame técnico, e os relatórios de ordem de serviço de manutenção. O sistema de arquivos Apache
Hadoop nos ajuda a gerenciar esses itens de banco de dados não relacionais. O Hadoop é um sistema
de armazenamento altamente escalável e de processamento de dados em lote. Ele fornece uma
estrutura de armazenamento e processamento integrado que escala horizontalmente, com hardware de
commodity e oferece tolerância a falhas através de software. O Hadoop inclui também conceitos para a
distribuição de análise para os dados, para evitar problemas de largura de banda de mover os dados offline [3].
Figura 5: Visão de alto nível do sistema de arquivo Hadoop dentro da estrutura de TI (Fonte: Cloudera)
Diversos fornecedores de tecnologia da informação levam o conceito adiante, industrializando o Hadoop
e melhorando as ferramentas de programação utilizadas para extrair e analisar os dados em uma
combinação de Hadoop e armazenamento relacionais. A IBM (International Business Machines), por
exemplo, não só reforça a infra-estrutura de TI com os seus sistemas de computação empresarial
PureSystems™, a IBM também adiciona InfoSphere Streams para análise on-line e BigInsights
InfoSphere para análise off-line, a Figura 6. Essas arquiteturas e ferramentas analíticas prometem uma
capacidade de reunir rapidamente o valor de nossa variedade, velocidade e volume de armazenamentos
de Big Analog Data™ e documentos não-estruturados [4].
Figura 6: Plataforma da IBM e visão para Big Data (Fonte: IBM DeveloperWorks)
Portanto, se você combinar análises Big Analog Data, on-line e em off-line de indicação de condição e
tipo prognóstico, com tecnologia da informação expandida; Se torna possível criar plataforma de
diagnóstico e monitormaneto inteligente, e ainda prognósticos baseados em rede. Um exemplo de tal
plataforma de computação é o servidor IBM PureSystem™ [5].A plataforma PureSystems combina a
flexibilidade da computação de propósito geral, a elasticidade da computação na nuvem, solução de
armazenamento flexível, com a habilidade de criar pacotes de aplicações para aplicações de
monitoramento de ativos, diagnóstico, e prognósticos. A IBM adiciona a plataforma de hardware, e sua
infraestrutura Hadoop, “BigIndex”. Os BigInsights aliam análise estatística, cálculos gerais, análise de
texto, tudo o que promete um melhor solução para monitoramento da capacitação, diagnóstico,
aprendizagem de padrões de máquina e prognósticos.
Agora, através da combinação de tecnologia da informação com centenas de DAANs (aquisição e
análise de nós distribuidos), podemos construir uma solução integrada de monitoramento de ativos da
frota, usando tanto análises on-line e off-line, com a análise em on-line que residem no DAAN ou na
infra-estrutura de TI, e análise off-line executando dentro de um estilo de armazenamento de dados
Hadoop. Similar a Figura 2, nós podemos conceder uma arquitetura que atende a dados desafio grande,
Figura 7, [7].
Figura 7, Monitoramento de ativos Big Data e arquitetura de sistema prognóstico.
Na Figura 7, o DAAN é rotulado como um dispositivo inteligente de campo para datalog. Este realiza
análises on-line para extrair características ou indicadores de condição de sensores. Se não houver uma
mudança na condição de funcionamento ou no valor calculado, o novo dado é considerado valioso e
encaminhado para a arquitetura de computação de TI. Uma vez na plataforma de TI, novos e recentes
dados são analisados em tempo real ainda on-line e comparado com assinaturas existentes normal e em
falha para determinar o nível atual de degradação e desempenho do ativo. Uma ou ambas as
análiseson-line e análise off-line continuam o processo de análise com a revisão de ordens de serviço
históricos e registros de desempenho de ativos. Com a adição de análise off-line, são desenvolvidos
novos padrões e a predizer o futuro do desempenho e a degradação tornam-se possíveis.
Estudo de caso: A Duke Energy tem instalado mais de 3000 sensores com mais de 300 dispositivos de
aquisição e logging de dados automáticos (DAANs). Estes sensores e sistema de aquisição de dados
são co-localizados com o equipamento e com frequentemente conectado a rede de negócio usando o
padrão de rede wireless 802.11g. Dados de vibração e de temperatura são armazenados seletivamente,
transferidos para uma planta de calculo de agregação de dados, e usando comunicação OPC para
carregar as características de vibração dentro do histórico da planta.
No DAAN, dado de sensor é continuamente digitalizado e analisado. A análise embarcada calcula a
velocidade de rotação do equipamento, níveis de vibração e temperatura global, e mais importante força
dinâmica central levando a degradação no rolamento e engrenagens. Esta força dinâmica,
desalinhamento e desbalanceamento, são conhecidos por ser a principal causa de degradação em
rolamentos e engrenagem. Ao monitorar estes cálculos e medições do sensor para mudanças, o DAAN é
inteligente quanto aos dados que registra em seu disco local. Mudanças no valor medido, característica
calculada, mudanças no tempo, ou até mesmo um pedido de registro de um usuário remoto pode
desencadear uma gravação dentro do dispositivo inteligente.
Para permitir amplas comparações e análise, todas as gravações de dados até o nível do sensor são
rotuladas com a hierarquia de equipamentos, bem como a descrição, incluindo marca e modelo do
componente individual, Figura 8. Com a hierarquia no local, é possível encontrar e comparar os sensores
de vibração e as características extraídas de rolamentos, como em máquinas dentro da mesma planta
ou em várias plantas. Através da utilização de equipamento de hierarquia, torna-se possível desenvolver
as comparações entre as plantas, bem como para contribuir para melhorar uma base de dados de
assinatura de falha. Esta hierarquia permite que especialistas no assunto, familiarizados com as
máquinas, investigar máquinas específicas e recuperar dados tanto crus quanto processados a partir de
sensores na máquina específica. Além disso, quando a hierarquia é o mesmo que o utilizado no sistema
de controle, os valores de processo podem ser correlacionados com os dados de gravações feitas pelo
dispositivo de datalloging inteligente. Valores de processo correlacionados podem incluir fluxos de
fluidos, a carga de geração de energia, temperatura ambiente, e assim por diante.
•Enterprise
•Plant Location
•Description
•Reliability Team
•Etc.
Data Set (File)
Property 1
Property n
Channel Group(s)
Property 1
Property 2
Property n
Channel(s)
Property 1
Property n
•Plant
•Line
•Asset
•Machine
Component
•Etc.
•Sensor
•Time stamp
•Trend
•Time Waveform
•Spectrum
•Etc.
Figura 8: A rede DAAN da Duke Energy e a hierarquia do formato de gravação
Conforme os dados chegam ao nó da planta computa e entra na infra-estrutura de computação de TI,
este é armazenado e indexado para recuperação usando tags de metadados. Além disso, as
características extraídas e cálculos feitos dentro dos nós de aquisição de dados são disponibilizados à
histórico da planta. O histórico da planta subscreve as características deste sinal útil para a tendência
estatística e detecção de anomalias. Características subscritas incluem os níveis de vibração globais em
RMS, e as forças indutoras de degradação que são a primeira e segunda harmônicas de vibração da
velocidade de rotação.
Uma vez que os dados são mantidos dentro do histórico da planta, uma ferramenta de aplicação para
modelagem e detecção de anomalias analisa as tendências de vibração, temperatura e outras variáveis
de processo realizado no histórico. O software de detecção de anomalia Instep PRiSM funciona através
do desenvolvimento e utilização de dados impulsionando modelos de prognósticos. Usando todos os
dados disponíveis sobre um determinado ativo ou componente mecânico, a ferramenta Instep PRiSM
desenvolve uma série de perfis normais de operação para uma determinada instância do tipo de
equipamento. Os perfis operacionais normais incluem temperatura, valores de processo, bem como as
medidas de vibração relatadas pelos dispositivos de registro de dados robustos. Além disso, vários perfis
normais de operação são criados, um para cada regime de funcionamento tais como a alta carga ou
baixa carga. Por fim, os perfis normais são normalizados entre um equipamento similar e perfis
operacionais [9]. Se os novos dados sensoriais que chegam do DAAN não correspondem a um padrão
normal, um alerta é enviado para o engenheiro de equipamentos responsáveis por uma investigação
mais aprofundada.
Na Duke Energy, o monitoramento de ativos e aplicação de diagnóstico está começando a se
desenvolver. Muitas das máquinas foram equipadas com sensores de vibração e de temperatura e
dispositivos de gravação de dados inteligentes. Os fluxos de dados a partir do dispositivo de gravação de
dados, juntamente com metadados e recursos extraídos ou calculados. Uma vez que os dados e as
características calculadas chegarem ao computador nó da planta, estes parâmetros são postados para
subscrição pelo servidor da planta. O software de detecção de anomalias, incluindo software PRiSM,
está sendo treinado para alertar os funcionários da planta de desvios de desempenho esperados da
máquina.
3. CONCLUSÃO
Com sistemas de aquisição de dados de baixo custo, melhor conectividade de sensores de controle, e
um sistema de rede da planta mais amplo, mais dados irão fluir pelo sistema de monitoramento de ativos
do que antes. O gerenciamento de dados e as ferramentas de mineração de dados (mining tools) são
necessárias em todos os níveis do processo de fluxo de dados. As ferramentas incluem técnicas de
pontuação para redução de dados em dispositivos de aquisição de dados, ferramentas de conversão de
dados para transformar dispositivos de aquisição de dados de uma variedade de fornecedores, com um
dispositivo de análise on-line, o qual os dados se movem do dispositivo para o primeiro computador da
rede, e tecnologia de informação (TI) mais ampla da rede. Uma vez em off-line, plataformas para
mineração dos dados combinam dados de alto valores em um sistema de diagnóstico e prognósticos. A
colaboração entre os fornecedores de instrumentação, especialistas em equipamentos envolvidos na
manutenção preditiva, pesquisadores em prognóstico e empresas de tecnologia da informação, está
produzindo novas soluções para o monitoramento inteligente e aplicações de diagnóstico.
4. REFERÊNCIAS BIBLIOGRÁFICAS
[1]
A Hadhazy, “Zettabytes Now Needed to Describe Global Data Overhead”. Live Science. 4 May 2010 Web.
31 Aug 2012.
[2]
P
Johnson,
T
Bradicich,
and
S
Orci
MFPT
Newsletter,
December
2012.
Web.
http://www.mfpt.org/newsletters/1212/Johnson.htm
[3]
C Bisciglia. “5 Common Questions About Apache Hadoop”. Cloudera Blog.
14 May 2009
http://blog.cloudera.com/blog/2009/05/5-common-questions-about-hadoop/
[4]
C Franklin. “Big Data as part of an enterprise data strategy”. Tamgroup Blog. 19 March, 2012
http://www.tamgroup.com/blog/bid/118927/Big-Data-as-part-of-an-enterprise-data-strategy
[5]
D Watts, R Davis, R French, L Han, D Ridley, C Rojas. “IBM PureFlex System and IBM Flex System
Products and Technology”. IBM Redbooks. July 2012
[6]
C Eaton, D Deroos, T Deutsch, G Lapis, P Zikopoulos. “Understanding Big Data, Analytics for Enterprise
Class Hadoop and Streaming Data”.. ISBN 978-0-07-179053-6. Pgs: 81-121. McGraw Hill, 2012, New York
[7]
Y Lei, D Djurdjanovic, G Workman, G Xiao, and J Lee, “Basic prognostics in industrial automation systems”,
Proceedings of the 6th International Conference on Frontiers of Design and Manufacturing. June 21-23, Xi'an, China,
2004
[8]
B Cook. “Smart monitoring and diagnostics for power generation” National Instruments NIWeek conference,
August 7-9, Austin, Texas, 2012
[9]
L
Billingsly.
“Reducing
Downtime
and
Manhours”,
M2M
Magazine,
http://www.instepsoftware.com/pdf/Exelon_Case-Study.pdf, October, USA, 2009
Guilherme Yamamoto é formado em Engenharia Elétrica pela Universidade São Judas Tadeu desde
2010. Com experiência de dois anos na empresa National Instruments, onde iniciou como Engenheiro de
Aplicações, função a qual ministrou diversos treinamentos relacionados ao ambiente gráfico de
programação LabVIEW. É certificado CLAD (Certified LabVIEW Associate Developer). Rapidamente
assumiu a função de Engenheiro em Marketing Técnico nos segmentos relacionados a monitoramento &
controle embarcado e acadêmico.
Download

SOLUCIONANDO DESAFIOS EM BIG DATA Resumo