Documento técnico de negócios Analisar dados de máquina — a melhor maneira de avançar Chegue mais rápido das causas-raiz por meio da aplicação de aprendizado de máquina e da automação da análise de dados de log. Documento técnico de negócios | HP Operations Analytics Quando algo dá errado com um componente-chave da infraestrutura dos aplicativos ou dos serviços de TI, ter velocidade é essencial. A TI precisa identificar as causas-raiz e corrigir a situação no menor tempo possível a fim de evitar os diversos e bastante reais custos das paralisações — desde níveis de serviço ruins e usuários frustrados, até uma reputação denegrida para a TI e os negócios. Índice 2 Resumo executivo 2 A promessa — e o desafio — da análise de dados de log 4 Uma abordagem mais inteligente para a análise de log 5 Análise de log automatizada do HP Operations Analytics 5 Agrupamentos inteligentes de logs 7 Cálculo da relevância do log com autoaprendizado 7 Aproveitamento da experiência de SMEs 8 Conclusão Resumo executivo Os atuais ambientes de TI estão repletos de dados para fornecerem dicas sobre causas subjacentes de problemas ou as possíveis soluções. Com a profusão de métricas de desempenho, alertas, traps SNMP e até mesmo de dados que não são de TI, os analistas de operações têm diversas fontes de dados de onde extrair informações. Entretanto, uma fonte valiosa de dados ainda não foi usada eficaz e integralmente pela maioria das empresas para a solução de problemas de desempenho: os dados de logs. Embora os logs tenham desempenhado um papel na solução de problemas e na análise de dados brutos, o impressionante crescimento dos dados de log nos últimos anos — e a natureza não estruturada desses dados — tornou mais difícil a pesquisa manual em mensagens de log. Pode ser quase impossível achar aquele insight crucial, "uma agulha no palheiro", que é capaz de acelerar a correção do problema e evitar problemas futuros. Este documento descreve uma abordagem mais eficaz para a coleta de insights que ficam ocultos nos dados de log — uma abordagem baseada na automação da análise de logs e na aplicação de um sofisticado aprendizado de máquina no processo de análise para que as equipes de operações de TI possam identificar as causas-raiz de problemas de desempenho em minutos, e não em horas ou dias. A promessa — e o desafio — da análise de dados de log Como resolver um problema quando a causa é desconhecida e você não sabe por onde começar? E há também aqueles problemas intermitentes que vêm e vão e que podem impactar seu desempenho e sua disponibilidade de forma significativa, sendo que é quase impossível resolvê-los porque você não consegue identificá-los. E como identificar erros humanos? A resposta está nos seus dados. Mais especificamente, os dados de log de máquina contêm um volume enorme de informações sobre utilização do sistema, desempenho, eventos, mudanças na configuração, dados de clientes etc. Se você tiver uma maneira de analisar essas informações, sua equipe de análise de operações de TI será capaz de extrair valor para fornecer um desempenho operacional mais previsível à sua empresa. O volume absoluto de dados de log continua a crescer, e os dados de log não são estruturados por natureza, podendo assumir diferentes formatos — tudo isso dificulta bastante o uso desses dados. Por exemplo, as atuais análises de operações de TI normalmente incluem nuvens públicas, privadas e híbridas, aplicativos locais e SaaS, projetos relacionados a BYOD e à Internet das Coisas (IoT) e toda a infraestrutura associada. Esse volume e essa complexidade significam que suas operações de TI podem sofrer falhas em mais pontos e identificar as causas-raiz ficou mais difícil do que nunca. Melhorias tecnológicas recentes têm ajudado a abordar esse problema. O aumento na eficiência e na capacidade dos sistemas de armazenamento modernos ajudou a reduzir o custo por registro do armazenamento de dados e tornou financeiramente viável a captura de mais dados de log e o armazenamento destes por períodos mais longos de tempo. Além disso, ferramentas foram desenvolvidas para efetuar pesquisas rápidas nos logs — desde que você saiba o que está procurando. 2 Documento técnico de negócios | HP Operations Analytics Entretanto, a análise de altos volumes de logs pode ser um processo ainda bastante manual, e as técnicas tradicionais de análise de log simplesmente não estão acompanhando o ritmo. Figura 1. A resolução de problemas manual é demorada e ineficiente. Número de mensagens: 1,000,000 10.000–1.000.000 de mensagens 80,0000 60,0000 40,0000 20,0000 0 10–100 mensagens Etapa 1: Encontre logs relevantes Etapa 2: Analise para extrair significado Etapa 3: Inspecione os resultados Por fim, tome uma ação Etapa 4: Relembre as lições aprendidas Tempo Semanas / Dias / Horas Na metodologia "baseada em pesquisa" típica dos dias de hoje, as etapas são: 1.Decidir quais fontes de log são relevantes para o problema em mãos. Os logs podem ser provenientes de redes, servidores, bancos de dados, servidores web etc. 2.Decida quais strings de texto ou mensagens deverão ser pesquisadas nos logs para tentar descobrir quais mensagens são importantes. 3.Inspecione os resultados e refine as possíveis causas. 4.Lembre-se do que aprendeu na última vez, isso vai ajudá-lo a identificar a causa. O administrador ou investigador de TI insere os termos de pesquisa, ajustando e atualizando esses termos com base nos resultados de cada pesquisa anterior. Esse processo tende a ser investigativo e iterativo. Além disso, uma pesquisa por termos óbvios, como "erro", "exceção" ou "crítico", normalmente retorna um grande número de resultados, muitos dos quais ocorrem todos os dias durante atividades normais. Em muitos casos, uma simples palavra não é adequada para descrever o alvo da pesquisa, de forma que o usuário precisa construir expressões regulares para gradualmente identificar a fonte do problema. Frequentemente, em especial no caso de problemas novos, o administrador não sabe quais são os termos exatos a pesquisar. Como resultado, mensagens significativas podem passar despercebidas. O resultado visível desse processo de pesquisa manual é que recursos valiosos de TI são gastos na solução de problemas durante dias ou mesmo semanas — analisando milhões de mensagens de log com pesquisas repetitivas, inspecionando para ver se são importantes — e, em alguns casos, jamais se encontra o que estava sendo procurado. 3 Documento técnico de negócios | HP Operations Analytics Uma abordagem mais inteligente para a análise de log 1. Agrupe logs similares para agilizar o processamento. O volume, a variedade e a velocidade das mensagens dificulta para os investigadores saberem se estão olhando para a mesma mensagem várias vezes ou se são várias mensagens diferentes. Uma abordagem melhor é permitir que o sistema analise todas as mensagens de log e determine os agrupamentos apropriados, o que vai reduzir significativamente o "ruído" de milhões de mensagens. Por exemplo, se cada login gera uma mensagem de log e se há 3 milhões de logins por dia, essas 3 milhões de mensagens devem ser "clusterizadas" ou agrupadas de forma que não seja necessário processar cada uma delas durante a investigação de um problema. 2. Use o aprendizado de máquina para determinar a relevância dos logs. Uma vez que as mensagens tenham sido agrupadas, a próxima etapa é determinar quais são de interesse ou relevantes para o problema em mãos. Há diversas formas de determinar a relevância dos logs: palavras-chave, frequência dos logs encontrados, relevância histórica, padrões e anomalias e correlação entre mensagens de log. Mensagens interessantes podem incluir mensagens que não foram encontradas ou aquelas que são vistas apenas raramente. Tais mensagens podem indicar que algo especial ou diferente está ocorrendo e que talvez seja digno de investigação. Por exemplo, se as mensagens de login mencionadas anteriormente são comuns e provavelmente não são de interesse, elas devem ser desconsideradas. Entretanto, é importante compreender os padrões e anomalias. Se em dias normais há 3 milhões de logins bem-sucedidos e 1.000 logins com falha, uma mudança drástica nesses números pode indicar um prolema. Uma solução de aprendizado de máquina deve ser capaz de destacar tais padrões e anomalias. As correlações também podem ser úteis na determinação da relevância. Os administradores devem ser capazes de identificar o que mais aconteceu no sistema — como um aumento na contagem de eventos, tempos de resposta mais lentos, níveis de disponibilidade reduzidos ou um pico na utilização de memória — e então devem encontrar mensagens geradas quando essas mudanças ocorreram no sistema. Usando o exemplo de login novamente, se o número de logins com falha aumenta mais ou menos ao mesmo tempo que o tempo de resposta fica mais lento, pode ser que exista uma correlação bastante relevante. É possível que haja mensagens adicionais geradas nesse período que também sejam de interesse. A solução deve ajudar a identificar essas correlações relevantes. 3. Refine a análise de logs com a especialização de SMEs para otimizar a precisão. É importante que o sistema de análise de log seja capaz de aproveitar o conhecimento dos seus especialistas no assunto (SMEs), incluindo mensagens interessantes encontradas no passado, mensagens irrelevantes ignoradas em investigações anteriores ou palavras-chave que foram relevantes para a solução de outros problemas. Idealmente, a solução deve melhorar sua eficácia continuamente usando informações dos SMEs. 4 Por exemplo, se uma mensagem de banco de dados específica foi encontrada na última vez que ocorreu uma falha em um serviço, a solução deve permitir que o administrador de banco de dados marque essa mensagem de forma que a máquina se lembre dela caso ela ocorra novamente. Ou, se um componente do serviço registra mensagens críticas sempre que ele não consegue se conectar a um servidor remoto para verificar se há atualizações, deveria ser possível marcar essas mensagens como irrelevantes para fins de solução de problemas. Documento técnico de negócios | HP Operations Analytics Análise de log automatizada do HP Operations Analytics Incorporando as melhores práticas de metodologia de análise de log descritas acima e usando propriedade intelectual patenteada do HP Labs, a solução HP Operations Analytics é exclusivamente capaz de tratar dos principais desafios da análise de log e extrair valor de dados operacionais. Além dos dados de log, o HP Operations Analytics é capaz de analisar outros tipos de dados, como métricas de desempenho, eventos, topologia e dados que não são de TI. O HP Operations Analytics aplica o aprendizado de máquina para classificar automaticamente os altos volumes de mensagens de log. Ele encontra e identifica, com rapidez e eficiência, mensagens que são verdadeiramente relevantes, aplica algoritmos de análise eficazes que se autoaperfeiçoam com o tempo e tira proveito do conhecimento de especialistas, o que lhe permite oferecer novos insights para identificar as causas-raiz dos problemas todas as vezes. Esses insights podem ser aplicados para acelerar a solução de problemas e ajudar a evitar problemas futuros. Figura 2. A análise de log automatizada encontra padrões e causas-raiz rapidamente. Número de mensagens: 1,000,000 80,0000 10.000–1.000.000 de mensagens Agrupamento 60,0000 40,0000 Relevância do texto Detecção de anomalias not complete exception 20,0000 error loginlogs customer ID Informações dos SMEs severity-high 10–100 mensagens Atue sobre a causa-raiz exceeded 0 Tempo Minutos Agrupamentos inteligentes de logs O HP Operations Analytics usa algoritmos de aprendizado de máquina para identificar automaticamente mensagens similares e as agrupa com base na correspondência de padrões, com variações em um ou mais parâmetros. Os parâmetros de agrupamento são as variáveis dentro das mensagens; elas podem ser singulares, como ID de usuário, tipo de dispositivo ou tipo de erro; ou podem conter dois ou mais parâmetros compostos. Por exemplo, se há 3 milhões de logins no sistema diariamente e cada login gera a mensagem "Usuário <userid> fez login no sistema", o HP Operations Analytics junta automaticamente esses 3 milhões de mensagens de login em um único grupo, para que ele saiba que são essencialmente o mesmo tipo de mensagem. O HP Operations Analytics também mostra quantas vezes essa mensagem apareceu e quais eram os valores do parâmetro (userid). 5 Documento técnico de negócios | HP Operations Analytics Os recursos de agrupamento de log do HP Operations Analytics permitem aos usuários resolver problemas com mais eficácia por meio de uma análise visual capaz de revelar problemas que estão surgindo. O recurso de agrupamento do HP Operations Analytics fornece valor adicional que vai além da solução de problemas. Agrupando mensagens similares, o produto é capaz de isolar parâmetros dentro das mensagens agrupadas e representá-los graficamente. Por exemplo, analisando mensagens de log que gravam o tempo de conexão de um usuário ou mostram o ID do cliente em um log de erro, o HP Operations Analytics fornece aos usuários a capacidade de identificar comportamentos ao longo do tempo e potencialmente descobrir problemas que estão surgindo. De modo semelhante, ao permitir que o usuário veja o ID do cliente em uma mensagem de erro, o grupo pode indicar se esse erro foi disseminado ou se está limitado a um certo número de clientes. Igualmente importante, os parâmetros revelados pelo HP Operations Analytics podem correlacionar dados de negócios a dados de TI. Por exemplo, mensagens de log podem conter informações sobre remessas, funcionalidades de usuários e outros fatores de aplicativos que são impactados pelo desempenho e pela confiabilidade de TI. O proprietário da linha de negócios pode usar essas informações para tomar decisões comerciais melhores. Figura 3. Esses exemplos de gráficos de análise de log mostram mensagens de erro ao longo do tempo (à esquerda) e mensagens de erro por região (à direita); eles podem ajudá-lo a procurar padrões em seus dados de log. 6 Documento técnico de negócios | HP Operations Analytics Cálculo da relevância do log com autoaprendizado Após o agrupamento ser refinado até o nível das mensagens que deverão ser investigadas, o HP Operations Analytics calcula a relevância dos grupos de mensagens de log com base em palavras-chave, períodos, relevância anterior, correlação de parâmetros e detecção de padrões e anomalias. Ao longo do tempo, esse algoritmo aprende sozinho os padrões e parâmetros do que é relevante para a solução de problemas. O HP Operations Analytics mostra os resultados de sua análise de log em um gráfico, identificando automaticamente uma lista dos logs mais relevantes. Figura 4. O usuário recebe uma representação visual da relevância das mensagens com base em mecanismos sofisticados de agrupamento, correspondência de padrões e classificação. O HP Operations Analytics identifica as mensagens que o usuário nunca viu antes (mensagens novas), bem como as mensagens que aparecem mais frequentemente ou menos frequentemente que o usual (raras). Um comportamento anormal de mensagens pode indicar uma mensagem que é mais significativa para a análise de um problema. Nesse ponto, o usuário pode clicar e ir diretamente até o log para obter detalhes adicionais sobre cada mensagem e, assim, corrigir o problema. Aproveitamento da experiência de SMEs Todos os algoritmos de aprendizado de máquina precisam ser ajustados para funcionar da maneira ideal e atender às necessidades operacionais específicas. Mas o HP Operations Analytics fornece análise de causas-raiz com aprendizado de máquina direto da caixa, sem exigir nenhuma preparação ou configuração inicial. Em vez disso, o HP Operations Analytics usa um recurso que permite que SMEs entrem com informações para refinar os algoritmos enquanto seguem o curso normal da solução de problemas. O SME pode instruir o sistema de forma a "ignorar" uma mensagem que seja irrelevante para a solução do problema. Ele tem a opção de "curtir" uma determinada mensagem, um recurso que aproveita o conhecimento coletivo dos SMEs para atribuir a essa mensagem um peso adicional nos cálculos de relevância. Além disso, o SME pode especificar previamente a relevância de palavras-chave e padrões de texto. O HP Operations Analytics tira proveito do conhecimento coletivo da organização, usando suas informações para refinar a relevância das mensagens. Figura 5. A análise de log usa informações humanas para classificar a importância das mensagens. 7 Documento técnico de negócios | HP Operations Analytics Conclusão A crescente complexidade das operações de TI traz consigo grandes volumes de dados de log que podem ser extremamente valiosos na melhoria do desempenho de TI e na redução do MTTR. Entretanto, o grande volume, a variedade e a velocidade do processamento de dados de log levam as equipes de análise de operações de TI a terem que fazer uma escolha crítica. Elas podem continuar pesquisando as causas-raiz de problemas manualmente, de modo ad-hoc e com estilo investigativo, torcendo para encontrar a agulha no palheiro. Ou elas podem partir para uma análise de dados de log automatizada e sistemática e chegar às causas-raiz em minutos. Assista aos nossos vídeos de produtos para saber mais sobre o HP Operations Analytics e os recursos de análise de log. O HP Operations Analytics ajuda você a extrair insights altamente relevantes e passíveis de ação de seus dados de log direto da caixa, sem exigir a presença de um cientista de dados. Ele leva novos recursos eficazes à análise de log e, em retorno, oferece vantagens exclusivas aos negócios, incluindo: • Uma melhor experiência para o cliente, pois os problemas podem ser identificados e evitados em muito menos tempo do que com técnicas tradicionais, de forma que os usuários finais podem concluir suas transações com um tempo de resposta mais rápido e uma maior disponibilidade • Equipes de operações de TI mais eficientes e proativas, graças à capacidade do algoritmo de aprendizado de máquina de identificar com rapidez (em minutos) e precisão as causas-raiz de problemas e evitar problemas por meio de análise preditiva • Mais valor para os negócios com dados de TI, usando os padrões detectados automaticamente na análise de log e fazendo a correlação de dados de TI e que não são de TI para fornecer insights valiosos e melhorar a receita e a eficiência dos negócios HP Operations Analytics Plataforma independente expansível Pesquisa inteligente Solução de problemas guiada Análise visual Análise de log automatizada Análise preditiva Alertas em tempo real Inscreva-se aqui para receber atualizações hp.com/go/getupdated Sobre o HP Operations Analytics O HP Operations Analytics ajuda as organizações de TI a gerenciarem, de forma proativa, o desempenho operacional, tirando proveito de todos os seus dados, estruturados e não estruturados. O HP Operations Analytics oferece recursos exclusivos de análise de log e análise preditiva que usam tecnologia patenteada e inteligência "extraída de especialistas". O HP Operations Analytics encontra as causas-raiz de um problema de TI em minutos, ao invés de horas ou semanas. Com o HP Operations Analytics, as organizações de TI podem reduzir o MTTR, ganhando insights passíveis de ação e identificando problemas operacionais antes que os usuários sejam impactados. Saiba mais em hp.com/go/opsanalytics Compartilhe com os colegas © Copyright 2015 Hewlett-Packard Development Company, L.P. As informações contidas neste documento estão sujeitas a alterações sem aviso. As únicas garantias dos produtos e serviços da HP são as estabelecidas nas declarações de garantia expressa que acompanham tais produtos e serviços. Nenhuma parte deste documento deve ser interpretada como garantia adicional. A HP não se responsabiliza por omissões, erros técnicos ou erros editoriais contidos neste documento. 4AA5-7132PTL, fevereiro de 2015