Documento técnico de negócios
Analisar dados
de máquina —
a melhor maneira
de avançar
Chegue mais rápido das causas-raiz por meio da aplicação de aprendizado de
máquina e da automação da análise de dados de log.
Documento técnico de negócios | HP Operations Analytics
Quando algo dá errado com um componente-chave da
infraestrutura dos aplicativos ou dos serviços de TI, ter
velocidade é essencial. A TI precisa identificar as causas-raiz e
corrigir a situação no menor tempo possível a fim de evitar os
diversos e bastante reais custos das paralisações —
desde níveis de serviço ruins e usuários frustrados, até uma
reputação denegrida para a TI e os negócios.
Índice
2 Resumo executivo
2 A promessa — e o desafio — da análise de
dados de log
4 Uma abordagem mais inteligente para a
análise de log
5 Análise de log automatizada do HP Operations
Analytics
5 Agrupamentos inteligentes de logs
7 Cálculo da relevância do log com
autoaprendizado
7 Aproveitamento da experiência de SMEs
8 Conclusão
Resumo executivo
Os atuais ambientes de TI estão repletos de dados para fornecerem dicas sobre causas
subjacentes de problemas ou as possíveis soluções. Com a profusão de métricas de
desempenho, alertas, traps SNMP e até mesmo de dados que não são de TI, os analistas de
operações têm diversas fontes de dados de onde extrair informações. Entretanto, uma fonte
valiosa de dados ainda não foi usada eficaz e integralmente pela maioria das empresas para a
solução de problemas de desempenho: os dados de logs.
Embora os logs tenham desempenhado um papel na solução de problemas e na análise de
dados brutos, o impressionante crescimento dos dados de log nos últimos anos — e a natureza
não estruturada desses dados — tornou mais difícil a pesquisa manual em mensagens de log.
Pode ser quase impossível achar aquele insight crucial, "uma agulha no palheiro", que é capaz
de acelerar a correção do problema e evitar problemas futuros.
Este documento descreve uma abordagem mais eficaz para a coleta de insights que ficam
ocultos nos dados de log — uma abordagem baseada na automação da análise de logs e
na aplicação de um sofisticado aprendizado de máquina no processo de análise para que as
equipes de operações de TI possam identificar as causas-raiz de problemas de desempenho em
minutos, e não em horas ou dias.
A promessa — e o desafio — da análise de dados de log
Como resolver um problema quando a causa é desconhecida e você não sabe por onde
começar? E há também aqueles problemas intermitentes que vêm e vão e que podem impactar
seu desempenho e sua disponibilidade de forma significativa, sendo que é quase impossível
resolvê-los porque você não consegue identificá-los. E como identificar erros humanos?
A resposta está nos seus dados. Mais especificamente, os dados de log de máquina contêm
um volume enorme de informações sobre utilização do sistema, desempenho, eventos,
mudanças na configuração, dados de clientes etc. Se você tiver uma maneira de analisar essas
informações, sua equipe de análise de operações de TI será capaz de extrair valor para fornecer
um desempenho operacional mais previsível à sua empresa.
O volume absoluto de dados de log continua a crescer, e os dados de log não são estruturados
por natureza, podendo assumir diferentes formatos — tudo isso dificulta bastante o uso
desses dados. Por exemplo, as atuais análises de operações de TI normalmente incluem
nuvens públicas, privadas e híbridas, aplicativos locais e SaaS, projetos relacionados a BYOD e
à Internet das Coisas (IoT) e toda a infraestrutura associada. Esse volume e essa complexidade
significam que suas operações de TI podem sofrer falhas em mais pontos e identificar as
causas-raiz ficou mais difícil do que nunca.
Melhorias tecnológicas recentes têm ajudado a abordar esse problema. O aumento na eficiência
e na capacidade dos sistemas de armazenamento modernos ajudou a reduzir o custo por
registro do armazenamento de dados e tornou financeiramente viável a captura de mais dados
de log e o armazenamento destes por períodos mais longos de tempo. Além disso, ferramentas
foram desenvolvidas para efetuar pesquisas rápidas nos logs — desde que você saiba o que
está procurando.
2
Documento técnico de negócios | HP Operations Analytics
Entretanto, a análise de altos volumes de logs pode ser um processo ainda bastante manual,
e as técnicas tradicionais de análise de log simplesmente não estão acompanhando o ritmo.
Figura 1. A resolução de problemas manual é demorada e ineficiente.
Número de
mensagens:
1,000,000
10.000–1.000.000 de
mensagens
80,0000
60,0000
40,0000
20,0000
0
10–100
mensagens
Etapa 1:
Encontre logs relevantes
Etapa 2:
Analise para
extrair significado
Etapa 3:
Inspecione
os resultados
Por fim,
tome uma ação
Etapa 4:
Relembre as lições aprendidas
Tempo
Semanas / Dias / Horas
Na metodologia "baseada em pesquisa" típica dos dias de hoje, as etapas são:
1.Decidir quais fontes de log são relevantes para o problema em mãos. Os logs podem ser
provenientes de redes, servidores, bancos de dados, servidores web etc.
2.Decida quais strings de texto ou mensagens deverão ser pesquisadas nos logs para tentar
descobrir quais mensagens são importantes.
3.Inspecione os resultados e refine as possíveis causas.
4.Lembre-se do que aprendeu na última vez, isso vai ajudá-lo a identificar a causa.
O administrador ou investigador de TI insere os termos de pesquisa, ajustando e atualizando
esses termos com base nos resultados de cada pesquisa anterior. Esse processo tende a ser
investigativo e iterativo.
Além disso, uma pesquisa por termos óbvios, como "erro", "exceção" ou "crítico", normalmente
retorna um grande número de resultados, muitos dos quais ocorrem todos os dias durante
atividades normais. Em muitos casos, uma simples palavra não é adequada para descrever
o alvo da pesquisa, de forma que o usuário precisa construir expressões regulares para
gradualmente identificar a fonte do problema. Frequentemente, em especial no caso de
problemas novos, o administrador não sabe quais são os termos exatos a pesquisar.
Como resultado, mensagens significativas podem passar despercebidas.
O resultado visível desse processo de pesquisa manual é que recursos valiosos de TI são
gastos na solução de problemas durante dias ou mesmo semanas — analisando milhões de
mensagens de log com pesquisas repetitivas, inspecionando para ver se são importantes —
e, em alguns casos, jamais se encontra o que estava sendo procurado.
3
Documento técnico de negócios | HP Operations Analytics
Uma abordagem mais inteligente para a análise de log
1. Agrupe logs similares para agilizar o processamento.
O volume, a variedade e a velocidade das mensagens dificulta para os investigadores saberem
se estão olhando para a mesma mensagem várias vezes ou se são várias mensagens
diferentes. Uma abordagem melhor é permitir que o sistema analise todas as mensagens de
log e determine os agrupamentos apropriados, o que vai reduzir significativamente o "ruído"
de milhões de mensagens. Por exemplo, se cada login gera uma mensagem de log e se
há 3 milhões de logins por dia, essas 3 milhões de mensagens devem ser "clusterizadas" ou
agrupadas de forma que não seja necessário processar cada uma delas durante a investigação
de um problema.
2. Use o aprendizado de máquina para determinar a relevância dos logs.
Uma vez que as mensagens tenham sido agrupadas, a próxima etapa é determinar quais são
de interesse ou relevantes para o problema em mãos. Há diversas formas de determinar a
relevância dos logs: palavras-chave, frequência dos logs encontrados, relevância histórica,
padrões e anomalias e correlação entre mensagens de log.
Mensagens interessantes podem incluir mensagens que não foram encontradas ou aquelas
que são vistas apenas raramente. Tais mensagens podem indicar que algo especial ou diferente
está ocorrendo e que talvez seja digno de investigação.
Por exemplo, se as mensagens de login mencionadas anteriormente são comuns e
provavelmente não são de interesse, elas devem ser desconsideradas. Entretanto, é
importante compreender os padrões e anomalias. Se em dias normais há 3 milhões de logins
bem-sucedidos e 1.000 logins com falha, uma mudança drástica nesses números pode indicar
um prolema. Uma solução de aprendizado de máquina deve ser capaz de destacar tais padrões
e anomalias.
As correlações também podem ser úteis na determinação da relevância. Os administradores
devem ser capazes de identificar o que mais aconteceu no sistema — como um aumento na
contagem de eventos, tempos de resposta mais lentos, níveis de disponibilidade reduzidos ou
um pico na utilização de memória — e então devem encontrar mensagens geradas quando
essas mudanças ocorreram no sistema.
Usando o exemplo de login novamente, se o número de logins com falha aumenta mais
ou menos ao mesmo tempo que o tempo de resposta fica mais lento, pode ser que exista
uma correlação bastante relevante. É possível que haja mensagens adicionais geradas
nesse período que também sejam de interesse. A solução deve ajudar a identificar essas
correlações relevantes.
3. Refine a análise de logs com a especialização de SMEs para otimizar a precisão.
É importante que o sistema de análise de log seja capaz de aproveitar o conhecimento dos seus
especialistas no assunto (SMEs), incluindo mensagens interessantes encontradas no passado,
mensagens irrelevantes ignoradas em investigações anteriores ou palavras-chave que foram
relevantes para a solução de outros problemas. Idealmente, a solução deve melhorar sua
eficácia continuamente usando informações dos SMEs.
4
Por exemplo, se uma mensagem de banco de dados específica foi encontrada na última vez
que ocorreu uma falha em um serviço, a solução deve permitir que o administrador de banco
de dados marque essa mensagem de forma que a máquina se lembre dela caso ela ocorra
novamente. Ou, se um componente do serviço registra mensagens críticas sempre que ele
não consegue se conectar a um servidor remoto para verificar se há atualizações, deveria ser
possível marcar essas mensagens como irrelevantes para fins de solução de problemas.
Documento técnico de negócios | HP Operations Analytics
Análise de log automatizada do HP Operations Analytics
Incorporando as melhores práticas de metodologia de análise de log descritas acima e
usando propriedade intelectual patenteada do HP Labs, a solução HP Operations Analytics é
exclusivamente capaz de tratar dos principais desafios da análise de log e extrair valor de dados
operacionais.
Além dos dados de log, o HP Operations Analytics é capaz de analisar outros tipos de dados,
como métricas de desempenho, eventos, topologia e dados que não são de TI.
O HP Operations Analytics aplica o aprendizado de máquina para classificar automaticamente
os altos volumes de mensagens de log. Ele encontra e identifica, com rapidez e eficiência,
mensagens que são verdadeiramente relevantes, aplica algoritmos de análise eficazes que
se autoaperfeiçoam com o tempo e tira proveito do conhecimento de especialistas, o que lhe
permite oferecer novos insights para identificar as causas-raiz dos problemas todas as vezes.
Esses insights podem ser aplicados para acelerar a solução de problemas e ajudar a evitar
problemas futuros.
Figura 2. A análise de log automatizada encontra padrões e causas-raiz rapidamente.
Número de
mensagens:
1,000,000
80,0000
10.000–1.000.000 de
mensagens
Agrupamento
60,0000
40,0000
Relevância do texto
Detecção de anomalias
not complete
exception
20,0000
error loginlogs
customer ID
Informações dos SMEs
severity-high
10–100
mensagens
Atue sobre
a causa-raiz
exceeded
0
Tempo
Minutos
Agrupamentos inteligentes de logs
O HP Operations Analytics usa algoritmos de aprendizado de máquina para identificar
automaticamente mensagens similares e as agrupa com base na correspondência de padrões,
com variações em um ou mais parâmetros. Os parâmetros de agrupamento são as variáveis
dentro das mensagens; elas podem ser singulares, como ID de usuário, tipo de dispositivo ou
tipo de erro; ou podem conter dois ou mais parâmetros compostos.
Por exemplo, se há 3 milhões de logins no sistema diariamente e cada login gera a mensagem
"Usuário <userid> fez login no sistema", o HP Operations Analytics junta automaticamente
esses 3 milhões de mensagens de login em um único grupo, para que ele saiba que são
essencialmente o mesmo tipo de mensagem. O HP Operations Analytics também mostra
quantas vezes essa mensagem apareceu e quais eram os valores do parâmetro (userid).
5
Documento técnico de negócios | HP Operations Analytics
Os recursos de agrupamento de
log do HP Operations Analytics
permitem aos usuários resolver
problemas com mais eficácia por
meio de uma análise visual capaz
de revelar problemas que
estão surgindo.
O recurso de agrupamento do HP Operations Analytics fornece valor adicional que vai além
da solução de problemas. Agrupando mensagens similares, o produto é capaz de isolar
parâmetros dentro das mensagens agrupadas e representá-los graficamente. Por exemplo,
analisando mensagens de log que gravam o tempo de conexão de um usuário ou mostram o
ID do cliente em um log de erro, o HP Operations Analytics fornece aos usuários a capacidade
de identificar comportamentos ao longo do tempo e potencialmente descobrir problemas que
estão surgindo. De modo semelhante, ao permitir que o usuário veja o ID do cliente em uma
mensagem de erro, o grupo pode indicar se esse erro foi disseminado ou se está limitado a um
certo número de clientes.
Igualmente importante, os parâmetros revelados pelo HP Operations Analytics podem
correlacionar dados de negócios a dados de TI. Por exemplo, mensagens de log podem conter
informações sobre remessas, funcionalidades de usuários e outros fatores de aplicativos
que são impactados pelo desempenho e pela confiabilidade de TI. O proprietário da linha de
negócios pode usar essas informações para tomar decisões comerciais melhores.
Figura 3. Esses exemplos de gráficos de análise de log mostram mensagens de erro ao longo do tempo (à esquerda) e mensagens de erro por região (à direita);
eles podem ajudá-lo a procurar padrões em seus dados de log.
6
Documento técnico de negócios | HP Operations Analytics
Cálculo da relevância do log com autoaprendizado
Após o agrupamento ser refinado até o nível das mensagens que deverão ser investigadas,
o HP Operations Analytics calcula a relevância dos grupos de mensagens de log com base em
palavras-chave, períodos, relevância anterior, correlação de parâmetros e detecção de padrões
e anomalias. Ao longo do tempo, esse algoritmo aprende sozinho os padrões e parâmetros do
que é relevante para a solução de problemas.
O HP Operations Analytics mostra os resultados de sua análise de log em um gráfico,
identificando automaticamente uma lista dos logs mais relevantes.
Figura 4. O usuário recebe uma representação visual da relevância das mensagens com base em
mecanismos sofisticados de agrupamento, correspondência de padrões e classificação.
O HP Operations Analytics identifica as mensagens que o usuário nunca viu antes
(mensagens novas), bem como as mensagens que aparecem mais frequentemente ou menos
frequentemente que o usual (raras). Um comportamento anormal de mensagens pode indicar
uma mensagem que é mais significativa para a análise de um problema. Nesse ponto, o usuário
pode clicar e ir diretamente até o log para obter detalhes adicionais sobre cada mensagem e,
assim, corrigir o problema.
Aproveitamento da experiência de SMEs
Todos os algoritmos de aprendizado de máquina precisam ser ajustados para funcionar
da maneira ideal e atender às necessidades operacionais específicas. Mas o HP Operations
Analytics fornece análise de causas-raiz com aprendizado de máquina direto da caixa, sem
exigir nenhuma preparação ou configuração inicial. Em vez disso, o HP Operations Analytics
usa um recurso que permite que SMEs entrem com informações para refinar os algoritmos
enquanto seguem o curso normal da solução de problemas.
O SME pode instruir o sistema de forma a "ignorar" uma mensagem que seja irrelevante para a
solução do problema. Ele tem a opção de "curtir" uma determinada mensagem, um recurso que
aproveita o conhecimento coletivo dos SMEs para atribuir a essa mensagem um peso adicional
nos cálculos de relevância. Além disso, o SME pode especificar previamente a relevância de
palavras-chave e padrões de texto. O HP Operations Analytics tira proveito do conhecimento
coletivo da organização, usando suas informações para refinar a relevância das mensagens.
Figura 5. A análise de log usa informações humanas para classificar a importância das mensagens.
7
Documento técnico de negócios | HP Operations Analytics
Conclusão
A crescente complexidade das operações de TI traz consigo grandes volumes de dados de log
que podem ser extremamente valiosos na melhoria do desempenho de TI e na redução do
MTTR. Entretanto, o grande volume, a variedade e a velocidade do processamento de dados
de log levam as equipes de análise de operações de TI a terem que fazer uma escolha crítica.
Elas podem continuar pesquisando as causas-raiz de problemas manualmente, de modo
ad-hoc e com estilo investigativo, torcendo para encontrar a agulha no palheiro. Ou elas podem
partir para uma análise de dados de log automatizada e sistemática e chegar às causas-raiz
em minutos.
Assista aos nossos vídeos de produtos para
saber mais sobre o HP Operations Analytics e os
recursos de análise de log.
O HP Operations Analytics ajuda você a extrair insights altamente relevantes e passíveis de
ação de seus dados de log direto da caixa, sem exigir a presença de um cientista de dados.
Ele leva novos recursos eficazes à análise de log e, em retorno, oferece vantagens exclusivas
aos negócios, incluindo:
• Uma melhor experiência para o cliente, pois os problemas podem ser identificados e
evitados em muito menos tempo do que com técnicas tradicionais, de forma que os usuários
finais podem concluir suas transações com um tempo de resposta mais rápido e uma maior
disponibilidade
• Equipes de operações de TI mais eficientes e proativas, graças à capacidade do algoritmo
de aprendizado de máquina de identificar com rapidez (em minutos) e precisão as causas-raiz
de problemas e evitar problemas por meio de análise preditiva
• Mais valor para os negócios com dados de TI, usando os padrões detectados
automaticamente na análise de log e fazendo a correlação de dados de TI e que não são de TI
para fornecer insights valiosos e melhorar a receita e a eficiência dos negócios
HP Operations Analytics
Plataforma independente expansível
Pesquisa
inteligente
Solução de
problemas guiada
Análise
visual
Análise de log
automatizada
Análise
preditiva
Alertas em
tempo real
Inscreva-se aqui para receber atualizações
hp.com/go/getupdated
Sobre o HP Operations Analytics
O HP Operations Analytics ajuda as organizações de TI a gerenciarem, de forma proativa, o
desempenho operacional, tirando proveito de todos os seus dados, estruturados e não
estruturados. O HP Operations Analytics oferece recursos exclusivos de análise de log e análise
preditiva que usam tecnologia patenteada e inteligência "extraída de especialistas".
O HP Operations Analytics encontra as causas-raiz de um problema de TI em minutos, ao invés
de horas ou semanas. Com o HP Operations Analytics, as organizações de TI podem reduzir o
MTTR, ganhando insights passíveis de ação e identificando problemas operacionais antes que
os usuários sejam impactados.
Saiba mais em
hp.com/go/opsanalytics
Compartilhe com os colegas
© Copyright 2015 Hewlett-Packard Development Company, L.P. As informações contidas neste documento estão sujeitas a alterações sem aviso.
As únicas garantias dos produtos e serviços da HP são as estabelecidas nas declarações de garantia expressa que acompanham tais produtos e serviços.
Nenhuma parte deste documento deve ser interpretada como garantia adicional. A HP não se responsabiliza por omissões, erros técnicos ou erros
editoriais contidos neste documento.
4AA5-7132PTL, fevereiro de 2015
Download

Analisar dados de máquina — a melhor maneira de avançar