Disponibilidade I: Aumentando a Disponibilidade da Rede por meio da Análise Estatística de Alarmes
Esse tutorial discute o uso de técnicas estatísticas para a análise preditiva de alarmes em uma rede de
telecomunicações. A análise preditiva permite a identificação de uma anomalia no comportamento dos
alarmes que pode se transformar em uma ocorrência crítica, com consequências na indisponibilidade da
rede.
Jorge Moreira de Souza
Doutor em Informática (81) pelo Instituto Nacional Politécnico de Toulouse, França, Mestre (75) e Bacharel
(71) em Engenharia Elétrica na PUC-RIO.
As principais áreas de interesse são Engenharia de Tráfego e Análise de Confiabilidade de Sistemas.
Trabalha atualmente na FITec onde desenvolve trabalhos de análise/avaliação e revisões de projeto.
Participou com membro da Comissão do I Concurso Teleco de Trabalhos de Conclusão de Curso (TCC),
realizado em 2005, e do II Concurso Teleco de Trabalhos de Conclusão de Curso (TCC), realizado em
2006.
Email: [email protected]
Categoria: Banda Larga
Nível: Introdutório
Enfoque: Técnico
Duração: 15 minutos
Publicado em: 13/02/2006
1
Disponibilidade I: Introdução
A Gerência de Operação e Manutenção de redes e equipamentos de telecomunicação está cada vez mais
complexa devido ao grande número de diferentes equipamentos e tipos de serviço. A esse aumento de
complexidade corresponde um aumento no número de falhas permanentes e/ou transientes e
consequentemente, um aumento substancial no número de alarmes devido à interdependência entre os
Elementos Gerenciáveis (EG), fazendo com que uma ocorrência primária gere múltiplas ocorrências
secundárias.
No contexto de Gerência de Operação e Manutenção de redes e equipamentos, a Gerência de Falhas usando
os alarmes é uma facilidade importante no sentido de permitir efetuar uma análise rápida e executar ações
imediatas sobre as causas da ocorrência, evitando um possível colapso do sistema. Essa gerência se torna
complexa devido à sobrecarga de alarmes gerados dificultando a localização rápida do problema.
Além disso, essa ação é geralmente reativa. Sabe-se que um sistema raramente tem um comportamento
abrupto. Desta forma, uma ocorrência grave é geralmente precedida de um aumento de alarmes com
características diferentes do comportamento em situações normais.
A análise eficiente dos alarmes na identificação das falhas contribui para o aumento da disponibilidade da
rede por meio das seguintes ações:
Intervenção preditiva, agindo antes da manifestação da falha;
Intervenção corretiva, localizando rapidamente a causa do problema.
As soluções propostas no contexto da análise eficiente dos alarmes são:
Filtragem e redução do fluxo de alarmes (alarmes secundários) identificando os alarmes primários [1];
Análise causa-raiz (root cause) dos alarmes primários [2-3];
Análise estatística das variações no comportamento dos alarmes [4].
Nesse tutorial abordaremos as técnicas estatísticas usadas na solução 3. Duas técnicas úteis serão discutidas:
Gráficos de controle (Control. Charts);
Análise de tendência.
2
Disponibilidade I: Coleta e Monitoração de Alarmes
Uma falha é um evento interno ou externo que pode degradar ou parar total ou parcialmente o
funcionamento do sistema e/ou dos serviços.
A ocorrência de um alarme não implica necessariamente em uma falha do sistema. Pode sinalizar uma
condição anormal que pode levar a uma falha do sistema caso não seja tratada adequadamente.
Os sistemas de gerência de rede possuem um sistema de coleta de alarmes gerados pelos Elementos
Gerenciáveis (EG) geralmente com os seguintes atributos:
Data e hora da ativação do alarme;
Data e hora da desativação do alarme;
EGs afetados;
Efeito no sistema;
Severidade;
Etc.
A afirmação que a monitoração estatística dos alarmes pode levar a um aumento da disponibilidade da rede
pode ser justificada da seguinte forma:
A ocorrência de alarmes é um fenômeno aleatório mesmo em condições normais onde são registrados
apenas alarmes temporários ou com baixa severidade;
A ocorrência de alarmes pode ser caracterizada estatisticamente por uma média e variância;
Uma rede raramente tem um comportamento abrupto. Uma ocorrência grave é geralmente precedida
de um aumento de alarmes com características diferentes do comportamento em condições normais,
indicando uma possível deterioração da rede;
Essa deterioração causa uma mudança abrupta em relação à média e variância medidas em condições
normais;
Essa mudança abrupta pode ser caracterizada num gráfico de controle como um ponto fora-decontrole que deve ser analisado;
A ação de manutenção preditiva baseada na análise das ocorrências de pontos fora-de-controle pode
evitar a deterioração da rede para uma situação crítica que afete a disponibilidade.
A referência [4] apresenta o resultado da análise de alarmes usando a distribuição de Pareto. Neste tutorial
apresentaremos duas técnicas que podem ser usadas adicionalmente: Gráfico de Controle e Análise de
Tendência [6].
3
Disponibilidade I: Gráfico de Controle
Em um sistema estável a taxa de alarmes deve estar dentro de limites controlados. Pontos fora-de-controle
podem ser causados por operações inadequadas, utilização fora de limites especificados, exaustão de
recursos internos, fenômenos externos, etc.
O uso de gráficos de controle em controle de processos permite a detecção de desvios no processo e das
causas prováveis de modo a orientar as ações a serem tomadas. Essa ferramenta é usada para detecção dos
pontos fora-de-controle.
Os gráficos de controle se baseiam no princípio que todo processo admite uma variação quando medido, seja
ao longo do tempo ou entre itens semelhantes. Assim é possível identificar fontes de variação como:
Variação provocada por fenômenos intrínsecos ao processo;
Variações fora-de-controle que são devidas à causas identificáveis e que devem ser prevenidas ou
corrigidas.
Os alarmes ocorrem em uma determinada área de oportunidade. A área de oportunidade indica a forma de
agrupamento dos alarmes, por exemplo, alarmes por dia ou por tipo de equipamento ou por região
geográfica, etc. A área de oportunidade pode ser constante (um dia, uma hora) ou variável (tamanho de
módulos de software em linhas de código).
De maneira geral vamos definir que para a amostra i, n(i) é o número de alarmes gerados na área de
oportunidade u (i).
A média é expressa por n(i)/u(i).
Considere que a taxa n(i) é uma variável poissoniana. O gráfico de controle apropriado para trabalhar com
taxas, por exemplo, alarmes por dia, é o “u-chart” ( a referência [5] apresenta vários gráficos de controle e
sua utilização).
As expressões para obtenção dos limites superior (UCL) e inferior (LCL) do gráfico de controle são:
O gráfico de controle é apresentado com as seguintes medidas: Linha Central (Center Line, CL), Limite
Superior (Upper Center Limit, UCL) e Limite Inferior (Lower Center Limit, LCL).
Exemplo1: Análise considerando um período determinado
Considere que a seguinte seqüência de alarmes foi registrada no período de um mês (Tabela 1).
4
Tabela 1: Alarmes coletados durante 31 dias.
Datas
Número de alarmes
Datas
Número de alarmes
11/1/2005
124
27/1/2005
0
12/1/2005
0
28/1/2005
0
13/1/2005
5
29/1/2005
0
14/1/2005
0
30/1/2005
1
15/1/2005
0
31/1/2005
4
16/1/2005
4
1/2/2005
0
17/1/2005
0
2/2/2005
484
18/1/2005
0
3/2/2005
64
19/1/2005
0
4/2/2005
16
20/1/2005
0
5/2/2005
0
21/1/2005
5
6/2/2005
4
22/1/2005
0
7/2/2005
0
23/1/2005
0
8/2/2005
0
24/1/2005
2
9/2/2005
0
25/1/2005
3
10/2/2005
1
26/1/2005
0
O gráfico de controle correspondente é mostrado na figura 1, usando as expressões do u-chart.
Figura 1: Análise com período determinado.
A média ū= Soma dos alarmes / 31 = 717 / 31 = 23.13.
5
Vamos calcular o limite UCL: UCL= 23.13 + 3 * Raiz(23.13 / 1) = 37.56.
Existem dois dias considerados fora-de-controle: o primeiro dia e o vigésimo terceiro.
Exemplo 2: Análise considerando um período variável
Nesse caso a janela de tempo varia com o dia da observação. Por exemplo: I) no caso de uma janela de
tempo, quero analisar os alarmes num determinado dia considerando os últimos n dias (janela de n dias); II)
quero analisar os alarmes num determinado dia considerando todos os dias anteriores. Nesses casos a média
varia a cada dia porque o período de observação varia.
A figura 2 trata os mesmos alarmes da Tabela 1 para o caso 2, considerando todas as coletas anteriores.
A média ū varia a cada dia e consequentemente o limite superior, UCL. Na figura 2 a linha central, CL, tem
o valor da média do último dia avaliado (dia 31).
Calculando:
Dia 1: ū = 124, UCL = 124 + 3*Raiz(124) = 157.41;
Dia 2: ū = (124 + 0)/2= 62, UCL = 62 + 3*Raiz(62) = 85.62;
E assim por diante até último dia.
Figura 2: Análise com período variável.
Nesse caso há uma suavização ao longo do tempo. Apenas o dia 23 é considerado fora de controle.
Monitorando a disponibilidade da rede
A sugestão para a monitoração da rede é a análise de alarmes com período fixo (por exemplo, 90 dias). A
taxa de alarmes é analisada diariamente e a ocorrência de um ponto fora-de-controle dispara a procura da
causa mesmo que não haja alarmes críticos assinalados.
Essa análise e uma possível ação preditiva contribuem para o aumento da disponibilidade.
6
Disponibilidade I: Análise de Tendência
Na figura 3 mostramos um caso real onde o total de alarmes é coletado diariamente ao longo de 31 dias.
Observamos claramente uma tendência ao crescimento do número de alarmes. Como medir essa tendência?
Uma possibilidade é usar a média móvel. Esse recurso está disponível em planilhas Excel.
Siga a seqüência:
Em Inglês: Chart > AddTrendline > (opção) Moving Average (escolha o tamanho da janela).
Em Português: Gráfico > Adicionar linha de tendência > (opção) Média Móvel (escolha o tamanho da
janela).
A curva (em preto) mostra a evolução da média móvel com janela de avaliação de 10 dias. Nota-se uma
tendência persistente de crescimento.
Figura 3: Análise de tendência.
Além da indicação de pontos fora-de-controle, a tendência ao crescimento da taxa de alarmes sugere
degradação progressiva da rede.
Nesse caso, uma situação crítica ocorreu causando a indisponibilidade de vários enlaces.
A detecção da tendência ao crescimento e a análise preditiva poderiam ter evitado a indisponibilidade.
7
Disponibilidade I: Considerações Finais
A análise dos alarmes que são gerados diariamente numa rede de telecomunicações é geralmente reativa:
procura-se a causa geradora após uma ocorrência crítica.
A antecipação ao problema por meio de uma análise preditiva pode ser feita com o auxílio de técnicas
estatísticas que detectam os desvios de comportamento dos alarmes em relação aos períodos normais.
Duas técnicas estatísticas foram propostas e exemplificados: gráfico de controle e análise de tendência.
Referências
[1] J. Tuszynski et all, “A Pilot Project on Alarm Reduction and Presentation Based on Multilevel Flow
Models”, Proc. Enlarged Halden Programme, Norway, 2002.
[2] A. Hanemann, M. Sailer, D. Schmitz, “Assured Service Quality by Improved Fault Management”,
ICSOC 2004, New York, USA, Nov 15-19, 2004.
[3] M. Garofalakis, R. Rastogi, “Data Mining meets Netwok Management”, DMKD Workshop, CA, USA,
May 20th, 2001.
[4] D. Levy D., R. Chillarege, “Early Warning of Failures through Alarm Analysis – A Case Study in
Telecom Voice Mail System”, IEEE Int. Symp. Software Reliab ility Engineering (ISSRE 2003), Denver,
USA, Nov 17-20, 2003.
[5] D.C. Montgomery, Introduction to Statistical Quality Control, J.Wiley, 1997
[6] Moreira de Souza J., Schmidt S., “Network Dependability Monitoring through Statistical Analysis of
Alarms”, Simp Bras. Telecom. SBrT, Caminas, SP, 2005.
8
Disponibilidade I: Teste seu Entendimento
1. A análise estatística dos alarmes gerados em uma rede de telecomunicações permite:
Calcular a indisponibilidade.
Localizar rapidamente a causa dos problemas.
Identificar desvios em relação ao comportamento normal.
Diminuir o tempo de reparação.
2. A monitoração estatística dos alarmes pode levar a um aumento da disponibilidade da rede porque:
Separa as causas primária do problema.
Indica os períodos mais prováveis de deterioração da rede que podem levar a uma situação crítica.
Diminui a taxa de falha.
Ajuda o operador a entender os alarmes.
3. Os gráficos de controle permitem a detecção de pontos fora-de-controle provocados por fenômenos:
Temporários.
Permanentes.
Intrínsecos ao processo.
Que causem desvio no processo.
4. Calcule a UCL do dia 3 para o exemplo 2, caso II:
62.67.
65.33.
57.20.
58.67.
5. A análise de tendência permite:
Analisar a evolução da média.
Detectar um movimento consistente de crescimento/decrescimento.
Detectar pontos fora-de-controle.
Detectar desvios no processo.
9
Download

Disponibilidade I: Aumentando a Disponibilidade da Rede