Disponibilidade I: Aumentando a Disponibilidade da Rede por meio da Análise Estatística de Alarmes Esse tutorial discute o uso de técnicas estatísticas para a análise preditiva de alarmes em uma rede de telecomunicações. A análise preditiva permite a identificação de uma anomalia no comportamento dos alarmes que pode se transformar em uma ocorrência crítica, com consequências na indisponibilidade da rede. Jorge Moreira de Souza Doutor em Informática (81) pelo Instituto Nacional Politécnico de Toulouse, França, Mestre (75) e Bacharel (71) em Engenharia Elétrica na PUC-RIO. As principais áreas de interesse são Engenharia de Tráfego e Análise de Confiabilidade de Sistemas. Trabalha atualmente na FITec onde desenvolve trabalhos de análise/avaliação e revisões de projeto. Participou com membro da Comissão do I Concurso Teleco de Trabalhos de Conclusão de Curso (TCC), realizado em 2005, e do II Concurso Teleco de Trabalhos de Conclusão de Curso (TCC), realizado em 2006. Email: [email protected] Categoria: Banda Larga Nível: Introdutório Enfoque: Técnico Duração: 15 minutos Publicado em: 13/02/2006 1 Disponibilidade I: Introdução A Gerência de Operação e Manutenção de redes e equipamentos de telecomunicação está cada vez mais complexa devido ao grande número de diferentes equipamentos e tipos de serviço. A esse aumento de complexidade corresponde um aumento no número de falhas permanentes e/ou transientes e consequentemente, um aumento substancial no número de alarmes devido à interdependência entre os Elementos Gerenciáveis (EG), fazendo com que uma ocorrência primária gere múltiplas ocorrências secundárias. No contexto de Gerência de Operação e Manutenção de redes e equipamentos, a Gerência de Falhas usando os alarmes é uma facilidade importante no sentido de permitir efetuar uma análise rápida e executar ações imediatas sobre as causas da ocorrência, evitando um possível colapso do sistema. Essa gerência se torna complexa devido à sobrecarga de alarmes gerados dificultando a localização rápida do problema. Além disso, essa ação é geralmente reativa. Sabe-se que um sistema raramente tem um comportamento abrupto. Desta forma, uma ocorrência grave é geralmente precedida de um aumento de alarmes com características diferentes do comportamento em situações normais. A análise eficiente dos alarmes na identificação das falhas contribui para o aumento da disponibilidade da rede por meio das seguintes ações: Intervenção preditiva, agindo antes da manifestação da falha; Intervenção corretiva, localizando rapidamente a causa do problema. As soluções propostas no contexto da análise eficiente dos alarmes são: Filtragem e redução do fluxo de alarmes (alarmes secundários) identificando os alarmes primários [1]; Análise causa-raiz (root cause) dos alarmes primários [2-3]; Análise estatística das variações no comportamento dos alarmes [4]. Nesse tutorial abordaremos as técnicas estatísticas usadas na solução 3. Duas técnicas úteis serão discutidas: Gráficos de controle (Control. Charts); Análise de tendência. 2 Disponibilidade I: Coleta e Monitoração de Alarmes Uma falha é um evento interno ou externo que pode degradar ou parar total ou parcialmente o funcionamento do sistema e/ou dos serviços. A ocorrência de um alarme não implica necessariamente em uma falha do sistema. Pode sinalizar uma condição anormal que pode levar a uma falha do sistema caso não seja tratada adequadamente. Os sistemas de gerência de rede possuem um sistema de coleta de alarmes gerados pelos Elementos Gerenciáveis (EG) geralmente com os seguintes atributos: Data e hora da ativação do alarme; Data e hora da desativação do alarme; EGs afetados; Efeito no sistema; Severidade; Etc. A afirmação que a monitoração estatística dos alarmes pode levar a um aumento da disponibilidade da rede pode ser justificada da seguinte forma: A ocorrência de alarmes é um fenômeno aleatório mesmo em condições normais onde são registrados apenas alarmes temporários ou com baixa severidade; A ocorrência de alarmes pode ser caracterizada estatisticamente por uma média e variância; Uma rede raramente tem um comportamento abrupto. Uma ocorrência grave é geralmente precedida de um aumento de alarmes com características diferentes do comportamento em condições normais, indicando uma possível deterioração da rede; Essa deterioração causa uma mudança abrupta em relação à média e variância medidas em condições normais; Essa mudança abrupta pode ser caracterizada num gráfico de controle como um ponto fora-decontrole que deve ser analisado; A ação de manutenção preditiva baseada na análise das ocorrências de pontos fora-de-controle pode evitar a deterioração da rede para uma situação crítica que afete a disponibilidade. A referência [4] apresenta o resultado da análise de alarmes usando a distribuição de Pareto. Neste tutorial apresentaremos duas técnicas que podem ser usadas adicionalmente: Gráfico de Controle e Análise de Tendência [6]. 3 Disponibilidade I: Gráfico de Controle Em um sistema estável a taxa de alarmes deve estar dentro de limites controlados. Pontos fora-de-controle podem ser causados por operações inadequadas, utilização fora de limites especificados, exaustão de recursos internos, fenômenos externos, etc. O uso de gráficos de controle em controle de processos permite a detecção de desvios no processo e das causas prováveis de modo a orientar as ações a serem tomadas. Essa ferramenta é usada para detecção dos pontos fora-de-controle. Os gráficos de controle se baseiam no princípio que todo processo admite uma variação quando medido, seja ao longo do tempo ou entre itens semelhantes. Assim é possível identificar fontes de variação como: Variação provocada por fenômenos intrínsecos ao processo; Variações fora-de-controle que são devidas à causas identificáveis e que devem ser prevenidas ou corrigidas. Os alarmes ocorrem em uma determinada área de oportunidade. A área de oportunidade indica a forma de agrupamento dos alarmes, por exemplo, alarmes por dia ou por tipo de equipamento ou por região geográfica, etc. A área de oportunidade pode ser constante (um dia, uma hora) ou variável (tamanho de módulos de software em linhas de código). De maneira geral vamos definir que para a amostra i, n(i) é o número de alarmes gerados na área de oportunidade u (i). A média é expressa por n(i)/u(i). Considere que a taxa n(i) é uma variável poissoniana. O gráfico de controle apropriado para trabalhar com taxas, por exemplo, alarmes por dia, é o “u-chart” ( a referência [5] apresenta vários gráficos de controle e sua utilização). As expressões para obtenção dos limites superior (UCL) e inferior (LCL) do gráfico de controle são: O gráfico de controle é apresentado com as seguintes medidas: Linha Central (Center Line, CL), Limite Superior (Upper Center Limit, UCL) e Limite Inferior (Lower Center Limit, LCL). Exemplo1: Análise considerando um período determinado Considere que a seguinte seqüência de alarmes foi registrada no período de um mês (Tabela 1). 4 Tabela 1: Alarmes coletados durante 31 dias. Datas Número de alarmes Datas Número de alarmes 11/1/2005 124 27/1/2005 0 12/1/2005 0 28/1/2005 0 13/1/2005 5 29/1/2005 0 14/1/2005 0 30/1/2005 1 15/1/2005 0 31/1/2005 4 16/1/2005 4 1/2/2005 0 17/1/2005 0 2/2/2005 484 18/1/2005 0 3/2/2005 64 19/1/2005 0 4/2/2005 16 20/1/2005 0 5/2/2005 0 21/1/2005 5 6/2/2005 4 22/1/2005 0 7/2/2005 0 23/1/2005 0 8/2/2005 0 24/1/2005 2 9/2/2005 0 25/1/2005 3 10/2/2005 1 26/1/2005 0 O gráfico de controle correspondente é mostrado na figura 1, usando as expressões do u-chart. Figura 1: Análise com período determinado. A média ū= Soma dos alarmes / 31 = 717 / 31 = 23.13. 5 Vamos calcular o limite UCL: UCL= 23.13 + 3 * Raiz(23.13 / 1) = 37.56. Existem dois dias considerados fora-de-controle: o primeiro dia e o vigésimo terceiro. Exemplo 2: Análise considerando um período variável Nesse caso a janela de tempo varia com o dia da observação. Por exemplo: I) no caso de uma janela de tempo, quero analisar os alarmes num determinado dia considerando os últimos n dias (janela de n dias); II) quero analisar os alarmes num determinado dia considerando todos os dias anteriores. Nesses casos a média varia a cada dia porque o período de observação varia. A figura 2 trata os mesmos alarmes da Tabela 1 para o caso 2, considerando todas as coletas anteriores. A média ū varia a cada dia e consequentemente o limite superior, UCL. Na figura 2 a linha central, CL, tem o valor da média do último dia avaliado (dia 31). Calculando: Dia 1: ū = 124, UCL = 124 + 3*Raiz(124) = 157.41; Dia 2: ū = (124 + 0)/2= 62, UCL = 62 + 3*Raiz(62) = 85.62; E assim por diante até último dia. Figura 2: Análise com período variável. Nesse caso há uma suavização ao longo do tempo. Apenas o dia 23 é considerado fora de controle. Monitorando a disponibilidade da rede A sugestão para a monitoração da rede é a análise de alarmes com período fixo (por exemplo, 90 dias). A taxa de alarmes é analisada diariamente e a ocorrência de um ponto fora-de-controle dispara a procura da causa mesmo que não haja alarmes críticos assinalados. Essa análise e uma possível ação preditiva contribuem para o aumento da disponibilidade. 6 Disponibilidade I: Análise de Tendência Na figura 3 mostramos um caso real onde o total de alarmes é coletado diariamente ao longo de 31 dias. Observamos claramente uma tendência ao crescimento do número de alarmes. Como medir essa tendência? Uma possibilidade é usar a média móvel. Esse recurso está disponível em planilhas Excel. Siga a seqüência: Em Inglês: Chart > AddTrendline > (opção) Moving Average (escolha o tamanho da janela). Em Português: Gráfico > Adicionar linha de tendência > (opção) Média Móvel (escolha o tamanho da janela). A curva (em preto) mostra a evolução da média móvel com janela de avaliação de 10 dias. Nota-se uma tendência persistente de crescimento. Figura 3: Análise de tendência. Além da indicação de pontos fora-de-controle, a tendência ao crescimento da taxa de alarmes sugere degradação progressiva da rede. Nesse caso, uma situação crítica ocorreu causando a indisponibilidade de vários enlaces. A detecção da tendência ao crescimento e a análise preditiva poderiam ter evitado a indisponibilidade. 7 Disponibilidade I: Considerações Finais A análise dos alarmes que são gerados diariamente numa rede de telecomunicações é geralmente reativa: procura-se a causa geradora após uma ocorrência crítica. A antecipação ao problema por meio de uma análise preditiva pode ser feita com o auxílio de técnicas estatísticas que detectam os desvios de comportamento dos alarmes em relação aos períodos normais. Duas técnicas estatísticas foram propostas e exemplificados: gráfico de controle e análise de tendência. Referências [1] J. Tuszynski et all, “A Pilot Project on Alarm Reduction and Presentation Based on Multilevel Flow Models”, Proc. Enlarged Halden Programme, Norway, 2002. [2] A. Hanemann, M. Sailer, D. Schmitz, “Assured Service Quality by Improved Fault Management”, ICSOC 2004, New York, USA, Nov 15-19, 2004. [3] M. Garofalakis, R. Rastogi, “Data Mining meets Netwok Management”, DMKD Workshop, CA, USA, May 20th, 2001. [4] D. Levy D., R. Chillarege, “Early Warning of Failures through Alarm Analysis – A Case Study in Telecom Voice Mail System”, IEEE Int. Symp. Software Reliab ility Engineering (ISSRE 2003), Denver, USA, Nov 17-20, 2003. [5] D.C. Montgomery, Introduction to Statistical Quality Control, J.Wiley, 1997 [6] Moreira de Souza J., Schmidt S., “Network Dependability Monitoring through Statistical Analysis of Alarms”, Simp Bras. Telecom. SBrT, Caminas, SP, 2005. 8 Disponibilidade I: Teste seu Entendimento 1. A análise estatística dos alarmes gerados em uma rede de telecomunicações permite: Calcular a indisponibilidade. Localizar rapidamente a causa dos problemas. Identificar desvios em relação ao comportamento normal. Diminuir o tempo de reparação. 2. A monitoração estatística dos alarmes pode levar a um aumento da disponibilidade da rede porque: Separa as causas primária do problema. Indica os períodos mais prováveis de deterioração da rede que podem levar a uma situação crítica. Diminui a taxa de falha. Ajuda o operador a entender os alarmes. 3. Os gráficos de controle permitem a detecção de pontos fora-de-controle provocados por fenômenos: Temporários. Permanentes. Intrínsecos ao processo. Que causem desvio no processo. 4. Calcule a UCL do dia 3 para o exemplo 2, caso II: 62.67. 65.33. 57.20. 58.67. 5. A análise de tendência permite: Analisar a evolução da média. Detectar um movimento consistente de crescimento/decrescimento. Detectar pontos fora-de-controle. Detectar desvios no processo. 9