Requisitos de Disponibilidade para Redes e SLA Este trabalho visa estabelecer os conceitos, as metas e as soluções para atender condições de disponibilidade de serviços para assinantes de serviços de telecomunicações e atendimento dos contratos de SLA através de circuitos de múltiplos provedores. Christoph Fleissig Sócio executivo da Consultel, desde 2002 atuando em Consultoria para Empresas, tanto para problemas técnicos, marketing e propostas de serviços como para dimensionamento de sistemas de telecomunicações. Antes de atuar na Consultel participou da criação da Vésper como Gerente da Engenharia do sistema de transporte. Isto incluiu a rede óptica, rádios de microondas, rede de leasing, e outros meios de longa distância e acesso. Também trabalhou na Inbelsa, Sid/Lucent e Pulsecom, com rádios de microondas, equipamentos ópticos, equipamentos xDSL e sistemas de rede externa, interna e cabeamento extruturado. Formado em Engenharia Eletrônica pela Escola de Engenharia Mauá em 1969 fez pós-graduação em Telecomunicações no INPE em 1973. Categoria: Sistemas de Transmissão Nível: Introdutório Enfoque: Técnico Duração: 15 minutos Publicado em: 01/12/2003 1 Disponibilidade: Definições e Metas Tendo em vista que a expansão dos serviços de telecomunicações (quer da telefonia móvel, quer dos sitemas de Internet rápida) já está atendendo grande parte dos assinantes, a competição entre os provedores certamente irá requerer melhorias na qualidade do atendimento. As entidades internacionais como a ITU fazem recomendações básicas sobre a qualidade dos sinais digitais e seus critérios de aceitação, mas são omissas quanto aos critérios de disponibilidade destes serviços nas aplicações end-to-end (fim-a-fim). Procura-se aqui discutir premissas que permitam estabelecer as condições de acordos de níveis de qualidade (SLA) aceitáveis com provedores e com os usuários finais, para o atendimento das espectativas e a garantia para a satisfação dos clientes. Ao tratar com as estatísticas de interrupção, os dados obtidos também poderão ser úteis para o estabelecimento de garantias e previsões de penalizações. A tabela a seguir apresenta algumas siglas utilizadas neste tutorial. ITU-T International Telecommunication Union - Telecommunication Standardization Sector. ITU-R International Telecommunication Union - Radio Communication Sector. SLA Service Level Agreement. E1 Sinal Digital com taxa de transmissão de 2 Mbits/s. MTTR Mean Time to Repair ( Tempo médio de Reparo ). MTBF Mean Time Between Failure ( Tempo Médio entre Falhas ). Definições e metas para circuitos Considera-se que as características físicas de sinais E1 são adequadamente definidas pelas recomendações G.703 e G.704 da ITU e, que os parâmetros de qualidade e disponibilidade para conexões operando à 64 kBits/s e 2 Mbits/s (ou taxas superiores) são definidos pelas recomendações G.821 e G.826 da ITU respectivamente. 2 Recomendações da ITU G.703 Physical/Eletrical Characteristics of Hierarquical Digital Interfaces. G.704 Synchronous Frame Structures used at 1544, 6312, 2048, 8488 and 44.736 kbit/s Hierarchical Levels. G.821 Error performance of an international digital connection operating at a bit rate below the primary rate and forming part of an integrated services digital network G.826 Error Performance Parameters and Objectives for International Constant Bit Rate Digital Paths at or Above the primary Rate. F.696-2 Error performance and availability objectives for hypothetical reference digital sections forming part or all of the medium-grade portion of an ISDN connection at a bit rate below the primary rate utilizing digital radio-relay systems. Assim serão estabelecidadas metas apenas para a disponibilidade, sendo que o restante dos parâmetros de qualidade dos sinais para a definição precisa do SLA devem ser obtidos nas normas. A definição da probabilidade de encontrar um circuito com falhas é dada pela expressão: P = f MTTR ou de maneira simplificada: MTBF + MTTR P f = MTTR = MTTR MTBF onde = 1 / MTBF A disponibilidade será o inverso da probabilidade de encontrar um circuito em falhas. Outro parâmetro bastante útil é o de minutos de interrupção por ano tomando a probabilidade de encontrar um circuito em falhas e multiplicando pela relação 526.000 (minutos / ano). Contando que as causas de interrupção são processos estatísticos independentes, a probabilidade de interrupção de um circuito composto por vários elementos é a soma das probabilidades destes elementos: P f vários ) = S P ou se os tempos de reparo forem iguais: P = MTTR ( S i fi fvários i i Ao proteger circuitos por meio de anéis ou de diversidade, a probabilidade de encontrar o circuito protegido em falha é o produto da probabilidade de cada um dos elementos: P fproteg =P f1 .P f2 3 Disponibilidade: Exemplo A figura a seguir mostra um circuito genérico para ilustrar os vários circuitos considerados:acesso, entre provedores e entre centrais. Para definir a disponibilidade para o acesso de um assinante, será necessário localizá-lo, identificando seu circuito, os circuitos de transporte na rede e finalmente o circuito até seu provedor de serviços. O Assinante "A" foi identificado num circuito de ADSL a partir de um Multiplexador de acesso no ponto "B" de um anel óptico, configurando um circuito de acesso xDSL. O anel óptico permite o encaminhamento dos sinais pelos trechos "B-C" ou alternativamente pelo trecho "B-E-D-C" e o provedor de serviços é conectado por um sistema STM-1. Caso o provedor de serviços estivesse em outra região, poderia ser feita a estimativa da disponibilidade através do circuito regional, nacional e internacional (configurando os circuitos entre centrais). Não iremos detalhar este tipo de cálculo, mas será necessário estabelecer claramente no SLA a amplitude da responsabilidade do fornecimento de serviços. A metodologia de cálculos é idêntica. 4 Disponibilidade: Interrupções Para o atendimento de cada cliente, como apresentado no exemplo anterior, pode haver mais de um trecho com diferentes tipos de tecnologia de transporte (cabos metálicos, ADSL, fibras e equipamentos ópticos). As interrupções do serviço podem ocorrer nestes trechos ou serem devidas a equipamentos de comutação, conexões de longa distância e outras, de maneira a exigir uma partição das metas de confiabilidade. Interrupções devidas às falhas As interrupções, em caso de falhas, normalmente já significam um tempo de interrupção longo (cuja média é o MTTR do trecho). Como os sistemas ópticos estão sujeitos aos reparos dos cabos, o MTTR seria excessivamente grande e dificilmente seria aceito pelos usuários. Por isso normalmente são protegidos por anéis. Desta forma sistemas ópticos podem atender a confiabilidades superiores a 99,999 %. Deverão ser evitadas construções de circuitos em anéis planos (trechos onde são utilizadas fibras do mesmo cabo para ambos percursos do anel) ou elementos comuns (passagem pelo mesmo poste nos casos de rede aérea) pois isso poderá prejudicar esta performace. Caso sejam utilizados circuitos de provedores de circuitos terceiros deverá ser negociada a confiabilidade destas porções. Há provedores que aceitam garantir até 99,99 % para a confiabilidade média de seus Sistemas. Interrupções devidas à propagação nos rádios Nos rádio-enlaces há interrupções adicionais causadas por fatores de propagação (fadding), atenuação de chuvas e outros fatores. Não vamos mostrar os métodos destes cálculos aqui, mas para enlaces bem dimensionados pode-se considerar a os objetivos de disponibilidade de pelo menos 99,996 % e indisponibilidade máxima de 26 minutos. O MTBF de equipamentos rádio de boa qualidade é de mais de 15 anos o que permite atender enlaces com confiabilidade de 99,99% desde que o MTTR seja inferior a 4 horas. Como vemos na figura 2 os equipamentos constituintes do rádio normalmente incluem unidades internas (montadas em bastidores na sala de equipamentos) e externas (montadas junto às antenas). Como pode haver restrições maiores na escalada das torres, poderá ser necessário considerar tempos de reparo diferentes para estas unidades. Os tempos de interrupção devem ser somados para obter a confiabilidade do enlace. Caso estas metas não possam ser ser assegurada, os rádios poderão ser protegidos através de configurações Hot-Stand-By, assegurando diversidade de propagação e de equipamentos. 5 Tempo de reparo Deve ser assegurado o menor tempo médio de reparo possível (MTTR), sendo muitas vezes inferior a 4 horas. Isso inclue os tempos de identificação do defeito, disponibilização de placas / equipamentos / materiais sobressalentes, deslocamento da equipe de manutenção, substituição / conserto da parte defeituosa e retorno do serviço à normalidade. É particularmente importante o dimensionamento do estoque de unidades sobressalentes pois sua falta poderá resultar em reparos extremamente delongados. Em casos específicos o MTTR poderá ser maior, particularmente nas unidades externas dos rádios (escalada de torres nos períodos noturnos e durante chuvas), prédios com acesso somente no período de atividades comerciais, ou locais com acesso restrito ou perigoso. A existência de uma condição deste tipo deverá ser previamente estabelecida e estabelecido um tempo de reparo específico para cada caso, introduzindo esta condição nos cálculos. 6 Disponibilidade: Partição Conceito de Partição e atendimento às Metas de disponibilidade O objetivo final de confiabilidade de atendimento para assinantes de circuitos deve ser superior ao acordado no SLA. Para telefonia a Anatel tem requerido pelo menos 99,8 %, incluindo todos os elementos / componentes dos sistemas envolvidos para provisionar tais circuitos. Como cada elemento / componente da rede possui uma participação nos cálculos de confiabilidade e a realização de cálculos para cada assinante poderá conduzir a situações muito complexas, podem ser feitos cálculos utilizando conexões hipotéticas entre o Provedor, Central ou Switch e o assinante/usuário. Estão ilustrados abaixo dois exemplos de conexões e suas respectivas parcelas: Exemplo 1 Disponibilidade (%) Minutos Interrupção (%) interrupção por ano Rádio de Microondas 1 (1+0) 99,99 0,01 53 Rádio de Microondas 2 (1+1) 99,996 0,004 21 Rádio de Microondas 3 (1+1) 99,996 0,004 21 Rádio de Microondas 4 (1+1) 99,996 0,004 21 Provedor 1 99,99 0,01 53 Provedor 2 99,99 0,01 53 Switch 99,99 0,01 53 Provedor Longa Distância 99,98 0,02 105 Margem Infra Estrutura 99,98 0,02 105 Modem HDSL 99,98 0,02 105 Total 99,888 0,112 589 Trecho de 7 Exemplo 2 Disponibilidade (%) Interrupção (%) Minutos p/ ano de interrupção Rádio de Microondas 1 (1+0) 99,99 0,01 53 Rádio de Microondas 2 (1+1) 99,996 0,004 21 Provedor 1 99,99 0,01 53 Provedor 2 99,99 0,01 53 Switch 99,99 0,01 53 Provedor Longa Distância 99,99 0,01 53 Sistema Óptico Próprio 1 99,99 0,01 53 Sistema Óptico Próprio 2 99,99 0,01 53 Margem Infra Estrutura 99,98 0,02 105 Total 99,906 0,094 494 Trecho 8 Disponibilidade: Gerência de Rede É particularmente importante a utilização de sistemas de gerência de redes (TNM) para o controle da operação. Isto irá resultar no menor tempo de identificação dos defeitos, reduzindo imediatamente o tempo das interrupções. Também deverão ser identificados, caso a caso, os causadores das interrupções, mostrando os ocasionados por falhas de equipamentos e os da infra-estrutura dos clientes (energia, ar condicionado, aterramento, etc.), terceiros e os de força maior. Isto irá permitir gerar relatórios e tomar ações corretivas na rede. A utilização de recursos de redundância também poderá otimizada usando circuitos roteadores, quer dos equipamentos existentes (SDH e outros), quer de equipamentos específicamentte inseridos para tanto. Na figura a seguir apresentamos um diagrama de tais equipamentos. Desta forma, poderão ser protegidos apenas os segmentos e os sinais que requerem interrupções controladas. Isto irá permitir, por exemplo o uso de rádios de microondas para proteger sistemas ópticos com capacidades muito superiores. Outra consideração é sobre o custo da proteção. Podemos exemplificar este custo com o exemplo apresentado. Observamos que existe tráfego entre os trechos B-C e C-D. Não existindo tráfego entre B-E e E-D ficaria a questão: porque construir este trecho? Somente para permitir o tráfego da proteção. Caso o trecho B-C esteja congestionado, podemos utilizar 100% de sua capacidade? Não. Estará reservada para a proteção do trecho C-D. Com estes argumentos fica claro a existência de custos significativos tanto na construção das redes como na capacidade dos equipamentos utilizados. Isto é o custo da proteção que deverá ser calculado e será uma das consequências da garantia de disponibilidade. Alternativamente à construção do trecho óptico, poderia ser utilizada uma rota de rádio de microondas 9 unindo o trecho B-D. Isto resultaria em proteção? Sim, mas limitada à capacidade do rádio. Uma situação deste tipo exige a utilização de recursos de Cross-Connect para assegurar que os circuitos protegidos tenham acesso ao elemento de proteção (no caso o rádio). Isso nos permite obter proteções adequadas ao custo proposto. As correções e o direcionamento dos sinais adequados são introduzidos e mantidos por meio do sistema de gerência. 10 Disponibilidade: Considerações Finais Conforme apresentado nas tabelas de partição, a confiabilidade dos circuitos poderá ser administrada garantindo disponibilidades adequadas aos usuários e estabelecendo metas para provedores e elementos do sistema. Pode-se desta forma garantir serviços com mais de 99.9% de disponibilidade ponta-a-ponta com redes bastante complexas. Como exemplo de condições de SLA para provimento sinais de 2Mbps para partes do sistemas de telefonia, pode-se especificar: Requisitos Recomendações Característica Física do E1 ITU G.703 Qualidade do E1 ITU G. 821 / G.826 Confiabilidade 99,99 % Indisponibilidade Média Anual 53 minutos MTTR 4 horas Referências Tutorial SLA (Service Level Agreement). Tutorial GIRS (Gerência Integrada de Redes e Serviços). Tutorial Operação e Manutenção de Redes de Teleco. 11 Disponibilidade: Teste seu Entendimento 1. Quando devemos fazer os cálculos de disponibilidade? Sempre. Na ocorrência de panes do sistema. Na contratação de serviços de terceiros. No estabelecimento dos níveis de qualidade aceitáveis. 2. Qual é a implicação de se usar uma mesma ponte para passar cabos ópticos nos dois sentidos de um anel? Nenhuma. Não é permitido. Só é permitido se os cabos passarem em lados opostos da ponte. A probabilidade de falha do circuito protegido não é mais o produto das probabilidades de cada um dos elementos. 3. Qual é a alternativa errada? A disponibilidade depende do tempo de reparo dos sistemas. A disponibilidade depende de todos os circuitos que atendem o usuário. A melhoria da disponibilidade pode requerer investimentos. Dois assinantes conectados no mesmo circuito de acesso tem a mesma disponibilidade. 12