Requisitos de Disponibilidade para Redes e SLA
Este trabalho visa estabelecer os conceitos, as metas e as soluções para atender condições de disponibilidade
de serviços para assinantes de serviços de telecomunicações e atendimento dos contratos de SLA através de
circuitos de múltiplos provedores.
Christoph Fleissig
Sócio executivo da Consultel, desde 2002 atuando em Consultoria para Empresas, tanto para problemas
técnicos, marketing e propostas de serviços como para dimensionamento de sistemas de telecomunicações.
Antes de atuar na Consultel participou da criação da Vésper como Gerente da Engenharia do sistema de
transporte. Isto incluiu a rede óptica, rádios de microondas, rede de leasing, e outros meios de longa
distância e acesso.
Também trabalhou na Inbelsa, Sid/Lucent e Pulsecom, com rádios de microondas, equipamentos ópticos,
equipamentos xDSL e sistemas de rede externa, interna e cabeamento extruturado.
Formado em Engenharia Eletrônica pela Escola de Engenharia Mauá em 1969 fez pós-graduação em
Telecomunicações no INPE em 1973.
Categoria: Sistemas de Transmissão
Nível: Introdutório
Enfoque: Técnico
Duração: 15 minutos
Publicado em: 01/12/2003
1
Disponibilidade: Definições e Metas
Tendo em vista que a expansão dos serviços de telecomunicações (quer da telefonia móvel, quer dos sitemas
de Internet rápida) já está atendendo grande parte dos assinantes, a competição entre os provedores
certamente irá requerer melhorias na qualidade do atendimento.
As entidades internacionais como a ITU fazem recomendações básicas sobre a qualidade dos sinais digitais e
seus critérios de aceitação, mas são omissas quanto aos critérios de disponibilidade destes serviços nas
aplicações end-to-end (fim-a-fim).
Procura-se aqui discutir premissas que permitam estabelecer as condições de acordos de níveis de qualidade
(SLA) aceitáveis com provedores e com os usuários finais, para o atendimento das espectativas e a garantia
para a satisfação dos clientes.
Ao tratar com as estatísticas de interrupção, os dados obtidos também poderão ser úteis para o
estabelecimento de garantias e previsões de penalizações.
A tabela a seguir apresenta algumas siglas utilizadas neste tutorial.
ITU-T
International Telecommunication Union - Telecommunication Standardization Sector.
ITU-R
International Telecommunication Union - Radio Communication Sector.
SLA
Service Level Agreement.
E1
Sinal Digital com taxa de transmissão de 2 Mbits/s.
MTTR
Mean Time to Repair ( Tempo médio de Reparo ).
MTBF
Mean Time Between Failure ( Tempo Médio entre Falhas ).
Definições e metas para circuitos
Considera-se que as características físicas de sinais E1 são adequadamente definidas pelas recomendações
G.703 e G.704 da ITU e, que os parâmetros de qualidade e disponibilidade para conexões operando à 64
kBits/s e 2 Mbits/s (ou taxas superiores) são definidos pelas recomendações G.821 e G.826 da ITU
respectivamente.
2
Recomendações da ITU
G.703
Physical/Eletrical Characteristics of Hierarquical Digital Interfaces.
G.704
Synchronous Frame Structures used at 1544, 6312, 2048, 8488 and 44.736 kbit/s Hierarchical
Levels.
G.821
Error performance of an international digital connection operating at a bit rate below the
primary rate and forming part of an integrated services digital network
G.826
Error Performance Parameters and Objectives for International Constant Bit Rate Digital
Paths at or Above the primary Rate.
F.696-2
Error performance and availability objectives for hypothetical reference digital sections
forming part or all of the medium-grade portion of an ISDN connection at a bit rate below the
primary rate utilizing digital radio-relay systems.
Assim serão estabelecidadas metas apenas para a disponibilidade, sendo que o restante dos parâmetros de
qualidade dos sinais para a definição precisa do SLA devem ser obtidos nas normas.
A definição da probabilidade de encontrar um circuito com falhas é dada pela expressão:
P =
f
MTTR
ou de maneira simplificada:
MTBF + MTTR
P
f
=
MTTR
= MTTR
MTBF
onde = 1 / MTBF
A disponibilidade será o inverso da probabilidade de encontrar um circuito em falhas. Outro parâmetro
bastante útil é o de minutos de interrupção por ano tomando a probabilidade de encontrar um circuito em
falhas e multiplicando pela relação 526.000 (minutos / ano).
Contando que as causas de interrupção são processos estatísticos independentes, a probabilidade de
interrupção de um circuito composto por vários elementos é a soma das probabilidades destes elementos:
P
f vários
)
= S P ou se os tempos de reparo forem iguais: P
= MTTR ( S
i fi
fvários
i i
Ao proteger circuitos por meio de anéis ou de diversidade, a probabilidade de encontrar o circuito protegido
em falha é o produto da probabilidade de cada um dos elementos:
P
fproteg
=P
f1
.P
f2
3
Disponibilidade: Exemplo
A figura a seguir mostra um circuito genérico para ilustrar os vários circuitos considerados:acesso, entre
provedores e entre centrais.
Para definir a disponibilidade para o acesso de um assinante, será necessário localizá-lo, identificando seu
circuito, os circuitos de transporte na rede e finalmente o circuito até seu provedor de serviços.
O Assinante "A" foi identificado num circuito de ADSL a partir de um Multiplexador de acesso no ponto
"B" de um anel óptico, configurando um circuito de acesso xDSL. O anel óptico permite o encaminhamento
dos sinais pelos trechos "B-C" ou alternativamente pelo trecho "B-E-D-C" e o provedor de serviços é
conectado por um sistema STM-1.
Caso o provedor de serviços estivesse em outra região, poderia ser feita a estimativa da disponibilidade
através do circuito regional, nacional e internacional (configurando os circuitos entre centrais). Não iremos
detalhar este tipo de cálculo, mas será necessário estabelecer claramente no SLA a amplitude da
responsabilidade do fornecimento de serviços. A metodologia de cálculos é idêntica.
4
Disponibilidade: Interrupções
Para o atendimento de cada cliente, como apresentado no exemplo anterior, pode haver mais de um trecho
com diferentes tipos de tecnologia de transporte (cabos metálicos, ADSL, fibras e equipamentos ópticos).
As interrupções do serviço podem ocorrer nestes trechos ou serem devidas a equipamentos de comutação,
conexões de longa distância e outras, de maneira a exigir uma partição das metas de confiabilidade.
Interrupções devidas às falhas
As interrupções, em caso de falhas, normalmente já significam um tempo de interrupção longo (cuja média é
o MTTR do trecho). Como os sistemas ópticos estão sujeitos aos reparos dos cabos, o MTTR seria
excessivamente grande e dificilmente seria aceito pelos usuários. Por isso normalmente são protegidos por
anéis. Desta forma sistemas ópticos podem atender a confiabilidades superiores a 99,999 %.
Deverão ser evitadas construções de circuitos em anéis planos (trechos onde são utilizadas fibras do mesmo
cabo para ambos percursos do anel) ou elementos comuns (passagem pelo mesmo poste nos casos de rede
aérea) pois isso poderá prejudicar esta performace.
Caso sejam utilizados circuitos de provedores de circuitos terceiros deverá ser negociada a confiabilidade
destas porções. Há provedores que aceitam garantir até 99,99 % para a confiabilidade média de seus
Sistemas.
Interrupções devidas à propagação nos rádios
Nos rádio-enlaces há interrupções adicionais causadas por fatores de propagação (fadding), atenuação de
chuvas e outros fatores. Não vamos mostrar os métodos destes cálculos aqui, mas para enlaces bem
dimensionados pode-se considerar a os objetivos de disponibilidade de pelo menos 99,996 % e
indisponibilidade máxima de 26 minutos.
O MTBF de equipamentos rádio de boa qualidade é de mais de 15 anos o que permite atender enlaces com
confiabilidade de 99,99% desde que o MTTR seja inferior a 4 horas.
Como vemos na figura 2 os equipamentos constituintes do rádio normalmente incluem unidades internas
(montadas em bastidores na sala de equipamentos) e externas (montadas junto às antenas). Como pode
haver restrições maiores na escalada das torres, poderá ser necessário considerar tempos de reparo
diferentes para estas unidades.
Os tempos de interrupção devem ser somados para obter a confiabilidade do enlace.
Caso estas metas não possam ser ser assegurada, os rádios poderão ser protegidos através de configurações
Hot-Stand-By, assegurando diversidade de propagação e de equipamentos.
5
Tempo de reparo
Deve ser assegurado o menor tempo médio de reparo possível (MTTR), sendo muitas vezes inferior a 4
horas. Isso inclue os tempos de identificação do defeito, disponibilização de placas / equipamentos /
materiais sobressalentes, deslocamento da equipe de manutenção, substituição / conserto da parte defeituosa
e retorno do serviço à normalidade.
É particularmente importante o dimensionamento do estoque de unidades sobressalentes pois sua falta
poderá resultar em reparos extremamente delongados.
Em casos específicos o MTTR poderá ser maior, particularmente nas unidades externas dos rádios
(escalada de torres nos períodos noturnos e durante chuvas), prédios com acesso somente no período de
atividades comerciais, ou locais com acesso restrito ou perigoso.
A existência de uma condição deste tipo deverá ser previamente estabelecida e estabelecido um tempo de
reparo específico para cada caso, introduzindo esta condição nos cálculos.
6
Disponibilidade: Partição
Conceito de Partição e atendimento às Metas de disponibilidade
O objetivo final de confiabilidade de atendimento para assinantes de circuitos deve ser superior ao acordado
no SLA. Para telefonia a Anatel tem requerido pelo menos 99,8 %, incluindo todos os elementos /
componentes dos sistemas envolvidos para provisionar tais circuitos.
Como cada elemento / componente da rede possui uma participação nos cálculos de confiabilidade e a
realização de cálculos para cada assinante poderá conduzir a situações muito complexas, podem ser feitos
cálculos utilizando conexões hipotéticas entre o Provedor, Central ou Switch e o assinante/usuário.
Estão ilustrados abaixo dois exemplos de conexões e suas respectivas parcelas:
Exemplo 1
Disponibilidade (%)
Minutos
Interrupção (%) interrupção
por ano
Rádio de Microondas 1 (1+0)
99,99
0,01
53
Rádio de Microondas 2 (1+1)
99,996
0,004
21
Rádio de Microondas 3 (1+1)
99,996
0,004
21
Rádio de Microondas 4 (1+1)
99,996
0,004
21
Provedor 1
99,99
0,01
53
Provedor 2
99,99
0,01
53
Switch
99,99
0,01
53
Provedor Longa Distância
99,98
0,02
105
Margem Infra Estrutura
99,98
0,02
105
Modem HDSL
99,98
0,02
105
Total
99,888
0,112
589
Trecho
de
7
Exemplo 2
Disponibilidade (%) Interrupção (%)
Minutos p/ ano de
interrupção
Rádio de Microondas 1 (1+0)
99,99
0,01
53
Rádio de Microondas 2 (1+1)
99,996
0,004
21
Provedor 1
99,99
0,01
53
Provedor 2
99,99
0,01
53
Switch
99,99
0,01
53
Provedor Longa Distância
99,99
0,01
53
Sistema Óptico Próprio 1
99,99
0,01
53
Sistema Óptico Próprio 2
99,99
0,01
53
Margem Infra Estrutura
99,98
0,02
105
Total
99,906
0,094
494
Trecho
8
Disponibilidade: Gerência de Rede
É particularmente importante a utilização de sistemas de gerência de redes (TNM) para o controle da
operação. Isto irá resultar no menor tempo de identificação dos defeitos, reduzindo imediatamente o tempo
das interrupções.
Também deverão ser identificados, caso a caso, os causadores das interrupções, mostrando os ocasionados
por falhas de equipamentos e os da infra-estrutura dos clientes (energia, ar condicionado, aterramento, etc.),
terceiros e os de força maior. Isto irá permitir gerar relatórios e tomar ações corretivas na rede.
A utilização de recursos de redundância também poderá otimizada usando circuitos roteadores, quer dos
equipamentos existentes (SDH e outros), quer de equipamentos específicamentte inseridos para tanto. Na
figura a seguir apresentamos um diagrama de tais equipamentos.
Desta forma, poderão ser protegidos apenas os segmentos e os sinais que requerem interrupções controladas.
Isto irá permitir, por exemplo o uso de rádios de microondas para proteger sistemas ópticos com capacidades
muito superiores. Outra consideração é sobre o custo da proteção.
Podemos exemplificar este custo com o exemplo apresentado. Observamos que existe tráfego entre os
trechos B-C e C-D. Não existindo tráfego entre B-E e E-D ficaria a questão: porque construir este trecho?
Somente para permitir o tráfego da proteção.
Caso o trecho B-C esteja congestionado, podemos utilizar 100% de sua capacidade? Não. Estará reservada
para a proteção do trecho C-D.
Com estes argumentos fica claro a existência de custos significativos tanto na construção das redes como na
capacidade dos equipamentos utilizados. Isto é o custo da proteção que deverá ser calculado e será uma das
consequências da garantia de disponibilidade.
Alternativamente à construção do trecho óptico, poderia ser utilizada uma rota de rádio de microondas
9
unindo o trecho B-D. Isto resultaria em proteção? Sim, mas limitada à capacidade do rádio.
Uma situação deste tipo exige a utilização de recursos de Cross-Connect para assegurar que os circuitos
protegidos tenham acesso ao elemento de proteção (no caso o rádio). Isso nos permite obter proteções
adequadas ao custo proposto. As correções e o direcionamento dos sinais adequados são introduzidos e
mantidos por meio do sistema de gerência.
10
Disponibilidade: Considerações Finais
Conforme apresentado nas tabelas de partição, a confiabilidade dos circuitos poderá ser administrada
garantindo disponibilidades adequadas aos usuários e estabelecendo metas para provedores e elementos do
sistema. Pode-se desta forma garantir serviços com mais de 99.9% de disponibilidade ponta-a-ponta com
redes bastante complexas.
Como exemplo de condições de SLA para provimento sinais de 2Mbps para partes do sistemas de telefonia,
pode-se especificar:
Requisitos
Recomendações
Característica Física do E1
ITU G.703
Qualidade do E1
ITU G. 821 / G.826
Confiabilidade
99,99 %
Indisponibilidade Média Anual
53 minutos
MTTR
4 horas
Referências
Tutorial SLA (Service Level Agreement).
Tutorial GIRS (Gerência Integrada de Redes e Serviços).
Tutorial Operação e Manutenção de Redes de Teleco.
11
Disponibilidade: Teste seu Entendimento
1. Quando devemos fazer os cálculos de disponibilidade?
Sempre.
Na ocorrência de panes do sistema.
Na contratação de serviços de terceiros.
No estabelecimento dos níveis de qualidade aceitáveis.
2. Qual é a implicação de se usar uma mesma ponte para passar cabos ópticos nos dois sentidos de um
anel?
Nenhuma.
Não é permitido.
Só é permitido se os cabos passarem em lados opostos da ponte.
A probabilidade de falha do circuito protegido não é mais o produto das probabilidades de cada um dos
elementos.
3. Qual é a alternativa errada?
A disponibilidade depende do tempo de reparo dos sistemas.
A disponibilidade depende de todos os circuitos que atendem o usuário.
A melhoria da disponibilidade pode requerer investimentos.
Dois assinantes conectados no mesmo circuito de acesso tem a mesma disponibilidade.
12
Download

Requisitos de Disponibilidade para Redes e SLA Este