COMPUTERWORLD
Fevereiro 2011
Disaster Recovery
Os planos de Disaster Recovery, pelo menos aqueles propostos pelos fornecedores, têm uma componente de
resiliência mais presente. Assentam em tecnologias de protecção contínua dos dados, ou Continuous Data
Protection, e já desbravam caminho para uma mudança de paradigma, onde a salvaguarda da informação aumenta
de frequência. Ao mesmo tempo, a ideia da tolerância dos sistemas a desastres é cada vez mais possível, face à
emergência das plataformas de cloud computing, e à redução de custos inerente. Parece já não haver tempo para
o Disaster Recovery, tais as exigências do negócio. Mas o preço a pagar continua a ser um factor com um peso
determinante.
Fevereiro 2011 - COMPUTERWORLD
2|
Comunicações
Disaster
Recovery
Unificadas
CDP como sigla
de resiliência
As empresas já não têm tempo para recuperarem do impacto de um acidente
no seu negócio! Qualquer indisponibilidade dos sistemas de informação pode
significar perdas indirectas ou directas de receitas, dizem os fornecedores de
tecnologia de Disaster Recovery.
Cloud reduz preços
mas exige rigor
O director-geral da Claranet em Portugal, António Ferreira,
funda a redução de preços no Disaster Recovery com CDP na
utilização das tecnologias e técnicas de cloud computing. “A
grande revolução é a forma como a proliferação das tecnologias de armazenamento e virtualização, na base da cloud
computing, permitem que os custos de implementação tenham diminuído significativamente nos últimos anos”.
Contudo, alerta sobre a existência de desafios. “Para o CDP,
é essencial o operador ter, nos vários centros de dados, plataformas normalizadas de virtualização e armazenamento,
capazes de assegurar que os mecanismos de backup e replicação funcionam”, explica. As equipas de engenharia também necessitam de dominar as plataformas.
Nesse sentido, António Ferreira revela a necessidade que a
Claranet teve em investir “fortemente” em processos associados à segurança (certificação ISO 27001 obtida em 2010,
adopção de boas-práticas ITIL desde 2009) e no reforço das
parcerias tecnológicas (em particular com a Microsoft e a
VMware).
plicação, mesmo para grandes volumes transaccionais”, explica Paulo Faroleiro, da Novabase.
Na visão de Rui Soares, da HP, o CDP “vem simplificar o processo de protecção e de armazenamento da informação” - mesmo prometendo o
registo “contínuo das alterações da informação e o
seu armazenamento em distintas localizações”. Ao
mesmo tempo é feita também a replicação sobre os
sistemas operacionais e aplicações que suportam a
informação de negócio replicada, como lembra
Paulo Faroleiro. No entanto, Rui Soares alerta para
a necessidade de associar planos de recuperação
de desastres a este tipo de abordagens.
Para Francisco Gomes (Unisys), as funcionalidades
inerentes resultam numa alteração de paradigma na
salvaguarda de informação. O que desencadeia a
salvaguarda não é só um evento temporal: ela
ocorre ”sempre que a informação é alterada”.
“A replicação de dados em tempo real por link é
uma estratégia que tem vindo a ganhar relevância
nas soluções de Disaster Recovery face à tradicional estratégia de backups por tape, devido à redução de custos associados às comunicações, o que
por sua vez justifica a relação custo-benefício da
solução para os requisitos de negócio”, assegura
Carla Zibreira, da Mainroad.
O conceito de protecção contínua de dados, ou Continuous Data Protection (CDP), é cada vez mais proposto como uma forma de melhor proteger os dados
e melhorar a probabilidade de os recuperar, numa
estratégia de recuperação após desastre ou Disaster
Recovery (DR).
Baseia-se sobretudo na tecnologia de armazenamento em disco, para melhorar a eficácia do backup. Ficheiros, bases de dados, repositórios de
correio electrónico e sistemas inteiros podem ser
recuperados em minutos em vez de horas. Com al-
COMPUTERWORLD - Fevereiro 2011
gumas soluções de CDP, os sites podem ser colocados online em cerca de 30 minutos, em vez de
dias.
“A alta disponibilidade e a protecção de dados não
são conceitos novos para os responsáveis de TI”,
lembra Nuno Marques, da Totalstor. Contudo, teoricamente, será hoje mais barato a uma empresa disponibilizar um sistema de DR, mesmo numa lógica
de CDP. Apesar disso, e de acordo com António Ferreira, da Claranet, “muitas empresas ainda não perceberam até que ponto os custos de uma solução
de DR baixaram”. O responsável lembra mesmo
que, “do ponto de vista prático, o custo do risco de
falha passa a ser mais caro do que o custo de manter uma plataforma de DR”.
Na base da evolução está a cada vez maior disponibilização de largura de banda. “A quantidade de
informação que pode ser copiada permite o funcionamento quase em tempo real dos processos de re-
Pressão “contínua”
A evolução registada com o CDP resulta, na perspectiva do responsável da Unisys, de uma pressão
sobre as tecnologias de armazenamento e protecção da informação. Exige-se cada vez mais que
sejam “mais robustas” mas “menos intrusivas”. “A
necessidade de acesso mais eficaz aos dados e as
obrigações dos reguladores, a par dos custos destas
operações, veio colocar maior pressão sobre o desenvolvimento de novos modelos de serviço, mais
ajustados com os requisitos impostos e que, paralelamente, permitam um maior controlo dos custos
(TCO) impulsionando o modelo de ‘pay per use’”,
explica Jaime Pires, da IBM.
Mas apesar de considerar o CDP como essencial em
ambientes de missão crítica, Francisco Gomes condiciona a sua adopção a “uma análise de custos e
benefícios da solução” considerando “a importância da informação e dos serviços para o negócio ou
para a missão da organização”.CW
Disaster Recovery
|3
Tolerância a desastres e… a custos
Por muito sofisticada que seja uma solução de Disaster Recovery, ela implica várias vezes algum tempo de
indisponibilidade de serviços. Em muitos casos, a única solução possível é adoptar uma estratégia de
tolerância a desastres. Noutros, imperam ainda os custos… sobre os benefícios.
objectivo é actuar em situação de desastre. Desta
forma, optar por uma estratégia de tolerância a falhas implica implementar sobre a infra-estrutura de
produtivo mecanismos de controlo igualmente redundantes, ou seja, com requisitos técnicos de capacidade igual, em pontos de falha-única”, explica
Carla Zibreira, da Mainroad.
Por outro lado, ainda na opinião desta responsável,
as soluções de recuperação de desastre estão focadas em “salvaguardar os serviços de TI críticos para
a organização cliente existindo ‘apenas’ a necessidade de assegurar o cumprimento dos requisitos mínimos para o negócio”.
Aprofundando a diferença entre as duas estratégias,
Rui Soares, da HP, explica que a “tolerância a desastre está muito associada às tecnologias e arquitecturas tecnológicas que as suportam”. E, na sua
visão, uma estratégia de recuperação de desastre é
mais abrangente do que isso. “Deve estar alinhada
com as necessidades de negócio de cada organização, e que pode ser complementado com um conjunto de soluções de tolerância a desastre para
aplicações e dados. Por exemplo: ‘wide area’ clusters, replicação de armazenamento e replicação de
aplicações entre outras”, recomenda.
Na opinião de muitos dos responsáveis contactados
pela Computerworld, uma estratégia de tolerância a
desastres é preferível à lógica de Disaster Recovery.
Mas apesar de exequível (pelo menos teoricamente),
essa visão é ainda sujeita aos condicionalismos da
relação entre custos e benefícios obtidos.
“Claramente que ser preventivo será sempre mais
adequado do que ser capaz de detectar e corrigir”,
estabelece Paulo Faroleiro, da Novabase. A ideiachave é a de que o custo da disponibilidade é maior
do que o custo da indisponibilidade. O tempo é outra
vez um factor importante. “O negócio realiza-se a
uma velocidade nunca antes atingida e as restrições
operacionais a que um modo de 'desastre' pode levar,
podem ditar custos e perdas demasiado elevadas.
Simplesmente a velocidade de recuperação não é a
adequada comparativamente com a velocidade com
que o negócio se realiza”, explica.
Já Francisco Gomes, da Unisys, tem outro discurso,
segundo o qual a tolerância a falhas e a lógica de recuperação a desastres não se substituem e antes são
complementares. Admite que para as infra-estruturas
com um elevado nível de importância, “a existência
de informação actualizada até à última alteração e
com capacidade de recuperar para uma qualquer
versão anterior (da informação) não é suficiente para
cumprir com os requisitos do negócio”.
É que o negócio, ou a missão de uma organização,
em ambientes de missão crítica, “exige que, para
além de a informação estar disponível, a disponibilidade aos seus consumidores e o acesso às aplicações/ferramentas que a permitem controlar.” Para
esta capacidade ser garantida, é necessário um
plano de recuperação em caso de desastres.
Mas usando tecnologia adequada, segundo Paulo Faroleiro, é possível prevenir os efeitos de desastres. E,
na opinião de Henrique Mamede (Tecnidata), seguir
uma estratégia de tolerância a desastres “é fácil”
com a tecnologia actual, “embora tenha o seu
preço”.
Existem no mercado equipamentos redundantes,
lembra Nuno Marques, da TotalStor, “que actuam no
ciclo de processamento em paralelo”, suportando
melhor as exigências da tolerância a desastres. Contudo o problema dos custos elevados inerentes aos
equipamentos ou até a serviços sofisticados de monitorização pode ser resolvido com a partilha de recursos por várias empresas. “Este facto torna o
modelo cloud computing mais atractivo”, conclui.
Importância dos mecanismos de controlo
“Numa estratégia de tolerância a desastres, o objectivo é prevenir o desastre, enquanto na implementação de estratégias de recuperação de desastre o
Utilizar melhor os recursos
A situação de tolerância a desastres é possível de
atingir e, para José Grilo, da Microsoft, “é sempre a
forma desejável de o fazer, dado que uma solução de
recuperação de desastre implica quase sempre
downtime de serviços”.
Jaime Pires vai mais longe e considera que a tolerância a desastres “é já uma realidade em muitas situações”. O responsável da IBM considera que as
soluções de continuidade estão na ordem do dia.
Isto acontece, na sua opinião, “não só pela redução
do risco inerente ao processo de recuperação em
caso de desastre, mas também pela capacidade de
dar melhor utilização a recursos que para os cenários
de Disaster Recovery podem não estar a ser adequadamente utilizados”.
A estratégia de oferta da IBM contempla a disponibilização de recursos humanos, precavendo a possibilidade de os técnicos do cliente ficarem
indisponíveis devido ao desastre.
O acesso às plataformas de TI estão no centro da
questão. Por exemplo, António Ferreira apresentou o
caso de uma multinacional sua cliente para a qual
manter essa capacidade é fundamental. “A solução
engloba a réplica diária de dados do datacenter de
produção para o centro de dados secundário, e a ligação deste a uma localização de stand-by, já completamente infra-estruturada para permitir a
acessibilidade às aplicações”, explica.CW
Fevereiro 2011 - COMPUTERWORLD
Uma prova de fogo
O incêndio numa torre em Nova Iorque não atingiu
os escritórios de uma sociedade de advogados.
Contudo, o acesso às salas de trabalho e aos
servidores lá alojados ficou vedado.
Numa manhã de domingo do ano passado, John
Brooks recebeu uma notícia que ninguém gosta de
ouvir: tinha havido um incêndio na cave da torre onde
a empresa para a qual trabalha tem um escritório.
Os escritórios da empresa estão num andar superior
e não foram directamente danificados pelo fogo. Mas
todo o prédio ficou fechado devido ao incêndio, causado por problemas nas duas principais fontes de alimentação do prédio. Não havia qualquer ligação para
as comunicações de dados, faltava energia para a
infra-estrutura de TI e era impossível entrar no prédio
para recuperar os servidores da empresa. Estes continham documentos e bases de dados SQL para os
dois escritórios em Nova Iorque.
Uma hora após saber da notícia, a equipa de TI e a
administração da empresa estavam em contacto telefónico a planear o que fazer, lembra Brooks, gestor
de serviços de rede na Marshall, Dennehey, Warner,
Coleman & Goggin (MDWC&G).
"Cerca de duas horas depois da nossa reunião, repusemos a disponibilidade de dados", conta Brooks.
"Tivémos de restaurar uma base de dados SQL e um
repositório de ficheiros. Depois dos nossos programadores terem criado uma aplicação adaptada, os
dados passaram a ser acessíveis a partir do escritório"
da empresa de Filadélfia.
Foi uma prova de fogo – literalmente... – aos sistemas de backup e de recuperação de dados.
A MDWC&G tinha substituído o seu antigo sistema de
backup baseado em tape pelo EVault Software, um
backup de disco para disco, e uma aplicação de recu-
peração de desastres da i365 (empresa da Seagate).
O software i365 foi instalado nos 19 escritórios da
empresa e protege agora mais de 3 TB de dados. Há
vários agentes em cada servidor remoto para executar backups nocturnos de ficheiros e bases de dados
SQL, usando tecnologias para evitar a duplicação de
dados e garantir a replicação apenas dos ficheiros
novos e daqueles que foram modificados desde o último backup. As mudanças são compactadas e cifradas antes de serem enviadas para o cofre principal,
na sede da empresa em Filadélfia.
Como precaução adicional, a MDWC&G também replica os dados agregados das suas instalações num
outro local, nos subúrbios de Filadélfia, usando equipamento de armazenamento e tecnologia de replicação integrada.
Após o incêndio, a empresa restaurou os dados
usando o repositório do cofre principal, em Filadélfia, e disponibilizou aos advogados e funcionários um
servidor de backup até a equipa de TI poder entrar
no escritório de Nova Iorque e recuperar os servidores ali localizados. Passaram-se duas semanas até os
funcionários desta delegação poderem recomeçar o
seu trabalho no edifício, mas a interrupção real no
trabalho foi mínima, pois puderam trabalhar remotamente com total acesso aos seus ambientes informáticos de trabalho e aos ficheiros.
Quando a MDWC&G implantou pela primeira vez o
software EVault, testou a sua nova tecnologia de backup de dados, tornando a recuperação após o incêndio numa tarefa menos difícil.
"Testámos a recuperação das nossas bases de dados
SQL e das bases de dados Exchange, e documentámos tudo", diz Brooks. "Quando o incêndio ocorreu,
estávamos à frente dos acontecimentos. Sabíamos
exactamente o que fazer e foi por isso que fomos capazes de recuperar tão depressa".
Brooks poderia não estar tão confiante com o antigo
sistema de backup em tape. Era um processo complexo e propenso a erros, lembra Brooks. "Tínhamos
o pessoal do escritório local a mudar as tapes com
uma frequência diária e era fácil falhar um backup",
diz. Havia também o risco de perder as tapes no caminho entre os escritórios-satélite e a sede da
MDWC&G.
Usando o sistema de backup i365 de disco para
disco, o pessoal local fica liberto da obrigação de
mudar manualmente as tapes. Além disso, a empresa
é agora capaz de realizar backups sete dias por semana, em vez das anteriores de segunda a sexta-feira.
"Agora, também a gestão é feita centralmente. Não há
qualquer intervenção dos utilizadores", diz Brooks.
O tempo de recuperação é igualmente muito inferior.
"Posso recuperar um ficheiro em minutos, enquanto
antes demoraria no mínimo de quatro a oito horas até
as tapes serem enviadas, colocadas na unidade, a informação ser indexada e os dados recuperados", explica. "A recuperação é muito mais rápida e pode ser
feita remotamente, o que é uma grande vantagem do
sistema".
Quando a sociedade decidiu actualizar a sua infraestrutura de backup e de recuperação, foram consideradas duas opções: usar tecnologias de backup de
disco para disco ou serviços de backup alojado. A
mudança para os serviços de backup baseado no modelo de cloud computing não está nos planos da empresa no futuro mais próximo. "A nossa preocupação
é a recuperação dos dados", explica Brooks. "Se o serviço for descontinuado para onde vão os dados”, pergunta.
Outro potencial problema com o backup baseado na
nuvem, na visão daquele responsável, é o aumento
dos custos com os crescentes volumes de dados. "O
nosso volume de dados está a aumentar exponencialmente de ano para ano", revela Brooks. Isso significa que o volume de dados hospedados e os custos
associados iriam continuar a subir. "Os custos podem
ser cada vez maiores e nós também tomamos isso em
consideração".CW
Como estão a reagir os clientes ao cloud computing?
Curiosidade e cautela serão os sentimentos mais frequentes entre os potenciais clientes de cloud
computing de vários fornecedores presentes em Portugal.
O Disaster Recovery constitui uma área na qual a adopção dos conceitos de cloud
computing fará mais sentido e será mais fácil, antecipa Francisco Gomes, da Unisys. Tem tudo a ver com ”o menor nível crítico e uma maior necessidade de flexibilidade de workloads”, explica. Além disso, “as principais características do modelo
de cloud computing – pagamento por utilização, escalabilidade, flexibilidade e partilha de recursos – cumprem, integralmente, com os principais requisitos de um
ambiente de Disaster Recovery”.
Contudo, Nuno Marques (TotalStor) considera ser ainda “cedo para aferir conjunturalmente as reacções das empresas”. Mas também admite que pode ser o primeiro
passo para a adopção desse modelo.
Rui Soares (HP) tem uma opinião semelhante e considera que “as empresas ainda
estão a dar os primeiros passos na utilização de serviços em cloud”.
Entre o grupo dos mais optimistas está Henrique Mamede, da Tecnidata, cuja experiência diz que os clientes estão a reagir “bem”. “Com outros modelos, o factor
custo não constitui uma vantagem tão grande”, revela.
Também Jaime Pires, da IBM, mostra algum entusiasmo. A expectativa será “grande”
condicionada por dúvidas sobre a “forma de passar da teoria à prática”.
Para a Microsoft, algumas empresas já começam a olhar para a cloud computing
como uma infra-estrutura aliciante para Disaster Recovery. Mas José Grilo admite
COMPUTERWORLD - Fevereiro 2011
que “muitas empresas ainda sentem apreensão na utilização desse tipo de plataforma por questões de segurança e confidencialidade dos seus dados e aplicações”.
E sugere a utilização de “garantias contratuais de cumprimento” para mitigar os
riscos. A divulgação dos planos de Disaster Recovery e de continuidade de serviço
do fornecedor também podem ajudar.
Outras preocupações, segundo Francisco Gomes, envolvem o receio da perda “do
controlo sobre a infra-estrutura e sobre a informação”, além do potencial de aprisionamento face ao fornecedor dos serviços.
António Ferreira revela que há também receios sobre a localização da informação
e sugere um escrutínio até ao nível da “implementação tecnológica de cada solução”.
Carla Zibreira defende que a relação na Mainroad com o cliente tem de ser baseada
na confiança e considera-a muito importante nos modelos de cloud computing.
Por fim, Raúl Oliveira considera “as empresas que precisam de manter os seus servidores dentro de portas, por variadíssimas razões (largura de banda, uptime do
acesso à Internet, segurança, entre outras), vão ter no cloud computing uma forma
fácil e barata de replicarem os seus dados”. Mesmo os serviços, em caso de falha
de algum dos servidores fisicos (ou virtuais) dentro das instalações, poderão beneficiar desse modelo, segundo o responsável da iPortalMais.CW
PUB
Comunicações Unificadas
|5
Fevereiro 2011 - COMPUTERWORLD
6|
Disaster Recovery
Dar mais números
para obter mais fundos
Os gestores de TI não podem contar com o
sentido de oportunidade da natureza para
convencer os executivos a investirem mais nos
planos de continuidade dos negócios e de
Disaster Recovery. É crucial ter números
exactos.
Ed Ricks não teve de fabricar o pior cenário possível para convencer os executivos do Beaufort Memorial Hospital, na Carolina do Sul, sobre a
necessidade de gastar mais com a continuidade dos
negócios, ou Business Continuity, e em sistemas de
Disaster Recovery (DR).
No seu primeiro dia como CIO do hospital, uma trovoada afectou o fornecimento de energia ao
mesmo. O edifício passou imediatamente a estar ligado a um gerador mas o sistema de reserva não
abrangia o ar condicionado ou sequer as comunicações. "O nosso centro de dados aqueceu muito e
tivemos de começar a desligar servidores", recorda
Ricks. O hospital também perdeu as ligações de comunicação para outras instalações.
Do ponto de vista do CIO, "era quase bom demais
para ser verdade", admite. "A situação não era
mesmo tão ruim quanto podia ser, mas demonstrou
o que poderia acontecer. Era óbvia a necessidade
de fazer alguma coisa para garantir a operacionalidade", explica.
A conformidade deve ser um subproduto. Desde os
ataques terroristas do 11 de Setembro de 2001,
vários organismos governamentais no mundo, além
de grupos empresariais, emitiram pelo menos 22
regulamentos ou conjuntos de normas para a indústria.
O objectivo era regular os planos de continuidade
dos negócios e DR, de acordo com um relatório da
Forrester Research. Embora muitos dos programas
tenham sido voluntários, não deixaram de levar algumas empresas a financiarem projectos adicionais
de continuidade dos negócios complementares e de
DR.
Mas as empresas que fazem investimentos apenas
para cumprir uma norma ou regulamentação da indústria estão fora de contexto, dizem os especialistas. "Infelizmente, querem apenas colocar uma cruz
no quadrado" e gastar o mínimo possível na continuidade do negócio, apenas para estarem conformes, diz Rachel Dines, analista da Forrester. Por
outro lado, os regulamentos, "pelo menos, colocam
as pessoas a pensar sobre o assunto".
Idealmente, a conformidade é apenas um produto
suplementar de uma sólida estratégia de continuidade dos negócios ou plano de DR.
"Sempre tive a impressão de que tomando as decisões de negócios certas, acabar-se ia por estar conforme aos regulamentos", considera Ed Ricks, do
COMPUTERWORLD - Fevereiro 2011
Beaufort Memorial Hospital. "É uma atitude inteligente para nós, proteger os nossos dados e saber
que temos um bom plano de DR, independentemente da legislação obrigar a isso ou não".
Hoje, o hospital tem um local de DR com backup
em tempo real de dados. Ricks tenciona expandir as
capacidades das instalações e adicionar servidores
virtuais até ao final deste ano. Deverá custar um milhão de dólares (cerce de 750 mil euros).
Para a maioria dos gestores de TI, no entanto, é preciso mais do que um acto natural e oportuno para
convencer os executivos a investirem mais na continuidade dos negócios e de DR. É preciso uma história envolvente e cheia de números concretos para
os executivos poderem avaliar.
Plano de negócios tornou-se mais fácil
No passado, era difícil fazer um plano de negócios
para sistemas de DR, por estes serem vistos como
apólices de seguro caras para precaver ocorrências
pouco prováveis. Mas o relatório da Forrester Research diz que esta situação está a mudar, porque
os gestores de TI estão a conseguir quantificar melhor o potencial impacto dos riscos e avaliar o im-
pacto de uma interrupção. "É mais uma arte do que
uma ciência", diz a analista da Forrester, Rachel
Dines. "A maioria dos executivos não percebe o
quanto custa. Estamos a falar de milhões de euros.
E tudo depende da argumentação”.
Como afirma o documento da Forrester, "é muito
mais provável que um CIO ou outro executivo
aprove uma actualização para DR se conseguir explicar que nos próximos cinco anos é de 20% a probabilidade de ocorrer uma grave tempestade de
Inverno, capaz de interromper o fornecimento de
energia ao centro de dados e causar prejuízos de
450 mil euros em receitas perdidas e na produtividade dos funcionários".
Como é que os gestores de TI poderão apurar valores muito difíceis de quantificar para justificar o investimento em DR?
Dines sugere que primeiro se calcule o custo do
risco anual e se faça uma lista de cada risco na
área geográfica da empresa. Depois, será útil
determinar o número provável de horas de inactividade, resultantes de potenciais interrupções,
devidas ao risco. Numa coluna, é interessante
registar em percentagem, o nível de probabilidade do evento acontecer no período de um
ano. Por último, será necessário multiplicar
tudo isso pelo custo por hora de inactividade
para se obter o custo anual inerente aos riscos.
"Pode ser uma maneira prática de canalizar inves-
Disaster Recovery
timentos em tecnologia capazes de eliminarem esse
risco - como o investimento em procedimentos de
acesso remoto para uma tempestade de inverno",
diz Dines.
Calcular o custo por hora do tempo de indisponibilidade. Descobrir o custo da inactividade pode ser
assustador, pois as interrupções têm custos tangíveis e intangíveis. Comece por calcular os números
mais óbvios, como as perdas de receitas ou as perdas de produtividade para os trabalhadores temporariamente incapazes de trabalhar. Esses são
geralmente os maiores custos de inactividade. Explore também as sanções nas quais a empresa pode
incorrer se não for capaz de cumprir com os regulamentos, por ter os sistemas em baixo.
Outras consequências - como a perda de clientes, a
insatisfação dos clientes ou o impacto na reputação da empresa e no moral dos funcionários - são
mais difíceis de quantificar. Pode-se tentar calculálos, olhando para o impacto de eventos semelhantes anteriores em organizações conhecidas.
Na Universidade de Troy, no estado propenso a furacões do Alabama, Greg Price tem um objectivo
simples: "nós não queremos os nossos serviços em
baixo nem por um segundo". Com 30 mil alunos espalhados por 17 fusos horários em torno do globo,
a universidade não pode tolerar tempos de inactividade. Por isso, Price, CSO e CTO da universidade,
reuniu cuidadosamente os dados para reforçar a sua
argumentação de que a instituição precisava de um
novo centro de dados remoto para substituir uma
instalação desactualizada.
Coligiu dados de 15 anos indicadores da probabilidade de certos eventos, classificados como leves,
graves ou significativos, afectarem o campus da
Troy. "Com base nas informações obtidas sobre o
período de 15 anos, que temos sido capazes de reunir, podemos avaliar rapidamente o potencial de falhas face a essas métricas", diz Price.
Construir um plano de negócios
Os gestores de TI têm sido bem sucedidos na obtenção de fundos para a recuperação de desastre,
quando as unidades de negócios e pessoal de gestão de risco ajudam a explicar, em termos de negócio, a necessidade do investimento.
Um inquérito a 345 assinantes do Disaster Recovery Journal mostrou que cerca de 65% das equipas responsáveis pelos projectos de recuperação de
desastre trabalham com as equipas de gestão das
suas unidades de negócio para determinar o impacto do risco.
Outras dicas para convencer os executivos não ligados às TI
Não diga "desastre". Dines evita usar a palavra “desastre” ao falar sobre a continuidade de negócios.
É mais do que reagir aos tempo de inactividade,
diz. Pelo contrário, o DR e a continuidade dos negócios envolvem "ser activo para procurar manter as
comunicações e a disponibilidade", explica. Os riscos mais comuns são os mundanos: falhas de energia, de hardware, de software, de rede e erros
humanos. É mais fácil calcular a probabilidade de
um desses incidentes do que prever um desastre
natural.
Explicar como se deve estar preparado é uma vantagem competitiva. Refira-se ao DR ou a despesas
de continuidade de negócios como necessidades.
Assinale que os concorrentes da empresa podem
obter ganhos significativos, se os sistemas da organização estiverem em baixo por alguns dias, sugere
Dines. Quando definir o valor comercial de um projecto, pense na recuperação de desastres como
mais do que uma necessidade básica.
O CIO Gary Kern passou três anos a desenvolver a
sua versão para o sistema ideal de recuperação de
desastres no Mutual Bank. Os 500 mil dólares que
eventualmente recebeu – para comprar uma Storage Área Network (SAN) com sistema de backup
num centro de dados remoto – chegaram em pequenos incrementos. Kern e sua equipa iam explicando aos executivos da comissão técnica os
benefícios de cada elemento e porque cada um custava tanto.
"Normalmente, a justificação seria mais do que
apenas a capacidade de recuperação", diz Kern.
"Nós também falamos da gestão do armazenamento
e definimos todas as peças e partes com utilidade,
além da simples recuperação".
Depois de seis anos no Mutual Bank, Kern aprendeu a adaptar o seu discurso a cada executivo:"é
uma questão de descobrir quais são os botões cer-
|7
As conclusões de Price:
• cerca de 75% das interrupções dos serviços de TI da Universidade de Troy são consideradas "menores", o que significa que o serviço é suspenso por menos de duas horas,
geralmente devido a uma queda de energia ou problema de
acesso à Internet (a Troy teve 28 eventos de menor porte no
ano passado);
• 22% dos incidentes são considerados "grandes", ou seja,
o serviço é interrompido entre duas a oito horas, muitas vezes
devido a acidentes de construção ou falhas na rede de energia (a universidade registou quatro grandes eventos em
2010);
• incidentes "significativos" acontecem apenas em 3% do
tempo e incluem furacões, tornados e outros fenómenos da
natureza. A instituição universitária teve apenas um evento
“significativo” em 2010 - uma tempestade de neve.
Converse com a sua companhia de seguros.
As seguradoras mantêm inúmeras estatísticas sobre a probabilidade de ocorrerem incidentes e os custos a eles associados. Acabam por ser importantes para se ter uma noção
de como é arriscado segurar uma empresa particular. A sua
seguradora pode estar disposta a partilhar alguns desses
dados. Na Europa, o site do Eurostat, organismo oficial de
estatísticas da União Europeia, pode ser útil.
tos para cada executivo. Obtenha alguma coisa para
todos. Depois mantenha o discurso curto e perceptível para uma pessoa pouco conhecedora de tecnologia entender. Eles precisam de perceber o valor
de negócio inerente a cada tecnologia".
Kern também sugere a consulta a uma entidade independente, como um auditor, para ajudar a justificar a iniciativa. "Se a questão aparecer nos
relatórios de terceiros, os argumentos do departamento interno de TI ganham força", diz.
Na Universidade de Troy, Price mostrou como a facilidade de backup remoto pode ser usada diariamente, não apenas durante uma interrupção. "Dia a
dia, usamo-lo como o nosso sistema de teste e
como ambiente de experimentação para o desenvolvimento de novos serviços", diz ele.
Aproveite bem os momentos de crise. Idealmente,
as empresas tomam decisões de investimento baseadas em elementos racionais, avaliações de risco
objectivas. Mas os profissionais de segurança e
risco sabem que nem sempre funciona assim. O interesse dos altos executivos na recuperação de desastres e continuidade de negócios pode flutuar
muito rapidamente, dependendo da última manchete sobre uma crise, de acordo com Jeff Weber,
director-geral da Protiviti, empresa de consultoria
de risco sedeada em Menlo Park, na Califórnia.
Consequentemente, os gestores de TI podem precisar de explorar as mais recentes catástrofes, as
pandemias e falhas de segurança para obter a atenção dos executivos seniores, diz o relatório da Forrester. Lembre-se: "foi uma tempestade que ajudou
a justificar um investimento de um milhão de dólares em melhorias de recuperação de desastres no
Beaufort Memorial Hospital”.CW
Fevereiro 2011 - COMPUTERWORLD
8|
Disaster Recovery
Microsoft ou VMware:
qual a melhor na recuperação de desastres?
O debate foi lançado com um estudo do Burton Group a considerar que o hipervisor da Microsoft, o
Hyper-V, não estava pronto para ser usado em ambientes empresariais. Porquê? Os analistas dizem
que não tem uma característica encontrada nos dispositivos da VMware e da Citrix.
O Disaster Recovery (DR) tornou-se uma aposta no
segmento da virtualização de servidores. E qualquer
plataforma de virtualização digna arranja maneira
de reiniciar uma máquina virtual no caso de uma
falha de hardware. Mas qual é o fabricante capaz
de se destacar no processo de colocar aplicações
críticas a funcionarem outra vez depois de um acidente? E de assegurar o restabelecimento prioritário das máquinas virtuais mais importantes no
processo de reinicialização?
No ano passado, a consultora Burton Group considerou num estudo que o hipervisor Hyper-V, da Microsoft, não estava pronto para ser usado pelas
empresas. Argumentava que não tem uma característica específica encontrada nos dispositivos da
VMware (VM) e da Citrix. Mas a Microsoft afirma
que o Hyper-V tem as funcionalidades procuradas
pelos principais clientes. E até o Burton Group admite que a Microsoft tem superado os seus rivais
nalguns tipos de cenários de DR.
O recurso em questão tem a ver com a hierarquia e
prioridade de reinicialização. Segundo a Burton, os
produtos de virtualização de nível empresarial
devem permitir aos gestores de TI a atribuição de
prioridades na reinicialização das máquinas virtuais, garantindo que as cargas de trabalho mais
críticas reiniciem antes de quaisquer outras, após
uma falha do servidor físico.
A Microsoft insiste em que as suas ferramentas de
gestão de virtualização permitem esse tipo de prioridade, embora talvez de uma forma indirecta. Mas
o Burton recusou-se a aprovar o Hyper-V, dizendo
que apenas as soluções da VMware e da Citrix permitem essa funcionalidade.
A configuração das prioridades de reinicialização
no High Availability Software, da primeira, permitem a atribuição de níveis de importância diferentes na reinicialização nas máquinas virtuais. Não
se trata de um instrumento perfeito, pois não é possível aos gestores definir uma ordem de reinício
entre os servidores de "alta prioridade".
O XenServer, da Citrix, proporciona um maior nível
de controlo e é, assim, a melhor plataforma para
este tipo de cenário de recuperação de desastres,
de acordo com o analista do Burton Group, Chris
Wolf.
Sistemas críticos primeiro
"A ideia por trás da hierarquização de prioridades é
garantir que os volumes de trabalho de missão crítica comecem a funcionar primeiro", diz Wolf sobre
o software da VMware. "Apenas aqueles sistemas
definidos devem ter uma prioridade elevada.
COMPUTERWORLD - Fevereiro 2011
Mesmo se eu tivesse máquinas virtuais com alta
prioridade atribuída, essas 10 seriam reinicializadas antes de todas com prioridade média ou baixa.
É essa a ideia. Os clientes querem maior granularidade com as métricas de prioridade da VMware (o
XenServer é melhor) e nós já falámos disso na nossa
avaliação do vSphere. Ainda assim o comportamento do produto da VMware corresponde às nossas expectativas mínimas, enquanto o XenServer é
o ideal".
A VMware argumenta que o software de gestão de
recuperação Site Recovery prevê "o estabelecimento
de uma ordem de reinício de máquinas virtuais",
mas admite a falta dessa disponibilidade no High
Availability Software.
De qualquer maneira, segundo Wolf, a sua equipa
no Burton Group tem discutido a questão com a Microsoft e o fabricante "percebe a situação e a sua
importância".
A Microsoft conta uma história um pouco diferente.
"Discutimos exaustivamente a questão com o Burton Group", diz Edwin Yuen, director de virtualização da Microsoft. "Temos, claro, alternativas ou
maneiras de contornar o problema".
O Hyper-V permite que se retarde o reinício de algumas máquinas virtuais, por um período definido
de 15, 30 segundos ou outro tempo pretendido. Retardar o reinício das máquinas de baixa prioridade
permite efectivamente dar maior prioridade às mais
críticas, argumenta Yuen.
Os clientes podem ir ainda mais longe no System
Center Virtual Machine Manager, o qual permite às
TI escreverem “scripts” para definir as máquinas
com reinício prioritário. Os clientes também podem
definir regras para prevenir a reinicialização de algumas máquinas virtuais, enquanto os serviços de
back-end estão a recuperar. Por exemplo, se uma
aplicação Web a correr numa máquina virtual requer uma base de dados SQL, executada noutra
máquina virtual, os gestores podem definir o reinício da base de dados antes da reinicialização da
aplicação.
Além disso, outras ferramentas de gestão de virtualização da Microsoft podem avaliar se as aplicações em execução dentro das máquinas virtuais
estão saudáveis, em vez de analisarem apenas se
a máquina virtual está a funcionar.
A vantagem da Microsoft
Wolf considera que a vantagem da Microsoft é na
tecnologia consciente das necessidades de alta disponibilidade das aplicações. “Isso é uma funcionalidade que destacamos como muito forte na solução
Disaster Recovery
da Microsoft, que nem a Citrix nem a VMware
podem oferecer". A VMware trata a máquina virtual
como uma caixa preta, por isso, se uma aplicação
dentro de uma máquina virtual pára, o software de
gestão de alta disponibilidade não vai detectar o
problema a menos que haja uma falha completa do
sistema operativo, segundo Wolf.
Como explica Yuen, o software da Microsoft "pode
verificar as máquinas virtuais, os sistemas operativos e os serviços. Podemos literalmente perguntar
se a base de dados SQL está instalada e a funcionar? O serviço de correio está a funcionar? Podemos fazer um nível de monitorização que a VMware
não consegue".
Combinada com as outras funcionalidades, a capacidade descrita por Yuen deve satisfazer as exigências dos clientes tanto quanto, se não mais, do que
o recurso considerado crucial pelo Burton Group,
diz Yuen.
"De qualquer maneira, não acredito que o referido
recurso de reinicialização responda ao que os clien-
tes querem fazer", diz Yuen.
Mas alguns clientes expressam alguma insatisfação
com ambas as abordagens da Microsoft e da
VMware.
"A definir prioridades 'alta, média ou baixa' é tão
pobre e incontrolável como a criar um atraso de inicialização. Nem dá qualquer tipo de garantia de
que o serviço está realmente disponível", comentou
um cliente. "Ambas as formas são frágeis e propensas a falhas".
Wolf observa que muitos clientes têm implantado o
Hyper-V, apesar do recurso de prioridade de reinicialização e apesar de outras áreas em que se destaca a VMware. Por exemplo, o software desta
permite às máquinas virtuais correrem na mesma
frequência, ao mesmo tempo, embora em dois suportes físicos diferentes – para proporcionar um melhor nível de tolerância a falhas.
A Citrix consegue isso através de uma parceria com
a Marathon Technologies, enquanto a Microsoft não
tem ainda esse recurso mas deve vir a ter, num fu-
|9
turo próximo, diz o analista.
As grandes empresas com aplicações de missão crítica virtualizadas e expectativas elevadas de nível
de serviço podem dar muitas importância a esse recurso. Mas, "para ser honesto, o nível de disponibilidade inerente não é algo tão importante para a
maioria das organizações empresariais de hoje", diz
Wolf.
Os clientes também podem estar dispostos a aceitar um nível ligeiramente inferior de disponibilidade, em troca do melhor preço oferecido no
Hyper-V. Como este deverá melhorar ao longo do
tempo, os clientes também podem preferir iniciar
os seus projectos de virtualização com o Hyper-V,
em vez do produto da VMware, para evitar custos
elevados associados ao abandono desta tecnologia
no futuro.
Por enquanto, Wolf diz que a VMware está claramente na liderança quanto à prestação na recuperação de desastres e alta disponibilidade.
"A VMware tem a capacidade de integração mais
rica com os fornecedores de armazenamento", diz
Wolf. "O Site Recovery Manager é muito maduro. A
migração em funcionamento é a mais poderosa",
permitindo a migração simultânea de até oito máquinas virtuais.
A quota de mercado da Microsoft tem crescido mais
rapidamente do que a da VMware mas os dois hipervisoress mais utilizados são o ESX Server e o
Server da VMware, com o Hyper-V em terceiro lugar,
segundo a IDC.
A Microsoft alega que o alto custo dos produtos da
VMware não justifica os recursos suplementares
oferecidos pela empresa. Contudo, Wolf diz que
“vai levar muito tempo até a VMware ser destituída
como interveniente dominante”. Mas a Microsoft já
cometeu proezas semelhantes e a Vmware terá de
executar muito bem a sua estratégia para se precaver.CW
O que se descobre nos testes...
Testar os planos de Disaster Recovery faz parte... desses planos. É melhor ser supreendido num teste do que ter revelações desgradáveis posteriores.
Muitas empresas descobrem, ao fazerem testes aos seus planos de Disaster
Recovery, que embora tenham backup dos seus servidores ou centros de dados,
não fizeram o mesmo para os computadores portáteis. Esquecem-se assim da
importância dos dados armazenados localmente em computadores portáteis.
Devido à sua natureza móvel, os portáteis podem ser facilmente perdidos ou
danificados. Não é preciso haver um evento catastrófico para interromper os
negócios se os trabalhadores carregam dados críticos ou insubstituíveis alojados nesses dispositivos portáteis.
Há empresas com planos inesperados para recuperação em casos de desastres, que nem sequer passam pela informática. Por exemplo, uma organização
revelou estar a equacionar a compra de refeições prontas a consumir - como
as que se servem aos militares – para as armazenar nas suas instalações. Com
prazos de conservação longos e sem ocupar muito espaço, se os trabalhadores
ficarem presos nas instalações por muito tempo, as refeições podem constituir
um investimento rentável.
Mike Hager, ex-chefe de segurança de informações e recuperação de desas-
tres para a OppenheimerFunds, diz que os eventos do 11 de Setembro de 2001
em Nova Iorque deram visibilidade a questões como estas.
Muitas empresas, segundo o mesmo, foram capazes de recuperar dados mas
não tinham planos para locais de trabalho alternativos. O World Trade Center
disponibilizava mais de seis milhões de metros quadrados de espaço de escritório e, após o 11 de Setembro, apenas três milhões de metros quadrados de
espaço de escritórios estavam disponíveis em Manhattan.
A questão de onde colocar os funcionários imediatamente após um desastre e
durante a recuperação deve ser tratada antes que algo aconteça, não depois.
Embora se escolha um local próximo, o processo de instalação de computadores e telefones leva – pelo menos - quase duas horas. Não convém deixar os
empregados à espera ao sol ou à chuva. Como deve determinar se o regresso
às instalações iniciais já é possível? Como regressam os funcionários a casa se
as chaves do carro ficaram, muito provavelmente, em cima da secretária?
Tudo questões que é preferível antecipar do que ter de as resolver quando o desastre já aconteceu.CW
COMPUTERWORLD
10 |
Disaster Recovery
DR na cloud
funciona
melhor
As PME com planos de
Disaster Recovery
baseados em cloud
computing são mais
resilientes, diz o
Aberdeen Group.
As empresas de média dimensão cujo plano de
Disaster Recovery (DR) estão baseadas em serviços de cloud computing, voltam a funcionar
quatro vezes mais rapidamente do que as outras
organizações. A conclusão é de um estudo do
Aberdeen Group, que analisou a experiência das
PMEs com as suas estratégias de DR.
As empresas com programas de recuperação baseados em cloud computing não só reagiram melhor, como também atingiram os seus objectivos
de tempo de recuperação (RTO ou Recovery
Time Objectives) mais frequentemente do que as
empresas que utilizam métodos com gestão interna.
A consultora também notou melhorias no tempo
necessário para recuperar da inactividade, de
ano para ano.
Quando a Aberdeen analisou o uso do cloud
computing e a eficácia dos planos de DR, concluiu que o tempo médio de recuperação para
utilizadores do modelo tradicional foi de oito
horas, em comparação com 2,1 horas para os
clientes de cloud computing.
O plano de DR também é a principal razão para
as PME optarem por usar o armazenamento em
cloud computing. Segundo o Aberdeen Group,
66% das organizações que procuram serviços de
cloud computing salientam essa infra-estrutura
como uma importante força motriz.
E enquanto a tendência para a adopção do cloud
computing é vista muitas vezes como sendo impulsionada pela necessidade de poupar custos,
a Aberdeen conclui que isto é verdade mas apenas para 55% dos inquiridos.
A consultora reconhece a existência de alguns
factores inibidores a impedir as PMEs de avançarem com planos de migração para a nuvem.
Mas sugere um plano de três pontos para as empresas mais lentas na adopção de serviços de
cloud computing: a adopção de uma cloud pública; o desenvolvimento de uma política formal
de governação de dados e a realização de testes
à estratégia de recuperação de desastres.
A Aberdeen concluiu que 54% nos utilizadores
de modelos de cloud computing não apresentava
nenhum plano formal de testes.
Há muito espaço para o segmento crescer segundo
a Aberdeen: 26% das organizações não apresenta
qualquer elemento de cloud computing no seu sistema de informação, embora 58 % tenha planos
para seguir esse caminho este ano.CW
COMPUTERWORLD
PROPRIEDADE
RUA GENERAL FIRMINO MIGUEL, Nº 3 TORRE 2 - 3º PISO 1600-100 LISBOA DIRECTOR EDITORIAL: PEDRO FONSECA [email protected] EDITOR: JOÃO PAULO NÓBREGA [email protected]
DIRECTOR COMERCIAL E DE PUBLICIDADE: PAULO FERNANDES [email protected] TELEF. 210 410 329 – FAX 210 410 303 PAGINAÇÃO: PAULO COELHO [email protected] TODOS OS DIREITOS SÃO RESERVADOS.
A IDG (International Data Group) é o líder mundial em media, estudos de mercado e eventos na área das tecnologias de informação (TI). Fundada em 1964, a IDG possui mais de 12.000 funcionários em todo o mundo. As marcas IDG –
CIO, Computerworld, CFO World, CSO, Channel World, GamePro, InforWorld, Macworld, PC World e TechWorld – atingem uma audiência de 270 milhões de consumidores de tecnologia em mais de 90 países, os quais representam 95% dos
gastos mundiais em TI. A rede global de media da IDG inclui mais de 460 websites e 200 publicações impressas, nos segmentos das tecnologias de negócio, de consumo, entretenimento digital e videojogos. Anualmente, a IDG produz
mais de 700 eventos e conferências sobre as mais diversas áreas tecnológicas. Pode encontrar mais informações do grupo IDG em www.idg.com
COMPUTERWORLD
www.ptprime.pt
IMAGINE PODER FOCAR TODA
A SUA ENERGIA NO SEU NEGÓCIO,
EM TODAS AS SITUAÇÕES,
MESMO NAS MAIS CRÍTICAS.
PUB
Pág. 11
IMAGINE PORQUE É POSSÍVEL.
A PT Prime investe continuamente na tecnologia mais avançada, reunindo
um conjunto de Serviços Geridos de TI, remotos ou com intervenção local,
que garantem, com segurança, total controlo da performance e continuidade
das infra-estruturas e sistemas. Dimensionadas à medida das necessidades
a cada momento, as Soluções TI e Segurança da PT Prime libertam-no para
que aplique toda a sua energia a fazer aquilo que faz melhor – o desenvolvimento
do seu negócio.
DATA CENTER E INFRA-ESTRUTURAS TI . SERVIÇOS GERIDOS TI
DISASTER RECOVERY E BUSINESS CONTINUITY . SERVIÇOS GERIDOS SEGURANÇA
UM MUNDO DE POSSIBILIDADES
Download

disaster recovery