COMPUTERWORLD Fevereiro 2011 Disaster Recovery Os planos de Disaster Recovery, pelo menos aqueles propostos pelos fornecedores, têm uma componente de resiliência mais presente. Assentam em tecnologias de protecção contínua dos dados, ou Continuous Data Protection, e já desbravam caminho para uma mudança de paradigma, onde a salvaguarda da informação aumenta de frequência. Ao mesmo tempo, a ideia da tolerância dos sistemas a desastres é cada vez mais possível, face à emergência das plataformas de cloud computing, e à redução de custos inerente. Parece já não haver tempo para o Disaster Recovery, tais as exigências do negócio. Mas o preço a pagar continua a ser um factor com um peso determinante. Fevereiro 2011 - COMPUTERWORLD 2| Comunicações Disaster Recovery Unificadas CDP como sigla de resiliência As empresas já não têm tempo para recuperarem do impacto de um acidente no seu negócio! Qualquer indisponibilidade dos sistemas de informação pode significar perdas indirectas ou directas de receitas, dizem os fornecedores de tecnologia de Disaster Recovery. Cloud reduz preços mas exige rigor O director-geral da Claranet em Portugal, António Ferreira, funda a redução de preços no Disaster Recovery com CDP na utilização das tecnologias e técnicas de cloud computing. “A grande revolução é a forma como a proliferação das tecnologias de armazenamento e virtualização, na base da cloud computing, permitem que os custos de implementação tenham diminuído significativamente nos últimos anos”. Contudo, alerta sobre a existência de desafios. “Para o CDP, é essencial o operador ter, nos vários centros de dados, plataformas normalizadas de virtualização e armazenamento, capazes de assegurar que os mecanismos de backup e replicação funcionam”, explica. As equipas de engenharia também necessitam de dominar as plataformas. Nesse sentido, António Ferreira revela a necessidade que a Claranet teve em investir “fortemente” em processos associados à segurança (certificação ISO 27001 obtida em 2010, adopção de boas-práticas ITIL desde 2009) e no reforço das parcerias tecnológicas (em particular com a Microsoft e a VMware). plicação, mesmo para grandes volumes transaccionais”, explica Paulo Faroleiro, da Novabase. Na visão de Rui Soares, da HP, o CDP “vem simplificar o processo de protecção e de armazenamento da informação” - mesmo prometendo o registo “contínuo das alterações da informação e o seu armazenamento em distintas localizações”. Ao mesmo tempo é feita também a replicação sobre os sistemas operacionais e aplicações que suportam a informação de negócio replicada, como lembra Paulo Faroleiro. No entanto, Rui Soares alerta para a necessidade de associar planos de recuperação de desastres a este tipo de abordagens. Para Francisco Gomes (Unisys), as funcionalidades inerentes resultam numa alteração de paradigma na salvaguarda de informação. O que desencadeia a salvaguarda não é só um evento temporal: ela ocorre ”sempre que a informação é alterada”. “A replicação de dados em tempo real por link é uma estratégia que tem vindo a ganhar relevância nas soluções de Disaster Recovery face à tradicional estratégia de backups por tape, devido à redução de custos associados às comunicações, o que por sua vez justifica a relação custo-benefício da solução para os requisitos de negócio”, assegura Carla Zibreira, da Mainroad. O conceito de protecção contínua de dados, ou Continuous Data Protection (CDP), é cada vez mais proposto como uma forma de melhor proteger os dados e melhorar a probabilidade de os recuperar, numa estratégia de recuperação após desastre ou Disaster Recovery (DR). Baseia-se sobretudo na tecnologia de armazenamento em disco, para melhorar a eficácia do backup. Ficheiros, bases de dados, repositórios de correio electrónico e sistemas inteiros podem ser recuperados em minutos em vez de horas. Com al- COMPUTERWORLD - Fevereiro 2011 gumas soluções de CDP, os sites podem ser colocados online em cerca de 30 minutos, em vez de dias. “A alta disponibilidade e a protecção de dados não são conceitos novos para os responsáveis de TI”, lembra Nuno Marques, da Totalstor. Contudo, teoricamente, será hoje mais barato a uma empresa disponibilizar um sistema de DR, mesmo numa lógica de CDP. Apesar disso, e de acordo com António Ferreira, da Claranet, “muitas empresas ainda não perceberam até que ponto os custos de uma solução de DR baixaram”. O responsável lembra mesmo que, “do ponto de vista prático, o custo do risco de falha passa a ser mais caro do que o custo de manter uma plataforma de DR”. Na base da evolução está a cada vez maior disponibilização de largura de banda. “A quantidade de informação que pode ser copiada permite o funcionamento quase em tempo real dos processos de re- Pressão “contínua” A evolução registada com o CDP resulta, na perspectiva do responsável da Unisys, de uma pressão sobre as tecnologias de armazenamento e protecção da informação. Exige-se cada vez mais que sejam “mais robustas” mas “menos intrusivas”. “A necessidade de acesso mais eficaz aos dados e as obrigações dos reguladores, a par dos custos destas operações, veio colocar maior pressão sobre o desenvolvimento de novos modelos de serviço, mais ajustados com os requisitos impostos e que, paralelamente, permitam um maior controlo dos custos (TCO) impulsionando o modelo de ‘pay per use’”, explica Jaime Pires, da IBM. Mas apesar de considerar o CDP como essencial em ambientes de missão crítica, Francisco Gomes condiciona a sua adopção a “uma análise de custos e benefícios da solução” considerando “a importância da informação e dos serviços para o negócio ou para a missão da organização”.CW Disaster Recovery |3 Tolerância a desastres e… a custos Por muito sofisticada que seja uma solução de Disaster Recovery, ela implica várias vezes algum tempo de indisponibilidade de serviços. Em muitos casos, a única solução possível é adoptar uma estratégia de tolerância a desastres. Noutros, imperam ainda os custos… sobre os benefícios. objectivo é actuar em situação de desastre. Desta forma, optar por uma estratégia de tolerância a falhas implica implementar sobre a infra-estrutura de produtivo mecanismos de controlo igualmente redundantes, ou seja, com requisitos técnicos de capacidade igual, em pontos de falha-única”, explica Carla Zibreira, da Mainroad. Por outro lado, ainda na opinião desta responsável, as soluções de recuperação de desastre estão focadas em “salvaguardar os serviços de TI críticos para a organização cliente existindo ‘apenas’ a necessidade de assegurar o cumprimento dos requisitos mínimos para o negócio”. Aprofundando a diferença entre as duas estratégias, Rui Soares, da HP, explica que a “tolerância a desastre está muito associada às tecnologias e arquitecturas tecnológicas que as suportam”. E, na sua visão, uma estratégia de recuperação de desastre é mais abrangente do que isso. “Deve estar alinhada com as necessidades de negócio de cada organização, e que pode ser complementado com um conjunto de soluções de tolerância a desastre para aplicações e dados. Por exemplo: ‘wide area’ clusters, replicação de armazenamento e replicação de aplicações entre outras”, recomenda. Na opinião de muitos dos responsáveis contactados pela Computerworld, uma estratégia de tolerância a desastres é preferível à lógica de Disaster Recovery. Mas apesar de exequível (pelo menos teoricamente), essa visão é ainda sujeita aos condicionalismos da relação entre custos e benefícios obtidos. “Claramente que ser preventivo será sempre mais adequado do que ser capaz de detectar e corrigir”, estabelece Paulo Faroleiro, da Novabase. A ideiachave é a de que o custo da disponibilidade é maior do que o custo da indisponibilidade. O tempo é outra vez um factor importante. “O negócio realiza-se a uma velocidade nunca antes atingida e as restrições operacionais a que um modo de 'desastre' pode levar, podem ditar custos e perdas demasiado elevadas. Simplesmente a velocidade de recuperação não é a adequada comparativamente com a velocidade com que o negócio se realiza”, explica. Já Francisco Gomes, da Unisys, tem outro discurso, segundo o qual a tolerância a falhas e a lógica de recuperação a desastres não se substituem e antes são complementares. Admite que para as infra-estruturas com um elevado nível de importância, “a existência de informação actualizada até à última alteração e com capacidade de recuperar para uma qualquer versão anterior (da informação) não é suficiente para cumprir com os requisitos do negócio”. É que o negócio, ou a missão de uma organização, em ambientes de missão crítica, “exige que, para além de a informação estar disponível, a disponibilidade aos seus consumidores e o acesso às aplicações/ferramentas que a permitem controlar.” Para esta capacidade ser garantida, é necessário um plano de recuperação em caso de desastres. Mas usando tecnologia adequada, segundo Paulo Faroleiro, é possível prevenir os efeitos de desastres. E, na opinião de Henrique Mamede (Tecnidata), seguir uma estratégia de tolerância a desastres “é fácil” com a tecnologia actual, “embora tenha o seu preço”. Existem no mercado equipamentos redundantes, lembra Nuno Marques, da TotalStor, “que actuam no ciclo de processamento em paralelo”, suportando melhor as exigências da tolerância a desastres. Contudo o problema dos custos elevados inerentes aos equipamentos ou até a serviços sofisticados de monitorização pode ser resolvido com a partilha de recursos por várias empresas. “Este facto torna o modelo cloud computing mais atractivo”, conclui. Importância dos mecanismos de controlo “Numa estratégia de tolerância a desastres, o objectivo é prevenir o desastre, enquanto na implementação de estratégias de recuperação de desastre o Utilizar melhor os recursos A situação de tolerância a desastres é possível de atingir e, para José Grilo, da Microsoft, “é sempre a forma desejável de o fazer, dado que uma solução de recuperação de desastre implica quase sempre downtime de serviços”. Jaime Pires vai mais longe e considera que a tolerância a desastres “é já uma realidade em muitas situações”. O responsável da IBM considera que as soluções de continuidade estão na ordem do dia. Isto acontece, na sua opinião, “não só pela redução do risco inerente ao processo de recuperação em caso de desastre, mas também pela capacidade de dar melhor utilização a recursos que para os cenários de Disaster Recovery podem não estar a ser adequadamente utilizados”. A estratégia de oferta da IBM contempla a disponibilização de recursos humanos, precavendo a possibilidade de os técnicos do cliente ficarem indisponíveis devido ao desastre. O acesso às plataformas de TI estão no centro da questão. Por exemplo, António Ferreira apresentou o caso de uma multinacional sua cliente para a qual manter essa capacidade é fundamental. “A solução engloba a réplica diária de dados do datacenter de produção para o centro de dados secundário, e a ligação deste a uma localização de stand-by, já completamente infra-estruturada para permitir a acessibilidade às aplicações”, explica.CW Fevereiro 2011 - COMPUTERWORLD Uma prova de fogo O incêndio numa torre em Nova Iorque não atingiu os escritórios de uma sociedade de advogados. Contudo, o acesso às salas de trabalho e aos servidores lá alojados ficou vedado. Numa manhã de domingo do ano passado, John Brooks recebeu uma notícia que ninguém gosta de ouvir: tinha havido um incêndio na cave da torre onde a empresa para a qual trabalha tem um escritório. Os escritórios da empresa estão num andar superior e não foram directamente danificados pelo fogo. Mas todo o prédio ficou fechado devido ao incêndio, causado por problemas nas duas principais fontes de alimentação do prédio. Não havia qualquer ligação para as comunicações de dados, faltava energia para a infra-estrutura de TI e era impossível entrar no prédio para recuperar os servidores da empresa. Estes continham documentos e bases de dados SQL para os dois escritórios em Nova Iorque. Uma hora após saber da notícia, a equipa de TI e a administração da empresa estavam em contacto telefónico a planear o que fazer, lembra Brooks, gestor de serviços de rede na Marshall, Dennehey, Warner, Coleman & Goggin (MDWC&G). "Cerca de duas horas depois da nossa reunião, repusemos a disponibilidade de dados", conta Brooks. "Tivémos de restaurar uma base de dados SQL e um repositório de ficheiros. Depois dos nossos programadores terem criado uma aplicação adaptada, os dados passaram a ser acessíveis a partir do escritório" da empresa de Filadélfia. Foi uma prova de fogo – literalmente... – aos sistemas de backup e de recuperação de dados. A MDWC&G tinha substituído o seu antigo sistema de backup baseado em tape pelo EVault Software, um backup de disco para disco, e uma aplicação de recu- peração de desastres da i365 (empresa da Seagate). O software i365 foi instalado nos 19 escritórios da empresa e protege agora mais de 3 TB de dados. Há vários agentes em cada servidor remoto para executar backups nocturnos de ficheiros e bases de dados SQL, usando tecnologias para evitar a duplicação de dados e garantir a replicação apenas dos ficheiros novos e daqueles que foram modificados desde o último backup. As mudanças são compactadas e cifradas antes de serem enviadas para o cofre principal, na sede da empresa em Filadélfia. Como precaução adicional, a MDWC&G também replica os dados agregados das suas instalações num outro local, nos subúrbios de Filadélfia, usando equipamento de armazenamento e tecnologia de replicação integrada. Após o incêndio, a empresa restaurou os dados usando o repositório do cofre principal, em Filadélfia, e disponibilizou aos advogados e funcionários um servidor de backup até a equipa de TI poder entrar no escritório de Nova Iorque e recuperar os servidores ali localizados. Passaram-se duas semanas até os funcionários desta delegação poderem recomeçar o seu trabalho no edifício, mas a interrupção real no trabalho foi mínima, pois puderam trabalhar remotamente com total acesso aos seus ambientes informáticos de trabalho e aos ficheiros. Quando a MDWC&G implantou pela primeira vez o software EVault, testou a sua nova tecnologia de backup de dados, tornando a recuperação após o incêndio numa tarefa menos difícil. "Testámos a recuperação das nossas bases de dados SQL e das bases de dados Exchange, e documentámos tudo", diz Brooks. "Quando o incêndio ocorreu, estávamos à frente dos acontecimentos. Sabíamos exactamente o que fazer e foi por isso que fomos capazes de recuperar tão depressa". Brooks poderia não estar tão confiante com o antigo sistema de backup em tape. Era um processo complexo e propenso a erros, lembra Brooks. "Tínhamos o pessoal do escritório local a mudar as tapes com uma frequência diária e era fácil falhar um backup", diz. Havia também o risco de perder as tapes no caminho entre os escritórios-satélite e a sede da MDWC&G. Usando o sistema de backup i365 de disco para disco, o pessoal local fica liberto da obrigação de mudar manualmente as tapes. Além disso, a empresa é agora capaz de realizar backups sete dias por semana, em vez das anteriores de segunda a sexta-feira. "Agora, também a gestão é feita centralmente. Não há qualquer intervenção dos utilizadores", diz Brooks. O tempo de recuperação é igualmente muito inferior. "Posso recuperar um ficheiro em minutos, enquanto antes demoraria no mínimo de quatro a oito horas até as tapes serem enviadas, colocadas na unidade, a informação ser indexada e os dados recuperados", explica. "A recuperação é muito mais rápida e pode ser feita remotamente, o que é uma grande vantagem do sistema". Quando a sociedade decidiu actualizar a sua infraestrutura de backup e de recuperação, foram consideradas duas opções: usar tecnologias de backup de disco para disco ou serviços de backup alojado. A mudança para os serviços de backup baseado no modelo de cloud computing não está nos planos da empresa no futuro mais próximo. "A nossa preocupação é a recuperação dos dados", explica Brooks. "Se o serviço for descontinuado para onde vão os dados”, pergunta. Outro potencial problema com o backup baseado na nuvem, na visão daquele responsável, é o aumento dos custos com os crescentes volumes de dados. "O nosso volume de dados está a aumentar exponencialmente de ano para ano", revela Brooks. Isso significa que o volume de dados hospedados e os custos associados iriam continuar a subir. "Os custos podem ser cada vez maiores e nós também tomamos isso em consideração".CW Como estão a reagir os clientes ao cloud computing? Curiosidade e cautela serão os sentimentos mais frequentes entre os potenciais clientes de cloud computing de vários fornecedores presentes em Portugal. O Disaster Recovery constitui uma área na qual a adopção dos conceitos de cloud computing fará mais sentido e será mais fácil, antecipa Francisco Gomes, da Unisys. Tem tudo a ver com ”o menor nível crítico e uma maior necessidade de flexibilidade de workloads”, explica. Além disso, “as principais características do modelo de cloud computing – pagamento por utilização, escalabilidade, flexibilidade e partilha de recursos – cumprem, integralmente, com os principais requisitos de um ambiente de Disaster Recovery”. Contudo, Nuno Marques (TotalStor) considera ser ainda “cedo para aferir conjunturalmente as reacções das empresas”. Mas também admite que pode ser o primeiro passo para a adopção desse modelo. Rui Soares (HP) tem uma opinião semelhante e considera que “as empresas ainda estão a dar os primeiros passos na utilização de serviços em cloud”. Entre o grupo dos mais optimistas está Henrique Mamede, da Tecnidata, cuja experiência diz que os clientes estão a reagir “bem”. “Com outros modelos, o factor custo não constitui uma vantagem tão grande”, revela. Também Jaime Pires, da IBM, mostra algum entusiasmo. A expectativa será “grande” condicionada por dúvidas sobre a “forma de passar da teoria à prática”. Para a Microsoft, algumas empresas já começam a olhar para a cloud computing como uma infra-estrutura aliciante para Disaster Recovery. Mas José Grilo admite COMPUTERWORLD - Fevereiro 2011 que “muitas empresas ainda sentem apreensão na utilização desse tipo de plataforma por questões de segurança e confidencialidade dos seus dados e aplicações”. E sugere a utilização de “garantias contratuais de cumprimento” para mitigar os riscos. A divulgação dos planos de Disaster Recovery e de continuidade de serviço do fornecedor também podem ajudar. Outras preocupações, segundo Francisco Gomes, envolvem o receio da perda “do controlo sobre a infra-estrutura e sobre a informação”, além do potencial de aprisionamento face ao fornecedor dos serviços. António Ferreira revela que há também receios sobre a localização da informação e sugere um escrutínio até ao nível da “implementação tecnológica de cada solução”. Carla Zibreira defende que a relação na Mainroad com o cliente tem de ser baseada na confiança e considera-a muito importante nos modelos de cloud computing. Por fim, Raúl Oliveira considera “as empresas que precisam de manter os seus servidores dentro de portas, por variadíssimas razões (largura de banda, uptime do acesso à Internet, segurança, entre outras), vão ter no cloud computing uma forma fácil e barata de replicarem os seus dados”. Mesmo os serviços, em caso de falha de algum dos servidores fisicos (ou virtuais) dentro das instalações, poderão beneficiar desse modelo, segundo o responsável da iPortalMais.CW PUB Comunicações Unificadas |5 Fevereiro 2011 - COMPUTERWORLD 6| Disaster Recovery Dar mais números para obter mais fundos Os gestores de TI não podem contar com o sentido de oportunidade da natureza para convencer os executivos a investirem mais nos planos de continuidade dos negócios e de Disaster Recovery. É crucial ter números exactos. Ed Ricks não teve de fabricar o pior cenário possível para convencer os executivos do Beaufort Memorial Hospital, na Carolina do Sul, sobre a necessidade de gastar mais com a continuidade dos negócios, ou Business Continuity, e em sistemas de Disaster Recovery (DR). No seu primeiro dia como CIO do hospital, uma trovoada afectou o fornecimento de energia ao mesmo. O edifício passou imediatamente a estar ligado a um gerador mas o sistema de reserva não abrangia o ar condicionado ou sequer as comunicações. "O nosso centro de dados aqueceu muito e tivemos de começar a desligar servidores", recorda Ricks. O hospital também perdeu as ligações de comunicação para outras instalações. Do ponto de vista do CIO, "era quase bom demais para ser verdade", admite. "A situação não era mesmo tão ruim quanto podia ser, mas demonstrou o que poderia acontecer. Era óbvia a necessidade de fazer alguma coisa para garantir a operacionalidade", explica. A conformidade deve ser um subproduto. Desde os ataques terroristas do 11 de Setembro de 2001, vários organismos governamentais no mundo, além de grupos empresariais, emitiram pelo menos 22 regulamentos ou conjuntos de normas para a indústria. O objectivo era regular os planos de continuidade dos negócios e DR, de acordo com um relatório da Forrester Research. Embora muitos dos programas tenham sido voluntários, não deixaram de levar algumas empresas a financiarem projectos adicionais de continuidade dos negócios complementares e de DR. Mas as empresas que fazem investimentos apenas para cumprir uma norma ou regulamentação da indústria estão fora de contexto, dizem os especialistas. "Infelizmente, querem apenas colocar uma cruz no quadrado" e gastar o mínimo possível na continuidade do negócio, apenas para estarem conformes, diz Rachel Dines, analista da Forrester. Por outro lado, os regulamentos, "pelo menos, colocam as pessoas a pensar sobre o assunto". Idealmente, a conformidade é apenas um produto suplementar de uma sólida estratégia de continuidade dos negócios ou plano de DR. "Sempre tive a impressão de que tomando as decisões de negócios certas, acabar-se ia por estar conforme aos regulamentos", considera Ed Ricks, do COMPUTERWORLD - Fevereiro 2011 Beaufort Memorial Hospital. "É uma atitude inteligente para nós, proteger os nossos dados e saber que temos um bom plano de DR, independentemente da legislação obrigar a isso ou não". Hoje, o hospital tem um local de DR com backup em tempo real de dados. Ricks tenciona expandir as capacidades das instalações e adicionar servidores virtuais até ao final deste ano. Deverá custar um milhão de dólares (cerce de 750 mil euros). Para a maioria dos gestores de TI, no entanto, é preciso mais do que um acto natural e oportuno para convencer os executivos a investirem mais na continuidade dos negócios e de DR. É preciso uma história envolvente e cheia de números concretos para os executivos poderem avaliar. Plano de negócios tornou-se mais fácil No passado, era difícil fazer um plano de negócios para sistemas de DR, por estes serem vistos como apólices de seguro caras para precaver ocorrências pouco prováveis. Mas o relatório da Forrester Research diz que esta situação está a mudar, porque os gestores de TI estão a conseguir quantificar melhor o potencial impacto dos riscos e avaliar o im- pacto de uma interrupção. "É mais uma arte do que uma ciência", diz a analista da Forrester, Rachel Dines. "A maioria dos executivos não percebe o quanto custa. Estamos a falar de milhões de euros. E tudo depende da argumentação”. Como afirma o documento da Forrester, "é muito mais provável que um CIO ou outro executivo aprove uma actualização para DR se conseguir explicar que nos próximos cinco anos é de 20% a probabilidade de ocorrer uma grave tempestade de Inverno, capaz de interromper o fornecimento de energia ao centro de dados e causar prejuízos de 450 mil euros em receitas perdidas e na produtividade dos funcionários". Como é que os gestores de TI poderão apurar valores muito difíceis de quantificar para justificar o investimento em DR? Dines sugere que primeiro se calcule o custo do risco anual e se faça uma lista de cada risco na área geográfica da empresa. Depois, será útil determinar o número provável de horas de inactividade, resultantes de potenciais interrupções, devidas ao risco. Numa coluna, é interessante registar em percentagem, o nível de probabilidade do evento acontecer no período de um ano. Por último, será necessário multiplicar tudo isso pelo custo por hora de inactividade para se obter o custo anual inerente aos riscos. "Pode ser uma maneira prática de canalizar inves- Disaster Recovery timentos em tecnologia capazes de eliminarem esse risco - como o investimento em procedimentos de acesso remoto para uma tempestade de inverno", diz Dines. Calcular o custo por hora do tempo de indisponibilidade. Descobrir o custo da inactividade pode ser assustador, pois as interrupções têm custos tangíveis e intangíveis. Comece por calcular os números mais óbvios, como as perdas de receitas ou as perdas de produtividade para os trabalhadores temporariamente incapazes de trabalhar. Esses são geralmente os maiores custos de inactividade. Explore também as sanções nas quais a empresa pode incorrer se não for capaz de cumprir com os regulamentos, por ter os sistemas em baixo. Outras consequências - como a perda de clientes, a insatisfação dos clientes ou o impacto na reputação da empresa e no moral dos funcionários - são mais difíceis de quantificar. Pode-se tentar calculálos, olhando para o impacto de eventos semelhantes anteriores em organizações conhecidas. Na Universidade de Troy, no estado propenso a furacões do Alabama, Greg Price tem um objectivo simples: "nós não queremos os nossos serviços em baixo nem por um segundo". Com 30 mil alunos espalhados por 17 fusos horários em torno do globo, a universidade não pode tolerar tempos de inactividade. Por isso, Price, CSO e CTO da universidade, reuniu cuidadosamente os dados para reforçar a sua argumentação de que a instituição precisava de um novo centro de dados remoto para substituir uma instalação desactualizada. Coligiu dados de 15 anos indicadores da probabilidade de certos eventos, classificados como leves, graves ou significativos, afectarem o campus da Troy. "Com base nas informações obtidas sobre o período de 15 anos, que temos sido capazes de reunir, podemos avaliar rapidamente o potencial de falhas face a essas métricas", diz Price. Construir um plano de negócios Os gestores de TI têm sido bem sucedidos na obtenção de fundos para a recuperação de desastre, quando as unidades de negócios e pessoal de gestão de risco ajudam a explicar, em termos de negócio, a necessidade do investimento. Um inquérito a 345 assinantes do Disaster Recovery Journal mostrou que cerca de 65% das equipas responsáveis pelos projectos de recuperação de desastre trabalham com as equipas de gestão das suas unidades de negócio para determinar o impacto do risco. Outras dicas para convencer os executivos não ligados às TI Não diga "desastre". Dines evita usar a palavra “desastre” ao falar sobre a continuidade de negócios. É mais do que reagir aos tempo de inactividade, diz. Pelo contrário, o DR e a continuidade dos negócios envolvem "ser activo para procurar manter as comunicações e a disponibilidade", explica. Os riscos mais comuns são os mundanos: falhas de energia, de hardware, de software, de rede e erros humanos. É mais fácil calcular a probabilidade de um desses incidentes do que prever um desastre natural. Explicar como se deve estar preparado é uma vantagem competitiva. Refira-se ao DR ou a despesas de continuidade de negócios como necessidades. Assinale que os concorrentes da empresa podem obter ganhos significativos, se os sistemas da organização estiverem em baixo por alguns dias, sugere Dines. Quando definir o valor comercial de um projecto, pense na recuperação de desastres como mais do que uma necessidade básica. O CIO Gary Kern passou três anos a desenvolver a sua versão para o sistema ideal de recuperação de desastres no Mutual Bank. Os 500 mil dólares que eventualmente recebeu – para comprar uma Storage Área Network (SAN) com sistema de backup num centro de dados remoto – chegaram em pequenos incrementos. Kern e sua equipa iam explicando aos executivos da comissão técnica os benefícios de cada elemento e porque cada um custava tanto. "Normalmente, a justificação seria mais do que apenas a capacidade de recuperação", diz Kern. "Nós também falamos da gestão do armazenamento e definimos todas as peças e partes com utilidade, além da simples recuperação". Depois de seis anos no Mutual Bank, Kern aprendeu a adaptar o seu discurso a cada executivo:"é uma questão de descobrir quais são os botões cer- |7 As conclusões de Price: • cerca de 75% das interrupções dos serviços de TI da Universidade de Troy são consideradas "menores", o que significa que o serviço é suspenso por menos de duas horas, geralmente devido a uma queda de energia ou problema de acesso à Internet (a Troy teve 28 eventos de menor porte no ano passado); • 22% dos incidentes são considerados "grandes", ou seja, o serviço é interrompido entre duas a oito horas, muitas vezes devido a acidentes de construção ou falhas na rede de energia (a universidade registou quatro grandes eventos em 2010); • incidentes "significativos" acontecem apenas em 3% do tempo e incluem furacões, tornados e outros fenómenos da natureza. A instituição universitária teve apenas um evento “significativo” em 2010 - uma tempestade de neve. Converse com a sua companhia de seguros. As seguradoras mantêm inúmeras estatísticas sobre a probabilidade de ocorrerem incidentes e os custos a eles associados. Acabam por ser importantes para se ter uma noção de como é arriscado segurar uma empresa particular. A sua seguradora pode estar disposta a partilhar alguns desses dados. Na Europa, o site do Eurostat, organismo oficial de estatísticas da União Europeia, pode ser útil. tos para cada executivo. Obtenha alguma coisa para todos. Depois mantenha o discurso curto e perceptível para uma pessoa pouco conhecedora de tecnologia entender. Eles precisam de perceber o valor de negócio inerente a cada tecnologia". Kern também sugere a consulta a uma entidade independente, como um auditor, para ajudar a justificar a iniciativa. "Se a questão aparecer nos relatórios de terceiros, os argumentos do departamento interno de TI ganham força", diz. Na Universidade de Troy, Price mostrou como a facilidade de backup remoto pode ser usada diariamente, não apenas durante uma interrupção. "Dia a dia, usamo-lo como o nosso sistema de teste e como ambiente de experimentação para o desenvolvimento de novos serviços", diz ele. Aproveite bem os momentos de crise. Idealmente, as empresas tomam decisões de investimento baseadas em elementos racionais, avaliações de risco objectivas. Mas os profissionais de segurança e risco sabem que nem sempre funciona assim. O interesse dos altos executivos na recuperação de desastres e continuidade de negócios pode flutuar muito rapidamente, dependendo da última manchete sobre uma crise, de acordo com Jeff Weber, director-geral da Protiviti, empresa de consultoria de risco sedeada em Menlo Park, na Califórnia. Consequentemente, os gestores de TI podem precisar de explorar as mais recentes catástrofes, as pandemias e falhas de segurança para obter a atenção dos executivos seniores, diz o relatório da Forrester. Lembre-se: "foi uma tempestade que ajudou a justificar um investimento de um milhão de dólares em melhorias de recuperação de desastres no Beaufort Memorial Hospital”.CW Fevereiro 2011 - COMPUTERWORLD 8| Disaster Recovery Microsoft ou VMware: qual a melhor na recuperação de desastres? O debate foi lançado com um estudo do Burton Group a considerar que o hipervisor da Microsoft, o Hyper-V, não estava pronto para ser usado em ambientes empresariais. Porquê? Os analistas dizem que não tem uma característica encontrada nos dispositivos da VMware e da Citrix. O Disaster Recovery (DR) tornou-se uma aposta no segmento da virtualização de servidores. E qualquer plataforma de virtualização digna arranja maneira de reiniciar uma máquina virtual no caso de uma falha de hardware. Mas qual é o fabricante capaz de se destacar no processo de colocar aplicações críticas a funcionarem outra vez depois de um acidente? E de assegurar o restabelecimento prioritário das máquinas virtuais mais importantes no processo de reinicialização? No ano passado, a consultora Burton Group considerou num estudo que o hipervisor Hyper-V, da Microsoft, não estava pronto para ser usado pelas empresas. Argumentava que não tem uma característica específica encontrada nos dispositivos da VMware (VM) e da Citrix. Mas a Microsoft afirma que o Hyper-V tem as funcionalidades procuradas pelos principais clientes. E até o Burton Group admite que a Microsoft tem superado os seus rivais nalguns tipos de cenários de DR. O recurso em questão tem a ver com a hierarquia e prioridade de reinicialização. Segundo a Burton, os produtos de virtualização de nível empresarial devem permitir aos gestores de TI a atribuição de prioridades na reinicialização das máquinas virtuais, garantindo que as cargas de trabalho mais críticas reiniciem antes de quaisquer outras, após uma falha do servidor físico. A Microsoft insiste em que as suas ferramentas de gestão de virtualização permitem esse tipo de prioridade, embora talvez de uma forma indirecta. Mas o Burton recusou-se a aprovar o Hyper-V, dizendo que apenas as soluções da VMware e da Citrix permitem essa funcionalidade. A configuração das prioridades de reinicialização no High Availability Software, da primeira, permitem a atribuição de níveis de importância diferentes na reinicialização nas máquinas virtuais. Não se trata de um instrumento perfeito, pois não é possível aos gestores definir uma ordem de reinício entre os servidores de "alta prioridade". O XenServer, da Citrix, proporciona um maior nível de controlo e é, assim, a melhor plataforma para este tipo de cenário de recuperação de desastres, de acordo com o analista do Burton Group, Chris Wolf. Sistemas críticos primeiro "A ideia por trás da hierarquização de prioridades é garantir que os volumes de trabalho de missão crítica comecem a funcionar primeiro", diz Wolf sobre o software da VMware. "Apenas aqueles sistemas definidos devem ter uma prioridade elevada. COMPUTERWORLD - Fevereiro 2011 Mesmo se eu tivesse máquinas virtuais com alta prioridade atribuída, essas 10 seriam reinicializadas antes de todas com prioridade média ou baixa. É essa a ideia. Os clientes querem maior granularidade com as métricas de prioridade da VMware (o XenServer é melhor) e nós já falámos disso na nossa avaliação do vSphere. Ainda assim o comportamento do produto da VMware corresponde às nossas expectativas mínimas, enquanto o XenServer é o ideal". A VMware argumenta que o software de gestão de recuperação Site Recovery prevê "o estabelecimento de uma ordem de reinício de máquinas virtuais", mas admite a falta dessa disponibilidade no High Availability Software. De qualquer maneira, segundo Wolf, a sua equipa no Burton Group tem discutido a questão com a Microsoft e o fabricante "percebe a situação e a sua importância". A Microsoft conta uma história um pouco diferente. "Discutimos exaustivamente a questão com o Burton Group", diz Edwin Yuen, director de virtualização da Microsoft. "Temos, claro, alternativas ou maneiras de contornar o problema". O Hyper-V permite que se retarde o reinício de algumas máquinas virtuais, por um período definido de 15, 30 segundos ou outro tempo pretendido. Retardar o reinício das máquinas de baixa prioridade permite efectivamente dar maior prioridade às mais críticas, argumenta Yuen. Os clientes podem ir ainda mais longe no System Center Virtual Machine Manager, o qual permite às TI escreverem “scripts” para definir as máquinas com reinício prioritário. Os clientes também podem definir regras para prevenir a reinicialização de algumas máquinas virtuais, enquanto os serviços de back-end estão a recuperar. Por exemplo, se uma aplicação Web a correr numa máquina virtual requer uma base de dados SQL, executada noutra máquina virtual, os gestores podem definir o reinício da base de dados antes da reinicialização da aplicação. Além disso, outras ferramentas de gestão de virtualização da Microsoft podem avaliar se as aplicações em execução dentro das máquinas virtuais estão saudáveis, em vez de analisarem apenas se a máquina virtual está a funcionar. A vantagem da Microsoft Wolf considera que a vantagem da Microsoft é na tecnologia consciente das necessidades de alta disponibilidade das aplicações. “Isso é uma funcionalidade que destacamos como muito forte na solução Disaster Recovery da Microsoft, que nem a Citrix nem a VMware podem oferecer". A VMware trata a máquina virtual como uma caixa preta, por isso, se uma aplicação dentro de uma máquina virtual pára, o software de gestão de alta disponibilidade não vai detectar o problema a menos que haja uma falha completa do sistema operativo, segundo Wolf. Como explica Yuen, o software da Microsoft "pode verificar as máquinas virtuais, os sistemas operativos e os serviços. Podemos literalmente perguntar se a base de dados SQL está instalada e a funcionar? O serviço de correio está a funcionar? Podemos fazer um nível de monitorização que a VMware não consegue". Combinada com as outras funcionalidades, a capacidade descrita por Yuen deve satisfazer as exigências dos clientes tanto quanto, se não mais, do que o recurso considerado crucial pelo Burton Group, diz Yuen. "De qualquer maneira, não acredito que o referido recurso de reinicialização responda ao que os clien- tes querem fazer", diz Yuen. Mas alguns clientes expressam alguma insatisfação com ambas as abordagens da Microsoft e da VMware. "A definir prioridades 'alta, média ou baixa' é tão pobre e incontrolável como a criar um atraso de inicialização. Nem dá qualquer tipo de garantia de que o serviço está realmente disponível", comentou um cliente. "Ambas as formas são frágeis e propensas a falhas". Wolf observa que muitos clientes têm implantado o Hyper-V, apesar do recurso de prioridade de reinicialização e apesar de outras áreas em que se destaca a VMware. Por exemplo, o software desta permite às máquinas virtuais correrem na mesma frequência, ao mesmo tempo, embora em dois suportes físicos diferentes – para proporcionar um melhor nível de tolerância a falhas. A Citrix consegue isso através de uma parceria com a Marathon Technologies, enquanto a Microsoft não tem ainda esse recurso mas deve vir a ter, num fu- |9 turo próximo, diz o analista. As grandes empresas com aplicações de missão crítica virtualizadas e expectativas elevadas de nível de serviço podem dar muitas importância a esse recurso. Mas, "para ser honesto, o nível de disponibilidade inerente não é algo tão importante para a maioria das organizações empresariais de hoje", diz Wolf. Os clientes também podem estar dispostos a aceitar um nível ligeiramente inferior de disponibilidade, em troca do melhor preço oferecido no Hyper-V. Como este deverá melhorar ao longo do tempo, os clientes também podem preferir iniciar os seus projectos de virtualização com o Hyper-V, em vez do produto da VMware, para evitar custos elevados associados ao abandono desta tecnologia no futuro. Por enquanto, Wolf diz que a VMware está claramente na liderança quanto à prestação na recuperação de desastres e alta disponibilidade. "A VMware tem a capacidade de integração mais rica com os fornecedores de armazenamento", diz Wolf. "O Site Recovery Manager é muito maduro. A migração em funcionamento é a mais poderosa", permitindo a migração simultânea de até oito máquinas virtuais. A quota de mercado da Microsoft tem crescido mais rapidamente do que a da VMware mas os dois hipervisoress mais utilizados são o ESX Server e o Server da VMware, com o Hyper-V em terceiro lugar, segundo a IDC. A Microsoft alega que o alto custo dos produtos da VMware não justifica os recursos suplementares oferecidos pela empresa. Contudo, Wolf diz que “vai levar muito tempo até a VMware ser destituída como interveniente dominante”. Mas a Microsoft já cometeu proezas semelhantes e a Vmware terá de executar muito bem a sua estratégia para se precaver.CW O que se descobre nos testes... Testar os planos de Disaster Recovery faz parte... desses planos. É melhor ser supreendido num teste do que ter revelações desgradáveis posteriores. Muitas empresas descobrem, ao fazerem testes aos seus planos de Disaster Recovery, que embora tenham backup dos seus servidores ou centros de dados, não fizeram o mesmo para os computadores portáteis. Esquecem-se assim da importância dos dados armazenados localmente em computadores portáteis. Devido à sua natureza móvel, os portáteis podem ser facilmente perdidos ou danificados. Não é preciso haver um evento catastrófico para interromper os negócios se os trabalhadores carregam dados críticos ou insubstituíveis alojados nesses dispositivos portáteis. Há empresas com planos inesperados para recuperação em casos de desastres, que nem sequer passam pela informática. Por exemplo, uma organização revelou estar a equacionar a compra de refeições prontas a consumir - como as que se servem aos militares – para as armazenar nas suas instalações. Com prazos de conservação longos e sem ocupar muito espaço, se os trabalhadores ficarem presos nas instalações por muito tempo, as refeições podem constituir um investimento rentável. Mike Hager, ex-chefe de segurança de informações e recuperação de desas- tres para a OppenheimerFunds, diz que os eventos do 11 de Setembro de 2001 em Nova Iorque deram visibilidade a questões como estas. Muitas empresas, segundo o mesmo, foram capazes de recuperar dados mas não tinham planos para locais de trabalho alternativos. O World Trade Center disponibilizava mais de seis milhões de metros quadrados de espaço de escritório e, após o 11 de Setembro, apenas três milhões de metros quadrados de espaço de escritórios estavam disponíveis em Manhattan. A questão de onde colocar os funcionários imediatamente após um desastre e durante a recuperação deve ser tratada antes que algo aconteça, não depois. Embora se escolha um local próximo, o processo de instalação de computadores e telefones leva – pelo menos - quase duas horas. Não convém deixar os empregados à espera ao sol ou à chuva. Como deve determinar se o regresso às instalações iniciais já é possível? Como regressam os funcionários a casa se as chaves do carro ficaram, muito provavelmente, em cima da secretária? Tudo questões que é preferível antecipar do que ter de as resolver quando o desastre já aconteceu.CW COMPUTERWORLD 10 | Disaster Recovery DR na cloud funciona melhor As PME com planos de Disaster Recovery baseados em cloud computing são mais resilientes, diz o Aberdeen Group. As empresas de média dimensão cujo plano de Disaster Recovery (DR) estão baseadas em serviços de cloud computing, voltam a funcionar quatro vezes mais rapidamente do que as outras organizações. A conclusão é de um estudo do Aberdeen Group, que analisou a experiência das PMEs com as suas estratégias de DR. As empresas com programas de recuperação baseados em cloud computing não só reagiram melhor, como também atingiram os seus objectivos de tempo de recuperação (RTO ou Recovery Time Objectives) mais frequentemente do que as empresas que utilizam métodos com gestão interna. A consultora também notou melhorias no tempo necessário para recuperar da inactividade, de ano para ano. Quando a Aberdeen analisou o uso do cloud computing e a eficácia dos planos de DR, concluiu que o tempo médio de recuperação para utilizadores do modelo tradicional foi de oito horas, em comparação com 2,1 horas para os clientes de cloud computing. O plano de DR também é a principal razão para as PME optarem por usar o armazenamento em cloud computing. Segundo o Aberdeen Group, 66% das organizações que procuram serviços de cloud computing salientam essa infra-estrutura como uma importante força motriz. E enquanto a tendência para a adopção do cloud computing é vista muitas vezes como sendo impulsionada pela necessidade de poupar custos, a Aberdeen conclui que isto é verdade mas apenas para 55% dos inquiridos. A consultora reconhece a existência de alguns factores inibidores a impedir as PMEs de avançarem com planos de migração para a nuvem. Mas sugere um plano de três pontos para as empresas mais lentas na adopção de serviços de cloud computing: a adopção de uma cloud pública; o desenvolvimento de uma política formal de governação de dados e a realização de testes à estratégia de recuperação de desastres. A Aberdeen concluiu que 54% nos utilizadores de modelos de cloud computing não apresentava nenhum plano formal de testes. Há muito espaço para o segmento crescer segundo a Aberdeen: 26% das organizações não apresenta qualquer elemento de cloud computing no seu sistema de informação, embora 58 % tenha planos para seguir esse caminho este ano.CW COMPUTERWORLD PROPRIEDADE RUA GENERAL FIRMINO MIGUEL, Nº 3 TORRE 2 - 3º PISO 1600-100 LISBOA DIRECTOR EDITORIAL: PEDRO FONSECA [email protected] EDITOR: JOÃO PAULO NÓBREGA [email protected] DIRECTOR COMERCIAL E DE PUBLICIDADE: PAULO FERNANDES [email protected] TELEF. 210 410 329 – FAX 210 410 303 PAGINAÇÃO: PAULO COELHO [email protected] TODOS OS DIREITOS SÃO RESERVADOS. A IDG (International Data Group) é o líder mundial em media, estudos de mercado e eventos na área das tecnologias de informação (TI). Fundada em 1964, a IDG possui mais de 12.000 funcionários em todo o mundo. As marcas IDG – CIO, Computerworld, CFO World, CSO, Channel World, GamePro, InforWorld, Macworld, PC World e TechWorld – atingem uma audiência de 270 milhões de consumidores de tecnologia em mais de 90 países, os quais representam 95% dos gastos mundiais em TI. A rede global de media da IDG inclui mais de 460 websites e 200 publicações impressas, nos segmentos das tecnologias de negócio, de consumo, entretenimento digital e videojogos. Anualmente, a IDG produz mais de 700 eventos e conferências sobre as mais diversas áreas tecnológicas. Pode encontrar mais informações do grupo IDG em www.idg.com COMPUTERWORLD www.ptprime.pt IMAGINE PODER FOCAR TODA A SUA ENERGIA NO SEU NEGÓCIO, EM TODAS AS SITUAÇÕES, MESMO NAS MAIS CRÍTICAS. PUB Pág. 11 IMAGINE PORQUE É POSSÍVEL. A PT Prime investe continuamente na tecnologia mais avançada, reunindo um conjunto de Serviços Geridos de TI, remotos ou com intervenção local, que garantem, com segurança, total controlo da performance e continuidade das infra-estruturas e sistemas. Dimensionadas à medida das necessidades a cada momento, as Soluções TI e Segurança da PT Prime libertam-no para que aplique toda a sua energia a fazer aquilo que faz melhor – o desenvolvimento do seu negócio. DATA CENTER E INFRA-ESTRUTURAS TI . SERVIÇOS GERIDOS TI DISASTER RECOVERY E BUSINESS CONTINUITY . SERVIÇOS GERIDOS SEGURANÇA UM MUNDO DE POSSIBILIDADES