WHITE PAPER A complexidade acabou com a minha verba Como soluções diferentes de proteção de dados em vários ambientes aumentam o caos e o custo. Introdução Toda semana algum de nossos parceiros do canal ou clientes conjuntos fala sobre seus desafios mais recentes relacionados à proteção de dados. Não que o fim do mundo chegou (não sobraria ninguém para se preocupar mesmo), nem que seu data center, escritório ou prédio agora não passa de uma cratera fumegante. Não, eles falam sobre a complexidade de algo que toda empresa sempre fez, algo que não é nada empolgante ou sexy: o backup. Quando se pensa no crescimento contínuo e aparentemente incontrolável dos dados, não é de se espantar que seja difícil. Mas não é só isso. Não se trata apenas do backup, mas também da capacidade de se recuperar diante de diversas circunstâncias. Seja de algo simples como dados corrompidos, perda de dados devido a um erro do usuário (você nem imagina o que consigo fazer no meu laptop), migrações até… isso mesmo, indisponibilidades não planejadas. Criamos um monstro O que está se tornando um problema operacional considerável, e talvez até o principal, é a complexidade da infraestrutura de proteção de dados. É possível ter diversos esquemas de proteção de dados simultâneos no seu ambiente de TI. É melhor prevenir do que remediar? Não! O melhor é ser consistente, e de preferência não complicar muito. Vamos fazer um teste rápido de autoavaliação (um truque para você continuar lendo, mas releve): 1 Há dados demais e é difícil fazer o backup 2 Tenho fabricantes/apps/processos diferentes 3 Meus aplicativos têm requisitos de recuperação diferentes 4 É impossível chegar a um consenso sobre quais aplicativos são críticos 5 Não sei o RPO de tudo 6 Conheço mais ou menos o RTO 7 Tenho muitas máquinas virtuais e isso é muito complicado 8 Não tenho verba/dinheiro/equipe 9 Ninguém gosta de mim (melhor não entrar nesse assunto…) 10 Faz tempo que testei meu plano de continuidade dos negócios, e não quero fazer isso agora. ARCSERVE WHITE PAPER | 1 WHITE PAPER Se você respondeu afirmativamente à maioria dessas perguntas, não se preocupe, você é normal! Mas isso não significa que esteja totalmente a salvo. A evolução da sua infraestrutura acrescentou camadas e mais camadas de hardware, software e “soluções” mal planejadas de proteção de dados (posso ser irônico e chamá-las logo de “problemas”?). Além disso, a maturidade e a adoção da tecnologia de virtualização de servidores criou um novo mundo com regras próprias de proteção de dados. Alguns fabricantes gostam de sugerir que apenas os ambientes virtuais são importantes hoje, porque eles comandam a infraestrutura, mas isso está errado. Ao cuidar da proteção de dados, é sua tarefa proteger tudo o que for importante, seja virtual ou físico. Nem tudo é virtual ou está na nuvem. A nuvem, essa entidade nebulosa e amorfa onde dizem para você colocar tudo, pode ser bastante enigmática. E qual é seu custo? Onde ela entra na sua estratégia planejada de proteção de dados? Ela deve ter um papel a desempenhar. Está se divertindo? Nós criamos um monstro com camadas de tecnologias ótimas de proteção de dados (quando as consideramos em separado), mas que são um caos quando combinadas. Vejamos um exemplo simples de um cliente recente de médio porte: 1 Backup de desktops: solução online (ou talvez duas, não temos certeza) 2 Backup do Exchange: disco e fita com o fabricante A. 3 Backup de NAS: backup legado B (NDMP) 4 Oracle: utilitários da Oracle com replicação 5 Máquinas virtuais: fabricante C 6 Backup de laptops: pedimos aos usuários para copiar arquivos essenciais para um serviço de nuvem 7 Algo em cluster para Linux e Windows, mas não tudo 8 Um appliance de backup para um departamento (na empresa) 9 E… as políticas de retenção de dados são diferentes para cada departamento/usuário… e há algumas fitas fora da empresa para fins de conformidade… você entendeu. Apesar do uso de APIs e de certo nível de padrões de mercado, não se pode esperar ter um entendimento claro do que está realmente acontecendo. Mais importante: qual a vigência geral dos dados? Por que devo me preocupar? • Desastre: digamos que você seja afetado por uma indisponibilidade e precise voltar a um momento “bom” para retomar as operações. Como determinar qual ponto seria esse? Como gerenciar a consistência geral? • Dinheiro: as ilhas de proteção de dados têm um custo alto em termos de perda eficiência. Além disso, você talvez não seja capaz de manter o conhecimento necessário para administrar diversos aplicativos de proteção de dados. • Visibilidade: ninguém se importa com o backup. Ele também é um custo. Mas se importam com disponibilidade e recuperação. Adivinha de quem será a culpa? • Propaganda exagerada: existem várias soluções que funcionam muito bem com um SO ou uma área, mas são bastante limitados. São poucos os que podem realmente atender a todas as suas necessidades. • Dinheiro novamente: o orçamento é seu, e se você estiver gastando, em vez de investindo, não terá retorno. Tudo isso é o bastante para atrapalhar seu sono, mas isso seria deixar o pessimismo vencer. Há mais por trás dos panos. ARCSERVE WHITE PAPER | 2 WHITE PAPER RPO, SLA e a sopa de letrinhas Pode-se pensar que combinar várias tecnologias é algo que não há como evitar em TI. No fim das contas, uma solução se sobressairá e o atrito natural da tecnologia eliminará as tecnologias de proteção de dados com menor capacidade. Enquanto isso, você se sente consertando um carro velho com o motor ligado, e não parece que vai funcionar. Eu sei como é. Já passei por isso. Mas com um carro, e não com uma infraestrutura de backup (sorte minha). Estamos falando do dimensionamento do grau de importância de aplicativos com relação a SLAs de recuperação de dados/aplicativos no contexto de um orçamento otimizado. Parece ótimo, eu sei. Mas o que isso significa na prática e como chegar lá? Etapa 1: Identificar os aplicativos críticos Um aviso: você pode precisar de terapia de grupo para chegar lá. O que quero dizer é o seguinte: os aplicativos não foram criados da mesma maneira, e existe uma dimensão dinâmica no grau de importância dos aplicativos de negócios. Em outras palavras, tudo muda o tempo todo, e partes interessadas diferentes vão se concentrar no que mais as interessa. No fim das contas, é essencial enumerar seus cinco aplicativos mais importantes, estejam eles em servidores virtuais ou não. São esses os aplicativos que sustentam seus negócios e, portanto, o investimento em proteção de dados de que você precisa para eles, em termos de tecnologia, equipe, processos e dinheiro será diferente daquele para um aplicativo de apoio (para o qual o RPO pode ser de algumas horas ou dias, e não de minutos ou segundos). Os aplicativos críticos geralmente dependem uns dos outros e de aplicativos de suporte. Eles também precisam ser protegidos. A propósito, esses aplicativos podem estar nos seus bons e velhos servidores físicos. Não ache que você vai poder esquecer deles! CUSTO DA INCIDENTE (REDUZIR RISCO) OBJETIVO DE PONTO DE RECUPERAÇÃO (RPO) BACKUP TRADICIONAL COM FITA SEMA N A S DI A S BACKUP COM IMAGENS HOR A S MINU TOS OBJETIVO DE TEMPO DE RECUPERAÇÃO (RTO) ALTA DISPONIBILIDADE CONTÍNUA SEGUNDOS MINU TOS RESTAURAÇÃO COM IMAGENS HOR A S DI A S RESTAURAÇÃO TRADICIONAL COM FITA SEMA N A S Figura 1: A relação entre o RPO e o RTO, e um mapeamento básico das tecnologias de proteção de dados que são geralmente usadas para atender às respectivas métricas. ARCSERVE WHITE PAPER | 3 WHITE PAPER Etapa 2: Identificar o RPO É um jogo de números, e sua capacidade de identificar com clareza os números essenciais relacionados à proteção de dados fará toda a diferença. Você não vai encontrá-los em um biscoito da sorte, por mais que goste dessa ideia. Lembre-se: a gerência adora números, e não é possível controlar ou melhorar algo que não se pode medir. A avaliação da perda de dados ou da sua exposição a ela usa apenas algumas métricas. O RPO é uma das mais importantes. Qual o volume de dados que você pode realmente perder? Recentemente, estava lendo o livro “Data Protection for Virtual Data Centers”, do especialista em TI, autor e analista Jason Buffington. Eu gostei bastante da definição dele e gostaria de compartilhá-la: “Se, de acordo com seus objetivos de negócios, você não pode perder mais do que duas horas de dados, esse é seu RPO. É a meta da frequência com que você precisa de um ponto de recuperação confiável.” Essa definição destaca por que devemos nos preocupar em controlar o RPO: ele é um objetivo de negócios. Em última análise, a tecnologia (ou tecnologias) que você implementa para colocar suas estratégias de RPO em prática precisam atender a todos os aplicativos críticos e a muito mais, de forma consistente e previsível Etapa 3: Identificar as dependências de RTO O RTO é o tempo necessário para que seus sistemas, dados, aplicativos etc. fiquem disponíveis novamente. É o tempo de que você precisa para se recuperar. Contudo, ele é um objetivo, não uma garantia. Eu participei de um debate bem interessante outro dia sobre por que eu acredito que o RTO não é bem uma questão de tecnologia. A definição acima reitera isso. Claro que estou exagerando um pouco, pois é preciso usar várias tecnologias para que uma empresa ou departamento se recupere. Como o RPO, o RTO se trata de um objetivo, mas nesse caso a dependência de tecnologia diminui por causa das…pessoas. Trata-se da ação das pessoas, processos e tecnologias, e não de apenas criar uma infraestrutura certa e escolher as tecnologias certas de proteção de dados. Este assunto já foi abordado à exaustão por muitas pessoas inteligentes, portanto vou apenas mencionar o que o executivo dentro de mim pensa: 1 O RTO é um objetivo, não uma realidade. 2 É essencial testar seu plano de continuidade dos negócios e de recuperação de desastres e validar seu RPO. 3 Testar seu plano real de RTO é imprescindível. 4 As pessoas atrapalham. 5 As tecnologias como a virtualização complicaram ainda mais o processo. As pessoas costumam correr para casa no caso de um desastre. Por isso é melhor fazer o failover para outra região, em que as pessoas estejam trabalhando. Pense no que você faria. Vamos falar de alta disponibilidade agora? ARCSERVE WHITE PAPER | 4 WHITE PAPER A virtualização complicou bastante a minha vida Hoje a virtualização de servidores e desktops é uma realidade não só nas grandes empresas, mas em todos os tipos de negócios. Embora as taxas de adoção sejam diferentes em cada setor, tamanho de empresa e afinidade com a implantação de tecnologias de TI, a verdade é que os dias da virtualização apenas para teste e desenvolvimento em servidores ficaram no passado. A virtualização de desktops também está em rápida ascensão, oferecendo várias opções novas para a TI. Todos concordam que a virtualização de servidores oferece várias vantagens, como economia de dinheiro, maior flexibilidade etc. Ela também pode ajudar em cenários de recuperação de desastres e até oferecer um nível de alta disponibilidade. Muitos relatórios de analistas validam esses pontos, e não faltam exemplos de clientes. No entanto, quando se fala em proteção de dados, é importante lembrar de alguns fatores que podem aumentar bastante a complexidade da equação. Embora possa parecer que isso é contrário à ideia de que a virtualização é útil para proteção de dados e recuperação de desastres, não é o caso. O que estou dizendo é apenas que a virtualização oculta grande parte da complexidade, o que acaba complicando sua infraestrutura de proteção de dados. Acompanhe: 1 Você tem aplicativos nessas máquinas virtuais, que precisam ser protegidos. Com isso, você tem aplicativos críticos, mas também máquinas virtuais críticas 2 Há uma proliferação de VMs e aplicativos (quantidades enormes) 3 As métricas RPO e RTO, de negócios, ainda são pertinentes 4 É preciso de granularidade na restauração de aplicativos/dados 5 Nem tudo foi migrado de físico para virtual 6 É preciso ter bastante conhecimento para implantar e gerenciar o ambiente 7 Os componentes físicos que possibilitam a virtualização não são imunes a falhas, muito pelo contrário. Se você perder um desses sistemas, perderá também dezenas de máquinas virtuais, com sistemas operacionais, aplicativos e acesso de usuários. Portanto, é possível ter uma “perda” maior de uma só vez 8 Você precisa otimizar o armazenamento necessário para todas essas imagens de SOs. Acaba que o armazenamento não é tão barato assim. Claro que você pode, e até deve, fazer clusters buscando uma disponibilidade mais alta. Só que então você teria clusters críticos, com VMs críticas, que por sua vez têm aplicativos críticos… Com todos esses aplicativos, alguns deles críticos (e os dados associados a eles), você ainda precisa de um local para recuperação de desastres. Com isso, tudo precisa ser replicado, para o caso de seu local principal ficar indisponível. Só mais uma coisa… Você tem mais de uma tecnologia de virtualização? VMware? Hyper-V? XenServer? Red Hat KVM? As técnicas de proteção não são as mesmas. Na verdade elas variam bastante. ARCSERVE WHITE PAPER | 5 WHITE PAPER Você ainda tem alguns servidores físicos que ainda não migrou ou não deseja migrar. Ah, e ainda existe aquele negócio de nuvem. Alguns dados e VMs estão na nuvem, o que dificulta o planejamento da recuperação operacional. Novamente, isso não necessariamente é uma técnica ruim, mas ela aumenta a complexidade. Lembre-se de que você ainda precisa de backups de momentos no passado no caso de corrompimento lógico dos dados (integridade/consistência dos dados). Com isso, qual a granularidade do seu backup? Há camadas? Como é feita a integração de novas VMs ao esquema? Quem toma as decisões? O que quero dizer é que a implantação de ambientes virtuais trouxe um aumento da complexidade da proteção de dados. Isso não quer dizer que seja ruim, mas é algo que deve ser entendido e planejado. Caso contrário, você perderá o controle. A questão principal é: de que tipo de infraestrutura de proteção de dados você precisa para simplificar essa complexidade sem deixar de atender aos SLAs? Possuir várias soluções pontuais de proteção de dados não é a resposta, porque isso apenas aumenta a complexidade. Para manter o controle de um data center virtualizado, os administradores precisam de uma abordagem holística para o planejamento e a execução da proteção de dados. As políticas atuais devem ser revisadas e adaptadas para proteger o que é provavelmente uma infraestrutura híbrida de servidores físicos, virtuais e na nuvem. Para onde está indo o dinheiro? Agora que já o lembrei de coisas que você já sabia, mas preferia ignorar até realmente ter que lidar com elas quando já seria tarde demais, vamos falar sobre um triste assunto: o que falta nos orçamentos de TI de hoje, ou seja, a verba. Ao examinar a complexidade da sua infraestrutura atual de proteção de dados, pode ser útil avaliar uma taxonomia simples dos custos que estão tomando seus recursos, tempo, orçamento de manutenção e, o mais importante, sua capacidade de atender a SLAs, que é o que você recebe para fazer (desculpe ser tão direto). Aqui então está minha lista rápida de verificação de áreas (com comentários divertidos). O objetivo não é ser completa, mas sim um ponto de partida para um debate mais aprofundado. Alguns destes custos são diretos e outros indiretos. (Não sou um contador, então não precisamos ser acadêmicos demais.) Além disso, muitos dos custos são interligados e afetam você ou sua organização de proteção de dados. Portanto, ao examinar seu custo total de propriedade, leve em consideração o seguinte: 1 Administração/equipe: vocês são ótimos! Mas precisam de ferramentas para aumentar a eficiência, e precisam de uma vida fora do trabalho. 2 Treinamento: você fez aula mesmo? Sei. Mas, sério, muitos custos estão associados diretamente à complexidade da tecnologia ou à falta de treinamento. 3 Licenças: sempre um assunto delicado. Ligue para o setor de compras. 4 Largura de banda/rede: muito críticas. Basta observar o volume de dados copiados, especialmente em longas distâncias. A rede pode ser um impedimento para SLAs com RPO zero em longas distâncias (failover, replicação). ARCSERVE WHITE PAPER | 6 5 WHITE PAPER 5 Armazenamento (fita, disco, appliances): adoro eles, mas é preciso encontrar um equilíbrio entre desempenho, capacidade, custo, preparação para o futuro…Não vão dar sossego a você se gastar demais. 6 Energia: a menos que você realmente goste de andar de bicicleta e queira gerar a própria energia, essa é uma dimensão importante para se considerar. Entre outros custos associados ao data center estão o espaço e a refrigeração. 7 Conformidade: equipe, processos, auditorias, advogados, backups adicionais e mídia associada… fora da empresa. 8 Interrupção dos negócios: nos traz de volta à questão do RPO. Qual o custo da perda de dados? Ela pode levar a uma perda de receita, o que é um custo tanto direto quanto indireto a ser considerado. 9 Perda de produtividade: só acontece com os outros, certo? E os problemas de conformidade? Multas, cadeia, custo jurídico, e a carta que fazem você mandar para TODOS os clientes avisando que os dados pessoais deles podem ter sido expostos, porque alguém perdeu a fita de backup. Que marketing ótimo. Outra maneira de encarar isso é se concentrar nos riscos. A mitigação de riscos é essencial para os negócios, e se nos concentrarmos nos riscos de TI, há algumas áreas que valem a pena ser examinadas. Geralmente, analisar ameaças ao sistema como falhas de hardware, problemas de rede ou software, corrompimento dos dados, panes etc. é um ótimo começo. Há outras áreas de risco, como ameaças externas (hackers) e problemas relacionados a utilitários, mas é realmente imprescindível também levar em conta os riscos associados à interdependência cada vez maior dos aplicativos (pense na cadeia de valor). Todos conhecemos os fenômenos da natureza, que também são uma fonte de ameaças, especialmente devido ao aquecimento global, que tem causados comportamentos climáticos cada vez mais extremos. Essas ameaças devem ser classificadas e podem ser usadas para desenvolver uma avaliação de risco completa da sua infraestrutura de proteção de dados ou de TI. Em suma, é essencial examinar os custos e riscos em conjunto, especialmente no contexto do planejamento da recuperação de desastres. Isso proporcionará um retorno para a empresa. ARCSERVE WHITE PAPER | 7 WHITE PAPER Conclusão As infraestruturas de TI estão em evolução constante, tentando se ajustar à proliferação exponencial dos dados que estamos observando a cada ano. Isso tem um impacto direto na infraestrutura de proteção de dados e a tem deixado mais complexa devido ao surgimento de diversas soluções para atender à variedade de plataformas, aplicativos e conjuntos de dados. Embora a virtualização seja uma tecnologia fantástica que proporciona maior produtividade e flexibilidade, é essencial compreender o custo oculto que ela traz e suas implicações em relação às estratégias de proteção de dados para continuar cumprindo os SLAs e aproveitar a verba ao máximo. Já era hora de domar o monstro que criamos! A adoção de várias soluções pontuais de proteção de dados não é a resposta, pois isso aumenta o caos e atrapalha sua capacidade de atender com consistência aos SLAs. A resposta provavelmente está em uma visão mais holística da infraestrutura, que unifique os esquemas de proteção de dados começando com suas necessidades empresariais e um entendimento completo dos aplicativos e dados que devem ser protegidos. Como disse uma pessoa muito conhecida do setor, o backup está quebrado1. É hora de consertá-lo. Sobre o autor Christophe Bertrand é o vice-presidente de marketing de produtos da Arcserve na CA Technologies. Sua grande experiência com software e hardware na área de armazenamento inclui responsabilidades de marketing de produtos em empresas como a Legato Systems (agora parte da EMC), VERITAS (agora parte da Symantec), Maxtor, Hitachi Data Systems e DataDirect Networks. Christophe é formado com mérito em Administração de Empresas e tem MBA pela Middlesex University. 1 “Gartner: The Broken State of Backup”, Dave Russell Para obter mais informações sobre o Arcserve, acesse arcserve.com Copyright © 2015 Arcserve. Todos os direitos reservados. Linux® é marca comercial registrada de Linus Torvalds nos Estados Unidos e/ou em outros países. UNIX é marca comercial registrada do The Open Group. Microsoft, Hyper-V, Windows, SQL Server, SharePoint e Windows Azure são marcas comerciais registradas ou marcas comerciais da Microsoft Corporation nos Estados Unidos e/ou em outros países. Todas as outras marcas comerciais, nomes comerciais, marcas de serviço e logotipos aqui mencionados pertencem às respectivas empresas. ARCSERVE WHITE PAPER | 8