Até que Ponto Seus Dados estão Seguros? Por Kris Land, CTO, diretor de tecnologia da InoStor Corp. No mundo de negócios da atualidade, nenhuma questão é mais importante para as grandes centrais de armazenamento do que a preservação e a integridade de seus dados. E os aplicativos utilizados pelo Governo não são diferentes. Uma pequena combinação de problemas físicos ou elétricos pode, num piscar de olhos, causar mais prejuízos econômicos do que um incêndio devastador. Considerando a rotina de utilização, todos os discos eventualmente irão falhar. Sabendo disso, as pessoas que gerenciam sistemas de armazenamento utilizando diversos discos geralmente tentam proteger seus dados com alguma forma de recuperação a partir de falhas. Na maioria dos casos, a principal defesa contra as falhas de discos se refere a dois simples algoritmos RAID que foram desenvolvidos há mais de quinze anos – um deles com base no espelhamento e outro com base em paridade. Embora seja verdade que esses algoritmos podem proteger contra a perda de dados, caso ocorra alguma falha de disco em um conjunto de discos, a partir do momento em que ocorre a falha até que o conjunto RAID é completamente reconstruído, uma segunda falha de disco pode ocorrer a qualquer momento. Por várias razões, vale a pena considerar a probabilidade de ocorrerem várias falhas de disco: - Um evento que danifica o disco provavelmente vai danificar mais de um disco – tal como um ambiente sujeito à excessiva umidade ou temperatura, um grande impacto no dispositivo de armazenamento ou um pico de voltagem. - Podem ocorrer grandes atrasos. Uma falha pode acontecer quando não é possível fazer uma substituição de disco, em um local remoto ou durante uma mudança de turno. Quanto mais tempo levar para se restaurar um disco que apresentou uma falha, maiores serão os problemas que outro disco causará se falhar durante o intervalo desprotegido. Além disso, continuar em operação com um disco apresentando falha aumenta efetivamente o nível de sobrecarga e estresse nos discos que não apresentaram falhas. - O custo da proteção adicional tem diminuído. Em comparação com os discos SCSI, os discos IDE/ATA têm maior capacidade, mas apresentam uma menor expectativa de duração e levam mais tempo para serem recuperados – colocando grandes quantidades de dados em maior risco de sofrerem uma falha de disco. Entretanto, uma vez que o espaço em disco está se tornando cada vez mais barato, o custo da proteção adicional também está ficando cada vez menor. - Quanto mais discos em um conjunto, maior a probabilidade de que mais de um disco apresente problemas a qualquer momento, especialmente se todos os discos no conjunto estiverem prestes a atingir sua expectativa de duração normal. - As pessoas cometem erros. Durante o período vulnerável em que é realizada a substituição de um disco, um funcionário pode remover o disco errado. - A constante necessidade de que os dados estejam disponíveis pode ser demasiadamente importante para se correr riscos. Mesmo tendo um backup em fita, grandes perdas de tempo podem ocorrer se o sistema de armazenamento em rede precisar ser recuperado a partir de uma fita, e a restauração a partir de fita geralmente não permite a recuperação das modificações que foram efetuadas depois do backup mais recente. Os algoritmos de espelhamento mais comumente utilizados são RAID-1 e RAID-10. Freqüentemente, eles são confundidos entre si. RAID-1 utiliza um disco para dados e um ou mais discos para espelhamento, enquanto RAID-10 (algumas vezes, chamado de 0 + 1) utiliza um conjunto de discos-espelho para o backup de um igual número de discos com dados distribuídos (striped) - o armazenamento de dados distribuído é utilizado para aumentar a velocidade em relação ao desempenho de um disco com densidade simples (single-disk). O lado negativo de qualquer tipo de espelhamento, conforme está descrito abaixo, é que, embora esse método proteja contra a perda aleatória de apenas um único disco, a capacidade utilizável é reduzida à metade do número total de discos no conjunto. Outro meio de se considerar esta alternativa é que o espaço em disco necessário para fazer cópias espelhadas custará algumas vezes a quantidade de espaço em disco exigida para a proteção de backup com um sistema RAID 5 que proporciona a mesma capacidade de utilização e o mesmo nível de proteção. RAID 5 exige o equivalente a apenas um disco para paridade, a fim de proteger qualquer número de discos contra uma falha em um único disco. Embora este método seja mais eficiente do que o espelhamento, ainda existe o problema de que todos os dados são perdidos, caso ocorra qualquer falha em um segundo disco antes que o RAID afetado seja recuperado. A importância de proteger contra várias falhas em disco tem gerado muitos experimentos. O RAID do software Linux pode efetuar a recuperação depois da falha de vários discos, organizando em camadas um conjunto RAID ‘em cima’de outro, combinando o ‘mix’de espelhamento, paridade e armazenamento de dados em trilhas, a fim de aumentar o nível de proteção. As duas combinações mais comumente mencionadas são RAID 5+1 (um par espelhado de conjuntos RAID-5) e RAID 5+5 (um RAID-5, cujos “discos componentes” são RAID 5). Vários algoritmos complexos de criptografia também têm sido desenvolvidos para proteger contra a perda de mais de um disco. O problema com os RAIDs compostos e com os algoritmos de criptografia é que eles perdem tanto espaço de armazenamento para redundância e/ou tanta velocidade de processamento para cálculo, que raramente eles são utilizados ou mesmo oferecidos como opções com produtos NAS – forçando os usuários que precisam de proteção a escolher entre a paridade e o espelhamento. Em vez de forçar um padrão de proteção (e vulnerabilidade) para o usuário, com base nas capacidades de espelhamento ou de proteção por paridade de um único disco, uma alternativa mais ideal para a proteção de dados seria ajustar o nível de segurança contra a perda de disco às necessidades dos usuários. Já existe um novo produto com base neste conceito. Denominada RAIDn, esta patente avançada em tecnologia RAID permite que o usuário selecione um nível desejado de segurança de disco, nível esse que varia de zero (idêntico ao RAID 0 convencional e não oferecendo nenhuma proteção contra a perda de dados em disco) à proteção contra a perda de qualquer número de discos. Entre essas duas opções extremas, existe a segurança contra a perda de um único disco (muito semelhante a RAID 5, que possibilita que um disco falhe sem causar nenhuma perda de dados) e a segurança contra perda de dois discos (atualmente disponível apenas em sistemas especiais, nos quais são oferecidas combinações de RAIDs, como RAID 1+5 ou 51). Embora seja possível conseguir proteção contra a perda de dois ou mesmo de três discos por meio de combinações convencionais de RAID, RAIDn pode efetuar a recuperação a partir de várias falhas simultâneas, sem sacrificar uma grande quantidade de espaço em disco utilizável e sem causar um declínio significativo no desempenho. Em um conjunto de discos de qualquer tamanho, o número de falhas aleatórias a partir das quais um usuário pode efetuar a recuperação com RAIDn sempre é igual à quantidade de espaço em disco reservado para a segurança dos dados (paridade). A segurança de dados com RAIDn pode ser utilizada, se necessário, para reconstruir os dados a partir de qualquer conjunto aleatório de discos perdidos. Por exemplo, para proteger contra a perda de até duas falhas de discos simultâneas, o usuário reserva o espaço equivalente a dois discos para a segurança de dados com RAIDn, que são, na verdade, distribuídos (striped), em todos os discos no conjunto, como mostra a Figura 1. Figura 1: segurança por paridade, com RAID n, com dados armazenados em trilhas A Figura 2 mostra como RAIDn utiliza muito menos espaço em disco para segurança por paridade do que o RAID 5+1 utiliza para combinar espelhamento com paridade. A redundância adicional exigida pelos algoritmos compostos, como RAID 5+1, é espaço em disco desperdiçado. RAIDn está tornando obsoletos todos os algoritmos RAID compostos. Figura 2: Comparação entre RAIDn e RAID 5 + 1 Cerca de 80% dos conjuntos RAID-5 utilizados nos atuais aplicativos de dados têm um ou mais “ Hot Spares” (Disco sobressalente). Estes discos são adicionados constantemente, sem oferecer nenhum benefício direto ao conjunto associado ao disco. O resultado é um falso senso de segurança, que é potencialmente perigoso. Se um segundo disco falhar ou se o disco errado for removido acidentalmente enquanto o conjunto é recuperado, todos os dados desse volume serão perdidos! A tecnologia RAIDn permite que o usuário defina a segurança para o nível 1 + (número de “Hot Spares”), sem a necessidade de adquirir discos adicionais. Como resultado, o conjunto RAIDn pode tolerar um maior número total de falhas de discos simultâneas e aleatórias, sem que ocorra perda de dados. Qualquer número de “Hot Spares”também pode ser utilizado com RAIDn, permitindo que um igual número de discos com falhas sejam recuperados automaticamente, sem a necessidade de intervenção humana. Contudo, se o propósito de utilizar “Hot Spares” for o de recuperar rapidamente a proteção contra discos perdidos para um RAID com problemas, deve-se observar que, com RAIDn, a proteção contra perda de discos nunca é interrompida, nem mesmo temporariamente, caso ocorra uma falha de um único disco. Aumentar o nível de segurança com RAIDn proporciona melhor proteção do que acrescentar “Hot Spares”. Quase todo o restante do mercado RAID consiste de sistemas RAID 10 (ou RAID 1+0). Quando o desempenho e a segurança do sistema são as maiores preocupações, os sistemas RAID 10 têm duas sérias desvantagens: o custo do espelhamento (ou capacidade inversa) e o nível geral de segurança garantida. Os espelhamento por si só oferece até mesmo um menor benefício pelo espaço em disco que ele consome, em comparação com os RAIDs compostos. Observe, na Figura 3, como o RAID 10 não somente exige mais discos do que o RAIDn para a mesma capacidade de armazenamento, como também proporciona menor proteção. Em qualquer contexto em que valha a pena considerar RAID10 ou um RAID composto, RAIDn será ainda muito mais econômico. Para a proteção contra a perda de um único disco, RAID 5 será uma opção melhor. Figura 3: Comparação entre RAIDn e o espelhamento com RAID 10 Para obter o correspondente à capacidade do RAID-5, qualquer sistema que utilize espelhamento, como o sistema que é mostrado aqui, vai exigir duas vezes o número de discos para proteção, menos um. Por exemplo, considerando o preço atual de US$844,00 por disco com capacidade de 181GB, um sistema RAID-5 com dois Terabytes custaria US$10.128. O equivalente à capacidade de armazenamento desse mesmo sistema com dois Terabytes, utilizando RAID 10, custaria US$18.568, sem obter nenhum beneficio de desempenho com os dez discos extras. A maioria das pessoas pensa que a redundância de discos é muito maior quando cada disco é espelhado. Mas esse não é o caso. É verdade que, se toda a metade superior ou toda a metade inferior dos discos espelhados falhar ao mesmo tempo, os dados poderão ser recuperados; mas o conjunto inteiro será perdido, se qualquer par de discos espalhados vier a falhar. É arriscado demais apostar qual disco vai falhar e qual não vai falhar. Como se pode ver nos exemplos acima, as atuais técnicas de espelhamento e paridade, mesmo quando agregadas em RAIDs compostos, têm grandes desvantagens, que forçam os usuários de RAID a fazerem difíceis escolhas. Algumas vezes, isso é chamado de Triângulo RAID, como mostra a Tabela 1, abaixo. Tipo de RAID RAID 0 RAID 3,4,5 RAID 1+0 (10) RAID 1+5 (15) Prós Rápida leitura e gravação, maior capacidade Contras Nenhuma segurança, se qualquer disco falhar Segurança contra perda de 1 Muito mais lento do que disco, capacidade = todos os RAID 0 discos – 1 Rápida leitura, ½ do Dobro do custo ou metade desempenho de gravação, da capacidade de utilização garantia contra perda de um disco Segurança contra perda de 3 Dobro do custo ou metade discos da capacidade de utilização ou baixa performance Tabela 1: o triângulo RAID A Tabela 1 mostra que a opção pelo RAID convencional proporciona um nível de controle muito inferior. E como as versões compostas dos RAIDs convencionais não são nem mesmo oferecidas como opção com a maioria dos produtos NAS, os usuários raramente são protegidos contra a perda de mais de um disco. Também é importante notar que qualquer garantia contra perda de mais de três discos não é possível com as combinações de RAID convencionais. Alguns setores governamentais e algumas instituições bancárias têm RAID 5+1 para informações que precisam permanecer totalmente disponíveis, mas quando RAID 5+1 é comparado com RAIDn, as perdas relacionadas a desempenho e o custo em dólares referente à perda de capacidade são muito grandes. O pacote RAIDn é equivalente aos RAIDs convencionais mais populares, mas ele também oferece várias novas opções. Como podemos ver na Tabela 2, RAIDn permite que os usuários aumentem o nível de garantia contra a perda de discos, ao mesmo tempo em que consome menor espaço em disco para proteção do que as combinações de RAID. Alem disso, RAIDn possibilita uma precisa escolha da garantia contra perda de discos, exigindo apenas um disco adicional para cada nível de proteção agregado, um recurso que não pode ser comparado com nenhuma alternativa convencional. Níveis RAID 0 RAID RAID 1 RAID 2 RAID 3 RAID 4 RAID 5 n Prós Leitura e gravação mais rápidas, maior capacidade Garantia contra perda de 1 disco, Capacidade= todos os discos – 1, Leitura rápida Garantia contra perda de 2 discos, capacidade = todos os discos – 2, Leitura rápida Garantia contra perda de 3 discos, capacidade = todos os discos – 3, Leitura rápida Garantia contra perda de 4 discos, capacidade= todos os discos – 4, Leitura rápida Garantia contra perda de 5 discos, capacidade = todos os discos – 5, Leitura rápida Contras Nenhuma segurança, se qualquer disco falhar Escrita mais lenta que com RAID 0 Escrita mais lenta que com RAID 0 Escrita mais lenta que com RAID 0 Escrita mais lenta que com RAID 0 Escrita mais lenta que com RAID 0 Tabela 2: níveis de segurança e desvantagens do RAIDn Outra importante modificação que permanece oculta até que se comece a utilizar RAIDn é sua habilidade de recuperar vários discos tão rapidamente quanto o RAID 5 pode recuperar um único disco. Além disso, um recurso de conversão brevemente estará disponível para o usuário, com a finalidade de ajustar o nível de segurança com o RAIDn à quantidade de espaço em disco não utilizado atualmente disponível. O espaço em disco que é desperdiçado pela falta de uso é convertido para aumentar a proteção de backup. E caso esse espaço em disco posteriormente se torne necessário para o armazenamento de dados, o nível de proteção pode então ser reduzido pelo mesmo processo dinâmico. E a qualquer momento desse processo de conversão, os dados estão totalmente protegidos contra a possibilidade de perda aleatória de disco. Considerando isso, para qualquer nível de proteção que um usuário deseje, a segurança do RAIDn corresponde ou excede os benefícios do RAID convencional. Esperamos que o RAIDn em breve se torne padrão em relação ao qual novas tecnologias RAID serão comparadas. InoStor a Tandberg Data company Tandberg Data do Brasil São Paulo, SP Tel: 011-5042-2270 FAX: 011-5042-4043 http://www.inostor.com.br