Desmistificando a desduplicação de
dados para backup com o Dell DR4000
Este informe oficial técnico da Dell explica como a desduplicação de
dados com o DR4000 pode ajudar a sua organização a economizar tempo,
espaço e recursos financeiros.
John Bassett
Marketing de pequenas e médias empresas
Desmistificando a desduplicação de dados para backup com o Dell DR4000 v1.0
Este documento serve apenas para fins informativos e pode conter erros tipográficos e imprecisões
técnicas. O conteúdo é fornecido da forma em que se encontra, sem garantias expressas ou
implícitas de qualquer tipo.
© 2012 Dell Inc. Todos os direitos reservados. A Dell e suas afiliadas não se responsabilizam por
omissões nem por erros tipográficos ou fotográficos. Dell, o logotipo Dell e PowerEdge são marcas
comerciais da Dell Inc. Intel e Xeon são marcas registradas da Intel Corporation nos EUA e em outros
países. Microsoft, Windows e Windows Server são marcas comerciais ou marcas registradas da Microsoft
Corporation nos Estados Unidos e/ou em outros países. Outras marcas e nomes comerciais podem ser
usados neste documento para se referir a entidades que reivindicam as marcas e nomes, ou a seus
produtos. A Dell isenta-se do interesse na propriedade de marcas e nomes de terceiros.
Janeiro de 2012| Rev 1.0
ii
Desmistificando a desduplicação de dados para backup com o Dell DR4000 v1.0
Conteúdo
Resumo executivo ...................................................................................................... 4
Introdução ............................................................................................................... 4
O que é desduplicação de dados? .................................................................................... 5
Organização em blocos: um conceito essencial ................................................................... 6
Metodologias de blocos para desduplicação de dados ........................................................... 7
Janela fixa/bloco fixo ............................................................................................... 7
Janela deslizante/bloco variável ................................................................................. 8
Desduplicação em sequência versus desduplicação pós-processo ............................................. 9
Desduplicação baseada em destino versos desduplicação baseada em origem............................ 10
Soluções de equipamentos de software versus hardware ..................................................... 11
Cálculo das taxas de desduplicação ............................................................................... 13
Resumo/Por que escolher o Dell DR4000 para desduplicação de backup?.................................. 15
Tabelas
Tabela 1.
Como as taxas de desduplicação podem melhorar com o tempo. ............................... 14
Figuras
Figura 1.
Desduplicação reduz o volume de dados armazenados. ............................................ 6
Figura 2.
A desduplicação usa os blocos para classificar os dados armazenados. .......................... 7
Figura 3.
Como o método janela fixa/bloco fixo agrupa os dados em blocos. .............................. 8
Figura 4.
Como o método janela deslizante/bloco variável agrupa os dados em blocos.................. 8
Figura 5.
As quatro abordagens à desduplicação de dados. .................................................. 10
Figura 6.
Como os silos de dados usam mais storage. ......................................................... 12
Figura 7.
A desduplicação de software exige mais hardware. ............................................... 12
Figura 8.
O Dell DR4000 reduz a necessidade de vários servidores de backup. ........................... 13
iii
Desmistificando a desduplicação de dados para backup com o Dell DR4000 v1.0
Resumo executivo
Neste documento, examinaremos a nova tecnologia de desduplicação de dados. A desduplicação pode
gerar grandes economias, o que torna o backup de disco para disco mais viável. No entanto, nem todas
estas tecnologias são iguais. Mostraremos diferentes abordagens da desduplicação, assim como seus
custos e benefícios. Neste contexto, apresentaremos a tecnologia Ocarina Deduplication da Dell e
demonstraremos porque é a melhor escolha para lidar com a desduplicação de dados.
Introdução
De acordo com a Gartner, o crescimento de dados apresenta o maior desafio para a infraestrutura de
hardware de um data center. 1 Conforme os dados continuam crescendo a uma taxa de 50% ao ano, 2as
organizações de TI lutam para encontrar uma solução de backup para acompanhar o crescimento de
seus ambientes de armazenamento.
Além do volume total de dados, existem outras pressões na infraestrutura de armazenamento. O acesso
aos dados atuais é fundamental para a administração de qualquer empresa. Uma interrupção na
disponibilidade dos dados pode prejudicar a continuidade dos negócios. Qualquer boa análise de
impacto nos negócios precisa considerar a rapidez com que o acesso aos dados deve ser restaurado (o
objetivo de tempo de recuperação ou RTO) e a data em que os dados foram criados (o objetivo de
ponto de recuperação ou RPO).
O backup em fita não é mais uma solução eficiente para todos os cenários de proteção de dados. Muitas
organizações estão recorrendo às soluções de backup baseadas em disco para auxiliar na ampliação ou,
em alguns casos, substituir suas soluções de backup existentes. No entanto, esse método de backup
apresenta seu próprio desafio. A necessidade por uma maior retenção de dados gera um apetite
enorme e dispendioso de armazenamento.
A desduplicação de dados é tão importante porque praticamente 75% de todos os dados armazenados
3
em uma organização comum são cópias. O envio de um anexo de e-mail para vários destinatários cria
uma cópia dessa anexo para cada destinatário. A clonagem de máquinas virtuais cria várias cópias de
imagens idênticas de sistemas operacionais. Muitos outros processos fundamentais criam cópias
idênticas de dados. É por isso que a tecnologia de desduplicação pode ser tão importante: em resumo,
ela elimina as cópias. Por motivos óbvios, a gravação de uma cópia única no disco, em vez de 100,
pode economizar muito espaço. A desduplicação dos dados faz com que pareça que o usuário ou
aplicativo tem sua própria cópia. Isso é essencial, já que faz com que as economias de espaço sejam
totalmente transparentes. Todos os processos existentes continuam funcionando sem modificações,
mas usam consideravelmente menos espaço no armazenamento.
A remoção de dados redundantes oferece muitos benefícios. Por exemplo, com a desduplicação, o
backup de dados de locais remotos exige bem menos dados para serem transmitidos em uma WAN.
Desduplicando os dados, reduz-se os requisitos de largura de banda e as organizações obtêm
flexibilidade para projetar seus planos de backup e recuperação. Isso possibilita maior automação e
replicação mais frequente, o backup de dados de escritórios remotos para um local central se torna
1
Análise de pesquisa do usuário: principais tendências que moldam o futuro da infraestrutura do data
center em 2011 Gartner.
2
A década do universo digital – Você está pronto? IDC.
3
Ibid.
4
Desmistificando a desduplicação de dados para backup com o Dell DR4000 v1.0
mais eficiente e as operações de recuperação de dados se tornam mais confiáveis e exigem menos
supervisão do que antes.
Assim como na virtualização, a desduplicação tem potencial para ser uma tecnologia transformadora no
data center. Antes da virtualização, a configuração de um sistema com uma finalidade especial era
dispendiosa e exigia muito trabalho. A adição de memória a processadores para um servidor costumava
exigir acesso físico à caixa, mas agora exige apenas alguns cliques do mouse. Em muitos casos, os
usuários podem reconfigurar suas MVs sem nem precisar envolver a TI. Como a desduplicação reduz
significativamente o armazenamento necessário para backup, ela pode reduzir os custos de hardware
de forma considerável. Os benefícios da desduplicação não param nos custos de hardware. Esta
teconologia também pode significar backups e recuperação de desastres mais frequentes e
direcionados que sejam projetados para necessidades específicas da organização, sem restrição da
infraestrutura de data center. Da mesma maneira que a virtualização recebe mais trabalho do mesmo
hardware, a desduplicação faz com que você obtenha uma recuperação melhor do mesmo
armazenamento.
O que é desduplicação de dados?
A desduplicação reduz o volume de dados armazenados com a remoção de cópias redundantes. Ela
substitui os dados originais por um indicador, agora armazenado uma vez, que fica em seu lugar. Este é
um conceito conhecido, já que a URL é um tipo de indicador; quando alguém compartilha um vídeo no
YouTube, eles enviam a URL do vídeo em vez do próprio vídeo. Há apenas uma cópia do vídeo, mas ele
está disponível para todos.
A desduplicação usa este princípio de uma forma mais sofisticada e automatizada. Os dados são
desduplicados da forma como são gravados, e a redução de espaço é muito maior do que no exemplo
acima.
A desduplicação pode ser aplicada a dados em armazenamentos principais, armazenamentos de
backup, armazenamentos de cloud computing ou dados em movimento para replicação, como
transferências de LAN e WAN. A desduplicação tem o potencial para diminuir os requisitos de
capacidade em disco e largura de banda em até 98%.
5
Desmistificando a desduplicação de dados para backup com o Dell DR4000 v1.0
Figure 1.
Desduplicação reduz o volume de dados armazenados.
Ao considerar soluções de desduplicação, uma variável importante a ser pensada é o efeito na taxa de
incorporação (a taxa em que o servidor pode aceitar e armazenar dados sem perder o ritmo). Qualquer
processo adicionado ao pipeline de armazenamento tem potencial para diminuir a taxa de incorporação
e, com isso, reduzir a performance do servidor.
Organização em blocos: um conceito essencial
A desduplicação simples funciona em blocos de tamanho fixo. Métodos mais avançados de
desduplicação funcionam organizando dados em blocos. Um bloco tem limitações de tamanho. Ele pode
ter 4 KB, 32 KB, ou qualquer outro tamanho adequado para os dados em questão. O uso da palavra
“bloco” é parecido com a psicologia; as pessoas aprendem a processar informações de forma mais
eficiente agrupando-as em “blocos” maiores.
O Dell DR4000 usa algoritmos sofisticados com correspondência a padrões para verificar a próxima
seção do fluxo de dados. Esse processo determina o tamanho ideal do bloco para os dados de entrada e
atribui um valor único ao bloco, chamado de identidade. O Dell DR4000 usa técnicas padrão do setor
para garantir que uma determinada identidade seja atribuída a um conjunto único e exclusivo de bits.
Em seguida, o Dell DR4000 verifica a identidade em seu dicionário. Se ela corresponder aos dados
existentes no dicionário, o Dell DR4000 cria um indicador e adiciona um à contagem de referências. Se
a identidade não corresponder aos dados existentes no dicionário, eles são armazenados e a identidade
é adicionada a ele. Depois de processar o bloco, o Dell DR4000 continua processando o fluxo de dados.
6
Desmistificando a desduplicação de dados para backup com o Dell DR4000 v1.0
Figure 2.
A desduplicação usa os blocos para classificar os dados armazenados.
Metodologias de blocos para desduplicação de dados
A maioria dos mecanismos de desduplicação funciona dividindo os dados em blocos. No entanto, as
maneiras com que produtos diferentes dividem os dados variam bastante. Como em quase tudo na vida,
há compensações. Métodos mais avançados podem obter taxas de redução muito melhores, mas
também podem exigir mais CPU, disco ou recursos de memória. Existem dois métodos essenciais de
existência dos blocos: janela fixa/bloco fixo e janela deslizante/bloco variável. Cada método tem suas
vantagens e desvantagens.
Janela fixa/bloco fixo
7
Desmistificando a desduplicação de dados para backup com o Dell DR4000 v1.0
O método mais simples da organização em blocos é janela fixa/bloco fixo. Neste método, o tamanho do
bloco é sempre o mesmo. Embora dispositivos diferentes possam usar tamanhos de bloco diferentes, o
tamanho do bloco de um determinado dispositivo que use este método permanece constante. O
dispositivo sempre calcula uma identidade em um bloco físico para descobrir se há compatibilidade.
Após o processamento de um bloco, a janela aumenta na proporção do tamanho de um bloco e o
processo se repete. Embora esse método exija um mínimo de sobrecarga de CPU, já que não considera
alternações nos dados, ele é menos eficaz do que métodos mais avançados.
Figure 3.
Como o método janela fixa/bloco fixo agrupa os dados em blocos.
Janela deslizante/bloco variável
O método de bloco variável oferece todas as vantagens do método de bloco fixo, devido à sua
capacidade de aumentar o tamanho de bloco permitido no processo de desduplicação para encontrar
seções muito maiores do que um bloco. Como explicado na seção Organização em blocos: um conceito
essencial, o Dell DR4000 determina automaticamente o tamanho ideal do bloco. O Dell DR4000 usa
informações semânticas e a estrutura do conteúdo no fluxo de backup para descobrir os limites naturais
dos dados. Isso faz com que o Dell DR4000 compense por alternações nos dados e ainda descubra os
blocos ideais de forma repetitiva. Esse método obtém reduções melhores do que os outros dois, mas
exige maior sobrecarga de CPU.
Figure 4.
Como o método janela deslizante/bloco variável agrupa os dados em blocos.
A Dell desenvolveu o DR4000 para utilizar o método janela deslizante/bloco variável porque ele
oferece as melhores taxas de desduplicação. Considere uma apresentação do PowerPoint que seja um
pouco alterada entre os backup, por exemplo, com a adição de um slide. Isso alterna os dados no fluxo
de backup e pode prejudicar os métodos de bloco fixo. No entanto, como explicado acima, o Dell DR
4000 pode usar o conteúdo e a estrutura dos dados para descobrir limites naturais e, dessa maneira,
obter a melhor desduplicação pelos backups.
8
Desmistificando a desduplicação de dados para backup com o Dell DR4000 v1.0
Como o DR4000 é um equipamento de hardware, pode oferecer estas reduções sem carregar os
recursos de CPU dos servidores no data center. A Dell otimizou especificamente o hardware subjacente
no DR4000 para este método de agrupamento de blocos e o desenvolveu para taxas máximas de
entrada de dados.
Desduplicação em sequência versus desduplicação pós-processo
Por definição, a desduplicação exige o processamento de dados para determinar e reduzir suas cópias.
Os dados podem ser processados em três pontos: antes de serem gravados em disco (desduplicação em
sequência), depois de serem gravados em disco (desduplicação pós-processo) ou ambos antes e depois
de serem gravados em disco. É importante que você compreenda as vantagens e desvantagens desses
pontos, já que o método escolhido afeta a velocidade de entrada e a área de ocupação do data center.
A desduplicação em sequência processa os dados antes que eles sejam gravados em disco. Isso significa
que apenas os dados excluídos serão gravados no disco, o que oferece uma performance mais previsível
e facilita o dimensionamento adequado de uma solução. No entanto, o processamento em sequência
comanda a velocidade de entrada. Devido às demandas do processamento de dados em tempo real,
manter a performance em níveis aceitáveis pode exigir muito da capacidade de computação.
A desduplicação pós-processo analisa os dados depois que eles são gravados em disco. Depois que os
dados são gravados, o processo de desduplicação é iniciado e retoma o espaço em disco. Como os dados
não precisam ser processados em tempo real, as demandas de computação não são tão pesadas. No
entanto, o pós-processo apresenta as seguintes desvantagens:
•
Requisitos de maior espaço: ocorre um período intermediário em que você precisa de
armazenamento disponível suficiente para conter os dados originais e os dados desduplicados.
No mínimo, isso leva a cálculos de dimensionamento mais complicados, mais requisitos de
armazenamento e mais configuração. Na pior das hipóteses, é possível ficar sem espaço com o
uso desse método, principalmente se o processo de desduplicação do backup anterior não tiver
sido concluído.
•
Requisitos de maior largura de banda: para executar o pós-processo nos dados, primeiro você
precisa gravar os dados desduplicados e lê-los novamente para desduplicar e, em seguida,
gravá-los e armazená-los mais uma vez. Isso aumenta consideravelmente os requisitos de E/S
do backup.
•
Requisitos de mais tempo: como o backup é formado por dois processos sequenciais diferentes,
a quantidade de tempo necessária para o backup aumenta. Isso pode limitar as oportunidades
de execução de backup sem influenciar a eficiência operacional.
Um terceiro método é desduplicar a sequência de dados e, em seguida, aplicar a etapa de pósprocesso. Isso permite um dimensionamento previsível e até maiores economias de espaço. Com a
desduplicação em sequência, a replicação pode ser executada durante a entrada de dados, o que
economiza bastante tempo no método de pós-processo de duas fases. Também tem a vantagem de
oferecer restaurações mais rápidas do backup mais recente.
O Dell DR4000 ainda fez mais otimizações e pode realmente desduplicar e compactar dados como parte
do mesmo processo sequencial. Isso oferece os benefícios da compactação sem exigir que o espaço seja
dedicado à preparação de dados não compactados.
9
Desmistificando a desduplicação de dados para backup com o Dell DR4000 v1.0
Figure 5.
As quatro abordagens à desduplicação de dados.
Desduplicação baseada em destino versos desduplicação baseada
em origem
Agora que você decidiu como desduplicar os dados da sua organização, o próximo ponto é onde fazer
isso. Você pode desduplicar na origem, antes que eles entrem na rede, ou quando eles chegam ao
armazenamento de destino. A seleção do método correto para a sua organização é essencial para o
êxito da implantação.
A desduplicação baseada no destino exige que o servidor de backup e/ou equipamento de
desduplicação no destino lide com todo o processo. Isso significa que não há sobrecarga no cliente nem
no servidor que estiver passando pelo backup. Esta solução é transparente para os fluxos de trabalho
existentes, portanto, gera interrupções mínimas. No entanto, ela exige mais recursos de rede porque
os dados originais, com toda sua redundância, precisam entrar na rede. As soluções baseadas em
destino podem ser fornecidas por software ou um equipamento de hardware dedicado, como o Dell
DR4000.
A desduplicação baseada na origem processa os dados antes que eles entrem na rede. Isso reduz o
volume de dados que precisa ser transmitido, o que pode ser importante em ambientes com largura de
banda restrita. Esse método normalmente é usado em situações em que escritórios remotos precisam
fazer o backup de dados para o data center principal. Nesse caso, a desduplicação se torna
responsabilidade do servidor do cliente.
A Dell acredita que a replicação com o uso de soluções de desduplicação baseada no destino tanto na
instalação principal quanto no escritório remoto é a melhor opção, que oferece a maior flexibilidade, a
performance mais previsível e o RTO mais curto. Implantando sistemas nos dois locais, os dados de
backup são desduplicados no dispositivo de backup de destino no escritório remoto. Após a conclusão
do backup remoto, os dados desduplicados podem ser replicados para o data center principal. Com essa
arquitetura, você pode restaurar todos os dados de forma local tanto no datacenter principal quanto no
escritório remoto, diminuindo significativamente o RTO (objetivo de tempo de recuperação) para
situações de recuperação do escritório, já que os dados ficam disponíveis localmente.
10
Desmistificando a desduplicação de dados para backup com o Dell DR4000 v1.0
Soluções de equipamentos de software versus hardware
A desduplicação pode ser implementada em hardware ou software. Como este processo exige mais dos
recursos de CPU, RAM e armazenamento, ela pode afetar significativamente a performance de entrada.
É importante compreender as compensações e tomar uma decisão consciente.
Alguns fornecedores integraram a funcionalidade de desduplicação em suas ofertas de software de
backup. A vantagem óbvia nesse cenário é a obtenção da desduplicação dos dados com pouquíssimo
esforço, já que ela já está integrada ao software de backup. No entanto, isso tem seu custo; estes
custos podem ser diretos ou na forma de mais requisitos de hardware.
Os custos diretos da desduplicação de software se apresentam na forma de licenças e taxas. Os ISVs de
software oferecem capacidade de desduplicação em vários modelos de preços diferentes. Por exemplo,
alguns cobram uma taxa fixa única para licenciar a capacidade como um suplemento. Já outros
oferecem um modelo baseado em uso em que o custo tem base no número de terabytes de dados
desduplicados. Alguns fornecem a funcionalidade gratuitamente. Um data center existente
provavelmente não mudará seu software de backup com base unicamente na desduplicação, mas saber
como o ISV cobra este processo é um dos fatores de custo a ser considerado.
Quanto aos requisitos de hardware adicionais, é importante lembrar que no modelo de solução de
software, a desduplicação é responsabilidade do servidor de mídia/backup. Isso significa que o servidor
não apenas precisa executar as funções tradicionais do software de backup, como também terá o
trabalho adicional de desduplicar dados. Para reduzir a sobrecarga no servidor de backup, os
algoritmos de desduplicação do ISV normalmente usam um algoritmo básico de janela fixa/bloco fixo.
Embora isso não reduza as demandas no servidor, também não produz a melhor compactação, como
observado acima. Portanto, os dados desduplicados resultantes podem ser maiores do que seriam com
uma solução mais sofisticada.
Até mesmo quando a desduplicação de software usa algoritmos mais simples, a concentração da
sobrecarga em um único servidor limita a performance de entrada. Quando a performance de entrada
fica muito restrita, vários servidores de mídia precisam ser implantados para fornecer a performance
necessária para manter as janelas de backup. Como cada servidor de mídia tem seu próprio
armazenamento dedicado, isso aumenta a proliferação de hardware. A execução de várias cópias do
aplicativo de desduplicação pode levar a silos deste processo. Nessa situação, cada fluxo de
desduplicação é excluído, mas as duplicações nos silos não são consideradas. Isso piora ainda mais o
processo dos algoritmos de janela fixa/bloco fixo. Com várias instâncias de produtos de desduplicação,
impactos de 20% a 50%, ou mais, podem ser esperados. 4 Como explicado acima, o Dell DR4000
aproveita isso adicionando a compactação sequencial para obter economias de armazenamento ainda
maiores.
4
Maximização da eficiência de dados: benefícios do grupo de produtos de armazenamento avançados
da desduplicação global
11
Desmistificando a desduplicação de dados para backup com o Dell DR4000 v1.0
Figure 6.
Como os silos de dados usam mais armazenamento.
Já uma solução de hardware como o DR4000 é dedicada a apenas um trabalho: a desduplicação de
dados. Ela descarrega o processo de desduplicação com uso intenso de CPU, reduzindo os requisitos do
servidor de backup, até o ponto em que pode não exigir mais um servidor dedicado e possa ser
virtualizada.
A centralização da desduplicação para o DR4000 elimina hardwares desnecessários. Você não precisa
mais de servidores de mídia extra, ou de mais pools de armazenamento que eles exigiriam. Além das
economias de hardware, uma solução de desduplicação baseada em hardware como o DR4000 gera
taxas de desduplicação maiores do que os pools de armazenamento individual porque mais dados são
comparados no mesmo dicionário.
Figure 7.
A desduplicação de software exige mais hardware.
12
Desmistificando a desduplicação de dados para backup com o Dell DR4000 v1.0
Figure 8.
O Dell DR4000 reduz a necessidade de vários servidores de backup.
O Dell DR4000 é um equipamento de desduplicação baseado no destino desenvolvido especificamente
para lidar com as cargas de trabalho de backup de transmissão. A Dell testa e certifica a performance
de entrada com validação de terceiros.
É claro que a performance superior não será boa se os dados não estiverem protegidos. O DR4000 inclui
um número de recursos de software e hardware desenvolvidos para proteger a integridade dos dados.
Por exemplo, o DR4000 utiliza RAID 6 como base da proteção de hardware. O RAID 6 é melhor do que
RAID 5 porque usa dois blocos de paridade com distribuição no nível de bloco em todos os discos de
membros. Ele também usa NVRAM para proteger os dados em caso de perda de energia. Estes recursos
de proteção de dados fazem deste o equipamento avançado adequado para proteção de dados
empresariais.
Cálculo das taxas de desduplicação
Na arena de backup em disco, as taxas de desduplicação são debatidas calorosamente e muito
controvérsias. A taxa de desduplicação é a análise da eficiência deste processo. Ela é calculada
dividindo a quantidade de armazenamento lógico cumulativo pelo armazenamento físico cumulativo.
Por exemplo, se o processo de desduplicação permitir que 400 GB de dados sejam armazenados em 200
GB de armazenamento físico, a taxa de desduplicação é 2x. Se o processo armazenar 400 GB de dados
em 100 GB de armazenamento físico, a taxa é 4x.
Parece que cada novo fornecedor de hardware de desduplicação diz oferecer taxas mais altas do que o
anterior. Na verdade, como muitas variáveis determinam a taxa de desduplicação de um determinado
conjunto de dados, não há garantia de que os data centers apresentarão as mesmas taxas. Ao comparar
reivindicações de fornecedores, é importante compreender o que elas significam. A Dell estima uma
taxa de 15x, que indica uma redução de aproximadamente 93%. A Dell escolheu uma média de 15x com
13
Desmistificando a desduplicação de dados para backup com o Dell DR4000 v1.0
base em um período de retenção de 12 semanas. A maioria dos fornecedores reivindicam uma redução
entre 10x e 30x, o que representa 90 a 97%.
As variáveis que influenciam a taxa de desduplicação de uma determinada carga de trabalho incluem:
•
O algoritmo do tipo de desduplicação. Como mostrado acima, os algoritmos de janela
deslizante/bloco variável normalmente fornecem melhores taxas do que os algoritmos de
janela fixa/bloco fixo.
•
Os tipos de dados que passarão por backup. Nem todos os conjuntos de dados têm a mesma
quantidade de dados duplicados ou capacidade de compactação.
•
A frequência dos backups. Backups mais frequentes criarão o dicionário de desduplicação mais
rapidamente.
•
O período de retenção para trabalhos de backup. Retenção mais longa gera taxas mais altas.
Considere o efeito do backup de dados ao longo do tempo. No primeiro backup completo, a taxa de
desduplicação é limitada à quantidade de redundância nesse único backup. Na maioria das vezes, uma
pouca compatibilidade será encontrada no conjunto de dados, e as taxas de 2x a 4x de desduplicação
são típicas.
Conforme os trabalhos de backup adicionais são executados, a desduplicação é baseada no conjunto de
dados em questão e um dicionário é criado sobre todos os trabalhos de backup anteriores. Portanto,
quanto mais backups completos forem armazenados, maior será a taxa de desduplicação.
A maioria das organizações retêm dados de backup em disco por 30 a 90 dias. Quando um dispositivo de
desduplicação é usado com esse tipo de política de retenção, uma taxa de de 15x é típica. As
organizações que retêm dados por mais tempo deveriam ter taxas mais altas do que organizações que
armazenam dados apenas por um curto período. Se você continuasse armazenando os dados de backup
por um ano, encontraria taxas de desduplicação muito mais altas.
Table 1.
Como as taxas de desduplicação podem melhorar com o tempo.
Tempo
Dados de backup
Armazenamento
lógico cumulativo
Redução
estimada1
Armazenamento
físico cumulativo
Primeira
completa
5 TB
5 TB
2x
2,5 TB
Semana 1
5,2 TB
10,2 TB
4x
2,7 TB
Semana 2
5,4 TB
15,6 TB
6x
2,9 TB
Semana 3
5,4 TB
21 TB
7x
3,1 TB
Mês 1
5,4 TB
26,4 TB
8x
3,3 TB
Mês 2
22,6 TB
49 TB
12x
4,1 TB
14
Desmistificando a desduplicação de dados para backup com o Dell DR4000 v1.0
Mês 3
24 TB
73 TB
15x
4,8 TB
Mês 4
25 TB
98 TB
18x
5,4 TB
Mês 5
26 TB
124 TB
21x
5,9 TB
Mês 6
27 TB
151 TB
23x
6,5 TB
TOTAL
151 TB
23x
6,5 TB
1
A economia varia com base nos dados.
Resumo/Por que escolher o Dell DR4000 para desduplicação de
backup?
Neste documento, explicamos a desduplicação de dados e como ela tem o potencial de revolucionar o
data center. Discutimos os conceitos básicos, como organização em blocos, assim como as diferentes
estratégias para implementá-la. Também falamos sobre os impactos das diferentes estratégias de
desduplicação nas economias de armazenamento e taxa de entrada, e as estratégias que a Dell
escolheu implementar ao desenvolver o equipamento DR4000. Utilizando a desduplicação sequencial
baseada no destino com o método de organização em blocos de janela deslizante/bloco variável, o Dell
DR4000 é a melhor solução para suas necessidades de desduplicar dados.
15
Download

Desmistificando a desduplicação de dados para backup com o Dell