Introducing G2.ai, the future of software buying.Try now

Reduzindo os Altos Custos de Armazenamento de Dados com Deduplicação de Dados

5 de Agosto de 2021
por Tian Lin

Quanto armazenamento de dados as empresas precisam para armazenamento e backup? Quatro das maiores empresas de armazenamento online (Google, Amazon, Microsoft e Facebook) armazenam pelo menos 1.200 petabytes (PB), que são 1,2 milhões de terabytes (TB). Mesmo para empresas menores, é notável a quantidade de dados que elas gerenciam.

Os custos crescentes do armazenamento de dados

De acordo com a IDG Data and Analytics Survey, o volume médio de dados gerenciado por tamanho de empresa é:

  • Empresa de grande porte: 350 TB de dados
  • Empresa de médio porte: 160 TB de dados
  • Pequena empresa: 50 TB de dados

Vamos traduzir isso para o custo real. As empresas hoje estão pagando mais do que nunca por armazenamento de dados. 1 TB de armazenamento de dados na nuvem custa aproximadamente $21 por mês na Amazon AWS, Google e Microsoft Azure. Se pegarmos esse número e multiplicarmos pelo volume médio de dados gerenciado por tamanho de empresa, podemos estimar o custo anual médio de armazenamento de dados com base no tamanho da empresa:

  • Empresa de grande porte: $88.200
  • Empresa de médio porte: $40.320
  • Pequena empresa: $12.600

Como mostrado, o custo de armazenamento de dados não é desprezível, independentemente do tamanho da empresa. Além disso, muitas empresas estão fazendo backup de seus dados no caso de perda ou corrupção dos dados, o que lhes permite restaurar os dados imediatamente e continuar as operações comerciais. Isso significa pagar pelo armazenamento de backup de dados, o que custa mais 20% a 40% além do custo de armazenamento. Por fim, dependendo da empresa, elas também têm que pagar por custos adicionais de gestão de dados.

Relacionado: Software de Backup e Recuperação de Desastres Protege Operações Comerciais

Eventualmente, muitas empresas percebem o verdadeiro custo do armazenamento de dados e se interessam por maneiras de reduzi-lo. Existem muitas maneiras de reduzir o custo, como realizar compressão de arquivos ou optar por fornecedores mais baratos, mas uma das melhores maneiras é a deduplicação de dados. Essa tecnologia permite que o software de armazenamento exclua dados duplicados, economizando espaço de armazenamento.

Neste artigo, exploraremos o que é deduplicação e como ela funciona.

O que é Deduplicação?

Deduplicação é o processo de remoção de dados redundantes para que cópias extras de dados não ocupem espaço.

Existem muitas metodologias de deduplicação, mas, em geral, a deduplicação divide os dados em blocos e atribui um valor hash a cada bloco. Cada vez que um novo bloco de dados chega, o software verifica se o valor hash do novo bloco é o mesmo dos blocos antigos. Se forem iguais, ele é substituído por um identificador que aponta para o bloco de dados antigo. Isso evita salvar dados replicados no mesmo ambiente de armazenamento.

Métodos de deduplicação: quais são e como são diferentes?

  1. Deduplicação pós-processamento é a deduplicação após o armazenamento.

    Para que esse método funcione, os dados devem ser transferidos pela rede primeiro antes da deduplicação. Isso requer hardware de armazenamento de alta capacidade e largura de banda porque os dados são transferidos em seu tamanho bruto. Após a transferência, o software inicia o processo de duplicação e comprime os dados posteriormente.

    Quando há desempenho limitado no dispositivo cliente, escolher a deduplicação pós-processamento ajuda, pois não requer muita capacidade de computação no lado do cliente. Os dados serão deduplicados apenas no lado do armazenamento.

  2. Deduplicação de processamento em linha é a deduplicação antes do armazenamento.

    O software completa o processo de deduplicação antes que os dados sejam transferidos pela rede para o armazenamento. Esse processo requer alto poder computacional, pois o processo de deduplicação começa no lado do cliente. No entanto, os dados de tamanho reduzido consomem menos armazenamento e largura de banda, o que geralmente compensa o custo do poder computacional.

    Quando há capacidade de disco limitada no dispositivo de destino, escolher o processamento em linha é recomendado porque ele deduplica e comprime os dados antes de enviá-los para o armazenamento de destino.

Quão eficaz é a deduplicação de dados?

A eficácia da deduplicação depende da relação entre o tamanho original dos dados e seu tamanho após a remoção da redundância. Vamos analisar duas relações de deduplicação:

  • 100:1 - 100 GB de dados requerem 1 GB de capacidade de armazenamento, resultando em 99% de economia de espaço
  • 2:1 - 2 GB de dados requerem 1 GB de espaço de armazenamento, resultando em 50% de economia de espaço

Quanto maior a relação, mais cópias redundantes dos dados originais existem. No primeiro caso, a deduplicação seria altamente eficaz porque pode remover muitos dados redundantes. No segundo caso, é menos eficaz porque há menos dados redundantes.

Fatores que afetam a relação de deduplicação:
  • Período de retenção de dados: Quanto maior o período de retenção de dados, mais provável que o software encontre redundância durante a primeira implementação.
  • Tipo de dados: Certos tipos de arquivos, como dados gerados pelo sistema, são mais propensos a serem redundantes do que outros tipos de arquivos. Alguns bancos de dados já possuem um processo básico de deduplicação também.
  • Taxa de mudança: Dados que mudam frequentemente são menos propensos a serem redundantes, mas também custam mais recursos do servidor, pois o sistema precisa analisar frequentemente os dados recebidos.
  • Escopo dos dados: Deduplicação de dados de amplo escopo que cobre múltiplas localizações, servidores e ambientes vai aumentar a probabilidade de encontrar dados duplicados em comparação com um único dispositivo.

Uma nota rápida sobre compressão de dados

Compressão é outra técnica popular de otimização de armazenamento de dados. É um processo algorítmico que reduz o volume de dados substituindo sequências de dados idênticas pelo número de vezes que aparecem em sequência. Embora economize espaço, requer descompressão para tornar os dados disponíveis novamente.

Ambos os métodos de deduplicação usam compressão, mas o método de processamento em linha se beneficia mais, pois dados comprimidos requerem menos largura de banda de rede para transferência do que dados brutos. Por exemplo, ao baixar um aplicativo grande, ele geralmente é comprimido em um arquivo RAR, pois leva menos tempo para baixar um arquivo de tamanho reduzido. Deve-se notar que a compressão é uma atividade intensiva de CPU, então se o dispositivo cliente for muito antigo ou lento, pode travar e falhar.

A deduplicação de dados é o caminho a seguir

A tecnologia de deduplicação pode reduzir os custos de armazenamento e rede removendo dados redundantes. As empresas não precisam investir em hardware de deduplicação de dados, pois muitos processos de deduplicação podem ser feitos na nuvem ou na estação de trabalho. O software que inclui deduplicação também vem com recursos de compressão, para que o usuário possa economizar ainda mais espaço.

Quer aprender mais sobre Ferramentas de Qualidade de Dados? Explore os produtos de Qualidade dos Dados.

Tian Lin
TL

Tian Lin

Tian is a research analyst at G2 for Cloud Infrastructure and IT Management software. He comes from a traditional market research background from other tech companies. Combining industry knowledge and G2 data, Tian guides customers through volatile technology markets based on their needs and goals.