Introducing G2.ai, the future of software buying.Try now

Reducir los altos costos de almacenamiento de datos con la deduplicación de datos

5 de Agosto de 2021
por Tian Lin

¿Cuánto almacenamiento de datos necesitan las empresas para almacenamiento y respaldo? Cuatro de las mayores empresas de almacenamiento en línea (Google, Amazon, Microsoft y Facebook) almacenan al menos 1,200 petabytes (PB), que son 1.2 millones de terabytes (TB). Incluso para empresas más pequeñas, es notable la cantidad de datos que gestionan.

El aumento de los costos de almacenamiento de datos

Según la Encuesta de Datos y Análisis de IDG, el volumen promedio de datos gestionados por tamaño de empresa es:

  • Empresa grande: 350 TB de datos
  • Empresa mediana: 160 TB de datos
  • Pequeña empresa: 50 TB de datos

Traduzcamos eso al costo real. Las empresas hoy en día están pagando por almacenamiento de datos más que nunca. 1 TB de almacenamiento de datos en la nube cuesta aproximadamente $21 por mes en Amazon AWS, Google y Microsoft Azure. Si tomamos este número y lo multiplicamos por el volumen promedio de datos gestionados por tamaño de empresa, podemos estimar el costo anual promedio de almacenamiento de datos según el tamaño de la empresa:

  • Empresa grande: $88,200
  • Empresa mediana: $40,320
  • Pequeña empresa: $12,600

Como se muestra, el costo de almacenamiento de datos no es despreciable independientemente del tamaño de la empresa. Además, muchas empresas están respaldando sus datos en caso de que se pierdan o corrompan, lo que les permite restaurar los datos de inmediato y continuar con las operaciones comerciales. Esto significa pagar por almacenamiento de respaldo de datos, lo que les cuesta otro 20% a 40% además del costo de almacenamiento. Por último, dependiendo de la empresa, también tienen que pagar por gastos generales adicionales para gestión de datos.

Relacionado: El software de respaldo y recuperación ante desastres asegura las operaciones comerciales

Eventualmente, muchas empresas se dan cuenta del verdadero costo del almacenamiento de datos y están interesadas en formas de reducirlo. Hay muchas maneras de reducir el costo, como realizar compresión de archivos u optar por proveedores más baratos, pero una de las mejores formas es la deduplicación de datos. Esta tecnología permite que el software de almacenamiento elimine datos duplicados, lo que ahorra espacio de almacenamiento.

En este artículo, exploraremos qué es la deduplicación y cómo funciona.

¿Qué es la deduplicación?

La deduplicación es el proceso de eliminar datos redundantes para que las copias adicionales de datos no ocupen espacio.

Existen muchas metodologías de deduplicación, pero en general, la deduplicación descompone los datos en bloques y asigna un valor hash a cada bloque. Cada vez que llega un nuevo bloque de datos, el software verifica si el valor hash del nuevo bloque es el mismo que el de los bloques antiguos. Si son iguales, entonces se reemplaza con un identificador que apunta al bloque de datos antiguo. Esto evita guardar datos replicados en el mismo entorno de almacenamiento.

Métodos de deduplicación: ¿cuáles son y en qué se diferencian?

  1. Deduplicación post-procesamiento es la deduplicación después del almacenamiento.

    Para que este método funcione, los datos deben transferirse a través de la red primero antes de la deduplicación. Esto requiere hardware de almacenamiento de alta capacidad y ancho de banda porque los datos se transfieren en su tamaño bruto. Después de la transferencia, el software inicia el proceso de duplicación y comprime los datos posteriormente.

    Cuando hay un rendimiento limitado en el dispositivo cliente, elegir la deduplicación post-procesamiento ayuda ya que no requiere mucha capacidad de computación en el lado del cliente. Los datos solo se deduplicarán en el lado del almacenamiento.

  2. Deduplicación de procesamiento en línea es la deduplicación antes del almacenamiento.

    El software completa el proceso de deduplicación antes de que los datos se transfieran a través de la red al almacenamiento. Este proceso requiere alta potencia computacional ya que el proceso de deduplicación comienza en el lado del cliente. Sin embargo, los datos de tamaño reducido consumen menos almacenamiento y ancho de banda, lo que generalmente compensa el costo de la potencia computacional.

    Cuando hay una capacidad de disco limitada en el dispositivo de destino, se recomienda elegir el procesamiento en línea porque deduplica y comprime los datos antes de enviarlos al almacenamiento de destino.

¿Qué tan efectiva es la deduplicación de datos?

La efectividad de la deduplicación depende de la relación entre el tamaño original de los datos y su tamaño después de que se elimina la redundancia. Veamos dos relaciones de deduplicación:

  • 100:1 - 100 GB de datos requieren 1 GB de capacidad de almacenamiento, lo que resulta en un ahorro de espacio del 99%
  • 2:1 - 2 GB de datos requieren 1 GB de espacio de almacenamiento, lo que resulta en un ahorro de espacio del 50%

Cuanto mayor sea la relación, más copias redundantes de los datos originales existen. En el primer caso, la deduplicación sería altamente efectiva porque puede eliminar muchos datos redundantes. En el segundo caso, es menos efectiva porque hay menos datos redundantes.

Factores que afectan la relación de deduplicación:
  • Período de retención de datos: Cuanto más largo sea el período de retención de datos, más probable es que el software encuentre redundancia durante la primera implementación.
  • Tipo de datos: Ciertos tipos de archivos, como los datos generados por el sistema, son más propensos a ser redundantes que otros tipos de archivos. Algunas bases de datos ya tienen un proceso básico de deduplicación también.
  • Tasa de cambio: Los datos que cambian con frecuencia son menos propensos a ser redundantes, pero también cuestan más recursos del servidor ya que el sistema tiene que analizar frecuentemente los datos entrantes.
  • Alcance de los datos: La deduplicación de datos de amplio alcance que cubre múltiples ubicaciones, servidores y entornos va a aumentar la probabilidad de encontrar datos duplicados en comparación con un solo dispositivo.

Una nota rápida sobre la compresión de datos

La compresión es otra técnica popular de optimización de almacenamiento de datos. Es un proceso algorítmico que reduce el volumen de datos reemplazando secuencias de datos idénticas con el número de veces que aparece en fila. Aunque ahorra espacio, requiere descompresión para hacer que los datos estén disponibles nuevamente.

Ambos métodos de deduplicación utilizan compresión, pero el método de procesamiento en línea se beneficia más ya que los datos comprimidos requieren menos ancho de banda de red para transferirse que los datos en bruto. Por ejemplo, al descargar una aplicación grande, generalmente se comprime en un archivo RAR ya que lleva menos tiempo descargar un archivo de tamaño reducido. Cabe señalar que la compresión es una actividad intensiva en CPU, por lo que si el dispositivo cliente es demasiado antiguo o lento, puede quedarse atascado y fallar.

La deduplicación de datos es el camino a seguir

La tecnología de deduplicación puede reducir los costos de almacenamiento y de red al eliminar datos redundantes. Las empresas no tienen que invertir en hardware de deduplicación de datos ya que muchos procesos de deduplicación se pueden realizar en la nube o en la estación de trabajo. El software que incluye deduplicación también viene con características para compresión, por lo que el usuario puede ahorrar aún más espacio.

¿Quieres aprender más sobre Herramientas de Calidad de Datos? Explora los productos de Calidad de los datos.

Tian Lin
TL

Tian Lin

Tian is a research analyst at G2 for Cloud Infrastructure and IT Management software. He comes from a traditional market research background from other tech companies. Combining industry knowledge and G2 data, Tian guides customers through volatile technology markets based on their needs and goals.