Introducing G2.ai, the future of software buying.Try now

Reduzierung der hohen Kosten der Datenspeicherung durch Daten-Deduplizierung

5. August 2021
von Tian Lin

Wie viel Datenspeicher benötigen Unternehmen für Speicherung und Backup? Vier der größten Online-Speicher-Internetunternehmen (Google, Amazon, Microsoft und Facebook) speichern mindestens 1.200 Petabyte (PB), was 1,2 Millionen Terabyte (TB) entspricht. Selbst für kleinere Unternehmen ist es bemerkenswert, wie viel Daten sie verwalten.

Die steigenden Kosten der Datenspeicherung

Laut der IDG Data and Analytics Survey beträgt das durchschnittliche Datenvolumen, das nach Unternehmensgröße verwaltet wird:

  • Großunternehmen: 350 TB Daten
  • Mittelständisches Unternehmen: 160 TB Daten
  • Kleinunternehmen: 50 TB Daten

Übersetzen wir das in die tatsächlichen Kosten. Unternehmen zahlen heute mehr denn je für Datenspeicherung. 1 TB Cloud-Datenspeicher kostet etwa 21 $ pro Monat bei Amazon AWS, Google und Microsoft Azure. Wenn wir diese Zahl nehmen und mit dem durchschnittlichen Datenvolumen multiplizieren, das nach Unternehmensgröße verwaltet wird, können wir die durchschnittlichen jährlichen Kosten der Datenspeicherung basierend auf der Unternehmensgröße schätzen:

  • Großunternehmen: 88.200 $
  • Mittelständisches Unternehmen: 40.320 $
  • Kleinunternehmen: 12.600 $

Wie gezeigt, sind die Kosten für Datenspeicherung unabhängig von der Unternehmensgröße nicht zu vernachlässigen. Außerdem sichern viele Unternehmen ihre Daten für den Fall, dass ihre Daten verloren gehen oder beschädigt werden, was es ihnen ermöglicht, die Daten sofort wiederherzustellen und den Geschäftsbetrieb fortzusetzen. Dies bedeutet, dass sie für die Datensicherungs-Speicherung zahlen müssen, was sie zusätzlich 20 % bis 40 % der Speicherkosten kostet. Schließlich müssen sie je nach Unternehmen auch für zusätzlichen Overhead für Datenmanagement zahlen.

Verwandt: Backup- und Disaster-Recovery-Software sichert den Geschäftsbetrieb

Schließlich erkennen viele Unternehmen die wahren Kosten der Datenspeicherung und sind daran interessiert, diese zu reduzieren. Es gibt viele Möglichkeiten, die Kosten zu senken, wie z. B. Dateikomprimierung oder die Wahl günstigerer Anbieter, aber eine der besten Möglichkeiten ist die Daten-Deduplizierung. Diese Technologie ermöglicht es der Speichersoftware, doppelte Daten zu löschen, was Speicherplatz spart.

In diesem Artikel werden wir untersuchen, was Deduplizierung ist und wie sie funktioniert.

Was ist Deduplizierung?

Deduplizierung ist der Prozess der Entfernung redundanter Daten, sodass keine zusätzlichen Kopien von Daten Speicherplatz beanspruchen.

Es gibt viele Deduplizierungsmethoden, aber im Allgemeinen zerlegt die Deduplizierung Daten in Blöcke und weist jedem Block einen Hash-Wert zu. Jedes Mal, wenn ein neuer Datenblock eintrifft, überprüft die Software, ob der Hash-Wert des neuen Blocks mit den alten Blöcken übereinstimmt. Wenn sie übereinstimmen, wird er durch einen Bezeichner ersetzt, der auf den alten Datenblock verweist. Dies vermeidet das Speichern replizierter Daten in derselben Speicherumgebung.

Deduplizierungsmethoden: Was sind sie und wie unterscheiden sie sich?

  1. Post-Processing-Deduplizierung ist die Deduplizierung nach der Speicherung.

     

    Damit diese Methode funktioniert, müssen die Daten zuerst über das Netzwerk übertragen werden, bevor die Deduplizierung erfolgt. Dies erfordert hochkapazitive Speicherhardware und Bandbreite, da die Daten in ihrer Rohgröße übertragen werden. Nach der Übertragung initiiert die Software den Duplikationsprozess und komprimiert die Daten anschließend.

     

    Wenn die Leistung auf dem Client-Gerät begrenzt ist, hilft die Wahl der Post-Processing-Deduplizierung, da sie nicht viel Rechenkapazität auf der Client-Seite erfordert. Die Daten werden stattdessen nur auf der Speicherseite dedupliziert.

  2. Inline-Processing-Deduplizierung ist die Deduplizierung vor der Speicherung.

     

    Die Software führt den Deduplizierungsprozess durch, bevor die Daten über das Netzwerk zur Speicherung übertragen werden. Dieser Prozess erfordert hohe Rechenleistung, da der Deduplizierungsprozess auf der Client-Seite beginnt. Allerdings verbrauchen die reduzierten Daten weniger Speicherplatz und Bandbreite, was in der Regel die Kosten der Rechenleistung überwiegt.

     

    Wenn die Festplattenkapazität auf dem Zielgerät begrenzt ist, wird empfohlen, Inline-Processing zu wählen, da die Daten dedupliziert und komprimiert werden, bevor sie an den Zielspeicher gesendet werden.

Wie effektiv ist die Daten-Deduplizierung?

Die Effektivität der Deduplizierung hängt vom Verhältnis zwischen der ursprünglichen Größe der Daten und ihrer Größe nach der Entfernung der Redundanz ab. Betrachten wir zwei Deduplizierungsverhältnisse:

  • 100:1 - 100 GB Daten benötigen 1 GB Speicherkapazität, was zu 99 % Platzersparnis führt
  • 2:1 - 2 GB Daten benötigen 1 GB Speicherplatz, was zu 50 % Platzersparnis führt

Je höher das Verhältnis, desto mehr redundante Kopien der ursprünglichen Daten existieren. Im ersten Fall wäre die Deduplizierung sehr effektiv, da sie viele redundante Daten entfernen kann. Im zweiten Fall ist sie weniger effektiv, da es weniger redundante Daten gibt.

 Faktoren, die das Deduplizierungsverhältnis beeinflussen:
  • Datenaufbewahrungszeitraum: Je länger der Datenaufbewahrungszeitraum, desto wahrscheinlicher findet die Software bei der ersten Implementierung Redundanzen.
  • Datentyp: Bestimmte Dateitypen wie systemgenerierte Daten sind eher redundant als andere Dateitypen. Einige Datenbanken haben bereits einen grundlegenden Deduplizierungsprozess.
  • Änderungsrate: Häufig geänderte Daten sind weniger wahrscheinlich redundant, aber sie kosten auch mehr Serverressourcen, da das System die eingehenden Daten häufig analysieren muss.
  • Umfang der Daten: Eine weitreichende Daten-Deduplizierung, die mehrere Standorte, Server und Umgebungen abdeckt, erhöht die Wahrscheinlichkeit, doppelte Daten zu finden, im Vergleich zu einem einzelnen Gerät.

Ein kurzer Hinweis zur Datenkomprimierung

Komprimierung ist eine weitere beliebte Datenspeicher-Optimierungstechnik. Es ist ein Algorithmusprozess, der das Datenvolumen verkleinert, indem identische Sequenzdaten durch die Anzahl der aufeinanderfolgenden Vorkommen ersetzt werden. Während es Platz spart, erfordert es eine Dekomprimierung, um die Daten wieder verfügbar zu machen.

Beide Deduplizierungsmethoden verwenden Komprimierung, aber die Inline-Processing-Methode profitiert mehr, da komprimierte Daten weniger Netzwerk-Bandbreite zum Übertragen benötigen als Rohdaten. Zum Beispiel wird beim Herunterladen einer großen Anwendung diese normalerweise in eine RAR-Datei komprimiert, da es weniger Zeit in Anspruch nimmt, eine verkleinerte Datei herunterzuladen. Es muss beachtet werden, dass Komprimierung eine CPU-intensive Aktivität ist, sodass, wenn das Client-Gerät zu alt oder langsam ist, es hängen bleiben und abstürzen kann.

Daten-Deduplizierung ist der Weg nach vorn

Deduplizierungstechnologie kann Speicher- und Netzwerk-Kosten reduzieren, indem redundante Daten entfernt werden. Unternehmen müssen nicht in Deduplizierungshardware investieren, da viele Deduplizierungsprozesse in der Cloud oder auf dem Arbeitsplatz durchgeführt werden können. Software, die Deduplizierung beinhaltet, kommt auch mit Funktionen zur Komprimierung, sodass der Benutzer noch mehr Platz sparen kann.

Möchten Sie mehr über Datenqualitätswerkzeuge erfahren? Erkunden Sie Datenqualität Produkte.

Tian Lin
TL

Tian Lin

Tian is a research analyst at G2 for Cloud Infrastructure and IT Management software. He comes from a traditional market research background from other tech companies. Combining industry knowledge and G2 data, Tian guides customers through volatile technology markets based on their needs and goals.