Introducing G2.ai, the future of software buying.Try now

Réduire les coûts élevés du stockage de données avec la déduplication des données

5 Août 2021
par Tian Lin

De combien de stockage de données les entreprises ont-elles besoin pour le stockage et la sauvegarde ? Quatre des plus grandes entreprises de stockage en ligne (Google, Amazon, Microsoft et Facebook) stockent au moins 1 200 pétaoctets (PB), soit 1,2 million de téraoctets (TB). Même pour les petites entreprises, il est remarquable de voir combien de données elles gèrent.

Les coûts croissants du stockage de données

Selon l'enquête IDG Data and Analytics, le volume moyen de données géré par taille d'entreprise est :

  • Grande entreprise : 350 TB de données
  • Entreprise de taille moyenne : 160 TB de données
  • Petite entreprise : 50 TB de données

Traduisons cela en coût réel. Les entreprises paient aujourd'hui plus que jamais pour le stockage de données. 1 TB de stockage de données dans le cloud coûte environ 21 $ par mois chez Amazon AWS, Google et Microsoft Azure. Si nous prenons ce chiffre et le multiplions par le volume moyen de données géré par taille d'entreprise, nous pouvons estimer le coût annuel moyen du stockage de données en fonction de la taille de l'entreprise :

  • Grande entreprise : 88 200 $
  • Entreprise de taille moyenne : 40 320 $
  • Petite entreprise : 12 600 $

Comme montré, le coût du stockage de données n'est pas négligeable, quelle que soit la taille de l'entreprise. De plus, de nombreuses entreprises sauvegardent leurs données au cas où elles seraient perdues ou corrompues, ce qui leur permet de restaurer les données immédiatement et de poursuivre leurs opérations commerciales. Cela signifie payer pour le stockage de sauvegarde des données, ce qui leur coûte entre 20 % et 40 % de plus que le coût du stockage. Enfin, selon l'entreprise, elles doivent également payer des frais généraux supplémentaires pour la gestion des données.

En relation : Les logiciels de sauvegarde et de récupération après sinistre sécurisent les opérations commerciales

Finalement, de nombreuses entreprises réalisent le véritable coût du stockage de données et s'intéressent aux moyens de le réduire. Il existe de nombreuses façons de réduire le coût, comme effectuer une compression de fichiers ou opter pour des fournisseurs moins chers, mais l'une des meilleures méthodes est la déduplication des données. Cette technologie permet au logiciel de stockage de supprimer les données dupliquées, ce qui économise de l'espace de stockage.

Dans cet article, nous explorerons ce qu'est la déduplication et comment elle fonctionne.

Qu'est-ce que la déduplication ?

La déduplication est le processus de suppression des données redondantes afin que les copies supplémentaires de données ne prennent pas de place.

Il existe de nombreuses méthodologies de déduplication, mais en général, la déduplication décompose les données en blocs et attribue une valeur de hachage à chaque bloc. Chaque fois qu'un nouveau bloc de données arrive, le logiciel vérifie si la valeur de hachage du nouveau bloc est la même que celle des anciens blocs. Si elles sont identiques, il est remplacé par un identifiant qui pointe vers l'ancien bloc de données. Cela évite de sauvegarder des données répliquées dans le même environnement de stockage.

Méthodes de déduplication : quelles sont-elles et en quoi sont-elles différentes ?

  1. Déduplication post-traitement est la déduplication après le stockage.

    Pour que cette méthode fonctionne, les données doivent d'abord être transférées sur le réseau avant la déduplication. Cela nécessite un matériel de stockage à haute capacité et une bande passante car les données sont transférées dans leur taille brute. Après le transfert, le logiciel initie le processus de duplication et compresse les données par la suite.

    Lorsque la performance sur le dispositif client est limitée, choisir la déduplication post-traitement aide car elle ne nécessite pas beaucoup de capacité de calcul du côté client. Les données ne seront dédupliquées que du côté du stockage.

  2. Déduplication en ligne est la déduplication avant le stockage.

    Le logiciel complète le processus de déduplication avant que les données ne soient transférées sur le réseau vers le stockage. Ce processus nécessite une puissance de calcul élevée puisque le processus de déduplication commence du côté client. Cependant, les données de taille réduite consomment moins de stockage et de bande passante, ce qui compense généralement le coût de la puissance de calcul.

    Lorsque la capacité de disque sur le dispositif cible est limitée, choisir la déduplication en ligne est recommandé car elle déduplique et compresse les données avant de les envoyer au stockage cible.

Quelle est l'efficacité de la déduplication des données ?

L'efficacité de la déduplication dépend du ratio entre la taille originale des données et sa taille après la suppression de la redondance. Regardons deux ratios de déduplication :

  • 100:1 - 100 Go de données nécessitent 1 Go de capacité de stockage, ce qui entraîne une économie d'espace de 99 %
  • 2:1 - 2 Go de données nécessitent 1 Go d'espace de stockage, ce qui entraîne une économie d'espace de 50 %

Plus le ratio est élevé, plus il existe de copies redondantes des données originales. Dans le premier cas, la déduplication serait très efficace car elle peut supprimer beaucoup de données redondantes. Dans le second cas, elle est moins efficace car il y a moins de données redondantes.

Facteurs qui affectent le ratio de déduplication :
  • Période de rétention des données : Plus la période de rétention des données est longue, plus il est probable que le logiciel trouve des redondances lors de la première mise en œuvre.
  • Type de données : Certains types de fichiers, tels que les données générées par le système, sont plus susceptibles d'être redondants que d'autres types de fichiers. Certaines bases de données ont déjà un processus de déduplication de base.
  • Taux de changement : Les données fréquemment modifiées sont moins susceptibles d'être redondantes, mais elles coûtent également plus de ressources serveur car le système doit analyser fréquemment les données entrantes.
  • Portée des données : La déduplication de données à large portée qui couvre plusieurs emplacements, serveurs et environnements va augmenter la probabilité de trouver des données dupliquées par rapport à un seul appareil.

Une note rapide sur la compression des données

La compression est une autre technique populaire d'optimisation du stockage de données. C'est un processus algorithmique qui réduit le volume de données en remplaçant les séquences de données identiques par le nombre de fois qu'elles apparaissent d'affilée. Bien qu'elle économise de l'espace, elle nécessite une décompression pour rendre les données à nouveau disponibles.

Les deux méthodes de déduplication utilisent la compression, mais la méthode de traitement en ligne en bénéficie davantage puisque les données compressées nécessitent moins de bande passante réseau pour être transférées que les données brutes. Par exemple, lors du téléchargement d'une grande application, elle est généralement compressée dans un fichier RAR car il faut moins de temps pour télécharger un fichier de taille réduite. Il faut noter que la compression est une activité intensive en CPU, donc si le dispositif client est trop ancien ou lent, il peut être bloqué et planter.

La déduplication des données est la voie à suivre

La technologie de déduplication peut réduire les coûts de stockage et de réseau en supprimant les données redondantes. Les entreprises n'ont pas besoin d'investir dans du matériel de déduplication de données puisque de nombreux processus de déduplication peuvent être effectués sur le cloud ou sur le poste de travail. Les logiciels qui incluent la déduplication sont également dotés de fonctionnalités de compression, permettant à l'utilisateur d'économiser encore plus d'espace.

Vous voulez en savoir plus sur Outils de qualité des données ? Découvrez les produits Qualité des données.

Tian Lin
TL

Tian Lin

Tian is a research analyst at G2 for Cloud Infrastructure and IT Management software. He comes from a traditional market research background from other tech companies. Combining industry knowledge and G2 data, Tian guides customers through volatile technology markets based on their needs and goals.