De combien de stockage de données les entreprises ont-elles besoin pour le stockage et la sauvegarde ? Quatre des plus grandes entreprises de stockage en ligne (Google, Amazon, Microsoft et Facebook) stockent au moins 1 200 pétaoctets (PB), soit 1,2 million de téraoctets (TB). Même pour les petites entreprises, il est remarquable de voir combien de données elles gèrent.

Les coûts croissants du stockage de données

Selon l'enquête IDG Data and Analytics, le volume moyen de données géré par taille d'entreprise est :

Grande entreprise : 350 TB de données
Entreprise de taille moyenne : 160 TB de données
Petite entreprise : 50 TB de données

Traduisons cela en coût réel. Les entreprises paient aujourd'hui plus que jamais pour le stockage de données. 1 TB de stockage de données dans le cloud coûte environ 21 $ par mois chez Amazon AWS, Google et Microsoft Azure. Si nous prenons ce chiffre et le multiplions par le volume moyen de données géré par taille d'entreprise, nous pouvons estimer le coût annuel moyen du stockage de données en fonction de la taille de l'entreprise :

Grande entreprise : 88 200 $
Entreprise de taille moyenne : 40 320 $
Petite entreprise : 12 600 $

Comme montré, le coût du stockage de données n'est pas négligeable, quelle que soit la taille de l'entreprise. De plus, de nombreuses entreprises sauvegardent leurs données au cas où elles seraient perdues ou corrompues, ce qui leur permet de restaurer les données immédiatement et de poursuivre leurs opérations commerciales. Cela signifie payer pour le stockage de sauvegarde des données, ce qui leur coûte entre 20 % et 40 % de plus que le coût du stockage. Enfin, selon l'entreprise, elles doivent également payer des frais généraux supplémentaires pour la gestion des données.

En relation : Les logiciels de sauvegarde et de récupération après sinistre sécurisent les opérations commerciales →

Finalement, de nombreuses entreprises réalisent le véritable coût du stockage de données et s'intéressent aux moyens de le réduire. Il existe de nombreuses façons de réduire le coût, comme effectuer une compression de fichiers ou opter pour des fournisseurs moins chers, mais l'une des meilleures méthodes est la déduplication des données. Cette technologie permet au logiciel de stockage de supprimer les données dupliquées, ce qui économise de l'espace de stockage.

Dans cet article, nous explorerons ce qu'est la déduplication et comment elle fonctionne.

Qu'est-ce que la déduplication ?

La déduplication est le processus de suppression des données redondantes afin que les copies supplémentaires de données ne prennent pas de place.

Il existe de nombreuses méthodologies de déduplication, mais en général, la déduplication décompose les données en blocs et attribue une valeur de hachage à chaque bloc. Chaque fois qu'un nouveau bloc de données arrive, le logiciel vérifie si la valeur de hachage du nouveau bloc est la même que celle des anciens blocs. Si elles sont identiques, il est remplacé par un identifiant qui pointe vers l'ancien bloc de données. Cela évite de sauvegarder des données répliquées dans le même environnement de stockage.

Méthodes de déduplication : quelles sont-elles et en quoi sont-elles différentes ?

Déduplication post-traitement est la déduplication après le stockage.

Pour que cette méthode fonctionne, les données doivent d'abord être transférées sur le réseau avant la déduplication. Cela nécessite un matériel de stockage à haute capacité et une bande passante car les données sont transférées dans leur taille brute. Après le transfert, le logiciel initie le processus de duplication et compresse les données par la suite.

Lorsque la performance sur le dispositif client est limitée, choisir la déduplication post-traitement aide car elle ne nécessite pas beaucoup de capacité de calcul du côté client. Les données ne seront dédupliquées que du côté du stockage.
Déduplication en ligne est la déduplication avant le stockage.

Le logiciel complète le processus de déduplication avant que les données ne soient transférées sur le réseau vers le stockage. Ce processus nécessite une puissance de calcul élevée puisque le processus de déduplication commence du côté client. Cependant, les données de taille réduite consomment moins de stockage et de bande passante, ce qui compense généralement le coût de la puissance de calcul.

Lorsque la capacité de disque sur le dispositif cible est limitée, choisir la déduplication en ligne est recommandé car elle déduplique et compresse les données avant de les envoyer au stockage cible.

Quelle est l'efficacité de la déduplication des données ?

L'efficacité de la déduplication dépend du ratio entre la taille originale des données et sa taille après la suppression de la redondance. Regardons deux ratios de déduplication :

100:1 - 100 Go de données nécessitent 1 Go de capacité de stockage, ce qui entraîne une économie d'espace de 99 %
2:1 - 2 Go de données nécessitent 1 Go d'espace de stockage, ce qui entraîne une économie d'espace de 50 %

Plus le ratio est élevé, plus il existe de copies redondantes des données originales. Dans le premier cas, la déduplication serait très efficace car elle peut supprimer beaucoup de données redondantes. Dans le second cas, elle est moins efficace car il y a moins de données redondantes.

Facteurs qui affectent le ratio de déduplication :

Période de rétention des données : Plus la période de rétention des données est longue, plus il est probable que le logiciel trouve des redondances lors de la première mise en œuvre.
Type de données : Certains types de fichiers, tels que les données générées par le système, sont plus susceptibles d'être redondants que d'autres types de fichiers. Certaines bases de données ont déjà un processus de déduplication de base.
Taux de changement : Les données fréquemment modifiées sont moins susceptibles d'être redondantes, mais elles coûtent également plus de ressources serveur car le système doit analyser fréquemment les données entrantes.
Portée des données : La déduplication de données à large portée qui couvre plusieurs emplacements, serveurs et environnements va augmenter la probabilité de trouver des données dupliquées par rapport à un seul appareil.

Une note rapide sur la compression des données

La compression est une autre technique populaire d'optimisation du stockage de données. C'est un processus algorithmique qui réduit le volume de données en remplaçant les séquences de données identiques par le nombre de fois qu'elles apparaissent d'affilée. Bien qu'elle économise de l'espace, elle nécessite une décompression pour rendre les données à nouveau disponibles.

Les deux méthodes de déduplication utilisent la compression, mais la méthode de traitement en ligne en bénéficie davantage puisque les données compressées nécessitent moins de bande passante réseau pour être transférées que les données brutes. Par exemple, lors du téléchargement d'une grande application, elle est généralement compressée dans un fichier RAR car il faut moins de temps pour télécharger un fichier de taille réduite. Il faut noter que la compression est une activité intensive en CPU, donc si le dispositif client est trop ancien ou lent, il peut être bloqué et planter.

La déduplication des données est la voie à suivre

La technologie de déduplication peut réduire les coûts de stockage et de réseau en supprimant les données redondantes. Les entreprises n'ont pas besoin d'investir dans du matériel de déduplication de données puisque de nombreux processus de déduplication peuvent être effectués sur le cloud ou sur le poste de travail. Les logiciels qui incluent la déduplication sont également dotés de fonctionnalités de compression, permettant à l'utilisateur d'économiser encore plus d'espace.

Tian Lin

Tian is a research analyst at G2 for Cloud Infrastructure and IT Management software. He comes from a traditional market research background from other tech companies. Combining industry knowledge and G2 data, Tian guides customers through volatile technology markets based on their needs and goals.

Explorer d'autres articles G2

Meilleures applications SAP pour les petites entreprises

Fournisseurs de VoIP les mieux notés pour les startups technologiques

Meilleur logiciel de tarification à valeur ajoutée pour les entreprises de services

Meilleure DXP pour améliorer les interfaces numériques pour les startups

Réduire les coûts élevés du stockage de données avec la déduplication des données