Avoir accès aux données personnelles signifie que les entreprises peuvent adapter leurs produits et services aux besoins et intérêts de leurs clients. Mais cet accès s'accompagne d'une grande responsabilité.
Les organisations doivent maintenir la confidentialité et la protection des données pour se conformer aux réglementations de l'industrie telles que le Règlement Général sur la Protection des Données (RGPD).
La pseudonymisation joue un rôle crucial dans la garantie de la protection des données. De nombreuses organisations utilisent des logiciels de dé-identification et de pseudonymisation des données pour se conformer aux lois sur la confidentialité et la protection des données et réduire leur risque de compromettre des informations personnellement identifiables.
Qu'est-ce que la pseudonymisation ?
La pseudonymisation est une méthode de traitement des données personnelles de sorte qu'elles ne puissent pas être attribuées à une personne ou un sujet de données spécifique sans informations supplémentaires. Ces informations supplémentaires sont conservées séparément pour garantir la confidentialité d'une personne identifiée ou identifiable.
Les informations personnelles peuvent être tout ce qui est lié à une personne physique identifiable. Parmi d'autres marqueurs, cela inclut le nom, l'emplacement et le numéro d'identification. Les informations peuvent comprendre toute combinaison de caractéristiques physiques, physiologiques, sociales, économiques ou psychologiques liées à une personne.
La pseudonymisation fait partie du processus de gestion et de dé-identification des données. Elle remplace les informations personnellement identifiables (PII) par un ou plusieurs pseudonymes ou identifiants artificiels. Les entreprises peuvent restaurer les données pseudonymisées à leur état d'origine en utilisant des informations supplémentaires qui soutiennent le processus de ré-identification.
C'est un moyen de se conformer au Règlement Général sur la Protection des Données (RGPD) de l'Union Européenne. La norme réglementaire exige le stockage sécurisé des données personnelles. Lorsqu'elle est mise en œuvre efficacement, la pseudonymisation motive également l'assouplissement des obligations des responsables du traitement des données.
Une technique de pseudonymisation basée sur le risque prend en compte les facteurs d'utilité et d'évolutivité tout en offrant une protection. La mise en œuvre de la pseudonymisation basée sur le risque est possible lorsque les responsables et les sous-traitants des données ont accès aux informations fournies par les propriétaires de produits, les gestionnaires de services ou les propriétaires d'applications.
Les régulateurs doivent donner des étapes granulaires et pratiques pour évaluer les risques tout en promouvant la priorisation basée sur le risque et ses meilleures pratiques. Cela permet une protection des données à grande échelle et aide les entreprises à sécuriser de grands volumes de données personnelles.
Comment fonctionne la pseudonymisation ?
Dans le processus de pseudonymisation, des identifiants tels que le nom, le numéro de téléphone ou l'adresse e-mail sont mappés à des pseudonymes : un nombre arbitraire, un caractère ou une séquence des deux. Par exemple, s'il y a deux identifiants, A et B, mappés à des pseudonymes PS1 et PS2, le processus exécute une fonction de pseudonymisation qui différencie PS1 de PS2. Sinon, la récupération des identifiants pourrait devenir ambiguë.
Il est possible de mapper un seul identifiant à plusieurs pseudonymes tant que l'identifiant réel peut être récupéré. Pour chaque pseudonyme, il y a un secret supplémentaire, également connu sous le nom de secret de pseudonymisation, qui aide à récupérer l'identifiant d'origine. Une table de pseudonymisation qui mappe les identifiants à un pseudonyme peut être un simple exemple de secret ou d'informations supplémentaires.
Vous voulez en savoir plus sur Outils de désidentification des données ? Découvrez les produits Dé-identification des données.
Anonymisation vs. Pseudonymisation
Le processus d'anonymisation rend les données complètement illisibles ou anonymes : les données d'origine ne peuvent pas être récupérées ultérieurement. Prenons un exemple simple. Si vous anonymisez des données telles que le nom Scott, sa sortie peut être XXXXX empêchant la récupération du nom réel à partir des données anonymisées.
Inversement, avec l'aide d'informations supplémentaires ou d'un secret de pseudonymisation, les données pseudonymes peuvent être transformées en identifiant d'origine.
Le processus d'anonymisation garantit la confidentialité des données mais n'est pas toujours pratique. Dans certains cas, comme les données de santé, l'anonymisation peut tirer des conclusions significatives sans compromettre l'identité d'un patient.
Lorsque l'anonymisation ne peut pas garantir pleinement la confidentialité des données, le chiffrement et d'autres mesures de sécurité peuvent être nécessaires. Ces situations surviennent lorsque les données anonymisées sont combinées avec d'autres ensembles de données et lorsqu'il est possible de tracer les informations jusqu'à une personne spécifique.
Techniques de pseudonymisation
Voici quelques techniques de pseudonymisation de base que les équipes peuvent utiliser pour protéger les données personnelles.
Compteur
La technique du compteur substitue chaque identifiant par un nombre choisi par un compteur monotone. Elle évite l'ambiguïté en garantissant l'absence de répétition dans les valeurs du compteur monotone. Cette technique est facile à mettre en œuvre pour des ensembles de données petits et simples.
Nom | Pseudonyme (générateur de compteur) |
Fisher | 10 |
Mark | 11 |
Twain | 12 |
La simplicité est un avantage de la technique du compteur. Cependant, il peut y avoir des problèmes de mise en œuvre et d'évolutivité dans le cas d'ensembles de données plus grands et plus sophistiqués, car ils stockent l'ensemble de la table de pseudonymisation.
Générateur de nombres aléatoires (RNG)
Un générateur de nombres aléatoires produit des valeurs qui ont une possibilité égale d'être choisies dans une population totale, générant des valeurs imprévisibles. Il offre une protection robuste des données par rapport à la technique du compteur car il est difficile de déterminer l'identifiant réel tant que la table de pseudonymisation n'est pas compromise.
Nom | Pseudonyme (RNG) |
Fisher | 342 |
Mark | 984 |
Twain | 410 |
Attention, le RNG présente des risques de collision. La collision fait référence à un scénario où la fonction attribue le même pseudonyme à deux identifiants différents. L'évolutivité peut également être un défi lorsque vous travaillez sur des ensembles de données plus grands et plus sophistiqués, car cette technique stocke également la table de pseudonymisation.
Fonction de hachage cryptographique
Une fonction de hachage cryptographique mappe des chaînes d'entrée de longueurs multiples à des sorties de longueur fixe. Cela garantit qu'il est informatiquement infaisable de trouver une entrée qui génère une chaîne de sortie spécifique. De plus, elle est exempte de collisions. Par exemple, Alice et Fisher, après pseudonymisation à l'aide de la fonction de hachage cryptographique, généreront 24fsa35gersw439 et 43ase98shekc021 comme pseudonymes.
Bien que les fonctions de hachage cryptographiques résolvent certains défis de la pseudonymisation, tels que les collisions, elles sont sujettes aux attaques par force brute et aux attaques par dictionnaire.
Code d'authentification de message (MAC)
Le code d'authentification de message est similaire à la fonction de hachage cryptographique, mais il utilise une clé secrète pour générer un pseudonyme. Tant que cette clé n'est pas compromise, il est infaisable de détecter l'identifiant réel à partir du pseudonyme.
Le MAC est considéré comme une technique de pseudonymisation robuste. Ses variations s'appliquent à différentes exigences d'évolutivité et d'utilité de l'entité de pseudonymisation. Le MAC peut être appliqué dans la publicité par affichage sur Internet où un annonceur peut attacher un pseudonyme unique à chaque individu sans révéler leurs identités.
Vous pouvez également appliquer le MAC dans des sous-parties séparées d'un identifiant et utiliser la même clé secrète. Par exemple, dans le cas de XYZ@abc.op et PNR@abc.op, vous pouvez attribuer la même clé secrète au domaine abc.op et générer le même sous-pseudonyme.
Chiffrement
Le chiffrement symétrique, en particulier les chiffrements par bloc tels que l'Advanced Encryption Standard (AES), chiffre un identifiant avec une clé secrète. Cette clé sert de secret de pseudonymisation et de secret de récupération. La taille du bloc peut être plus petite ou plus grande qu'un identifiant dans cette technique. La méthode inclut le remplissage si la taille de l'identifiant est plus petite que la taille du bloc.
D'autre part, si la taille de l'identifiant est plus grande que la taille du bloc, soit l'identifiant est compressé dans une taille plus petite que la taille du bloc, soit un mode de fonctionnement tel que le mode compteur CTR est utilisé. Le chiffrement est une technique de pseudonymisation forte.
Dans les cas où le responsable du traitement des données doit préserver le format sans révéler l'identifiant d'origine, le chiffrement préservant le format (FPE) est utilisé à la place de la cryptographie conventionnelle. Par exemple, lors de la pseudonymisation de XYZ@jkl.com, le FPE peut produire wqi@abc.kxr, et la cryptographie conventionnelle peut générer hui sa0 2ser @ aqw xde bgt miu cvf erw 56t comme pseudonymes.
Voici quelques méthodes de pseudonymisation avancées utilisées dans des ensembles de données comparativement complexes.
- Le chiffrement asymétrique implique deux entités différentes dans le processus de pseudonymisation. La clé publique crée un pseudonyme ; la clé privée le résout pour déterminer l'identifiant.
- Les chaînes de hachage dépendent du hachage répété de la valeur de hachage pour produire une sortie qui nécessite plusieurs inversions pour déterminer l'identifiant d'origine.
- Les schémas de partage de secrets divisent les informations confidentielles en plusieurs parties. Ces schémas sont également connus sous le nom de schémas de seuil (k, n).
Politiques de pseudonymisation
Il existe trois politiques standard de pseudonymisation essentielles à sa mise en œuvre pratique. Considérons un identifiant A qui apparaît dans les bases de données X et Y. Après pseudonymisation, A obtient un pseudonyme selon l'une des politiques suivantes.
Pseudonymisation déterministe
Dans la pseudonymisation déterministe, chaque fois qu'un identifiant apparaît plusieurs fois dans différentes bases de données, il est toujours remplacé par le même pseudonyme. Par exemple, si A apparaît dans les bases de données X et Y, il serait remplacé par un pseudonyme PS.
Lors de la mise en œuvre de cette politique, tous les identifiants uniques sont remplacés par leurs pseudonymes correspondants.
Pseudonymisation aléatoire par document
La pseudonymisation aléatoire par document remplace plusieurs instances d'un identifiant par différents pseudonymes. Par exemple, si un identifiant A apparaît deux fois dans une base de données, il sera remplacé par les pseudonymes PS1 et PS2 pour leurs occurrences respectives. Cependant, la pseudonymisation est cohérente entre différentes bases de données dans cette politique.
La mise en œuvre de la pseudonymisation aléatoire par document nécessite une liste de tous les identifiants et traite toutes les occurrences de manière indépendante.
Pseudonymisation entièrement aléatoire
La pseudonymisation entièrement aléatoire remplace plusieurs instances d'un identifiant par différents pseudonymes chaque fois qu'il apparaît dans une base de données. Lorsqu'on travaille sur une seule base de données, elle est similaire à la pseudonymisation aléatoire par document. Cependant, si les ensembles de données sont pseudonymisés deux fois en utilisant la pseudonymisation entièrement aléatoire, le résultat serait différent de celui de la pseudonymisation aléatoire par document. Cette dernière générerait le même résultat deux fois.
Le caractère aléatoire est sélectif dans le cas de la pseudonymisation aléatoire par document, tandis qu'il est global pour la pseudonymisation entièrement aléatoire.
Comment choisir une technique et une politique de pseudonymisation
Lors de la sélection d'une technique de pseudonymisation, vous devez déterminer le niveau de protection des données et les exigences d'utilité que vous souhaitez atteindre après la mise en œuvre. Le RNG, le chiffrement et le code d'authentification de message sont essentiels pour garantir une protection robuste des données. Cependant, vous pouvez choisir une combinaison ou une variation des techniques mentionnées ci-dessus en fonction des exigences d'utilité.
De même, votre choix de technique de pseudonymisation varie en fonction des niveaux de protection des données et de la capacité à comparer différentes bases de données. Par exemple, la pseudonymisation entièrement aléatoire offre le meilleur niveau de protection des données mais pourrait ne pas convenir si vous souhaitez comparer différentes bases de données. La pseudonymisation aléatoire par document et la fonction déterministe offrent une utilité mais facilitent la liaison entre les sujets de données.
La complexité et l'évolutivité jouent également un rôle important dans le choix. À l'exception de certaines variations de chiffrement, la plupart des techniques s'appliquent à des identifiants de tailles variées. Étant donné que la fonction de hachage, le générateur de nombres aléatoires et le code d'authentification de message présentent des risques de collision, vous devez choisir la taille d'un pseudonyme avec soin.
Cas d'utilisation de la pseudonymisation
Une combinaison de différentes approches de pseudonymisation peut offrir des avantages uniques dans des applications réelles. Voici les industries courantes qui mettent en œuvre la pseudonymisation de manière populaire.
Santé
La pseudonymisation protège les données sensibles dans les dossiers médicaux contre l'accès accidentel ou intentionnel par toute partie non autorisée. Les dossiers médicaux contiennent des données substantielles concernant l'état médical d'un patient, le diagnostic, l'aspect financier et l'historique médical. Les médecins peuvent utiliser ces dossiers pour évaluer l'état médical d'un patient et fournir un traitement.
D'autre part, les compagnies d'assurance peuvent utiliser les données financières. De même, les agences de recherche peuvent exploiter les dossiers médicaux pour accéder à des informations binaires telles que si un patient a été traité.
Tous les scénarios mentionnés ci-dessus suggèrent que toute partie accéderait à des informations qui lui sont pertinentes. Mais les dossiers médicaux contiennent des informations détaillées sur tous les aspects des soins de santé d'un patient. La pseudonymisation joue un rôle vital ici et empêche les parties d'accéder à des données qui ne sont pas pertinentes pour leur objectif.
Par exemple, les institutions de recherche ont besoin d'accéder aux données sur les symptômes, la durée et le traitement pour effectuer la modélisation statistique et l'analyse. La pseudonymisation les aide à fournir ces données aux chercheurs afin qu'elles ne puissent pas être liées à un patient.
Les institutions médicales peuvent utiliser la pseudonymisation pour protéger la vie privée des patients tout en traitant les données médicales. Elle aide à se conformer aux réglementations standard dans le domaine de la santé et à protéger les données des patients contre l'accès non autorisé.
Cybersécurité
Les technologies modernes de cybersécurité ne dépendent plus de la protection statique ou basée sur des signatures. Au lieu de cela, elles corrèlent des événements suspects qui révèlent l'existence de menaces avancées et forment des systèmes d'apprentissage automatique pour les détecter. Ces technologies se concentrent également sur la construction de modèles de menace comportementale et l'établissement d'une protection basée sur la réputation.
Ces technologies traitent des données personnelles pour fournir des analyses de sécurité, et la pseudonymisation joue un rôle vital dans la protection des informations sensibles. Avec le web qui croît de manière exponentielle, il devient de plus en plus difficile de suivre et de bloquer les mauvais domaines, URL ou acteurs malveillants. Les systèmes de sécurité modernes utilisent l'analyse comportementale et forment leurs systèmes après avoir corrélé les données collectées sur le terrain connues sous le nom de télémétrie de sécurité. Ces analyses de télémétrie ne nécessitent pas l'identification de l'utilisateur, et toutes les données liées à l'utilisation réelle peuvent être pseudonymisées pour garantir la confidentialité.
De nombreux systèmes d'apprentissage automatique exploitent la "sagesse de la foule" pour comprendre le comportement d'une vaste population, comme les fichiers téléchargés et les URL. Les systèmes de réputation attribuent un score de réputation basé sur la télémétrie collectée. Ces modèles réussissent lorsque de grands échantillons de données bénignes et malveillantes sont analysés, aidant les modèles à comprendre la distinction entre les deux. La corrélation de telles données ne nécessiterait pas l'identification des utilisateurs bénins, mais à un moment donné, il serait nécessaire d'identifier les utilisateurs malveillants.
La pseudonymisation aide à contenir les informations sensibles des utilisateurs dans de tels scénarios lorsqu'elles sont envoyées pour analyse à l'entité de pseudonymisation. Les organisations utilisent des outils de pseudonymisation, également connus sous le nom de logiciels de pseudonymie de dé-identification des données, pour éliminer toute corrélation ou identité humaine réelle.
Top 5 des logiciels de dé-identification et de pseudonymie des données
Les logiciels de dé-identification et de pseudonymie des données substituent les informations confidentielles dans les ensembles de données par des identifiants artificiels ou des pseudonymes. Ces logiciels aident les entreprises à pseudonymiser (ou tokeniser) les données sensibles, à minimiser le risque de stockage d'informations personnelles et à se conformer aux normes de confidentialité et de protection des données.
Pour être inclus dans la catégorie des logiciels de dé-identification et de pseudonymie des données, un produit doit :
- Substituer les données personnelles par des pseudonymes
- Protéger les données contre la ré-identification
- Respecter les normes du RGPD pour la pseudonymisation dans le cadre des exigences de Protection des Données dès la Conception et par Défaut
- Répondre aux exigences de la California Consumer Privacy Act (CCPA)
Ces données ont été extraites de G2 le 12 mai 2022. Certaines critiques peuvent être éditées pour plus de clarté.
1. VGS Platform
Very Good Security (VGS) Platform offre un moyen plus rapide d'atteindre des résultats commerciaux grâce à une approche zéro-données qui découple la valeur commerciale des données sensibles des risques de sécurité et de conformité associés. Il aide les clients à atteindre la conformité seize fois plus rapidement, accélère le processus d'audit de 70 %, améliore l'expérience client et réduit les coûts tout en soutenant l'innovation constante.
Ce que les utilisateurs aiment :
"Il m'a fallu si peu de temps pour comprendre comment fonctionne VGS et changer notre flux de travail pour être proxifié via VGS. Le support a toujours été une excellente expérience, surtout via le chat."
- VGS Platform Review, Vu K.
Ce que les utilisateurs n'aiment pas :
"Les cas d'utilisation avancés peuvent être complexes, en particulier dans l'espace de filtrage du protocole de transfert de fichiers sécurisé (SFTP). Il semble que le produit SFTP ne soit pas aussi mature que le proxy HTTP, ce qui est logique car je pense que la plupart des utilisations de VGS se feront dans le proxy HTTP.
Le tableau de bord est convivial pour l'intégration de nouveaux utilisateurs, mais finit par devenir difficile à gérer. Il serait agréable de pouvoir éditer directement le YAML d'un filtre dans le tableau de bord au lieu de devoir exporter/réimporter tout le YAML."
- VGS Platform Review, Leejay H.
2. Cloud Compliance for Salesforce
Cloud Compliance for Salesforce fournit aux équipes et à la direction une sécurité complète des données et une conformité aux lois sur la confidentialité (RGPD, CCPA), aux réglementations de l'industrie (Health Insurance Portability and Accountability Act, normes de sécurité des cartes de paiement) et aux politiques InfoSec. Il aide les entreprises à atténuer le risque de non-conformité avec une solution standardisée et sans erreur.
Ce que les utilisateurs ont dit :
"Il reste à jour avec les derniers détails des mesures de conformité comme le RGPD, etc. Il dispose également d'une interface utilisateur rapide basée sur des clics qui minimise le temps de configuration.
Les politiques de rétention des données pourraient être personnalisées pour répondre aux besoins spécifiques si l'on doit conserver des données historiques pendant une période prolongée."
- Cloud Compliance for Salesforce Review, Nitin S.
*Au 23 mai 2022, Cloud Compliance for Salesforce avait une critique sur G2.
3. D-ID
D-ID’s identity protection makes organizations’ photos and videos unrecognizable to facial recognition tools. It safeguards facial biometric data and prevents any bad actor from using pictures and videos to access any information.
Ce que les utilisateurs ont dit :
"La facilité d'utilisation est la principale chose pour moi. Je l'achèterais à nouveau. J'ai aimé toute l'application, pas de plaintes."
- D-ID Review, Billy A.
*Au 23 mai 2022, D-ID avait une critique sur G2.
4. Immuta
Immuta provides unified data access to analytical datasets in the cloud to engineering and operations teams. It speeds time to data, facilitates secure data sharing with more users, and mitigates data breaches and leaks.
Ce que les utilisateurs aiment :
"Immuta est une plateforme de contrôle d'accès aux données cloud qui est adaptative et évolutive en fonction de la nature dynamique de nos sources de données. Elle provisionne toutes les intégrations source-cible de manière transparente afin que nous puissions faciliter la transition des données de notre infrastructure sur site vers le cloud.
Étant donné qu'il s'agit d'une plateforme automatisée hébergée dans le cloud, nous gagnons beaucoup de temps car elle ne nécessite pas de parsing de tâches ou d'installations d'agents. Les ensembles de données essentiels sont enregistrés avec précision dans son catalogue, et nous pouvons également activer des préférences personnalisées lors de l'analyse des données."
- Immuta Review, Nikitha S.
Ce que les utilisateurs n'aiment pas :
"Chaque fois que je dois ajouter une nouvelle table à partir d'un entrepôt de données, qui est déjà connu d'Immuta, je dois taper à nouveau les détails de connexion (hôte, nom d'utilisateur, etc.)"
- Immuta Review, Igor C.
5. Informatica Dynamic Data Masking
Informatica Dynamic Data Masking prevents unauthorized users from accessing sensitive information with real-time de-identification and de-sensitization. It safeguards personal and sensitive information while supporting offshoring, outsourcing, and cloud-based initiatives.
Ce que les utilisateurs ont dit :
"Informatica DDM offre la commodité et la fiabilité de la protection des données avec sa fonctionnalité DDM étendue. Il couvre l'aspect sécurité de l'accès non autorisé et empêche la corruption des données tout au long de leur cycle de vie. Sa conformité à la confidentialité des utilisateurs finaux inclut divers éléments clés tels que le chiffrement des données, le hachage, la tokenisation, etc.
Informatica DDM est excellent pour la gouvernance, l'intégrité et les considérations de sécurité des données. Il convient du point de vue de mon organisation, et j'aime le produit."
- Informatica Dynamic Data Masking Review, Sabapathi G.
*Au 23 mai 2022, Informatica Dynamic Data Masking avait une critique sur G2.
Prouver la conformité par la fiabilité
Choisissez un logiciel de dé-identification et de pseudonymie des données qui correspond le mieux à vos besoins en matière de protection des données et fiez-vous à lui pour prouver la conformité. Avec un logiciel, vous pouvez tirer de la valeur des ensembles de données sans compromettre la confidentialité des sujets de données dans un ensemble de données donné.
Si vous avez besoin d'utiliser une version alternative des ensembles de données à des fins de démonstration ou de formation tout en garantissant la protection des données sensibles, le masquage des données peut mieux répondre à vos besoins.
En savoir plus sur le masquage des données et comment il facilite le partage sécurisé des données.

Sagar Joshi
Sagar Joshi is a former content marketing specialist at G2 in India. He is an engineer with a keen interest in data analytics and cybersecurity. He writes about topics related to them. You can find him reading books, learning a new language, or playing pool in his free time.