Tener acceso a datos personales significa que las empresas pueden adaptar productos y servicios a las necesidades e intereses de sus clientes. Pero ese acceso conlleva una gran responsabilidad.
Las organizaciones deben mantener la privacidad y confidencialidad de los datos para cumplir con regulaciones de la industria como el Reglamento General de Protección de Datos (GDPR).
La seudonimización juega un papel crucial en garantizar la protección de datos. Muchas organizaciones utilizan software de desidentificación de datos y seudonimización para cumplir con las leyes de privacidad y protección de datos y reducir su riesgo de comprometer información personal identificable.
¿Qué es la seudonimización?
La seudonimización es un método de procesamiento de datos personales de manera que no puedan atribuirse a una persona o sujeto de datos específico sin información adicional. Esta información adicional se mantiene por separado para garantizar la privacidad de una persona identificada o identificable.
La información personal puede ser cualquier cosa relacionada con una persona natural identificable. Entre otros marcadores, esto incluye nombre, ubicación y número de identificación. La información puede comprender cualquier combinación de características físicas, fisiológicas, sociales, económicas o psicológicas relacionadas con una persona.
La seudonimización es parte del proceso de gestión y desidentificación de datos. Reemplaza información personal identificable (PII) con uno o más seudónimos o identificadores artificiales. Las empresas pueden restaurar los datos seudonimizados a su estado original utilizando información adicional que respalde el proceso de reidentificación.
Es una forma de cumplir con el Reglamento General de Protección de Datos (GDPR) de la Unión Europea. El estándar regulatorio exige el almacenamiento seguro de datos personales. Cuando se implementa de manera efectiva, la seudonimización también motiva a relajar las obligaciones de los controladores de datos.
Una técnica de seudonimización basada en riesgos considera factores de utilidad y escalabilidad mientras ofrece protección. La implementación de la seudonimización basada en riesgos es posible cuando los controladores y procesadores de datos tienen acceso a la información proporcionada por los propietarios de productos, gerentes de servicios o propietarios de aplicaciones.
Los reguladores necesitan dar pasos granulares y prácticos para evaluar riesgos mientras promueven la priorización basada en riesgos y sus mejores prácticas. Esto permite la protección de datos a gran escala y ayuda a las empresas a asegurar grandes volúmenes de datos personales.
¿Cómo funciona la seudonimización?
En el proceso de seudonimización, identificadores como nombre, número de teléfono o dirección de correo electrónico se asignan a seudónimos: cualquier número arbitrario, carácter o una secuencia de ambos. Por ejemplo, si hay dos identificadores, A y B, asignados a seudónimos PS1 y PS2, el proceso ejecuta una función de seudonimización que diferencia PS1 de PS2. De lo contrario, la recuperación de identificadores podría volverse ambigua.
Es posible asignar un solo identificador a múltiples seudónimos siempre que se pueda recuperar el identificador real. Para cada seudónimo, hay un secreto adicional, también conocido como secreto de seudonimización, que ayuda a recuperar el identificador original. Una tabla de seudonimización que asigna identificadores a un seudónimo puede ser un ejemplo simple de secreto o información adicional.
¿Quieres aprender más sobre Herramientas de Desidentificación de Datos? Explora los productos de Datos de desidentificación.
Anonimización vs. Seudonimización
El proceso de anonimización hace que los datos sean completamente ilegibles o anónimos: los datos originales no se pueden recuperar más tarde. Tomemos un ejemplo simple. Si anonimizas datos como el nombre Scott, su salida puede ser XXXXX impidiendo la recuperación del nombre real de los datos anonimizados.
Por el contrario, con la ayuda de información adicional o un secreto de seudonimización, los datos seudónimos pueden transformarse en el identificador original.
El proceso de anonimización garantiza la privacidad de los datos, pero no siempre es práctico. En algunos casos, como los datos de salud, la anonimización puede extraer conclusiones significativas sin comprometer la identidad de un paciente.
Cuando la anonimización no puede garantizar completamente la privacidad de los datos, pueden ser necesarias medidas de seguridad como el cifrado. Estas situaciones surgen cuando los datos anonimizados se combinan con otros conjuntos de datos y cuando es posible rastrear la información hasta una persona específica.
Técnicas de seudonimización
A continuación se presentan algunas técnicas básicas de seudonimización que los equipos pueden utilizar para proteger los datos personales.
Contador
La técnica del contador sustituye cada identificador por un número elegido por un contador monótono. Evita la ambigüedad asegurando que no haya repetición en los valores del contador monótono. Esta técnica es fácil de implementar para conjuntos de datos pequeños y simples.
Nombre | Seudónimo (generador de contador) |
Fisher | 10 |
Mark | 11 |
Twain | 12 |
La simplicidad es una ventaja de la técnica del contador. Sin embargo, puede haber algunos problemas de implementación y escalabilidad en el caso de conjuntos de datos grandes y más sofisticados, ya que almacenan toda la tabla de seudonimización.
Generador de números aleatorios (RNG)
Un generador de números aleatorios produce valores que tienen una posibilidad igual de ser elegidos de una población total, generando valores impredecibles. Proporciona una protección de datos robusta en comparación con la técnica del contador, ya que es difícil identificar el identificador real siempre que la tabla de seudonimización no esté comprometida.
Nombre | Seudónimo (RNG) |
Fisher | 342 |
Mark | 984 |
Twain | 410 |
Advertencia justa, RNG viene con posibilidades de colisión. La colisión se refiere a un escenario donde la función asigna el mismo seudónimo a dos identificadores diferentes. La escalabilidad también puede ser un desafío a medida que se trabaja en conjuntos de datos más grandes y sofisticados, ya que esta técnica también almacena la tabla de seudonimización.
Función hash criptográfica
Una función hash criptográfica asigna cadenas de entrada de múltiples longitudes a salidas de longitud fija. Esto asegura que sea computacionalmente inviable encontrar cualquier entrada que genere una cadena de salida específica. Además, está libre de colisiones. Por ejemplo, Alice y Fisher, después de la seudonimización usando la función hash criptográfica, generarán 24fsa35gersw439 y 43ase98shekc021 como seudónimos.
Aunque las funciones hash criptográficas resuelven algunos desafíos de la seudonimización, como las colisiones, son propensas a ataques de fuerza bruta y ataques de diccionario.
Código de autenticación de mensajes (MAC)
El código de autenticación de mensajes es similar a la función hash criptográfica, pero utiliza una clave secreta para generar un seudónimo. Siempre que esta clave no esté comprometida, es inviable detectar el identificador real a partir del seudónimo.
MAC se considera una técnica de seudonimización robusta. Sus variaciones se aplican a diferentes requisitos de escalabilidad y utilidad de la entidad de seudonimización. MAC se puede aplicar en publicidad basada en internet donde un anunciante puede adjuntar un seudónimo único para cada individuo sin revelar sus identidades.
También puedes aplicar MAC en subpartes separadas de un identificador y usar la misma clave secreta. Por ejemplo, en el caso de XYZ@abc.op y PNR@abc.op, puedes asignar la misma clave secreta al dominio abc.op y generar el mismo subseudónimo.
Cifrado
El cifrado simétrico, especialmente los cifrados de bloque como el Estándar de Cifrado Avanzado (AES), cifra un identificador con una clave secreta. Esta clave sirve como secreto de seudonimización y secreto de recuperación. El tamaño del bloque puede ser más pequeño o más grande que un identificador en esta técnica. El método incluye relleno si el tamaño del identificador es más pequeño que el tamaño del bloque.
Por otro lado, si el tamaño del identificador es mayor que el tamaño del bloque, ya sea que el identificador se comprime en un tamaño más pequeño que el tamaño del bloque, o se utiliza un modo de operación como el modo de contador CTR. El cifrado es una técnica de seudonimización fuerte.
En casos donde el controlador de datos necesita preservar el formato sin revelar el identificador original, se utiliza el cifrado de preservación de formato (FPE) en lugar de la criptografía convencional. Por ejemplo, durante la seudonimización de XYZ@jkl.com, FPE puede producir wqi@abc.kxr, y la criptografía convencional puede generar hui sa0 2ser @ aqw xde bgt miu cvf erw 56t como seudónimos.
A continuación se presentan algunos métodos avanzados de seudonimización utilizados en conjuntos de datos comparativamente complejos.
- El cifrado asimétrico involucra a dos entidades diferentes en el proceso de seudonimización. La clave pública crea un seudónimo; la clave privada lo resuelve para determinar el identificador.
- Las cadenas hash dependen de hashear repetidamente el valor hash para producir una salida que requiere múltiples inversiones para determinar el identificador original.
- Los esquemas de compartición de secretos dividen la información confidencial en múltiples partes. Estos esquemas también se conocen como esquemas de umbral (k, n).
Políticas de seudonimización
Existen tres políticas estándar de seudonimización vitales para su implementación práctica. Consideremos un identificador A que aparece en las bases de datos X y Y. Después de la seudonimización, A obtiene un seudónimo según una de las siguientes políticas.
Seudonimización determinista
En la seudonimización determinista, cada vez que un identificador aparece múltiples veces en diferentes bases de datos, siempre se reemplaza con el mismo seudónimo. Por ejemplo, si A aparece en ambas bases de datos X y Y, se reemplazaría con un seudónimo PS.
Durante la implementación de esta política, todos los identificadores únicos se reemplazan con sus correspondientes seudónimos.
Seudonimización aleatoria de documentos
La seudonimización aleatoria de documentos sustituye múltiples instancias de un identificador con diferentes seudónimos. Por ejemplo, si un identificador A aparece dos veces en una base de datos, se reemplazará con seudónimos PS1 y PS2 para sus respectivas ocurrencias. Sin embargo, la seudonimización es consistente entre diferentes bases de datos en esta política.
La implementación de la seudonimización aleatoria de documentos requiere una lista de todos los identificadores y trata todas las ocurrencias de manera independiente.
Seudonimización completamente aleatoria
La seudonimización completamente aleatoria reemplaza múltiples instancias de un identificador con diferentes seudónimos cada vez que ocurre en cualquier base de datos. Al trabajar en una sola base de datos, es similar a la seudonimización aleatoria de documentos. Sin embargo, si los conjuntos de datos se seudonimizan dos veces utilizando la seudonimización completamente aleatoria, la salida sería diferente de la de la seudonimización aleatoria de documentos. Esta última generaría el mismo resultado dos veces.
La aleatoriedad es selectiva en el caso de la seudonimización aleatoria de documentos, mientras que es global para la seudonimización completamente aleatoria.
Cómo elegir una técnica y política de seudonimización
Al seleccionar una técnica de seudonimización, necesitas determinar el nivel de protección de datos y los requisitos de utilidad que deseas lograr después de la implementación. RNG, cifrado y código de autenticación de mensajes son vitales para garantizar una protección de datos robusta. Sin embargo, puedes elegir una combinación o variación de las técnicas mencionadas anteriormente según los requisitos de utilidad.
De manera similar, tu elección de técnica de seudonimización varía según los niveles de protección de datos y la capacidad de comparar diferentes bases de datos. Por ejemplo, la seudonimización completamente aleatoria ofrece el mejor nivel de protección de datos, pero podría no ser adecuada si deseas comparar diferentes bases de datos. La seudonimización aleatoria de documentos y la función determinista ofrecen utilidad pero facilitan la vinculación entre sujetos de datos.
La complejidad y la escalabilidad también juegan un papel significativo en la elección. Excepto por algunas variaciones de cifrado, la mayoría de las técnicas se aplican a identificadores de tamaños variables. Dado que la función hash, el generador de números aleatorios y el código de autenticación de mensajes tienen posibilidades de colisión, necesitas elegir cuidadosamente el tamaño de un seudónimo.
Casos de uso de la seudonimización
Una combinación de diferentes enfoques de seudonimización puede ofrecer ventajas únicas en aplicaciones del mundo real. A continuación se presentan las industrias comunes que implementan popularmente la seudonimización.
Salud
La seudonimización protege los datos sensibles en los registros médicos contra el acceso accidental o intencional por parte de cualquier parte no autorizada. Los registros médicos contienen datos sustanciales sobre la condición médica de un paciente, diagnóstico, aspecto financiero e historial médico. Los médicos pueden usar estos registros para evaluar la condición médica de un paciente y proporcionar tratamiento.
Por otro lado, las compañías de seguros pueden usar datos financieros. De manera similar, las agencias de investigación pueden aprovechar los registros médicos para acceder a información binaria, como si un paciente fue tratado.
Todos los escenarios mencionados anteriormente sugieren que cualquier parte accedería a la información que es relevante para ellos. Pero los registros médicos contienen información detallada sobre todos los aspectos de la atención médica de un paciente. La seudonimización juega un papel vital aquí y evita que las partes accedan a datos que no son relevantes para su propósito.
Por ejemplo, las instituciones de investigación necesitan acceso a datos de síntomas, duración y tratamiento para realizar modelado estadístico y análisis. La seudonimización les ayuda a proporcionar estos datos a los investigadores para que no puedan vincularse a ningún paciente.
Las instituciones médicas pueden usar la seudonimización para proteger la privacidad de los pacientes mientras procesan datos médicos. Ayuda a cumplir con las regulaciones estándar en el cuidado de la salud y protege los datos de los pacientes contra el acceso no autorizado.
Ciberseguridad
Las tecnologías modernas de ciberseguridad ya no dependen de la protección estática o basada en firmas. En cambio, correlacionan eventos sospechosos que revelan la existencia de amenazas avanzadas y entrenan sistemas de aprendizaje automático para detectarlas. Estas tecnologías también se centran en construir modelos de amenazas de comportamiento y establecer protección basada en reputación.
Estas tecnologías procesan datos personales para proporcionar análisis de seguridad, y la seudonimización juega un papel vital en la protección de información sensible. Con el crecimiento exponencial de la web, se vuelve cada vez más desafiante rastrear y bloquear dominios, URL o actores maliciosos. Los sistemas de seguridad modernos utilizan análisis de comportamiento y entrenan sus sistemas después de correlacionar datos recopilados en el campo conocidos como telemetría de seguridad. Estos análisis de telemetría no requieren identificación del usuario, y cualquier dato relacionado con el uso real puede seudonimizarse para garantizar la privacidad.
Muchos sistemas de aprendizaje automático aprovechan la "sabiduría de la multitud" para comprender el comportamiento de una vasta población, como archivos descargados y URL. Los sistemas de reputación asignan una puntuación de reputación basada en la telemetría recopilada. Estos modelos tienen éxito cuando se analizan grandes muestras de datos benignos y maliciosos, ayudando a los modelos a entender la distinción entre ambos. Correlacionar tales datos no requeriría la identificación del usuario benigno, pero en algún momento necesitaría identificar a los usuarios maliciosos.
La seudonimización ayuda a contener información sensible del usuario en tales escenarios mientras se envían para análisis a la entidad de seudonimización. Las organizaciones utilizan herramientas de seudonimización, también conocidas como software de seudonimización de identificación de datos, para eliminar cualquier correlación o identidad humana real.
Los 5 mejores software de desidentificación de datos y seudonimización
El software de desidentificación de datos y seudonimización sustituye la información confidencial en conjuntos de datos con identificadores artificiales o seudónimos. Estos software ayudan a las empresas a seudonimizar (o tokenizar) datos sensibles, minimizar el riesgo de almacenar información personal y cumplir con los estándares de privacidad y protección de datos.
Para calificar para la inclusión en la categoría de software de desidentificación de datos y seudonimización, un producto debe:
- Sustituir datos personales con seudónimos
- Proteger los datos contra la reidentificación
- Cumplir con los estándares GDPR para la seudonimización bajo los requisitos de Protección de Datos por Diseño y por Defecto
- Cumplir con los requisitos de la Ley de Privacidad del Consumidor de California (CCPA)
Estos datos fueron extraídos de G2 el 12 de mayo de 2022. Algunas reseñas pueden estar editadas para mayor claridad.
1. Plataforma VGS
Very Good Security (VGS) Platform ofrece una forma más rápida de lograr resultados comerciales a través de un enfoque de cero datos que desacopla el valor comercial de los datos sensibles de los riesgos relacionados con la seguridad y el cumplimiento. Ayuda a los clientes a lograr el cumplimiento dieciséis veces más rápido, acelera el proceso de auditoría en un 70%, mejora la experiencia del cliente y reduce costos mientras apoya la innovación constante.
Lo que les gusta a los usuarios:
“Me tomó muy poco tiempo entender cómo funciona VGS y cambiar nuestro flujo de trabajo para ser proxy a través de VGS. El soporte siempre ha sido una gran experiencia, especialmente a través del chat.”
- Reseña de VGS Platform, Vu K.
Lo que no les gusta a los usuarios:
“Los casos de uso avanzados pueden ser complejos, especialmente en el espacio de filtrado de protocolo de transferencia de archivos seguros (SFTP). Parece que el producto SFTP no es tan maduro como el proxy HTTP, lo cual tiene sentido ya que creo que la mayoría del uso de VGS será en el proxy HTTP.
El panel es amigable para la incorporación de nuevos usuarios, pero eventualmente se vuelve difícil de gestionar. Sería bueno si pudiera editar el YAML de un filtro directamente en el panel en lugar de tener que exportar/reimportar todo el YAML.”
- Reseña de VGS Platform, Leejay H.
2. Cumplimiento en la Nube para Salesforce
Cloud Compliance for Salesforce proporciona a los equipos y líderes una seguridad de datos completa y cumplimiento con las leyes de privacidad (GDPR, CCPA), regulaciones de la industria (Ley de Portabilidad y Responsabilidad de Seguros de Salud, estándares de seguridad de la industria de tarjetas de pago) y políticas de InfoSec. Ayuda a las empresas a mitigar el riesgo de incumplimiento con una solución estandarizada y sin errores.
Lo que han dicho los usuarios:
“Se mantiene actualizado con los últimos detalles en medidas de cumplimiento como GDPR, etc. También tiene una interfaz de usuario rápida basada en clics que minimiza el tiempo de configuración.
Las políticas de retención de datos podrían personalizarse para adaptarse a las necesidades específicas si se necesita mantener datos históricos por un período de tiempo prolongado."
- Reseña de Cloud Compliance for Salesforce, Nitin S.
*A partir del 23 de mayo de 2022, Cloud Compliance for Salesforce tenía una reseña en G2.
3. D-ID
D-ID’s identity protection makes organizations’ photos and videos unrecognizable to facial recognition tools. It safeguards facial biometric data and prevents any bad actor from using pictures and videos to access any information.
Lo que han dicho los usuarios:
“La facilidad de uso es lo principal para mí. Lo compraría de nuevo. Me gustó toda la aplicación, no tengo quejas."
- Reseña de D-ID, Billy A.
*A partir del 23 de mayo de 2022, D-ID tenía una reseña en G2.
4. Immuta
Immuta proporciona acceso unificado a datos analíticos en la nube para equipos de ingeniería y operaciones. Acelera el tiempo de acceso a los datos, facilita el intercambio seguro de datos con más usuarios y mitiga las violaciones y fugas de datos.
Lo que les gusta a los usuarios:
“Immuta es una plataforma de control de acceso a datos en la nube que es adaptable y escalable según la naturaleza dinámica de nuestras fuentes de datos. Proporciona toda la integración de origen-destino sin problemas para que podamos facilitar la transición de datos de nuestra infraestructura local a la nube.
Dado que es una plataforma automatizada alojada en la nube, ahorramos mucho tiempo ya que no requiere ningún análisis de trabajos o instalaciones de agentes. Los conjuntos de datos esenciales se registran con precisión en su catálogo, y también podemos habilitar preferencias personalizadas al realizar análisis de datos.”
- Reseña de Immuta, Nikitha S.
Lo que no les gusta a los usuarios:
“Cada vez que tengo que agregar una nueva tabla de un almacén de datos, que ya es conocida por Immuta, tengo que escribir los detalles de conexión una y otra vez (host, nombre de usuario, etc.)”
- Reseña de Immuta, Igor C.
5. Enmascaramiento Dinámico de Datos de Informatica
Informatica Dynamic Data Masking previene que usuarios no autorizados accedan a información sensible con desidentificación y desensibilización en tiempo real. Protege la información personal y sensible mientras apoya iniciativas de externalización, subcontratación y basadas en la nube.
Lo que han dicho los usuarios:
“Informatica DDM ofrece la conveniencia y confiabilidad de tener protección de datos con su extensa función DDM. Cubre el aspecto de seguridad del acceso no autorizado y previene la corrupción de datos a lo largo de su ciclo de vida. Su cumplimiento de privacidad del usuario final incluye varios elementos clave como cifrado de datos, hash, tokenización, etc.
Informatica DDM es excelente para consideraciones de gobernanza, integridad y seguridad de datos. Es adecuado desde el punto de vista de mi organización, y me gusta el producto.”
- Reseña de Informatica Dynamic Data Masking, Sabapathi G.
*A partir del 23 de mayo de 2022, Informatica Dynamic Data Masking tenía una reseña en G2.
Demuestra cumplimiento a través de la confianza
Elige un software de desidentificación de datos y seudonimización que se adapte mejor a tus necesidades de protección de datos y confía en él para demostrar cumplimiento. Con el software, puedes derivar valor de los conjuntos de datos sin comprometer la privacidad de los sujetos de datos en un conjunto de datos dado.
Si necesitas usar una versión alternativa de conjuntos de datos para demostraciones o propósitos de capacitación mientras aseguras la protección de datos sensibles, el enmascaramiento de datos puede apoyar mejor tus requisitos.
Aprende más sobre enmascaramiento de datos y cómo facilita el intercambio seguro de datos.

Sagar Joshi
Sagar Joshi is a former content marketing specialist at G2 in India. He is an engineer with a keen interest in data analytics and cybersecurity. He writes about topics related to them. You can find him reading books, learning a new language, or playing pool in his free time.