Introducing G2.ai, the future of software buying.Try now

O que é Pseudonimização? Como ela protege a privacidade dos dados

31 de Maio de 2022
por Sagar Joshi

Ter acesso a dados pessoais significa que as empresas podem personalizar produtos e serviços de acordo com as necessidades e interesses de seus clientes. Mas esse acesso vem com grande responsabilidade.

As organizações devem manter a privacidade e a confidencialidade dos dados para cumprir com regulamentações do setor, como o Regulamento Geral sobre a Proteção de Dados (GDPR).

A pseudonimização desempenha um papel crucial na garantia da proteção de dados. Muitas organizações usam software de desidentificação e pseudonimização de dados para cumprir com as leis de privacidade e proteção de dados e reduzir o risco de comprometer informações pessoalmente identificáveis.

Informações pessoais podem ser qualquer coisa relacionada a uma pessoa natural identificável. Entre outros marcadores, isso inclui nome, localização e número de identificação. As informações podem compreender qualquer combinação de características físicas, fisiológicas, sociais, econômicas ou psicológicas relacionadas a uma pessoa. 

A pseudonimização é parte do processo de gerenciamento e desidentificação de dados. Ela substitui informações pessoalmente identificáveis (PII) por um ou mais pseudônimos ou identificadores artificiais. As empresas podem restaurar dados pseudonimizados ao seu estado original usando informações adicionais que suportam o processo de reidentificação.

É uma forma de cumprir com o Regulamento Geral sobre a Proteção de Dados (GDPR) da União Europeia. O padrão regulatório exige o armazenamento seguro de dados pessoais. Quando implementada de forma eficaz, a pseudonimização também motiva o relaxamento das obrigações dos controladores de dados. 

Uma técnica de pseudonimização baseada em risco considera fatores de utilidade e escalabilidade enquanto oferece proteção. A implementação da pseudonimização baseada em risco é possível quando controladores e processadores de dados têm acesso a informações fornecidas por proprietários de produtos, gerentes de serviços ou proprietários de aplicativos. 

Os reguladores precisam fornecer etapas granulares e práticas para avaliar riscos enquanto promovem a priorização baseada em risco e suas melhores práticas. Isso permite a proteção de dados em escala e ajuda as empresas a proteger grandes volumes de dados pessoais.

Como a pseudonimização funciona?

No processo de pseudonimização, identificadores como nome, número de telefone ou endereço de e-mail são mapeados para pseudônimos: qualquer número arbitrário, caractere ou uma sequência de ambos. Por exemplo, se houver dois identificadores, A e B, mapeados para pseudônimos PS1 e PS2, o processo executa uma função de pseudonimização que diferencia PS1 de PS2. Caso contrário, a recuperação dos identificadores poderia se tornar ambígua. 

É possível mapear um único identificador para múltiplos pseudônimos, desde que o identificador real possa ser recuperado. Para cada pseudônimo, há um segredo adicional, também conhecido como segredo de pseudonimização, que ajuda a recuperar o identificador original. Uma tabela de pseudonimização que mapeia identificadores para um pseudônimo pode ser um exemplo simples de segredo ou informação adicional.

Quer aprender mais sobre Ferramentas de Desidentificação de Dados? Explore os produtos de Desidentificação de Dados.

Anonimização vs. Pseudonimização

O processo de anonimização torna os dados completamente ilegíveis ou anônimos: os dados originais não podem ser recuperados posteriormente. Vamos tomar um exemplo simples. Se você anonimizar dados como o nome Scott, sua saída pode ser XXXXX, impedindo a recuperação do nome real a partir dos dados anonimizados. 

Anonymization vs pseudonymization

Por outro lado, com a ajuda de informações adicionais ou um segredo de pseudonimização, os dados pseudonimizados podem ser transformados no identificador original.

O processo de anonimização garante a privacidade dos dados, mas nem sempre é prático. Em alguns casos, como dados de saúde, a anonimização pode permitir conclusões significativas sem comprometer a identidade de um paciente. 

Quando a anonimização não pode garantir totalmente a privacidade dos dados, a criptografia e outras medidas de segurança podem ser necessárias.  Essas situações surgem quando dados anonimizados são combinados com outros conjuntos de dados e quando é possível rastrear as informações até uma pessoa específica.  

Técnicas de pseudonimização

Abaixo estão algumas técnicas básicas de pseudonimização que as equipes podem usar para proteger dados pessoais.

Contador

A técnica do contador substitui cada identificador por um número escolhido por um contador monotônico. Evita ambiguidade garantindo que não haja repetição nos valores do contador monotônico. Esta técnica é fácil de implementar para conjuntos de dados pequenos e simples.

Exemplo de pseudonimização com técnica de contador
Nome Pseudônimo (gerador de contador)
Fisher 10
Mark 11
Twain 12

A simplicidade é uma vantagem da técnica do contador. No entanto, pode haver alguns problemas de implementação e escalabilidade no caso de conjuntos de dados grandes e mais sofisticados, uma vez que armazenam toda a tabela de pseudonimização.

Gerador de números aleatórios (RNG)

Um gerador de números aleatórios produz valores que têm uma possibilidade igual de serem escolhidos de uma população total, gerando valores imprevisíveis. Ele fornece proteção robusta de dados em comparação com a técnica do contador, pois é desafiador identificar o identificador real, desde que a tabela de pseudonimização não seja comprometida. 

Exemplo de pseudonimização com RNG
Nome Pseudônimo (RNG)
Fisher 342
Mark 984
Twain 410

Aviso justo, o RNG vem com chances de colisão. Colisão refere-se a um cenário em que a função atribui o mesmo pseudônimo a dois identificadores diferentes. A escalabilidade também pode ser um desafio à medida que você trabalha em conjuntos de dados maiores e mais sofisticados, uma vez que essa técnica também armazena a tabela de pseudonimização.

Função de hash criptográfica

Uma função de hash criptográfica mapeia strings de entrada de múltiplos comprimentos para saídas de comprimento fixo. Isso garante que seja computacionalmente inviável encontrar qualquer entrada que gere uma string de saída específica. Além disso, é livre de colisões. Por exemplo, Alice Fisher, após pseudonimização usando a função de hash criptográfica, gerarão 24fsa35gersw439 43ase98shekc021 como pseudônimos.

Embora as funções de hash criptográficas resolvam alguns desafios da pseudonimização, como colisões, elas são propensas a ataques de força bruta e ataques de dicionário. 

Código de autenticação de mensagem (MAC)

O código de autenticação de mensagem é semelhante à função de hash criptográfica, mas usa uma chave secreta para gerar um pseudônimo. Desde que essa chave não seja comprometida, é inviável detectar o identificador real a partir do pseudônimo.

O MAC é visto como uma técnica de pseudonimização robusta. Suas variações se aplicam a diferentes requisitos de escalabilidade e utilidade da entidade de pseudonimização. O MAC pode ser aplicado em publicidade baseada na internet, onde um anunciante pode anexar um pseudônimo único para cada indivíduo sem revelar suas identidades.

Você também pode aplicar o MAC em subpartes separadas de um identificador e usar a mesma chave secreta. Por exemplo, no caso de XYZ@abc.op e PNR@abc.op, você pode atribuir a mesma chave secreta ao domínio abc.op e gerar o mesmo subpseudônimo.

Criptografia

A criptografia simétrica, especialmente cifras de bloco como o Padrão de Criptografia Avançada (AES), criptografa um identificador com uma chave secreta. Esta chave serve como um segredo de pseudonimização e segredo de recuperação. O tamanho do bloco pode ser menor ou maior que um identificador nesta técnica. O método inclui preenchimento se o tamanho do identificador for menor que o tamanho do bloco. 

Por outro lado, se o tamanho do identificador for maior que o tamanho do bloco, ou o identificador é comprimido em um tamanho menor que o tamanho do bloco, ou um modo de operação como o modo de contador CTR é usado. A criptografia é uma técnica de pseudonimização forte.

Nos casos em que o controlador de dados precisa preservar o formato sem revelar o identificador original, a criptografia de preservação de formato (FPE) é usada em vez da criptografia convencional. Por exemplo, durante a pseudonimização de XYZ@jkl.com, a FPE pode produzir wqi@abc.kxr, e a criptografia convencional pode gerar hui sa0 2ser @ aqw xde bgt miu cvf erw 56t como pseudônimos.

Abaixo estão alguns métodos avançados de pseudonimização usados em conjuntos de dados comparativamente complexos. 

  • Criptografia assimétrica envolve duas entidades diferentes no processo de pseudonimização. A chave pública cria um pseudônimo; a chave privada resolve-o para determinar o identificador.
  • Cadeias de hash dependem de hashear repetidamente o valor do hash para produzir uma saída que requer múltiplas inversões para determinar o identificador original.
  • Esquemas de compartilhamento secreto dividem informações confidenciais em várias partes. Esses esquemas também são conhecidos como esquemas de limiar (k, n). 

Políticas de pseudonimização

Existem três políticas padrão de pseudonimização vitais para sua implementação prática. Vamos considerar um identificador A que aparece em bancos de dados X e Y. Após a pseudonimização, A recebe um pseudônimo de acordo com uma das seguintes políticas. 

Pseudonimização determinística

Na pseudonimização determinística, sempre que um identificador aparece várias vezes em diferentes bancos de dados, ele é sempre substituído pelo mesmo pseudônimo. Por exemplo, se A aparecer em ambos os bancos de dados X e Y, ele seria substituído por um pseudônimo PS.

Durante a implementação desta política, todos os identificadores únicos são substituídos por seus pseudônimos correspondentes.

Pseudonimização aleatória de documentos

A pseudonimização aleatória de documentos substitui múltiplas instâncias de um identificador por diferentes pseudônimos. Por exemplo, se um identificador A aparecer duas vezes em um banco de dados, ele será substituído por pseudônimos PS1 e PS2 para suas respectivas ocorrências. No entanto, a pseudonimização é consistente entre diferentes bancos de dados nesta política.

A implementação da pseudonimização aleatória de documentos requer uma lista de todos os identificadores e trata todas as ocorrências de forma independente.

Pseudonimização totalmente aleatória

A pseudonimização totalmente aleatória substitui múltiplas instâncias de um identificador por diferentes pseudônimos sempre que ocorre em qualquer banco de dados. Ao trabalhar em um único banco de dados, é semelhante à pseudonimização aleatória de documentos. No entanto, se os conjuntos de dados forem pseudonimizados duas vezes usando a pseudonimização totalmente aleatória, a saída seria diferente daquela da pseudonimização aleatória de documentos. Esta última geraria o mesmo resultado duas vezes.

A aleatoriedade é seletiva no caso da pseudonimização aleatória de documentos, enquanto é global para a pseudonimização totalmente aleatória.

Como escolher uma técnica e política de pseudonimização

Ao selecionar uma técnica de pseudonimização, você precisa determinar o nível de proteção de dados e os requisitos de utilidade que deseja alcançar após a implementação. RNG, criptografia e código de autenticação de mensagem são vitais para garantir uma proteção robusta de dados. No entanto, você pode escolher uma combinação ou variação das técnicas mencionadas acima com base nos requisitos de utilidade.

Da mesma forma, sua escolha de técnica de pseudonimização varia com base nos níveis de proteção de dados e na capacidade de comparar diferentes bancos de dados. Por exemplo, a pseudonimização totalmente aleatória oferece o melhor nível de proteção de dados, mas pode não ser adequada se você deseja comparar diferentes bancos de dados. A pseudonimização aleatória de documentos e a função determinística oferecem utilidade, mas facilitam a vinculabilidade entre os sujeitos dos dados.

A complexidade e a escalabilidade também desempenham um papel significativo na governança de sua escolha. Exceto por algumas variações de criptografia, a maioria das técnicas se aplica a identificadores de tamanhos variados. Como a função de hash, o gerador de números aleatórios e o código de autenticação de mensagem têm chances de colisão, você precisa escolher o tamanho de um pseudônimo com cuidado. 

Casos de uso de pseudonimização

Uma combinação de diferentes abordagens de pseudonimização pode oferecer vantagens únicas em aplicações do mundo real. Abaixo estão as indústrias comuns que implementam pseudonimização de forma popular.

Saúde

A pseudonimização protege dados sensíveis em registros médicos contra acesso acidental ou intencional por qualquer parte não autorizada. Os registros médicos contêm dados substanciais sobre a condição médica de um paciente, diagnóstico, aspecto financeiro e histórico médico. Os médicos podem usar esses registros para avaliar a condição médica de um paciente e fornecer tratamento. 

Por outro lado, as seguradoras podem usar dados financeiros. Da mesma forma, agências de pesquisa podem aproveitar os registros médicos para acessar informações binárias, como se um paciente foi tratado. 

Todos os cenários mencionados acima sugerem que qualquer parte acessaria informações que são relevantes para eles. Mas os registros médicos contêm informações detalhadas sobre todos os aspectos do atendimento ao paciente. A pseudonimização desempenha um papel vital aqui e impede que as partes acessem dados que não são relevantes para seu propósito. 

Por exemplo, as instituições de pesquisa precisam de acesso a dados de sintomas, duração e tratamento para realizar modelagem estatística e análise. A pseudonimização ajuda a fornecer esses dados aos pesquisadores para que não possam ser vinculados a nenhum paciente.

As instituições médicas podem usar a pseudonimização para proteger a privacidade dos pacientes enquanto processam dados médicos. Ajuda a cumprir com as regulamentações padrão na área da saúde e a proteger os dados dos pacientes contra acesso não autorizado. 

Cibersegurança

As tecnologias modernas de cibersegurança não dependem mais de proteção estática ou baseada em assinaturas.  Em vez disso, correlacionam eventos suspeitos que revelam a existência de ameaças avançadas e treinam sistemas de aprendizado de máquina para detectá-las. Essas tecnologias também se concentram em construir modelos de ameaças comportamentais e estabelecer proteção baseada em reputação.

Essas tecnologias processam dados pessoais para fornecer análises de segurança, e a pseudonimização desempenha um papel vital na proteção de informações sensíveis. Com a web crescendo exponencialmente, torna-se cada vez mais desafiador rastrear e bloquear domínios ruins, URLs ou atores mal-intencionados. Os sistemas de segurança modernos usam análises comportamentais e treinam seus sistemas após correlacionar dados coletados em campo conhecidos como telemetria de segurança. Essas análises de telemetria não requerem identificação do usuário, e qualquer dado relacionado ao uso real pode ser pseudonimizado para garantir a privacidade.

Muitos sistemas de aprendizado de máquina aproveitam a "sabedoria da multidão" para entender o comportamento de uma vasta população, como arquivos baixados e URLs. Os sistemas de reputação atribuem uma pontuação de reputação com base na telemetria coletada. Esses modelos têm sucesso quando grandes amostras de dados benignos e maliciosos são analisadas, ajudando os modelos a entender a distinção entre ambos. Correlacionar esses dados não exigiria a identificação do usuário benigno, mas em algum momento seria necessário identificar usuários maliciosos. 

A pseudonimização ajuda a conter informações sensíveis do usuário em tais cenários enquanto são enviadas para análise à entidade de pseudonimização. As organizações usam ferramentas de pseudonimização, também conhecidas como software de pseudonimidade de identificação de dados, para eliminar qualquer correlação ou identidade humana real.

Top 5 softwares de desidentificação e pseudonimidade de dados

O software de desidentificação e pseudonimidade de dados substitui informações confidenciais em conjuntos de dados por identificadores artificiais ou pseudônimos. Esses softwares ajudam as empresas a pseudonimizar (ou tokenizar) dados sensíveis, minimizar o risco de armazenar informações pessoais e cumprir com os padrões de privacidade e proteção de dados.

Para se qualificar para inclusão na categoria de software de desidentificação e pseudonimidade de dados, um produto deve:

  • Substituir dados pessoais por pseudônimos
  • Proteger dados contra reidentificação
  • Atender aos padrões GDPR para pseudonimização sob os requisitos de Proteção de Dados por Design e por Padrão
  • Atender aos requisitos da Lei de Privacidade do Consumidor da Califórnia (CCPA)

Esses dados foram extraídos de G2 em 12 de maio de 2022.  Algumas avaliações podem ser editadas para clareza.

1. Plataforma VGS

Very Good Security (VGS) Platform oferece uma maneira mais rápida de alcançar resultados de negócios por meio de uma abordagem de zero dados que desacopla o valor comercial dos dados sensíveis dos riscos relacionados à segurança e conformidade. Ajuda os clientes a alcançar conformidade dezesseis vezes mais rápido, acelera o processo de auditoria em 70%, melhora a experiência do cliente e reduz custos enquanto apoia a inovação constante.

O que os usuários gostam:

“Demorei tão pouco tempo para entender como o VGS funciona e mudar nosso fluxo de trabalho para ser proxy através do VGS. O suporte sempre foi uma ótima experiência, especialmente via chat.”

- VGS Platform Review, Vu K.

O que os usuários não gostam:

“Casos de uso avançados podem ser complexos, especialmente no espaço de filtragem de protocolo de transferência de arquivos seguro (SFTP). Parece que o produto SFTP não é tão maduro quanto o proxy HTTP, o que faz sentido, já que acho que a maioria dos usos do VGS será no proxy HTTP.

O painel é amigável para a integração de novos usuários, mas eventualmente se torna desafiador de gerenciar. Seria bom se eu pudesse editar o YAML de um filtro diretamente no painel em vez de ter que exportar/reimportar todo o YAML.”

- VGS Platform Review, Leejay H.

2. Conformidade em Nuvem para Salesforce

Cloud Compliance for Salesforce fornece às equipes e à liderança segurança completa de dados e conformidade com leis de privacidade (GDPR, CCPA), regulamentações do setor (Lei de Portabilidade e Responsabilidade de Seguros de Saúde, padrões de segurança do setor de cartões de pagamento) e políticas de segurança da informação. Ajuda as empresas a mitigar o risco de não conformidade com uma solução padronizada e sem erros.

O que os usuários disseram:

“Ele se mantém atualizado com os últimos detalhes em medidas de conformidade, como GDPR, etc. Também possui uma interface de usuário rápida baseada em cliques que minimiza o tempo de configuração.

As políticas de retenção de dados podem ser personalizadas para atender às necessidades específicas se for necessário manter dados históricos por um período prolongado de tempo."

- Cloud Compliance for Salesforce Review, Nitin S.

*Em 23 de maio de 2022, o Cloud Compliance for Salesforce tinha uma avaliação no G2.

3. D-ID

D-ID’s identity protection makes organizations’ photos and videos unrecognizable to facial recognition tools. It safeguards facial biometric data and prevents any bad actor from using pictures and videos to access any information.

O que os usuários disseram:

“A facilidade de uso é a principal coisa para mim. Eu compraria tudo de novo.  Eu gostei de todo o aplicativo, sem reclamações."

- D-ID Review, Billy A.

*Em 23 de maio de 2022, o D-ID tinha uma avaliação no G2.

4. Immuta

Immuta fornece acesso unificado a dados analíticos na nuvem para equipes de engenharia e operações. Acelera o tempo para dados, facilita o compartilhamento seguro de dados com mais usuários e mitiga vazamentos e violações de dados.

O que os usuários gostam:

“Immuta é uma plataforma de controle de acesso a dados em nuvem que é adaptável e escalável com base na natureza dinâmica de nossas fontes de dados. Ela provisiona toda a integração fonte-alvo de forma transparente para que possamos facilitar a transição de dados de nossa infraestrutura local para a nuvem.

Como é uma plataforma automatizada hospedada na nuvem, economizamos muito tempo, pois não requer parsing de trabalho ou instalações de agentes. Conjuntos de dados essenciais são registrados com precisão em seu catálogo, e também podemos habilitar preferências personalizadas ao realizar análises de dados.”

- Immuta Review, Nikitha S.

O que os usuários não gostam:

“Sempre que tenho que adicionar uma nova tabela de um data warehouse, que já é conhecida pelo Immuta, tenho que digitar os detalhes da conexão repetidamente (host, nome de usuário, etc.)”

- Immuta Review, Igor C.

5. Mascaramento Dinâmico de Dados da Informatica

Informatica ​​Dynamic Data Masking impede que usuários não autorizados acessem informações sensíveis com desidentificação e dessensibilização em tempo real. Protege informações pessoais e sensíveis enquanto apoia iniciativas de terceirização, outsourcing e baseadas em nuvem.

O que os usuários disseram: 

“O DDM da Informatica oferece a conveniência e a confiabilidade de ter proteção de dados com seu extenso recurso de DDM. Ele cobre o aspecto de segurança do acesso não autorizado e previne a corrupção de dados ao longo de seu ciclo de vida. Sua conformidade de privacidade do usuário final inclui vários elementos-chave, como criptografia de dados, hashing, tokenização, etc.

O DDM da Informatica é ótimo para governança de dados, integridade e considerações de segurança. É adequado do ponto de vista da minha organização, e eu gosto do produto.”

- Informatica Dynamic Data Masking Review, Sabapathi G.

*Em 23 de maio de 2022, o Informatica Dynamic Data Masking tinha uma avaliação no G2.

Prove conformidade através da confiança

Escolha um software de desidentificação e pseudonimidade de dados que melhor se adapte às suas necessidades de proteção de dados e confie nele para provar conformidade. Com o software, você pode extrair valor de conjuntos de dados sem comprometer a privacidade dos sujeitos dos dados em um determinado conjunto de dados.

Se você precisar usar uma versão alternativa de conjuntos de dados para demonstrações ou fins de treinamento enquanto garante a proteção de dados sensíveis, o mascaramento de dados pode melhor atender às suas necessidades.

Saiba mais sobre mascaramento de dados e como ele facilita o compartilhamento seguro de dados.

Sagar Joshi
SJ

Sagar Joshi

Sagar Joshi is a former content marketing specialist at G2 in India. He is an engineer with a keen interest in data analytics and cybersecurity. He writes about topics related to them. You can find him reading books, learning a new language, or playing pool in his free time.