Introducing G2.ai, the future of software buying.Try now

Tendências de 2021 na Geração e Detecção de Dados Sintéticos

8 de Dezembro de 2020
por Matthew Miller

Esta postagem faz parte da série de tendências digitais de 2021 da G2. Leia mais sobre a perspectiva da G2 sobre tendências de transformação digital em uma introdução de Michael Fauscette, diretor de pesquisa da G2, e Tom Pringle, vice-presidente de pesquisa de mercado, além de cobertura adicional sobre tendências identificadas pelos analistas da G2.

Por um lado: bons atores usando dados sintéticos

Estamos vivendo na era dos dados. As empresas estão buscando utilizar os dados que coletam para tomar decisões de negócios mais informadas. Organizações governamentais, por exemplo, que historicamente foram lentas para inovar, estão buscando entender melhor os dados que estão acumulando para fornecer melhor atendimento e suporte aos seus constituintes.

As organizações estão buscando maneiras de utilizar dados enquanto: 
  1. Preservam a utilidade dos dados: garantindo que os dados utilizados sejam de fato úteis e que insights válidos possam ser extraídos deles
  2. Preservam a privacidade dos dados: garantindo que os dados utilizados não apresentem riscos de privacidade ou informações pessoalmente identificáveis (PII)

Frequentemente, o antigo software de mascaramento de dados e o software de desidentificação simplesmente não são suficientes para garantir que os pontos mencionados acima sejam mantidos. Eles correm o risco de destruir a utilidade dos dados ao produzir conjuntos de dados que não são estatisticamente comparáveis ao original (violando o ponto #1) ou permitir que alguém identifique pessoas dentro dos dados (violando o ponto #2). 

 

true"bg-light"{}{}"O que é Software de Mascaramento de Dados e Software de Desidentificação?""Flex - Blog Text Callout Box 2"4171269"O software de mascaramento de dados protege os dados importantes de uma organização disfarçando-os com caracteres aleatórios ou outros dados. O software de desidentificação substitui dados pessoais identificáveis em conjuntos de dados por identificadores artificiais ou pseudônimos."

 

Nos últimos anos, a G2 tem observado o aumento de dados sintéticos, tanto não estruturados quanto estruturados, que estão fornecendo às empresas ferramentas para criar programaticamente conjuntos de dados que são estatisticamente idênticos, mas não possuem dados reais ou PII. Temos visto que até mesmo organizações governamentais, como A Comissão Nacional de Segurança em Inteligência Artificial reconhecem a importância desse tipo de dado, como expressaram por meio de parcerias com vendedores e relatórios.

Embora dados sintéticos de diferentes variedades existam há décadas, estamos vendo um aumento no interesse nos últimos anos e avanços nas técnicas. De fato, mais de 71% das 21 empresas na categoria de software de Dados Sintéticos da G2 foram fundadas desde 2017, como pode ser visto abaixo.

gráfico mostrando vendedores de dados sintéticos por data de fundação

Os casos de uso positivo de dados sintéticos são muitos e empolgantes, com o impacto na indústria sendo imenso. Se alguém escolher uma indústria de um (muito grande) chapéu, as chances são de que haja um caso de uso para dados sintéticos que possa ter um impacto.

Saúde
Jasmine Lee, analista da G2 focada em saúde, destacou o apelo e as consequências reais de aplicar dados sintéticos a dados clínicos sensíveis. Ela escreve:

Uma vez que as soluções de dados sintéticos são integradas aos bancos de dados de uma organização de saúde, elas ingerem todos os pontos de dados, automatizando a desduplicação e limpeza de dados, capturando insights estatísticos e relações entre pontos de dados, e facilitando o compartilhamento, entrega e modelagem de dados.  

Veículos autônomos
No espaço de veículos autônomos, as empresas estão trabalhando com empresas de dados sintéticos para construir conjuntos de treinamento mais robustos. Métodos tradicionais de treinamento desses veículos são repletos de dificuldades, desde despesas relacionadas à construção de um grande e diversificado conjunto de dados de cenários até o perigo de vítimas. Com dados sintéticos, os fabricantes de veículos autônomos são capazes de criar programaticamente conjuntos de dados que são comparáveis ao mundo real. Com um conjunto de dados adequado, esses veículos estão voltados para serem mais seguros e confiáveis. 

Finanças
No espaço de serviços financeiros, as empresas estão usando dados sintéticos para compartilhar e analisar dados financeiros. Por exemplo, as empresas são capazes de aumentar as informações dos clientes, incluindo pontuação de crédito. Com dados sintéticos, elas são capazes de preservar padrões e relações em dados de séries temporais transacionais. As aplicações no mundo real incluem: modelagem de relações causais e temporais complexas em fluxos transacionais e construção de sistemas de risco de crédito.

Exemplos concretos incluem: 

  • No espaço de saúde, Os Institutos Nacionais de Saúde fizeram parceria com a MDClone para facilitar a pesquisa em dados de COVID-19.
  • No espaço de veículos autônomos, CVEDIA construiu o SynCity para fornecer uma plataforma de simulação usada para gerar dados para treinamento e validação de redes neurais. Esta plataforma pode ser usada para validar sistemas de visão computacional para veículos autônomos com simulações personalizadas e foto-realistas.
  • No espaço de serviços financeiros, Hazy está se especializando em serviços financeiros, já ajudando alguns dos principais bancos e companhias de seguros do mundo a reduzir o risco de conformidade e acelerar a inovação de dados.

Por outro lado: maus atores usando dados sintéticos

No entanto, nem tudo é um mar de rosas no campo dos dados sintéticos. Nos últimos anos, temos visto um aumento no uso malicioso de mídia sintética, especialmente na forma de deepfakes, um tipo de mídia sintética que pode assumir a forma de texto, imagens, áudio ou vídeo. Mais comumente, as pessoas pensam em deepfakes quando uma imagem ou vídeo é adulterado com a semelhança de outra pessoa. 

Abaixo, pode-se ver como o interesse neste domínio permaneceu relativamente baixo, exceto por aqueles dois picos no início de 2018 e meados de 2018, quando o termo começou a ser usado. 

gráfico mostrando crescimento do interesse em deepfakes nos EUA desde 2018

Os deepfakes diferem em sofisticação, com algumas versões sendo particularmente amadoras e mal feitas, enquanto outras são muito difíceis de detectar. O que é alarmante é que esse tipo de mídia sintética está se tornando cada vez mais avançado e cada vez mais difícil de detectar. Essa tendência também é alimentada pelos seguintes fatores:

  1. Deepfakes como serviço: Alguns maus atores estão oferecendo vender a qualquer indivíduo um deepfake sob medida, permitindo que eles criem qualquer tipo de mídia pelo preço certo.
  2. Desinformação para a perda: Maus atores podem disseminar vídeos deepfake através das redes sociais e apresentar imagens falsas como se fossem reais.

No entanto, há esperança

Nem tudo está perdido. Como mencionado acima, os governos têm notado tanto o lado bom quanto o lado ruim dos dados sintéticos. Além das aplicações positivas de dados sintéticos que vimos acima, o Congresso dos EUA também está investindo em soluções para combater deepfakes e está trabalhando ativamente para avançar a conversa.

Também temos visto um forte interesse de empresas de cibersegurança e organizações de redes sociais em combater a mídia sintética maliciosa por meio de competições e laboratórios de ciência de dados. 

Merry Marwig, analista da G2 focada em privacidade de dados e cibersegurança comentou:

A G2 ainda não tem uma categoria para deepfakes e outros tipos de detecção de desinformação, mas estamos acompanhando de perto este mercado em 2021.”

Editado por Sinchana Mistry

Quer aprender mais sobre Software de Reconhecimento de Imagem? Explore os produtos de Reconhecimento de Imagem.

Matthew Miller
MM

Matthew Miller

Matthew Miller is a research and data enthusiast with a knack for understanding and conveying market trends effectively. With experience in journalism, education, and AI, he has honed his skills in various industries. Currently a Senior Research Analyst at G2, Matthew focuses on AI, automation, and analytics, providing insights and conducting research for vendors in these fields. He has a strong background in linguistics, having worked as a Hebrew and Yiddish Translator and an Expert Hebrew Linguist, and has co-founded VAICE, a non-profit voice tech consultancy firm.