Introducing G2.ai, the future of software buying.Try now

Tendances 2021 dans la génération et la détection de données synthétiques

8 Décembre 2020
par Matthew Miller

Ce post fait partie de la série sur les tendances numériques 2021 de G2. Lisez-en plus sur la perspective de G2 sur les tendances de la transformation numérique dans une introduction de Michael Fauscette, directeur de la recherche chez G2, et Tom Pringle, vice-président de la recherche de marché, ainsi qu'une couverture supplémentaire sur les tendances identifiées par les analystes de G2.

D'un côté : les bons acteurs utilisant des données synthétiques

Nous vivons à l'ère des données. Les entreprises cherchent à utiliser les données qu'elles collectent pour prendre des décisions commerciales plus éclairées. Les organisations gouvernementales, par exemple, qui ont historiquement été lentes à innover, cherchent à mieux comprendre les données qu'elles accumulent pour fournir de meilleurs soins et un meilleur soutien à leurs concitoyens.

Les organisations cherchent des moyens d'utiliser les données tout en : 
  1. Préservant l'utilité des données : s'assurer que les données utilisées sont effectivement utiles et que des informations valides peuvent en être tirées
  2. Préservant la confidentialité des données : s'assurer que les données utilisées ne présentent aucun risque pour la vie privée ou d'informations personnellement identifiables (PII)

Souvent, les anciens logiciels de masquage de données et de désidentification ne suffisent pas à garantir que les points mentionnés ci-dessus soient respectés. Ils risquent soit de détruire l'utilité des données en produisant des ensembles de données qui ne sont pas statistiquement comparables à l'original (violant le point #1) soit de permettre d'identifier des personnes au sein des données (violant le point #2). 

 

true"bg-light"{}{}"Qu'est-ce que le logiciel de masquage de données et le logiciel de désidentification ?""Flex - Blog Text Callout Box 2"4171269"Le logiciel de masquage de données protège les données importantes d'une organisation en les déguisant avec des caractères aléatoires ou d'autres données. Le logiciel de désidentification remplace les données d'identification personnelle dans les ensembles de données par des identifiants artificiels ou des pseudonymes."

 

Au cours des dernières années, G2 a observé l'essor des données synthétiques, à la fois non structurées et structurées, qui fournissent aux entreprises des outils pour créer de manière programmatique des ensembles de données statistiquement identiques mais qui ne contiennent pas de données réelles ou de PII. Nous avons constaté que même les organisations gouvernementales, telles que la Commission nationale de sécurité sur l'intelligence artificielle reconnaissent l'importance de ce type de données, comme elles l'ont exprimé à travers des partenariats avec des vendeurs et des rapports.

Bien que les données synthétiques de différentes variétés existent depuis des décennies, nous assistons à un boom de l'intérêt au cours des dernières années et à des avancées dans les techniques. En effet, plus de 71 % des 21 entreprises de la catégorie logiciel de données synthétiques de G2 ont été fondées depuis 2017, comme on peut le voir ci-dessous.

graph depicting sellers of synthetic data per their founding date

Les cas d'utilisation positifs des données synthétiques sont nombreux et passionnants, avec un impact immense sur l'industrie. Si l'on choisit une industrie au hasard (très large), il y a de fortes chances qu'il existe un cas d'utilisation pour lequel les données synthétiques peuvent avoir un impact.

Santé
Jasmine Lee, analyste chez G2 spécialisée dans la santé, a mis en avant l'attrait et les conséquences réelles de l'application des données synthétiques aux données cliniques sensibles. Elle écrit :

Une fois que les solutions de données synthétiques sont intégrées dans les bases de données d'une organisation de santé, elles ingèrent tous les points de données, automatisant la déduplication et le nettoyage des données, capturant des informations statistiques et des relations entre les points de données, et facilitant le partage, la livraison et la modélisation des données.  

Véhicules autonomes
Dans le domaine des véhicules autonomes, les entreprises travaillent avec des sociétés de données synthétiques pour construire des ensembles d'entraînement plus robustes. Les méthodes traditionnelles de formation de ces véhicules sont semées de difficultés, allant des dépenses liées à la constitution d'un ensemble de données large et diversifié de scénarios au danger de victimes. Avec les données synthétiques, les fabricants de véhicules autonomes peuvent créer de manière programmatique des ensembles de données comparables au monde réel. Avec un ensemble de données adéquat, ces véhicules sont orientés vers une plus grande sécurité et fiabilité. 

Finance
Dans le domaine des services financiers, les entreprises utilisent des données synthétiques pour partager et analyser des données financières. Par exemple, les entreprises peuvent augmenter les informations sur les clients, y compris le scoring de crédit. Avec les données synthétiques, elles peuvent préserver les modèles et les relations dans les données de séries temporelles transactionnelles. Les applications réelles incluent : modélisation des relations causales et temporelles complexes dans les flux transactionnels et construction de systèmes de risque de crédit.

Des exemples concrets incluent : 

  • Dans le domaine de la santé, Les National Institutes of Health ont collaboré avec MDClone pour faciliter la recherche sur les données COVID-19.
  • Dans le domaine des véhicules autonomes, CVEDIA a construit SynCity pour fournir une plateforme de simulation utilisée pour générer des données pour l'entraînement et la validation des réseaux neuronaux. Cette plateforme peut être utilisée pour valider les systèmes de vision par ordinateur pour les véhicules autonomes avec des simulations personnalisées et photoréalistes.
  • Dans le domaine des services financiers, Hazy se spécialise dans les services financiers, aidant déjà certaines des plus grandes banques et compagnies d'assurance du monde à réduire le risque de conformité et à accélérer l'innovation des données.

D'un autre côté : les mauvais acteurs utilisant des données synthétiques

Cependant, tout n'est pas rose dans le domaine des données synthétiques. Au cours des dernières années, nous avons constaté une augmentation de l'utilisation malveillante des médias synthétiques, en particulier sous la forme de deepfakes, un type de média synthétique qui peut prendre la forme de texte, d'images, d'audio ou de vidéo. Le plus souvent, les gens pensent aux deepfakes lorsqu'une image ou une vidéo est modifiée avec la ressemblance de quelqu'un d'autre. 

Ci-dessous, on peut voir comment l'intérêt pour ce domaine est resté relativement faible, sauf pour ces deux pics au début de 2018 et à la mi-2018, lorsque le terme a commencé à être utilisé. 

graph showing growth of interest in deepfakes in the US since 2018

Les deepfakes diffèrent en sophistication, certaines versions étant particulièrement amateurs et bâclées, tandis que d'autres sont très difficiles à détecter. Ce qui est alarmant, c'est que ce type de média synthétique devient de plus en plus avancé et de plus en plus difficile à détecter. Cette tendance est également alimentée par les facteurs suivants :

  1. Deepfakes en tant que service : Certains mauvais acteurs proposent de vendre à n'importe quel individu un deepfake sur mesure, leur permettant de créer n'importe quel type de média pour le bon prix.
  2. Désinformation pour la perte : Les mauvais acteurs peuvent diffuser des vidéos deepfake via les réseaux sociaux et présenter des séquences truquées comme si elles étaient réelles.

Cependant, il y a de l'espoir

Tout n'est pas perdu. Comme mentionné ci-dessus, les gouvernements ont pris conscience à la fois du bon et du mauvais côté des données synthétiques. En plus des applications positives des données synthétiques que nous avons vues ci-dessus, le Congrès américain investit également dans des solutions pour combattre les deepfakes et travaille activement à faire avancer la conversation.

Nous avons également constaté un fort intérêt de la part des entreprises de cybersécurité et des organisations de médias sociaux pour combattre les médias synthétiques malveillants à travers des compétitions et des laboratoires de science des données. 

Merry Marwig, analyste chez G2 spécialisée dans la confidentialité des données et la cybersécurité a remarqué :

« G2 n'a pas (encore) de catégorie pour les deepfakes et autres types de détection de désinformation, mais nous gardons un œil attentif sur ce marché en 2021. »

Édité par Sinchana Mistry

Vous voulez en savoir plus sur Logiciel de reconnaissance d'image ? Découvrez les produits Reconnaissance d'image.

Matthew Miller
MM

Matthew Miller

Matthew Miller is a research and data enthusiast with a knack for understanding and conveying market trends effectively. With experience in journalism, education, and AI, he has honed his skills in various industries. Currently a Senior Research Analyst at G2, Matthew focuses on AI, automation, and analytics, providing insights and conducting research for vendors in these fields. He has a strong background in linguistics, having worked as a Hebrew and Yiddish Translator and an Expert Hebrew Linguist, and has co-founded VAICE, a non-profit voice tech consultancy firm.