Esta publicación es parte de la serie de tendencias digitales 2021 de G2. Lee más sobre la perspectiva de G2 sobre las tendencias de transformación digital en una introducción de Michael Fauscette, director de investigación de G2, y Tom Pringle, vicepresidente de investigación de mercado, y cobertura adicional sobre las tendencias identificadas por los analistas de G2.
Por un lado: buenos actores usando datos sintéticos
Estamos viviendo en la era de los datos. Las empresas están buscando utilizar los datos que recopilan para tomar decisiones comerciales más informadas. Las organizaciones gubernamentales, por ejemplo, que históricamente han sido lentas para innovar, están buscando comprender mejor los datos que están acumulando para proporcionar mejor atención y apoyo a sus constituyentes.
Las organizaciones están buscando formas de utilizar los datos mientras: |
|
Frecuentemente, el software de enmascaramiento de datos y el software de desidentificación tradicionales simplemente no son suficientes para garantizar que se cumplan los puntos mencionados anteriormente. Corren el riesgo de destruir la utilidad de los datos al producir conjuntos de datos que no son estadísticamente comparables al original (violando el #1) o permitir que se identifique a personas dentro de los datos (violando el #2).
true"bg-light"{}{}"¿Qué es el software de enmascaramiento de datos y el software de desidentificación?""Flex - Blog Text Callout Box 2"4171269"El software de enmascaramiento de datos protege los datos importantes de una organización disfrazándolos con caracteres aleatorios u otros datos. El software de desidentificación reemplaza los datos personales identificativos en conjuntos de datos con identificadores artificiales o seudónimos."
En los últimos años, G2 ha visto el auge de los datos sintéticos, tanto no estructurados como estructurados, que están proporcionando a las empresas herramientas para crear programáticamente conjuntos de datos que son estadísticamente idénticos pero que no tienen datos reales ni PII. Hemos visto que incluso organizaciones gubernamentales, como La Comisión de Seguridad Nacional sobre Inteligencia Artificial reconocen la importancia de este tipo de datos, como han expresado a través de asociaciones con vendedores e informes.
PREDICCIÓN
Durante el próximo año, G2 espera ver un crecimiento constante en el número de vendedores en el espacio de datos sintéticos junto con usos más novedosos de la tecnología a medida que aumenta el conocimiento de su impacto e importancia.
Aunque los datos sintéticos de diferentes variedades han existido durante décadas, estamos viendo un auge en el interés en los últimos años y un avance en las técnicas. De hecho, más del 71% de las 21 empresas en la categoría de software de datos sintéticos de G2 fueron fundadas desde 2017, como se puede ver a continuación.
Los casos de uso positivo de los datos sintéticos son numerosos y emocionantes, con un impacto inmenso en la industria. Si uno elige una industria de un (muy grande) sombrero, es probable que haya un caso de uso para que los datos sintéticos puedan tener un impacto.
Salud
Jasmine Lee, analista de G2 enfocada en salud, ha destacado el atractivo y las consecuencias en la vida real de aplicar datos sintéticos a datos clínicos sensibles. Ella escribe:
Una vez que las soluciones de datos sintéticos se integran dentro de las bases de datos de una organización de salud, ingiere todos los puntos de datos, automatizando la desduplicación y limpieza de datos, capturando ideas estadísticas y relaciones entre puntos de datos, y facilitando el intercambio, entrega y modelado de datos.
Vehículos autónomos
Dentro del espacio de vehículos autónomos, las empresas están trabajando con empresas de datos sintéticos para construir conjuntos de entrenamiento más robustos. Los métodos tradicionales de entrenamiento de estos vehículos están llenos de dificultades, desde los gastos relacionados con la construcción de un conjunto de datos grande y diversificado de escenarios hasta el peligro de víctimas. Con datos sintéticos, los fabricantes de vehículos autónomos pueden crear programáticamente conjuntos de datos que son comparables al mundo real. Con un conjunto de datos adecuado, estos vehículos están orientados a ser más seguros y confiables.
Finanzas
En el espacio de servicios financieros, las empresas están utilizando datos sintéticos para compartir y analizar datos financieros. Por ejemplo, las empresas pueden aumentar la información del cliente, incluyendo la puntuación de crédito. Con datos sintéticos, pueden preservar patrones y relaciones en datos de series temporales transaccionales. Las aplicaciones del mundo real incluyen: modelar relaciones causales y temporales complejas en flujos transaccionales y construir sistemas de riesgo crediticio.
Ejemplos concretos incluyen:
- Dentro del espacio de salud, Los Institutos Nacionales de Salud se han asociado con MDClone para facilitar la investigación en datos de COVID-19.
- Dentro del espacio de vehículos autónomos, CVEDIA ha construido SynCity para proporcionar una plataforma de simulación utilizada para generar datos para el entrenamiento y validación de redes neuronales. Esta plataforma se puede utilizar para validar sistemas de visión por computadora para vehículos autónomos con simulaciones personalizadas y fotorrealistas.
- En el espacio de servicios financieros, Hazy se especializa en servicios financieros, ya ayudando a algunos de los principales bancos y compañías de seguros del mundo a reducir el riesgo de cumplimiento y acelerar la innovación de datos.
Por otro lado: malos actores usando datos sintéticos
Sin embargo, no todo es color de rosa en el campo de los datos sintéticos. En los últimos años, hemos visto un aumento en el uso malicioso de medios sintéticos, especialmente en forma de deepfakes, un tipo de medio sintético que puede tomar la forma de texto, imágenes, audio o video. Más comúnmente, la gente piensa en deepfakes cuando una imagen o video es manipulado con la apariencia de otra persona.
A continuación, se puede ver cómo el interés en este dominio ha permanecido relativamente bajo, excepto por esos dos picos a principios de 2018 y mediados de 2018, cuando el término comenzó a usarse por primera vez.
Los deepfakes difieren en sofisticación, con algunas versiones siendo particularmente amateur y de mala calidad, mientras que otras son muy difíciles de detectar. Lo alarmante es que este tipo de medios sintéticos solo se está volviendo más avanzado y cada vez más difícil de detectar. Esta tendencia también está impulsada por los siguientes factores:
- Deepfakes como servicio: Algunos malos actores están ofreciendo vender a cualquier individuo un deepfake a medida, permitiéndoles crear cualquier tipo de medio por el precio adecuado.
- Desinformación para la pérdida: Los malos actores pueden difundir videos deepfake a través de las redes sociales y presentar imágenes falsas como si fueran reales.
PREDICCIÓN
En el futuro, esperamos ver más inversión en la detección de deepfakes tanto de empresas de ciberseguridad como de organizaciones de medios. En cuanto a estas últimas, esto probablemente será impulsado por la innovación y el talento internos, así como por la inversión estratégica.
Sin embargo, hay esperanza
No todo está perdido. Como se señaló anteriormente, los gobiernos han tomado nota tanto del lado bueno como del malo de los datos sintéticos. Además de las aplicaciones positivas de los datos sintéticos que vimos anteriormente, el Congreso de los EE.UU. también está invirtiendo en soluciones para combatir los deepfakes y está trabajando activamente para avanzar en la conversación.
También hemos visto un fuerte interés de las empresas de ciberseguridad y las organizaciones de redes sociales para combatir los medios sintéticos maliciosos a través de competiciones y laboratorios de ciencia de datos.
Merry Marwig, analista de G2 enfocada en privacidad de datos y ciberseguridad comentó:
“G2 no tiene (todavía) una categoría para la detección de deepfakes y otros tipos de desinformación, pero estamos siguiendo de cerca este mercado en 2021.”
Editado por Sinchana Mistry
¿Quieres aprender más sobre Software de reconocimiento de imágenes? Explora los productos de Reconocimiento de imágenes.

Matthew Miller
Matthew Miller is a research and data enthusiast with a knack for understanding and conveying market trends effectively. With experience in journalism, education, and AI, he has honed his skills in various industries. Currently a Senior Research Analyst at G2, Matthew focuses on AI, automation, and analytics, providing insights and conducting research for vendors in these fields. He has a strong background in linguistics, having worked as a Hebrew and Yiddish Translator and an Expert Hebrew Linguist, and has co-founded VAICE, a non-profit voice tech consultancy firm.