Introducing G2.ai, the future of software buying.Try now

El atractivo y las consecuencias reales de aplicar datos sintéticos a datos clínicos sensibles

5 de Agosto de 2020
por Jasmine Lee

Incluso antes de la crisis del COVID-19, los sistemas de salud, los investigadores médicos y las instituciones médicas lidiaban con formas eficientes de recopilar datos de pacientes mientras mantenían la privacidad del paciente.

Al investigar para la innovación en salud o la gestión de crisis, las instituciones de salud deben extraer datos de una multitud de sistemas. Responder preguntas sobre tendencias en condiciones crónicas, la viabilidad de un tratamiento en una comunidad, las tasas de utilización de ciertos procedimientos o los crecientes costos de la atención médica: todos estos escenarios requieren la recopilación, el análisis y el intercambio de datos de pacientes y de la población.

Desafortunadamente, ese proceso está plagado de posibles violaciones de datos, la navegación de regulaciones de privacidad de la industria, la dependencia de especialistas en TI de salud y tiempo valioso. Además, compilar e investigar datos de pacientes requiere navegar a través de enormes cantidades de datos que pueden existir en una variedad de sistemas que están aislados o frustrantemente dispersos en diferentes archivos.

Relacionado: Cómo la tecnología en la nube facilita la gestión del cuidado del paciente

Uso de datos de pacientes en la investigación clínica

La mayoría de las veces, los investigadores médicos deben presentar solicitudes de datos para incluso acceder a datos de pacientes individuales y de la población. Se necesita tiempo para solicitar y recibir extracciones de datos, y aún más tiempo y habilidad para leer y manipular cualquier dato recibido. También requiere consultas increíblemente específicas del profesional médico, investigador o institución, que pueden o no necesitar consultas complementarias para aclaración. ¿La guinda del pastel? Toda la información del paciente debe ser redactada debido a su naturaleza sensible. Comprometer la seguridad y confidencialidad del paciente al no eliminar todos los atributos identificativos va directamente en contra de las pautas de cumplimiento sanitario como la Ley de Portabilidad y Responsabilidad de Seguros de Salud (HIPAA), la Ley de Tecnología de la Información de Salud para la Economía y la Salud Clínica (HITECH) y el Reglamento General de Protección de Datos (GDPR).

Los registros de salud electrónicos (EHR) ahora están digitalizados: el progreso que ha mejorado el almacenamiento y el acceso a los registros de salud de un paciente no necesariamente se tradujo en una convergencia de esos registros. La transición de los sistemas de atención médica heredados a sistemas más ágiles basados en la nube no borró inmediatamente los flujos de trabajo (torpes) cuando se trata de comunicación y colaboración clínica. Lo más probable es que los sistemas de salud ahora deban lidiar con datos duplicados que deben limpiarse y controles de acceso que deben determinarse caso por caso, título por título.

Todo esto ilustra que hay una razón por la cual los avances en soluciones de atención médica, salud digital y satisfacción del paciente no han resultado necesariamente en la transformación completa y eficiente de la industria de la salud. Este es un problema global. El sistema de salud de EE. UU. es notoriamente ineficiente, pero la pandemia mundial de COVID-19 ha dejado claro que hay problemas globales de intercambio de datos, agrupación de recursos y oportunidades de investigación.

¿Cómo solucionamos esto? ¿Cómo podemos realmente entender y aprender de las brechas en la atención y la investigación médica para que podamos proteger a todos en el planeta y posiblemente prevenir otra pandemia como el COVID-19?

Los datos sintéticos ofrecen una solución convincente.

la desidentificación caminó para que los datos de salud sintéticos pudieran correr

Datos sintéticos en la atención médica

La guía de AI Multiple sobre datos sintéticos describe la utilidad de los datos sintéticos en casos donde los requisitos de privacidad son primordiales y limitan la disponibilidad de datos, los costos de las pruebas de productos en la vida real restringen negativamente los esfuerzos, o los conjuntos de datos necesitan ser entrenados rápidamente para ser efectivos. Los datos sintéticos producen conjuntos de datos estadísticamente comparables en un entorno más rápido y seguro, permitiendo a las empresas, instituciones y organizaciones ser más ágiles, innovadoras y efectivas.

Su aplicación en la industria de la salud plantea un potencial intrigante. Independientemente de toda la información que es ingresada y accedida por los profesionales médicos, toda la información del paciente es sensible y requiere protección y desidentificación antes de que pueda ser utilizada para cualquier propósito de investigación. La aplicación de datos sintéticos en la atención médica permite a los investigadores médicos crear y consultar esos conjuntos de datos estadísticamente comparables sobre pacientes ficticios.

Para ser claros, estos conjuntos de datos no son tiros al aire. "Pacientes ficticios" significa datos de pacientes no atribuibles; los datos de pacientes no atribuibles eliminan todos los datos de identificadores de pacientes y demográficos. La Universidad de Copenhague resume muy bien los atributos de estos pacientes ficticios:

atributos de pacientes ficticios vía Universidad de Copenhague

En resumen, los datos de salud sintéticos se suman al alcance de los datos existentes o "reales", eludiendo el problema de la disponibilidad insuficiente de datos.

Proteger la identidad del paciente es primordial. Sin embargo, esa protección estricta causa interrupciones en los datos clínicos y los flujos de trabajo de investigación clínica. Por ejemplo, cuando un coordinador de atención clínica contacta a los administradores del hospital para obtener documentación del paciente, deben enviar formularios por fax, hacer seguimiento con los administradores por teléfono e ingresar datos manualmente. Este es el procedimiento para cada paciente. Los coordinadores de atención clínica también deben tener cuidado de no solicitar información demasiado pronto porque los documentos compartidos tienen una vida útil corta. Ese es solo un escenario que ya está lleno de cuellos de botella.

Ahora aplica ese flujo de trabajo accidentado a investigadores clínicos o desarrolladores de medicamentos farmacéuticos, que están tratando de hacer predicciones, identificar tendencias y determinar iniciativas de salud de la población a mayor escala. Claro, los sistemas de salud más grandes pueden tener bases de datos más grandes (o lagos de datos) para almacenar toda la información de sus pacientes, pero estas bases de datos no están estructuradas de manera uno a uno. El registro médico de un paciente puede existir por separado de sus registros de procedimientos, referencias e historial de atención auxiliar. Los datos médicos de un paciente pueden incluso existir por separado entre diferentes entidades de la misma empresa. Efectivamente, esto resulta en escasez de datos.

Como dirían los jóvenes, la desidentificación caminó para que los datos de salud sintéticos pudieran correr. La desidentificación de datos de pacientes es la censura o eliminación de atributos identificativos del paciente para fines de investigación de salud de la población. La diferencia entre la desidentificación y los datos de salud sintéticos es que estos últimos están completamente separados de la información del paciente. Los datos sintéticos no contienen datos personales. Además, los generadores de datos de pacientes inteligentes (iPDGs) y los generadores de EHR pueden ser utilizados para generar registros de pacientes sintéticos independientemente de la cantidad de datos de pacientes almacenados en el sistema administrativo de un hospital.

También está el increíblemente acronimizado FHIR. Los Recursos de Interoperabilidad Rápida de Atención Médica, más comúnmente conocidos como FHIR, ayudaron a allanar el camino en términos de recopilación e intercambio de datos. FHIR proporciona a la industria de la salud un estándar de almacenamiento de datos basado en la nube que mejora el intercambio de información de salud (HIE) y la interoperabilidad de datos. FHIR mejora significativamente la comunicación y colaboración clínica al permitir el etiquetado y la organización de datos clínicos dentro del sistema de datos de una organización de salud.

cita de Robert Lieberthal sobre los datos sintéticos como solución en la industria de la salud

Robert Lieberthal, economista de salud principal en The MITRE Corporation, cree que “Los datos sintéticos son una solución a muchos de los problemas que plagan nuestro sistema de TI de salud... De alguna manera, los datos sintéticos representan los estándares actuales de TI de salud mientras incorporan lo mejor de lo que la TI de salud podría ser.”

Una vez que las soluciones de datos sintéticos se integran dentro de las bases de datos de una organización de salud, ingiere todos los puntos de datos, automatizando la desduplicación y limpieza de datos, capturando conocimientos estadísticos y relaciones entre puntos de datos, y facilitando el intercambio, entrega y modelado de datos.  

Nuevamente, debido a que los datos sintéticos no contienen información de salud protegida, los datos artificiales generados pueden ser compartidos entre investigadores médicos y clínicos y científicos. Ya no están limitados a utilizar información de pacientes redactada que puede o no adherirse a las pautas de cumplimiento sanitario al desarrollar nuevas estrategias de salud, iniciativas de pago y políticas de salud, y desarrollo de salud digital.

Preocupaciones sobre el uso de datos sintéticos

resaltando las preocupaciones sobre el uso de datos sintéticos

Aunque los beneficios de generar y aplicar datos sintéticos a la atención médica son claros, todavía está en las primeras etapas de adopción e implementación. Existen detractores de los datos sintéticos, y por una buena razón, como con cualquier solución que dependa del aprendizaje automático y la automatización para perfeccionar y pulir.

Existen limitaciones para los datos sintéticos en un entorno de atención médica, y todos los interesados que deseen aprovechar los datos sintéticos deben ser conscientes de ellas.
  • Varianza — Los pacientes son humanos y, por lo tanto, están compuestos de variaciones y complejidades que no necesariamente pueden ser predichas o replicadas por datos sintéticos. Los datos de salud generados artificialmente pueden solo ser capaces de simular tendencias generales o "promedio" en aplicaciones clínicas generales.
  • Validez de datos "reales" (observacionales) — Los datos sintéticos, por definición, no son una réplica exacta de los datos del paciente. Aunque los datos sintéticos pueden ser manipulados para ajustarse a cualquier escenario que un investigador los use, todavía están basados en un conjunto de datos inicial de la vida real. En otras palabras, los resultados de los datos sintéticos están pendientes hasta que sean validados por datos reales, observacionales que puedan mejorar las predicciones de los datos de salud generados artificialmente. Además, su dependencia de la calidad de la fuente de datos puede impactar significativamente la calidad de los datos de salud sintéticos generados.
  • Aceptación del usuario y aplicación generalizada — El software de datos sintéticos se enorgullece de aleatorizar datos de la vida real en puntos de datos no reconocibles y no atribuibles. Sin embargo, todavía existe la posibilidad (posiblemente una en un millón) de que el punto de datos aleatorizado sea un punto de datos real. Los beneficios de los datos sintéticos aún no han sido experimentados por todos en el mundo, y su potencial puede, de hecho, alejar a investigadores o gobiernos que duden de la precisión o validez de las predicciones basadas en datos artificiales.

Jugadores en datos de atención médica sintetizados

Los datos sintéticos, y particularmente los datos de salud sintéticos, son un foro relativamente nuevo en el que se lleva a cabo la investigación. Correspondientemente, la siguiente lista de jugadores de datos de salud sintéticos es corta pero crecerá a medida que esta tecnología de atención médica sea más ampliamente aceptada y mejorada.

MDClone

MDClone es un proveedor de TI de salud con sede en Israel con la misión de facilitar el acceso a los datos de salud y mejorar los métodos generales de investigación y actividad de salud. La plataforma de MDClone pretende democratizar los datos en todo el ecosistema de salud al permitir el uso amplio de los datos que residen dentro de los sistemas de salud.  

Synthea

Synthea es un generador de datos de pacientes sintéticos de código abierto que puede ser utilizado para crear modelos de historial médico de pacientes sintéticos. El lago de datos gratuito de Synthea permite la investigación de datos de salud mientras se adhiere a las restricciones de privacidad y seguridad, independientemente de la industria de la salud.

Statice

Statice ha desarrollado soluciones de anonimización de datos que cumplen con la privacidad y que pueden ser utilizadas por empresas y organizaciones en todas las industrias. Statice permite a las instituciones de salud trabajar más rápido, de manera más segura y en cumplimiento, mientras avanza en la investigación, el desarrollo y la entrega de atención al paciente.

MHMD

La firma de consultoría Lynkeus lideró el proyecto MyHealthMyData (MHMD) financiado por la Unión Europea que tenía como objetivo, y logró, demostrar la validez y utilidad de hacer que los datos anonimizados (léase: sintéticos) estén disponibles para la investigación abierta.

Simulacrum

La empresa de ciencia de datos humanos, IQVIA colaboró con la empresa de investigación biofarmacéutica AstraZeneca para desarrollar la base de datos sintética Simulacrum. Simulacrum está compuesta únicamente de datos artificiales (léase: sintéticos) para realizar investigaciones y análisis sobre la atención del cáncer en la población.

Camino a seguir

El impacto potencial de crear y utilizar datos sintéticos para mejorar la investigación clínica y las estrategias de salud es enorme. Como con la mayoría de las cosas, se necesita tiempo para que una industria coseche los beneficios de un nuevo tipo de tecnología o proceso antes de que todos se suban a bordo. Sin embargo, durante una crisis de salud mundial, estamos cortos de tiempo y recursos. Tanto las comunidades médicas regionales como globales deben tomar señales de los líderes actuales en datos de salud sintéticos para transformar cómo comparten y protegen los datos de los pacientes, fomentar la colaboración clínica e instigar el cambio necesario en su enfoque para crear y mejorar planes, estrategias e iniciativas de salud.

Leer más: El papel crítico de la telemedicina en la crisis del COVID-19
Editado por Sinchana Mistry

¿Quieres aprender más sobre Software de atención médica? Explora los productos de Cuidado de la salud.

Jasmine Lee
JL

Jasmine Lee

Jasmine is a former Senior Market Research Analyst at G2. Prior to G2, she worked in the nonprofit sector and contributed to a handful of online entertainment and pop culture publications.