Introducing G2.ai, the future of software buying.Try now

Der Reiz und die realen Konsequenzen der Anwendung synthetischer Daten auf sensible klinische Daten

5. August 2020
von Jasmine Lee

Bereits vor der COVID-19-Krise kämpften Gesundheitssysteme, medizinische Forscher und medizinische Institutionen mit effizienten Methoden zur Erfassung von Patientendaten, während sie die Privatsphäre der Patienten wahren mussten.

Bei der Forschung für Gesundheitsinnovationen oder Krisenmanagement müssen Gesundheitseinrichtungen Daten aus einer Vielzahl von Systemen extrahieren. Fragen zu Trends bei chronischen Erkrankungen, der Durchführbarkeit einer Behandlung in einer Gemeinschaft, den Nutzungsraten bestimmter Verfahren oder den steigenden Kosten der Gesundheitsversorgung – all diese Szenarien erfordern das Sammeln, Analysieren und Teilen von Patienten- und Bevölkerungsdaten.

Leider ist dieser Prozess mit möglichen Datenverletzungen, der Navigation durch branchenspezifische Datenschutzbestimmungen, der Abhängigkeit von IT-Spezialisten im Gesundheitswesen und kostbarer Zeit behaftet. Darüber hinaus erfordert das Zusammenstellen und Forschen von Patientendaten die Navigation durch riesige Datenmengen, die möglicherweise in einer Vielzahl von Systemen existieren, die isoliert oder frustrierend verstreut über verschiedene Archive verteilt sind.

Verwandt: Wie Cloud-Technologie das Management der Patientenversorgung erleichtert

Verwendung von Patientendaten in der klinischen Forschung

Meistens müssen medizinische Forscher Datenanfragen einreichen, um überhaupt Zugang zu individuellen und Bevölkerungs-Patientendaten zu erhalten. Es dauert Zeit, Datenabzüge anzufordern und zu erhalten, und noch mehr Zeit und Geschick, um die erhaltenen Daten zu lesen und zu manipulieren. Es erfordert auch unglaublich spezifische Anfragen von dem medizinischen Fachmann, Forscher oder der Institution, die möglicherweise zusätzliche Anfragen zur Klärung benötigen. Das Sahnehäubchen? Alle Patienteninformationen müssen aufgrund ihrer sensiblen Natur geschwärzt werden. Die Kompromittierung der Patientensicherheit und Vertraulichkeit durch das Versäumnis, alle identifizierenden Merkmale zu entfernen, verstößt direkt gegen Richtlinien zur Einhaltung von Gesundheitsvorschriften wie das Health Insurance Portability and Accountability Act (HIPAA), den Health Information Technology for Economic and Clinical Health Act (HITECH) und die Datenschutz-Grundverordnung (GDPR).

Elektronische Gesundheitsakten (EHR) sind jetzt digitalisiert – der Fortschritt, der die Speicherung und den Zugang zu den Gesundheitsakten eines Patienten verbessert hat, hat nicht unbedingt zu einer Konvergenz dieser Akten geführt. Der Übergang von Altsystemen im Gesundheitswesen zu agileren, cloudbasierten Systemen hat nicht sofort die (umständlichen) Arbeitsabläufe bei der klinischen Kommunikation und Zusammenarbeit beseitigt. Wahrscheinlicher ist, dass Gesundheitssysteme jetzt mit doppelten Daten zu kämpfen haben, die bereinigt werden müssen, und mit Zugriffskontrollen, die von Fall zu Fall, Titel zu Titel festgelegt werden müssen.

All dies zeigt, dass es einen Grund gibt, warum Fortschritte in Gesundheitslösungen, digitaler Gesundheit und Patientenzufriedenheit nicht unbedingt zu einer vollständigen und effizienten Transformation der Gesundheitsbranche geführt haben. Dies ist ein globales Problem. Das US-amerikanische Gesundheitssystem ist berüchtigt für seine Ineffizienz, aber die weltweite COVID-19-Pandemie hat deutlich gemacht, dass es globale Probleme beim Datenaustausch, der Ressourcenbündelung und den Forschungsmöglichkeiten gibt.

Wie lösen wir das? Wie können wir wirklich verstehen und aus Lücken in der Versorgung und medizinischen Forschung lernen, damit wir alle auf dem Planeten schützen und möglicherweise eine weitere Pandemie wie COVID-19 verhindern können?

Synthetische Daten bieten eine überzeugende Lösung.

De-Identifikation ging, damit synthetische Gesundheitsdaten laufen konnten

Synthetische Daten im Gesundheitswesen

Der Leitfaden zu synthetischen Daten von AI Multiple beschreibt die Nützlichkeit synthetischer Daten in Fällen, in denen höchste Datenschutzanforderungen die Datenverfügbarkeit einschränken, die Kosten für reale Produkttests die Bemühungen negativ einschränken oder Datensätze schnell trainiert werden müssen, um effektiv zu sein. Synthetische Daten erzeugen statistisch vergleichbare Datensätze in einer schnelleren, sichereren Umgebung, die es Unternehmen, Institutionen und Organisationen ermöglicht, agiler, innovativer und effektiver zu werden.

Ihre Anwendung in der Gesundheitsbranche birgt faszinierendes Potenzial. Unabhängig von allen Informationen, die von medizinischen Fachleuten eingegeben und abgerufen werden, sind alle Patienteninformationen sensibel und erfordern Schutz und De-Identifikation, bevor sie für Forschungszwecke verwendet werden können. Die Anwendung synthetischer Daten im Gesundheitswesen ermöglicht es medizinischen Forschern, diese statistisch vergleichbaren Datensätze zu fiktiven Patienten zu erstellen und zu konsultieren.

Um klarzustellen, diese Datensätze sind keine wilden Schüsse ins Blaue. „Fiktive Patienten“ bedeuten nicht zuordenbare Patientendaten; nicht zuordenbare Patientendaten entfernen alle Daten von Patienten- und demografischen Identifikatoren. Die Universität Kopenhagen fasst die Attribute dieser fiktiven Patienten schön zusammen:

Attribute fiktiver Patienten über die Universität Kopenhagen

Zusammengefasst erweitert synthetische Gesundheitsdaten den Umfang bestehender oder „realer“ Daten und umgeht das Problem der zu geringen Datenverfügbarkeit.

Der Schutz der Patientenidentität ist von größter Bedeutung. Diese strenge Schutzmaßnahme führt jedoch zu Störungen in klinischen Daten und klinischen Forschungs-Arbeitsabläufen. Wenn beispielsweise ein klinischer Betreuer Krankenhausverwalter für Patientendokumentationen kontaktiert, müssen sie Formulare faxen, telefonisch mit den Administratoren nachfassen und Daten manuell eingeben. Dies ist das Verfahren für jeden einzelnen Patienten. Klinische Betreuer müssen auch darauf achten, keine Informationen zu früh anzufordern, da geteilte Dokumente eine kurze Lebensdauer haben. Dies ist nur ein Szenario, das bereits mit Engpässen behaftet ist.

Wenden Sie diesen holprigen Arbeitsablauf nun auf klinische Forscher oder pharmazeutische Arzneimittelentwickler an, die versuchen, Vorhersagen zu treffen, Trends zu identifizieren und Initiativen zur Bevölkerungsgesundheit in größerem Maßstab zu bestimmen. Sicher, größere Gesundheitssysteme haben möglicherweise größere Datenbanken (oder Datenseen), um alle Informationen ihrer Patienten zu speichern, aber diese Datenbanken sind nicht in einer Eins-zu-Eins-Weise strukturiert. Die medizinische Akte eines Patienten kann getrennt von seinen Aufzeichnungen über Verfahren, Überweisungen und Zusatzversorgungsgeschichte existieren. Die medizinischen Daten eines Patienten können sogar getrennt zwischen verschiedenen Einheiten desselben Unternehmens existieren. Dies führt effektiv zu Datenknappheit.

Wie die Jugend sagen würde, ging die De-Identifikation, damit synthetische Gesundheitsdaten laufen konnten. Die De-Identifikation von Patientendaten ist das Zensieren oder Entfernen identifizierbarer Patientenmerkmale für die Zwecke der Bevölkerungsforschung. Der Unterschied zwischen De-Identifikation und synthetischen Gesundheitsdaten besteht darin, dass letztere vollständig von Patienteninformationen entfernt sind. Synthetische Daten enthalten keine persönlichen Daten. Darüber hinaus können intelligente Patientendatengeneratoren (iPDGs) und EHR-Generatoren verwendet werden, um synthetische Patientenakten zu generieren, unabhängig von der Menge an Massendaten, die im Verwaltungssystem eines Krankenhauses gespeichert sind.

Es gibt auch das erstaunlich akronymisierte FHIR. Die Fast Healthcare Interoperability Resources, allgemein als FHIR bekannt, haben den Weg in Bezug auf Datenerfassung und -austausch geebnet. FHIR bietet der Gesundheitsbranche einen cloudbasierten Datenstandard, der den Austausch von Gesundheitsinformationen (HIE) und die Interoperabilität von Daten verbessert. FHIR verbessert die klinische Kommunikation und Zusammenarbeit erheblich, indem es die Kennzeichnung und Organisation klinischer Daten innerhalb des Datensystems einer Gesundheitseinrichtung ermöglicht.

Robert Lieberthals Zitat zu synthetischen Daten als Lösung in der Gesundheitsbranche

Robert Lieberthal, Gesundheitseconomics Principal bei The MITRE Corporation, glaubt, dass „synthetische Daten eine Lösung für viele der Probleme sind, die unser Gesundheitssystem plagen... In gewisser Weise repräsentieren synthetische Daten die aktuellen Gesundheits-IT-Standards und integrieren gleichzeitig das Beste, was Gesundheits-IT sein könnte.“

Sobald synthetische Datenlösungen in die Datenbanken einer Gesundheitsorganisation integriert sind, erfassen sie alle Datenpunkte, automatisieren die Datenbereinigung und -bereinigung, erfassen statistische Erkenntnisse und Beziehungen zwischen Datenpunkten und erleichtern den Datenaustausch, die Lieferung und das Modellieren.

Da synthetische Daten keine geschützten Gesundheitsinformationen enthalten, können die generierten künstlichen Daten zwischen medizinischen und klinischen Forschern und Wissenschaftlern geteilt werden. Sie sind nicht mehr darauf beschränkt, geschwärzte Patienteninformationen zu nutzen, die möglicherweise nicht den Richtlinien zur Einhaltung von Gesundheitsvorschriften entsprechen, wenn sie neue Gesundheitsstrategien, Zahlungsinitiativen und Gesundheitspolitiken sowie die Entwicklung digitaler Gesundheit entwickeln.

Bedenken bei der Nutzung synthetischer Daten

Hervorhebung der Bedenken bei der Nutzung synthetischer Daten

Während die Vorteile der Generierung und Anwendung synthetischer Daten im Gesundheitswesen klar sind, befindet sich die Einführung und Implementierung noch in den Anfängen. Kritiker synthetischer Daten existieren, und das aus gutem Grund, wie bei jeder Lösung, die auf maschinellem Lernen und Automatisierung beruht, um zu verfeinern und zu polieren.

Es gibt Einschränkungen für synthetische Daten in einem Gesundheitsumfeld, und alle Interessengruppen, die synthetische Daten nutzen möchten, müssen sich dieser bewusst sein.
  • Varianz — Patienten sind Menschen und bestehen daher aus Variationen und Komplexitäten, die nicht unbedingt von synthetischen Daten vorhergesagt oder repliziert werden können. Künstlich generierte Gesundheitsdaten können möglicherweise nur allgemeine oder „durchschnittliche“ Trends in allgemeinen klinischen Anwendungen simulieren.
  • „Reale“ (beobachtete) Datenvalidität — Synthetische Daten sind per Definition keine exakte Replikation von Patientendaten. Während synthetische Daten so manipuliert werden können, dass sie zu jedem Szenario passen, für das ein Forscher sie verwendet, sind sie immer noch in einem anfänglichen realen Datensatz verwurzelt. Mit anderen Worten, die Ergebnisse synthetischer Daten stehen aus, bis sie durch reale, beobachtete Daten validiert werden, die die Vorhersagen der künstlich generierten Gesundheitsdaten verbessern können. Darüber hinaus kann ihre Abhängigkeit von der Qualität der Datenquelle die Qualität der generierten synthetischen Gesundheitsdaten erheblich beeinflussen.
  • Benutzerakzeptanz und weit verbreitete AnwendungSoftware für synthetische Daten rühmt sich, reale Daten in unkenntliche und nicht zuordenbare Datenpunkte zu randomisieren. Es besteht jedoch immer noch die Möglichkeit (möglicherweise eine von einer Million), dass der randomisierte Datenpunkt ein tatsächlicher Datenpunkt ist. Die Vorteile synthetischer Daten wurden noch nicht von allen Menschen auf der Welt erfahren, und ihr Potenzial könnte tatsächlich Forscher oder Regierungen abschrecken, die an der Genauigkeit oder Validität von Vorhersagen auf Basis künstlicher Daten zweifeln.

Akteure im Bereich synthetisierter Gesundheitsdaten

Synthetische Daten, insbesondere synthetische Gesundheitsdaten, sind ein relativ neues Forum, in dem Forschung betrieben wird. Entsprechend ist die folgende Liste von Akteuren im Bereich synthetischer Gesundheitsdaten kurz, wird jedoch wachsen, wenn diese Gesundheitstechnologie breiter akzeptiert und verbessert wird.

MDClone

MDClone ist ein in Israel ansässiger Anbieter von Gesundheits-IT mit der Mission, den Zugang zu Gesundheitsdaten zu erleichtern und die allgemeinen Methoden der Gesundheitsforschung und -aktivität zu verbessern. Die Plattform von MDClone beabsichtigt, Daten im gesamten Gesundheitsökosystem zu demokratisieren, indem sie die breite Nutzung von Daten ermöglicht, die innerhalb von Gesundheitssystemen vorhanden sind.

Synthea

Synthea ist ein Open-Source-Generator für synthetische Patientendaten, der verwendet werden kann, um Modelle der Krankengeschichte synthetischer Patienten zu erstellen. Der kostenlose Datensee von Synthea ermöglicht Gesundheitsdatenforschung unter Einhaltung von Datenschutz- und Sicherheitsbeschränkungen, unabhängig von der Gesundheitsbranche.

Statice

Statice hat datenschutzkonforme Datenanonymisierungslösungen entwickelt, die von Unternehmen und Organisationen in allen Branchen genutzt werden können. Statice ermöglicht es Gesundheitseinrichtungen, schneller, sicherer und in Übereinstimmung zu arbeiten, während sie Forschung, Entwicklung und Bereitstellung der Patientenversorgung vorantreiben.

MHMD

Die Beratungsfirma Lynkeus leitete das von der Europäischen Union finanzierte MyHealthMyData (MHMD)-Projekt, das darauf abzielte – und es gelang –, die Gültigkeit und Nützlichkeit der Bereitstellung anonymisierter (lesen: synthetischer) Daten für die offene Forschung zu beweisen.

Simulacrum

Das Human Data Science Unternehmen, IQVIA arbeitete mit dem biopharmazeutischen Forschungsunternehmen AstraZeneca zusammen, um die synthetische Datenbank Simulacrum zu entwickeln. Simulacrum besteht ausschließlich aus künstlichen (lesen: synthetischen) Daten, um Forschung zu betreiben und Analysen zur Krebsversorgung der Bevölkerung durchzuführen.

Weg nach vorne

Das potenzielle Ausmaß der Schaffung und Nutzung synthetischer Daten zur Verbesserung der klinischen Forschung und Gesundheitsstrategien ist enorm. Wie bei den meisten Dingen dauert es eine Weile, bis eine Branche die Vorteile einer neuen Art von Technologie oder Prozess erntet, bevor alle an Bord sind. Während einer weltweiten Gesundheitskrise haben wir jedoch wenig Zeit und Ressourcen. Sowohl die regionalen als auch die globalen medizinischen Gemeinschaften müssen sich von den aktuellen Führern im Bereich synthetischer Gesundheitsdaten inspirieren lassen, um zu transformieren, wie sie Patientendaten teilen und schützen, klinische Zusammenarbeit fördern und notwendige Veränderungen in ihrem Ansatz zur Erstellung und Verbesserung von Gesundheitsplänen, Strategien und Initiativen anstoßen.

Weiterlesen: Die kritische Rolle der Telemedizin in der COVID-19-Krise
Bearbeitet von Sinchana Mistry

Möchten Sie mehr über Gesundheitssoftware erfahren? Erkunden Sie Gesundheitsversorgung Produkte.

Jasmine Lee
JL

Jasmine Lee

Jasmine is a former Senior Market Research Analyst at G2. Prior to G2, she worked in the nonprofit sector and contributed to a handful of online entertainment and pop culture publications.