Mesmo antes da crise da COVID-19, sistemas de saúde, pesquisadores médicos e instituições médicas enfrentavam dificuldades em encontrar maneiras eficientes de coletar dados de pacientes enquanto mantinham a privacidade dos pacientes.
Ao pesquisar para inovação em saúde ou gestão de crises, as instituições de saúde devem extrair dados de uma infinidade de sistemas. Responder a perguntas sobre tendências em condições crônicas, a viabilidade de um tratamento em uma comunidade, as taxas de utilização de certos procedimentos ou os crescentes custos de cuidados de saúde—todos esses cenários exigem a coleta, análise e compartilhamento de dados de pacientes e da população.
Infelizmente, esse processo é repleto de possíveis vazamentos de dados, navegação por regulamentações de privacidade da indústria, dependência de especialistas em TI de saúde e tempo precioso. Além disso, compilar e pesquisar dados de pacientes requer navegação por enormes volumes de dados que podem existir em uma variedade de sistemas que estão isolados ou frustrantemente dispersos em diferentes arquivos.
Relacionado: Como a Tecnologia em Nuvem Facilita a Gestão do Cuidado ao Paciente → |
Uso de dados de pacientes em pesquisa clínica
Na maioria das vezes, os pesquisadores médicos devem enviar solicitações de dados para acessar dados de pacientes individuais e da população. Leva tempo para solicitar e receber extrações de dados, e ainda mais tempo e habilidade para ler e manipular quaisquer dados recebidos. Também requer consultas incrivelmente específicas do profissional médico, pesquisador ou instituição, que podem ou não precisar de consultas suplementares para esclarecimento. O toque final? Todas as informações dos pacientes devem ser redigidas devido à sua natureza sensível. Comprometer a segurança e a confidencialidade dos pacientes ao não remover todos os atributos identificáveis vai diretamente contra as diretrizes de conformidade de saúde, como a Lei de Portabilidade e Responsabilidade de Seguros de Saúde (HIPAA), a Lei de Tecnologia da Informação em Saúde para a Saúde Econômica e Clínica (HITECH) e o Regulamento Geral sobre a Proteção de Dados (GDPR).
Registros eletrônicos de saúde (EHR) agora estão digitalizados—o progresso que melhorou o armazenamento e o acesso aos registros de saúde de um paciente não necessariamente se traduziu em uma convergência desses registros. A transição de sistemas de saúde legados para sistemas mais ágeis baseados em nuvem não apagou imediatamente os fluxos de trabalho (desajeitados) quando se trata de comunicação e colaboração clínica. Mais provavelmente, os sistemas de saúde agora devem lidar com dados duplicados que devem ser limpos e controles de acesso que devem ser determinados caso a caso, título por título.
Tudo isso ilustra que há uma razão pela qual os avanços em soluções de saúde, saúde digital e satisfação do paciente não resultaram necessariamente na transformação completa e eficiente da indústria de saúde. Este é um problema global. O sistema de saúde dos EUA é notoriamente ineficiente, mas a pandemia mundial de COVID-19 deixou claro que existem problemas globais de compartilhamento de dados, agrupamento de recursos e oportunidades de pesquisa.
Como consertamos isso? Como podemos realmente entender e aprender com as lacunas nos cuidados e na pesquisa médica para que possamos proteger todos no planeta e possivelmente prevenir outra pandemia como a COVID-19?
Dados sintéticos oferecem uma solução atraente.
O que são Dados Sintéticos?
Dados sintéticos são dados artificiais que têm origem em dados reais, mas empregam programas e algoritmos matemáticos, de aprendizado de máquina ou inteligência artificial que permitem aos pesquisadores de qualquer campo testar cenários, treinar e manipular dados de acordo com condições específicas e garantir a privacidade dos dados—dados sintéticos oferecem possibilidades infinitas.
Dados sintéticos na saúde
O guia de dados sintéticos da AI Multiple descreve a utilidade dos dados sintéticos em casos onde requisitos de privacidade fundamentais limitam a disponibilidade de dados, os custos de testes de produtos na vida real restringem negativamente os empreendimentos, ou conjuntos de dados precisam ser rapidamente treinados para serem eficazes. Dados sintéticos produzem conjuntos de dados estatisticamente comparáveis em um ambiente mais rápido e seguro, permitindo que empresas, instituições e organizações se tornem mais ágeis, inovadoras e eficazes.
Sua aplicação na indústria de saúde apresenta um potencial intrigante. Independentemente de todas as informações que são inseridas e acessadas por profissionais médicos, todas as informações dos pacientes são sensíveis e requerem proteção e desidentificação antes de poderem ser usadas para qualquer finalidade de pesquisa. A aplicação de dados sintéticos na saúde permite que pesquisadores médicos criem e consultem esses conjuntos de dados estatisticamente comparáveis em pacientes fictícios.
Para ser claro, esses conjuntos de dados não são tiros no escuro. “Pacientes fictícios” significam dados de pacientes não atribuíveis; dados de pacientes não atribuíveis removem todos os dados de identificadores de pacientes e demográficos. A Universidade de Copenhague resume bem os atributos desses pacientes fictícios:
Em resumo, os dados de saúde sintéticos aumentam o escopo dos dados existentes ou “reais”, contornando o problema da disponibilidade insuficiente de dados.
Proteger a identidade do paciente é fundamental. No entanto, essa proteção rigorosa causa rupturas nos dados clínicos e nos fluxos de trabalho de pesquisa clínica. Por exemplo, quando um coordenador de cuidados clínicos entra em contato com administradores hospitalares para documentação de pacientes, eles devem enviar formulários por fax, acompanhar os administradores por telefone e inserir dados manualmente. Este é o procedimento para cada paciente. Os coordenadores de cuidados clínicos também devem ter cuidado para não solicitar informações muito cedo, pois os documentos compartilhados têm uma vida útil curta. Esse é apenas um cenário que já está repleto de gargalos.
Agora aplique esse fluxo de trabalho irregular a pesquisadores clínicos ou desenvolvedores de medicamentos farmacêuticos, que estão tentando fazer previsões, identificar tendências e determinar iniciativas de saúde populacional em uma escala maior. Claro, sistemas de saúde maiores podem ter bancos de dados maiores (ou lagos de dados) para armazenar todas as informações de seus pacientes, mas esses bancos de dados não são estruturados de forma um-para-um. O registro médico de um paciente pode existir separadamente de seus registros de procedimentos, encaminhamentos e histórico de cuidados auxiliares. Os dados médicos de um paciente podem até existir separadamente entre diferentes entidades da mesma empresa. Efetivamente, isso resulta em escassez de dados.
Como os jovens diriam, a desidentificação caminhou para que os dados de saúde sintéticos pudessem correr. A desidentificação de dados de pacientes é a censura ou remoção de atributos identificáveis de pacientes para fins de pesquisa em saúde populacional. A diferença entre desidentificação e dados de saúde sintéticos é que o último é completamente removido das informações do paciente. Dados sintéticos não contêm dados pessoais. Além disso, geradores inteligentes de dados de pacientes (iPDGs) e geradores de EHR podem ser utilizados para gerar registros de pacientes sintéticos, independentemente da quantidade de dados de pacientes armazenados no sistema administrativo de um hospital.
Há também o FHIR, que tem um acrônimo incrível. Os Recursos de Interoperabilidade Rápida em Saúde, mais comumente referidos como FHIR, ajudaram a abrir caminho em termos de coleta e compartilhamento de dados. O FHIR fornece à indústria de saúde um padrão de armazenamento de dados baseado em nuvem que melhora a troca de informações de saúde (HIE) e a interoperabilidade de dados. O FHIR melhora significativamente a comunicação e colaboração clínica ao permitir a marcação e organização de dados clínicos dentro do sistema de dados de uma organização de saúde.
Robert Lieberthal, economista de saúde principal na The MITRE Corporation, acredita que “Dados sintéticos são uma solução para muitos dos problemas que afligem nosso sistema de TI de saúde... De certa forma, dados sintéticos representam os padrões atuais de TI de saúde, ao mesmo tempo que incorporam o melhor do que a TI de saúde poderia ser.”
Uma vez que as soluções de dados sintéticos são integradas aos bancos de dados de uma organização de saúde, elas ingerem todos os pontos de dados, automatizando a desduplicação e limpeza de dados, capturando insights estatísticos e relações entre pontos de dados, e facilitando o compartilhamento, entrega e modelagem de dados.
Novamente, como os dados sintéticos não contêm informações de saúde protegidas, os dados artificiais gerados podem ser compartilhados entre pesquisadores médicos e clínicos e cientistas. Eles não estão mais restritos a utilizar informações de pacientes redigidas que podem ou não aderir às diretrizes de conformidade de saúde ao desenvolver novas estratégias de saúde, iniciativas de pagamento e políticas de saúde, e desenvolvimento de saúde digital.
Preocupações com a utilização de dados sintéticos
Embora os benefícios de gerar e aplicar dados sintéticos à saúde sejam claros, ainda está nos estágios iniciais de adoção e implementação. Existem detratores dos dados sintéticos, e por boas razões, como acontece com qualquer solução que dependa de aprendizado de máquina e automação para aprimorar e polir.
Existem limitações para dados sintéticos em um ambiente de saúde, e todas as partes interessadas que desejam aproveitar os dados sintéticos devem estar cientes delas. |
|
Jogadores em dados de saúde sintetizados
Dados sintéticos, e particularmente dados de saúde sintéticos, são um fórum relativamente novo no qual a pesquisa é conduzida. Correspondentemente, a lista a seguir de jogadores de dados de saúde sintéticos é curta, mas crescerá à medida que essa tecnologia de saúde se tornar mais amplamente aceita e aprimorada.
MDClone
MDClone é um fornecedor de TI de saúde baseado em Israel com a missão de facilitar o acesso a dados de saúde e melhorar os métodos gerais de pesquisa e atividade em saúde. A plataforma do MDClone pretende democratizar os dados em todo o ecossistema de saúde, permitindo o uso amplo de dados que residem dentro dos sistemas de saúde.
Synthea
Synthea é um gerador de dados de pacientes sintéticos de código aberto que pode ser usado para criar modelos de histórico médico de pacientes sintéticos. O lago de dados gratuito do Synthea permite a pesquisa de dados de saúde enquanto adere a restrições de privacidade e segurança, independentemente da indústria de saúde.
Statice
Statice desenvolveu soluções de anonimização de dados em conformidade com a privacidade que podem ser usadas por empresas e organizações em todos os setores. A Statice permite que instituições de saúde trabalhem de forma mais rápida, segura e em conformidade, enquanto avançam na pesquisa, desenvolvimento e entrega de cuidados ao paciente.
MHMD
A empresa de consultoria Lynkeus liderou o projeto MyHealthMyData (MHMD), financiado pela União Europeia, que visava—e conseguiu—provar a validade e utilidade de tornar dados anonimizados (leia-se: sintéticos) disponíveis para pesquisa aberta.
Simulacrum
A Human Data Science Company, IQVIA colaborou com a empresa de pesquisa biofarmacêutica AstraZeneca para desenvolver o banco de dados sintético Simulacrum. O Simulacrum é composto exclusivamente por dados artificiais (leia-se: sintéticos) para conduzir pesquisas e realizar análises sobre o cuidado do câncer na população.
Caminho a seguir
O impacto potencial de criar e utilizar dados sintéticos para melhorar a pesquisa clínica e estratégias de saúde é enorme. Como na maioria das coisas, leva tempo para uma indústria colher os benefícios de um novo tipo de tecnologia ou processo antes que todos embarquem. No entanto, durante uma crise de saúde mundial, estamos com pouco tempo e recursos. Tanto as comunidades médicas regionais quanto globais devem seguir os exemplos dos líderes atuais em dados de saúde sintéticos para transformar a maneira como compartilham e protegem dados de pacientes, incentivam a colaboração clínica e instigam mudanças necessárias em sua abordagem para criar e melhorar planos, estratégias e iniciativas de saúde.
Leia Mais: O Papel Crítico da Telemedicina na Crise da COVID-19 → |
Quer aprender mais sobre Software de Saúde? Explore os produtos de Cuidados de Saúde.

Jasmine Lee
Jasmine is a former Senior Market Research Analyst at G2. Prior to G2, she worked in the nonprofit sector and contributed to a handful of online entertainment and pop culture publications.