医疗过程的固有复杂性、医疗数据的隐私性以及各医疗机构间信息化水平的差异性使得医疗数据非常分散,形成众多数据孤岛。而当前诸多研究表明多中心医疗数据研究的开展对于消除样本分布误差,提高医疗数据的挖掘与应用水平等具有重要价值。因此为实现对医疗数据的有效利用,促进医疗数据的共享水平,越来越多的研究机构选择将医疗原始数据规整为omop CDM(Observational Medical Outcomes Partnership Common Data Model)。然而,在数据规整过程中常常面临着数据转换跨度过大、流程混乱、数据质量难以控制以及单机处理速度慢等问题。本研究通过总结在国内多家三甲医院进行数据规整过程中获得的经验和教训,探索多种数据规整技术方案,最终基于分布式技术设计并实现了一种面向omop CDM的多阶段数据规整与质量控制系统。首先提出了将数据规整过程拆分成基础清洗、整合清洗、关联清洗、数据派生和标准术语映射5大阶段的规整方案,在规范并简化规整流程的同时,减小了数据转换跨度。其次针对阶段性数据规整结果进行了完整性、一致性、合理性三方面的质量评估,及时地发现了错误,防止错误向后传播。另外采用了新一代的湖仓一体(Lakehouse)数据管理架构和基于内存的Spark分布式计算引擎,对数据规整效率进行整体提升。本研究从转换能力、数据质量和规整效率三个角度出发,在三甲医院的真实医疗数据规整任务中对该系统进行了评估。转换能力方面,评估结果显示规整之后两家医院各表的平均转换率分别为83.40%和90.68%,系统能够将大多数原始医疗数据转换为omop CDM。数据质量方面,整体的数据质量评估显示各表的平均一致性增加了22.11%,平均合理性增加了12.21%,医疗数据质量有了较好的提升。规整效率方面,分别完成了基于校验任务和基于清洗任务的效率评估。在数据量为4.5亿行的校验任务中,本系统的处理效率分别是Oracle、Vaex的46.8倍和2.4倍,吞吐量为每秒6003万行;清洗任务中,本系统的处理效率分别是Oracle、Vaex的2.5倍和1.8倍。因此上述结果表明本研究提出的一种面向omop CDM的多阶段数据规整与质量控制系统可以适用于真实的医疗数据规整任务,在较高水平的自动化条件下,不仅能够将大多数原始医疗数据转换为omop CDM,而且能够有效提升医疗数据的完整性、一致性与合理性,同时极大程度提升了数据规整的效率。该系统对于辅助技术人员简化将原始医疗数据规整为omop CDM的流程,降低数据规整的实施难度,提高实施效率与保证数据质量等方面具有重要意义。
暂无评论