背景:数据已经成为生物医学发展的重要驱动力,实现数据到知识转化的一个关键环节在于增强数据的机器可理解性。通用数据元素(common data element,CDE)的使用是提高机器对元数据理解的重要手段。随着生物医学领域可共享的数据越来越多,...
详细信息
背景:数据已经成为生物医学发展的重要驱动力,实现数据到知识转化的一个关键环节在于增强数据的机器可理解性。通用数据元素(common data element,CDE)的使用是提高机器对元数据理解的重要手段。随着生物医学领域可共享的数据越来越多,纳入到通用数据元素库中的数据元素也在迅速增长,探讨如何提升通用数据元素的质量对于促进数据的整合和共享具有重要的意义。方法:一方面,本研究根据ISO/IEC 11179标准建立了具有语义支持的CDE表示模型,并在模型的基础上,构建了可共享的、可重用的和具有语义支持的通用数据元素库。在本部分研究中,首先根据《国民体质与健康数据库》初步确定了库中的数据条,通过复用caDSR中的CDE以及新建方式形成CDE数据集;然后基于模型实现了CDE的OWL表示,并且借助于语义网工具实现了 CDE的质量检查;最后利用图数据库来存储文件,并提供SPARQL复杂查询功能。另一方面,本研究进行了生物医学领域元数据之间异质性的研究,建立了元数据之间可兼容性自动化的预测模型。在本部分研究中,首先从国际上使用广泛的公共数据库NCI caDSR中,选取了与临床试验关联度较高的流行病调查的数据元素,根据构建的CDE表示模型提取了数据元素的必要组分,在NCIT(National Cancer Institute Thesaurus)的支持下利用基于本体的语义相似度计算方法计算出每两个关联数据元素对应必要组分之间的相似度值。最后,基于CDE组分之间的相似度值,利用支持向量机(support vector machine,SVM)对相关数据元素之间的兼容性进行了预测。结果:本研究构建了数据元素通用用用表示模型。此模型以ISO/IEC 11179元数据标准的核心组分为基础,规定了利用本体术语实现语义标准化的方式,定义了这些核心组分之间的关系,并为数据元素分配唯一标识符,以OWL格式表示。利用此模型实现了《国民体质与健康数据库》中的数据元素的图数据库存储和检索。在caDSR数据库元数据异质性研究中,结果显示元数据的概念层存在较大的异质性。即使在人工判别认为可以实现数据统一的数据元素间,在概念层的定义上也存在有明显异质性。通过SVM实现了数据元素是否可以整合进行了判断,模型对于可直接整合、人工干预后可整合和不可整合三组判断的总体准确率为81.67%。结论:本研究建立了符合FAIR准则的数据元素通用表示模型,并以此为基础围绕《国民体质与健康数据库》数据元素,建立了可参考的通用数据元素库,为解决数据异质性造成的数据整合和共享的问题提供了一个初步的可行方案。针对目前CDE数据库中数据元素异质性严重,本研究构建了 CDE可兼容性的预测模型,为用户使用现有的CDE提供了工具支持。通过本研究,将为提升元数据质量,进而提升数据质量提供技术和工具的支持。
暂无评论