针对国际疾病分类(ICD)自动编码方法的长文本处理、编码的层次结构以及长尾分布等导致的模型泛化能力弱的问题,提出一种充分利用医学预训练语言模型的基于提示学习和超球原型的小样本ICD自动编码方法(hypersphere prototypical with pro...
详细信息
针对国际疾病分类(ICD)自动编码方法的长文本处理、编码的层次结构以及长尾分布等导致的模型泛化能力弱的问题,提出一种充分利用医学预训练语言模型的基于提示学习和超球原型的小样本ICD自动编码方法(hypersphere prototypical with prompt learning,PromptHP)。首先,将编码描述与临床文本融合进提示学习模型中的提示模板,使得模型能够更加深入地理解临床文本;然后,充分利用预训练语言模型的先验知识进行初始预测;接着,在预训练语言模型输出表示的基础上引入超球原型进行类别建模和度量分类,并在医学数据集上微调网络,充分纳入数据知识,提高模型在小样本ICD编码分配任务上的性能;最后,对以上两部分预测结果集成加权获得最终编码预测结果。在公开医学数据集MIMIC-Ⅲ上的实验结果表明,该模型优于最先进的基线方法,PromptHP将小样本编码的macro-AUC、micro-AUC、macro-F_(1)和micro-F_(1)分别提高了1.77%、1.54%、14.22%、15.01%。实验结果验证了该模型在小样本编码分类任务中的有效性。
针对目前自动ICD(international classification of diseases)编码任务存在标签空间大、诊断代码分布不均衡与临床文本表征差的问题,提出一种融合Longformer与标签注意力的分层ICD自动编码模型。借助Clinical-Longformer预训练语言模型...
详细信息
针对目前自动ICD(international classification of diseases)编码任务存在标签空间大、诊断代码分布不均衡与临床文本表征差的问题,提出一种融合Longformer与标签注意力的分层ICD自动编码模型。借助Clinical-Longformer预训练语言模型获得融合长文本语境的词向量表征。通过将标签的语义表示与注意力机制相结合,捕捉临床文本中与诊断代码相关的关键特征信息,获取更精准的文本表示。引入分层联合学习机制,建立分层预测层解码输出ICD编码。实验结果表明,该模型的准确率、召回率与F1值均高于现有模型,验证了该方法进行自动ICD编码的有效性,为实施疾病诊断相关分组提供高质量的数据支撑。
暂无评论