近年来,大语言模型(Large language model,LLM)在自然语言处理中取得重大进展.在模型足够大时,大语言模型涌现出传统的预训练语言模型(Pre-trained language model,PLM)不具备的推理能力.为了探究如何将大语言模型的涌现能力应用于中文...
详细信息
近年来,大语言模型(Large language model,LLM)在自然语言处理中取得重大进展.在模型足够大时,大语言模型涌现出传统的预训练语言模型(Pre-trained language model,PLM)不具备的推理能力.为了探究如何将大语言模型的涌现能力应用于中文实体链接任务,适配了以下四种方法:知识增强、适配器微调、提示学习和语境学习(In-context learning,ICL).在Hansel和CLEEK数据集上的实证研究表明,基于Qwen-7B/ChatGLM3-6B的监督学习方法超过基于小模型的方法,在Hansel-FS数据集上提升3.9%~11.8%,在Hansel-ZS数据集上提升0.7%~4.1%,在CLEEK数据集上提升0.6%~3.7%.而当模型参数量达到720亿时,Qwen-72B的无监督方法实现与监督微调Qwen-7B相近的结果(-2.4%~+1.4%).此外,大语言模型Qwen在长尾实体场景下有明显的优势(11.8%),且随着参数量的增加,优势会更加明显(13.2%).对错误案例进行分析(以下简称错误分析)发现,实体粒度和实体类别相关错误占比较高,分别为36%和25%.这表明在实体链接任务中,准确划分实体边界以及正确判断实体类别是提高系统性能的关键.
糖尿病视网膜病变是由糖尿病引起的一种重要眼部疾病,不及时治疗可能会导致失明,现有的诊断方法主要依靠医生手动分类,但这种方法耗时耗力.随着深度学习的发展,越来越多的自动分类技术被应用到医学领域.针对糖尿病视网膜病变严重程度的分类问题,样本图像十分稀缺,传统的单支模型很难达到较高的分类性能,提出一种孪生结构的分类模型Siamese Model with Swin-Transformer and MLP-Based U-Net(SSM),并利用数据扩增来解决此问题.首先,利用直方图均衡化、高斯滤波和增强对比度等方法预处理图像;然后,将预训练的Swin-Transformer作为SSM模型的特征提取分支网络来获得层次化的特征表示;此外,还设计了一个含有跳跃连接结构的MLP-Based U-Net(MU-Net)作为SSM模型的分类器来对提取的特征进行分类.在Messidor数据集上进行训练和测试,与现有最先进的模型相比,SSM模型性能更优,在测试集上的精确率达0.976,召回率达0.975,F1达0.976,准确率达0.975,Kappa系数达0.967.
暂无评论