大型语言模型(large language model(s),LLM(s))在多数自然语言处理任务中表现出了卓越的性能。然而,直接应用通用LLM往往无法满足特定领域的应用需求。为解决此问题,通常需要通过从头开始训练模型或微调通用模型来定制。从头训练能...
详细信息
大型语言模型(large language model(s),LLM(s))在多数自然语言处理任务中表现出了卓越的性能。然而,直接应用通用LLM往往无法满足特定领域的应用需求。为解决此问题,通常需要通过从头开始训练模型或微调通用模型来定制。从头训练能实现高度定制化,确保与需求匹配并保护数据隐私,但存在成本过高且技术难度大的问题;因此现有方法多通过对通用模型进行微调来提升模型性能,但全参量微调会面临GPU内存限制的挑战;现有的参数高效微调技术虽然能够缓解内存限制,但该技术难以同时在多个任务中保持性能,而且在持续微调过程中也可能会出现灾难性遗忘现象。为了解决该问题,提出了一种既能维持多个领域性能又能缓解灾难性遗忘现象的新方法,即基于优化算法的逐层自适应高效合并方法(A layer-wise adaptive and efficient merging method based on black-box optimization,简称LAEM)。该方法以LoRA模块合并的形式进行:首先对多种特定任务中微调过的LoRA模块进行去冗余操作;其次,通过引入共享LoRA模块的思想,并利用逐层自适应加权平均的方法,将去冗余后的不同任务所对应的LoRA模块与共享模块进行合并,LAEM可以根据模型内部不同层的具体表现和对最终结果的贡献,灵活设定权重,从而更精准地融合多个模型的优势,充分释放模型在各层的潜能,达到更佳的整体性能表现。实验结果表明,LAEM不仅使模型具备了多种能力,而且在一定程度上缓解了灾难性遗忘的现象,同时避免了传统方法在模型合并时忽略层间特征差异的问题。
暂无评论