版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN202311360675.2
公 开 号:CN117454954A
代 理 人:邢少真
代理机构:北京三高永信知识产权代理有限责任公司
专利类型:发明专利
申 请 日:20240126
公 开 日:20231019
专利主分类号:G06N3/08
关 键 词:样本文本 预测信息 目标语言模型 正则化参数 模型参数 语言模型 计算机技术领域 计算机设备 标签信息 存储介质 多个目标 更新目标 加权平均 模型训练 有效解决 预测结果 子模型 预测 申请 语言
摘 要:本申请提供了一种模型训练方法、装置、计算机设备及存储介质,属于计算机技术领域。该方法包括:对于任一样本文本数据,对样本文本数据的多个第一预测信息进行加权平均,得到样本文本数据的第二预测信息,多个第一预测信息用于表示目标语言模型包括的多个目标语言子模型分别对样本文本数据进行预测得到的预测结果;基于样本文本数据的第二预测信息、样本文本数据的标签信息、第一正则化参数、第二正则化参数以及目标语言模型的模型参数,确定目标语言模型的训练损失;基于训练损失,更新目标语言模型的模型参数。上述技术方案能够有效解决大语言模型出现的幻象问题,提高模型的泛化能力。