咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于参数高效微调的藏文大模型研究 收藏

基于参数高效微调的藏文大模型研究

Tibetan Large Model Based on Efficient Parameter Fine Tuning

作     者:杨毛加 柔特 才智杰 官却才让 贡去卓么 YANG Maojia;ROU Te;CAI Zhijie;GUAN Quecairang;GONG Quzhuome

作者机构:青海师范大学计算机学院青海西宁810016 省部共建藏语智能信息处理及应用国家重点实验室青海西宁810008 

出 版 物:《中文信息学报》 (Journal of Chinese Information Processing)

年 卷 期:2024年第38卷第12期

页      面:106-115页

核心收录:

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:新一代人工智能国家科技重大专项(2022ZD0116100) 青海省重点研发项目(2022-GX-104) 

主  题:自然语言处理 藏文大模型 参数高效微调 增量预训练 指令微调 

摘      要:大模型是指拥有庞大参数量的深度学习模型,具备强大的表征学习和生成能力,对自然语言处理等领域产生了深远影响。随着技术的不断进步,大模型在性能和应用范围上不断取得突破,成为人工智能领域的研究热点。然而,大模型的发展也面临着一些挑战,如模型训练成本高、参数冗余以及跨语言应用存在局限性等。特别地,在藏文这一具有独特语言特性的研究领域,大模型的研究尚处于起步阶段,缺乏相应的模型和资源支持。针对上述问题,该文通过基于LoRA的参数高效微调方法,提出了基于Llama2模型架构构建的Tibetan-Llama2和Tibetan-Alpaca模型,经过较大规模数据的增量预训练和指令微调,上述两种模型具备了对藏文的长文本理解和生成能力,展现了其多任务学习能力,并且在多个领域都有广泛的应用前景。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分