版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:上海交通大学网络空间安全学院上海200240 北京邮电大学网络空间安全学院北京100876
出 版 物:《计算机学报》 (Chinese Journal of Computers)
年 卷 期:2024年第47卷第4期
页 面:733-758页
核心收录:
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:社会治理与智慧社会科技支撑重点专项(2023YFC3303805) 国家自然科学基金联合重点项目(U21B2020) 科技创新2030——新一代人工智能重大项目(2022ZD0120304) 上海市科技计划项目(22511104400)资助
主 题:探针任务 可解释 自然语言处理 预训练模型 深度学习 人工智能安全
摘 要:随着大规模预训练模型的广泛应用,自然语言处理的多个领域(如文本分类和机器翻译)取得了长足的发展.然而,受限于预训练模型的“黑盒特性,其内部的决策模式以及编码的知识信息被认为是不透明的.以Open AI发布的Chat GPT和GPT-4为代表的先进预训练模型为例,它们在多个领域取得重大性能突破的同时,由于无法获知其内部是否真正编码了人们期望的知识或语言属性,以及是否潜藏一些不期望的歧视或偏见,因此仍然无法将其应用于重视安全性和公平性的领域.近年来,一种新颖的可解释性方法“探针任务有望提升人们对预训练模型各层编码的语言属性的理解.探针任务通过在模型的某一区域训练辅助语言任务,来检验该区域是否编码了感兴趣的语言属性.例如,现有研究通过冻结模型参数并在不同层训练探针任务,已经证明预训练模型在低层编码了更多词性属性而在高层编码了更多语义属性,但由于预训练数据的毒性,很有可能在参数中编码了大量有害内容.该文首先介绍了探针任务的基本框架,包括任务的定义和基本流程;然后对自然语言处理中现有的探针任务方法进行了系统性的归纳与总结,包括最常用的诊断分类器以及由此衍生出的其他探针方法,为读者提供设计合理探针任务的思路;接着从对比和控制的角度介绍如何解释探针任务的实验结果,以说明探测位置编码感兴趣属性的程度;最后对探针任务的主要应用和未来的关键研究方向进行展望,并讨论了当前探针任务亟待解决的问题与挑战.