在自然语言处理(Natural Language Processing,NLP)领域,后门攻击已成为现代NLP应用的重大威胁,严重影响系统的安全性与可靠性。尽管文本领域已提出多种防御策略,但在不接触中毒数据集也不参与后门训练过程时,面对复杂的攻击场景...
详细信息
在自然语言处理(Natural Language Processing,NLP)领域,后门攻击已成为现代NLP应用的重大威胁,严重影响系统的安全性与可靠性。尽管文本领域已提出多种防御策略,但在不接触中毒数据集也不参与后门训练过程时,面对复杂的攻击场景,现有方法仍难以有效应对。为此,提出一种基于机器遗忘的文本后门攻击防御方法NLPShield。该方法仅需少量干净样本,通过基于错误标注的训练和干净神经元剪枝两个关键阶段,实现对文本后门攻击的有效防御。实验在SST-2和AGNews数据集上进行,结果显示,在保持较高干净准确率的情况下,NLPShield方法相较于现有最先进基线防御方法,平均能将攻击成功率降低24.83%。这表明NLPShield方法能显著提升多种后门攻击的防御效果,切实有效地缓解文本后门攻击。
暂无评论