【目的】解决基于深度学习的实体关系抽取方法在古籍小样本场景下,由于依赖大规模标注数据而导致的微调效率低、抽取性能不佳问题。【方法】提出一种基于提示学习和抽取式阅读理解的古籍礼仪实体关系联合抽取方法。首先,将实体识别和关系抽取任务整合至一个抽取式阅读理解框架中,简化模型结构。然后,利用领域知识设计三种轻量级提示策略,有效降低联合抽取任务的复杂度。最后,基于预训练语言模型和全局指针网络构建古籍礼仪实体关系联合抽取模型MPG-GP(MRC-Prompt-GujiBERT with Global Pointer),有效抽取古籍中的礼仪实体关系三元组。【结果】在构建的古籍礼仪实体关系联合抽取数据集上进行实验,本文方法F1值比基线方法提升了0.32~6.05个百分点。【局限】在构建提示模板时,未采用可学习的软提示方式,并且提示设计仍有进一步优化的空间。【结论】所提方法能够有效缓解深度神经网络对大量标注数据的依赖,提升了模型在小样本古籍礼仪实体关系联合抽取任务上的准确性,为古籍低资源场景信息抽取提供了新的方法和思路。
全球数字化进程的加速伴随着数据主体信息失控现象日益显著。国内外数据安全相关法律相继出台,其中遗忘权(the Right to Be Forgotten)强调了数据主体拥有从数据使用方撤回其数据的权利。模型遗忘(Machine Unlearning)是机器学习领域践...
详细信息
全球数字化进程的加速伴随着数据主体信息失控现象日益显著。国内外数据安全相关法律相继出台,其中遗忘权(the Right to Be Forgotten)强调了数据主体拥有从数据使用方撤回其数据的权利。模型遗忘(Machine Unlearning)是机器学习领域践行遗忘权的技术,允许模型拥有方(即数据使用方)从已训练的模型中遗忘原本训练数据的指定数据,以满足数据拥有方撤回其数据的需求。现有针对模型遗忘效果的验证方法通常假设存在一个从未使用过被遗忘数据的基准模型,并通过测量遗忘后模型和基准模型的参数分布或输出分布是否足够相似来完成验证。然而,在恶意攻击场景下,模型拥有方容易伪造遗忘后模型的参数和输出分布,且模型参数通常难以归因于特定的训练数据,导致验证方难以有效验证目标模型是否遗忘其数据。本文提出了一种新的公开可验证模型遗忘方案,该方案在数据拥有方和模型拥有方之间执行,并在模型拥有方出现恶意行为时,数据拥有方能够生成任意第三方可验证的不可否认凭证。具体地,数据拥有方先利用动态通用累加器来认证被授权使用的数据或删除不被授权使用的数据;随后,模型拥有方在公开可验证隐蔽模型下证明模型训练使用了被累加数据或没有使用不被累加数据;最后,数据拥有方验证证明的有效性,若发现模型拥有方使用了未授权数据,则其生成公开可验证的凭证来追责模型拥有方的不合法行为。实验评估了不同数据量下证明和验证的计算开销,同时评估了不同数据点删除对模型预测结果的影响。
暂无评论