版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN202211659583.X
公 开 号:CN116187330A
代 理 人:罗伟富
代理机构:佛山市君创知识产权代理事务所(普通合伙)
专利类型:发明专利
申 请 日:20230530
公 开 日:20221222
专利主分类号:G06F40/295
关 键 词:标签数据 命名实体 目标语言 粗粒度 细粒度 过滤 标签优化 源语言 语言 源语言数据 功能需求 用户目标 蒸馏 标注 样本 监督
摘 要:本发明公开了一种自监督伪标签优化的跨语言命名实体识别方法及系统,该方法包括:根据用户获得目标语言伪标签数据集的功能需求,利用源语言数据集训练源语言模型来并利用源语言模型为用户进行目标语言的标注工作,提供给用户目标语言的伪标签数据集;将目标语言的伪标签数据集进行粗粒度选择;将粗粒度选择后的伪标签数据集进行细粒度过滤;将细粒度过滤后的伪标签数据集进行知识蒸馏训练用于目标语言的命名实体识别模型。本发明提出一种自监督伪标签优化的跨语言命名实体识别方法及系统,基于粗粒度选择与细粒度过滤选择了有效的伪标签数据样本且改善了跨语言命名实体的效果。