咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >一种自监督伪标签优化的跨语言命名实体识别方法及系统 收藏
一种自监督伪标签优化的跨语言命名实体识别方法及系统

一种自监督伪标签优化的跨语言命名实体识别方法及系统

专利申请号:CN202211659583.X

公 开 号:CN116187330A

发 明 人:黄沛杰 冯湛炜 徐禹洪 谢浩杰 林丽欣 林丕源 

代 理 人:罗伟富

代理机构:佛山市君创知识产权代理事务所(普通合伙)

专利类型:发明专利

申 请 日:20230530

公 开 日:20221222

专利主分类号:G06F40/295

关 键 词:标签数据 命名实体 目标语言 粗粒度 细粒度 过滤 标签优化 源语言 语言 源语言数据 功能需求 用户目标 蒸馏 标注 样本 监督 

摘      要:本发明公开了一种自监督伪标签优化的跨语言命名实体识别方法及系统,该方法包括:根据用户获得目标语言伪标签数据集的功能需求,利用源语言数据集训练源语言模型来并利用源语言模型为用户进行目标语言的标注工作,提供给用户目标语言的伪标签数据集;将目标语言的伪标签数据集进行粗粒度选择;将粗粒度选择后的伪标签数据集进行细粒度过滤;将细粒度过滤后的伪标签数据集进行知识蒸馏训练用于目标语言的命名实体识别模型。本发明提出一种自监督伪标签优化的跨语言命名实体识别方法及系统,基于粗粒度选择与细粒度过滤选择了有效的伪标签数据样本且改善了跨语言命名实体的效果。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分