版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN202110364805.4
公 开 号:CN113076421A
代 理 人:贺小停
代理机构:61200 西安通大专利代理有限责任公司
专利类型:发明申请
申 请 日:20210706
公 开 日:20210402
专利主分类号:G06F16/35(20190101)
关 键 词:关系抽取 文本实体 因果推断 词向量 数据集 噪音 自然语言处理 应用可能性 实际场景 数据标注 数据更新 数据增强 文本领域 创新性 鲁棒性 标注 干预 引入 中文 优化 应用
摘 要:本发明一种社交噪音文本实体关系抽取优化方法及系统,可解决社交文本领域数据标注成本大、数据更新速度快、数据集本身存在偏差以及原有模型可能陷入虚假相关性的问题。该方法将因果推断引入自然语言处理生成词向量的过程中,应用因果推断中干预与反事实的优势,实现了数据增强并减弱数据集本身带来的偏差。不仅能够减少人力标注数据的投入成本,而且能够有效模拟实际场景中文本的不规范性与创新性,提高模型对于社交噪音文本实体关系抽取的鲁棒性。与此同时,由于方法本身对于词向量进行处理,因此对于现有各类模型均有较好的适应性与应用可能性。