版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN202410016399.6
公 开 号:CN117807221A
代 理 人:马斌
代理机构:云南盛恒知识产权代理有限公司
专利类型:发明专利
申 请 日:20240402
公 开 日:20240105
专利主分类号:G06F16/34
关 键 词:关键信息 标签 新闻文本 嵌入 对齐 抽取 解码器 上下文向量 上下文信息 解码 传统标记 内容提供 数据利用 文本特征 向量表示 训练模型 原始文档 专家网络 嵌入的 准确率 映射 捕获 句子 匹配 文本 主旨 筛选 参考 输出 拓展 应用
摘 要:本发明公开提出一种标签对齐的关键信息引导生成文本摘要方法,为充分获取新闻文本中的主旨内容提供了一种新的思路。包含如下步骤:第一,对原始新闻文本数据利用抽取摘要模型从中抽取一组句子作为关键信息,然后与原始文档匹配生成标签,进而映射到参考摘要进行标签对齐;第二,为了捕获更准确的上下文信息,使用BERT预训练模型提取文本特征得到上下文向量表示,并在其上应用关键信息标签嵌入生成最终的向量表示;第三,拓展了一个transformer解码器,在传统标记嵌入和位置嵌入的基础上加入关键信息标签嵌入,并在解码生成输出时使用专家网络进一步筛选信息,以提高新闻文本关键信息的召回率和摘要的准确率。