版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN202310218068.6
公 开 号:CN116306634A
代 理 人:吴轶淳
代理机构:上海申新律师事务所
专利类型:发明专利
申 请 日:20230623
公 开 日:20230308
专利主分类号:G06F40/289
关 键 词:编目 语言模型 语义特征 向量 短语 预处理 分类模型训练 语言模型训练 标签分类 分类模型 样本集 构建 预测 自然语言处理技术 标签预处理 类别数据 输入分类 输入语言 新闻语料 训练分类 输出 语义 语料库 词语 分析
摘 要:本发明提供一种基于语言模型的广电编目标签分类方法,涉及自然语言处理技术领域,包括:于语料库中获取多条新闻语料并预处理后生成语言模型训练集,随后构建语言模型并利用语言模型训练集训练语言模型,得到以短语为输入以语义特征向量为输出的语言模型;于广电编目类别数据集中获取多条编目词语并预处理后生成分类模型训练样本集,随后构建分类模型并利用分类模型训练样本集训练分类模型,得到以语义特征向量为输入以编目类别为输出的分类模型;将待预测标签预处理后经过语义依存分析得到待预测短语,将待预测短语输入语言模型得到对应的语义特征向量,随后将语义特征向量输入分类模型得到对应的编目类别。有益效果是对编目标签分类快速准确。