版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN202310686371.9
公 开 号:CN116701574A
发 明 人:洪丰
代 理 人:深圳市沃德知识产权代理事务所(普通合伙)郭梦霞
代理机构:深圳市沃德知识产权代理事务所(普通合伙)
专利类型:发明专利
申 请 日:20230905
公 开 日:20230609
专利主分类号:G06F16/33
关 键 词:文本 文本相似度 平面特征 文本结构 文本语义 相似度计算装置 支持向量回归 标准化处理 相似度计算 存储介质 电子设备 评分系统 文本分析 核函数 准确率 缩放 预设 优化 学习
摘 要:本发明涉及文本分析技术领域,揭露了一种文本语义相似度计算方法,包括:获取待比较文本对,分别提取待比较文本对中每个文本的文本结构特征;对每个文本结构特征进行特征缩放和特征标准化处理,得到每个文本的优化文本结构特征;获取待比较文本对中每个文本的文本平面特征,将每个文本的优化文本结构特征和对应的文本平面特征结合,得到每个文本的结构‑平面特征;利用核函数,在预设的支持向量回归模型中对每个文本的结构‑平面特征进行学习,得到待比较文本对的文本相似度,并通过评分系统对文本相似度进行评分,得到文本相似度得分。本发明还提出文本语义相似度计算装置、电子设备以及存储介质。本发明可以提高文本相似度计算的准确率。