版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN201910142914.4
公 开 号:CN109902162B
发 明 人:陈超
专利类型:发明专利
申 请 日:20221129
公 开 日:20190226
专利主分类号:G06F16/332
关 键 词:文本数据信息 输入数据向量 特征数据向量 哈希函数 矩阵数据 文本 相似度 技术方案要点 卷积神经网络 文本相似度 文本预处理 存储介质 判断基准 数据信息 数字指纹 语意信息 预先设置 准确率 比对 判定 数据库 查找 检测 分析
摘 要:本发明公开了一种基于数字指纹的文本相似性的识别方法、存储介质及装置;解决了文本相似度检测的准确率较低的问题,其技术方案要点是,获取两个文本数据信息;对文本数据信息进行文本预处理并通过哈希函数以形成输入数据向量信息;从预先设置的数据库中,查找与所述文本数据信息相互对应的文本语意信息并通过哈希函数以形成特征数据向量信息;根据输入数据向量信息与特征数据向量信息相互的对应关系以形成矩阵数据信息;根据所预先训练好的卷积神经网络模型对矩阵数据信息进行处理分析以形成相似数据信息;判断基准文本数据信息以及比对文本数据信息之间的相似度,本发明能够更加准确的判定两个文本的相似度。