版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN201410212388.1
公 开 号:CN103942347A
发 明 人:李仁勇
代 理 人:张苏沛
代理机构:32207 南京知识律师事务所
专利类型:发明专利
申 请 日:20140723
公 开 日:20140519
专利主分类号:G06F17/30(20060101)
关 键 词:词库 多维 关键词识别 原始关键词 分词方法 同义词 英文关键词 单数形式 匹配分词 条件选择 用量统计 语义识别 综合运用 数据源 分词 复数 约束 升级 完善
摘 要:本发明一种基于多维度综合词库的构建方法,选择数据源,并进行使用量统计;根据约束条件选择关键词;为关键词创建多维的维护字段;根据共现关系,获得原始关键词的同义词、以及英文关键词复数的单数形式,完善词库内容;制定中心关键词识别规则,找出原始关键词中包含的中心关键词。本发明同时公开了一种基于多维度综合词库的搜索分词方法和中心关键词识别方法。在本发明通过构建一个具有多重维度的综合词库,在词库中采用语义识别技术,识别商品的中心关键词,从而使得匹配有较好的基础。本发明综合运用字符串匹配分词方法以及基于统计、词库的分词方法,结合自动和人工的方式同时参与词库的维护升级,提高分词准确性。