版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN201610484597.0
公 开 号:CN105938498A
发 明 人:董雄飞
专利类型:发明申请
申 请 日:20160914
公 开 日:20160629
专利主分类号:G06F17/30(20060101)
关 键 词:网页标题 相似度 抽取 标准网页 真实标题 正文信息 非标准 时长 取出 网页 引入 语言
摘 要:本发明公开了一种基于相似度的网页标题抽取方法,利用网页标题与正文信息之间的关系,通过计算语言“单位之间的相似度和对应的权值,并引入HITS算法模型对权值进行调整,根据特定的选取方法抽取出真实标题,该方法不仅对“非标准网页的抽取达到满意的效果,而且对“标准网页具有较高的泛化能力,时长前景广阔。