咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >一种基于相似度的网页标题抽取方法 收藏
一种基于相似度的网页标题抽取方法

一种基于相似度的网页标题抽取方法

专利申请号:CN201610484597.0

公 开 号:CN105938498A

发 明 人:董雄飞 

专利类型:发明申请

申 请 日:20160914

公 开 日:20160629

专利主分类号:G06F17/30(20060101)

关 键 词:网页标题 相似度 抽取 标准网页 真实标题 正文信息 非标准 时长 取出 网页 引入 语言 

摘      要:本发明公开了一种基于相似度的网页标题抽取方法,利用网页标题与正文信息之间的关系,通过计算语言“单位之间的相似度和对应的权值,并引入HITS算法模型对权值进行调整,根据特定的选取方法抽取出真实标题,该方法不仅对“非标准网页的抽取达到满意的效果,而且对“标准网页具有较高的泛化能力,时长前景广阔。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分