咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于主题的网页噪音去除机制 收藏

基于主题的网页噪音去除机制

Web pages noise removal based on focused topics

作     者:万乐 左万利 高金 WAN Le;ZUO Wan-li;GAO Jin

作者机构:吉林大学计算机科学与技术学院教育部符号计算与知识工程重点实验室吉林长春130012 

出 版 物:《计算机工程与设计》 (Computer Engineering and Design)

年 卷 期:2008年第29卷第8期

页      面:2072-2074,2084页

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金项目(60373099) 教育部"符号计算与知识工程"重点实验室基金项目(93K-17) 

主  题:Web网页 噪音去除 信息提取 预处理 

摘      要:由于主题的缺失,传统的网页噪音去除算法均是通过一些启发式的规则判断哪些是有用信息,哪些是噪音信息。而在主题爬行的环境下,由于有了明确的主题,可以使用一些不同的方法来发现网页噪音。提出了一种基于主题的网页噪音去除算法,通过构造网页DOM树的一个变种,即内容块树,利用分类器判断网页的噪音块。实验结果表明,该方法噪音去除精度是87%,而以前的方法仅有42%。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分