咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >一种基于数据库去除网页噪音的有效方法 收藏

一种基于数据库去除网页噪音的有效方法

Noise elimination method in Web pages based on database

作     者:刘同来 蒋华 张万桢 Liu Tonglai;Jiang Hua;Zhang Wanzhen

作者机构:桂林电子科技大学计算机与控制学院广西桂林541004 

出 版 物:《桂林电子科技大学学报》 (Journal of Guilin University of Electronic Technology)

年 卷 期:2010年第30卷第1期

页      面:54-58页

学科分类:0839[工学-网络空间安全] 08[工学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:广西自然科学基金(0991071) 

主  题:数据库 网页噪音 类别空间模型 

摘      要:由于网页中大都包含有如广告、版权信息、导航链接等噪音,严重影响了网页数据的自动收集和挖掘。通过一种基于数据库去除网页噪音的有效方法,对网页噪音的处理不用将内容全部放入内存中,而是根据数据库中保存的table和div容器包含内容重复度进行消除噪音操作,一定程度上达到了净化网页的目的。将此方法应用于基于差异频度的类别空间模型的二值分类,结果表明本文提出的网页去噪方法是有效的,并且分类的正确率有了一定的改进。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分