版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:桂林电子科技大学计算机与控制学院广西桂林541004
出 版 物:《桂林电子科技大学学报》 (Journal of Guilin University of Electronic Technology)
年 卷 期:2010年第30卷第1期
页 面:54-58页
学科分类:0839[工学-网络空间安全] 08[工学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:由于网页中大都包含有如广告、版权信息、导航链接等噪音,严重影响了网页数据的自动收集和挖掘。通过一种基于数据库去除网页噪音的有效方法,对网页噪音的处理不用将内容全部放入内存中,而是根据数据库中保存的table和div容器包含内容重复度进行消除噪音操作,一定程度上达到了净化网页的目的。将此方法应用于基于差异频度的类别空间模型的二值分类,结果表明本文提出的网页去噪方法是有效的,并且分类的正确率有了一定的改进。