版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:四川大学计算机学院四川成都610065
出 版 物:《四川大学学报(工程科学版)》 (Journal of Sichuan University (Engineering Science Edition))
年 卷 期:2014年第46卷第S1期
页 面:160-165页
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]
摘 要:针对传统的Web使用挖掘数据清理方法不再适用于现有网络环境的现状,提出了一种Web使用挖掘数据清理方法。该方法提出以网络流量作为Web使用挖掘的数据来源,将数据清理的问题转变为对用户显式操作产生的HTTP会话的识别问题,使用二进制粒子群算法(BPSO)选出最能精确识别用户显式HTTP会话的特征子集,利用选择出的特征子集生成决策树对用户显式HTTP会话进行识别。实验结果表明:该方法能够准确、有效地识别出用户显式HTTP会话,对日志记录数的压缩率达到98.7%,能够完成数据清理的任务,为之后的数据挖掘提供有力的支持。