随着信息技术的迅猛发展,用户需求的不断升级,基于Internet技术的应用以惊人的速度渗透到社会生活的方方面面,Web站点俨然已成为一个巨大的信息集散地。如何快速、高效、准确地从信息海洋中定位用户需求的信息资源是我们亟待解决的问题。基于Web自身的特性,人们将数据挖掘技术应用于Web站点的分析中,形成了Web挖掘技术。作为Web挖掘的一个重要分支,Web日志挖掘旨在对服务器日志数据进行分析,捕获用户的浏览行为和兴趣爱好等信息,从而指导Web站点的重构及优化。本文系统地概述了Web挖掘的相关概念,并从数据采集、数据预处理、模式发现和模式分析四个阶段论述了Web日志挖掘的流程,重点研究了序列模式挖掘方法及其在Web用户访问模式挖掘方面的应用。主要研究内容包括:(1)提出了改进的可变支持度序列模式挖掘算法(Variable Support Sequential Pattern Mining,VSSPM)。本文简要论述了现有的序列模式挖掘算法,针对其在最小支持度阈值设定方面存在的缺陷,提出了VSSPM算法。该算法采用矩阵存储结构,减少了数据库的扫描次数,引入支持度衰减系数,对不同层级的频繁序列设定变化的支持度。最后使用IBM数据生成器产生测试数据集验证算法的性能。实验分析表明,VSSPM算法能够有效地解决因阈值设置不合理带来的“组合爆炸’和“稀有项目”问题。(2)提出了基于浏览兴趣的Web用户访问模式挖掘算法(Interested Web User Access Pattern Mining,IWUAPM)。该算法针对Web服务器日志数据所呈现的稀疏特性,对VSSPM算法进行改进。首先,IWUAPM算法综合页面访问时间、访问频次、页面大小和入度(站点中指向某网页的超链接数目)等因素构建用户浏览兴趣模型。然后定义SD (Support Difference)和LS (Least Support),并运用多最小项目支持度和加权的思想,将用户浏览兴趣作为权值引入到用户访问模式挖掘中。最后,使用预处理后的重庆市农业农村信息网的服务器日志数据进行仿真实验。测试结果表明,IWUAPM算法能够获取用户感兴趣的访问模式,从而指导网站管理者改进站点设计,改善对用户服务的质量。
暂无评论