web使用挖掘是通过挖掘web日志记录以发现用户访问web页面的模式、预测用户浏览行为,从而更好地理解和服务基于web的应用。web使用挖掘的结果通常是用户群体的共同行为和共性兴趣,以及个人用户的检索偏好、习惯和模式等,因而对提供个性化服务与定制、改进web系统性能和结构、改善web站点结构、为商业组织提供商业智能和向用户推荐页面等方面都有重要的理论和实际意义。
web内容的复杂性、多样性和非结构性,web组织结构的动态性和多变性,web使用数据的不精确性等,均给web使用挖掘带来很多困难,使得不能够把传统的数据挖掘技术简单地应用于web数据,同时也为web挖掘理论和技术的深入研究提供了更多的挑战和机遇。
数据预处理的结果作为数据挖掘的数据源,其质量直接影响数据挖掘的结果。web使用挖掘的数据可能来源于服务器端、客户端、代理服务器端、站点文件及注册信息或远程代理,并且每一种类型的数据收集不仅在数据源位置方面不同,而且在可用数据的种类、被收集的数据段和它的实现方面都不相同。
在进行挖掘之前,需要对收集到的原始数据进行预处理,其过程由数据清洗、用户识别、会话识别和路径补充构成。数据清洗的任务是为挖掘过程去除掉不相关和冗余的日志登录项。用户识别是把页面引用同不同的用户关联起来的过程。会话识别的目标是将每个用户所访问的页面划分到一个个独立的会话中。借助于一些启发式的规则是对数据进行预处理的有效方法。
web会话是由访问站点的web页面访问序列构成的。因此,web页面访问的相似性是web会话相似性的基础。为了吸引用户,网站管理人员在设计网站结构时总是把具有相似内容的web页面放在尽可能接近的位置,因而从web页面的URL结构可以观察其静态相似性。同时,用户对某页面的查看时间不同可能意味着该用户对该页面的兴趣度不同,据此可以计算基于查看时间的web页面访问动态相似性。web页面相似性由基于URL结构的静态相似性和基于用户查看时间的动态相似性共同决定。
由web页面访问序列构成的web会话非常类似于由氨基酸序列构成的DNA。在分析生物特性时,需要找出DNA或蛋白质之间的相似性。在web使用挖掘过程中,则需要找出不同的web会话之间的相似性以帮助更好地了解和分析用户的浏览行为。因此,可以将生物信息学中经典的DNA或蛋白质序列比对算法加以改造应用于web会话相似性度量。
簇的个数、各簇初始点和划分数据点的规则函数的确定是web会话聚类算法需要考虑的3个重点和难点。基于相似性增长的web会话聚类算法WSCBSI(web Session Clustering Based on the Increase of Similarity)根据领域知识的分析确定应当划分的簇的数目,利用聚类结果质量高但对大数据量来说时空复杂度较大的ROCK聚类算法确定各簇的初始点,根据web会话划分到不同簇中对全局相似性增长的贡献确定规则函数,这既克服了传统聚类算法只考虑局部相似性带来聚类结果质量不佳的缺点,也降低了聚类过程的时空复杂度。
暂无评论