近年来,随着网络信息技术的蓬勃发展,不断增多的冗余数据信息充斥于互联网,这导致人们越来越难发现自己想要的信息,信息过载问题产生。信息过载问题催生了众多行业和领域对个性化信息服务的需求,即如何能够快速有效地找到有用的信息与服务。为解决这一问题,不断满足企业和个人准确获取信息的需求,推荐系统应运而生。推荐算法作为推荐系统的核心实现方法,是推荐系统的核心实现过程。协同过滤推荐算法作为一种简单、直接的主要通过用户历史打分对未知打分项进行预测评估的方法,是推荐算法的一大分支,其中基于内存的协同过滤推荐算法主要包括用户(项目)相似度比较和预测打分两个过程。聚类作为一种无监督的机器学习方法,可以运用到邻居比较过程中,为推荐算法中的用户(项目)更快地提供更相近的邻居,在不失准确度的前提下提高算法运行效率。本文首先对 Clustering by Fast Search and Find of Density Peaks with Data Field(CFSFDP-DF)聚类方法进行了改进,使得原方法能够自动确定聚类中心数量和位置;其次,根据用户特征利用改进的算法Improved Clustering by Fast Search and Find of Density Peaks with Data Field(IMP-CFSFDP-DF)对用户进行预先聚类,并通过组合多种相似度比较和评估打分方法探索了九种组合模式对协同过滤推荐准确度的影响。具体如下:第一,利用多级高阶差分在数据处理上的特性,较为成功地改进了CFSFDP-DF算法,使得该聚类过程能够无人工干预地全自动进行。实验发现,IMP-CFSFDP-DF算法能够自动准确地确定聚类中心个数和位置,从而改进了原算法中需要人工干预选定聚类中心的不足,最终完成了聚类过程的全自动实现。第二,将 MP-CFSFDP-DF 算法同 CFSFDP-DF 算法、K-means 算法进行比较。实验发现,IMP-CFSFDP-DF算法在处理二维空间数据集时,能够更加有效地自动处理不同类型、具有不同特征的数据集,较好地发现线性、条状、球形、迥异密度等特征区域。第三,构建了基于IMP-CFSFDP-DF聚类的协同过滤方案。本文尝试使用IMP-CFSFDP-DF聚类算法对用户的三维特征信息进行预聚类处理,并使用K-means算法作对比;与此同时,IMP-CFSFDP-DF算法的应用也就扩展到处理三维数据集。第四,通过实验验证了基于IMP-CFSFDP-DF聚类的协同过滤方案的有效性。从邻居比较和预测评分两个过程各选取三种方法构成九种组合模式,将其结合两类聚类算法进行协同过滤推荐实验。结果显示,选用复杂的组合计算模型在某些数据集中不一定比其他方式更加有效,而简单+复杂模式(R1+AjCos,R3+Cos)的方案可能会得到更低的MAE值和RMSE值,即这种方案可以使得协同过滤推荐算法更加准确。另外,结合IMP-CFSFDP-DF用户聚类的协同过滤推荐算法在大多数情况下比结合K-means用户聚类的协同过滤推荐在准确度和时间效率上表现得更加优异。最后,实验显示,在大多数组合中,基于聚类的协同过滤推荐能够使用较少的邻居比较获得更低的MAE值和RMSE值,即其更适用于邻居比较数量要求较少的推荐系统。
目前,协同过滤推荐技术已在广告、电影、音乐等领域得到广泛应用。然而,在不同的应用背景下,传统的协同过滤推荐算法在兴趣偏好模型、相似性度量方法、邻居选择规则等方面仍存在亟待进一步解决的问题。因此,本文面向广告推荐、电影推荐两个应用场景,引入标签技术和可信邻域思想,侧重研究了面向用户的协同过滤推荐算法。本文主要进行了以下研究工作:1、研究提出了一种带标签的协同过滤广告推荐算法ADR-CFT(Advertising recommendation algorithm based on collaborative filtering with tag)。该算法在面向用户的协同过滤的广告推荐算法的基础上,引入标签推荐技术,通过建立Q-K-A(Query-Keywords-AD)搜索广告兴趣模型,采用Query页加权综合相似度度量方法,对搜索广告的兴趣偏好进行完整描述,也保证了邻域计算的准确性。KDD CUP 2012中track2数据集上的参数调节、可扩展性验证、推荐质量对比等实验结果表明,ADR-CFT算法是有效可行的,在准确率、召回率、F度量值方面得到了有效改善。2、研究提出了一种基于可信邻域的协同过滤电影推荐算法FCFRA-TN(Film Collaborative Filtering Recommendation Algorithm Based on Trust Neighbor)。该算法通过增强相似度、动态邻域选择方法、信任度计算模型来优化传统面向用户的协同过滤电影推荐算法,既对用户间的相似性正确地定义,也充分地过滤邻居用户集合。MovieLens数据集上的实验表明,FCFRA-TN算法在邻居选择策略和信任计算方面提出的优化是有效的,与其他相关推荐算法相比,具有更低的MAE值且推荐质量得到了显著提高。本文研究贡献:从兴趣偏好模型、相似度度量方法、相似度描述、邻居选择策略、可信度计算等方面对传统面向用户的协同过滤推荐算法进行优化,并应用于广告推荐和电影推荐场景。实验结果表明,优化所提出算法是有效可行的。
暂无评论