随着各种社会服务的平台化、网络化,网络信息量不断堆积导致严峻的信息过载问题,而推荐系统成为有效应对信息过载的一种重要的解决方案。目前,基于评分数据的协同过滤算法被广泛研究和应用。这些算法仍然面临一些挑战,提出的算法需要解决的问题有:(1)特征挖掘问题,本身包含实际业务背景的特征可以采用统计方法来挖掘特征之间的关联,这类特征也往往能够产生实际商业关系或科学逻辑,但是大多数的特征交互隐藏在数据中难以被挖掘,特别是用户和商品的高阶抽象特征,随之而来,有效的将这些特征交互进行建模成为挑战。(2)数据稀疏性和冷启动问题,数据稀疏性指交互行为占比低,导致无法准确了解用户的兴趣和偏好;冷启动问题指在推荐系统初始阶段或面对新用户时,缺乏足够的个性化数据进行准确的推荐。(3)可解释性问题,特征挖掘可以帮助推荐系统更准确地理解项目内容和用户兴趣,但在创新技术的同时如何解释复杂的结果和理解背后原理成为难题。国内外的研究人员就这三类问题提出了解决方案,利用网站收集用户多数据源信息,包括数字、文本、图像、音频等异构数据,构建模型提取用户偏好和商品属性,结合深度学习技术进行用户数据挖掘,提高推荐的准确度和个性化。因此,研究认为结合异构数据融合的推荐算法具有重要意义和应用价值。针对上述问题,本文结合矩阵分解算法和Sentence-BERT模型,构建混合推荐模型,根据同一用户的商品历史文本评论记录以判断用户喜好以及同一商品收获的评论以判断其商品被关注点,利用非结构数据得到的文本特征向量和结构数据得到的特征向量进行融合预测评分,本文针对上述建模过程提出了基于异构数据的混合推荐评分预测模型MF-SBERT(Matrix Factorization on Sentence-BERT,MF-SBERT),改善传统推荐方法存在的弊端,提升推荐效果,对比DeepCoNN等算法在精确率上达到1.7%的提升,文本主题建模部分相较于传统LDA模型在语义一致性(Coherence Score)上有54.3%的提升。本文提出的MF-SBERT模型,首先将评论数据预处理,进行分组,保证每一条语句都能代表一个用户或者商品,将自然语言处理引入推荐系统中,针对每一条非结构化语句进行上下文语义的挖掘。具体做法是将用户和商品的文本评论输入到BERT模型的衍生模型Sentence-BERT中获得句嵌入,即用户和商品特征向量;使用设计的高阶交互融合结构,融合高阶交互特征,最后添加一层全连接层预测出用户对商品的推荐评分,验证精确率;文本主题建模则将简单加权融合特征经过主题建模得到可解释性结论,验证主题一致性。本研究使用公开数据集进行实验并与基准推荐算法进行对比,通过实验选择了使模型获得最佳模型结构和参数组合,采用均方误差(MSE)、平均绝对误差(MAE)、精确率(Precision)作为评估算法评分预测性能好坏的指标,使用主题一致性(Cumass)作为可解释性合理的评估指标。实验结果表明,本文提出的模型在预测效果优于各独立算法和模型,且本研究提出一种可行的解释性方案并检验。
暂无评论