Web2.0的主要精髓在于用户创造内容。社会标签系统因为具有进入门槛低、操作灵活、易用等优点而逐渐成为Web 2.0环境下最流行的应用。作为社会标签系统的主要产物,社会标签具有组织、分享、检索和发现信息资源等众多优点,但也同样存在诸如标签分布很稀疏、用户标注很随意、标签使用率很低以及存在许多噪音标签等缺点,这些缺点削弱了标签在信息组织、分享、检索和发现的作用。因此,近年来,社会标签推荐技术受到了学术界以及企业界的广泛关注。研究内容围绕社会标签推荐系统中的推荐技术展开,主要包括以下内容:
提出了一种基于词粒度和隐含话题粒度的标签推荐算法。资源的内容有不同粒度的表示形式,可以基于细粒度的具体的词来表示,也可以基于粗粒度的隐含话题进行表示。根据表示粒度的不同,提出了不同的标签推荐算法。在词粒度上,使用统计语言建模描述集、标签集;在隐含话题粒度上,使用隐含狄雷克雷特分配模型(Latent Dirichlet Allocaiton, LDA)建模描述集、标签集和用户集。实验结果表明,词粒度才是标签推荐的最佳选择;混合词粒度和话题粒度进行推荐的效果优于使用单个粒度推荐的效果;建模时,引入太多的建模元素可能导致噪音增加,使得推荐结果反而不好。
提出了一种基于话题敏感的标签排序算法。社会标签推荐问题的本质是按照某种规则发现和排序相关的标签,从排序结果的列表中选择位置靠前的标签作为推荐的标签。但是由于标签在某些话题上的资源数量占绝对优势,使得标签在另外一些话题的资源完全被淹没,这样就影响了资源检索和利用时的准确率和召回率。使用隐含话题模型提取标签空间中蕴含的话题,依据标签的同现关系和标签的话题分布构筑基于话题的标签超图,在超图上利用随机游走模型计算标签在话题分布上的重要性,并将计算结果应用在标签的推荐上。实验结果表明,基于标签的话题对资源进行推荐的效果比一般标签推荐算法要好很多。
提出了一种基于用户动机倾向性的推荐模型。为了提高用户对标签系统的可用性和粘性,加速社会标签的快速收敛和语义涌现,深入分析了社会标签空问,提出用5种度量指标来度量用户的动机,将用户分为描述倾向性的用户和分类倾向性的用户。在讨论了5种度量的有效性之后,提出基于用户动机倾向性的推荐模型(tag recommendation model based on User Motivation Orientation, UMO)。该模型首先根据用户标注历史,判定用户的动机倾向性,同时计算信息资源的动机倾向性,将用户动机倾向性和资源动机倾向性进行匹配,对匹配资源的标签进行聚合操作,然后计算聚合标签集合中的标签在资源内容上的相关性和标签重要性,选择top k个进行推荐。在两种不同性质的数据集上进行了实验,实验结果表明基于用户动机倾向性的社会标签推荐模型比其他基准方法具有更好的推荐性能。
暂无评论