[目的/意义]针对ctm模型与K-means算法在文本聚类中存在的不足,提出将二者融合的CKM算法。该算法利用ctm模型确定聚类数和初始聚类中心,利用K-means算法进行聚类。[方法/过程]以Web of Science为数据来源,建立涵盖6个主题的多学科文献集...
详细信息
[目的/意义]针对ctm模型与K-means算法在文本聚类中存在的不足,提出将二者融合的CKM算法。该算法利用ctm模型确定聚类数和初始聚类中心,利用K-means算法进行聚类。[方法/过程]以Web of Science为数据来源,建立涵盖6个主题的多学科文献集,以F值为评价指标,利用R语言中的k-means函数和topicmodels包,比较K-means算法、ctm模型、CKM算法的聚类效果。[结果 /结论]结果表明,与单纯使用K-means算法、ctm模型相比,CKM算法的聚类效果更优,稳定性更好。
暂无评论