版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:河北科技大学经济管理学院河北石家庄050018 河北科技大学大数据与社会计算研究中心河北石家庄050018 河北政法职业学院图书馆河北石家庄050061 电子科技大学格拉斯哥学院四川成都610000 南京警察学院信息技术学院江苏南京210000 中国人民解放军空军预警学院湖北武汉430019
出 版 物:《河北科技大学学报》 (Journal of Hebei University of Science and Technology)
年 卷 期:2023年第44卷第5期
页 面:493-501页
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 08[工学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家文化和旅游科技创新工程项目(2020年度) 河北省省级科技计划资助项目(20310802D,21310101D)
主 题:自然语言处理 主题识别 评论文本 Sentence-BERT LDA
摘 要:融合Sentence-BERT和LDA的评论文本主题识别(SBERT-LDA)方法,将LDA的主题数作为K-means算法中的k值,导致算法可解释性较差、主题一致性较低。为了解决上述问题,提出基于密度Canopy的SBERT-LDA优化方法(SBERT-LDA-DC),利用密度Canopy改进Kmeans算法。实验结果表明,提出的方法在一致性指标上要优于使用K-means以及K-means++对特征向量聚类的同类方法;与SBERT-LDA方法相比,在1852条戏剧评论数据集上,一致性指标值提高了22.9%。因此,所提出的SBERT-LDA-DC方法是有效的,对产品或服务提供者更好地了解用户意见、完善自身产品或提升服务水平提供了新方法,具有较强的实际应用价值。