随着电商网络经济的兴起,更多的人选择在线上预订酒店出行,电商旅游平台使得旅行者可以通过评论更加自由地选择价格和服务合意的酒店,同时也给人们提供了一条更加方便快捷反馈酒店服务的途径。例如,携程酒店评论之中包含了海量用户或积极或建议或消极的情感观点,酒店可以依据这些评论改善自身的服务,平台可以据此调整对不同评价酒店的资源倾斜,消费者可以就评论选择自己需要的酒店。因此,在如今大数据的背景之下,如何高效地利用这些评论数据就显得尤为重要,其中文本情感分析作为NLP(Nature Language Processs,自然语言处理)的一个经典问题一直受到相关领域从业人员的广泛关注。现有的研究已经取得了一定的成果,但是鲜有文献对旅游平台酒店评论这一细分领域进行深入地研究,对文本特征很难做到准确提取,同时在一些算法上也有所欠缺。因携程在电商旅游平台行业中处于龙头地位,它的使用者和合作的酒店数量也最多,本文认为携程酒店评论具有代表性并以其为例进行深度学习的文本分析实践。携程酒店评论情感分析是典型的多分类问题,将评论态度分为正面评价、负面评价和建议评价三类。首先,本文爬取了北京、上海、成都、连云港、南通、乌鲁木齐、包头、保定等20所城市随机选取的40家酒店共计一万五千条评论;随后,为了获得更好的分类预测效果,文章对爬取的评论进行人工筛选和人工情感标注;之后,本文在构建词向量过程中从词频筛选、狭义情感词筛选、广义情感词筛选和TF-IDF四个方向确定了四个特征集,并且将构建的特征集结合Onehot-DNN模型进行文本特征选择以开展后续的模型对比工作,这一步骤保证选中的词典在包含关键信息的同时也有效去除了干扰信息;再后,以准确率为主要指标进行Onehot-DNN、Word2vec-CNN、Wordec-LSTM和Word2vec-GRU模型在携程酒店评论情感分析问题上效果的比较;最后,使用多模型加权Bagging方法进行集成学习,通过相对多数胜出的投票方法将弱分类器组合成为强分类器,并从预测准确率和运行消耗资源两个方向探究在不同场景下最适合的模型结构。实验结果显示,词嵌入向量因在训练时包含词序信息,在数据量不大的情况下分类效果明显好于独热向量;因循环神经网络更加突出地表现出语序信息,其分类效果明显好于卷积神经网络;在模型和权重合适的情况下,多模型加权Bagging方法对于预测准确率的提升有着显著的效果,是研究电商旅游平台酒店评论情感分析问题的一条可行思路。
暂无评论