大数据时代,互联网快速发展带动了电子商务、社交媒体的兴起,使得社交方式以及商务模式发生了巨大的改变。用户在使用网络作为媒介进行社会交往、商务贸易的同时也产生了大量的网络文本数据,其中包含了公众对于热点事件的态度、用户对于商品的满意程度等信息,对它们进行情感倾向分析,可以帮助商家快速获取用户需求,赢得核心竞争力,同时对舆情监控也有十分重要的意义。早期文本情感分析研究主要使用传统机器学习和情感词典技术,机器学习依赖于特征工程,需要耗费巨大的人工成本进行特征提取,情感词典的构建也是主要使用人工标注的方法,该技术十分依赖于构建词典的质量。深度学习技术使用多层神经网络作为特征提取器,不但避免了复杂的人工特征提取,而且模型的性能提升十分明显,目前已被广泛应用于文本情感分析领域。然而,深度神经网络模型易于受到对抗样本的攻击,对输入样本进行细微的扰动就能够影响模型的输出,模型的鲁棒性需要进行进一步增强。对抗训练是一种抵御对抗攻击的有效手段,在词嵌入层构造对抗样本输入到深度学习模型中,并在训练过程中不断优化参数从而提高模型的鲁棒性。另外,文本词表示方法主要包括离散表示和分布式表示。词的离散表示使用高度稀疏的向量对词进行表征,构造方法简单,词与词之间相互独立,忽略了词语之间的语义关联,容易造成维度灾难。词的分布式表示既包含了词的上下文语义关系,又解决了离散表示中的高维度和稀疏问题。但在情感分类任务中,使用分布式表示对词进行表征,上下文相近但是情感倾向相反的词生成的词向量也相似,为避免该种情况的发生,可以通过情感词典获取词的情感信息,然后将其融入到词的分布式表示中来更好的实现词表征。综合以上问题,本文将情感词典与深度学习技术相结合,使用分布式词表示和可解释性对抗训练构建文本情感分类模型。首先,提出了一种基于余弦相似度的加权情感词向量算法。采用word2vec模型构建词的语义分量,通过余弦相似度获取目标词的近似词,使用情感词典得到相近词的情感强度,对于与目标词情感倾向相反的相近词,用情感强度平均值代替其情感强度,得到的情感强度向量作为目标词的情感分量,将其与语义分量进行拼接得到情感词向量,使用目标词的情感强度对情感词向量进行加权得到目标词的加权情感词向量。其次,针对深度学习模型易受对抗攻击和过拟合问题,采用可解释性对抗训练的方法训练模型,在对抗样本的生成过程中限定扰动的方向,使得生成的对抗样本可以被还原成词库中具体的某个词,具备可解释性。通过在词嵌入层对原始样本添加对抗扰动生成可解释性对抗样本,扰动方向限定为原始样本到词库中其他词的方向,将原始样本和对抗样本同时作为下一个网络层的输入,在训练过程中通过梯度反向传播不断修正参数从而提高模型的鲁棒性。最后,为了更全面的提取出句子中隐含的数据特征,使用bilstm模型作为句子特征提取器,可以同时对句子进行前向和后向编码,将前后向编码向量进行拼接作为整个句子的特征表示向量,并输入到全连接层中然后计算得到情感类别。分别在Yelp和Amazon Fine Food Reviews两个公开数据集上进行了实验,发现与基准模型bilstm相比,本论文提出的文本情感分类模型在Yelp数据集上准确率提高了0.73%,在Amazon Fine Food Reviews数据集上准确率提高了 1.25%,验证了该模型的有效性。
暂无评论