中文情感分析是自然语言处理,文本挖掘任务中的一项挑战性任务,由于中文复杂的语法结构,难以设计普适性的模型和特征去处理所有情感分析任务。此外,由于中文情感分析的研究工作相对国外较晚,因此缺少完备的,高质量的实验语料。论文旨在构建有效学习多特征融合的混合神经网络模型,提高其在情感分析任务上的泛化能力,针对目前标注完善的中文数据集规模受限,深度神经网络模型易出现过拟合的问题进行探究。本文基于文本数据增强方案和混合神经网络模型对情感分析问题进行了研究。论文的主要工作如下:构建了一种面向文本的多粒度数据增强机制,从中文主观性评价文本的特点出发,本文探究了多粒度(词语级,短语级,句子级)的文本数据增强方案,并与当下热门的生成对抗网络等生成模型进行对比。实验表明本文所提出的数据增强方案能够基于原始数据集,有效的生成更大规模的文本数据供情感分析模型学习其分布式表达(DistributedRepresentation)。为探究深度神经网络模型在本文所述的数据增强方案下的效果,本文对比了卷积神经网络(Convolutional Neural Network,CNN),长短期记忆机(Long Short Term Memory,LSTM),并在此基础上构建基于CNN和LSTM的特征融合模型,该模型结合了卷积神经网络模型的局部特征抽取能力和LSTM模型在序列数据特征处理上的优势,将二者的隐含层特征进行全连接融合作为混合模型的高层特征。以实际任务的表现作为评价指标,验证了该模型的有效性。本文使用公开的酒店评价语料作为实验和研究的数据集,基于所提出的文本数据增强方案和特征层融合的混合神经网络模型进行情感分析任务的探究,实验表明本文所提出的方案和模型相对原始数据集上的基线方法和模型均有一定提升。同时,本文所提出的方法在跨数据集预测的任务上取得较好的表现,验证了数据增强方案对深度神经网络模型的泛化性能的增益效果。
暂无评论