近年来,以微博为代表的社交媒体在情感分析中备受关注。然而,绝大多数现有的主题情感模型并没有充分考虑到用户性格特征,导致情感分析结果难尽人意。故该文在现有的JST模型基础上进行改进,提出一种基于时间的性格建模方法,将用户性格特征纳入主题情感模型中;鉴于微博数据包含大量的表情符号之类的特有信息,为了充分利用表情符号来提升微博情感识别性能,该文将情感符号融入JST模型中,进而提出了一种改进的主题情感联合模型UC-JST(Joint Sentiment/Topic Model Based on User Character)。通过在真实的新浪微博数据集上进行实验,结果表明UC-JST情感分类效果优于JST、TUS-LDA、JUST、TSMMF四种典型的无监督情感分类方法。
近年来,主题情感联合模型成为了无监督学习领域的一项重要研究内容,在文本主题挖掘和情感分析等方面均有实际应用。然而,在现实场景中,微博因其文字短小、结构不完整等特征,给主题情感联合模型带来了一定的挑战。因此,围绕微博主题情感模型展开相关的研究与改进工作,目前较为流行的主题情感模型——TSMMF模型(Topic Sentiment Model Based on Multi-feature Fusion)中引入了词向量技术,运用多元高斯分布从词向量空间中快速采样邻近词语,并替换掉原Dirichlet多项式分布产生的单词,从而将共现频率低、信息量少的单词转变成突出主题、信息明确的单词,同时使用最近邻搜索算法来进一步提升模型处理大型微博语料库的运行速度,进而提出了GWE-TSMMF模型。对比实验结果表明,GWE-TSMMF模型的平均F1值约为0.718,相比原模型和现有的主流词嵌入主题情感模型(WS-TSWE模型和HST-SCW模型),其微博情感极性的分析效果均有显著提升。
近年来,主题情感联合模型成为了无监督学习领域的一项重要研究内容,在文本主题挖掘和情感分析等方面均有实际应用。然而在现实场景中,微博本身存在文字短小,结构不完整等特征,当处理小型微博数据集时,主题情感模型的情感极性分类效果不佳。因此,本课题围绕微博主题情感模型展开研究与改进,提出基于词嵌入主题情感模型的微博情感极性分析方法,主要研究成果如下:首先,针对基于多特征融合的微博主题情感挖掘模型——TSMMF(Topic Sentiment Model based on Multi-feature Fusion)面对小型微博语料库时,仅通过单词共现来推断出各项分布,不能挖掘低频词语的语义关系,而无法达到预期的情感分类效果的问题,提出了TSMMF模型与词向量技术相结合的方法。通过使用情感-主题-词语Dirichlet多项式分布和词向量空间的混合组件来代替原Dirichlet多项式分布重新生成词语,进而提出了WE-TSMMF模型(Topic Sentiment Model based on Multi-feature Fusion with Word Embedding)。通过实验获取了WE-TSMMF模型中参数的最优值,并验证了该模型在小型微博语料库上的可行性及有效性。然后,针对词向量技术与TSMMF模型结合时,面对大型微博语料库会出现运行速度缓慢的问题,提出基于高斯分布的改进词嵌入主题情感模型。通过多元高斯分布从词向量空间中快速采样邻近词语,并替换掉由Dirichlet多项式分布生成的词语,从而将共现频率低、信息量少的单词转变成突出主题、信息明确的单词,同时使用最近邻搜索算法来提升词向量空间中邻近词的搜索速率,进而提出了GWE-TSMMF模型(Topic Sentiment Model based on Multi-feature Fusion with Gaussian Word Embedding)。通过实验获取了GWE-TSMMF模型中参数的最优值,并验证了该模型在大型微博语料库上的可行性及有效性。最后,为了进一步验证WE-TSMMF模型和GWE-TSMMF模型的有效性和适用性,通过在自然语言处理与信息检索共享平台搜集公开微博语料库以扩充实验数据集,并在该数据集上进行综合实验以充分评估本文所提的模型。实验结果表明,WE-TSMMF模型和GWE-TSMMF模型相较于原模型在主题质量、情感分类效果上均有明显提升。其次,通过与当前主流词嵌入主题情感模型的对比实验,进一步验证了本文提出的模型具有更优的微博情感极性分析性能。
暂无评论