随着电子商务的快速发展,评论文本的情感倾向研究引起了广大学者的关注.为了充分利用短文本中的情感本体和语义信息,提出结合句法规则、情感本体和词向量的中文情感分类方法.首先利用Word2vec训练词向量,结合句法规则生成短文本向量;再根据情感特征分布,创建领域自适应情感词典,结合句法规则,得到短文本情感值,从而构建词向量和情感值相结合的情感模型VWEO(Vector with Emotional Ontology).在酒店评论数据集中,与已有方法相比,所提方法在准确率、召回率、F1值均有明显提升.
本文提出了有监督的关键词抽取算法——KEING(Keyphrase Extraction using sequentIal patterns with oNe-off and General gaps condition)算法.首先,将每篇文档作为一个序列库,利用SPING(Sequential Patterns mIning with oNe-off and...
详细信息
本文提出了有监督的关键词抽取算法——KEING(Keyphrase Extraction using sequentIal patterns with oNe-off and General gaps condition)算法.首先,将每篇文档作为一个序列库,利用SPING(Sequential Patterns mIning with oNe-off and General gaps condition)算法获取词语之间的关系及其多种变化形式,并利用统计模式特征的方式描述候选关键词;然后,通过朴素贝叶斯分类算法对大量带标记的训练数据进行训练,构造分类器;最后利用分类器从测试文档中识别出关键词.通过实验验证了SPING算法的完备性以及KEING算法的有效性.
在分类问题中,数据之间存在的大量冗余、不相关的特征不仅不能增加分类准确率,反而会降低分类算法执行的速度。特征选择通过最大化分类正确率和最小化特征数来解决这个问题,由于这是两个相互矛盾的目标,因此可以将特征选择问题视为一种多目标优化问题。为了提升特征选择的效率,提出了一种基于Knee Points的改进多目标人工蜂群算法的特征选择方法(artificial bee colony algorithm based on Knee Points,KnABC),设计了一种快速识别Knee Points的方法,并改进了引领蜂和引领蜂算子。与其他经典多目标算法在11个UCI测试数据集上的特征选择实验结果表明,提出的算法在减小分类特征数、增大分类结果准确率方面具有显著效果。
暂无评论