在自然语言处理领域(Natural language processing,NLP)的方面级情感分析(Aspect based sentiment analysis,ABSA)子任务-方面类别检测中,处理文本数据中的方面级别类别不平衡一直是具有挑战性的研究课题。由于目前建立的检测模型往往...
详细信息
在自然语言处理领域(Natural language processing,NLP)的方面级情感分析(Aspect based sentiment analysis,ABSA)子任务-方面类别检测中,处理文本数据中的方面级别类别不平衡一直是具有挑战性的研究课题。由于目前建立的检测模型往往更侧重于多数类的特征,此现象可能会导致难以识别少数类别,并忽略文本数据中包含的更丰富的情感或类别信息。因此,在评论文本方面类别检测任务中,针对少数类别的甄别问题通常是更为重要的任务。传统的不平衡分类算法在数据类别倾斜程度过大时模型可能失效,使其难以应用于现实生活中的不平衡文本类别检测场景。因此,本文基于数据类别非均衡的视角,提出Select-SMOTE算法(Select-Synthetic minority oversampling technique)与混合增强算法的双重策略以解决文本数据集中的方面类别数据倾斜问题。本文具体工作内容如下:(1)基于数据重采样技术,本文提出了Select-SMOTE算法的Light GBM(Light gradient boosting machine)非均衡方面类别检测模型。其中,Select-SMOTE的算法用于解决传统SMOTE算法样本生成过于随机且可能产生噪声的问题。该算法对方面类别样本进行划分,并在进行少数类样本插值生成时,规定两个样本点不同时为边界样本时才允许进行插值。此外,算法采用类间边界样本剔除的方法,以保证多数类和少数类之间的边界更加清晰。最后,输出处理后的均衡数据集,将其输入经过权重调整、超参数优化等微调操作的Light GBM模型,以执行在线评论方面类别检测任务。实验结果表明,本文提出的算法优于基线非均衡方面类别检测算法,并在多数据集上展现出良好的泛化能力。(2)基于文本生成技术,本文提出了混合增强的Bert(Bidirectional encoder representations from transformers)非均衡方面类别检测模型。该模型通过构建均衡公式进而确认数据集的失衡程度,并根据生成倍率采用XLNet(Extra-long network)文本生成和噪声扰动相结合的方式生成类别均衡数据集。随后,将生成的数据集输入Bert预训练模型,并进行参数调整,以进行提高方面类别检测模型的性能。实验结果表明,所提出的模型在准确性方面相对于其他深度学习方面类别检测模型具有显著优势,同时通过文本生成混合增强策略,能够有效解决数据集不平衡分类问题。(3)基于本文提出的Select-SMOTE、文本混合增强的非均衡学习技术,设计并实现了一个面向非均衡文本数据集的方面类别检测系统。该系统具有多项关键功能,可有效提升方面类别检测性能及实用性。首先,该系统能够让用户直观地了解输入文本数据集的方面类别不平衡程度。其次,针对数据不平衡问题,该系统可以自动对文本数据集进行方面类别平衡操作,并显示平衡后的数据类别程度图供用户查看。最后,系统将数据均衡操作与文本方面类别检测功能进行了整合,使得系统易于操作、用户友好。
暂无评论