标签噪声可能对监督学习模型的泛化能力产生较大影响。噪声过滤通过删减噪声样本来提升数据质量,是解决标签噪声问题的有效方法。然而,目前大多数标签噪声过滤算法会将一些潜在的有价值样本错误地标记为噪声,这种过度清洗会导致样本信息缺失。针对此问题,本文提出一种基于数据增强的联合标签清洗方法(Combined Label Cleaning Method based on Data Augmentation,CCDA),该方法通过多次在数据集上进行特征加噪增强、特征划分增强和组合增强,使用多次增强后预测结果的信息熵和一致性来评估样本的稳定性。将最不稳定的样本交由专家标注进行主动清洗修正标签值;将最稳定的样本利用模型预测的集成结果自动清洗。通过主动与自动方式联合实施针对性标签清洗,以较小的人工标记代价有效降低了标签噪声对模型性能的影响,提高了模型的泛化能力。实验结果表明,与所比较的方法相比,本文所提CCDA方法在不同噪声环境下都取得了更高的分类准确率,而且人工修正标记代价小。
暂无评论