标签噪声可能对监督学习模型的泛化能力产生较大影响。噪声过滤通过删减噪声样本来提升数据质量,是解决标签噪声问题的有效方法。然而,目前大多数标签噪声过滤算法会将一些潜在的有价值样本错误地标记为噪声,这种过度清洗会导致样本信息缺失。针对此问题,本文提出一种基于数据增强的联合标签清洗方法(Combined Label Cleaning Method based on Data Augmentation,CCDA),该方法通过多次在数据集上进行特征加噪增强、特征划分增强和组合增强,使用多次增强后预测结果的信息熵和一致性来评估样本的稳定性。将最不稳定的样本交由专家标注进行主动清洗修正标签值;将最稳定的样本利用模型预测的集成结果自动清洗。通过主动与自动方式联合实施针对性标签清洗,以较小的人工标记代价有效降低了标签噪声对模型性能的影响,提高了模型的泛化能力。实验结果表明,与所比较的方法相比,本文所提CCDA方法在不同噪声环境下都取得了更高的分类准确率,而且人工修正标记代价小。
针对现有网络嵌入方法忽略高阶结构,嵌入过程与社区发现任务独立进行,影响社区发现质量的问题,提出基于双视角网络嵌入聚类集成社区发现算法(community detection algorithm based on dual-view network embedded clustering integratio...
详细信息
针对现有网络嵌入方法忽略高阶结构,嵌入过程与社区发现任务独立进行,影响社区发现质量的问题,提出基于双视角网络嵌入聚类集成社区发现算法(community detection algorithm based on dual-view network embedded clustering integration,DNECI),算法包括双视角网络嵌入和聚类集成两部分。双视角网络嵌入模块对网络属性信息与拓扑信息实现自适应融合,保留网络属性信息与拓扑的高阶结构。聚类集成模块包括模块度优化和聚类优化两个组件,模块度优化组件利用高阶拓扑结构得到具有最优模块度的社区结果;聚类优化组件通过自监督聚类方法在嵌入空间得到聚类结果;引入互监督机制使两种视角的社区发现结果具有一致性。在4个真实数据集与15个算法进行对比试验,结果表明,DNECI在准确率和标准互信息至少比最先进的基准算法平均提高2.5%和1.4%,在调整兰德系数和F1分数至少平均提高3.7%和1.7%,具有较好的社区发现效果。
暂无评论