随着5G乃至6G技术的出现,推动了智能设备的普及,进而在网络边缘产生了大量的数据,使用这些数据进行分布式训练逐渐成为深度学习领域的主流。然而,这些数据大多数都为无标签数据,且其中少量的标签数据也呈现出数据非平衡的分布,使用这些数据训练将会导致模型分类发生偏差。如何在保证用户隐私的前提下,充分利用这些数据,已成为分布式训练深度学习模型的一大挑战。针对这一挑战,学术界提出了联邦半监督学习这一方法,它结合了联邦学习和半监督学习的思想来提高模型的分类准确度和泛化能力。但目前在解决数据非平衡的研究中,大部分都在联邦学习或者半监督学习这种单一角度去考虑如何解决数据非平衡问题,缺少了结合这两种方法在数据非平衡环境下进行分布式训练深度学习模型的具体研究。针对上述问题,首先,本文提出了面向极端类不平衡的联邦半监督学习(Federated Semi-supervised Learning for Extremely Class Imbalanced,FECI),该方法通过利用无标签数据进行数据扩充,缓解部分设备由于无法采集到某些类别数据导致的极端不平衡问题,从而提升联邦学习模型训练的分类准确度。在FECI中,通过使用基于自训练的本地类再平衡方法来实现节点上的类别再平衡,以及通过基于Kullback-Leibler散度的全局模型更新选择方法在全局范围内缓解数据的极端类不平衡问题。其次,本文提出了面向类可变不平衡的联邦半监督学习方法(Federated Semisupervised Learning for Class Variable Imbalance,FCVI),可以进一步解决类别数目变化引起的类可变不平衡问题。FCVI使用联邦梯度监测方法来监测模型训练参数,并推导出每个类别的变化情况。然后,FCVI使用类别可变缓解算法,从本地和全局两个角度来缓解类别数目变化带来的影响,以提高模型的分类准确度。与其他方法相比,FCVI不需要额外的数据信息,而且可以快速、准确地减小类可变不平衡对于分布式训练的负面影响。最后,本文在由异构设备组成的真实边缘智能环境中设计并实现了面向类不平衡场景的联邦半监督学习框架(Federated Semi-supervised Learning Framework for Class Imbalance Scenarios,FFCIS),主要用于支撑类不平衡场景下联邦半监督学习的高效学习。并通过测试,验证了FFCIS在各种真实类不平衡场景下可以显著缓解类不平衡对模型训练的负面影响。
在能源危机以及环境保护的双重压力下,大力发展可再生能源成为可持续性发展的趋势。风力发电在新能源中占有重要地位,近年来得以快速发展。风电机组长期工作在风沙,暴雪等恶劣环境下,其各部件易受复杂环境的影响而老化、磨损,这将直接影响风电机组的发电效率,造成巨大的经济损失。因此,对风电机组进行及时准确的状态监测和故障诊断对于提高风电场运行效率和降低运维成本具有重大的现实意义。风电场数据采集及监控(Supervisory Control And Data Acquisition,SCADA)系统提供了大量的机组运行数据,但大部分是机组正常运行数据,缺乏故障异常数据。故障数据不足导致样本类别非平衡,会影响诊断模型的精度。如何在数据缺失的情况下实现风电机组故障的准确诊断,是风机故障诊断的重要问题。鉴于此,本文将生成对抗网络(Generative Adversarial Network,GAN)引入风电机组故障诊断中,利用GAN扩充原始故障数据,在此基础上开展故障诊断方法的研究。本文的主要工作如下:(1)针对故障样本类别不平衡问题,提出一种基于GAN的对抗性过采样方法,通过生成器与判别器的对抗学习,使生成器挖掘不同类别故障数据中潜在的特征规律,生成与真实样本分布相似的合成故障样本,以均衡样本集中故障数据的类别分布。利用平衡后的增强样本集建立一维卷积神经网络诊断模型,实验结果表明该方法能有效平衡故障样本集,提高诊断模型在故障样本不足情况下的诊断精度。(2)为了进一步提高风电机组故障诊断的精度,提出一种基于堆叠稀疏自编码器(Stacked Sparse Autoencoder,SSAE)和极端随机树的故障诊断方法。该方法采用SSAE挖掘风电数据的特征分布规律,结合各层的重构误差,从高维数据中提取故障敏感的特征以构建极端随机树,从而实现风电机组故障的准确诊断。利用某风电场SCADA系统采集的偏航系统故障数据开展实验,结果表明该方法具有较高的诊断精度。
暂无评论