随着信息化社会建设进程的不断推进,各行各业积累了丰富的数据资源,面向数据安全和隐私保护的需求,无法直接共享数据,从而形成了“数据孤岛”现象。联邦学习可以通过共享模型参数等方法,打破“数据孤岛”问题的制约,实现跨越多客户端的数据合作。但是,由于实际场景中不同客户端的数据分布差异较大,进而产生全局模型收敛速度变慢,性能大幅下降等问题,无法满足各个客户端的个性化需求。针对以上问题,本文旨在利用客户端数据分布的相似性,将协作限制在相似度较高的客户端之间,提升各客户端本地任务的学习效果。具体而言,主要展开了如下的研究工作:(1)本文提出一种基于特征图相似性的联邦学习方法FLFS(Federated Learning based on Feature Map Similarity),在保护数据安全和客户端隐私的前提下,利用Re LU层特征图表示客户端数据分布的特征,计算各个客户端的数据分布相似性,划分客户端之间的集群结构。进而利用集群内部的相似性关系降低客户端数据不均衡所导致的精度偏差,提高客户端本地模型的个性化程度。该方法使用公共数据量化客户端本地数据的差异,无需上传本地数据集,进一步减少了客户端隐私泄露的风险。在MNIST、Fashion-MNIST和CIFAR-10上的实验结果表明,本文提出的特征表示方法可以有效地反映客户端数据分布的相似性。(2)本文提出一种基于特征图相似性的软聚类联邦学习方法SFLFS(Soft Clustered Federated Learning based on Feature Map Similarity),将客户端数据分布的相似性关系抽象为网络结构,利用集群标签在客户端之间的快速传播划分重叠的集群结构,并使用集群隶属度优化集群模型聚合过程,提高集群模型的精度。该方法不需要提前设定集群数量参数,避免了人为预先指定集群数量的弊端,实现了更加灵活的客户端聚类,提高了客户端本地学习任务的准确率。本文在标签数量不均衡和标签分布不均衡两种情况下,采用MNIST、Fashion-MNIST和CIFAR-10数据集进行了模型性能实验,结果表明SFLFS可以有效缓解数据不均衡问题的负面影响,相较于Fed Avg算法模型精度提高30%,相较于硬聚类IFCA算法模型精度提高10%。
暂无评论