后5G时代的数据服务需求不断增加,5G网络运营成本高的问题日益凸显,在高速建设的同时,它的运营效率需要得到提高。5G连接的数量正在不断创造新高,然而频谱资源总是有限的,因此,需要一种有效的资源分配方案来提高有限带宽资源的利用率,从而降低运营成本,确保用户的通信服务质量(Quality of Service,QoS)。智能资源分配和功率控制方案被认为是缓解用户数量和运营成本急剧增加所带来的问题的重要方法。因此,本文以多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)为基础,针对频域资源分配和功率控制的智能化方案进行研究和探索。本文的主要工作和创新点如下:第一,本文提出了一种新颖的基于多智能体深度强化学习的算法,以联合优化资源块(Resource Block,RB)分配和功率控制,其目的是在满足服务质量约束的前提下最大化系统的平均频谱效率(Spectrum Efficiency,SE)。鉴于集中式训练分布式执行在减少计算量和信令开销的同时保留了集中式训练的优点,可以采用MADRL技术。在所提出的MADRL模型中,通过值分解网络聚合每个智能体的动作价值函数,加强了智能体之间的协作,提高了算法的收敛性。第二,本文提出将一个奖励折扣网络添加到原始MADRL框架中,以进一步提高本文所提出的算法在多小区多用户通信环境中取得的平均频谱效率。奖励折扣网络根据训练过程中智能体的表现实时地、自适应地调整对未来奖励的关注的程度,通过这种方式,能动态调节奖励折扣因子的取值,使其最适于神经网络的收敛。为了避免智能体的懒惰现象,本文为用于训练奖励折扣网络的损失函数增加了修正项,以尽可能增大奖励折扣因子的值,延长智能体对未来的规划范围。仿真实验表明,该算法具有比现有替代方案更好的性能。
暂无评论