咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于策略梯度算法的工作量证明中挖矿困境研究 收藏

基于策略梯度算法的工作量证明中挖矿困境研究

Research on proof of work mining dilemma based on policy gradient algorithm

作     者:王甜甜 于双元 徐保民 WANG Tiantian;YU Shuangyuan;XU Baomin

作者机构:北京交通大学计算机与信息技术学院北京100044 

出 版 物:《计算机应用》 (journal of Computer Applications)

年 卷 期:2019年第39卷第5期

页      面:1336-1342页

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金资助项目(61572005) 河北省高等教育科技研究重点项目(ZD2017304) 

主  题:区块链 工作量证明机制 博弈论 深度强化学习 策略梯度算法 

摘      要:针对区块链中工作量证明(PoW)共识机制下区块截留攻击导致的挖矿困境问题,将矿池间的博弈行为视作迭代的囚徒困境(IPD)模型,采用深度强化学习的策略梯度算法研究IPD的策略选择。利用该算法将每个矿池视为独立的智能体(Agent),将矿工的潜入率量化为强化学习中的行为分布,通过策略梯度算法中的策略网络对Agent的行为进行预测和优化,最大化矿工的人均收益,并通过模拟实验验证了策略梯度算法的有效性。实验发现,前期矿池处于相互攻击状态,平均收益小于1,出现了纳什均衡的问题;经过policy gradient算法的自我调整后,矿池由相互攻击转变为相互合作,每个矿池的潜入率趋于0,人均收益趋于1。实验结果表明,policy gradient算法可以解决挖矿困境的纳什均衡问题,最大化矿池人均收益。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分