多智能体分层强化学习综述被引量：27

A survey on multi-agent hierarchical reinforcement learning

下载PDF

导出

摘要作为机器学习和人工智能领域的一个重要分支,多智能体分层强化学习以一种通用的形式将多智能体的协作能力与强化学习的决策能力相结合,并通过将复杂的强化学习问题分解成若干个子问题并分别解决,可以有效解决空间维数灾难问题。这也使得多智能体分层强化学习成为解决大规模复杂背景下智能决策问题的一种潜在途径。首先对多智能体分层强化学习中涉及的主要技术进行阐述,包括强化学习、半马尔可夫决策过程和多智能体强化学习;然后基于分层的角度,对基于选项、基于分层抽象机、基于值函数分解和基于端到端等4种多智能体分层强化学习方法的算法原理和研究现状进行了综述;最后介绍了多智能体分层强化学习在机器人控制、博弈决策以及任务规划等领域的应用现状。 As an important research area in the field of machine learning and artificial intelligence,multi-agent hierarchical reinforcement learning(MAHRL)integrates the advantages of the collaboration of multi-agent system(MAS)and the decision making of reinforcement learning(RL)in a general-purpose form,and decomposes the RL problem into sub-problems and solves each of them to overcome the so-called curse of dimensionality.So MAHRL offers a potential way to solve large-scale and complex decision problem.In this paper,we systematically describe three key technologies of MAHRL:reinforcement learning(RL),Semi Markov Decision Process(SMDP),multi-agent reinforcement learning(MARL).We then systematically describe four main categories of the MAHRL method from the angle of hierarchical learning,which includes Option,HAM,MAXQ and End-to-End.Finally,we end up with summarizing the application status of MAHRL in robot control,game decision making and mission planning.

作者殷昌盛杨若鹏朱巍邹小飞李峰 YIN Changsheng;YANG Ruopeng;ZHU Wei;ZOU Xiaofei;LI Feng(School of Information and Communication,National University of Defense Technology,Wuhan 430010,China)

机构地区国防科技大学信息通信学院

出处《智能系统学报》 CSCD 北大核心 2020年第4期646-655,共10页 CAAI Transactions on Intelligent Systems

基金国家社会科学基金项目(2019-SKJJ-C-083)。

关键词人工智能机器学习强化学习多智能体综述深度学习分层强化学习应用现状 artificial intelligence machine learning reinforcement learning multi-agent summary hierarchical reinforcement learning application status

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献11

1刘春阳,谭应清,柳长安,马莹巍.多智能体强化学习在足球机器人中的研究与应用[J].电子学报,2010,38(8):1958-1962. 被引量：19
2郑延斌,李波,安德宇,李娜.基于分层强化学习及人工势场的多Agent路径规划方法[J].计算机应用,2015,35(12):3491-3496. 被引量：14
3段勇,崔宝侠,徐心和.多智能体强化学习及其在足球机器人角色分配中的应用[J].控制理论与应用,2009,26(4):371-376. 被引量：27
4乔永杰,王欣九,孙亮.陆军指挥所模型自主生成作战计划时间参数的方法[J].中国电子科学研究院学报,2017,12(3):278-284. 被引量：4
5陈希亮,张永亮.基于深度强化学习的陆军分队战术决策问题研究[J].军事运筹与系统工程,2017,31(3):20-27. 被引量：23
6李耀宇,朱一凡,杨峰,贾全.基于逆向强化学习的舰载机甲板调度优化方案生成方法[J].国防科技大学学报,2013,35(4):171-175. 被引量：20
7宋勇,李贻斌,李彩虹.移动机器人路径规划强化学习的初始化[J].控制理论与应用,2012,29(12):1623-1628. 被引量：27
8王冲,景宁,李军,王钧,陈浩.一种基于多Agent强化学习的多星协同任务规划算法[J].国防科技大学学报,2011,33(1):53-58. 被引量：21
9胡桐清,陈亮.军事智能辅助决策的理论与实践[J].军事运筹与系统工程,1995,9(Z1):3-10. 被引量：14
10朱丰,胡晓峰.基于深度学习的战场态势评估综述与研究展望[J].军事运筹与系统工程,2016,30(3):22-27. 被引量：41

二级参考文献135

1赵红,李雅菊,宋涛.基于贝叶斯网络的工程项目风险管理[J].沈阳工业大学学报（社会科学版）,2008,1(3):239-244. 被引量：26
2戴博,肖晓明,蔡自兴.移动机器人路径规划技术的研究现状与展望[J].控制工程,2005,12(3):198-202. 被引量：75
3魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
4周兰凤,洪炳熔.用基于知识的遗传算法实现移动机器人路径规划[J].电子学报,2006,34(5):911-914. 被引量：27
5李晓毅,徐兆棣.增量式贝叶斯分类的原理和算法[J].沈阳工业大学学报,2006,28(4):422-425. 被引量：7
6杨瑞平,赵东波,郭齐胜,曾令卓.指挥实体任务规划建模研究[J].系统仿真学报,2006,18(12):3338-3341. 被引量：3
7KIM J H, VADAKEPAT E Multi-agent systems: a survey from the robot-soccer perspective[J]. International Journal of Intelligent Automation and Soft Computing, 2000, 6(1) : 3 - 17.
8STONE P, VELOSO M. Multiagent systems: a survey from a machine learning perspective[J]. Autonomous Robots, 2000, 8(3) : 345 - 383.
9ERFU Y, DONGBING G. Multiagent reinforcement learning for multirobot systems: a survey[R]. Technical Report CSM-404, Department of Computer Science, University of Essex, 2004.
10LITrMAN M L. Markov games as a framework for multiagent learning[C] // Proceeding of the 11th International Conference on Machine Learning. San Francisco: IEEE, 1994, 157 - 163.

共引文献676

1傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：3
2刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：53
3韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
4张磊,母亚双,潘泉.基于改进深度双Q网络的移动机器人路径规划算法[J].信息与控制,2024,53(3):365-376. 被引量：2
5李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：49
6周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：9
7李逊,李俊超,邓林忠,康旭云,欧启捷,劳恒辉.人工智能优化技术在钢筋混凝土结构的应用[J].建筑结构,2023,53(S02):1425-1430. 被引量：1
8金翔,王天霖,于鹏垚,赵勇.基于值迭代网络的路径规划算法[J].华中科技大学学报（自然科学版）,2020,48(2):91-96. 被引量：1
9王雪鉴,文永明,石晓荣,张宁宁,刘洁玺.多智能体多耦合任务混合式智能决策架构设计[J].航空学报,2023,44(S02):418-425. 被引量：1
10刘洋,李建军.深度确定性策略梯度算法优化[J].辽宁工程技术大学学报（自然科学版）,2020(6):545-549. 被引量：2

同被引文献292

1戴健,许菲,陈琪锋.多无人机协同搜索区域划分与路径规划[J].航空学报,2020(S01):149-156. 被引量：35
2刘志颖,缪希仁,陈静,江灏.电力架空线路巡检可见光图像智能处理研究综述[J].电网技术,2020,44(3):1057-1069. 被引量：105
3邵瑰玮,刘壮,付晶,谈家英,陈怡,周立玮.架空输电线路无人机巡检技术研究进展[J].高电压技术,2020,46(1):14-22. 被引量：148
4廖楚林,陈劼,唐友喜,李少谦.认知无线电中的并行频谱分配算法[J].电子与信息学报,2007,29(7):1608-1611. 被引量：58
5郝丹丹,邹仕洪,程时端.开放式频谱系统中启发式动态频谱分配算法[J].软件学报,2008,19(3):479-491. 被引量：17
6刘爱珍,贾红丽,王嘉祯,王素贞,张西红.基于组合拍卖机制的移动Agent投标策略[J].计算机工程,2009,35(8):28-30. 被引量：2
7王皓,高阳,陈兴国.强化学习中的迁移:方法和进展[J].电子学报,2008,36(B12):39-43. 被引量：27
8刘佳,陈增强,刘忠信.多智能体系统及其协同控制研究进展[J].智能系统学报,2010,5(1):1-9. 被引量：33
9程玉虎,冯涣婷,王雪松.基于状态-动作图测地高斯基的策略迭代强化学习[J].自动化学报,2011,37(1):44-51. 被引量：6
10王冲,景宁,李军,王钧,陈浩.一种基于多Agent强化学习的多星协同任务规划算法[J].国防科技大学学报,2011,33(1):53-58. 被引量：21

引证文献27

1姚兴虎,谭晓阳.基于奖励高速路网络的多智能体强化学习中的全局信用分配算法[J].计算机应用,2021,41(1):1-7. 被引量：1
2宋波,叶伟,孟祥辉.基于多智能体强化学习的动态频谱分配方法综述[J].系统工程与电子技术,2021,43(11):3338-3351. 被引量：4
3潘成康,王爱玲,刘建军,王启星,王亚娟,马良.通信感知一体化信息交互技术[J].无线电通信技术,2021,47(6):718-723. 被引量：5
4李启锐,彭心怡.基于深度强化学习的云作业调度及仿真研究[J].系统仿真学报,2022,34(2):258-268. 被引量：4
5严家政,专祥涛.基于强化学习的参数自整定及优化算法[J].智能系统学报,2022,17(2):341-347. 被引量：10
6张茂盛,段杰,肖息,陈善洛,欧阳权,王志胜.基于深度强化学习-PI控制的机电作动器控制策略[J].应用科技,2022,49(4):18-22. 被引量：6
7李丽娇.特教学校运动与保健教学学习分层评价方法研究[J].微型电脑应用,2022,38(8):148-150.
8吴云超,傅琛,张宁馨.面向数字孪生战场的智能体建模框架构建[J].指挥信息系统与技术,2022,13(4):19-25. 被引量：8
9管延霞,刘逊韵,刘运韬,谢旻,徐新海.面向多智能体博弈的并行蒙特卡洛树搜索算法研究[J].计算机工程与科学,2022,44(12):2128-2133. 被引量：3
10闫超,相晓嘉,徐昕,王菖,周晗,沈林成.多智能体深度强化学习及其可扩展性与可迁移性研究综述[J].控制与决策,2022,37(12):3083-3102. 被引量：16

二级引证文献105

1平洋,刘文斌,缪正元,葛品,黄琮凯,庄正浩.智能无人艇研究现状及关键问题发展趋势[J].船舶工程,2023,45(2):61-69. 被引量：7
2罗心洁,李伟平,贾庆伟,王刚,王宝磊,钱罡.可交互式浮空成像技术[J].功能材料与器件学报,2024(4):183-189.
3隋吉林,刘云川,黄澒,高东鸣.基于物联网的发动机装配过程信息感知交互系统应用探究[J].科技创新导报,2022,19(1):58-60.
4王永进,尹清溪,叶子琪,傅康,王浩,苏宇龙,高绪敏.可见光通信感知一体化芯片及关键技术[J].电子与信息学报,2022,44(8):2725-2729. 被引量：8
5赵云,聂雅萍,王晓光.交流伺服系统控制器参数在线自整定[J].湖北工业大学学报,2022,37(5):28-32. 被引量：1
6马忠贵,李卓,梁彦鹏.自动驾驶车联网中通感算融合研究综述与展望[J].工程科学学报,2023,45(1):137-149. 被引量：19
7郑爽,吕遐东,陈杰.面向多目标优化的云计算调度研究综述[J].舰船电子工程,2022,42(9):13-19. 被引量：4
8张全柱,王禹嬴,马红月,汪俊奇.磁粉制动器控制系统研究设计[J].华北科技学院学报,2022,19(5):55-61.
9张倩,李天皓,白春光.基于多智能体强化学习的分层决策优化方法[J].电子科技大学学报（社科版）,2022,24(6):90-96. 被引量：1
10乔彦友,常原飞.移动地理信息系统技术发展的3个时代[J].遥感学报,2022,26(12):2399-2410. 被引量：5

1李群霞,方悦.政府补贴政策下供应链碳减排研究[J].物流技术,2020,39(11):102-106.
2程乐峰,余涛.发电市场长期竞价均衡自发形成过程中的一般多策略演化博弈决策行为研究[J].中国电机工程学报,2020,40(21):6936-6955. 被引量：17
3陈逸,闫培新,陈基伟,孙玉宝.高光谱半监督分类的标签约束弹性网图算法[J].计算机应用与软件,2020,37(12):184-190.
4陈维鹏,何忠伟,刘芳.奶粉注册制视角下乳业奶源建设进化博弈分析[J].农业展望,2020,16(9):14-19.

智能系统学报

2020年第4期

浏览历史

内容加载中请稍等...

多智能体分层强化学习综述被引量：27

参考文献11

二级参考文献135

共引文献676

同被引文献292

引证文献27

二级引证文献105

相关作者

相关机构

相关主题

浏览历史

多智能体分层强化学习综述 被引量：27

参考文献11

二级参考文献135

共引文献676

同被引文献292

引证文献27

二级引证文献105

相关作者

相关机构

相关主题

浏览历史

多智能体分层强化学习综述被引量：27