基于强化学习的路径规划技术综述被引量：50

Review of Path Planning Techniques Based on Reinforcement Learning

下载PDF

导出

摘要路径规划作为移动机器人自主导航的关键技术,主要是使目标对象在规定范围内找到一条从起点到终点的无碰撞安全路径。阐述基于常规方法和强化学习方法的路径规划技术,将强化学习方法主要分为基于值和基于策略两类,对比时序差分、Q-Learning等基于值的代表方法与策略梯度、模仿学习等基于策略的代表方法,并分析其融合策略和深度强化学习方法方法的发展现状。在此基础上,总结各种强化学习方法的优缺点及适用场合,同时对基于强化学习的路径规划技术的未来发展方向进行展望。 Path planning is one of the key technologies for autonomous navigation of mobile robots.It aims at planning a collision free optimal path from the current position to the destination in real time.This paper introduces the path planning techniques that are based on Reinforcement Learning(RL)and common methods,and categorizes the methods based on RL into two types:the value-based methods and the strategy-based methods.Then the paper compares valuebased representation methods(including Timing Difference(TD),Q-Learning,etc.)and the strategy-based representation methods(including Strategy Gradient(SG)and Imitation Learning(IL),etc.),and analyzes the development status of its fusion strategy and Deep Reinforcement Learning(DRL).On this basis,the paper summarizes the advantages,disadvantages and application scenarios of the RL-based methods.Finally,the future development trends of the path planning techniques based on RL are discussed.

作者闫皎洁张锲石胡希平 YAN Jiaojie;ZHANG Qieshi;HU Xiping(Shenzhen Institute of Advanced Technology,Chinese Academy of Sciences,Shenzhen,Guangdong 518055,China;Shenzhen College of Advanced Technology,University of Chinese Academy of Sciences,Shenzhen,Guangdong 518055,China)

机构地区中国科学院深圳先进技术研究院中国科学院大学深圳先进技术学院

出处《计算机工程》 CAS CSCD 北大核心 2021年第10期16-25,共10页 Computer Engineering

基金国家自然科学基金(U1913202,U1813205) 深圳科技计划基础研究项目(JSGG20191129094012321,JCYJ20180507182610734)。

关键词路径规划强化学习深度强化学习移动机器人自主导航 path planning Reinforcement Learning(RL) Deep Reinforcement Learning(DRL) mobile robot autonomous navigation

分类号 TP242 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献18

1戴博,肖晓明,蔡自兴.移动机器人路径规划技术的研究现状与展望[J].控制工程,2005,12(3):198-202. 被引量：75
2王春颖,刘平,秦洪政.移动机器人的智能路径规划算法综述[J].传感器与微系统,2018,37(8):5-8. 被引量：77
3张广林,胡小梅,柴剑飞,赵磊,俞涛.路径规划算法及其应用综述[J].现代机械,2011(5):85-90. 被引量：130
4周滔,赵津,胡秋霞,席阿行,刘东杰.复杂环境下移动机器人全局路径规划与跟踪[J].计算机工程,2018,44(12):208-214. 被引量：22
5胡章芳,孙林,张毅,鲍合章.一种基于改进QPSO的机器人路径规划算法[J].计算机工程,2019,45(4):281-287. 被引量：14
6赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717. 被引量：133
7刘智斌,曾晓勤,刘惠义,储荣.基于BP神经网络的双层启发式强化学习方法[J].计算机研究与发展,2015,52(3):579-587. 被引量：39
8Lan Jiang,Hongyun Huang,Zuohua Ding.Path Planning for Intelligent Robots Based on Deep Q-learning With Experience Replay and Heuristic Knowledge[J].IEEE/CAA Journal of Automatica Sinica,2020,7(4):1179-1189. 被引量：22
9周文吉,俞扬.分层强化学习综述[J].智能系统学报,2017,12(5):590-594. 被引量：20
10刘志荣,姜树海,袁雯雯,史晨辉.基于深度Q学习的移动机器人路径规划[J].测控技术,2019,38(7):24-28. 被引量：23

二级参考文献304

1张颖,吴成东,原宝龙.机器人路径规划方法综述[J].控制工程,2003,10(z1):152-155. 被引量：66
2衣云龙,关颖.基于Dijkstra算法的足球机器人的一种路径规划方法[J].沈阳工程学院学报（自然科学版）,2009,5(1):67-69. 被引量：4
3尹宝才,徐振华,孔德慧,肖小芳.基于Voronoi图的实时人群路径规划[J].北京工业大学学报,2009,35(8):1115-1121. 被引量：5
4李一波,张庆涛.室内未知环境遍历路径规划算法综述[J].计算机科学,2012,39(S3):334-338. 被引量：7
5王小忠,孟正大.机器人运动规划方法的研究[J].控制工程,2004,11(3):280-284. 被引量：18
6覃柯,孙茂相,孙昌志.动态环境下基于改进人工势场法的机器人运动规划[J].沈阳工业大学学报,2004,26(5):568-571. 被引量：19
7裴道武,傅丽.模糊推理三I算法的逻辑基础[J].模糊系统与数学,2004,18(3):1-10. 被引量：11
8戴博,肖晓明,蔡自兴.移动机器人路径规划技术的研究现状与展望[J].控制工程,2005,12(3):198-202. 被引量：75
9杜萍,杨春.飞行器航迹规划算法综述[J].飞行力学,2005,23(2):10-14. 被引量：62
10于红斌,李孝安.基于栅格法的机器人快速路径规划[J].微电子学与计算机,2005,22(6):98-100. 被引量：63

共引文献1182

1傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：3
2刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：53
3韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
4朱新乐.基于BP神经网络的绿色供应链优化研究[J].运输经理世界,2023(11):156-158.
5张磊,母亚双,潘泉.基于改进深度双Q网络的移动机器人路径规划算法[J].信息与控制,2024,53(3):365-376. 被引量：2
6李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：49
7舒忠.基于深度学习的图像样本标签赋值校正算法实现[J].数字印刷,2019(4):38-45. 被引量：2
8李辉,祁宇明.一种复杂环境下基于深度强化学习的机器人路径规划方法[J].计算机应用研究,2020,37(S01):129-131. 被引量：16
9高峰,周浩,杨卓宇.基于改进A^*算法的水面无人船全局路径规划[J].计算机应用研究,2020,37(S01):120-121. 被引量：5
10周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：9

同被引文献504

1林依凡,陈彦杰,何炳蔚,黄益斌,王耀南.无碰撞检测RRT^*的移动机器人运动规划方法[J].仪器仪表学报,2020(10):257-267. 被引量：42
2徐雪松,曾智,邵红燕,杨胜杰,李想.基于个体-协同触发强化学习的多机器人行为决策方法[J].仪器仪表学报,2020(5):66-75. 被引量：12
3李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：49
4王维祺,叶春明,谭晓军.基于Q学习算法的作业车间动态调度[J].计算机系统应用,2020,29(11):218-226. 被引量：7
5李辉,祁宇明.一种复杂环境下基于深度强化学习的机器人路径规划方法[J].计算机应用研究,2020,37(S01):129-131. 被引量：16
6邓修朋,崔建明,李敏,张小军,宋戈.深度强化学习在机器人路径规划中的应用[J].电子测量技术,2023,46(6):1-8. 被引量：11
7罗雄,钱谦,伏云发.无非法解遗传算法求解柔性作业车间调度问题[J].电子测量技术,2020,43(7):36-40. 被引量：3
8韩强,何利力.智能仓储车间中多AGV路径优化算法研究[J].智能计算机与应用,2022,12(5):43-49. 被引量：2
9邹湘军,罗锡文,卢俊,罗陆锋,李宗樑,莫雪生,范蕾.虚拟环境下农业移动机器人行为及其仿真建模[J].系统仿真学报,2006,18(z2):551-553. 被引量：23
10戈新生,陈立群,刘延柱.欠驱动刚体航天器姿态运动规划的遗传算法[J].动力学与控制学报,2004,2(2):53-57. 被引量：13

引证文献50

1王昊,林远山,李然,于红,王芳.面向养殖网箱巡检任务的强化学习训练系统[J].计算机与数字工程,2023,51(1):103-111.
2罗国攀,张国良,徐佳宝.基于SPE-ICM的移动机器人内在动机避障规划[J].电子测量与仪器学报,2023,37(2):21-27. 被引量：3
3邓修朋,崔建明,李敏,张小军,宋戈.深度强化学习在机器人路径规划中的应用[J].电子测量技术,2023,46(6):1-8. 被引量：11
4曹红倩.应用改进Q-learning算法解决柔性作业车间调度问题[J].国外电子测量技术,2022,41(4):164-169. 被引量：3
5林韩熙,向丹,欧阳剑,兰晓东.移动机器人路径规划算法的研究综述[J].计算机工程与应用,2021,57(18):38-48. 被引量：107
6李兆凯,李龙勇,李泽晖,孔德成,宋绪丁.基于RGB-D SLAM的智能车自主避障与路径规划试验研究[J].汽车技术,2021(9):55-62. 被引量：12
7罗琴凤,贾坤泽,殷允强.灾后人道主义物流运营管理研究综述和展望[J].电子科技大学学报（社科版）,2022,24(1):82-91. 被引量：3
8王军,杨云霄,李莉.基于改进深度强化学习的移动机器人路径规划[J].电子测量技术,2021,44(22):19-24. 被引量：21
9王昊,颜承昊,任俊丽,邵思扬.基于视觉的AUV自主水下管线跟踪方法[J].现代信息科技,2021,5(20):16-19.
10王强,林友芳,万怀宇.基于多任务学习的快件送达时间预测方法[J].计算机工程,2022,48(4):314-320. 被引量：1

二级引证文献261

1孙健.基于规则的船舶智能避碰决策关键技术分析[J].运输经理世界,2022(27):155-157. 被引量：2
2赵倩楠,黄宜庆.融合A^(*)蚁群和动态窗口法的机器人路径规划[J].电子测量与仪器学报,2023,37(2):28-38. 被引量：18
3李芳娣,邓晓燕,吴伟铭,周依静,陈芯婷.移动机器人复杂角点定位和停车策略研究与实现[J].电子测量技术,2023,46(22):26-31.
4朱胜涛,戴娟,刘海涛,李剑锋.Bezier曲线与A-Star算法融合的火星探测器路径规划[J].电子测量技术,2023,46(19):69-75. 被引量：2
5刘礼,刘勇,孙云权,郭涛.基于自适应蚁群算法的AGV路径规划优化[J].电子测量技术,2023,46(18):100-107. 被引量：1
6张博,黄山,张浛芮,李应昆,涂海燕.基于强化学习的艾灸机器人温度控制策略研究[J].电子测量技术,2022,45(24):60-66. 被引量：1
7李鹏.基于改进PSO-BP算法的机器人目标位姿识别方法[J].国外电子测量技术,2023,42(1):7-12. 被引量：9
8刘晋,张喜亮,王骏翔,龚沛朱,俞子俊,李兴业.基于认知互动的船舶自主进出港关键技术分析[J].港口科技,2023(8):10-14.
9嘎玛次仁.高原环境下无人驾驶航空器在公安执法中的应用研究[J].中国公共安全,2024(2):181-183.
10李开荣,胡倩倩.融合Bezier遗传算法的移动机器人路径规划[J].扬州大学学报（自然科学版）,2021,24(5):58-64. 被引量：5

1崔东凯,张冲.黑龙江省:黑土地保护利用纳入法治轨道[J].江淮法治,2021(16):52-52.
2马振超.复兴航船行稳致远的安全保障[J].人民论坛,2021(27):36-40.

计算机工程

2021年第10期

浏览历史

内容加载中请稍等...

基于强化学习的路径规划技术综述被引量：50

参考文献18

二级参考文献304

共引文献1182

同被引文献504

引证文献50

二级引证文献261

相关作者

相关机构

相关主题

浏览历史

基于强化学习的路径规划技术综述 被引量：50

参考文献18

二级参考文献304

共引文献1182

同被引文献504

引证文献50

二级引证文献261

相关作者

相关机构

相关主题

浏览历史

基于强化学习的路径规划技术综述被引量：50