基于双延迟深度确定性策略梯度的船舶自主避碰方法被引量：9

A Twin Delayed Deep Deterministic Policy Gradient Method for Collision Avoidance of Autonomous Ships

下载PDF

导出

摘要为满足智能船舶自主航行的发展需求,解决基于强化学习的船舶避碰决策方法存在的学习效率低、泛化能力弱以及复杂会遇场景下鲁棒性差等问题,针对船舶避碰决策信息的高维性和动作的连续性等特点,考虑决策的合理性和实时性,研究了基于双延迟深度确定性策略梯度(TD3)的船舶自主避碰方法。根据船舶间相对运动信息与碰撞危险信息,从全局角度构建具有连续多时刻目标船信息的状态空间;依据船舶操纵性设计连续决策动作空间;综合考虑目标导向、航向保持、碰撞危险、《1972年国际海上避碰规则》(COLREGs)和良好船艺等因素,设计船舶运动的奖励函数;基于TD3算法,根据状态空间结构,结合长短期记忆(LSTM)网络和一维卷积网络,利用Actor-Critic结构设计船舶自主避碰网络模型,利用双价值网络学习、目标策略平滑以及策略网络延迟更新等方式稳定网络训练,利用跳帧以及批量大小和迭代更新次数动态增大等方式加速网络训练;为解决模型泛化能力弱的问题,提出基于TD3的船舶随机会遇场景训练流程,实现自主避碰模型应用的多场景迁移。运用训练得到的船舶自主避碰模型进行仿真验证,并与改进人工势场(APF)算法进行比较,结果表明:所提方法学习效率高,收敛快速平稳;训练得到的自主避碰模型在2船和多船会遇场景下均能使船舶在安全距离上驶过,并且在复杂会遇场景中比改进APF算法避碰成功率高,避让2~4艘目标船时成功率高达99.233%,5~7艘目标船时成功率97.600%,8~10艘目标船时成功率94.166%;所提方法能有效应对来船的不协调行动,避碰实时性高,决策安全合理,航向变化快速平稳、震荡少、避碰路径光滑,比改进APF方法性能更强。 In order to meet the requirements of developingautonomous navigation of intelligent ships and solve the problems of low learning efficiency,weak generalization ability and poor robustness ofdecision-making methods for collision avoidance based on reinforcement learning,an autonomous collision avoidance method based on Twin Delayed Deep Deterministic Policy Gradient(TD3)algorithmis proposed based on the high-dimensional character-istics of the information processed in the process of collision avoidanceand continuity nature of ship maneuvers,al-so considering the rationality and real-time progress of decision-making.The collision risk of a given ship is calcu-lated by considering geographical location of the ship and the other ships nearby.The state space of intelligent colli-sion avoidance model for autonomous ships is developed from the perspective of the global point of view.The con-tinuous decision-making and action space of the ship is designed according to the maneuvering characteristics of en-countered ships.An intelligent collision avoidance model is developed considering factors such as orientation of tar-get ship,course keeping,collision risk,the COLREGs and good seamanship.Based on the TD3 algorithm,the ship autonomous collision avoidance network model is designed based on the state space structure,combining Long Short Term Memory(LSTM)networks and 1D-convolutional networks,and a network model is designed by using Actor-Critic structure.The network training is stabilized by means of clipped double q-learning,target strategy smoothing,and delayed policy updates.The developed collision avoidance model is trained and updated with ran-dom scenarios by usingframe skipping,dynamic increase of batch size,and iterative update times.In order to solve the problem of weak generalization ability of the model,a training process of random shipencounter scenariosbased on TD3 is proposed to achievemulti-scenario migration for theapplications of the model.A simulationis carried out to verify the model,then compared with the modified Artificial Potential Field(APF)method.The results show that the proposed method has high learning efficiency,fast and stable convergence.The trained model is applicable for the ships to passa safe distance in both two-ship and multi-ship encounter scenarios.In a complex encounter sce-nario,the success rate of collision avoidance reaches 99.233%when avoiding 2~4 target ships,97.600%when 5~7 target ships,94.166%when 8~10 target ships,is higher than that of the modified APF algorithm.The proposed method can effectively respond to the uncoordinated actions of incoming ships,with real-time performance,as well as safe and reasonable decision-making.The course change is fast,stable,and the vibration is small,also the path for avoiding collisions is smooth,which has better performance than the modified APF method.

作者刘钊周壮壮张明阳刘敬贤 LIU Zhao;ZHOU Zhuangzhuang;ZHANG Mingyang;LIU Jingxian(School of Navigation,Wuhan University of Technology,Wuhan 430063,China;Hubei Key Laboratory of Inland Shipping Technology,Wuhan University of Technology,Wuhan 430063,China;National Engineering Research Center for Water Transport Safety,Wuhan University of Technology,Wuhan 430063,China;School of Engineering,Department of Mechanical Engineering,Aalto University,Espoo 20110,Finland)

机构地区武汉理工大学航运学院武汉理工大学内河航运技术湖北省重点实验室武汉理工大学国家水运安全工程技术研究中心阿尔托大学工程学院机械工程系

出处《交通信息与安全》 CSCD 北大核心 2022年第3期60-74,共15页 Journal of Transport Information and Safety

基金国家自然科学基金项目(52171351)资助。

关键词交通信息工程船舶避碰智能决策深度强化学习双延迟深度确定性策略梯度 traffic information engineering ship collision avoidance intelligent decision-making deep reinforce-ment learning twin delayed deep deterministic policy gradient

分类号 U675.96 [交通运输工程—船舶及航道工程]

引文网络
相关文献

参考文献8

1张笛,赵银祥,崔一帆,万程鹏.智能船舶的研究现状可视化分析与发展趋势[J].交通信息与安全,2021,39(1):7-16. 被引量：22
2黄立文,李浩宇,梁宇,赵兴亚,贺益雄.基于操纵过程推演的船舶可变速自动避碰决策方法[J].交通信息与安全,2021,39(6):1-10. 被引量：9
3丁志国,张新宇,王程博,黎泉,安兰轩.基于驾驶实践的无人船智能避碰决策方法[J].中国舰船研究,2021,16(1):96-104. 被引量：16
4刘冬冬,史国友,李伟峰,陈作桓,江健.基于最短避碰距离和碰撞危险度的避碰决策支持[J].上海海事大学学报,2018,39(1):13-18. 被引量：12
5朱凯歌,史国友,刘娇,汪琪,陈作桓.基于船舶领域的让路船决策分析[J].上海海事大学学报,2019,40(3):26-31. 被引量：5
6王程博,张新宇,邹志强,王少博.基于Q-Learning的无人驾驶船舶路径规划[J].船海工程,2018,47(5):168-171. 被引量：23
7周怡,袁传平,谢海成,羊箭锋.基于DDPG算法的游船航行避碰路径规划[J].中国舰船研究,2021,16(6):19-26. 被引量：13
8周双林,杨星,刘克中,熊勇,吴晓烈,刘炯炯,王伟强.规则约束下基于深度强化学习的船舶避碰方法[J].中国航海,2020,43(3):27-32. 被引量：10

二级参考文献68

1徐海祥,朱梦飞,余文曌,韩鑫.面向智能船舶的自动靠泊鲁棒自适应控制[J].华中科技大学学报（自然科学版）,2020,48(3):25-29. 被引量：8
2郑中义,吴兆麟.最晚施舵点模型及其应用[J].航海技术,2001(2):2-4. 被引量：2
3黄炳强,曹广益,王占全.强化学习原理、算法及应用[J].河北工业大学学报,2006,35(6):34-38. 被引量：19
4王则胜,施朝健.基于改进的神经网络的船舶碰撞危险度的模型[J].中国航海,2007,30(1):65-67. 被引量：4
5钟建东.碰撞危险、紧迫局面和紧迫危险剖析[J].上海海运学院学报,1999,20(2):76-80. 被引量：10
6史国友,贾传荧.航海模拟器中DCPA TCPA的算法[J].大连海事大学学报,1999,25(3):17-20. 被引量：13
7李丽娜,王俊玲,陈国权.船舶拟人智能避碰决策理论的集成机器学习策略[J].信息与控制,2011,40(3):359-368. 被引量：13
8李丽娜,邵哲平.船舶拟人智能避碰决策理论介绍[J].中国海事,2011(7):24-27. 被引量：5
9李丽娜,陈国权,邵哲平,熊振南,杨神化,孙洪波.船舶拟人智能避碰决策方法及其评价标准的构建[J].大连海事大学学报,2011,37(4):1-5. 被引量：14
10梁泉.未知环境中基于强化学习的移动机器人路径规划[J].机电工程,2012,29(4):477-481. 被引量：10

共引文献96

1刘钊,谢金鹏,张明阳,付姗姗,徐言民.考虑避让紧迫度的数字化船舶领域模型[J].中国航海,2021,44(2):15-20. 被引量：4
2谢懿.基于大数据的船舶航行最优路径规划算法研究[J].舰船科学技术,2019,41(20):22-24. 被引量：5
3王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
4江行,贾志霈,郑海涛.基于四元船舶领域和避碰规则的碰撞危险度模型[J].船舶工程,2020,42(S01):370-375. 被引量：10
5朱凯歌,史国友,刘娇,汪琪,陈作桓.基于船舶领域的让路船决策分析[J].上海海事大学学报,2019,40(3):26-31. 被引量：5
6张嘉琪,付振楷.船舶避碰系统研究综述[J].科学技术与工程,2019,19(34):32-39. 被引量：6
7曾勇,张金奋,张明阳,张笛.基于粒子群-遗传优化算法的船舶避碰决策[J].中国航海,2020,43(1):1-6. 被引量：19
8陈玲,高洁.一种新型水面垃圾清理分拣船的设计[J].船舶工程,2020,42(2):39-43. 被引量：23
9陈毕伍,沙正荣,吴建生,雷虎.基于船舶领域的珠江口通航风险评估[J].大连海事大学学报,2020,46(1):29-38. 被引量：12
10朱凯歌,史国友,汪琪,刘娇.基于船舶领域的碰撞危险度评估模型[J].上海海事大学学报,2020,41(2):1-5. 被引量：9

同被引文献53

1孙健.基于规则的船舶智能避碰决策关键技术分析[J].运输经理世界,2022(27):155-157. 被引量：2
2管冰蕾,葛泉波,段胜安,刘波.新型船舶智能避碰决策支持系统研究[J].中国航海,2012,35(3):16-22. 被引量：5
3李丽娜,陈国权,李国定,郑敏杰,孙洪波.船舶拟人智能避碰决策方法研究综述[J].航海,2014(2):42-49. 被引量：8
4王珂,卜祥津,李瑞峰,赵立军.景深约束下的深度强化学习机器人路径规划[J].华中科技大学学报（自然科学版）,2018,46(12):77-82. 被引量：22
5刘昌鑫,高剑,徐德民.一种欠驱动AUV模型预测路径跟踪控制方法[J].机械科学与技术,2017,36(11):1653-1657. 被引量：12
6胥文,胡江强,尹建川,李可.基于模糊理论的船舶复合碰撞危险度计算[J].舰船科学技术,2017,39(7):78-84. 被引量：17
7张晓东,刘世亮,刘宇,胡晓芳,高超.无人水面艇收放技术发展趋势探讨[J].中国舰船研究,2018,13(6):50-57. 被引量：28
8王程博,张新宇,张加伟,刘硕.未知环境中无人驾驶船舶智能避碰决策方法[J].中国舰船研究,2018,13(6):72-77. 被引量：14
9CHEN Xiao,LIU Zhong,ZHANG Jianqiang,ZHOU Dechao,DONG Jiao.Adaptive sliding-mode path following control system of the underactuated USV under the influence of ocean currents[J].Journal of Systems Engineering and Electronics,2018,29(6):1271-1283. 被引量：11
10武菲,张昕川.长江经济带发展战略定位的历史演进及思考[J].人民长江,2019,50(A01):6-8. 被引量：10

引证文献9

1曹红卫.基于规则的船舶智能避碰决策关键技术研究[J].中国水运（下半月）,2024,24(2):10-11.
2孙健.基于规则的船舶智能避碰决策关键技术分析[J].运输经理世界,2022(27):155-157. 被引量：2
3李简凡,孙海燕.AIS环境下船舶智能化通行决策优化算法[J].舰船科学技术,2023,45(5):156-159.
4黄仁贤,罗亮,杨萌,刘维勤.改进双延迟深度确定性策略梯度的多船协调避碰决策[J].计算机科学,2023,50(11):269-281.
5黄仁贤,罗亮.基于多智能体深度强化学习的多船协同避碰策略[J].计算机集成制造系统,2024,30(6):1972-1988.
6曲星儒,江雨泽,李初,龙飞飞,张汝波.基于改进TD3的欠驱动无人水面艇路径跟踪控制[J].上海海事大学学报,2024,45(3):1-9. 被引量：1
7胡正阳,王勇.基于深度确定性策略梯度的船舶自主航行避碰方法[J].指挥控制与仿真,2024,46(5):37-44. 被引量：1
8贺益雄,张胡伟,刘姣润,赵兴亚,向守源,王兵.河口多定线制复杂水域船舶操纵自主决策方法[J].西北工业大学学报,2024,42(6):1047-1056.
9黄立文,徐录平,陈家豪,赵兴亚,贺益雄.分道通航制内河宽水域航行决策方法研究[J].华中科技大学学报(自然科学版),2024,52(12):94-102.

二级引证文献4

1曹红卫.基于规则的船舶智能避碰决策关键技术研究[J].中国水运（下半月）,2024,24(2):10-11.
2林佳成,杨勇.海上自主水面船舶的关键技术及挑战[J].船舶物资与市场,2024,32(2):7-12. 被引量：1
3曲星儒,江雨泽,龙飞飞,张汝波,高颖.基于阶段诱导学习的多无人艇协同目标围捕策略[J].中国舰船研究,2025,20(1):162-171.
4关巍,郝淑慧,崔哲闻,王淼淼.基于改进DDPG算法的无人船自主避碰决策方法[J].中国舰船研究,2025,20(1):172-180.

1刘磊,张永,张明阳,王永明,陈静.多特征融合的船舶轨迹相异度模型分析与优选[J].交通运输工程学报,2021,21(5):199-213. 被引量：2
2贺益雄,梁宇,熊勇,牟军敏,李梦霞,张可.开阔水域多物标动态自适应智能航行方法[J].交通运输工程学报,2021,21(5):297-308. 被引量：5
3胡芳芳,刘继明,何斌,殷洪.支杆对水下航行体操纵性水动力系数的数值分析[J].舰船科学技术,2021,43(10):41-45. 被引量：2
4刘冰洁,毕晓君.船舶操纵性优化的约束多目标进化算法[J].哈尔滨工程大学学报,2020,41(9):1391-1397. 被引量：2
5黄亮,张治豪,文元桥,朱曼,黄亚敏.基于轨迹特征的船舶停留行为识别与分类[J].交通运输工程学报,2021,21(5):189-198. 被引量：8
6肖翔元.陌生人的友善[J].初中生学习指导,2020(19):29-30.
7黄丞,袁健.新型航行信号灯系统开发与应用[J].船舶设计通讯,2021(S01):82-91.
8高源浩,刘乃金,鲁渊明.基于深度强化学习的置信传播译码算法[J].现代信息科技,2021,5(21):98-101. 被引量：1
9国子婧,冯旸赫,姚晨蝶,许乃夫.基于人类先验知识的强化学习综述[J].计算机应用,2021,41(S02):1-4. 被引量：2
10沈四林.风浪干扰条件下舰船航向保持非线性控制系统[J].舰船科学技术,2022,44(10):163-166.

交通信息与安全

2022年第3期

浏览历史

内容加载中请稍等...

基于双延迟深度确定性策略梯度的船舶自主避碰方法被引量：9

参考文献8

二级参考文献68

共引文献96

同被引文献53

引证文献9

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于双延迟深度确定性策略梯度的船舶自主避碰方法 被引量：9

参考文献8

二级参考文献68

共引文献96

同被引文献53

引证文献9

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于双延迟深度确定性策略梯度的船舶自主避碰方法被引量：9