针对传统的基于深度双Q学习网络(DDQN)的移动机器人路径规划方法在复杂未知环境中面临的搜索不彻底、收敛速度慢等问题,提出了一种改进的深度双Q网络学习算法(improved deep double Q-network,I-DDQN)。首先,利用竞争网络结构对DDQN算...针对传统的基于深度双Q学习网络(DDQN)的移动机器人路径规划方法在复杂未知环境中面临的搜索不彻底、收敛速度慢等问题,提出了一种改进的深度双Q网络学习算法(improved deep double Q-network,I-DDQN)。首先,利用竞争网络结构对DDQN算法的值函数进行估计。然后,提出了一种基于双层控制器结构的机器人路径探索策略,其中上层控制器的价值函数用于移动机器人局部最优动作的探索,下层控制器的价值函数用于全局任务策略的学习;同时在算法学习过程中使用优先经验回放机制进行数据收集和采样,并使用小批量数据进行网络训练。最后,分别在OpenAI Gym和Gazebo两种不同的仿真环境下与传统的DDQN算法及其改进算法进行了对比分析。实验结果表明,所提的I-DDQN算法在两种仿真环境下的多种评价指标上都优于传统的DDQN算法及其改进算法,在相同复杂环境中能有效克服路径搜索不彻底、收敛速度慢等问题。展开更多
文摘针对传统的基于深度双Q学习网络(DDQN)的移动机器人路径规划方法在复杂未知环境中面临的搜索不彻底、收敛速度慢等问题,提出了一种改进的深度双Q网络学习算法(improved deep double Q-network,I-DDQN)。首先,利用竞争网络结构对DDQN算法的值函数进行估计。然后,提出了一种基于双层控制器结构的机器人路径探索策略,其中上层控制器的价值函数用于移动机器人局部最优动作的探索,下层控制器的价值函数用于全局任务策略的学习;同时在算法学习过程中使用优先经验回放机制进行数据收集和采样,并使用小批量数据进行网络训练。最后,分别在OpenAI Gym和Gazebo两种不同的仿真环境下与传统的DDQN算法及其改进算法进行了对比分析。实验结果表明,所提的I-DDQN算法在两种仿真环境下的多种评价指标上都优于传统的DDQN算法及其改进算法,在相同复杂环境中能有效克服路径搜索不彻底、收敛速度慢等问题。