期刊文献+
共找到43篇文章
< 1 2 3 >
每页显示 20 50 100
基于权重值的竞争深度双Q网络算法 被引量:5
1
作者 汪晨曦 赵学艳 郭新 《南京信息工程大学学报(自然科学版)》 CAS 北大核心 2021年第5期564-570,共7页
在深度强化学习中,深度Q网络算法存在严重高估动作值问题,使得智能体的表现不尽人意.尽管深度双Q网络和竞争网络结构可以部分缓解高估带来的影响,但引入双Q网络的同时,有时也会低估动作值.本文提出了一种基于权重值的竞争深度双Q网络算... 在深度强化学习中,深度Q网络算法存在严重高估动作值问题,使得智能体的表现不尽人意.尽管深度双Q网络和竞争网络结构可以部分缓解高估带来的影响,但引入双Q网络的同时,有时也会低估动作值.本文提出了一种基于权重值的竞争深度双Q网络算法(Weighted Dueling Double Deep Q-Network,WD3QN),把改进的双估计器及竞争网络结构结合至深度Q网络中,将学习到的可能动作值进行加权产生最终动作值,有效减少估计误差.最后,将算法应用于Open AI Gym平台上的CartPole经典控制问题,仿真结果显示:与已有算法对比,本算法有更好的学习效果,收敛性和训练速度均有提升. 展开更多
关键词 深度强化学习 深度双q网络 竞争网络结构 权重值
在线阅读 下载PDF
基于深度双Q网络的多用户蜂窝网络功率分配算法研究 被引量:1
2
作者 王伟 殷爽爽 《计算机应用研究》 CSCD 北大核心 2021年第5期1498-1502,共5页
针对现有蜂窝网络功率分配算法存在泛化能力弱、效率低等问题进行了研究,提出基于深度双Q网络(deep double Q network,DDQN)的功率分配算法。采用双神经网络结构,解决强化学习过程中易出现的维度灾难及值函数过估计问题;对状态信息进行... 针对现有蜂窝网络功率分配算法存在泛化能力弱、效率低等问题进行了研究,提出基于深度双Q网络(deep double Q network,DDQN)的功率分配算法。采用双神经网络结构,解决强化学习过程中易出现的维度灾难及值函数过估计问题;对状态信息进行设计并输入神经网络,输出智能体的动作行为,并设计奖赏函数反馈给神经网络,使智能体可以有效地自主学习,多次迭代得到最优的功率分配策略。仿真结果表明,所提的模型可获得的平均速率为1.89,平均运行时间为0.0013 s,在不同用户密度及小区数量下均可达到最高的平均速率,验证了算法的有效性,为蜂窝网络资源分配问题提供了新的思路。 展开更多
关键词 蜂窝网络 干扰多址信道 功率分配 深度强化学习 深度双q网络
在线阅读 下载PDF
融合对比预测编码的深度双Q网络 被引量:1
3
作者 刘剑锋 普杰信 孙力帆 《计算机工程与应用》 CSCD 北大核心 2023年第6期162-170,共9页
在模型未知的部分可观测马尔可夫决策过程(partially observable Markov decision process,POMDP)下,智能体无法直接获取环境的真实状态,感知的不确定性为学习最优策略带来挑战。为此,提出一种融合对比预测编码表示的深度双Q网络强化学... 在模型未知的部分可观测马尔可夫决策过程(partially observable Markov decision process,POMDP)下,智能体无法直接获取环境的真实状态,感知的不确定性为学习最优策略带来挑战。为此,提出一种融合对比预测编码表示的深度双Q网络强化学习算法,通过显式地对信念状态建模以获取紧凑、高效的历史编码供策略优化使用。为改善数据利用效率,提出信念回放缓存池的概念,直接存储信念转移对而非观测与动作序列以减少内存占用。此外,设计分段训练策略将表示学习与策略学习解耦来提高训练稳定性。基于Gym-MiniGrid环境设计了POMDP导航任务,实验结果表明,所提出算法能够捕获到与状态相关的语义信息,进而实现POMDP下稳定、高效的策略学习。 展开更多
关键词 部分可观测马尔可夫决策过程 表示学习 强化学习 对比预测编码 深度双q网络
在线阅读 下载PDF
基于双深度Q网络的车联网安全位置路由
4
作者 米洪 郑莹 《无线电通信技术》 北大核心 2025年第1期96-105,共10页
作为智能交通系统中的支撑技术,车联网(Internet of Vehicle,IoV)已受到广泛关注。由于IoV网络拓扑结构的动态变化以及灰洞攻击,构建稳定的安全位置路由是一项挑战工作。为此,提出基于双深度Q网络的安全位置路由(Double DQN-based Secur... 作为智能交通系统中的支撑技术,车联网(Internet of Vehicle,IoV)已受到广泛关注。由于IoV网络拓扑结构的动态变化以及灰洞攻击,构建稳定的安全位置路由是一项挑战工作。为此,提出基于双深度Q网络的安全位置路由(Double DQN-based Secure Location Routing,DSLR)。DSLR通过防御灰洞攻击提升消息传递率(Message Delivery Ratio,MDR),并降低消息的传输时延。构建以丢包率和链路连通时间为约束条件的优化问题,利用双深度Q网络算法求解。为了提升DSLR的收敛性,基于连通时间、丢包率和传输时延构建奖励函数,引导智能体选择满足要求的转发节点。采用动态的探索因子机制,平衡探索与利用间的关系,进而加速算法的收敛。仿真结果表明,相比于同类算法,提出的DSLR提升了MDR,减少了传输时延。 展开更多
关键词 车联网 位置路由 灰洞攻击 深度q网络 动态的探索因子
在线阅读 下载PDF
一种改进的双深度Q网络服务功能链部署算法 被引量:1
5
作者 刘道华 魏丁二 +2 位作者 宣贺君 余长鸣 寇丽博 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2024年第1期52-59,共8页
网络功能虚拟化已成为未来通信网络的关键技术,动态服务功能链的高效部署是提高网络性能迫切需要解决的问题之一。为降低通信网络服务器能量消耗以及改善通信网络服务质量,提出一种改进的双深度Q网络的动态服务功能链部署算法。由于网... 网络功能虚拟化已成为未来通信网络的关键技术,动态服务功能链的高效部署是提高网络性能迫切需要解决的问题之一。为降低通信网络服务器能量消耗以及改善通信网络服务质量,提出一种改进的双深度Q网络的动态服务功能链部署算法。由于网络状态及服务功能链的动态性,首先将服务功能链部署问题建模为马尔可夫决策过程。根据通信网络中资源的状态以及所选择的动作计算奖励函数值,对双深度Q网络进行在线训练,得到最优深度神经网络模型,从而确定最优的在线服务功能链部署策略。为解决传统深度强化学习从经验回放池中采用均匀抽取经验样本而导致神经网络学习效率低的问题,设计一种基于重要性采样的优先级经验回放方法以抽取经验样本,从而有效地避免训练样本之间的高度相关性,进一步提高离线学习神经网络的效率。仿真结果表明,所提出基于改进双深度Q网络的服务功能链部署算法能够提高奖励值,与传统的双深度Q网络算法相比,在能量消耗与阻塞率方面分别降低约19.89%~36.99%与9.52%~16.37%。 展开更多
关键词 服务功能链 马尔科夫决策过程 网络能耗 深度q网络
在线阅读 下载PDF
一种融合噪声网络的裁剪双深度Q网络的船舶自主避碰决策算法
6
作者 韩虎生 关巍 崔哲闻 《上海海事大学学报》 北大核心 2024年第4期1-7,共7页
针对海上船舶自主避碰决策中深度Q网络(deep Q-network,DQN)算法的高估和收敛性差的问题,提出一种融合噪声网络的裁剪双DQN(double DQN,DDQN)算法,记为NoisyNet-CDDQN算法。该算法采用裁剪双Q值的方式减小DQN算法的高估问题,并通过引入... 针对海上船舶自主避碰决策中深度Q网络(deep Q-network,DQN)算法的高估和收敛性差的问题,提出一种融合噪声网络的裁剪双DQN(double DQN,DDQN)算法,记为NoisyNet-CDDQN算法。该算法采用裁剪双Q值的方式减小DQN算法的高估问题,并通过引入噪声网络来增强算法的稳定性以解决DQN算法收敛性差的问题。充分考虑船舶运动数学模型和船舶领域模型,并在奖励函数设计中考虑到偏航、《国际海上避碰规则》(International Regulations for Preventing Collisions at Sea,COLREGs)等要素。多会遇场景仿真实验证明,本文所提出的NoisyNet-CDDQN算法相较于融合噪声网络的DQN算法在收敛速度上提升了27.27%,相较于DDQN算法提升了54.55%,相较于DQN算法提升了87.27%,并且船舶自主避碰决策行为符合COLREGs,可为船舶的自主避碰提供参考。 展开更多
关键词 噪声网络 深度q网络(DDqN) 船舶自主避碰 国际海上避碰规则
在线阅读 下载PDF
基于双深度Q网络算法的多用户端对端能源共享机制研究
7
作者 武东昊 王国烽 +2 位作者 毛毳 陈玉萍 张有兵 《高技术通讯》 CAS 北大核心 2024年第7期755-764,共10页
端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷... 端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷变动问题。为此,本文建立了一种以多类型用户为基础的多用户P2P能源社区交易模型,并引入基于双深度Q网络(DDQN)的强化学习(RL)算法对其进行求解。所提方法通过DDQN算法中的预测网络以及目标网络读取多用户P2P能源社区中的环境信息,训练后的神经网络可通过实时的光伏、负荷以及电价数据对当前社区内的多用户P2P交易问题进行求解。案例仿真结果表明,所提方法在促进社区内用户间P2P能源交易共享的同时,保证了多用户P2P能源社区的经济性。 展开更多
关键词 端对端(P2P)能源共享 强化学习(RL) 能源交易市场 深度q网络(DDqN)算法
在线阅读 下载PDF
融合动作剔除的深度竞争双Q网络智能干扰决策算法 被引量:2
8
作者 饶宁 许华 宋佰霖 《空军工程大学学报(自然科学版)》 CSCD 北大核心 2021年第4期92-98,共7页
为解决战场通信干扰决策问题,设计了一种融合动作剔除的深度竞争双Q网络智能干扰决策方法。该方法在深度双Q网络框架基础上采用竞争结构的神经网络决策最优干扰动作,并结合优势函数判断各干扰动作的相对优劣,在此基础上引入无效干扰动... 为解决战场通信干扰决策问题,设计了一种融合动作剔除的深度竞争双Q网络智能干扰决策方法。该方法在深度双Q网络框架基础上采用竞争结构的神经网络决策最优干扰动作,并结合优势函数判断各干扰动作的相对优劣,在此基础上引入无效干扰动作剔除机制加快学习最佳干扰策略。当面对未知的通信抗干扰策略时,该方法能学习到较优的干扰策略。仿真结果表明,当敌方通信策略发生变化时,该方法能自适应调整干扰策略,稳健性较强,和已有方法相比可达到更高的干扰成功率,获得更大的干扰效能。 展开更多
关键词 干扰决策 深度双q网络 竞争网络 干扰动作剔除
在线阅读 下载PDF
基于竞争双深度Q网络的动态频谱接入 被引量:3
9
作者 梁燕 惠莹 《电讯技术》 北大核心 2022年第12期1715-1721,共7页
针对多信道动态频谱接入问题,建立了存在感知错误与接入碰撞的复杂信道场景,提出了一种结合双深度Q网络和竞争Q网络的竞争双深度Q网络学习框架。双深度Q网络将动作的选择和评估分别用不同值函数实现,解决了值函数的过估计问题,而竞争Q... 针对多信道动态频谱接入问题,建立了存在感知错误与接入碰撞的复杂信道场景,提出了一种结合双深度Q网络和竞争Q网络的竞争双深度Q网络学习框架。双深度Q网络将动作的选择和评估分别用不同值函数实现,解决了值函数的过估计问题,而竞争Q网络解决了神经网络结构优化问题。该方案保证每个次要用户根据感知和回报结果做出频谱接入决策。仿真结果表明,在同时存在感知错误和次要用户冲突的多信道情况下,竞争双深度Q网络相比于同类方法具有较好的损失预测模型,其回报更稳定且提高了4%。 展开更多
关键词 认知无线电 频谱感知 动态频谱接入 深度强化学习 竞争深度q网络
在线阅读 下载PDF
基于竞争双深度Q网络的频谱感知和接入 被引量:1
10
作者 梁燕 胡垚林 惠莹 《电讯技术》 北大核心 2023年第11期1661-1669,共9页
认知用户通过频谱感知和接入过程识别频谱状态并占用空闲频谱,可有效利用频谱资源。针对频谱感知中存在感知错误和频谱接入中存在用户碰撞的问题,首先建立多用户多信道模型,设计频谱感知和频谱接入过程;然后通过结合双深度Q网络和竞争Q... 认知用户通过频谱感知和接入过程识别频谱状态并占用空闲频谱,可有效利用频谱资源。针对频谱感知中存在感知错误和频谱接入中存在用户碰撞的问题,首先建立多用户多信道模型,设计频谱感知和频谱接入过程;然后通过结合双深度Q网络和竞争Q网络,设计竞争双深度Q网络,解决过估计问题的同时优化网络结构;最后通过智能体与所设计模型中状态、观测、回报和策略的交互,完成使用竞争双深度Q网络解决频谱感知和接入问题的一体化研究。仿真结果表明,相比于已有深度强化学习方法,使用竞争双深度Q网络得到的数值结果更稳定且感知正确率和信道利用率都提高了4%。 展开更多
关键词 频谱感知 频谱接入 深度强化学习 竞争深度q网络
在线阅读 下载PDF
基于深度强化学习的无人机紫外光信息收集方法
11
作者 赵太飞 郭佳豪 +1 位作者 辛雨 王璐 《光子学报》 北大核心 2025年第1期43-58,共16页
针对电磁干扰环境下的无人机信息收集问题,使用深度强化学习算法实现了紫外光非直视通信收发仰角自适应调整的信息收集方法。建立了无人机的移动、通信、信息收集和能耗模型,以时间、能量和通信质量为目标函数,建立了多目标优化模型,使... 针对电磁干扰环境下的无人机信息收集问题,使用深度强化学习算法实现了紫外光非直视通信收发仰角自适应调整的信息收集方法。建立了无人机的移动、通信、信息收集和能耗模型,以时间、能量和通信质量为目标函数,建立了多目标优化模型,使用深度强化学习算法解决多目标优化问题。为了让无人机获得更优的飞行方向、飞行速度以及紫外光收发仰角的决策,设计了一套适合信息收集任务的奖励函数,并对经典的深度双Q网络算法加入双目标网络、熵正则化和优先经验回放等改进。仿真结果表明,改进的算法相比经典的深度双Q网络算法,在时间效率上至少提高了13%,能量消耗至少减少了14%。 展开更多
关键词 无人机 信息收集 紫外光非直视通信 深度强化学习 深度双q网络
在线阅读 下载PDF
优先状态估计的双深度Q网络
12
作者 张鑫 张席 《计算机工程与应用》 CSCD 北大核心 2021年第8期78-83,共6页
深度强化学习探索问题中,需要根据环境给予的外部奖赏以作出决策,而在稀疏奖赏环境下,训练初期将获取不到任何信息,且在训练后期难以动态地结合已获得的信息对探索策略进行调整。为缓解这个问题,提出优先状态估计方法,在对状态进行访问... 深度强化学习探索问题中,需要根据环境给予的外部奖赏以作出决策,而在稀疏奖赏环境下,训练初期将获取不到任何信息,且在训练后期难以动态地结合已获得的信息对探索策略进行调整。为缓解这个问题,提出优先状态估计方法,在对状态进行访问时给予优先值,结合外部奖赏一并存入经验池中,引导探索的策略方向。结合DDQN(Double Deep Q Network)与优先经验回放,在OpenAI Gym中的MountainCar经典控制问题与Atari 2600中的FreeWay游戏中进行对比实验,结果表明该方法在稀疏奖赏环境中具有更好的学习性能,取得了更高的平均分数。 展开更多
关键词 强化学习 状态估计 深度q网络 深度q网络
在线阅读 下载PDF
基于深度期望Q网络算法的微电网能量管理策略 被引量:32
13
作者 冯昌森 张瑜 +2 位作者 文福拴 叶承晋 张有兵 《电力系统自动化》 EI CSCD 北大核心 2022年第3期14-22,共9页
随着光伏发电在微电网中的渗透率不断提高,其发电出力的不确定性和时变性为微电网的经济运行带来了挑战。在构建经济调度模型时,就需要适当模拟不确定变量并相应地发展高效求解算法。在此背景下,文中提出能够有效计及不确定性因素的深... 随着光伏发电在微电网中的渗透率不断提高,其发电出力的不确定性和时变性为微电网的经济运行带来了挑战。在构建经济调度模型时,就需要适当模拟不确定变量并相应地发展高效求解算法。在此背景下,文中提出能够有效计及不确定性因素的深度强化学习算法,以实时求解微电网的优化运行问题。首先,采用马尔可夫决策过程对微电网优化运行问题进行建模,用实时奖励函数代替目标函数和约束条件,利用其与环境互动,寻找最优策略。其次,借助贝叶斯神经网络对不确定的学习环境建模,进而在马尔可夫决策过程中有效考虑状态转移的随机过程。为此,提出双深度期望Q网络算法,通过考虑状态转移的随机性,优化一般深度Q网络算法的Q迭代规则,显著提高算法的收敛速度。最后,采用算例验证了所提模型和算法的有效性。 展开更多
关键词 光伏发电 不确定性建模 深度强化学习 贝叶斯神经网络 深度期望q网络
在线阅读 下载PDF
面向B5G多业务场景基于D3QN的双时间尺度网络切片算法 被引量:6
14
作者 陈赓 齐书虎 +1 位作者 沈斐 曾庆田 《通信学报》 EI CSCD 北大核心 2022年第11期213-224,共12页
为了有效满足不同切片的差异化服务质量需求,面向B5G多业务场景提出了一种基于竞争双深度Q网络(D3QN)的双时间尺度网络切片算法。研究了联合资源切片和调度问题,以归一化处理后的频谱效率和不同切片用户服务质量指数的加权和作为优化目... 为了有效满足不同切片的差异化服务质量需求,面向B5G多业务场景提出了一种基于竞争双深度Q网络(D3QN)的双时间尺度网络切片算法。研究了联合资源切片和调度问题,以归一化处理后的频谱效率和不同切片用户服务质量指数的加权和作为优化目标。在大时间尺度内,SDN控制器根据每种业务的资源需求利用D3QN算法预先分配给不同的切片,然后根据基站负载状态执行基站级资源更新。在小时间尺度内,基站通过轮询调度算法将资源调度到终端用户。仿真结果表明,所提算法在保证切片用户服务质量需求、频谱效率和系统效用方面具有优异的性能。与其他4种基准算法相比,所提算法的系统效用分别提升了3.22%、3.81%、7.48%和21.14%。 展开更多
关键词 时间尺度 资源分配 网络切片 竞争深度q网络 系统效用
在线阅读 下载PDF
基于双DQN算法的机器人手臂带电作业精准导航研究
15
作者 李宁 何义良 +2 位作者 赵建辉 刘兆威 田志 《电网与清洁能源》 CSCD 北大核心 2024年第11期9-15,共7页
为实现电网带电作业机器人手臂的精准导航,提出全局加权奖励机制,建立基于全局加权奖励机制和双深度Q网络算法的机器人手臂精准导航模型,解决了Q值过估计和更新效率低的问题。研究仿真机器人手臂跨线作业避障和导航,结果表明:学习率最... 为实现电网带电作业机器人手臂的精准导航,提出全局加权奖励机制,建立基于全局加权奖励机制和双深度Q网络算法的机器人手臂精准导航模型,解决了Q值过估计和更新效率低的问题。研究仿真机器人手臂跨线作业避障和导航,结果表明:学习率最佳值为0.005,全局加权奖励机制相比当前状态即时奖励,更能够提高Q值更新效率;基于全局加权奖励机制和双深度Q网络算法建立跨线作业模型,得到收敛后的偏差降为±6.45。基于全局加权奖励机制和双深度Q网络算法建立机器人手臂精准导航模型,其收敛速度和准确性都有所提升,实现了机器人带电作业的精准导航。 展开更多
关键词 带电作业 机械臂 深度强化学习 深度q网络 精准导航
在线阅读 下载PDF
基于改进DDQN船舶自动靠泊路径规划方法
16
作者 李康斌 朱齐丹 +1 位作者 牟进友 菅紫婷 《智能系统学报》 北大核心 2025年第1期73-80,共8页
船舶在自动靠泊过程中会受到风、浪、流和岸壁效应等因素的影响,故需要精确的路径规划方法防止靠泊失败。针对全驱动船舶靠泊过程的基于双深度Q网络(double deep Q network,DDQN)算法,设计了一种船舶自动靠泊路径规划方法。首先建立船... 船舶在自动靠泊过程中会受到风、浪、流和岸壁效应等因素的影响,故需要精确的路径规划方法防止靠泊失败。针对全驱动船舶靠泊过程的基于双深度Q网络(double deep Q network,DDQN)算法,设计了一种船舶自动靠泊路径规划方法。首先建立船舶三自由度模型,然后通过将距离、航向、推力、时间和碰撞作为奖励或惩罚,改进奖励函数。随后引入DDQN来学习动作奖励模型,并使用学习结果来操纵船舶运动。通过追求更高的奖励值,船舶可以自行找到最优的靠泊路径。实验结果表明,在不同水流速度下,船舶都可以在完成靠泊的同时减小时间和推力,并且在相同水流速度下,DDQN算法与Q-learning、SARSA(state action reward state action)、深度Q网络(deep Q network,DQN)等算法相比,靠泊过程推力分别减小了241.940、234.614、80.202 N,且时间仅为252.485 s。 展开更多
关键词 自动靠泊 路径规划 深度强化学习 深度q网络 奖励函数 水流速度 状态探索 推力 时间 独立重复实验
在线阅读 下载PDF
基于深度强化学习和隐私保护的群智感知动态任务分配策略
17
作者 傅彦铭 陆盛林 +1 位作者 陈嘉元 覃华 《信息网络安全》 CSCD 北大核心 2024年第3期449-461,共13页
在移动群智感知(Mobile Crowd Sensing,MCS)中,动态任务分配的结果对提高系统效率和确保数据质量至关重要。然而,现有的大部分研究在处理动态任务分配时,通常将其简化为二分匹配模型,该简化模型未充分考虑任务属性与工人属性对匹配结果... 在移动群智感知(Mobile Crowd Sensing,MCS)中,动态任务分配的结果对提高系统效率和确保数据质量至关重要。然而,现有的大部分研究在处理动态任务分配时,通常将其简化为二分匹配模型,该简化模型未充分考虑任务属性与工人属性对匹配结果的影响,同时忽视了工人位置隐私的保护问题。针对这些不足,文章提出一种基于深度强化学习和隐私保护的群智感知动态任务分配策略。该策略首先通过差分隐私技术为工人位置添加噪声,保护工人隐私;然后利用深度强化学习方法自适应地调整任务批量分配;最后使用基于工人任务执行能力阈值的贪婪算法计算最优策略下的平台总效用。在真实数据集上的实验结果表明,该策略在不同参数设置下均能保持优越的性能,同时有效地保护了工人的位置隐私。 展开更多
关键词 群智感知 深度强化学习 隐私保护 深度q网络 能力阈值贪婪算法
在线阅读 下载PDF
基于深度强化学习的图书分拣车的路径规划
18
作者 陈玥 《现代电子技术》 北大核心 2024年第19期161-168,共8页
针对图书智能分拣系统中的分拣车路径规划问题,提出一种基于深度强化学习框架和竞争双深度Q网络路径规划算法。将分拣车的路径规划问题构建成马尔可夫决策过程,然后通过结合竞争Q网络和双深度Q网络构建竞争双深度Q网络(D3QN),进而在避... 针对图书智能分拣系统中的分拣车路径规划问题,提出一种基于深度强化学习框架和竞争双深度Q网络路径规划算法。将分拣车的路径规划问题构建成马尔可夫决策过程,然后通过结合竞争Q网络和双深度Q网络构建竞争双深度Q网络(D3QN),进而在避免过估计的同时,优化网络结构。最后,通过设计智能代理的状态、动作和奖励函数,并采用动态ε-贪婪算法和衰减式学习率策略,使智能代理能够快速地选择最优动作,缩短完成预定卸载的移动路径,降低碰撞障碍物的概率。仿真结果表明,相比于基于竞争Q网络、双深度Q网络和深度Q网络的路径规划算法,提出的基于D3QN方法所规划的路径更短、碰撞率更低。 展开更多
关键词 自动分拣 机器人 路径规划 深度强化学习 竞争深度q网络 马尔可夫决策
在线阅读 下载PDF
基于DDQN的片上网络混合关键性消息调度方法 被引量:1
19
作者 李国梁 李峭 +1 位作者 徐亚军 熊华钢 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2022年第7期1233-1241,共9页
对片上网络(NoC)承载的混合关键性消息进行实时调度是其应用于航空电子系统片上多核通信的关键。为解决可满足性模理论(SMT)法求解效率低、低优先级消息等待延迟大的问题,提出了一种基于双深度Q网络(DDQN)的混合关键性消息调度方法。将... 对片上网络(NoC)承载的混合关键性消息进行实时调度是其应用于航空电子系统片上多核通信的关键。为解决可满足性模理论(SMT)法求解效率低、低优先级消息等待延迟大的问题,提出了一种基于双深度Q网络(DDQN)的混合关键性消息调度方法。将虫孔交换机制下的消息调度问题建模为马尔可夫决策过程,建立包含环境、动作、状态、奖励的多层感知调度模型;随机生成多组分布不同的混合关键性消息作为训练样本,采用DDQN算法求解该调度模型;在此基础上,提出并实现了带孔隙DDQN算法,在保证时间触发(TT)消息可调度前提下为速率约束(RC)消息预留用于虫孔交换的时隙。算例研究表明:所提方法的求解时长及TT消息确定性端到端延迟的平均值均低于SMT法;带孔隙DDQN算法的RC消息延迟较不带孔隙DDQN算法和SMT法显著降低。 展开更多
关键词 片上网络(NoC) 时间触发(TT)机制 深度q网络(DDqN) 混合关键性消息 消息调度
在线阅读 下载PDF
基于深度强化学习的测井曲线自动深度校正方法 被引量:3
20
作者 熊文君 肖立志 +1 位作者 袁江如 岳文正 《石油勘探与开发》 EI CAS CSCD 北大核心 2024年第3期553-564,共12页
针对传统测井曲线深度校正需要手动调整曲线,而对于多口井的深度校正工作量巨大,需要大量人工参与,且工作效率较低的问题,提出一种多智能体深度强化学习方法(MARL)来实现多条测井曲线自动深度匹配。该方法基于卷积神经网络(CNN)定义多... 针对传统测井曲线深度校正需要手动调整曲线,而对于多口井的深度校正工作量巨大,需要大量人工参与,且工作效率较低的问题,提出一种多智能体深度强化学习方法(MARL)来实现多条测井曲线自动深度匹配。该方法基于卷积神经网络(CNN)定义多个自上而下的双滑动窗口捕捉测井曲线上相似的特征序列,并设计一个智能体与环境的互动机制来控制深度匹配过程。通过双深度Q学习网络(DDQN)选取一个动作来平移或缩放测井特征序列,并利用反馈的奖励信号来评估每个动作的好坏,以学习到最优的控制策略达到提升深度校正精度的目的。研究表明,MARL方法可以自动完成多口井、不同测井曲线的深度校正任务,减少人工干预。在油田实例应用中,对比分析了动态时间规整(DTW)、深度Q学习网络(DQN)和DDQN等方法的测试结果,DDQN算法采用双网络评估机制有效改进了算法的性能,能够识别和对齐测井曲线特征序列上更多的细节,具有较高的深度匹配精度。 展开更多
关键词 人工智能 机器学习 深度校正 测井曲线 多智能体深度强化学习 卷积神经网络 深度q学习网络
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部