期刊文献+
共找到28篇文章
< 1 2 >
每页显示 20 50 100
基于双视角建模的多智能体协作强化学习方法
1
作者 刘全 施眉龙 +1 位作者 黄志刚 张立华 《计算机学报》 EI CAS CSCD 北大核心 2024年第7期1582-1594,共13页
在多智能体协作领域,强化学习算法通过共享智能体的局部信息来实现智能体间的协作.但共享协作机制极易引发过度协作问题,导致智能体忽视自身局部观测信息,丧失策略多样性,最终陷入低效协作的困境.为了解决该问题,本文提出基于双视角建... 在多智能体协作领域,强化学习算法通过共享智能体的局部信息来实现智能体间的协作.但共享协作机制极易引发过度协作问题,导致智能体忽视自身局部观测信息,丧失策略多样性,最终陷入低效协作的困境.为了解决该问题,本文提出基于双视角建模的多智能体协作强化学习方法(Bi-View Modeling Collaborative Multi-Agent Reinforcement Learning,简称BVM-CMARL).该方法从局部和全局两个视角对智能体进行建模,分别用于产生多样性的策略和激励协作.在局部视角最大化局部变分与自身轨迹的互信息,激励智能体的策略多样性;同时在全局视角最大化全局变分与其他智能体动作的互信息,提高智能体协作水平.最后将局部变分训练出的局部Q值与全局变分训练出的全局Q值合并,避免低效协作.将BVM-CMARL算法应用于星际争霸多智能体挑战赛(StarCraft Multi-Agent Challenge,SMAC)中的等级觅食(Level-Based Foraging,LBF)和走廊(Hallway)等环境,与QMIX、QPLEX、RODE、EOI和MAVEN等5种目前优秀的强化学习算法相比,BVM-CMARL算法具有更好的稳定性和性能表现,在SMAC上的平均胜率为82.81%,比次优算法RODE高13.42%.通过设计模型变体,在消融实验中证明了双视角建模对BVM-CMARL的必要性. 展开更多
关键词 深度强化学习 多智能体系统 多智能体协作 建模 对比学习
在线阅读 下载PDF
多智能体协作技术综述 被引量:28
2
作者 杨煜普 李晓萌 许晓鸣 《信息与控制》 CSCD 北大核心 2001年第4期337-342,共6页
本文从协作模型和研究方法两个角度考察了多智能体协作技术的发展 ,认为是外在的理性形式化模型和内在的对策和学习机制是多智能体协作技术的两个重要方面 .
关键词 多智能体协作 自协调模型 递归建模 MARKOV对策 智能控制
在线阅读 下载PDF
基于独立学习的多智能体协作决策 被引量:8
3
作者 李晓萌 杨煜普 许晓鸣 《控制与决策》 EI CSCD 北大核心 2002年第1期29-32,共4页
联合学习模式是实现多智能体协作决策的有效方法 ,但是当智能体信息不完备时 ,这一方法难以适用。为此 ,在智能体独立学习的基础上提出一种多智能体协作决策方法。以网格对策为例 。
关键词 独立学习 多智能体协作决策 智能控制 学习算法 联合学习模式
在线阅读 下载PDF
基于换位思考模型的多智能体协作研究及在RoboCup中的应用 被引量:5
4
作者 王浩 尚丽 +1 位作者 方宝富 李龙 《小型微型计算机系统》 CSCD 北大核心 2009年第5期959-962,共4页
机器人世界杯(RoboCup)是一个典型的多智能体系统.为了提高多智能体协作的效率,提出一种新的基于换位思考模型的多智能体协作研究方法.首先,教练智能体获取仿真比赛环境中球员智能体的无噪音信息,对所有队友智能体建模;然后,应用高斯分... 机器人世界杯(RoboCup)是一个典型的多智能体系统.为了提高多智能体协作的效率,提出一种新的基于换位思考模型的多智能体协作研究方法.首先,教练智能体获取仿真比赛环境中球员智能体的无噪音信息,对所有队友智能体建模;然后,应用高斯分布计算队友智能体的当前行为模式,并把当前模式反馈给仿真环境;最后,球员智能体根据换位思考模型计算得到的模式做出相应决策.该模型已经应用于HfutEngine2D仿真球队中,在RoboCup仿真比赛中获得2007年中国公开赛亚军,2008年机器人世界杯第7的好成绩. 展开更多
关键词 换位思考模型 多智能体协作 智能体建模
在线阅读 下载PDF
一种基于行为的多智能体协作策略设计 被引量:1
5
作者 章苏书 吴敏 +1 位作者 陈鑫 曹卫华 《机器人技术与应用》 2003年第5期42-44,共3页
本文提出了一种有效的多智能体协作策略 ,由一组动作控制器 ,一组行为单元和一个协调器组成。并将这种策略应用于足球机器人中型队Mirosot项目比赛 ,取得了良好效果。
关键词 足球机器人 多智能体协作策略 设计 行为控制算法 视觉系统
在线阅读 下载PDF
稀疏奖励场景下基于个体落差情绪的多智能体协作算法
6
作者 王浩 汪京 方宝富 《模式识别与人工智能》 EI CSCD 北大核心 2022年第5期451-460,共10页
针对在多智能体环境中强化学习面临的稀疏奖励问题,借鉴情绪在人类学习和决策中的作用,文中提出基于个体落差情绪的多智能体协作算法.对近似联合动作值函数进行端到端优化以训练个体策略,将每个智能体的个体动作值函数作为对事件的评估... 针对在多智能体环境中强化学习面临的稀疏奖励问题,借鉴情绪在人类学习和决策中的作用,文中提出基于个体落差情绪的多智能体协作算法.对近似联合动作值函数进行端到端优化以训练个体策略,将每个智能体的个体动作值函数作为对事件的评估.预测评价与实际情况的差距产生落差情绪,以该落差情绪模型作为内在动机机制,为每个智能体产生一个内在情绪奖励,作为外在奖励的有效补充,以此缓解外在奖励稀疏的问题.同时内在情绪奖励与具体任务无关,因此具有一定的通用性.在不同稀疏程度的多智能体追捕场景中验证文中算法的有效性和鲁棒性. 展开更多
关键词 稀疏奖励 多智能体协作 强化学习 个体落差情绪 内在情绪奖励
在线阅读 下载PDF
基于强化学习的多智能体协作方法研究
7
作者 童亮 陆际联 《计算机测量与控制》 CSCD 2005年第2期174-176,共3页
为了在连续和动态的环境中处理智能体不断变化的需求,我们通过利用强化学习来研究多机器人推箱子问题,得到了一种智能体可以不需要其它智能体任何信息的情况下完成协作任务的方法。强化学习可以应用于合作和非合作场合,对于存在噪声干... 为了在连续和动态的环境中处理智能体不断变化的需求,我们通过利用强化学习来研究多机器人推箱子问题,得到了一种智能体可以不需要其它智能体任何信息的情况下完成协作任务的方法。强化学习可以应用于合作和非合作场合,对于存在噪声干扰和通讯困难的情况,强化学习具有其它人工智能方法不可比拟的优越性。 展开更多
关键词 分布式人工智能 多智能体系统 多智能体协作方法 强化学习
在线阅读 下载PDF
基于规划识别的多智能体协作研究及应用
8
作者 谢雅 黄中华 《自动化与仪表》 2006年第2期4-8,共5页
多智能体系统是规划识别的一个有效应用平台,提出一种基于规划识别多智能体协作算法,对对抗环境和非对抗环境中的基于规划识别的多智能体协作算法进行了分析,实现了对队友和对手行为目的的认识和建模,减少了协作主体间需要通信的时间及... 多智能体系统是规划识别的一个有效应用平台,提出一种基于规划识别多智能体协作算法,对对抗环境和非对抗环境中的基于规划识别的多智能体协作算法进行了分析,实现了对队友和对手行为目的的认识和建模,减少了协作主体间需要通信的时间及难度。该协作算法应用到多智能体的有效测试平台机器人足球赛中,试验结果证明,该算法在通信受限、信息受限或信息延时的系统中可有效预测队友和对手的行为,从而实现智能体间的协作。 展开更多
关键词 规划识别 多智能体协作 机器人足球赛
在线阅读 下载PDF
基于遗传算法的多智能体协作行为研究 被引量:1
9
作者 杨俊杰 任雪梅 黄鸿 《计算机仿真》 CSCD 2006年第3期123-125,共3页
协作问题一直是多智能体系统研究的关键问题之一,该文给出了用遗传算法来实现多智能体协作的一种方法。该方法利用遗传算法来解决当多智能体系统无法得到环境信息或得到这些信息代价过高时,如何有效地产生它们的协同运动。利用该方法,... 协作问题一直是多智能体系统研究的关键问题之一,该文给出了用遗传算法来实现多智能体协作的一种方法。该方法利用遗传算法来解决当多智能体系统无法得到环境信息或得到这些信息代价过高时,如何有效地产生它们的协同运动。利用该方法,对三个智能体协作把箱子搬到目标点,然后改变目标点,让智能体继续完成协作任务进行计算机仿真,结果表明遗传算法在动态环境下实现多智能体协作方面的可行性和有效性。 展开更多
关键词 遗传算法 多智能体协作 运动规划
在线阅读 下载PDF
一种基于多步竞争网络的多智能体协作方法
10
作者 厉子凡 王浩 方宝富 《计算机工程》 CAS CSCD 北大核心 2022年第5期74-81,共8页
多智能体高效协作是多智能体深度强化学习的重要目标,然而多智能体决策系统中存在的环境非平稳、维数灾难等问题使得这一目标难以实现。现有值分解方法可在环境平稳性和智能体拓展性之间取得较好平衡,但忽视了智能体策略网络的重要性,... 多智能体高效协作是多智能体深度强化学习的重要目标,然而多智能体决策系统中存在的环境非平稳、维数灾难等问题使得这一目标难以实现。现有值分解方法可在环境平稳性和智能体拓展性之间取得较好平衡,但忽视了智能体策略网络的重要性,并且在学习联合动作值函数时未充分利用经验池中保存的完整历史轨迹。提出一种基于多智能体多步竞争网络的多智能体协作方法,在训练过程中使用智能体网络和价值网络对智能体动作评估和环境状态评估进行解耦,同时针对整条历史轨迹完成多步学习以估计时间差分目标,通过优化近似联合动作值函数的混合网络集中且端到端地训练分散的多智能体协作策略。实验结果表明,该方法在6种场景中的平均胜率均优于基于值分解网络、单调值函数分解、值函数变换分解、反事实多智能体策略梯度的多智能体协作方法,并且具有较快的收敛速度和较好的稳定性。 展开更多
关键词 多智能体协作 深度强化学习 值分解 多步竞争网络 值函数
在线阅读 下载PDF
基于两层Q-Learning算法的多智能体协作方法研究
11
作者 王帅 《煤矿机电》 2013年第5期74-76,共3页
为使多智能体系统更能适应复杂环境,将分层方法引入强化学习。把两层Q-Learning强化学习算法用于4个智能体协作推动圆盘物体,在未知环境中实现路径规划的计算机模拟中。仿真结果说明该方法的有效性和可行性。
关键词 强化学习 Q学习 多智能体协作 路径规划
在线阅读 下载PDF
多智能主体协作规划理论及其在RoboCup中的应用 被引量:2
12
作者 杜陶钧 黄鸿 《计算机仿真》 CSCD 2004年第7期125-128,共4页
机器人足球赛是近年人工智能迅速发展起来的一个重要的研究领域。基于此平台,研究了将规划、竞争、约束、协调纳入一个协作规划框架之中的多智能体协作规划理论,并将其分为5个阶段①产生协作目标;②协作规划;③寻求协作伙伴;④选择协作... 机器人足球赛是近年人工智能迅速发展起来的一个重要的研究领域。基于此平台,研究了将规划、竞争、约束、协调纳入一个协作规划框架之中的多智能体协作规划理论,并将其分为5个阶段①产生协作目标;②协作规划;③寻求协作伙伴;④选择协作方案;⑤实现所确定的目标。最后探讨了应用到机器人足球赛的一些技术问题。在比赛中,决策速度也较好。 展开更多
关键词 机器人足球赛 人工智能 多智能体协作规划 伙伴 形式化框架 多主体协系统
在线阅读 下载PDF
改进MADDPG多智能体的方法
13
作者 宁姗 赵秋多 +1 位作者 丁毓龙 郭嘉承 《黑龙江科技大学学报》 2025年第1期160-165,172,共7页
为研究多智能体深度确定性策略梯度算法(MADDPG)通过共享观察信息和历史经验解决多智能体环境不稳定的问题,通过改进多智能体深度确定性梯度算法MADDPG提出了IMMADDPG算法,分析改进网络结构更有效地降低环境不稳定性和值函数高估对策略... 为研究多智能体深度确定性策略梯度算法(MADDPG)通过共享观察信息和历史经验解决多智能体环境不稳定的问题,通过改进多智能体深度确定性梯度算法MADDPG提出了IMMADDPG算法,分析改进网络结构更有效地降低环境不稳定性和值函数高估对策略网络训练的影响。结果表明:IMMADDPG算法在合作导航环境下,智能体到达目标的概率高于MADDPG算法3.7%;在协同和竞争的捕食环境下,IMMADDPG的智能体策略其捕食智能体捕食到被捕食智能体的平均次数为5.79,被捕食者智能体到达目标地标的平均次数为2.23,而MADDPG的捕食的平均次数为4.82、到达目标地标的平均次数为1.76。IMMADDPG相对于MADDPG多智能体在深度强化学习环境中具有更好的表现。 展开更多
关键词 深度强化学习 多智能体协作 多智能体竞争 中心化训练 去中心化执行
在线阅读 下载PDF
基于多智能体协作的编队协同防空决策方法研究 被引量:1
14
作者 王超 赵晓哲 王义涛 《军事运筹与系统工程》 2008年第2期68-72,共5页
在深入分析现代高技术条件下海上舰艇编队协同防空决策特点的基础上,应用智能体技术,提出一种基于多智能体协作的编队协同防空决策方法。详细介绍了方法的原理和各类智能体的设计,并针对如何在编队多个舰艇决策Agent之间开展有效协同的... 在深入分析现代高技术条件下海上舰艇编队协同防空决策特点的基础上,应用智能体技术,提出一种基于多智能体协作的编队协同防空决策方法。详细介绍了方法的原理和各类智能体的设计,并针对如何在编队多个舰艇决策Agent之间开展有效协同的关键问题,提出一种中心控制的MAS分布规划算法。 展开更多
关键词 多智能体协作 编队协同防空 决策方法
在线阅读 下载PDF
基于敏捷制造的虚拟企业多智能体协同生产管理 被引量:2
15
作者 高阳 曾小青 《武汉理工大学学报(信息与管理工程版)》 CAS 2003年第3期156-161,共6页
随着市场竞争的日益加剧并伴随着经济全球化趋势和信息技术的不断发展,一种以核心能力为特点对企业外部资源进行优化整合的合作形式———虚拟企业,正逐渐成为现代企业适应竞争环境的理想模式。自从虚拟企业的概念提出后它就受到学术界... 随着市场竞争的日益加剧并伴随着经济全球化趋势和信息技术的不断发展,一种以核心能力为特点对企业外部资源进行优化整合的合作形式———虚拟企业,正逐渐成为现代企业适应竞争环境的理想模式。自从虚拟企业的概念提出后它就受到学术界和企业界的广泛关注,并取得了一系列的研究成果。着重从虚拟企业协同生产管理的计划与调度及多智能体协作技术的角度,对虚拟企业运行阶段的研究情况进行了概括和论述,并展望了虚拟企业的发展趋势。 展开更多
关键词 虚拟企业 协同生产管理 计划 调度 多智能体协作
在线阅读 下载PDF
基于观测重构的多智能体强化学习方法 被引量:1
16
作者 史殿习 胡浩萌 +4 位作者 宋林娜 杨焕焕 欧阳倩滢 谭杰夫 陈莹 《计算机科学》 CSCD 北大核心 2024年第4期280-290,共11页
共同知识是多智能体系统内众所周知的知识集。如何充分利用共同知识进行策略学习,是多智能体独立学习系统中的一个挑战性问题。针对这一问题,围绕共同知识提取和独立学习网络设计,提出了一种基于观测重构的多智能体强化学习方法IPPO-CKO... 共同知识是多智能体系统内众所周知的知识集。如何充分利用共同知识进行策略学习,是多智能体独立学习系统中的一个挑战性问题。针对这一问题,围绕共同知识提取和独立学习网络设计,提出了一种基于观测重构的多智能体强化学习方法IPPO-CKOR。首先,对智能体的观测信息进行共同知识特征的计算与融合,得到融合共同知识特征的观测信息;其次,采用基于共同知识的智能体选择算法,选择关系密切的智能体,并使用重构特征生成机制构建它们的特征信息,其与融合共同知识特征的观测信息组成重构观测信息,用于智能体策略的学习与执行;最后,设计了一个基于观测重构的独立学习网络,使用多头自注意力机制对重构观测信息进行处理,使用一维卷积和GRU层处理观测信息序列,使得智能体能够从观测信息序列中提取出更有效的特征,有效缓解了环境非平稳与部分可观测问题带来的影响。实验结果表明,相较于现有典型的采用独立学习的多智能体强化学习方法,所提方法在性能上有显著提升。 展开更多
关键词 观测重构 多智能体协作策略 多智能体强化学习 独立学习
在线阅读 下载PDF
开放环境下的协作多智能体强化学习进展
17
作者 袁雷 张子谦 +2 位作者 李立和 管聪 俞扬 《中国科学:信息科学》 北大核心 2025年第2期217-268,共52页
多智能体强化学习(multi-agent reinforcement learning, MARL)近年来获得广泛关注并在不同领域取得进展.其中,协作多智能体强化学习专注于训练智能体团队以协同完成单智能体难以应对的任务目标,在路径规划、无人驾驶、主动电压控制和... 多智能体强化学习(multi-agent reinforcement learning, MARL)近年来获得广泛关注并在不同领域取得进展.其中,协作多智能体强化学习专注于训练智能体团队以协同完成单智能体难以应对的任务目标,在路径规划、无人驾驶、主动电压控制和动态算法配置等场景展现出巨大的应用潜力.如何提升系统协作效能是协作多智能体强化学习领域研究重点之一.以往的研究工作主要在简单、静态和封闭的环境设定中展开.随着人工智能技术落地的驱使,目前在多智能体协作领域也有部分研究开始对开放环境下的多智能体协作展开研究,这些工作从多个方面对智能体所处环境中要素可能发生改变这一情况进行探索与研究,并取得一定进展.但是当前主流工作仍然缺乏对该方向的综述.本文从强化学习概念着手,针对多智能体系统、协作多智能体强化学习、典型方法与测试环境进行介绍,对封闭到开放环境下的协作多智能体强化学习研究工作进行总结,提炼出多类研究方向并对典型工作进行介绍.最后,本文对当前研究的优势与不足进行了总结,对未来开放环境下协作多智能体强化学习的发展方向与待研究问题进行展望,以吸引更多研究人士参与这个新兴方向的研究与交流. 展开更多
关键词 强化学习 多智能体系统 多智能体协作 开放环境机器学习 开放环境多智能体协作
原文传递
分层模型下的多Agent系统协作机制在RoboCup3D的应用 被引量:1
18
作者 杭婷婷 方木云 《安庆师范大学学报(自然科学版)》 2017年第2期72-75,共4页
为了提高多智能体协作的效率,让机器人足球队取得更好的成绩,以RoboCup3D机器人足球仿真系统为应用背景,提出了一种基于分层模型的多Agent系统协作机制。分层模型主要包括用来保证Agent通信的通信层,完成Agent角色分配的技术层和负责Ag... 为了提高多智能体协作的效率,让机器人足球队取得更好的成绩,以RoboCup3D机器人足球仿真系统为应用背景,提出了一种基于分层模型的多Agent系统协作机制。分层模型主要包括用来保证Agent通信的通信层,完成Agent角色分配的技术层和负责Agent阵型定位等决策的控制层。实验结果表明,团队协作能力往往是机器人足球比赛得分的关键,基于分层模型的协作机制对于提高机器人球队的整体对抗能力起到了明显作用。 展开更多
关键词 人工智能 多智能体协作 分层模型 ROBOCUP3D
在线阅读 下载PDF
多智能体系统的宏观策略及其微观控制
19
作者 陈玮 李继耀 《控制工程》 CSCD 2008年第4期446-450,共5页
在多智能体系统中,用宏观策略确定整体目标,用微观控制实现其目标,其间是通过多智能体之间的协作完成的。用一个仿真足球队作为多智能体系统的研究对象,首先,从整体方面考虑,通过用集合的方式定义了球队的战术、形势、阵型和球员的状态... 在多智能体系统中,用宏观策略确定整体目标,用微观控制实现其目标,其间是通过多智能体之间的协作完成的。用一个仿真足球队作为多智能体系统的研究对象,首先,从整体方面考虑,通过用集合的方式定义了球队的战术、形势、阵型和球员的状态等,并通过几者之间的关系描述了球队的宏观策略;其次,从局部方面考虑,根据已制定的宏观策略,分别通过用静态和动态的控制方式,定义了每一个智能体的动作选择机制。仿真实验证明了动态控制的有效性。 展开更多
关键词 多智能体协作 宏观策略 静态控制 动态控制
在线阅读 下载PDF
Q学习在RoboCup前场进攻动作决策中的应用 被引量:6
20
作者 章惠龙 李龙澍 《计算机工程与应用》 CSCD 2013年第7期240-242,共3页
RoboCup是世界上规模最大的机器人足球大赛,包括软件仿真与硬件实体两类项目的比赛。RoboCup仿真2D作为软件仿真项目的重要组成部分,成为研究人工智能和多Agent智能体协作的优秀实验平台。将Q学习应用到RoboCup仿真2D比赛的前场进攻动... RoboCup是世界上规模最大的机器人足球大赛,包括软件仿真与硬件实体两类项目的比赛。RoboCup仿真2D作为软件仿真项目的重要组成部分,成为研究人工智能和多Agent智能体协作的优秀实验平台。将Q学习应用到RoboCup仿真2D比赛的前场进攻动作决策中,通过引入区域划分,基于区域划分的奖惩函数和对真人足球赛中动作决策的模拟,在经过大量周期的学习训练后,使Agent能够进行自主动作决策,从而加强了多Agent的前场进攻实力。 展开更多
关键词 Q学习 ROBOCUP 多智能体协作
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部