一种改进型Q学习算法及其在行为树中的应用被引量：6

AN IMPROVED Q-LEARNING ALGORITHM AND ITS APPLICATION IN BEHAVIOR TREE

下载PDF

导出

摘要游戏中的非玩家角色(NPC)通过学习获得智能,因此学习算法的设计是一个关键问题。提出一种改进型Q学习算法(SA-QL),它以模拟退火算法为基础,在状态空间、探索策略、报酬函数等方面改进了Q学习算法的不足。将该算法运用到行为树的设计中,使NPC能在游戏过程中实时学习,调整行为树中逻辑行为的最佳执行点,从而产生合适的行为响应。实验结果表明,SA-QL算法比传统Q学习算法效率更高,控制NPC的效果更好。 The non-player character （NPC） in a game gains intelligence by learning, so the design of the learning algorithm becomes the key issue. In this paper, an improved Q-learning algorithm （SA-QL） was proposed. Based on simulated annealing algorithm, the Q-learning algorithm was improved in the aspects of state space, exploration strategy and reward function. Then the algorithm was applied to the design of behaviour tree, so that the NPC Could learn and adjust the best execution point of the logical behaviour in the process of the game in real time, and produced the appropriate behavior response. Experimental results showed that the SA-QL algorithm was more efficient than the traditional Q-learning algorithm, and had better control effect on NPC.

作者涂浩刘洪星

机构地区武汉理工大学计算机科学与技术学院

出处《计算机应用与软件》 2017年第12期235-239,共5页 Computer Applications and Software

基金国家自然科学基金项目(61472294) 中央高校基本科研业务费基金项目(15521004)

关键词游戏人工智能行为决策 Q学习行为树 Game AI Behaviour decision Q-learning Behaviour tree

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献1

1李炎武,陈渝,曾庆维,罗程,林涛.基于强化学习的非玩家角色行为改进[J].四川大学学报（自然科学版）,2014,51(5):915-920. 被引量：2

二级参考文献20

1陈华根,吴健生,王家林,陈冰.模拟退火算法机理研究[J].同济大学学报（自然科学版）,2004,32(6):802-805. 被引量：140
2周丽,黄素珍.基于模拟退火的混合遗传算法研究[J].计算机应用研究,2005,22(9):72-73. 被引量：36
3朱元,吴志红,田光宇,张涵,孙鸿航.基于马尔可夫决策理论的燃料电池混合动力汽车能量管理策略[J].汽车工程,2006,28(9):798-802. 被引量：13
4李荣,周激流,徐自励.基于网格和排序的自适应遗传算法及其性能分析[J].四川大学学报（自然科学版）,2007,44(3):531-534. 被引量：4
5Von A L.Games with a purpose[J].Comput,2006,39(6):92.
6Szita I.Reinforcement learning in games[J].Reinforcement Learning,2012,12:539.
7Tesauro G.TD Gammon,a self teaching backgammon program,achieves master level play[J].Neural Comput,1994,6(2):215.
8Sutton R S,Barto A G.Reinforcement learning:An introduction[M].Cambridge:MIT press,1998.
9Duan J,Gough N E,Mehdi Q H.Multi-agent reinforcement learning for computer game agents[C]//Proceedings of the 3rd international conference on intelligent games and simulation.London:The University of Wolverhampton,2002:104.
10Galway L, Charles D, Black M, et al. Temporal difference control within a dynamic environment [C]//Proceedings of the 8th international confer- ence on intelligent games and simulation. Italy: The University of Bologna, 2007: 42.

共引文献1

1刘子正,卢超,张瑞友.基于蒙特卡罗模拟和Z检验的“2048”游戏并行优化算法[J].小型微型计算机系统,2016,37(3):562-566. 被引量：2

同被引文献40

1杨立功,郭齐胜,张伟.聚合级实体仿真中任务的分解与解聚[J].系统仿真学报,2006,18(z2):186-188. 被引量：4
2荣明,杨镜宇,张昱.多分辨率模型想定数据联合部署系统设计与实现[J].系统仿真学报,2013,25(S1):318-322. 被引量：1
3刘宝宏,黄柯棣.多分辨率建模的研究现状与发展[J].系统仿真学报,2004,16(6):1150-1154. 被引量：50
4王在刚,赵晓哲,孙永侃.潜艇CGF建模中的行为过程类分[J].装备指挥技术学院学报,2004,15(6):36-39. 被引量：2
5刘宝宏,黄柯棣.多分辨率模型联合仿真的研究[J].计算机仿真,2005,22(2):9-11. 被引量：10
6谭良,周明天.基于行为树的内部用户行为监管[J].计算机科学,2007,34(9):277-281. 被引量：3
7李明忠,毕长剑,刘小荷,邓桂龙.空军作战仿真模型聚合与解聚研究[J].系统仿真学报,2008,20(14):3679-3684. 被引量：12
8田尊华,赵龙,贾焰.基于概率区间的不确定性动作建模研究[J].计算机科学,2010,37(1):201-203. 被引量：5
9李志飞,吴静.多粒度建模方法分析及实例研究[J].中国电子科学研究院学报,2011,6(1):72-76. 被引量：10
10刘箴,何少华,柴艳杰.一种虚拟角色的情绪认知评价模型[J].模式识别与人工智能,2011,24(2):160-167. 被引量：9

引证文献6

1赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
2刘瑞峰,王家胜,张灏龙,田梦凡.行为树技术的研究进展与应用[J].计算机与现代化,2020,0(2):76-82. 被引量：14
3刘翠娟,刘箴,柴艳杰,刘婷婷,陈效奕.严肃游戏中虚拟角色行为建模综述[J].中国图象图形学报,2020,25(7):1318-1329. 被引量：4
4刘瑞峰,王家胜,张灏龙,田梦凡.基于行为树的指挥控制流程建模框架[J].科学技术与工程,2020,20(34):14146-14151. 被引量：7
5章乐贵,陈希亮,曹雷,汤伟.智能蓝军作战行为模型构建技术研究[J].国防科技,2022,43(1):14-20. 被引量：3
6刘兆鹏,徐新海,袁博文,张金璐.一种多分辨率仿真模型构建方法[J].系统仿真学报,2023,35(1):202-211.

二级引证文献26

1史殿习,苏雅倩文,李宁,孙亦璇,张拥军.基于行为树调度的多无人机未知室内空间探索方法[J].计算机科学,2022,49(S02):83-93. 被引量：3
2刘瑞峰,王家胜,张灏龙,田梦凡.基于行为树的指挥控制流程建模框架[J].科学技术与工程,2020,20(34):14146-14151. 被引量：7
3金信琴,滕悦.基于空巢老人群体的陪伴互动产品设计研究[J].设计,2021,34(4):14-16. 被引量：4
4马悦,吴琳,许霄,刘昀.智能化作战任务规划需求分析[J].指挥控制与仿真,2021,43(4):61-67. 被引量：17
5冷志成,隋钟石,刘瑞峰,薛凤桐.基于行为树的CGF模型构建方法研究[J].信息系统工程,2021,34(8):113-116. 被引量：2
6葛从兵,陈剑,严吉皞.基于Unity3D的水库大坝巡视检查培训系统[J].水利水运工程学报,2021(6):111-115. 被引量：7
7章乐贵,陈希亮,曹雷,汤伟.智能蓝军作战行为模型构建技术研究[J].国防科技,2022,43(1):14-20. 被引量：3
8刘满,张宏军,徐有为,冯欣亮,冯玉芳.群队级兵棋实体智能行为决策方法研究[J].系统工程与电子技术,2022,44(8):2562-2569. 被引量：2
9马悦,吴琳,薄其蒙,郭圣明.作战任务规划模型与求解方法综述[J].火力与指挥控制,2022,47(9):1-8. 被引量：4
10彭鹏菲,龚雪,郑雅莲,姜俊.基于模拟退火与强化学习机制的任务分析方法[J].兵器装备工程学报,2022,43(9):315-322. 被引量：3

1徐长月,黄高明,侯小阳.应答式干扰下基于Q学习算法的跳频系统信道调度方法[J].电讯技术,2017,57(12):1451-1456. 被引量：4
2张湘宇.信息时代的教师专业化[J].读写算（教师版）（素质教育论坛）,2017,0(19):135-135.
3卢海滨.市场经济条件下企业经济管理模式探索[J].经济视野,2017,0(9):58-58.
4朱姗姗.在游戏中探索策略——“棋盘上的奥秘”教学实践与思考[J].教学月刊（小学版）（数学）,2017(4):30-33.
5孙凤娇.借题发挥,阅读教学的应然追求[J].小学教学参考（语文版）,2017(10):27-27. 被引量：1
6罗秀容.“口语交际”的目标不能游离[J].四川教育,2017,0(18):43-43.
7孙凤慧.泛在学习理念指导下应用微课宝开展复习课教学实践的探究[J].中国校外教育（中旬）,2017,0(11):68-68.
8敖珺,梁积卫,马春波,曹桂兴,李聪,沈宇飞.自由空间光通信中基于Q学习算法的Raptor10码译码策略[J].中国激光,2017,44(9):221-229. 被引量：3
9严林.激发情感创建模式探索策略[J].考试周刊,2017,0(15):59-59.
10戴小蓉.中职学前教育专业音乐教学改革的研究与分析[J].黄河之声,2017(14):61-61. 被引量：7

计算机应用与软件

2017年第12期

浏览历史

内容加载中请稍等...

一种改进型Q学习算法及其在行为树中的应用被引量：6

参考文献1

二级参考文献20

共引文献1

同被引文献40

引证文献6

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

一种改进型Q学习算法及其在行为树中的应用 被引量：6

参考文献1

二级参考文献20

共引文献1

同被引文献40

引证文献6

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

一种改进型Q学习算法及其在行为树中的应用被引量：6