强化学习系统的结构及算法被引量：3

The Architectures and Algorithm of Reinforcement Learning System

下载PDF

导出

摘要 1.引言学习是人类获取知识的主要形式,也是人类具有智能的显著标志,是人类提高智能水平的基本途径。建造具有类似人的智能机器(Agent)是智能控制、人工智能的研究目标。要使机器具有一定的智能,一种方式是靠人事先编程来建立知识库和推理机制,这具有明显的局限性。我们希望Agent具有向环境学习的能力,即自动获取知识、积累经验、不断更新和扩充知识, The word,reinforcement learning,comes from behavior psychology. This subject takes learning as trial and error process so as to map world state to the actions. The architecture of reinforcement learning system is discussed and implement method of each function and learning algorithm are presented in this paper.

作者张汝波顾国昌张国印

机构地区哈尔滨工程大学计算机系

出处《计算机科学》 CSCD 北大核心 1999年第10期53-56,共4页 Computer Science

关键词强化学习系统知识获取人工智能算法 Reinforcement learning Intelligent control system Q-learning

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1阎平凡.再励学习——原理、算法及其在智能控制中的应用[J].信息与控制,1996,25(1):28-34. 被引量：30

二级参考文献6

1Leslie Pack Kaelbling. Associative Reinforcement Learning: Functions in k-DNF[J] 1994,Machine Learning(3):279～298
2Leslie Pack Kaelbling. Associative Reinforcement Learning: A Generate and Test Algorithm[J] 1994,Machine Learning(3):299～319
3Leslie Pack Kaelbling. Associative reinforcement learning: Functions ink-DNF[J] 1994,Machine Learning(3):279～298
4Ronald J. Williams. Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning[J] 1992,Machine Learning(3-4):229～256
5Christopher J.C.H. Watkins,Peter Dayan. Technical Note: Q-Learning[J] 1992,Machine Learning(3-4):279～292
6Richard S. Sutton. Learning to predict by the methods of temporal differences[J] 1988,Machine Learning(1):9～44

共引文献29

1王维,王磊,禹建丽.学习控制在机器人路径规划中的应用[J].控制工程,2003,10(z2):193-195.
2袁著祉,陈增强,李翔.联接主义智能控制综述[J].自动化学报,2002,28(S1):38-59. 被引量：3
3郭红霞,吴捷,刘永强,王春茹.基于强化学习算法的静止同步补偿电压控制器[J].电网技术,2004,28(19):9-13. 被引量：25
4王春茹,吴捷,郭红霞.基于强化学习算法的网络拥塞控制[J].计算机工程与应用,2005,41(3):18-20. 被引量：2
5张海渠,陈淑利.塑性加工中的人工智能技术[J].沈阳大学学报,2002,14(4):5-9.
6郭红霞,吴捷,王春茹.基于强化学习的模型参考自适应控制[J].控制理论与应用,2005,22(2):291-294. 被引量：6
7李佳宁,易建强,赵冬斌,西广成.一种基于强化学习的在线神经模糊控制系统[J].中国科学院研究生院学报,2005,22(5):631-638. 被引量：1
8陈圣磊,吴慧中,韩祥兰,肖亮.一种多步Q强化学习方法[J].计算机科学,2006,33(3):147-150. 被引量：3
9秦政,丁福光,边信黔.强化学习在移动机器人自主导航中的应用[J].计算机工程与应用,2007,43(18):215-217. 被引量：5
10马莉,蔡自兴.基于强化学习的模糊自适应控制器[J].中南工业大学学报,1998,29(2):172-175. 被引量：1

同被引文献50

1邹庆元,孙隆和,姜长生,丁全心,邱晓辉.BP神经网络在导弹攻击区处理中的应用探讨[J].航空兵器,2000,7(2):5-7. 被引量：5
2逮宏亮,张艺瀚,李伟仁.基于RBF网络的导弹攻击区解算及对比分析[J].火力与指挥控制,2004,29(5):47-50. 被引量：3
3查立宏,章代雨,李胜林.基于BP神经网络的空空导弹攻击区精确拟合[J].制导与引信,2005,26(4):20-24. 被引量：4
4杜昌平,周德云,江爱伟.一种空空导弹可攻击区快速算法[J].西北工业大学学报,2006,24(6):682-685. 被引量：31
5Amazon. Amazon EC2 Pricing[EB/OL].(2011). http: //aws. amazon. com/ec2/pricing/.
6Barham P,Dragovic B,Fraser K.Xen and the art of virtualization [C]//2003.
7胡奇英,刘建庸著.马尔可夫决策过程引论[M].2版.西安电子科技大学出版社,2000.
8王宏伦,张安,张海,伍冰,佟明安.空-空导弹攻击区的高精度快速拟合[J].航空学报,1997,18(5):631-632. 被引量：19
9刘代军,高晓光,李言俊,董秉印.中远程复合制导空空导弹允许攻击区计算[J].航空兵器,1998,5(2):1-5. 被引量：9
10戚德虎,康继昌.BP神经网络的设计[J].计算机工程与设计,1998,19(2):48-50. 被引量：155

引证文献3

1李文婵,彭志平.基于强化学习的虚拟机资源自动配置[J].电子设计工程,2014,22(5):38-40. 被引量：1
2孙安博,何丰,张腾.基于Cloudsim测试强化学习在云计算资源调度上的应用[J].福建电脑,2017,33(11):11-12. 被引量：1
3弋滨,周航,魏蓝,夏群利.机器学习在空空导弹攻击区解算中的应用及展望[J].兵器装备工程学报,2024,45(12):132-142.

二级引证文献2

1孙平安.基于粒子群算法的云计算资源配置研究[J].西南师范大学学报（自然科学版）,2018,43(1):70-74. 被引量：2
2邢艳芳,秦军.基于可信任度的任务调度策略研究[J].计算机与数字工程,2020,48(9):2190-2194. 被引量：1

1李伟,何雪松,叶庆泰,朱昌明.基于先验知识的强化学习系统[J].上海交通大学学报,2004,38(8):1362-1365. 被引量：5
2王雪松,田西兰,程玉虎,马小平.最小二乘支持向量机在强化学习系统中的应用[J].系统仿真学报,2008,20(14):3702-3706. 被引量：3
3马莉,蔡自兴.基于强化学习的模糊自适应控制器[J].中南工业大学学报,1998,29(2):172-175. 被引量：1
4CHENG Yuhu WANG Xuesong ZHANG Yiyang.A Bayesian Reinforcement Learning Algorithm Based on Abstract States for Elevator Group Scheduling Systems[J].Chinese Journal of Electronics,2010,19(3):394-398. 被引量：2
5俞星星,阎平凡.强化学习系统及其基于可靠度最优的学习算法[J].信息与控制,1997,26(5):332-339. 被引量：3
6吴洪岩,刘淑华,张嵛.基于RBFNN的强化学习在机器人导航中的应用[J].吉林大学学报（信息科学版）,2009,27(2):185-190. 被引量：11
7仲宇,张汝波,顾国昌.分布式强化学习系统的体系结构研究[J].计算机工程与应用,2003,39(11):111-113. 被引量：5
8钟宇平,王丽丹,段书凯,张凤运,李波.基于神经网络及强化学习的智能控制系统[J].西南大学学报（自然科学版）,2013,35(11):172-179. 被引量：13
9孙羽,张汝波,徐东.强化学习中资格迹的作用[J].计算机工程,2002,28(5):128-129. 被引量：1
10庞士焕,朱相冰,张琦,汤萍萍.基于MAXQ方法的分层强化学习[J].计算机技术与发展,2009,19(4):154-156. 被引量：1

计算机科学

1999年第10期

浏览历史

内容加载中请稍等...

强化学习系统的结构及算法被引量：3

参考文献1

二级参考文献6

共引文献29

同被引文献50

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

强化学习系统的结构及算法 被引量：3

参考文献1

二级参考文献6

共引文献29

同被引文献50

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

强化学习系统的结构及算法被引量：3